技术掌握程度
技术栈
- Python
- PySpark
- Apache Flink
- Airflow
- DolphinScheduler
- Kafka
- Hive
- ClickHouse
- Doris
- Superset
- ECharts
- TensorFlow
核心能力
- ETL流水线开发 - 设计过PB级数据的ETL流水线,日处理数据量超10PB,支持实时和批量两种处理模式。
- 实时数据处理 - 使用Kafka + Flink构建实时数据管道,端到端延迟控制在秒级以内。
- 数据仓库建设 - 构建企业级数据仓库,实现数据资产化管理,支持即席查询和报表分析。
- 可视化报表 - 使用ECharts、Superset搭建数据可视化平台,提供直观的数据展示。
- 机器学习应用 - 将机器学习应用于用户画像、推荐系统、风控模型等业务场景。
项目经验
为数据分析平台构建过完整的实时数据处理架构,日均处理日志数据10亿+,支持实时大屏和实时推荐场景。
设计过用户画像系统,整合多源数据构建100+用户标签,支持精细化运营和个性化推荐。