技术栈

数据工程

📊

技术掌握程度

Python / Pandas 94%
Spark / Flink 88%
数据仓库 90%
机器学习 82%
可视化 92%

技术栈

  • Python
  • PySpark
  • Apache Flink
  • Airflow
  • DolphinScheduler
  • Kafka
  • Hive
  • ClickHouse
  • Doris
  • Superset
  • ECharts
  • TensorFlow

核心能力

  • ETL流水线开发 - 设计过PB级数据的ETL流水线,日处理数据量超10PB,支持实时和批量两种处理模式。
  • 实时数据处理 - 使用Kafka + Flink构建实时数据管道,端到端延迟控制在秒级以内。
  • 数据仓库建设 - 构建企业级数据仓库,实现数据资产化管理,支持即席查询和报表分析。
  • 可视化报表 - 使用ECharts、Superset搭建数据可视化平台,提供直观的数据展示。
  • 机器学习应用 - 将机器学习应用于用户画像、推荐系统、风控模型等业务场景。

项目经验

为数据分析平台构建过完整的实时数据处理架构,日均处理日志数据10亿+,支持实时大屏和实时推荐场景。

设计过用户画像系统,整合多源数据构建100+用户标签,支持精细化运营和个性化推荐。

返回技能列表