PB级
日处理数据
10s
数据延迟
50+
数据源接入
200+
可视化报表
项目概述
面向企业级用户的一站式实时数据分析平台,支持多数据源接入、海量数据实时处理、灵活可视化报表和智能数据洞察。平台日处理数据量达到PB级别,端到端延迟控制在10秒以内。
我作为平台架构师,主导了整个数据平台的技术选型和架构设计。从数据采集、实时处理、离线分析到可视化展示,构建了完整的数据链路。
技术栈
- Python 3.11
- Apache Spark
- Apache Kafka
- ClickHouse
- Apache Airflow
- Doris
- Vue3 + ECharts
- Docker
核心功能
- 多数据源接入 - 支持MySQL、PostgreSQL、MongoDB、Elasticsearch、日志文件、API等50+数据源一键接入
- 实时数据处理 - 基于Kafka + Spark Streaming的流式处理引擎,支持秒级延迟的实时计算
- 离线数据仓库 - 基于Airflow调度的ETL流水线,支持增量同步和全量拉取,日处理数据量PB级
- 即席查询 - ClickHouse提供毫秒级OLAP查询能力,支持任意维度的Ad-hoc分析
- 可视化报表 - 拖拽式报表设计器,支持折线图、饼图、漏斗图、GIS地图等20+图表类型
- 用户画像 - 标签工厂支持灵活的用户标签定义,支持实时标签和离线标签的融合
架构设计
Lambda架构:采用Lambda架构融合批处理和流处理,批处理层负责全量数据的准确计算,流处理层负责实时数据的快速响应。通过服务层统一查询接口,对外提供一致的数据服务。
Kappa架构升级:针对部分场景,采用Kappa架构简化设计,只保留流处理链路。通过Kafka的日志回放能力,实现历史数据的重新计算,简化运维复杂度。
数据分层存储:热数据存入ClickHouse提供实时查询,温数据存入Doris提供分析查询,冷数据归档至对象存储降低成本。
性能优化
- 查询优化 - ClickHouse物化视图 + 预聚合,复杂查询响应时间从10s降至200ms
- 流处理优化 - Kafka分区策略优化 + Spark并行度调整,吞吐量提升3倍
- 存储优化 - 列式存储 + 压缩算法,数据存储成本降低60%
- 资源调度 - Airflow任务优先级调度,重要任务优先执行, SLA达标率100%