湖仓一体架构概览

📅 2026/7/1 1:36:54
湖仓一体架构概览
目录一、整体架构底座与分层逻辑二、端到端完整数据流1. 第一阶段全量数据入湖数据湖层2. 第二阶段数仓域分层加工数据仓库层3. 第三阶段特征存储双链路加工特征存储层1离线特征链路批量生成2在线特征链路实时服务4. 第四阶段消费与回流闭环三、核心架构优势在湖仓一体Lakehouse架构下三者并非独立堆叠而是基于统一的底层存储与元数据体系形成分层协作的数据流核心是一份原始数据、多域分层加工、域间能力共享彻底避免传统架构下的数据冗余与口径不一致问题。以下是湖仓一体架构下数据湖、数据仓库与特征存储的完整数据流图示一、整体架构底座与分层逻辑湖仓一体以「统一对象存储 开放表格式 全局元数据中心」为底层底座三者作为三个独立的逻辑域构建其上共享底层基础设施原始数据域即数据湖本体承载全量原生数据是整个架构唯一的数据源底座业务分析域即构建于湖上的数据仓库承载标准化的业务指标与明细数据机器学习域即特征存储复用湖仓的存储与计算能力仅补充ML专属的元数据管理与在线服务能力二、端到端完整数据流1. 第一阶段全量数据入湖数据湖层这是整个数据流的唯一源头所有原始数据仅采集一次、存储一份数据源覆盖业务数据库CDC、用户行为日志、IoT数据流、第三方外部数据、图片/音视频等非结构化数据入湖方式批量离线导入、实时CDC同步、流式接入Kafka Flink并存存储形态原始数据以Parquet/ORC列式格式存入对象存储S3/OSS/ADLS通过Apache Iceberg/Delta Lake/Hudi等开放表格式统一管理Schema、数据版本与快照对应数仓分层ODS操作数据层保留最细粒度的原始数据2. 第二阶段数仓域分层加工数据仓库层基于湖上的ODS原始数据通过ELT模式完成标准化数仓建模产出业务分析可用的高质量数据同时为特征工程提供清洗后的公共数据源DWD明细层对原始数据做清洗、脱敏、格式标准化、维度关联保留事务级明细粒度DWS汇总层按用户、商品、订单等业务主题做轻度聚合形成公共维度与公共指标ADS应用层面向特定报表场景做高度聚合直接对接BI输出计算引擎Spark、Trino、Presto等按需弹性调用计算与存储完全解耦关键衔接DWD/DWS层的标准化数据会直接作为特征工程的输入避免算法团队重复做数据清洗与口径对齐3. 第三阶段特征存储双链路加工特征存储层这是湖仓一体架构的核心差异化设计特征存储不独立建设底层存储离线特征直接落地在数据湖中仅在线特征独立部署低延迟存储从根源解决训练-服务一致性问题。1离线特征链路批量生成数据源直接读取湖仓中ODS/DWD/DWS层的开放表无需重复搬运数据加工过程通过Spark批量执行特征工程逻辑窗口统计、交叉特征、编码转换等生成离线特征宽表存储位置离线特征仍以Iceberg/Delta表格式存储在数据湖对象存储中特征存储仅管理其元数据核心能力复用湖仓表的**时间旅行Time Travel**能力实现点时间回溯Point-in-Time Join精准还原历史任意时刻的特征值彻底避免训练时的数据穿越问题用途供给模型离线训练、批量特征回溯、特征探索分析2在线特征链路实时服务数据同步需在线调用的离线特征通过特征存储的同步机制全量批量同步 增量流式同步从湖仓的离线特征表同步到在线KV存储Redis、Cassandra、DynamoDB等实时特征补充用户实时行为等流式数据经Flink加工后同时写入湖仓实时表和在线特征存储保证流批口径一致一致性保障离线与在线特征共用同一套加工逻辑与计算口径无需分别开发两套代码从根源消除训练-服务偏差Training-Serving Skew用途供给线上模型推理的毫秒级特征查询4. 第四阶段消费与回流闭环业务分析侧数仓ADS层对接BI报表、可视化工具、自助分析平台服务业务决策机器学习侧离线批量导出特征数据集用于模型训练在线通过API/SDK调用特征完成推理数据回流模型推理日志、预测结果、线上效果数据回流到数据湖原始层用于模型监控、效果归因与特征迭代形成完整数据闭环三、核心架构优势无数据冗余原始数据、明细数据仅存一份各域仅存储自身加工结果避免传统架构下数仓与特征平台各自维护一套数据的问题口径天然统一共享元数据与血缘特征口径与业务指标口径对齐特征血缘可直接追溯到湖仓原始表成本最优存储计算彻底分离冷数据存低成本对象存储计算资源按需扩缩容开放不绑定基于开放表格式构建不绑定特定厂商引擎可灵活切换计算与服务组件需要我补充一份基于开源组件Iceberg Spark Feast的落地技术栈清单吗