大数据的现状
近年来,湖仓一体架构在大数据领域很受青睐,顾名思义,湖仓一体式将数据湖和数据仓库集成起来的架构,以数据湖为中心,周边集成了云上数据服务,包括数据仓库、机器学习、大数据处理、关系型数据库、非关系型数据库、搜索服务等。其中入湖入仓,湖仓打通、数据出湖、数据处理和数据消费,将各种云上数据服务集成到一起。
数据湖简介
数据湖中数据包括 结构化数据(关系型数据库);半结构化数据(CSV、Json、XML等);非结构化数据/二进制数据(图片、视频);
数据湖的特性:
- MOR(merge on read):写入在分析时,类似 github 的 push
- Update,只更新单列
- 更快查询结果、较低存储成本
- 可用于算法领域,机器学习、预测分析等
技术视角分析数据湖:
数据湖具备数据管理、数据溯源、流批一体的数据入湖架构,通常数据湖都会支持SQL和可编程的 Flink/Spark 数据处理能力,通常支持有向无环图的工作流模式。
最好可以提供一个标准的访问接口,类似于 JDBC 接口可以直接访问数据;
- 风控、推荐、预警(搜索下拉场景,来一条数据处理一条)
- 日活、留存、转化(CTR场景下,数据探索类应用)
- 图片、视频存储(多模态场景下,存储多模态数据)
阿里云案例 - 开源生态构建数据湖
- 提供数据湖元数据管理、数据湖加速等服务
- 客户价值1: 通过分层存储,引入多存储类型解决客户温/冷数据长期存储成本优化,让用户资源扩容更加灵活
- 客户价值2: 计算与存储弹性扩展能力降低管理运维难度,存储与计算的解耦合,让升级更具灵活性
附录
典型的数据湖架构:
分布式对象存储+多模态计算引擎+数据管理典型大数据仓库存储架构:
FDM(原始数据) + GDM(整合和拉宽数据) + ADM(轻量汇总数据) + APP(业务定制数据) + DEV层(临时数据)