当前位置: 首页> 娱乐> 影视 > 【Hudi】hudi概述

【Hudi】hudi概述

时间:2025/7/18 7:32:22来源:https://blog.csdn.net/weixin_45746689/article/details/139302513 浏览次数:0次

Apache Hudi是什么

  • 下一代数仓解决方法,提供高效的upsert和近实时更新
  • Hudi提供了表、事务、高效的upsert/delete、高级索引、流摄取服务、数据集群/压缩优化和并发。同时保持数据的开源文件格式
    两种文件格式:parquet、avro
  • Apache Hudi不仅非常适合流工作负载,而且还允许创建高效的增量批处理管道
  • Apache Hudi可以轻松地在任何云存储平台上使用。Hudi的高性能优化,使分析工作负载更快的任何流行查询引擎:Spark、Flink、Presto、Trino、Hive等

Hudi特性

1、可插拔索引机制支持快速upsert/delete
2、支持增量拉取表变更以进行处理
3、支持事务提交及回滚,并发控制
4、支持spark、presto、trino、hive、flink等引擎的SQL读写
5、自动管理小文件、数据聚簇,压缩,清理
6、流式摄入,内置CDC源和工具
7、内置可扩展存储访问的元数据跟踪
8、向后兼容的方式实现表结构变更的支持

Hudi使用场景

1、近实时写入
减少碎片化工具的使用
CDC增量导入RDBMS数据
限制小文件的大小和数据
2、近实时分析
相对于秒级存储,节省资源
提供分钟级别时效性,支持更高效的查询
Hudi作为lib,非常轻量
3、增量pipeline
区分arrivetime和event time处理延迟数据
更短的调度interval减少端到端延迟(小时–>分钟)==>
4、增量导出
替代部分kafka的场景,数据导出到在线服务器存储 (eg.es)

关键字:【Hudi】hudi概述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: