hudi系列

阅读: 评论:0

hudi系列

hudi系列

1. 默认清理策略

在hudi系列-旧文件清理(clean)中介绍了清理的大致流程,可以防止文件系统的无限膨胀,所以它是必须的。hudi提供三种查询方式:读优化、快照读、增量读,无论是哪种方式,由于hudi的文件组织是有版本的概念(FileGroup,FileSlice),旧版本的文件持续在执行清理,如果被清理的文件正在读取或者即将被读取到,那岂不是很影响使用,所以我们需要设置合理的清理策略保障上层数据处理任务的平稳运行,提高系统的容错性。

  • KEEP_LATEST_COMMITS:默认策略,表示保留最后n次提交,默认为10 ,通过参数ained​或ain_commits​(flink)设置;
  • KEEP_LATES_FILE_VERSIONS:保留最后n个文件版本,默认为3,通过参数hoodie.ained设置;
  • KEEP_LATEST_BY_HOURS:保留最后n小时,默认24小时,通过参数hoodie.ained设置,这是0.11版本后新增的;

可以通过hoodie.cleaner.policy来配置使用以上哪一种清理策略。

2. 选择清理策略

在flink+hudi的使用场景中,一般来说当checkpoint时触发一次hudi的commit࿰

本文发布于:2024-01-31 11:45:56,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170667275928286.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:系列   hudi
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23