【技术调研】通过Apache Hudi和Alluxio建设高性能数据湖

阅读：评论：0

T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术，包括Apache Hudi和Alluxio。在本文中，您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半。此外，数据分析人员如何使用Presto、Hudi和Alluxio让查询速度提高了10倍。我们基于数据编排为数据管道的多个阶段（包括提取和分析）构建了数据湖。

1.T3出行数据湖总览

T3出行当前还处于业务扩张期，在构建数据湖之前不同的业务线，会选择不同的存储系统、传输工具以及处理框架，从而出现了严重的数据孤岛使得挖掘数据价值的复杂度变得非常高。由于业务的迅速发展，这种低效率成为了我们的工程瓶颈。

我们转向了基于阿里巴巴OSS（类似于AWS S3的对象存储）的统一数据湖解决方案，以遵循多集群、共享数据架构(Multi-cluster,Shared-data Architecture)的设计原则提供集中位置来存储结构化和非结构化数据。与不同的数据孤岛相反，所有应用程序都将OSS存储作为事实的来源来访问。这种体系结构使我们能够按原样存储数据，而不必先对数据进行结构化，并运行不同类型的分析以指导更好的决策，通过大数据处理，实时分析和机器学习来构建仪表板和可视化。