首页 > 其他分享> > Hudi，Hive Sync，实现湖仓一体操作

Hudi，Hive Sync，实现湖仓一体操作

2021-12-26 02:02:10 作者：互联网

一、将Hudi数据同步到Hive

1）需要将编译好的hudi-hadoop-mr-bundle-0.10.0.jar，放到对应的环境中，../CDH/jars 和 ../CDH/lib/hive/lib下面，具体步骤可以参考Flink1.3.1+Hudi0.10初探

cd /app/hudi-0.10.0/packaging/hudi-hadoop-mr-bundle/target
cp hudi-hadoop-mr-bundle-0.10.0.jar /opt/cloudera/parcels/CDH/lib/hive/lib
cp hudi-hadoop-mr-bundle-0.10.0.jar /opt/cloudera/parcels/CDH/jars

# 在hive的辅助jar，auxlib目录下也需要放相应的jar
cp hudi-hadoop-mr-bundle-0.10.0.jar /usr/local/src/hook/hive

2）测试数据

uuid,name,addr,phone,update_date,bir_date
1,逝去的青春,上海市宝山区,183****1111,20200805,20020101
2,葬爱,上海市虹口区,183****2222,20200805,20020101
3,罙罙の回憶,上海市虹口区,183****3333,20200805,20020101
4,忘了天空的颜色,上海市虹口区,183****4444,20200805,20020101
5,李彦龙,上海市松江区,183****5555,20200801,20010101
6,李浩鹏,上海市松江区,183****6666,20200801,20010101
7,李天一,上海市松江区,183****7777,20200801,20010101
8,李朵雯,上海市松江区,183****8888,20200801,20010101
9,李雨杭,上海市松江区,183****9999,20200801,20010101
10,王满,杭州市西湖区,153****0000,20200802,20000101
11,王琳,杭州市西湖区,153****1111,20200802,20000101
12,王昕,杭州市西湖区,153****2222,20200802,20000101
13,贾一一,杭州市西湖区,153****3333,20200802,20000101
14,石浩,西安市莲湖区,137****4444,20200803,19970101
15,石子彤,西安市莲湖区,137****5555,20200803,19970101
16,许放炮的,西安市莲湖区,137****6666,20200803,19970101

3）pom.xml

二、在使用spark2.4.0-cdh6.2.1查询同步的hive表时，存在错误，因为先前修改源码为了写入数据，建议升级spark为2.4.3以上（以下实践在spark2.4.5上进行）

注：如果只是将上游数据写入hudi，同时同步到hive中，如果后续spark不读取生成rt或者ro表，使用2.4.0版本是没问题的，但如果需要使用spark继续对生成的hive进行处理，建议升级版本2.4.3以上

1）

标签：Hudi,jar,Sync,hive,183,Hive,松江区,hudi,上海市
来源： https://www.cnblogs.com/baran/p/15732139.html