其他分享
首页 > 其他分享> > Hudi,Hive Sync,实现湖仓一体操作

Hudi,Hive Sync,实现湖仓一体操作

作者:互联网

一、将Hudi数据同步到Hive

1)需要将编译好的hudi-hadoop-mr-bundle-0.10.0.jar,放到对应的环境中,../CDH/jars 和 ../CDH/lib/hive/lib下面,具体步骤可以参考Flink1.3.1+Hudi0.10初探

cd /app/hudi-0.10.0/packaging/hudi-hadoop-mr-bundle/target
cp hudi-hadoop-mr-bundle-0.10.0.jar /opt/cloudera/parcels/CDH/lib/hive/lib
cp hudi-hadoop-mr-bundle-0.10.0.jar /opt/cloudera/parcels/CDH/jars

# 在hive的辅助jar,auxlib目录下也需要放相应的jar
cp hudi-hadoop-mr-bundle-0.10.0.jar /usr/local/src/hook/hive

 

2)测试数据

uuid,name,addr,phone,update_date,bir_date
1,逝去的青春,上海市宝山区,183****1111,20200805,20020101
2,葬爱,上海市虹口区,183****2222,20200805,20020101
3,罙罙の回憶,上海市虹口区,183****3333,20200805,20020101
4,忘了天空的颜色,上海市虹口区,183****4444,20200805,20020101
5,李彦龙,上海市松江区,183****5555,20200801,20010101
6,李浩鹏,上海市松江区,183****6666,20200801,20010101
7,李天一,上海市松江区,183****7777,20200801,20010101
8,李朵雯,上海市松江区,183****8888,20200801,20010101
9,李雨杭,上海市松江区,183****9999,20200801,20010101
10,王满,杭州市西湖区,153****0000,20200802,20000101
11,王琳,杭州市西湖区,153****1111,20200802,20000101
12,王昕,杭州市西湖区,153****2222,20200802,20000101
13,贾一一,杭州市西湖区,153****3333,20200802,20000101
14,石浩,西安市莲湖区,137****4444,20200803,19970101
15,石子彤,西安市莲湖区,137****5555,20200803,19970101
16,许放炮的,西安市莲湖区,137****6666,20200803,19970101

 

3)pom.xml

 

二、在使用spark2.4.0-cdh6.2.1查询同步的hive表时,存在错误,因为先前修改源码为了写入数据,建议升级spark为2.4.3以上(以下实践在spark2.4.5上进行)

注:如果只是将上游数据写入hudi,同时同步到hive中,如果后续spark不读取生成rt或者ro表,使用2.4.0版本是没问题的,但如果需要使用spark继续对生成的hive进行处理,建议升级版本2.4.3以上

1)

标签:Hudi,jar,Sync,hive,183,Hive,松江区,hudi,上海市
来源: https://www.cnblogs.com/baran/p/15732139.html