其他分享
首页 > 其他分享> > 工具-Hadoop distcp

工具-Hadoop distcp

作者:互联网

fs shell拷贝和移动

通常我们使用hadoop提供的fs shell来完成hdfs文件管理。为了对比dictcp,先看下常用的-cp和-mv的使用。
现有目录/lib包含文件1.data 2.data

-cp如下操作

-mv类似,只是原目录执行完后被删除

distcp 原理

fs shell操作都是单进程的,对于大量数据的拷贝效率太低,且不支持集群拷贝。distcp就是为了解决这两个问题的,它通过构造一系列并发的map任务来支持大量数据集群内/跨集群拷贝,拷贝过程中可以通过MR执行进度来看拷贝进度。

整个流程示意如下:

discp原理示意图

distcp 操作方法

hadoop distcp dir1 dir2 可用来代替cp,但又有所不同,分为如下两种情况

常用跨集群备份操作如下:

hadoop distcp -update -delete hdfs://namenode1:port1/dir1 hdfs://namenode2:port2/dir2

这里-delete删除没在源路径出现的文件或文件夹,-p文件状态属性如权限、副本、块大小等。

原创,转载请注明来自

标签:dir2,fs,hadoop,Hadoop,lib3,工具,拷贝,distcp
来源: https://blog.csdn.net/wenzhou1219/article/details/88920013