首页 > 其他分享> > Hadoop HDFS 数据流

Hadoop HDFS 数据流

2019-04-02 14:54:19 作者：互联网

在这里插入图片描述

客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
NameNode 返回是否可以上传。
客户端请求第一个 block 上传到哪几个 datanode 服务器上。
NameNode 返回 3 个 datanode 节点，分别为 dn1、dn2、dn3。
客户端通过 FSDataOutputStream 模块请求 dn1 上传数据，dn1 收到请求会继续调用 dn2，然后 dn2 调用 dn3，将这个通信管道建立完成。
dn1、dn2、dn3 逐级应答客户端。
客户端开始往dn1上传第一个bloc(k先从磁盘读取数据放到一个本地内存缓存)，以packet 为单位，dn1 收到一个 packet 就会传给 dn2，dn2 传给 dn3;dn1 每传一个 packet 会放入一个应答队列等待应答。
当一个 block 传输完成之后，客户端再次请求 NameNode 上传第二个 block 的服务器。(重复执行 3-7 步)。

客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的 DataNode 地址。
挑选一台 DataNode(就近原则，然后随机)服务器，请求读取数据。
DataNode 开始传输数据给客户端(从磁盘里面读取数据输入流，以 packet 为单位来做校验)。
客户端以 packet 为单位接收，先在本地缓存，然后写入目标文件。

标签：HDFS,Hadoop,packet,dn1,dn2,数据流,NameNode,客户端
来源： https://blog.csdn.net/yljphp/article/details/88970669