【报资讯】hadoop中namenode职责和hdfs读写

首页 > 数码 > 内容页

【报资讯】hadoop中namenode职责和hdfs读写

2023-01-08 11:31:35 来源：51CTO博客

1、namenode职责：

【资料图】

1.1、管理各个datanode节点

1.2、管理分布式文件系统的元数据信息

比如一个文件多大，文件名，文件被切成几块，每个文件块存到哪台datanode服务上

1.3、通过RPC心跳机制来监控datanode的状态。对于网络通信，http主外，rpc主内

1.4、为了确保数据存储的可靠性，采用冗余机制来实现，注意：副本数量不宜过多，因为会降低整个集群的磁盘利用率，一般采用3副本策略，

2、hdfs读写过程

2.1从HDFS上下载文件过程

①、Client向namenode发起Open file请求。目的是获取指定文件的输入流。

namenode收入请求之后，会检查路径的合法性，此外，还会检查客户端的操作权限。如果检测未通过，则直接报错返回，后续过程不会发生

②、Client也会向namenode发起GetBlockLocation请求，获取指定文件的元数据信息。如果第一步的检测通过，namenode会将元数据信息封装到输入流里,返回给客户端。

③、客户端根据元数据信息，直接去对应的datanode读取文件块，然后下载到本地（或创建本地的输出流，然后做流的对接）

④、读完后，关流

2.2往HDFS上写文件过程

①、Client向namenode发起Create File请求，目的是获取HDFS文件的输出流，namenode收到请求后，会检测路径的合法性和权限，如果检测未通过，直接报错返回。

如果通过检测，namenode会将文件的切块信息（比如文件被切成几块，每个文件块的副本存在哪台datanode上），然后把这些信息封装到输出流里，返回给客户端。

所以注意：文件块的输出（上传）是客户端直接和对应datanode交互的，namenode的作用是告诉Client文件块要发送给哪个datanode上。

②、Client通过输出流，发送文件块（底层会将一个文件块打散成一个一个的packet，每个packet的大小为64kb）。这个过程的机制，叫Pipeline（数据流管理机制），这种机制的目的在于充分利用每台机器的带宽，避免网络瓶颈和高延时的连接，最小化推送所有数据的延时

③、通过数据流管道机制，实现数据的发送和副本的复制。每台datanode服务器收到数据之后，会向上流反馈ack确认机制，直到第五步的ack发送给Client之后，再发送下一个packet。依次循环，直到所有数据都复制完成。此外，在底层传输的过程中，会用到全双工通信。

④、数据上传完成之后，关流

2.3从HDFS上删除文件的流程

①、客户端赂namenode发现删除文件指令，比如：hadoop fs -rm /park01/1.txt

②、namenode收到请求后，会检查路径的合法性及权限

③、如果检测通过，会将对应的文件从元数据中删除。（注意：此时这个文件并没有真正从集群上被删除）

④、每台datanode会定期向namenode发送心跳，会领取删除的指令，批到对应的文件块，进行文件块的删除

标签：删除文件这个文件不宜过多

c盘清理的步骤是什么（如何清理C盘空间）

如何清理C盘空间怎么清理C盘的垃圾文件?每天上网会给电脑带来很多临时文件，这些垃圾文件不清理掉时间久了就会影响到电脑的运行速度。那怎

2022/12/08

振弦采集模块UART通讯协议参数配置工具的使用

振弦采集模块UART通讯协议UART接口支持标准的工业 MODBUS 通讯协议（03、04、06、16指令码)和自定义的简单AABB协议以及$字符串指令集。前

2022/11/15

台盟中央：捐建赫章县金银山活动中心托举少年儿童梦想

(同心筑小康)台盟中央：捐建赫章县金银山活动中心托举少年儿童梦想中新网北京5月16日电题：台盟中央：捐建赫章县金银山活动中心托举

2022/05/17

手机

1

跨省游不再与风险区实施联动管理旅游出行信心有望逐步修复 2022/11/16
1

物管股集体回落雅生活服务(03319)跌7.12% 2022/11/16
1

武汉地铁首列“博物馆专列”上线 2022/05/17
1

千年古刹杭州灵隐寺5月17日有序恢复开放 2022/05/17
1

【挑战365天正能量速写画】第167期：“紫侠仙子”救助两岁迷路女童 2022/05/17

数码

更多>>