Hadoop大数据开发实战-第03章-访问HDFS课件

PPT

阅读 263 次
下载 0 次
页数 31 页
大小 1.858 MB
2022-11-14 上传

下载文档10.00 元 加入VIP免费下载

此文档由【我爱分享】提供上传，收益归文档提供者，本网站只提供存储服务。若此文档侵犯了您的版权，欢迎进行违规举报或版权认领

可在后台配置第一页与第二页中间广告代码

可在后台配置第二页与第三页中间广告代码

可在后台配置第三页与第四页中间广告代码

还剩10页未读，继续阅读

【这是免费文档，您可以免费阅读】

/ 31

下载文档10.00 元 加入VIP免费下载

TA最新上传

文本内容

【文档说明】Hadoop大数据开发实战-第03章-访问HDFS课件.pptx，共(31)页，1.858 MB，由我爱分享上传

转载请保留链接：https://www.ichengzhen.cn/view-10455.html

以下为本文档部分文字说明：

访问HDFS目录HDFS核心设计0102HDFS分布式文件系统03HDFS体系结构HDFS简介▪HDFS：HadoopDistributedFileSystem一个分布式文件系统基于流数据模式访问和处理超大文件的需求而开发的适合

应用在大规模数据集上HDFS简介▪优点处理超大文件能用来存储管理PB级的数据1PB=1024TB处理非结构化数据流式的访问数据一次写入、多次读取运行于廉价的商用机器集群上可运行在低廉的商用硬

件集群上故障时能继续运行且不让用户察觉到明显的中断HDFS简介▪局限性不适合处理低延迟数据访问HDFS是为了处理大型数据集分析任务的，主要是为了达到高的数据吞吐量而设计的对于低延时的访问需求，HBase是更好的选

择无法高效存储大量的小文件小文件会给Hadoop的扩展性和性能带来严重问题利用SequenceFile、MapFile等方式归档小文件不支持多用户写入及任意修改文件只有一个写入者，只能执行追加操作不支持多个用户对同一文件的写操作，以及在文件任意位置进行修改HDFS特性▪高容错，可扩展性

及可配置性强▪跨平台▪shell命令接口▪机架感知功能▪负载均衡▪Web界面HDFS目标▪检测和快速恢复硬件故障故障的检测和快速自动恢复是HDFS的一个核心目标▪流式数据访问设计成适合进行批量处理重视数据吞吐量，而不是数据访问的反应

速度▪大规模数据集支持大文件存储一个单一的HDFS实例能支撑数以千万计的文件▪简化一致性模型对文件实行一次性写入，多次读取的访问模式HDFS目标▪移动计算代价比移动数据代价低一个应用请求的计算，离它操作的数据越近就越高效，这在数据达到海量级别

的时候更是如此▪可移植性HDFS在设计时就考虑到平台的可移植性，这种特性方便了HDFS作为大规模数据应用平台的推广▪通信协议所有的通信协议都是在TCP/IP协议之上的HDFS核心设计▪数据块（Block）数据块是HDFS上最基本的存储单位

HDFS块默认大小为128M小于一个块大小的文件不会占据整个块的空间hadoopfsck/sogou.500w.utf8-files-locations-blocks对块进行抽象会带来的好处一个文件的大小可以大于网络中任意一个磁盘的容量使用块抽象而不是文件可以简化存储子系统块非常适合用

于数据备份进而提供数据容错能力和可用性HDFS核心设计▪数据块复制HDFS为了做到可靠性（reliability）创建了多份数据块（计算节点中（computedatablocks）的复制（replicas），并将它们放置在服务器群的nodes），M

apReduce就可以在它们所在的节点上处理这些数据了。HDFS将每个文件存储成块（Block）序列每个文件的Block大小和复制（Replication）因子都是可配置的hdfs-site.xmlHDFS核心设计▪数据副本的存放策略数据分块存储和副本的存放，是保证可靠性和高性

能的关键将每个文件的数据进行分块存储每一个数据块又保存有多个副本这些数据块副本分布在不同的机器节点上HDFS核心设计▪数据副本的存放策略在多数情况下，HDFS默认的副本系数是3Hadoop默认对3个副本

的存放策略第一块：在本机器的HDFS目录下存储一个Block第二块：不同Rack(机架)的某个DataNode上存储一个Block第三块：在该机器的同一个Rack下的某台机器上存储最后一个Block更能多副本：随机节点副本存放策

略Rack1Rack2NNmeta->f.oobarblk1,blk2,blk3,blk4,blk5DN1blk1,blk2,blk3,blk5DN2blk1,blk4,blk5DN3DN4DN5blk2,blk3,blk5blk1,blk3,blk4blk2,blk4HDFS核心设计▪

设置集群Block的备份数方法一：配置文件hdfs-site.xml方法二：通过命令修改备份数bin/hadoopfs-setrep-R1/<property><name>dfs.replication</

name><value>1</value></property>注意：方法二可以改变整个HDFS里面的备份数，不需要重启HDFS系统，而方法一需要重启HDFS系统才能生效。HDFS核心设计▪安全模式(SafeMode)安全模式是Hadoop集群的一种保护模式NameNode在启动时会自动进入安

全模式，也可以手动进入。当系统处于安全模式时，会检查数据块的完整性。用命令来操作安全模式hadoopdfsadmin-safemodeleave//强制NameNode退出安全模式hadoopdfsadmin-safemodeenter//进入安全模式hadoopdfs

admin-safemodeget//查看安全模式状态hadoopdfsadmin-safemodewait//等待，一直到安全模式结束HDFS核心设计▪负载均衡机器与机器之间磁盘利用率不平衡是HDF

S集群非常容易出现的情况尤其是在DataNode节点出现故障或在现有的集群上增添新的DataNode的时候分析数据块分布和重新均衡DataNode上的数据分布的工具$HADOOP_HOME/bin/start-ba

lancer.sh-t10%HDFS核心设计▪负载均衡负载均衡程序作为一个与独立的进程NameNode进程分开执行▪心跳机制HDFS核心设计▪机架感知大型Hadoop集群是以机架的形式来组织的同一个机架上不同节点间的网络状况比不同机架之间的

更为理想默认情况下，Hadoop的机架感知是没有被启用的启用机架感知功能，在NameNode所在机器的core-site.xml中配置一个选项：<property><name>topology.script.file.name</name><v

alue>/path/to/script</value><!—value的值是一个脚本--></property>HDFS体系结构▪Master/Slave架构HDFS体系结构▪文件切分成块（默认大小128M），以块为单位，每个块有多个副本存储在不同的机器上，副本数可在文件生成时指定（默认3

）▪NameNode是主节点，存储文件的元数据如文件名，文件目录结构，文件属性（生成时间,副本数,文件权限），以及每个文件的块列表以及块所在的DataNode等等▪DataNode在本地文件系统存储文件块数据，以及块数据的校验主要组件的功能NameNodeDataNod

e•存储元数据•存储文件内容•元数据保存在内存中•文件内容保存在磁盘•保存文件,block，datanode之间的映射关系•维护了blockid到datanode本地文件的映射关系主要组件的功能▪NameNodeNamenode是一个中心服务器，单一节点，负责管理文件系统的名字

空间(namespace)以及客户端对文件的访问文件操作，NameNode负责文件元数据的操作，DataNode负责处理文件内容的读写请求，数据流不经过NameNode，只会询问它跟那个DataNode联系主要组件的功能▪NameNode副本存放在那些DataNode上由Na

meNode来控制，根据全局情况做出块放置决定，读取文件时NameNode尽量让用户先读取最近的副本，降低带宽消耗和读取时延NameNode全权管理数据块的复制，它周期性地从集群中的每个DataNode接收心跳信号和块状态报告(B

lockReport)。接收到心跳信号意味着该DataNode节点工作正常。块状态报告包含了一个该DataNode上所有数据块的列表。主要组件的功能块存储结构metadate物理主要组件的功能▪DataNode一个数据块在DataNode

上以文件存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息心跳是每3秒一次，心跳返回结果带有NameNode给该DataN

ode的命令，如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟NameNode没有收到某个DataNode的心跳信息，则NameNode认为该DataNode节点已死亡不可用。主要组件功能▪Second

aryNameNode辅助的NameNode周期性将EditsLog文件合并工作原理，如右图所示主要组件功能▪工作流程secondarynamenode通知namenode切换edits文件secondarynamenode从namenode获得fsimage和edits(通过ht

tp)secondarynamenode将fsimage载入内存，然后开始合并editssecondarynamenode将新的fsimage发回给namenodenamenode用新的fsimage替换旧的fsimage主要组件功能▪什么时候checkpiontfs.checkpoin

t.period指定两次checkpoint的最大时间间隔，默认3600秒。fs.checkpoint.size规定edits文件的最大值，一旦超过这个值则强制checkpoint，不管是否到达最大时间间

隔。默认大小是64M数据损坏处理▪当DN读取block的时候，它会计算checksum；▪如果计算后的checksum，与block创建时值不一样，说明该block已经损坏。▪client读取其它DN上的block；NN标记该块已经损坏，然后复制block达到预期设置

的文件备份数；▪DN在其文件创建后三周验证其checksum。HDFS文件权限▪与Linux文件权限类似▪r:read;w:write;x:execute，权限x对于文件忽略，对于文件夹表示是否允许访问其内容▪如果Linux系统用户zhangsan使用

hadoop命令创建一个文件，那么这个文件在HDFS中owner是zhangsan▪HDFS的权限目的：阻止好人做错事，而不是阻止坏人做坏事。HDFS相信，你告诉我你是谁，我就认为你是谁▪Root用户只能查看，不能写入▪hadoopd

fs-chmod777/谢谢！

我爱分享

分享文档，知识给梦想插上翅膀

文档 1132
被下载 2
被收藏 0

TA的店铺

Hadoop大数据开发实战-第03章-访问HDFS课件

中职双曲线定义及标准方程课件

中职数字音频处理课件

中职数学说课程课件

中职实用口才训练课件完整版全套教程

中职数模和模数转换电路课件

中职市场营销课件

中职生主题班会课件——情商VS智商

中职生职业生涯设计-课件

中职生职业生涯规划课件概要

中职生职业生涯规划课件42