【文档说明】Hadoop大数据开发实战第01章-大数据概论课件.pptx,共(52)页,10.622 MB,由我爱分享上传
转载请保留链接:https://www.ichengzhen.cn/view-10460.html
以下为本文档部分文字说明:
大数据概论核心内容大数据背景大数据案例大数据基本概念大数据技术大数据到底是个啥?就这半瓶水你想到的是什么?仁者见仁一条裙子引起一场颜色之争不同人看出不同颜色那大数据到底是什么?技术?概念?思维?时代?资深码农眼
中的大数据资深码农眼中的大数据大数据当然是技术,一大堆的技术,somany平台,那是相当复杂,分布式懂不?门槛绝壁很高Marketing与学术男眼中的大数据VolumeBigDataValueVanityVelocity特征数据体量
巨大PB级->EB级->ZB级数据类型多样文本|图像|视频|音频|价值密度低商业价值高速度要求快数据输出输入的速度Marketing与学术男眼中的大数据定义大数据是需要新处理模式才能具有更强大的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产
大数据之定义够大、够多、够快才是大数据。大数据是不可逆的浪潮。你就站在浪潮之巅。大数据应该用在市场营销!大数据应该有准确的定义!Marketing与学术男眼中的大数据为什么我们的星爷这几年拍的电影越来越少?“哲学”层面看大数据“哲学”层面看大数据典型因果关系,而这个社会很多事情
是解释不清的!“哲学”层面看大数据“哲学”层面看大数据“哲学”层面看大数据大数据是一种思维方式,因果->相关...生活不只是眼前的苟且,还有诗和远方...思维要跟上~~~~~一个时代,一场革命这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将
开始这种进程。一个时代,一场革命是不是有点飘乎乎的感觉?大数据案例大数据基本概念大数据之核心1.数据的存储2.数据的计算(处理)全球信息数据概览◼全球80%的信息是非结构化的。◼非结构化信息正在以15倍于结构化信
息的速率增长。◼原始的计算能力正在以极高的速率增长,以至于现今的商用机器已开始展现出5年前的超级计算机的能力。◼对信息的访问已民主化:它可供(或者应该供)所有人使用。◼数据量已经达到PB级->EB级->ZB级传统的解决方案•甲骨文Ora
cle数据库•IBMDB2数据库•开源的MySQL数据库•Sybase公司Sybase数据库•......•一般处理的能力的在GB级别Google•GFS文件系统TheGoogleFileSystem•首次发表于2003年10月,纽约•首个商用的超大型分布式文
件系统•价值在于经验的分享,而不是架构的先进——“这是可行的!”Google•GoogleMapReduce•首次发表于2004年12月,旧金山•基于GFS•汲取了函数式编程的设计思想•把计算移动到数据Google•GoogleBigTable•首次发表于2006年11月,西
雅图•同样基于GFS•同样是告诉大家——“这是可行的!”Hadoop来了•Hadoop是–Apache开源软件基金会开发的–运行于大规模普通服务器上的–大数据存储、计算、分析的–分布式存储系统和分布式运算框架•Hadoop2.0由三个部分组成–分布式文件系统HDFS–资源分配系统Yarn–分布式运
算框架MapReduceGoogle论文vs.Apache项目为何从Hadoop开始Hadoop在哪里?这么多?Hadoop分布式架构•Master/Slave•Master节点•NameNodeNN
•SecondaryNameNodeSNN•ResourceManagerRM•Slave节点•NodeManagerNM•DataNodeDNHDFS从下面开始YARN到上面了大数据实战技术MapReduce计算框架•将计算移动到数据硬盘存储成本不断降低传输速率提升不大磁头定位时间无提升•
MapReduce的特性自动实现分布式并行计算容错提供状态监控工具模型抽象简洁,程序员易用MapReudce分而治之MapReduce函数式编程•Map•映射和分发•Reduce•汇聚和聚合MapReduce执行流程Sogou搜狗海量日志分析需求统计“仙剑奇侠传”这款游戏在互联网上的热度
,进而为粉丝推送更精彩的游戏。数据存储HDFS文件系统数据计算MapReduce计算框架那大数据到底是什么?