业界动态
hadoop在互联网应用 简述hadoop在各领域应用情况
2024-11-01 00:02


hadoop在互联网应用 简述hadoop在各领域应用情况

大数据的概述

一:大数据的应用场景:

   1.1: 大数据的诞生

        2005年Hadoop项目诞生。 Hadoop其最初只是雅虎公司用来解决网页搜索问题的一个项目,后来 因其技术的高效性,被Apache Software Foundation公司引入并成为开源应用。Hadoop本身不是一个产品,而是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析。从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用一种叫做MapReduce技术的高性能并行数据处理服务。这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。

 

   1.2: 2015 大数据的峰会

 

1.3: 什么是大数据

     大数据(big data),或称巨量资料,指的是海量的、高增长率的和多样化的信息资产。不是超过某个特定数量级的数据集才是大数据,而是规模超过现有数据库工具获取、存储、管理和分析能力的数据集才称为大数据。 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。(ETL)

 


 

1.4:大数据的定义与特征

    

hadoop在互联网应用 简述hadoop在各领域应用情况_数据

 1.4.1:大数据的特征(4V+1O):

      数据量大(Volume)。第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

      类型繁多(Variety)。第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

      价值密度低(Value)。第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

      速度快时效高(Velocity)。第四个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

      数据是在线的(Online)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。现在我们所谈到的大数据不仅仅是大,更重要的是数据变的在线了,这是互联网高速发展背景下的特点。比如,对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。如果是放在磁盘中而且是离线的,这些数据远远不如在线的商业价值大。

 

 1.4.2:大数据的定义:

      大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。



最小的基本单位是bit,按顺序给出所有单位: bit、 Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。 它们按照进率1024(2的十次方)来计算: 1 Byte =8 bit KB = 1,024 Bytes MB = 1,024 KB  GB = 1,024 MB  TB = 1,024 GB  PB = 1,024 TB EB = 1,024 PB  ZB = 1,024 EB  YB = 1,024 ZB  BB = 1,024 YB NB = 1,024 BB  DB = 1,024 NB 



 


 



hadoop的介绍



2.1: hadoop 的概述  

   2.1.1、简介

     Hadoop是一个实现了MapReduce计算模式的能够对大量数据进行分布式处理的软件框架,是一种可靠、高效、可伸缩的处理数据架构。Hadoop计算框架最核心的设计是HDFS(Hadoop Distributed File System)和MapReduce,HDFS单看全称就知道,实现了一个分布式的文件系统,MapReduce则是提供一个计算模型,基于分治策略。

   2.1.2、Hadoop特性

       第一,它是可靠的,因为它假设计算元素和存储会失败,因此它默认维护多个工作数据副本,确保能够针对失败的节点重新分布处理。     其次,Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。     此外,Hadoop 依赖于普通pc机或廉价服务器,可以根据业务规模自行增减节点,因此它的成本比较低,且开源,任何人都可以使用。 总之,Hadoop就是一个适合大量数据的分布式存储和计算的平台。

 

 


2.2:hadoop 的核心

  

hadoop在互联网应用 简述hadoop在各领域应用情况_数据库_02

    


Hadoop Common: 为其他Hadoop模块提供基础设施。

 

Hadoop HDFS: 一个高可靠、高吞吐量的分布式文件系统

 

Hadoop MapReduce: 一个分布式的离线并行计算框架

 

Hadoop YARN: 一个新的MapReduce框架,任务调度与资源管理



2.3 hdfs 的架构图:

 

hadoop在互联网应用 简述hadoop在各领域应用情况_数据_03

 

 

2.4 :HDFS 服务的功能

   NameNode 主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在DataNode等。

   DataNode 在本地文件系统存储文件块数据,以及块数据的校验和。

   Secondary NameNode 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照



2.5 : yarn 的架构


hadoop在互联网应用 简述hadoop在各领域应用情况_hadoop在互联网应用_04

 

YARN 服务功能:

 

 

ResourceManager

处理客户端请求 启动/监控ApplicationMaster 监控NodeManager 资源分配与调度

 

 

NodeManager

单个节点上的资源管理 处理来自ResourceManager的命令 处理来自ApplicationMaster的命令

 

ApplicationMaster

数据切分 为应用程序申请资源,并分配给内部任务 任务监控与容错

 

Container

对任务运行环境的抽象,封装了CPU内存等多维资源以及环境变量、启动命令等任务运 行相关的信息.


 

2.6: MapReduce on YARN

 

 

hadoop在互联网应用 简述hadoop在各领域应用情况_运维_05

 MapReduce on YARN

 

1)用户向YARN中提交应用程序/作业,其中包括ApplicaitonMaster程序、启动ApplicationMaster的命令、用户程序等;

2)ResourceManager为作业分配第一个Container,并与对应的NodeManager通信,要求它在这个Containter中启动该作业的ApplicationMaster;

3)ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManager查询作业的运行状态;然后它将为各个任务申请资源并监控任务的运行状态,直到运行结束。即重复步骤4-7;

4)ApplicationMaster采用轮询的方式通过RPC请求向ResourceManager申请和领取资源;

5)一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务;

6)NodeManager启动任务;

7)各个任务通过RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicaitonMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务; 在作业运行过程中,用户可随时通过RPC向ApplicationMaster查询作业当前运行状态;

8)作业完成后,ApplicationMaster向ResourceManager注销并关闭自己;

 

离线计算框架 MapReduce

一:将计算过程分为两个阶段,map和reduce map 阶段并行处理输入数据 reduce 阶段对map 结果进行汇总。

二:shuffle 连接map 和Reduce 两个阶段 map task 将数据写到本地磁盘 reduce task 从每个map TASK 上读取一份数据

    以上就是本篇文章【hadoop在互联网应用 简述hadoop在各领域应用情况】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/6540.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多   
最新新闻
“撒旦”人血鞋?碰瓷新疆棉花的耐克,又开始喊冤了?
继主动碰瓷新疆棉花把自己搞得股价大跌之后耐克秉承着“no zuo no die”的精神又开始暗搓搓搞“阴间操作”限量发售含人血的“撒
tiktok怎么搭建外网 详细教程及步骤
TikTok怎么搭建外网(详细教程及步骤)TikTok是一款非常流行的短视频社交应用程序,它在全球范围内拥有数亿用户。在使用TikTok的
《以案释法》步数越多,收益越高?别被“走路也能赚钱”的理财广告忽悠了
  走路也能赚到钱的理财  “丑的人还在睡觉,美的人已经跑出一杯星巴克了。”2016年的一天,一个女孩晒出的朋友圈截图引起了
如何用生意参谋算出同行店铺真实销售额
怎么经过生意顾问算出同行店肆实在销售额?大多数在淘宝天猫工作过的人都知道,他们的背景显现了同行商铺的买卖数据,这被称为买
一款最近比较火的网站统计分析系统,易分析具有什么样的功能呢?
一、产品简介北京普艾斯科技有限公司成立于2009年,服务客户1000+,包括电商、金融、保险、政务服务等行业。私有化部署,全渠道
向佐快乐大本营2024年精彩回顾:四年时光共欢笑
张大大谢娜力捧下的综艺新星张大大一位在娱乐圈中颇具人气的主持人他的成名之路离不开谢娜的提携回顾张大大的成名之路可以说谢娜
PingTools app
《PingTools app》是一款非常好用的实用工具软件,软件内拥有丰富的功能,包含了包括浏览器扫描等。使用非常简单,直接下载安装
抖音能看到谁搜索过自己吗?
尊敬的用户,您好。针对抖音平台是否能够查看谁搜索过自己的问题,我们需要做一些详细说明。首先,根据我们了解到的情况,在抖音
什么是人工智能“语料库”?为什么每个人都在谈论它?
编者按:比尔盖茨(Bill Gates)、Reddit 首席执行官和其他科技领袖越来越多地谈论“语料库”,现在是时候了解它是“何方神圣”
LED行业词语中英对应
1、led 灯具构成英文led 球泡灯:led bulbLed 贴片灯珠:SMD LEDLed驱动电源:led driver隔离电源:isolated driver非隔离电源:
本企业新闻

点击拨打: