深夜房间-有意思的新闻内容 深夜房间-有意思的新闻内容

建筑学,人民,网易cc-深夜房间-有意思的新闻内容

大数据和大数据结构

大数据处理的是单机无法处理的数据。无论是存储数据仍是核算数据都变得困难无比,大数据结构的呈现便是为了处理这个问题,让运用者能够像运用本地主机相同运用多个核算机的处理器,像运用一个本地磁盘相同运用一个大规模的存储集群。

离线核算和实时核算

离线核算多用于模型的练习和数据预处理,最经典的便是|Hadoop和MapReduce;

实时核算结构是要求当即回来核算结果的,快速呼应恳求,如Strom、Spark Streaming等结构,多用于简略的累积计数和根据练习好的模型进行分类等操作。

Hadoop 中心结构

(1)Hadoop Common

Hadoop的中心功用,对其他的Hadoop模块做支撑,包含了很多的对底层文件、网络的拜访,对数据类型的支撑,以及目标的序列化、反序列化的操作支撑等。

(2)Hadoop Distributed File System(HDFS)

Hadoop 分布式文件体系,用来存储很多的数据。

(3)Hadoop YARN

一个使命调度和资源办理的结构。

(4)Hadoop MapReduce

根据YARN的并行大数据处理组件。

一般把Hadoop Common、HDFS、YARN、MapReduce这四部分统称为Hadoop 结构,而在Hadoop 生态环境中,还有进行SQL 化办理HDFS的Hive 组件,支撑OLTP事务的NoSQL 分布式数据库HBase组件,进行图形界面办理的Ambari组件等。

MapReduce原理

MapReduce是处理并行使命的一种模型,将一个可拆解的使命涣散到多个核算节点进行核算,最终兼并核算结果。

MapReduce背面的思维很简略,便是把一些数据经过map来归类,经过reducer来把同一类的数据进行处理。

Map阶段:首先是读数据,数据来历可能是文本文件,表格,MySQL数据库。这些数据通常是不计其数的文件(叫做shards),这些shards被作为一个逻辑输入源。然后Map阶段调用用户完成的函数,叫做Mapper,独立且并行的处理每个shard。关于每个shard,Mapper回来多个键值对,这是Map阶段的输出。

Shuffle阶段:把键值对进行归类,也便是把一切相同的键的键值对归为一类。这个过程的输出是不同的键和该键的对应的值的数据流。

Reduce阶段: 输入当然是shuffle的输出。然后Reduce阶段调用用户完成的函数,叫做Reducer,对每个不同的键和该键的对应的值的数据流进行独立、并行的处理。每个reducer遍历键对应的值,然后对值进行“置换”。这些置换通常指的的是值的聚合或许什么也不处理,然后把键值对写入数据库、表格或许文件中。

作者:admin 分类:推荐新闻 浏览:121 评论:0