1、什么是大数据?

巨量的数据,大数据的计量单位TB、PB、EB、ZB、YB、BB

2、大数据的特征

数据规模大

数据形式多样

处理速度快

价值密度低

3、研究大数据的意义?

最重要的意义是预测

4、大数据的应用场景

(1)优化医疗方案、有效预防预测疾病

(2)精准营销、风险管控、决策支持、服务创新、产品创新

(3)精准定位零售行业市场、支撑行业收益管理、挖掘零售行业新需求

5、Hadoop的优势

(1)扩容能力强

(2)成本低

(3)高效率

(4)高可靠性

(5)高容错性

6、Hadoop生态体系

Hadoop生态体系包含了很多子系统

(1)分布式存储系统(HDFS)Hadoop的核心项目之一,是分布式计算中数据存储管理基础

(2)MapReduce分布式计算框架,是一种计算模型,用于大规模数据集(大于1TB)的并行计算。

(3)YARN资源管理平台,是Hadoop2.0中的资源管理器,它可为上层应用提供统一的资源管理和调度。

(4)Sqoop数据迁移工具,是一款开源的数据导入导出工具,主要用于在Hadoop与传统的数据库间进行数据的转化

(5)Mahout数据挖掘算法库,是Apache旗下的一个开源项目,他提供了一些可拓展的机器学习领域经典算法的实现,旨在帮助开发人员更加快捷地创建智能应用程序。

(6)HBase分布式数据库,是Google Bigtable克隆版,它针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。

(7)Zookeeper分布式协调服务

(8)Hive基于Hadoop的数据仓库,可以将结构化的数据文件映射为一张数据库表,将sql语句转换为MapReduce任务进行运行。

(9)Flume日志收集工具,是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统

最后修改:2023 年 02 月 22 日
如果觉得我的文章对你有用,请随意赞赏