1、什么是大数据?
巨量的数据,大数据的计量单位TB、PB、EB、ZB、YB、BB
2、大数据的特征
数据规模大
数据形式多样
处理速度快
价值密度低
3、研究大数据的意义?
最重要的意义是预测
4、大数据的应用场景
(1)优化医疗方案、有效预防预测疾病
(2)精准营销、风险管控、决策支持、服务创新、产品创新
(3)精准定位零售行业市场、支撑行业收益管理、挖掘零售行业新需求
5、Hadoop的优势
(1)扩容能力强
(2)成本低
(3)高效率
(4)高可靠性
(5)高容错性
6、Hadoop生态体系
Hadoop生态体系包含了很多子系统
(1)分布式存储系统(HDFS)Hadoop的核心项目之一,是分布式计算中数据存储管理基础
(2)MapReduce分布式计算框架,是一种计算模型,用于大规模数据集(大于1TB)的并行计算。
(3)YARN资源管理平台,是Hadoop2.0中的资源管理器,它可为上层应用提供统一的资源管理和调度。
(4)Sqoop数据迁移工具,是一款开源的数据导入导出工具,主要用于在Hadoop与传统的数据库间进行数据的转化
(5)Mahout数据挖掘算法库,是Apache旗下的一个开源项目,他提供了一些可拓展的机器学习领域经典算法的实现,旨在帮助开发人员更加快捷地创建智能应用程序。
(6)HBase分布式数据库,是Google Bigtable克隆版,它针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。
(7)Zookeeper分布式协调服务
(8)Hive基于Hadoop的数据仓库,可以将结构化的数据文件映射为一张数据库表,将sql语句转换为MapReduce任务进行运行。
(9)Flume日志收集工具,是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统