1.大数据收集
大数据收集包括系统日志收集方法、网络数据收集方法通过网络爬虫实现)、其他数据收集通过特定接口)
1.1系统日志的收集方法
flume :分布式日志收集系统,最初由cloud era开发,现在是Apache的开源项目
Chukwa :一种开源分布式数据收集系统,是Hadoop的一部分,构建在hdfs和map/reduce框架之上
Scrible:Scribe是一个facebook开源日志收集系统,在facebook内部已经使用了很多APP应用程序
Kafka :最初是LinkedIn开发的消息系统,现在是Apache的开源项目
2数据预处理原理
数据预处理工作可以完善缺失的数据,纠正错误的数据,去除多余的数据,筛选所需的数据,进行数据整合。 数据预处理的一般方法是数据清洗、数据集创建和数据转换。
2.1数据清洗
图1
噪声的处理
图2
数据清洗可以看作是一个过程,包括检测偏差和修正偏差两个步骤。
检验偏差33到360可以利用对现有数据性质的知识来发现噪声、离群点、要考虑的罕见值。 这种知识和“关于数据的数据”称为元数据。
如果修改偏差:则在发现偏差后,通常需要定义并使用一系列变换进行修改。 但是,由于这些工具只支持有限的转换,因此经常需要为数据清洗过程中的这一步编写定制的程序
2.2数据整合
图3
2.3数据转换
图4
3 .数据仓库和ETL工具
图5
—————–