大数据采集技术有哪些数据采集与清洗技术

1.大数据收集

大数据收集包括系统日志收集方法、网络数据收集方法通过网络爬虫实现)、其他数据收集通过特定接口)

1.1系统日志的收集方法

flume :分布式日志收集系统，最初由cloud era开发，现在是Apache的开源项目

Chukwa :一种开源分布式数据收集系统，是Hadoop的一部分，构建在hdfs和map/reduce框架之上

Scrible:Scribe是一个facebook开源日志收集系统，在facebook内部已经使用了很多APP应用程序

Kafka :最初是LinkedIn开发的消息系统，现在是Apache的开源项目

2数据预处理原理

数据预处理工作可以完善缺失的数据，纠正错误的数据，去除多余的数据，筛选所需的数据，进行数据整合。数据预处理的一般方法是数据清洗、数据集创建和数据转换。

2.1数据清洗

图1

噪声的处理

图2

数据清洗可以看作是一个过程，包括检测偏差和修正偏差两个步骤。

检验偏差33到360可以利用对现有数据性质的知识来发现噪声、离群点、要考虑的罕见值。这种知识和“关于数据的数据”称为元数据。

如果修改偏差：则在发现偏差后，通常需要定义并使用一系列变换进行修改。但是，由于这些工具只支持有限的转换，因此经常需要为数据清洗过程中的这一步编写定制的程序

2.2数据整合

图3

2.3数据转换

图4

3 .数据仓库和ETL工具

图5

—————–

Published by