大数据采集技术有哪些数据采集与清洗技术

1.大数据收集

大数据收集包括系统日志收集方法、网络数据收集方法通过网络爬虫实现)、其他数据收集通过特定接口)

1.1系统日志的收集方法

flume :分布式日志收集系统,最初由cloud era开发,现在是Apache的开源项目

Chukwa :一种开源分布式数据收集系统,是Hadoop的一部分,构建在hdfs和map/reduce框架之上

Scrible:Scribe是一个facebook开源日志收集系统,在facebook内部已经使用了很多APP应用程序

Kafka :最初是LinkedIn开发的消息系统,现在是Apache的开源项目

2数据预处理原理

数据预处理工作可以完善缺失的数据,纠正错误的数据,去除多余的数据,筛选所需的数据,进行数据整合。 数据预处理的一般方法是数据清洗、数据集创建和数据转换。

2.1数据清洗

图1

噪声的处理

图2

数据清洗可以看作是一个过程,包括检测偏差和修正偏差两个步骤。

检验偏差33到360可以利用对现有数据性质的知识来发现噪声、离群点、要考虑的罕见值。 这种知识和“关于数据的数据”称为元数据。

如果修改偏差:则在发现偏差后,通常需要定义并使用一系列变换进行修改。 但是,由于这些工具只支持有限的转换,因此经常需要为数据清洗过程中的这一步编写定制的程序

2.2数据整合

图3

2.3数据转换

图4

3 .数据仓库和ETL工具

图5

—————–

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注