描述性数据分析 探索性数据分析,数据挖掘与经典统计分析方法

数据分析的基础是统计学,统计学又分描述性统计和推断性统计,其中描述性统计又是统计学的基础,也是推断性统计的前导。其百度百科定义是这样的:描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

一、集中趋势分析 平均数:平均数是总和除以总量。中数:中位数是数值大小位于中间的值,其中数值根据总数的奇偶而不同。
2.1 总数N为奇数时:N+1)/2
2.2 总数N为偶数时:[N/2+N/2+1)]/2众数:众数是出现次数最多的值。
上面已经把描述性统计的分析维度和计算方法都讲清楚了,接下来我们借鉴一个例子来说明下。比如现在有一个班级的身高数据height = [165,166,167,168,170,170,170,172,175,180,190],我们如何描述这个班级身高的集中趋势呢?
二、离中趋势分析离散) 极差:最大值减去最小值。方差:所有数据与平均数之差平方和的平均数。标准差:离均差平方的算术平均数的平方根,是方差的算术平方根。变异系数:原始数据标准差与原始数据平均数的比。
上面是从数据的离散程度来描述数据,我们还是用上面那个例子来说明数据的离散程度。

z-score,除了上面离散的分析维度之外,我们还要介绍一个偏离程度,也就是测量值距均值相差的标准差数目,计算公式是:z-score = [X – meanX)]/stdX),其中z-score分布的方差和标准差为1,均值为0。 三、相关分析 协方差(COV):如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值,即为协方差。协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差为正值表示正相关,负值为负相关,0为不相关。相关系数(CORRCOEF):两个变量X,Y的协方差比上各自的标准差乘积。

参考文献
1.描述统计百度百科定义
2.使用Python进行描述性统计
3.Eun Sul Lee《数据分析方法五种》

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注