数值方法
样本统计量:数据来自样本,计算的度量
总体参数:数据来自总体,计算的度量
点估计量: 样本统计量被称为是相应总体参数的点估计量
位置的度量
平均数
最重要的变量:平均数(mean)
如果数据来自某个样本,则样本平均数为 。
公式为:
如果数据来自某个总体,则平均数用希腊字母μ表示。
公式为:
中位数
将所有数据按升序排序后,位于中间的数值即为中位数。
(1)当观测值是奇数时,中位数就是中间那个数值。
(2)当观测值是偶数时,则没有单一的中间数值,这个时候定义中间两个观测值的平均数。
平均数往往会受到异常大或异常小的数值影响,中位数这个时候提供了比平均数更好的中心位置的度量。
经常用在年收入及资产价值数据的报告中,因为少数极端大的收入和资产价值将会夸大平均数。
众数
就是数据集中出现次数最多的数值。
需要注意,如果出现了两个或两个以上的众数,几乎从不报告众数,因为对于描述数据的位置并不能起多大作用。
百分位数
提供了数据如何散步在从最小值到最大值的区间上的信息。
第P百分位数:
假设一名学生的语言考了54分,相对于参加同样考试的学生,这个学生的表现如何,可能不太清除,但是如果对应着第70百分数,则说明70%的学生比他低,30%的学生比他搞。
计算步骤:
把数据按升序排序
计算指数i:
p为所求百分数,n是观测值的个数。
(1)若i不是整数,则向上取整,大于i的下一个整数表示第p百分数的位置。
(2)若i是整数,则第p百分位数是第i项和第(i+1)项数据的平均值。
实例:
i不是整数:
3310 3355 3450 3480 3490 3520 3540 3550 3650 3730 3925
我们取85%的标准,则是第11位。
i是整数:
第50百分数是第6和7项的平均值。(3490+3520)/2 = 3505,同时,第50百分位数也是中位数。
四分位数
目的是为了将数据划分为相等的四部分,四分位数的计算方法不同,结果也会略有不同。
四分位数是一种特殊的百分位数,因此,计算百分位数的步骤可以直接用于四分位数的计算。
调整平均数
当数据集中含有极端值时,使用中位数作为中心位置的度量比平均数更合适。
但是如果用平均数,则从数据集中删除一定比例最大值和最小值,然后计算剩余数据的平均值。
5%调整平均数,删除5%最小的数值和5%最大的数值,例如n=12,12*0.05=0.6,四舍五入值为1。则要删除一个最大一个最小,求剩下10个的调整平均数。
练习
一、
a. 每场比赛3分球投篮的平均次数是多少?
350 / 19 = 18.42
b. 每场比赛3分球命中的平均次数是多少?
120 / 19 = 6.31
c. 较近的3分球,球员的命中率为35.2%。对新的3分线,球员的命中率是多少?
120 / 350 = 0.342*100%=34.2%
d. 将3分线后移至20英尺9英寸的影响是什么?
影响是命中率降低了1%的命中概率,无伤大雅。
二、
a. 直接用代码写了,手算费劲。
list1 = [120,230,110,115,160,130,150,105,195,155,105,360,120,120,140,100,115,180,235,255]
data = Series(list1)
# 平均数
data.mean()= 160.0
# 中位数
data.median() = 135.0
# 众数
data.mode() = 120.0
b. 代码生成
data.quantile([0.25,0.5,0.75])
0.25 115.00
0.50 135.00
0.75 183.75
dtype: float64
c.计算并解释第90百分位数
data.quantile(0.9)
237.00
三、
a.GDP增长速度的最小预测值是多少?最大预测值是多少?
# 预测值
forcast = [2.6,3.1,2.3,2.7,3.4,0.9,2.6,2.8,2.0,2.4,2.7,2.7,2.7,2.9,3.1,2.8,1.7,2.3,2.8,3.5,0.4,2.5,2.2,1.9,1.8,1.1,2.0,2.1,2.5,0.5]
data=Series(forcast)
data.max()
3.5
data.min()
0.4
b. 计算平均数,中位数,众数
data.mean()
2.30
data.median()
2.5
data.mode()
2.7
c. 计算第一四分位和第三四分位
data.quantile([0.25,0.75])
0.25 2.000
0.75 2.775
dtype: float64
d. 经济学家对美国经济持乐观还是悲观态度?
乐观态度,中位数和平均数都在2.5以上,说明经济学家普遍看好美国的经济增长。