统计是所有从事IVD产品开发的人都无法回避的工作,先期开发、中期验证、后的临床工作也牵涉到临床试验是否符合统计学原理,从统计学上能否理论解释也是开发成功的一大指标。 国外一些大型医药公司由专业统计学家为公司医药产品开发提供统计服务,解决研究中的难题数学问题。 《女士品茶》 (又名统计改变世界) )作者奋斗的砖头是辉瑞公司的统计学家。 这本书科学地列举了统计学的发展历史,讲述了统计学是如何一步步发展的,是如何影响了现代社会的发展的,所以推荐给你。 在下一篇文章中,我将一步一步地展示自己学习统计的心得体会。
我在本科学习了生物统计学,但是学习不认真。 有很多死角和死角。 我在这期间试着重新学习了一次,但是很有成果。 第一个体验是,其实关于统计,大部分人包括我在内都没有充分理解基本概念。 这篇文章和大家交流我对基本概念的理解。
01
总体和样本
总体:基于研究目的确定的、所有同质有研究对象的(组)指标值的集合。 母集团分为有限母集团和无限母集团。 在没有时间、空间限定的情况下,同质的研究对象个体数无限的是无限母集团。
样本:是从总体中随机提取的、数量足以代表总体特征的有部分研究对象的(组)指标值的集合,已知为了准确反映总体的实际情况,样本必须具有代表性和可靠性,因此在抽样时在进行统计分析或利用统计学的设计方案时,必须搞清楚总体和样本的区别。 通常根据样本的观测值推测整体的状况。 因此对总体来说,其参数的可靠性取决于样本。 我之所以反复提到这个概念,是因为无限母集团客观上永远是虚拟理想,样本只能尽可能准确地反映母集团。
02
参数和统计量
以上情况接触统计的人可能都明白,但统计学的一大任务是根据样本推测总体。 统计学把描述总体特征的指标称为参数,把描述样本特征的指标称为统计量。 样本信息,即根据样本统计量推算总体特征,即总体参数的过程称为统计推算。 举一个例子,关于正态分布,一般用平均和标准偏差表示。 例如
表示的是平均、标准偏差的正态分布。 于是,记述总体特征的参数平均为、标准偏差。 为了估计这两个参数,提取了一个样本,通过计算得到了样本的平均值
标准偏差为s,可以通过
为了根据s推测、,将
s叫做统计量。 因此,关于统计量,可以看作是用于根据样本数据推测总体的量,也可以一边反映样本的特征一边推测总体的参数。
03
标准偏差和标准偏差
标准偏差:我们知道标准偏差和方差是基于表示所有观测值的偏差指标。 你怎么理解这句话? 平方和(sumofsquaresofdeviationsfrommean,SS )=
(x为观测的实际值,为整体平均数)反映了所有观测值的变异程度,该值越大个体观测值之间的变异程度越大。 方差
根据平均偏差平方和去除例数n的影响,反映出每个观察值的平均变异。 整体分散用
ion”>
表示,样本方差用
表示。
(这里需要说明一下,通常总体例数用N表示,样本例数用n表示。总体均数用μ表示,样本均数用
表示。)
可以看到样本方差公式里的分母是n-1,这个通常称为自由度。自由度在统计学中指的是计算某一统计量时,取值不受限制的变量个数。关于对自由度的理解,我在后面的文章中会专门介绍。那么问题来了,我们已经有了方差来描述观测值之间的变异程度,为什么还要将其开方,引入标准差来描述变异呢?可以看到,方差的单位是原始单位的平方,在实际应用中会出现一些问题,比如
就没有实际意义,因此,将方差开平方获得和原始数据一样的统计指标更加合理。标准差是方差的平方根,具有和原始数据一样的单位,不存在解释上的困难。
标准误:通常将样本统计量的标准差称为标准误(standard error,SE)。怎么来理解标准误的定义,以及统计中用标准误衡量什么呢?又要提到,通过样本来推断总体,因此对抽样有着最基本的要求,即前面提到过的保证足够的样本量并遵循随机化的原则。但是由于个体差异的存在,通过所抽取的样本推断总体时会存在一定的误差。举个例子来说,从正态分布总体中
中随机抽取10人(n=10)为一个样本,并计算该样本的均数和标准差,如此重复抽取100次(g=100),可得到100份样本,同时也可以得到100对均数
和标准差S;将这100份样本的均数看成新的变量值,再计算其均值和标准差,称之为均数的均数和均数的标准差。我们应该能够想到,由于抽样误差的存在,各样本均数间存在差异,各样本均数与总体均数未必相等。同样的,由于样本量的存在,各样本均数之间的差异要小于原个体变量间的变异。我们把样本均数之间的这种变异,叫做均数标准误(SEM),即统计量为均数的标准差,它反映样本均数间的离散程度,也反映样本均数与总体均数间的差异,因而说明了均数抽样误差的大小。理论上可证明均数的标准误为
;但在实际工作中,由于总体标准差σ往往是未知的,需要用样本标准差S来估计。因此均数标准误的估计值
。那么,关于标准差和标准误的区别,我想大家看到这里,应该能理解了,标准差描述观测值之间的平均变异,标准误描述样本均数之间的变异,标准误反映抽样误差的大小,我们从上面的公式可以看到,标准误的大小与标准差成正比,和样本含量n的平方根成反比,若标准差固定不变,可以通过增加样本含量n来减少均数的标准误,从而降低抽样误差。
04
参数估计和假设检验
参数估计:参数估计是指用样本统计量估计总体参数的大小,分为点估计和区间估计。点估计就是点对点的估计,用样本的一个统计量去估计总体的一个参数,如用样本均数
估计总体均数μ等。但是点估计并没有考虑抽样误差的大小,因此虽简单,但很难估计准确。为此,我们需要区间估计,区间估计是按照预先给定的概率(1-α)估计总体参数所在的范围,该范围被称为总体参数的可信区间或置信区间。
假设检验:首先,我们先思考下,假设检验的目的是什么?个人觉得如果这个问题可以回答清楚,其实后面的文字不用看了。我们都知道,在抽样研究中,抽样误差是不可避免的,比如,我们从一个总体中抽取两个样本,两个样本的均数很可能不一样。那么,在实际工作中,我们遇到如样本统计量(如样本均数
)与某总体参数(如已知总体均数
)不等,或者两个样本统计量(如样本均数
和
)不等时,这种不相等反映了两种情况,第一种,这种不相等仅仅是由抽样误差造成的,不存在本质上的不同,因为样本是随机抽取的。第二种,样本来自于不同的总体,存在本质的不同。那么,为了判断均数间的差异是由抽样误差造成的还是存在本质上的差异,需要通过假设检验来回答。假设检验也称为显著性检验。
这篇中,我简单的介绍了四组概念,这四组概念也是我在学习统计过程中长期存在的死角,希望对大家有所帮助,大家有关于统计的问题也可以留言给我,我尽力解答!