Bill_Lang: p value

昨晚学习一篇论文的时候，结果表格中多出了一个p value，猜测了一下是比较两组实验的显著性差异之用。但是直到离开实验室也没有彻底弄懂它的具体意义和计算方法。今天上午应用Excel的双因素方差分析终于学会了如何求解两个序列的p value，以后自己在做实验的时候也应该尽量考虑一下统计这个数据。在网上找了一下，下面这段问答中有p值的解释，还有一些其他有用的概念。收藏与此了。

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

问：自由度是什么？怎样确定？

答：（定义）构成样本统计量的独立的样本观测值的数目或自由变动的样本观测值的数目。用df表示。自由度的设定是出于这样一个理由：在总体平均数未知时，用样本平均数去计算离差（常用小s）会受到一个限制——要计算标准差（小s）就必须先知道样本平均数，而样本平均数和n都知道的情况下，数据的总和就是一个常数了。所以，“最后一个”样本数据就不可以变了，因为它要是变，总和就变了，而这是不允许的。至于有的自由度是n－2什么的，都是同样道理。在计算作为估计量的统计量时，引进一个统计量就会失去一个自由度。通俗点说，一个班上有50个人，我们知道他们语文成绩平均分为80，现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩，但是最后一个人的你不能瞎说，因为平均分已经固定下来了，自由度少一个了。简单点就好比你有一百块，这是固定的，已知的，假设你打算买五件东西，那么前四件你可以随便买你想买的东西，只要还有钱的话，比如说你可以吃KFC可以买笔，可以买衣服，这些花去的钱数目不等，当你只剩2块钱时，或许你最多只能买一瓶可乐了，当然也可以买一个肉松蛋卷，但无论怎么花，你都只有两块钱，而这在你花去98块那时就已经定下来了。

问：X方检验中自由度问题

答：在正态分布检验中，这里的M为N、平均数和标准差。因为我们在做正态检验时，要使用到平均数和标准差以确定该正态分布形态，此外，要计算出各个区间的理论次数，我们还需要使用到N。所以在正态分布检验中，自由度为K－3。在总体分布的配合度检验中，自由度为K－1。在交叉表的独立性检验和同质性检验中，自由度为（r－1）×（c－1）。

问：t检验和方差分析有何区别

答：t检验适用于两个变量均数间的差异检验，多于两个变量间的均数比较要用方差分析。用于比较均值的t检验可以分成三类，第一类是针对单组设计定量资料的；第二类是针对配对设计定量资料的；第三类则是针对成组设计定量资料的。后两种设计类型的区别在于事先是否将两组研究对象按照某一个或几个方面的特征相似配成对子。无论哪种类型的t检验，都必须在满足特定的前提条件下应用才是合理的。　　若是单组设计，必须给出一个标准值或总体均值，同时，提供一组定量的观测结果，应用t检验的前提条件就是该组资料必须服从正态分布；若是配对设计，每对数据的差值必须服从正态分布；若是成组设计，个体之间相互独立，两组资料均取自正态分布的总体，并满足方差齐性。之所以需要这些前提条件，是因为必须在这样的前提下所计算出的t统计量才服从t分布，而t检验正是以t分布作为其理论依据的检验方法。　　值得注意的是，方差分析与成组设计t检验的前提条件是相同的，即正态性和方差齐性。　　t检验是目前医学研究中使用频率最高，医学论文中最常见到的处理定量资料的假设检验方法。t检验得到如此广泛的应用，究其原因，不外乎以下几点：现有的医学期刊多在统计学方面作出了要求，研究结论需要统计学支持；传统的医学统计教学都把t检验作为假设检验的入门方法进行介绍，使之成为广大医学研究人员最熟悉的方法；t检验方法简单，其结果便于解释。简单、熟悉加上外界的要求，促成了t检验的流行。但是，由于某些人对该方法理解得不全面，导致在应用过程中出现不少问题，有些甚至是非常严重的错误，直接影响到结论的可靠性。将这些问题归类，可大致概括为以下两种情况：不考虑t检验的应用前提，对两组的比较一律用t检验；将各种实验设计类型一律视为多个单因素两水平设计，多次用t检验进行均值之间的两两比较。以上两种情况，均不同程度地增加了得出错误结论的风险。而且，在实验因素的个数大于等于2时，无法研究实验因素之间的交互作用的大小。

问：统计学意义（P值）

答：结果的统计学意义是结果真实程度（能够代表总体）的一种估计方法。专业上，P值为结果可信程度的一个递减指标，P值越大，我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。P值是将观察结果认为有效即具有总体代表性的犯错概率。如P=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联，我们重复类似实验，会发现约20个实验中有一个实验，我们所研究的变量关联将等于或强于我们的实验结果。（这并不是说如果变量间存在关联，我们可得到5%或95%次数的相同结果，当总体中的变量存在关联，重复研究和发现关联的可能性与设计的统计学效力有关。）在许多研究领域，0.05的P值通常被认为是可接受错误的边界水平。

问：如何判定结果具有真实的显著性

答：在最后结论中判断什么样的显著性水平具有统计学意义，不可避免地带有武断性。换句话说，认为结果无效而被拒绝接受的水平的选择具有武断性。实践中，最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两>比较，依赖于总体数据集里结论一致的支持性证据的数量，依赖于以往该研究领域的惯例。通常，许多的科学领域中产生P值的结果≤0.05被认为是统计学意义的边界线，但是这显著性水平还包含了相当高的犯错可能性。结果0.05≥P>0.01被认为是具有统计学意义，而0.01≥P≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。

问：所有的检验统计都是正态分布的吗？

答：并不完全如此，但大多数检验都直接或间接与之有关，可以从正态分布中推导出来，如t检验、F检验或卡方检验。这些检验一般都要求：所分析变量在总体中呈正态分布，即满足所谓的正态假设。许多观察变量的确是呈正态分布的，这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了，（参阅非参数和方差分析的正态性检验）。这种条件下有两种方法：一是用替代的非参数检验（即无分布性检验），但这种方法不方便，因为从它所提供的结论形式看，这种方法统计效率低下、不灵活。另一种方法是：当确定样本量足够大的情况下，通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的，该原则对正态方程基础上的总体检验有极其重要的作用。即，随着样本量的增加，样本分布形状趋于正态，即使所研究的变量分布并不呈正态。

问：假设检验的内涵及步骤

答：在假设检验中，由于随机性我们可能在决策上犯两类错误，一类是假设正确，但我们拒绝了假设，这类错误是“弃真”错误，被称为第一类错误；一类是假设不正确，但我们没拒绝假设，这类错误是“取伪”错误，被称为第二类错误。一般来说，在样本确定的情况下，任何决策无法同时避免两类错误的发生，即在避免第一类错误发生机率的同时，会增大第二类错误发生的机率；或者在避免第二类错误发生机率的同时，会增大第一类错误发生的机率。人们往往根据需要选择对那类错误进行控制，以减少发生这类错误的机率。大多数情况下，人们会控制第一类错误发生的概率。发生第一类错误的概率被称作显著性水平，一般用α表示，在进行假设检验时，是通过事先给定显著性水平α的值而来控制第一类错误发生的概率。在这个前提下，假设检验按下列步骤进行： 1、确定假设； 2、进行抽样，得到一定的数据； 3、根据假设条件下，构造检验统计量，并根据抽样得到的数据计算检验统计量在这次抽样中的具体值； 4、依据所构造的检验统计量的抽样分布，和给定的显著性水平，确定拒绝域及其临界值； 5、比较这次抽样中检验统计量的值与临界值的大小，如果检验统计量的值在拒绝域内，则拒绝假设；到这一步，假设检验已经基本完成，但是由于检验是利用事先给定显著性水平的方法来控制犯错概率的，所以对于两个数据比较相近的假设检验，我们无法知道那一个假设更容易犯错，即我们通过这种方法只能知道根据这次抽样而犯第一类错误的最大概率（即给定的显著性水平），而无法知道具体在多大概率水平上犯错。计算P值有效的解决了这个问题，P值其实就是按照抽样分布计算的一个概率值，这个值是根据检验统计量计算出来的。通过直接比较P值与给定的显著性水平α的大小就可以知道是否拒绝假设，显然这就代替了比较检验统计量的值与临界值的大小的方法。而且通过这种方法，我们还可以知道在p值小于α的情况下犯第一类错误的实际概率是多少，p＝0.03<α=0.05，那么拒绝假设，这一决策可能犯错的概率是0.03。需要指出的是，如果P>α，那么假设不被拒绝，在这种情况下，第一类错误并不会发生。

问：卡方检验的结果，值是越大越好，还是越小越好？

答：与其它检验一样，所计算出的统计量越大，在分布中越接近分布的尾端，所对应的概率值越小。如果试验设计合理、数据正确，显著或不显著都是客观反映。没有什么好与不好。

问：配对样本的T检验和相关样本检验有何差别？

答：配对样本有同源配对（如动物实验中双胞胎）、条件配对（如相同的环境）、自身配对（如医学实验中个体的用药前后）等。在SPSS中，参数检验中的均值检验有以下几种选择， One-Samples T Test过程：进行样本均值与已知总体均值之间的差异显著性检验。 Independent-Samples T Test过程：进行检验两个不相关的样本是否来自具有相同均值的总体，即独立样本T检验。 Paired-Samples T Test过程：进行检验两个相关的样本是否来自具有相同均值的总体，即配对T检验。 One-Way ANOVA过程：用于检验几个（三个或三个以上）不相关的组是否来自相同均值的总体，即一元方差分析，也称单因素方差分析，还可进行随后的两两比较。

问：在比较两组数据的率是否相同时，二项分布和卡方检验有什么不同？

答：卡方分布主要用于多组多类的比较，是检验研究对象总数与某一类别组的观察频数和期望频数之间是否存在显著差异，要求每格中频数不小于5，如果小于5则合并相邻组。二项分布则没有这个要求。如果分类中只有两类还是采用二项检验为好。如果是2*2表格可以用fisher精确检验，在小样本下效果更好。

问：如何比较两组数据之间的差异性

答：从四个方面来回答， 1.设计类型是完全随机设计两组数据比较，不知道数据是否是连续性变量？ 2.比较方法：如果数据是连续性数据，且两组数据分别服从正态分布&方差齐（方差齐性检验），则可以采用t检验，如果不服从以上条件可以采用秩和检验。 3.想知道两组数据是否有明显差异？不知道这个明显差异是什么意思？是问差别有无统计学意义（即差别的概率有多大）还是两总体均数差值在哪个范围波动？如果是前者则可以用第2步可以得到P值，如果是后者，则是用均数差值的置信区间来完成的。当然两者的结果在SPSS中均可以得到。 4.对以上结果SPSS的实现是： (1)t检验，analyse→compare means→independent-samples T Test (2)秩和检验，analyse→noparametric Test→2 independent samples

问：回归分析和相关分析的联系和区别

答：回归分析(Regression)：Dependant variable is defined and can be forecasted by independent variable.相关分析(Correlation)：The relationship btw two variables. --- A dose not define or determine B. 回归更有用自变量解释因变量的意思，有一点点因果关系在里面，并且可以是线性或者非线形关系；相关更倾向于解释两两之间的关系，但是一般都是指线形关系，特别是相关指数，有时候图像显示特别强二次方图像，但是相关指数仍然会很低，而这仅仅是因为两者间不是线形关系，并不意味着两者之间没有关系，因此在做相关指数的时候要特别注意怎么解释数值，特别建议做出图像观察先。不过，无论回归还是相关，在做因果关系的时候都应该特别注意，并不是每一个显著的回归因子或者较高的相关指数都意味着因果关系，有可能这些因素都是受第三，第四因素制约，都是另外因素的因或果。对于此二者的区别，我想通过下面这个比方很容易理解：对于两个人关系，相关关系只能知道他们是恋人关系，至于他们谁是主导者，谁说话算数，谁是跟随者，一个打个喷嚏，另一个会有什么反应，相关就不能胜任，而回归分析则能很好的解决这个问题回歸未必有因果關係。回歸的主要有二：一是解釋，一是預測。在於利用已知的自變項預測未知的依變數。相關係數，主要在了解兩個變數的共變情形。如果有因果關係，通常會進行路徑分析(path analysis)或是線性結構關係模式。我觉得应该这样看，我们做回归分析是在一定的理论和直觉下，通过自变量和因变量的数量关系探索是否有因果关系。楼上这位仁兄说“回归未必有因果关系……如果有因果关系，通常进行路径分析或线性结构关系模式”有点值得商榷吧，事实上，回归分析可以看成是线性结构关系模式的一个特例啊。我觉得说回归是探索因果关系的并没错，因为实际上最后我们并不是完全依据统计的结果来判断因果性，只有在统计结果和理论及现实比较吻合的基础上我们才肯定这种因果关系。任何统计方法只是一种工具，但是不能完全依赖于这种工具。即使是SEM，我们也不能说完全认定其准确性，因为即使方法是好的，但是变量的复杂关系呈现的方式也是多种多样的，可能统计只能告诉你一个方向上的最优解，可未必是最符合实际的，更何况抽样数据的质量好坏也会使得结果不符合事实，从而导致人们怀疑统计方法的准确性。统计只说明统计关联。不证明因素关系。回归有因果关系，相关未必。回归分析是处理两个及两个以上变量间线性依存关系的统计方法。此类问题很普遍，如人头发中某种金属元素的含量与血液中该元素的含量有关系，人的体表面积与身高、体重有关系；等等。回归分析就是用于说明这种依存变化的数学关系。任何事物的存在都不是孤立的，而是相互联系、相互制约的。身高与体重、体温与脉搏、年龄与血压等都存在一定的联系。说明客观事物相互间关系的密切程度并用适当的统计指标表示出来，这个过程就是相关分析。

3 条评论:

Bill Lang2008年1月18日 14:24
Comment's author: wangyifei
08/21/2007 10:24:34 AM
归纳的不错，就是P-value写得不详细。
回复删除
回复
Bill Lang2008年1月18日 14:24
Comment's author: Willy
08/21/2007 10:52:58 PM
能否指導我如何用EXCEL得到下列數據的P-value:
年 / 次數;
1996/ 10,
1997/ 15,
1998/ 08,
1999/ 11,
2000/ 05,
2001/ 12,
2002/ 07,
2003/ 03,
2004/ 05,
2005/ 04,

謝謝您
Willy Wu
回复删除
回复
Bill Lang2008年1月18日 14:24
Comment's author: ruoxuanling
09/20/2007 10:06:12 PM
The explanation given in wikipedia tells all:)

"In statistical hypothesis testing, the p-value is the probability of obtaining a result at least as extreme as a given data point, assuming the data point was the result of chance alone."
回复删除
回复

添加评论

2007年4月8日

p value

3 条评论: