早上开始学习第一本数学基础书籍《统计学》,(参见前几日的数学书籍列表)。我争取这次我是认真的开始学习数学了。
本书开篇就是介绍统计学里面的实验设计,而且阐述原理是没有用任何数学公式。这和我以前本科时学习的统计学课本真是大不一样的风格,顿时就感觉这本书很有意思了:)
看完第一章“对照实验”和第二章“观察研究”的前两节。有两点收获。
1. 实验结果的可靠性需要深思。例如在进行新药物对疾病的有效性实验设计时,需要考虑到那些主动愿意接种疫苗的病人往往具有更良好的教育背景以及生活习惯,从 而更容易使得疫苗的有效性得以发挥。另外一个例子是一种新药在长达数年的实验过程中,是否坚持服新药也是一个非常重要的因素。如果在服新药实验的群体,整 体死亡率是20%,其中坚持者的死亡率是15%,不坚持者的死亡率是25%;而服旧药的群体的整体死亡率是21%,其中坚持服用者的死亡率是15%,不坚 持服用者是28%。在这组数据中,不能因为服用新药的群体中坚持服用的15%优于不坚持服用者的25%而认为新药是有效的。因为旧药也就有类似的规律。这 反映了坚持服药的人往往更加注重个人生活的质量和平时的保养。
2. 对照研究是实验者决定实验对象采用哪种方案,例如新药的服用与否。观察研究是实验者安排他们自己到不同的组中去,而实验者只是观察所发生的情况,例如观察吸烟10年以上人群的规律。
实验设计是一个非常值得重视的环节,个人感觉在NLP的研究里,一些实验设计是在有不经意间的偏性的。这里有两点值得以后注意:
a. 完全随机的双盲实验:研究者和被观察者都不知道方案和对象的匹配情况,而且这种匹配情况也是完全随机的
b. 观察研究实验结果往往混杂着各种因素,对这些因素进行研究的一种方法就是对较小和较均匀的组分开来比较。例如吸烟者和不吸烟者与死亡率的统计时就需要考虑 到男人比女人更容易得心脏病,需要对吸烟男性与不吸烟男性进行比较,对吸烟女性与不吸烟女性进行比较。年龄是另外一个复杂变量,因为老年人有不同程度的吸 烟习惯,并且他们患肺癌的风险较大。对已在吸烟者与不吸烟者之间的比较需要按年龄和性别分开来进行。
以后进行俺们自个儿的实验时也需要考虑到这些因素啊。
没有评论:
发表评论