八月 18, 2009

统计数字会撒谎

统计数字会撒谎这本书是个小册子,看起来一百多页,但是字数不多,一个多小时就看完了.成书时间是五十年前,不过其中很多部分现在依然有效.

首先我们会经常碰见的问题是样本偏差,用有偏的样本来代替整体,误差会相当的大.简单例子就是firefox在某个技术类部落格的比例和市场占有率.这个情况比较明显,但有些隐性的偏差就不那么引人注目了.

书中举的例子是某年度某大学毕业生在多少年之后的收入情况.只有短短一行文字而不知道具体调查过程的情况下,我们可以假设,调查机构只联系到那群毕业生其中的一部分(事业有成的人比较容易找到),其中又只有一部分提供了收入数字(有钱的会比较喜欢展示这个).从而使得样本偏差会比较严重.

同理,我们在报纸上经常看到的百分之多少的网民支持或反对什么东西,"网民"这个词具体来说,应该是指会浏览他们合作网站又闲的蛋疼会去投那些无聊的票的人群.

其次的常见问题是混淆相关性和因果.某些事情有相关性,比如股市和裙子长度,但它们之间并不一定存在因果联系.

暂时还是用上大学和收入做例子吧,方便起见,先假设上大学这群人收入的确比一般人要高.上大学和高收入之间有相关性,那么这是不是说上大学会提高你的收入呢,也就是之间有因果关系呢.另一种解释可以这样说,上大学的人会比一般人聪明或者有钱或者有权,这种人,不管那四年是在上大学还是随便干什么其他事情,最后通常都会得到比一般人更高的收入.

然后是隐藏关键信息.这点在信息不对称的情况下很容易中计.

高速公路晚上的车祸次数是早晨的三倍.于是推论,早上行车比晚上安全.看起来没什么毛病,但是却忽略了晚上车流量比早上大.用同样逻辑,我们可以说雨天行车比晴天安全,因为晴天天数比较多,总事故数肯定是超过雨天的.

其他可疑的还有比如平均数的总类(均值中位数众数在非正态分布情况下相差较大,于是平均收入之类就采用其中数字最大的均值),没有说明样本总量的百分数(33%搞不好就是三个里面的一个),某个实验室数据(这点参照很多3c产品的电池使用时间)等等等等.

最后是一些直观性的东西,制作图表的技巧之类,比如缩小纵轴的单位以营造一个火箭发射的图形,挑选一个无关紧要的增长数字做成黑色大标题等等等等.这个东西比较简单,只要不是一扫而过,仔细阅读就能分辨.

不过上面的方法还是有局限性,都是在原始数据真实的情况下打扮统计数字这个小姑娘,扭扭捏捏的,比起我天朝上国直接伪造数据的纯爷们作风差远了,社会主义优越性在这里又一次得到了体现.阿门.

发表评论