经验▍小心被“套” 九大花式数据撒谎套路
作者|吴水永 编辑|布袋熊 36大数据获授权分享
防火防贼防数据欺骗
一本敏捷的书说到,自从使用Scrum之后,团队生产力提升了60%。用百分率,是标准的吹牛逼仪式,看来我是遇上对手了。
一般来说,这种没有明确可衡量标准的结论,不起推敲,也经不起连续提问。
首先问:是不是。偷换概念是非常容易的,一般人注意不到,尤其是在专业领域。常规地关注对象(人/物)、时间(前/中/后)、空间(环境背景)、事件(what)是否完整客观。60%的衡量计算标准是什么?
接着问:为什么。阅读中保持独立思考能力,敢于质疑。首先对一些基本概念要有认知,《人月神话》很恰当地把工作为分智慧密集型与劳动力密集型,研发属于智慧密集型活动,难以短期内通过人力或流程大幅度提高效率。如果是真的60%提升,那之前做的到底是有多差劲。
之前在公司内部做过一期数据思维分享,有一部分是提防数据撒谎,遂重新整理成文字,共九点罗列如下。雕虫小技,丢人现眼。
1.数据来源与采样
看到一份数据,首先警惕数据来源,凡是数据一定有采样率,一手数据或二手数据,来源是否可靠客观全面。
相对靠谱的数据来源有很多,如下
企业平台报告(淘宝电商、微信社交等只放出了私聊范围内的数据,聊胜于无)
数据服务行业报告(艾瑞、易观 不清楚这么多的行业报告数据是怎么收集的,有了解的请留言告知。还有些连各国内外宏观数据都有)
政府公开数据(国家统计局① 中国汽车流通协会②等)
上市公司财报(A股的财报说 就非常实用)
一般的问卷数据就算了,问卷从问题设计可能就已经偏离调查意旨,更别说在人群抽样环节了,那怕直到数据报告输出,想操纵结果,都有无数的机会。
好的文章都会给出数据引用,那怕会被质疑。凡是没有给出参考,没有数据来源说明的报告或分析都是耍流氓。
2.偷换概念混淆
有了数据,接着则需要做聚合,用一些数据概念来描述总结量或趋势。常用的数据概念有:最大值、最小值、九分位值、平均数、中位数、众数;标准差、方差、期望;比率;同比、环比;科学计算相关等等。
首先得知道分别是什么意思,并且清楚适用的场景。太阳底下无新鲜事,没有什么比较谣言更容易传播了。10+万的标题党出现的平均年收入,稍做二八分析(百分之二十的人,掌握了百分之八十的财富)就明白我们是给平均数拖了后腿的。但实际上,随着全球化以及经济发展,贫富差距一定会越来越大,Oxfam报告说已经是前1%的富豪,掌握了80%的财富。
3.故意漏掉了什么
常听到的是我国GDP总量全球第二,仅次于美国,但新闻联播可不会说的是,我们人均GDP仅为美国的15%。哪个概念才跟老百姓息息相关呢?哪个在我们心里才是最重要的呢?
类似的报喜不报忧手法还有不少,量少,则用比率;增量不足,则用总量;总量不够,则用同比;旺季同比不足,则用淡季环比。
以我的开源项目 walle-web.io 的 github star 为例,总用户趋势还是很漂亮的,尽管新增用户在下跌(不要替孤担心),我不把后面的数据放出来,会有几个眼尖的能看到?
4.单个概念代替复合概念
但现实情况,往往一个概念或指标是无法表述清楚的,描述一个事实需要多个维度的数据,才能立体呈现。想掩盖一个事实的最好方式,莫过于不要暴露。给出的数据指标越多,信息就越全面,即需要多个概念或加权概念来描述。
比如用平均数均价来描述某城区的房价,就是不合理的,极值很可能是离群值。而应该使用中位数乘数(Median Multiple):房价-收入乘数,即该城市房价中位数 / 该城市每户居民税前年收入的中位数。这一指标被世界银行以及联合国推荐使用,以评估城市房地产市场。
摘取研究机构 Demographia 2017年《全球房屋负担能力调查报告》③其中一个数据,感受下大香港凌驾于其它地方的房价压力。
5.有图不一定有真相
图依靠视觉,非常直观,直观到让人太容易相信眼见为实。分别看下面三组图,A、B哪个更长,当然你知道我会用相同长度的A和B做对比。
6.看着理所当然的XY轴
最初级的手法,更改X轴Y轴的起点,就可以改头换面。当你的产品是C时,这一招悄无声息,只需要修改Y轴的起点,简直是神一样出装。同样,XY轴的取值间隔一样可以玩出新招式来。
7.变形
太没技术含量了,不展开。
2018年 荣耀 V10 发布会
8.错误归因
不合时宜地错误归因,往往不是智商捉急,就是别有用心。以辛普森悖论为样例展开。
辛普森悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
某产品的用户中有10000人使用Android设备、5000人使用IOS设备,整体的付费转化率应该是5%。细分发现其中IOS设备的转化率仅为4%,而Android设备则是5.5%。“聪明”的数据分析师得出结论:IOS平台的用户付费转化率低下,建议放弃IOS平台的研发。④
这么不符合常识的结论,直到数据拆分出来之后,一切都解释清楚了。到底悖论出现在什么地方?手机和平板两组数据是可加的啊!?
普森悖论有个非常明显的数据特征,两组数据可加,但A组Y种类量小而百分率高,而B组X种类量大百分率低,尽管Y在每组类型数据中比率都比X高,但会在最终合计上的比率会X低。
通俗易懂说来,两组数据基数差距大,数值与比率合一计算,但结果相反,原因在于忽略了加权。那么问题来了。
到底Android和IOS哪个转化率更好?
合计的加权公式应该是什么?
普森悖论经常会出现在什么场景中?
我还能想到的其它一些错误归因类型,简单列举如下。
因果倒置
没想好例子: (
幸存者偏差
二战中给飞回来的飞机增加防护板
9.脱离逻辑的神扯淡
都到了这,得见识下真正实力了,吹牛逼的奇葩与巅峰。可以把两个风马牛不相及的事件,通过数据近乎完美阐释他的论点,而且创意十足。
用四个参数我可以拟合出一头大象,而用五个参数我可以让它的鼻子摆动
10.结硬寨 打呆仗
正如中国武术一样,练武为了强身健体,保护自己。认识这些伎俩是为了不被忽悠,而不要用这些小花招。数据的价值远非一些简单的特征、趋势所能呈现的,不必迷恋雕虫小技,还有深入的知识和应用等待探索。
所谓重剑无锋,大巧不工,价值才是王道,自身的价值和创造的价值,是让自己永远立于不败之地之根本。每个具体的垂直领域,都有着独特的专业性,加之经济学,心理学,同时警惕数据至上陷阱,敬畏前行。吾生也有涯,而知也无涯,共勉。
参考:
① 国家统计局 http://data.stats.gov.cn/easyquery.htm?cn=C01
② 中国汽车流通协会 http://www.cada.cn
③《全球房屋负担能力调查报告》https://www.kiwiblog.co.nz/2017/01/13th_annual_demographia_international_housing_affordability_survey_2017.html
④ 有没有发现百分率数据有问题?
⑤ 那些惊人相似的趋势图 http://tylervigen.com/spurious-correlations
欢迎投稿,投稿/合作:dashuju36@qq.com
如果您觉得文章不错,那就分享到朋友圈~
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 习近平拉美之行的三个“一” 7959069
- 2 微信或史诗级“瘦身” 内存有救了 7938971
- 3 男子求助如何打开亡父遗留14年手机 7873664
- 4 中国主张成为G20峰会的一抹亮色 7701424
- 5 中国对日本等国试行免签 7617631
- 6 7万余件儿童羽绒服里没有真羽绒 7596439
- 7 女生半裸遭男保洁刷卡闯入 酒店回应 7404721
- 8 70多辆小米SU7同一天撞墙撞柱 7379682
- 9 操纵股价 2人被证监会罚没近3.35亿 7273106
- 10 千年古镇“因网而变、因数而兴” 7196788