经验▍小心被“套” 九大花式数据撒谎套路

百家 作者:原力AI学院 2019-03-11 07:31:40

作者|吴水永 编辑|布袋熊  36大数据获授权分享

防火防贼防数据欺骗


一本敏捷的书说到,自从使用Scrum之后,团队生产力提升了60%。用百分率,是标准的吹牛逼仪式,看来我是遇上对手了。


一般来说,这种没有明确可衡量标准的结论,不起推敲,也经不起连续提问。


首先问:是不是。偷换概念是非常容易的,一般人注意不到,尤其是在专业领域。常规地关注对象(人/物)、时间(前/中/后)、空间(环境背景)、事件(what)是否完整客观。60%的衡量计算标准是什么?


接着问:为什么。阅读中保持独立思考能力,敢于质疑。首先对一些基本概念要有认知,《人月神话》很恰当地把工作为分智慧密集型与劳动力密集型,研发属于智慧密集型活动,难以短期内通过人力或流程大幅度提高效率。如果是真的60%提升,那之前做的到底是有多差劲。


之前在公司内部做过一期数据思维分享,有一部分是提防数据撒谎,遂重新整理成文字,共九点罗列如下。雕虫小技,丢人现眼。


 

1.数据来源与采样


看到一份数据,首先警惕数据来源,凡是数据一定有采样率,一手数据或二手数据,来源是否可靠客观全面


相对靠谱的数据来源有很多,如下

  • 企业平台报告(淘宝电商、微信社交等只放出了私聊范围内的数据,聊胜于无)

  • 数据服务行业报告(艾瑞、易观 不清楚这么多的行业报告数据是怎么收集的,有了解的请留言告知。还有些连各国内外宏观数据都有)

  • 政府公开数据(国家统计局 中国汽车流通协会②等

  • 上市公司财报(A股的财报说 就非常实用)


一般的问卷数据就算了,问卷从问题设计可能就已经偏离调查意旨,更别说在人群抽样环节了,那怕直到数据报告输出,想操纵结果,都有无数的机会。


好的文章都会给出数据引用,那怕会被质疑。凡是没有给出参考,没有数据来源说明的报告或分析都是耍流氓。


2.偷换概念混淆


有了数据,接着则需要做聚合,用一些数据概念来描述总结量或趋势。常用的数据概念有:最大值、最小值、九分位值、平均数、中位数、众数;标准差、方差、期望;比率;同比、环比;科学计算相关等等。


首先得知道分别是什么意思,并且清楚适用的场景。太阳底下无新鲜事,没有什么比较谣言更容易传播了。10+万的标题党出现的平均年收入,稍做二八分析(百分之二十的人,掌握了百分之八十的财富)就明白我们是给平均数拖了后腿的。但实际上,随着全球化以及经济发展,贫富差距一定会越来越大,Oxfam报告说已经是前1%的富豪,掌握了80%的财富。


3.故意漏掉了什么


常听到的是我国GDP总量全球第二,仅次于美国,但新闻联播可不会说的是,我们人均GDP仅为美国的15%。哪个概念才跟老百姓息息相关呢?哪个在我们心里才是最重要的呢?


类似的报喜不报忧手法还有不少,量少,则用比率;增量不足,则用总量;总量不够,则用同比;旺季同比不足,则用淡季环比。


以我的开源项目 walle-web.io 的 github star 为例,总用户趋势还是很漂亮的,尽管新增用户在下跌(不要替孤担心),我不把后面的数据放出来,会有几个眼尖的能看到?



4.单个概念代替复合概念


但现实情况,往往一个概念或指标是无法表述清楚的,描述一个事实需要多个维度的数据,才能立体呈现。想掩盖一个事实的最好方式,莫过于不要暴露。给出的数据指标越多,信息就越全面,即需要多个概念或加权概念来描述。


比如用平均数均价来描述某城区的房价,就是不合理的,极值很可能是离群值。而应该使用中位数乘数(Median Multiple):房价-收入乘数,即该城市房价中位数 / 该城市每户居民税前年收入的中位数。这一指标被世界银行以及联合国推荐使用,以评估城市房地产市场。


摘取研究机构 Demographia 2017年《全球房屋负担能力调查报告》其中一个数据,感受下大香港凌驾于其它地方的房价压力。

5.有图不一定有真相


依靠视觉,非常直观,直观到让人太容易相信眼见为实。分别看下面三组图,A、B哪个更长,当然你知道我会用相同长度的A和B做对比。


6.看着理所当然的XY轴


最初级的手法,更改X轴Y轴的起点,就可以改头换面。当你的产品是C时,这一招悄无声息,只需要修改Y轴的起点,简直是神一样出装。同样,XY轴的取值间隔一样可以玩出新招式来。



7.变形

太没技术含量了,不展开。


2018年 荣耀 V10 发布会

8.错误归因


不合时宜地错误归因,往往不是智商捉急,就是别有用心。以辛普森悖论为样例展开。


辛普森悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。


某产品的用户中有10000人使用Android设备、5000人使用IOS设备,整体的付费转化率应该是5%。细分发现其中IOS设备的转化率仅为4%,而Android设备则是5.5%。“聪明”的数据分析师得出结论:IOS平台的用户付费转化率低下,建议放弃IOS平台的研发。④

这么不符合常识的结论,直到数据拆分出来之后,一切都解释清楚了。到底悖论出现在什么地方?手机和平板两组数据是可加的啊!?


普森悖论有个非常明显的数据特征,两组数据可加,但A组Y种类量小而百分率高,而B组X种类量大百分率低,尽管Y在每组类型数据中比率都比X高,但会在最终合计上的比率会X低。

通俗易懂说来,两组数据基数差距大,数值与比率合一计算,但结果相反,原因在于忽略了加权。那么问题来了。


  • 到底Android和IOS哪个转化率更好?

  • 合计的加权公式应该是什么?

  • 普森悖论经常会出现在什么场景中?


我还能想到的其它一些错误归因类型,简单列举如下。

  • 因果倒置

  • 没想好例子: (

  • 幸存者偏差

    • 二战中给飞回来的飞机增加防护板


    9.脱离逻辑的神扯淡


    都到了这,得见识下真正实力了,吹牛逼的奇葩与巅峰。可以把两个风马牛不相及的事件,通过数据近乎完美阐释他的论点,而且创意十足。




    两条线是不是非常贴近,但这两条线分别表示每年掉到游泳池淹死的人数,和尼古拉斯·凯奇出演的电影数。在逻辑上没有任何关联的两个事件,R值(相关度)可以高达66%,还有很多这样的案例,R值超过90%,具体在「那些惊人相似的趋势图」
    从数学的角度来讲,这是再正常不过了,这就是「维度的诅咒」。度在数学上亦变量,变量太多,数据太少,就很容易出现假的相关性。上面例子从99年到09年不过11年,在万千事件中找到11个数据点与之相似的,从概率上讲就是大概率事件,正如无限大猩猩也能写出哈姆莱特。
    从相关性,我想到了拟合,拟合即通过数学方程式,描出与现有数据吻合的曲线。这不禁让人想到冯·诺依曼的名言,后因费米传开而闻名。
    用四个参数我可以拟合出一头大象,而用五个参数我可以让它的鼻子摆动

    四五个参数就可以高度拟合出动态大象,两个逻辑不相关的事件,可以通过数据描述成高度相关。数学真是亦魔鬼亦天使,在天才手里就能创造神迹,反之,堕落成障眼法的小把戏。以至于让人怀疑什么才是真相,信息永远存在不对称,没有100%的真相


    10.结硬寨 打呆仗


    正如中国武术一样,练武为了强身健体,保护自己。认识这些伎俩是为了不被忽悠,而不要用这些小花招。数据的价值远非一些简单的特征、趋势所能呈现的,不必迷恋雕虫小技,还有深入的知识和应用等待探索。


    所谓重剑无锋,大巧不工,价值才是王道,自身的价值和创造的价值,是让自己永远立于不败之地之根本。每个具体的垂直领域,都有着独特的专业性,加之经济学,心理学,同时警惕数据至上陷阱,敬畏前行。吾生也有涯,而知也无涯,共勉。


    参考:

    ① 国家统计局 http://data.stats.gov.cn/easyquery.htm?cn=C01

    ② 中国汽车流通协会  http://www.cada.cn

    《全球房屋负担能力调查报告》https://www.kiwiblog.co.nz/2017/01/13th_annual_demographia_international_housing_affordability_survey_2017.html

    ④ 有没有发现百分率数据有问题?

    ⑤ 那些惊人相似的趋势图 http://tylervigen.com/spurious-correlations


    欢迎投稿,投稿/合作:dashuju36@qq.com

    如果您觉得文章不错,那就分享到朋友圈~

    你点的每个赞,我都认真当成了喜欢


    关注公众号:拾黑(shiheibook)了解更多

    [广告]赞助链接:

    四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
    让资讯触达的更精准有趣:https://www.0xu.cn/

    公众号 关注网络尖刀微信公众号
    随时掌握互联网精彩
    赞助链接