不同的大陆,不同的数据科学

百家 作者:数据分析 2018-03-08 09:05:24

不同的大陆,不同的数据科学

原文:  Different continents, different data science

来源: https://www.oreilly.com/ideas/different-continents-different-datascience


导读:

  1. 在中国,人们担心数据的真实性;在欧洲,人们担心的是存储和分析;而北美的人们担心对数据进行处理导致的意外后果。

  2. 我交谈过的北美企业信任他们的数据,也许过于信任了。他们不太担心利用云来处理隐私数据,或者某一桩合并是否符合伦理道德。但他们非常担心依照数据行事的后果。

  3. 实际上,任何可靠的数据科学计划都需要担心真实性、存储、分析和使用。认知偏见、技术错误和不当模型有很多方法可以破坏数据使用的方式。


原文翻译

四年来,我在几个大陆跟人探讨了数据科学、机器学习、伦理和法律等方面,对象包括初创公司、大企业、政府、学术机构和非营利组织。在这个过程中呈现出一些特定的模式。



这是去年的交谈地点,而且我并不总是打开定位服务


在本文中,我将作出一些笼统的归纳总结。每个人都是不同的,每个文化也是独特的。但在跟同事、朋友和国内外听众挖掘这些模式时,他们表达了相应文化所关心的很多东西。

 

简单来说,在中国,人们担心数据的真实性;在欧洲,人们担心的是存储和分析;而北美的人们担心对数据进行处理导致的意外后果。


我稍微更加深入地挖掘了一下,以下是我对外部因素对以上几个方面各自有何影响的想法。


数据真实性

如果你不信任你的数据,建立在数据之上的任何东西都只是空中楼阁。我在中国说到精益数据分析或者数据科学和批判性思维的时候,很多提问都是关于确定数据是真是假。


数据分析师可以通过很多方法来验证数据真实性。其中最令人感兴趣的是本福特定律。该定律认为,很多类型的自然数据遵循一条动力曲线。在数据的随机样本中,以1开头的数多于以2开头的数,以2开头的数多于以3开头的数,以此类推。这就像一个魔术戏法,但它在很多著名案例中被用来检查数据是否造假。


也有可以增强数据可信度的技术,诸如防篡改的传感器等等。


但在一个充斥着假新闻和主观认定的时代(当我们开始编造真伪莫辨的东西时,这种情况只会变得更糟),去伪存真是现代批判性思维的第一步。


存储和分析

一场会议上的一位欧洲演讲嘉宾谈到了数据隐私方面的法律,以及保护信息不被政府获取的必要性,哪怕数据由政府存储。很多听众对他的这一观点提出质疑,正因为欧洲国家彼此紧邻,才造就了当前的欧洲数据存储政策。


欧盟发布了《通用数据保护条例》(GDPR),考虑到大多数大公司的业务遍布全球,这将在欧洲以外的地方产生广泛影响。欧盟此举在某种程度上是为了对科技巨头施加一些限制。GAFAM(谷歌,亚马逊、Facebook、苹果和微软)都是美国公司,与其实力相近的竞争对手只有百度、阿里巴巴和腾讯,全是中国公司。如果这些公司的用户构成一个个国家,其规模在世界上可以排在前列,而欧洲连一个大使馆都没有。有了GDPR,就能迫使这些公司在欧洲提出要求时做出响应。


但同时,GDPR反映了欧洲所关心的问题,即数据应该如何使用,以及我们应该是数据的管理者,而不是反过来让数据管理我们。最了解我们的只能是我们自己。


意外后果

斯隆基金会的丹尼尔·戈洛夫(Daniel Goroff)为美国联邦政府研究能源助推政策,试图说服人们减少用电,尤其是在大量使用空调的夏天。

 

社会科学家知道,可以利用同辈压力来鼓励人们的行为。例如,如果你要求某人重复使用酒店客房里的毛巾,他们有一定可能会这么做。但如果你告诉他们,其他客人重复使用酒店客房里的毛巾,他们这么做的可能性会高出25%左右。


把这种方法用于能源节约是可行的,所以公用事业单位向客户去信,告诉他们在能源节约方面他们相比邻居做得怎么样,称赞节约行为,指出有待改善的浪费行为。


这是一个重要的经验教训:了解数据的内容跟利用数据来产生预期结果不是一回事。市场和人是动态的,随环境变化而改变。当Orbitz把最大程度提高营收的任务交给一个算法时,该算法向Macbook用户提供更加昂贵的酒店房间。当亚马逊根据购买记录在波士顿推出Prime服务时,其数据模型把少数族裔居住地排除在外。


意外后果很难预料。美国很多法律是根据先例制定,受到法庭案例的影响。这导致产品包装上出现看起来很可笑的警示(比如洗衣球不可食用)。


责任很重要。我交谈过的北美企业信任他们的数据,也许过于信任了。他们不太担心利用云来处理隐私数据,或者某一桩合并是否符合伦理道德。


但他们非常担心依照数据行事的后果。


三位一体

正如我在文章开头所说,这是对我在多个国家发现的那些模式的主观看法。请注意,林林总总的传闻不能称之为数据。但我在网上回答了海外和网上听众的数百个问题,这个过程促使我问每个国家的人,我的感受是否可以用文化、技术、政治或经济因素来解释。


实际上,任何可靠的数据科学计划都需要担心真实性、存储、分析和使用。认知偏见、技术错误和不当模型有很多方法可以破坏数据使用的方式。最好的解决之道是在这个过程的各个阶段采取批判性思维,无论是哪个国家或者文化。



本次转自:品觉 微信公众号(pinjueche.com)

车品觉简介

畅销书《决战大数据》作者;国信优易数据研究院院长;红杉本中国基金专家合伙人;浙江大学管理学院客席教授;全国信标委员;数据标准工作组副组长;美丽心灵基金会桑珠利民基金副主席。

原阿里巴巴集团副总裁,首任阿里数据委员会会长现担任中国信息协会大数据分会副会长、中国计算机学会大数据专家委员会副主任、粤港信息化专家委员、中国计算数学学会第九届理事、清华大学教育指导委员(大数据项目)、浙江大学管理学院客席教授等职。

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

商务合作|约稿 请加qq:365242293  


更多相关知识请回复:“ 月光宝盒 ”;

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接