业界 | 涂子沛:从幼稚到成熟,我们这个时代的数据革命

百家 作者:大数据文摘 2018-09-19 06:53:47

大数据文摘出品


一个新的数据划分方法


随着大数据的兴起,“言必称数据”逐渐成了我们这个时代一个显著的特征,但问题是,此数据非彼数据。


今天,所有“记录”的结果,甚至包括文字,都被统称为数据。这其中暗含的逻辑是,数据作为一个概念,它的内涵扩大了。传统意义上的数据是人类对事物进行测量的结果,是作为“量”而存在的数据,可以称为“量数”;今天的照片、视频、音频不是源于测量而是源于对周围环境的记录,是作为一种证据、根据而存在的,可以称为“据数”。


量数虽然比据数更接近“数”,但从历史上看,据数的出现要早于量数。人类早期对自身活动的记录,即“史”,就是早期的据数,也可以说,据数是历史的影子。量数则是在记录的实践中慢慢产生的,特别是针对天空、星体、山川等外物的记录,它们追求精确,于是我们逐渐延伸出测量的工具和行为。


一切科学都源于测量,量数是否充沛,决定了科学的种子何时萌芽,决定了科学是否发达,也可以说,量数是科学的母亲,其核心要义是精确。


进入 20 世纪后,由于计算机、互联网和智能手机的普及,据数开始爆炸,相较于 16 世纪的量数爆炸,据数爆炸的规模更大。今天大数据的主体,从体量上来看,毫无疑问是据数,即对人类活动及周边环境越来越多的记录,或称“普适记录”。互联网平台记录的,大部分是据数。


和今天的普适记录相比,过去5 000年的文明看似浩如烟海,但其实相当有限,史书虽然一本比一本厚,但大部分都聚焦在为数不多的帝王将相身上,关于普通百姓的个体性记录,在全世界各个国家都少之又少。随着普适记录的兴起,这种情况正在迅速改变,未来不仅有国家史、社会史、行业史,还会有数量惊人的“个人史”。可供历史学家研究的资料,将会像雪球一样越滚越大,其规模将前所未有。


量数对于中国的巨大意义,自不待言,黄仁宇的“数目字管理”在 20 世纪曾经开启过一场讨论,我的前两本书《大数据》《数据之巅》重点关注的是量数,尤其是《数据之巅》,它延续了黄先生的讨论,而本书更侧重据数。



一场还没有完成的革命


今天的“大数据之热”,热的其实是据数,和精确的量数几乎没有任何关系。


“据数之热”并不奇怪,它源于互联网带来的变革和它已经展现出来的巨大的财富效应,形形色色的手机应用给了每一个人更加直观的感受,不管是电商、社交还是自媒体,哪一个不是跟记录之据数有关呢?


几乎人类的一切行为,今天都可能、可以被记录,并被转化为据数。如果说量数的核心要义是“精确”,那据数的关键就在于“清晰”地留据。


因为智能手机的普及,据数已经无处不在,但我们大部分人对据数的理解是肤浅的,迄今为止,以据数为中心的大数据讨论主要停留在以下三个层面。


一是精准营销,即互联网广告业。和传统的广告业相比,今天的互联网和智能手机通过记录消费者不断产生的数据,可以向终端用户推送个性化的广告,这大大提高了行业效率。这是大数据革命在商业领域的起源。这也是目前互联网企业,无论是中国的 BAT(百度、阿里巴巴、腾讯),还是美国的谷歌、Facebook(脸谱网)、亚马逊最主要的赢利途径。


二是商业和社会信用,其主体是金融机构。除了精准营销,这是利用大数据赚钱的第二个法门,也是我们看到诸多互联网企业陆续进入金融领域的原因。其商业模式是,通过消费者的消费记录评估消费者的信用,从后续的金融服务中赢利。例如阿里巴巴旗下的“芝麻信用”和腾讯旗下的“微粒贷”,它们在给消费者打“信用分”的基础上,向单个消费者提供贷款等金融服务。


这两种商业模式,都需要通过数据监控消费者在互联网上的一举一动,消费者个体因此成为被观察、被分析、被监测的对象,这就带出了第三个层面的问题—隐私。这两种商业模式的副作用是,我们几乎每天都能听到数据泄露的新闻,时不时还会看到因为它而导致的悲剧。

这就是大众眼中的大数据,前两者为商业利润而生,而隐私问题屡屡成为社会公共话题。


可是,这三个层面仅仅揭开了冰山的一角,难道大数据就是养了几家大公司,方便了公众生活,改善了信用评级体系,让生活更美好或者多了点麻烦这么简单?我认为远不止于此。


在商业层面,大数据还在进一步深化变革,它所催生的互联网应用仍在不断更新迭代。当大数据完全发挥出它的潜力时,其最终形态将是全自动商业,或称智能商业,商业文明将会被重塑和再造。


据数的商业化应用带动了大数据的兴起,但商业只是故事的一个边角,革命是社会化的,未来我们还会看到智能制造业,它所依靠的还是数据,数据引发的变化还在向社会治理和个人生活领域全面拓进,它涉及社会生活的方方面面,将会推动整个社会进入文明新状态,改变社会的全貌。


一个新的故事正在世界范围内浮现。我们必须抛开细枝末节,看到那些更深刻的、方向性的东西。数据的力量正在重塑整个社会甚至人类的天性。

我称之为“数文明”。



一种新文明的兴起


何谓文明?文明是历史沉淀下来的,被绝大多数人认可和接受的发明创造、人文精神以及公序良俗的总和。这些集合至少包括了以下要素:语言、文字、工具、道德、信仰、宗教、法律、家族、城邦和国家。


今天的数据,包括了文字,还超越了文字,文字只是数据的一个子集,如果说文字是金子,那数据就是金属。


在光明和文明之外,数据带来了一种新的“明”。因为数据,人类历史上一些精细的、微妙的、隐性的,甚至曾经难以捕捉表述的关系和知识,在今天都可以变为显性的关系和知识,清清楚楚地为人类所用;因为数据,人类从来没有像今天一样清晰、明白、客观、精确地认知和管理自己所生活的社会;因为数据,大量的事实可以被还原再现,人类的侥幸心理得到了抑制,人性的幽暗之处得以变得光明,人类正在迈向一个更加文明、安全的时代。


在国家和社会的层面之上,我们将会看到更大的变化。越来越多的个人行为在被记录,对国家而言,这意味着每一个国民个体、每一辆车甚至每一个其他物体都可以被追踪。


如果懂得使用数据,那么站在官僚层级的金字塔上,我们的社会将呈现出一种现在就非常清晰而且会越来越清晰的状态,据数就是这个高清社会的纹理。清晰性是有效治理的前提。


《数文明》坚持、发展了黄仁宇的“数目字管理”。我认为,中国近百年来的落后,是源于众多国民对精确的漠视,在中国的历史上量数一度匮乏。


和量数相比,据数为国家治理提供了新的工具和手段。就此而言,用好大数据是通向国家治理现代化的最佳路径。我甚至认为,若论中国,我们的国家治理现代化,舍此途径,无从抵达。


在中国的历史上,曾经长期存在德治和法治之争,德治以仁爱为主,法治倡导峻法,争了上千年,今天中国要建设法治社会已经是共识,《数文明》要提出的,是数治。数治就是凭借对数据的有效收集、处理和分析来治理国家以及与之对应的数据治理,数据治理将是国家治理的重要内容。


对国家而言,以大数据为结果的互联网代表的是新生的力量,它正在重塑传统社会,比如智能摄像头被广泛应用,大量的事实可以被还原再现,人类的侥幸心理得到了抑制,人类的犯罪行为将会大幅减少,数治正在有效地解决人类对安全的根本性需要。


另一方面,大数据、互联网又带来挑战。国家力量已经不可能完全左右互联网连接起来的有机社会了,相反,越来越多的公共功能在向私人公司、社会机构转移。

如何利用这股力量,又约束住这股力量?


这股力量可能会重塑整个社会的结构,催生新的政治文明,数治因此是一个具有挑战性的话题。数治做好了,中国在这个新的时代就会具备“数据优势”,国家是这样,企业亦然,各级地方政府也一样。



一条可靠的成功路径


数文明不仅和国家、社会相关,也直接关系到个人。


对个人来说,掌握未来发展、演进的方向,知道哪些行业将消失,哪些行业又将兴起,这当然非常重要。一个在黑夜中行走的人是走不快、走不远的,他也无法领略到沿途的风景之美。


我认为,在数文明的时代,通过记录赋能,个人会成为高能个体,一个具备数据意识、数据头脑和数据技能的数据公民当然更容易获得成功。新的时代会改变个人的命运,我们也应该调整我们的价值观。


记录可以把伟人还原成普通人,抹去英雄与平民的差别。这不是把历史虚无化,而恰恰是真实的历史。中国人有崇拜先祖的传统,对先祖文明的推崇确保了我们文化的绵延不绝,有其积极意义,但是在大数据时代,我们更要看到另一层意义:伟人也是普通人,凡人也能走向成功,不必高山仰止,妄自菲薄。


记录可以祛魅。祛魅,意味着打破不可知的神秘,凡人也可成功,人人皆有可能成功。


既然人人都可能成功,那在数据时代,一个人究竟如何才能迈向成功?


《数文明》分析了社会和商业的文明史,找出了文明发展的“金线”,而且我认为,这条文明发展的“金线”也同样适用于个人,可以帮助个人获得职业上和专业上的成功。


通往个人专业成功的有效路径就是记录。就记录而言,人脑不如电脑,因为人脑是微分机制,而电脑是积分机制。有效的学习,更需要积分机制。善用记录和数据,我们就能在成功的道路上获得能量“加持”。


个人的成功和一个民族的文明自有相通之处,这个相通之处就是记录。因为普适记录,个人更容易获得成功,而推动文明发展的最终动力则是无数国民源源不断的创新。正因如此,数文明的能量和潜力有可能超越历史上所有的文明。在我看来,数据正在改变所有那些组成文明的要素,就像支付宝改变了传统的银行业,微信改变了传统的通信行业一样,数文明在更优越的模式的基础上,将形成新的法则、新的语言、新的公序良俗甚至新的文化和信仰。数据的新力量,就如同农耕之于古代文明,工业革命之于现代文明,数据将催生一种全新的文明形态。



一类新的隐私观


当然,新文明本身也问题缠身。


当我们拨开大数据表面上的浮云,立刻就可以看到一个商业逐利和社会控制的世界。互联网巨头贪婪地吞噬着大数据的红利。个人向互联网企业让渡的数据反过来为互联网企业的“杀熟”行为提供了便利,无数人的个人生活被圈在一个固定的小天地里,看个性化推荐的新闻,阅读个性化定制的消费指南,他们感觉很舒服,事实上,我们出让的数据正在成为我们的电子脚镣和枷锁。


这是新文明的两个悖论。一方面,数据越清晰、越全面、越真实,就越有利于个性化生产,避免资源浪费,比如精准营销、个性化页面、私人定制服务;另一方面,数据又带来了信息茧房、信息窄化的风险。 一方面,大数据要求更加开放甚至是无限制的联接,另一方面这又将伤害个人的隐私和权利。


那该如何看待新文明的问题? 文明不是生来就是其最终形态的,它会磨合、变幻,才能最终为大多数人所接受,成为一种认同、一种信仰。今天信息技术的发展提供了新的可能,但数文明最终的形态是需要大家一起创造的。


事实上,上述悖论也可能很快被破解。比如,通证经济来临,区块链技术正日臻完善,未来一个人的数据很可能并不保存在大型互联网公司,而是保存在一个公共的区块链上,这些企业使用我们的数据都必须经过我们的同意,被区块链记录。只能说,我们目前所见证的数据革命,还远远没有结束,如果真要说结束,那也只是一个序曲的结束。


即使是隐私问题,随着人工智能的普及,它也在出现新的态势,我认为整个人类,无论东方或西方,亟须建立一种新的隐私观。


例如,被中国大众频繁诟病的“大数据杀熟”和“千人千价”,它们是通过算法对数据的自动处理实现的,主观上它没有泄露任何人的数据。这就是新的情况:你的数据都是算法和机器在处理,并没有被泄露给“人”,在一定程度上,你的隐私并没有受到“人为”的侵犯。人为泄露个人数据的案例和情况当然还会出现,但我相信会越来越少。我们的数据需不需要对算法和机器保密?这才是一个新的问题


我们不会介意自然环境在注视或监视我们,那我们是否介意算法和机器注视着我们?或者说,我们应该介意吗?未来,算法和机器就是我们生活环境的一部分,让机器了解我们,向机器开放我们的数据,这恐怕是通向智能时代、机器人时代、人机协同时代唯一的选择。


人类新的隐私观,其核心是要为商业和公共领域的算法划定一个使用个人数据的边界。


数文明的发展和延续,我相信是以百年、千年的时间为单位的,探讨数文明,就是思考人类的百年大计、千年大计。不管是国家还是个人,我们需要跟上新文明的演进步伐,否则就可能被新文明所淘汰。


本文整理自《数文明:大数据如何重塑人类文明、商业形态和个人世界》涂子沛著



【今日机器学习概念】

Have a Great Definition

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接