数据反腐:看世界各国如何用大数据打“老虎”
本文作者:卡洛斯·桑迪索,美洲开发银行(Inter- American Development Bank)国家部门机构能力分部负责人;本·罗塞斯,美洲开发银行国家部门机构能力分部研究协调员。
数据正在改变反腐斗争。接下来,我们将用两个故事(一个来自巴拿马,一个来自巴西)阐明这场运动的来龙去脉。
我们首先来关注发生在巴拿马的故事。2016 年 4 月 3 日,全球媒体铺天盖地地报道了一系列关于全球最富有的人如何逃税的新闻。在国际调查记者联盟(ICIJ)的精心安排下,来自 76 个国家的记者开始共同协作,发表报道,揭露富人们怎样别出心裁地向税务机关隐瞒财产。
这些行动是根据莫萨克·冯赛卡律师事务所(Mossack Fon-seca)所泄漏出的大量数据而采取的。该律所总部位于巴拿马,专门从事财富管理和“税收优化”,它所泄露的数据涵盖了近 40 年来全球范围内的避税行为,并包含了避税公司客户用以隐藏他们合法或非法获得财富的不透明离岸公司、信托和基金会信息,包括犯罪集团和非法武器交易等黑色产业收入。这是记者和数据科学家多年来秘密调查的结果。
记者所披露出的信息包括来自约 21.5 万个离岸银行账户和空壳公司的 1150 万份文件,数据容量达 2.6 太字节 (TB)。国际调查记者联盟为记者提供了让这些文件透明化所需的数据挖掘专业技术。Linkurious等数据分析初创公司提取了元数据,并通过数据可视化工具把这些信息串联起来。信息的云端存储让全球近 400 个记者得以在一个项目上协同工作。
泄露这些信息的动机是富人逃税所体现出的全球不平等加剧所带来的不公正。“收入不平等是我们这个时代最典型的问题之一,”泄露文件的匿名举报人在 2016 年 5 月6 日德国慕尼黑的《南德意志报》(Süddeutsche Zeitung)上写道,“这会影响我们所有人,影响全世界。关于全球不平等问题突然加剧的争论已经流行了许多年。
但是,问题仍然存在,为什么?为什么这个问题现在愈演愈烈?巴拿马文件给出了令人信服的答案:无处不在的大规模腐败。
他对腐败的担忧得到了全球年轻人的共鸣:最近,世界经济论坛对 181 个国家的千禧一代进行的调查显示,他们中近 60% 的人将腐败视为其国家面临的最严峻挑战。
我们再来关注发生在巴西的故事,数据的公开引发了国营石油巨头巴西石油公司逃税和回扣方案的丑闻,并使得迪尔玛·罗塞夫(Dilma Rousseff)总统下台。在席卷巴西全国的大规模抗议和反诉中,很容易忽略导致罗塞夫总统在 2016 年 8 月 31 日被弹劾所涉及的严格的技术司法案件。
实际上,罗塞夫被指控挪用了政府预算—大多数人认为她通过在会计账目上弄虚作假来掩盖公共财政的真实状态。非营利组织“开立账户”(Contas Abertas)率先发现了这些违规行为,该组织审查了依据巴西信息公开法律公布于两个主要政府透明门户网站联邦预算网(Orçamento Federal)和透明门户网(Portalda Transparência)上的预算数据和文件。“开立账户”将这些违规行为透露给了巴西联邦审计法院(TCU)。联邦审计法院展开了调查,政治程序紧随其后。看似矛盾,但恰恰是政府对透明度的强制要求为揭露政府策划的骗局铺平了道路。巴拿马文件丑闻体现了数据分析揭露腐败的强大能力,要在一个充满太字节的世界里实现这种能力,所需的仅仅是计算能力。罗塞夫弹劾案展现了如何使用开放数据对领导人问责。这两个故事共同展示“大”而“开放”的数据如何通过快节奏、证据驱动和众包的行动来推动反腐斗争。开放数据可将大量的信息提供给无数的监督人和揭发者。
大数据可以将这些信息转化为洞察,使腐败更易于识别、追踪和预测。为了兑现这场运动的所有潜能,技术专家、活动家、官员和公民都必须加倍努力,将数据分析融入政策制定和政府机构中。
图:巴西反腐游行
美国最高法院大法官刘易斯·布兰迪斯(Louis Brandeis)曾写道:“阳光是最好的防腐剂。”在全球共同推动下,大数据所释放出的威力如火如荼。社会的结构化转型让数据活动家能够利用信息来改进问责机制,新兴的大数据运动就是这种转型汇集的结果。这些变化包括:大数据的涌现,计算和分析能力的同步增长使得利用数据成为可能,以及全球性推动政府公开数据供大众监督的行动。下面让我们依次回顾这些趋势。
首先,大数据运动起源于全球私营部门和个人在其日常互动中产生的数据。新的信息驱动型经济每天都会在全球产生大量的新数据。2015 年,全球有 35 亿互联网用户,有 46 亿人使用手机通信和交易。根据 IBM(国际商业机器公司)大数据和分析中心在2015 年进行的分析,全球每天产生 2.5 万亿字节的数据,且当前的数据中有 90% 是在过去两年内产生的。麦肯锡公司在 2013 年对 7 个主要的经济领域进行了调查,其得出的报告显示,利用数据有助于释放 3 万亿~ 5 万亿美元的经济价值。审计咨询公司普华永道表示,大数据的市场规模在 2013 年为 50 亿美元,预计到 2017 年将超过 500 亿美元。
大数据有四个特征:大容量(巨大的数据集)、高速(产生新数据的频率极高)、多样性(数据来源和格式多样化)以及对其精确性的关注(管理大数据的不确定性)。
迄今为止,大数据运动一直致力于提取和利用新型数字经济中的公众数据,特别是把他们作为目标消费者来更好地了解。相比之下,它并没有被积极应用于分析政府和企业的工作。但在我们的新数字时代,这一切正在逐渐改变。
其次,大数据运动依赖计算能力的增强来为公共利益服务。大数据主要来自私营部门和个人,而开放数据则是公共部门的事。在公共部门内,全球政府的数字化转型推动了数据革命。第一组数字化政府改革的重点是通过升级“后勤部门”的职能来改善政府的运行,旨在提高政府部门效率,改善公共服务质量。这些行动由信息技术和电子政务创新驱动,意味着政府办公程序的自动化和数字化。第二组数字化政府改革的重点是“前沿部门”的职能,旨在让政府为所有公民服务,从而重塑国家和人民之间的关系。包括将公共服务集中在一个在线平台上,让公民能够完成诸如领取出生证明或在线登记财产等事务。这两组行动也会转而持续产生数据流,当然,这些数据还有待进一步开放。
与此同时,政府正在逐步公开其数据,供公众监督。更主动地披露政府信息的时代过渡。这一趋势正蔓延到多个国家。巴拉圭政府在2014 年通过了相关法律,而阿根廷政府也在更新数据公开的相关法律。决心改革的政治家通常需要拿出个人的勇气,来推动数据透明化改革。2013 年底,巴拉圭总统奥拉西奥·卡特斯(Horacio Cartes)推出一项计划,通过新的信息公开法开放政府数据,其口号是:“公共的必须公开。”
一些国家正在步入第三个阶段,基于更加严格的“默认公开”原则来改善公众获取公共信息的途径。2009 年,奥巴马总统发起了一项雄心勃勃的开放式政府倡议,要求联邦机构通过操作简便的综合性网站主动披露政府信息,也就是在一个门户网站上集中所有的政府服务。其中包括承诺以开放数据格式发布政府数据库。这种数据格式的“开放性”不仅指其公开可用,也指其“互用性”—利用现成的软件和计算能力来集成、整合和交叉验证数据集的能力。2013 年 5 月,奥巴马总统签署行政命令,将公开、计算机可读取定为政府信息管理的新标准。在反腐领域,开放数据的真正价值在于其可以让多个数据集相互联系,从而识别和揭露腐败的迹象和模式。
我们从发生在巴西的故事中可以看到,使用开放数据来防止腐败的一个关键领域就是公共财政管理,包括预算、税收和采购。国际预算促进会(The International BudgetPartnership)的开放预算指数(Open Budget Index)显示,政府在公开其预算数据供公众监督方面有很大的差异,且进程缓慢。在 2015 年接受调查的 102 个国家中,只有24 个国家的预算足够透明(在 100 分制的预算信息公开可获取性评分中得分高于 62 分)。
公共采购是腐败的一个关键风险领域。据全球发展中心(Center for GlobalDevelopment)的统计,全球政府每年通过合同支出约 9.5 万亿美元,占全球 GDP 的15%。但是据开放合约伙伴关系联盟(Open Contract Partnership)的报告,在参与开放数据指数调查的 120 个国家中,只有不到 10% 的国家能够提供优质、及时且计算机可读取的政府合同数据。据世界经济论坛(The World Economic Forum)估计,政府每年用于建筑施工的 7 万亿美元中,有 10%~30% 因腐败而损失。
公开大数据本身并不能推动反腐工作。2014 年白宫发布的一份关于大数据和个人隐私的报告强调:“我们可以对大数据集全部或有选择性地存储和检索,但是如果不做分析,我们得到的结果和输入的东西是完全一样的。”
在此背景下,有必要区分数据分析的四个主要阶段来体现其在全球反腐行动中的潜力:在分析复杂的政治问题时,“描述性分析”使用数据来描述已发生的事情;“诊断性分析”更进一步,通过挖掘交叉验证数据来解释某一具体政策问题出现的原因,找到根本原因,并解读潜在的结构化趋势;“预测性分析”通过机器学习,使用数据和算法来预测接下来极有可能发生的事情;“规范性分析”则提出应该采取怎样的行动来促使或阻止某件事的发生。
数据分析在反腐领域内的几项应用都有着不错的前景。众包,特别是通过移动应用程序,可以为公民提供有效的工具去发现各种腐败迹象。移动技术让公民能够更便捷地获取公开信息,为他们提供对公共服务进行投诉或谴责不当行为的渠道。
比如,在印度,一项名为“我行贿了”(I paid a bribe)的应用程序让公民举报官员的受贿和欺诈行为来打击腐败。同样,哥伦比亚总统的政务透明度秘书处研发了一款应用程序,可以让公民举报未完成的或花费过高的公共工程。据《时代报》(ElTiempo)报道,到2015年底,总共发现了83项这样的公共工程,总价值高达5亿美元,并促使执法部门启动了刑事诉讼。然而,这两款应用程序都未实现公民和官员之间的双向互动,也不开放匿名的原始数据供公民自行分析,或许这是出于隐私的考虑。
世界各地的新闻证实了数据能为促进反腐行动带来极大的机会。但是,如果没有进一步支持,这一前景将无法完全实现。具体而言,可以通过三种方法来实现数据在全球反腐行动中的最大潜能,即便是在贪腐长期存在且数据搜集和分析能力普遍偏弱的发展中国家。
第一,提高数据的质量和覆盖范围。只有当输入的数据可靠且来源广泛时,先进的分析工具才能提供有用的见解。关于数据方案的公共讨论倾向于强调传播(开放数据)和使用(大数据),却忽略了数据的产生。如果我们要在决策时更重视数据,我们就应该从一开始就在意数据的质量。政府应能够生成、收集和传播高质量的官方统计数据,并维护可及时生成可靠数据的有效管理登记系统。
在覆盖范围方面,数据的可用性和整体经济水平有着密切的关系。大多数发展中国家的整体情况和发达国家形成了鲜明的对比:电子政务不够发达,互联网普及率和数字化能力较低,某些地区的电网不可靠甚至根本就不存在。因此,这些国家产生的数据较少,也未能广泛传播,这有可能导致不平等现象长期存在和造成社会排斥的风险。首先,基于数据的决策可能偏向于有数据可用的区域,而忽略没有数据的区域。其次,基于数据的问责机制可能会缺乏效力。无法上网的公民不能查阅在线发布的采购合同或学校绩效排名,也无法做出决定。以上风险提醒我们,需要继续努力扩大宽带覆盖范围,向公民提供基础的计算机和互联网技能培训,提升他们使用透明度高的门户网站等政府监督工具的能力。
提升数据的覆盖范围和公开性,特别是用于反腐,可能会在发展中国家遇到较大的政治阻力,特别是在那些公共机构能力有限及政府机构自主性受限的国家。在权势阶层眼中,即使是像普查数据这类基础信息的传播都可能会影响到他们的利益。
例如圭亚那禁止在 2015 年的总统大选前公布 2012 年的人口普查数据(显示了重大的人口变化),起因就是担心公布该数据会带来的政治影响。而在反腐行动中更敏感的信息,比如收入和财产申报以及公共部门合同的细节,自然会面临更大的阻力。考虑到权势阶层认为发布数据可能带来的风险,以及支持开放数据的政治势力的相对实力,开放数据和大数据的影响或许在最需要这些数据的地方仍然会非常有限。
第二,培养政府的数据分析能力。为了发挥大数据和开放数据在反腐方面的潜力,政府必须建设自身能力,以产生有用的洞见并将其融入政策制定和实施过程中。政府自身的技术能力对反腐的可持续性非常重要。虽然将某些具体任务外包给企业或许是有效的解决方案,但算法和软件通常具有专有性,这意味着一旦这些企业离开(或将价格提升到无法接受的高度),政府就无法升级、修改或扩展方案。与此同时,政府在吸引和保留数据分析师方面也遇到了困难,因为他们即便是在私营部门也是稀缺资源。考虑到人才的普遍缺乏,拥有专业技术的数据人才通常会同给出最好待遇的雇主签约,而政府很少能提供这样的待遇。
在丹麦和英国,它们专注于通过孵化创新方案和利用数据来完善政策。在北美和拉丁美洲,智利、哥伦比亚、墨西哥、巴西和乌拉圭等国家,以及布宜诺斯艾利斯、墨西哥城、基多和蒙得维的亚等城市都建立了这样的实验室。对于调查组织和检察机构,它们的数据分析能力还存在重大差距,大数据可在此方面提供很大的帮助,特别是反腐机构应通过建立反腐实验室来提高其分析能力。
第三,使数据分析更加透明,并扩大其作用范围。任何需要高度专业技能的工具都面临只有少数人掌握的风险,大数据也不例外。正如非营利性民间新闻网站“为了人民”(ProPublica)的记者茱莉亚?安格文(Julia Angwin)在《纽约时报》(TheNew York Times)一篇专栏文章中要求的那样,大数据运动需要通过揭露决策过程来“让算法变得通俗易懂”:数据来自何处?支持计算的假设是什么?不同数据点的权重为多少?用于确定危险的阈值是多少?算法必须接受核查,从而避免数据产生或存在偏见。必须有保留地看待从数据探索和推断中得到的结果,并谨记相关性(不管暗示性有多么强)并不能确定因果关系。
此外,大数据运动的反腐行动若要有可信度,就必须更积极主动地应对企业部门的风险。巴拿马文件带来的愤怒加剧了提高国际税收和企业透明度的压力。一些创业项目正在应对这一挑战。数字平台“开放企业”(Open Corporates)正在通过汇集政府和企业公开的数据,打造一个开放数据库,其内容包括全球所有注册公司的全部实益拥有人(不一定具名出现在公司所有权证上,却分享公司收益的实际所有人)。该数据库目前涵盖来自 115 个不同司法管辖区的 1.1 亿多家企业的信息。
虽然大数据运动在反腐方面有着很大的潜力,但仍然存在诸多挑战。开放数据和大数据的灵活使用不仅要侧重于揭露腐败,还应更好地了解其深层次的原因,避免再次发生腐败。反腐分析不能虚幻地存在,必须以高质量信息为基础,通过改革来匹配战略制度框架。即便是最复杂的技术和数据创新都无法阻止法国小说家泰奥菲尔·戈蒂耶(Théophile Gautier)所说的“腐败具有让人费解的吸引力,即便是对最诚实的灵魂而言”。除非将数据分析用于改善国家治理和公共制度,否则它就不能产生其应有的影响力,或者长期持续这样的影响力。
GBDC(全球大数据联盟)是大数据领域第三方中立性平台,以促进大数据产业发展、提升产业集群创新能力和核心竞争力为宗旨,致力于打造大数据技术产业链、创新链和服务链,探索建立长效稳定的产学研合作机制,突破产业发展的核心技术,形成产业技术标准,搭建有效的合作交流平台。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/