287万篇CS文献数据分析:性别差距100年难消除,男女搭配协作更累?

百家 作者:新智元 2019-06-24 06:54:53





  新智元报道  

来源:arXiv

编辑:三石

【新智元导读】近期,来自艾伦人工智能研究所的研究人员对计算机领域中的性别问题做了深入分析。实验表明,本世纪男性和女性作者数量将不会持平、不同性别作者之间协作率在下降。


性别平等问题似乎一直是个热议的话题,学术界也是如此。


去年8月,名称一直饱受争议的国际顶会NIPS,因在会议中遇到的性骚扰,再次将NIPS推上风口浪尖。


同年11月17日,NIPS官网将会议名称默默改为NeurIPS。至此,有关该顶会性别歧视、性别平等的问题算是得到了相应的解决。


而近期,一项来自艾伦人工智能研究所(Allen Institute for Artificial Intelligence)的论文对计算机领域中的性别问题做了深入的分析与研究。


论文地址:

https://arxiv.org/pdf/1906.07883.pdf


这项研究对计算机领域近287万篇文献(截至2018年)进行了全面的分析,结果表明:


  • 如果按照当前的趋势发展下去,本世纪男性和女性作者数量将不会持平;

  • 若是按照较为乐观的预测结果,性别平等预计将在2100年之前实现;

  • 对计算机科学协作趋势进行分析后表明,不同性别作者之间协作率在下降。


287万篇计算机论文做实验数据


研究人员所要试图解决的问题包括:


  • 论文作者之间的性别平衡如何随时间而变化?

  • 论文作者的性别将在何时达到平衡状态?

  • 协同作者之间的性别存在怎样的关系?


研究人员通过对计算机科学会议和期刊(287万篇论文)中的文献原数据进行自动化研究,并利用Semantic Scholar学术搜索引擎中的数据来回答上述这些问题。


数据统计如下所示:


表1 Computer Science and Medline语料库统计


作者列表从所有出版物中提取,并编译成一个名字列表。研究人员使用Gender API为每个名称执行性别查找。对于每个名称,Gender API输出预测的二进制性别(女性或男性),以及与预测相关的准确性和用于确定的样本数量。只有首字母可用的作者(少于语料库中所有作者的0.5%)被排除在分析之外。


(性别应用程序接口(Gender API)是一个大型的在线数据库,通过将各国公开的政府数据与社交媒体资料链接起来,可以获得已知的姓名和性别关系。)


但此时却存在一个问题:很多名字都是性别模糊的。因此研究人员使用Gender API返回的准确性来表示每个作者是男性和女性的复合。


例如,第一个名字Matthew被确定为男性,准确率最高为100。这个结果是明确的。然而,Taylor这个名字被确定为女性的正确率仅为55分。


精度用于为每个名称生成两个概率(m, f),其中m为关联作者为男性的概率,f为关联作者为女性的概率,其中m + f = 1。在本例中,每个姓Matthew的作者将用概率元组(1.0,0.0)表示,每个姓Taylor的作者将用概率元组(0.45,0.55)表示。


本世纪男女性别平衡较为困难,女性协作者呈下降趋势


通过实验,计算机科学语料库中的287万篇论文产生了824万个 author-paper units。


作者的趋势


图1 


如图1所示,按照目前的增长速度,女性作者的比例预计在2137年左右达到0.45(95%置信区间:[2109,2172])。


图2


图2显示了一段时间内女性和男性作者的数量。随着时间的推移,作家的总数在增加,女性作家的比例也在增加。


图3 


图3显示了对均衡女性作者比例参数α的敏感性分析。该分析显示了在每个均衡比例中首次达到平等的年份。


当均衡比例被认为有利于女性而非男性(高于0.5)时,达到平衡的年份会更早。即使女性最终将占所有出版物的90%,但按照目前的增长速度,预计到2100年左右将实现男女平等。


协作者趋势


此处统计的是每年计算机科学中相同和不同性别的协作者人数。


图4 


图4显示了自1995年以来相同/不同性别协作者的额外和缺失的数量。在男性和女性中,相同性别的合作作者比预期的要多,而不同性别的合作作者比预期的要少。近年来(与预期数字相比),每年有超过2万个不同性别的合作项目消失。


通过分析观察到的与预期的比率,协作者的趋势还是较为悲观的。


虽然男性和女性都更有可能与自己性别的作者合作,但在女性作者中,同性偏好的程度正在下降,而在男性作者中却在上升。


与此同时,不同性别之间的协作差距(O/E < 1.0)也在不断扩大。尽管近年来有更多的跨性别合作机会(由于在该领域工作的女性科学家的增加),但观察到的跨性别合作的数量并没有如预期的那样增加。


与Medline的比较


Medline语料库包括1163万篇论文,可以产生4766万个author-paper units。


图5


图5显示了Medline语料库中女性和男性作者的数量。


图6


图6显示了使用ARIMA预测女性作者的预计比例。


2002年Medline语料库数据中可以观察到不连续性。这是由于Medline索引记录中的完整作者姓名是从2002年才开始要求的。


2002年这一比例的下降表明,Medline期刊没有对作者使用全名,才造成了2002年以前女性作者比例高的假象。


工作总结


研究人员对计算机科学文献(287万篇论文)进行了全面分析,以评估作者之间的性别趋势。


根据最近的趋势,预计计算机科学中女性作者的比例在本世纪不会达到平等,并且在更现实的假设下,可能需要更长的时间。


研究人员还观察到跨性别合作的数量低于预期,观察到的预期比率随着时间的推移而下降。


计算机科学领域女性科学家的比例增长缓慢,这继续对进入该领域的女性构成挑战。并且女性科学家在寻找合作者方面可能比男性科学家面临更多的挑战。


研究人员希望,这些发现将激励该领域的其他人评估他们与这些性别偏见的关系,并考虑改善现状的方法。


参考链接:

arXiv:https://arxiv.org/pdf/1906.07883.pdf


关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接