夸大ML能力、论文纸上谈兵……机器学习社区为何变成这样?

百家 作者:机器之心 2021-05-17 16:05:27
机器之心报道
编辑:杜伟
一直以来,对机器学习(ML)社区的吐槽没有断过。但总是提出的问题多,解决方案却很少。所以,如何改造并建立一个相对健康的 ML 社区仍将是一个长期存在的问题。


机器学习(ML)在不断地发展,大量令人瞩目的研究成果也相继出现。但正如其他领域一样,ML 领域并不完美,存在着这样那样的问题,因而对该领域的吐槽和批判从未停止过。

之前,有人总结出了 ML 社区的八大「毒瘤」,包括盲目崇拜、相互攻讦、重 SOTA 轻实效等,警醒人们,促使社区沿着健康的方向发展。不久前,一位硕士刚毕业的「老」工程师也对 ML 社区的残酷现状进行了无情揭露,诸如封闭、缺少代码审查等,不一而足。

但只要问题不解决,吐槽就永不停止!

近日,reddit 上又一则「质疑机器学习领域」的帖子火了,发帖者灵魂发问:「为何机器学习变成了这样一个充满毒瘤且自诩无所不能的领域?


以下为帖子原文:

我曾与很多不同领域和背景的科学家都合作过,但从未领教过机器学习社区那般着实令人生厌、自诩无所不能的学术氛围。并且,我敢肯定是「一些行为不端的『老鼠屎』坏了机器学习社区『这锅粥』」。

究竟是哪些群体和哪些行为破坏了 ML 社区的氛围呢?发帖者总结了以下几点:

一些群体自认为可以掌控 ML 领域

在 ML 领域,我经常会看到一个群体或多个群体蜂拥至某个问题上,拿出 ML 这个工具,然后声称问题「已经解决」。此外,还应看到,在解决一些问题时,很少有中小企业参与其中,更重要的是,没有后续解决方案。

深度学习(DL)领域鼓励「不学习基础知识」的风气

我经常遇到这种情况,在深度学习领域尤为明显。人们会直接跳入计算机视觉(CV)或自然语言处理(NLP)等领域的学习,而不学习任何基础知识。我曾见过很多在著名学术会议上发表 CV 论文的学者,在与他们的交谈中,发现他们不清楚「颜色空间为什么有用」甚至「不清楚什么是像素」(像素绝对不是图像上的小方块)。

你可能会说他们不需要了解这些,但这是妄想,他们绝对需要了解这些。比如,「计算 + CNN/transformer 能做的事情」是有限制的,所以他们需要在了解基础知识的前提下搞明白如何进行改进。

绝大多数论文都是「纸上谈兵」,不涉及实际工作

过去很多人都提到过这一点,但我必须澄清自己的观点。我知道,很多因素导致了这一问题以及所有其他问题。论文往往只包含微小的架构变化或渐进式的改进,「真正的思想」却看不到。这就导致有时一位博士却不擅长工程实践,或者其研究效率比不上有经验的硕士生。在一个 ML 团队中,博士的思想在研发过程中非常有用,但在实际科研中,这些博士的表现却往往不尽如人意。

「自诩公平 / 道德」群体的傲慢无礼

当前,这类群体在 ML 社区中充当了「毒瘤」。他们总是指出问题,却从未提供(切实有效的)解决方案。他们就像「看门狗」一样,把 ML 社区搞得乌烟瘴气,甚至禁止社区内自由发表言论,却不用担心自己受到影响。这类群体应该接受彻底的改造,这是因为其中一些「自诩为专业学者的领导者」却最为刻薄无礼、游手好闲。

ML这么一个应用型领域,却很少关注应用

通常给出的理由是:像数学这样的领域也没有什么直接应用。但事实果真如此吗?首先,ML(尤其 DL)不像数学,更像直接的工程实践。那么作为应用型的领域,ML 应该更加关注应用。微小的架构变化或者 ImageNet 数据集上 0.5% 的提升远远不够,这是一种惰性行为,单纯是为了获得博士学位。

物理和统计等学科往往会在实际生活中得到应用,并对现实世界产生影响。公平来讲,ML 领域也应如此。但很遗憾,ML 领域却没有发挥应有的作用,尤其是在同行业的一般企业中。

认为ML可以解决现实世界所有问题

这一问题也常常被提及。一味地夸大 ML 的能力,不确定是无知的幻想还是有意的宣传,或二者兼有。

网友:抱怨解决不了问题,解决方案才是关键

对于这位发帖者对 ML 社区的质疑和吐槽,多数网友表示认同,不过也有些认为不应只是抱怨,更应提出切实可行的解决方案。

一位用户说道:「在攻读硕士期间,我也有过同样的感受。有时甚至觉得『什么都是假的』,以至于决定不再攻读博士并退出学术圈。像股票交易一样,ML 领域充斥着各式各样的谎言,只不过涉及的钱少罢了。」


另一位用户也表示:「再同意不过了。当一个领域充斥着炒作并有利可图时,一切都只是预期结果罢了,并且对野心家们的吸引永远不会消失。」


不过,也有用户认为发帖者只是指出问题,也并没有提出实际的解决方案,这不正和那些自诩公平 / 道德群体的做法一样吗?


对于这位发帖者观察到的 ML 社区的各种乱象,机器之心的各位读者有没有什么可行的解决方案呢?如果有,可以在评论中分享出来供大家探讨。

参考链接:
https://www.reddit.com/r/MachineLearning/comments/n7qrz5/d_why_has_machine_learning_become_such_a_toxic/

全民K歌音频技术详解


5月22日9:30-12:00,腾讯音乐娱乐集团(TME)全民K歌基础架构团队负责人与三位高级算法工程师将带来4场线上主题分享,为大家揭秘「全民K歌」背后的音频技术。

  • 主题一:全民K歌智能录唱服务架构
  • 主题二:轻量级歌声合成技术及应用实践

  • 主题三:多维度歌唱评价

  • 主题四:信号处理技术在全民K歌实践


点击阅读原文,免费报名,我们也将从所有报名的小伙伴中抽取20位,赠送全民K歌VIP月卡。

全民K歌团队的大量算法职位正在火热招聘中,欢迎大家进群咨询详情。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接