【前沿技术】AI终于攻陷了数学领域!高数考试超过普通博士??
高数考不好,不知道是多少人的噩梦。
如果说你高数考得还不如AI好,是不是就更难以接受了?
没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平。
课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。
这件事最近还登上了微博热搜。
现在,谷歌那边又传来了最新大消息:
不止数学,我们的AI甚至在整个理工科上,都已经拿到最高分啦!
看来在培养“AI做题家”这件事上,科技巨头们已经卷出了新高度。
谷歌这个最新AI做题家,参加了四门考试。
数学竞赛考试MATH,以往只有三届IMO金牌得主才拿过90分,普通的计算机博士甚至只能拿到40分左右。
至于别的AI做题家们,以前最好成绩只有6.9分……
但这一次,谷歌新AI却刷到了50分,比计算机博士还高。
综合考试MMLU-STEM,内含数理化生、电子工程和计算机科学,题目难度达到高中甚至大学水平。
这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,直接将分数拉高了20分左右。
小学数学题GSM8k,直接将成绩拉升到78分,相比之下GPT-3还没及格(仅55分)。
就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程,谷歌新AI也能在200多道题中,答出将近三分之一。
最重要的是,与OpenAI凭借“编程技巧”取得数学高分的方法不同,谷歌AI这一次,走的可是“像人一样思考”的路子——
它像一个文科生一样只背书不做题,却掌握了更好的理工科解题技巧。
我们的模型参加了今年的波兰数学高考,成绩比全国平均分还要高。
如果告诉我女儿这件事,我怕她用AI做作业。但如果不告诉她,就没有让她对未来做好准备!
在业内人士看来,只靠语言模型,不对算数、逻辑和代数做硬编码达到这种水平,是这项研究最惊艳的地方。
那么,这是怎么做到的?
AI狂读arXiv上200万篇论文
新模型Minerva,基于Pathway架构下的通用语言模型PaLM改造而来。
分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。
Minerva做题与Codex的思路完全不同。
Codex的方法是把每道数学题改写成编程题,再靠写代码来解决。
而Minerva则是狂读论文,硬生生按理解自然语言的方式去理解数学符号。
在PaLM的基础上继续训练,新增的数据集有三部分:
主要有arXiv上收集的200万篇学术论文,60GB带LaTeX公式的网页,以及一小部分在PaLM训练阶段就用到过的文本。
通常的NLP数据清洗过程会把符号都删掉只保留纯文字,导致公式不完整,比如爱因斯坦著名的质能方程只剩下了Emc2。
但谷歌这次把公式都保留,和纯文本一样走一遍Transformer的训练程序,让AI像理解语言一样去理解符号。
与之前的语言模型相比,这是Minerva在数理问题上表现更好的原因之一。
但与专门做数学题的AI相比,Minerva的训练中没有显式的底层数学结构,这带来一个缺点和一个优点。
缺点,是可能出现AI用错误的步骤得到正确答案的情况。
优点,是可以适应不同学科,即使有些问题无法用正规的数学语言表达出来,也可以结合自然语言理解能力解出来。
到了AI的推理阶段,Minerva还结合了多个最近谷歌开发的新技术。
先是Chain of Thought思维链路提示,今年一月由谷歌大脑团队提出。
具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程,正确回答本来会答错的题目。
再有是谷歌和MIT合作开发的Scrathpad草稿纸方法,让AI把分步计算的中间结果临时存储起来。
最后还有Majority Voting多数表决方法,也是今年3月才发表的。
让AI多次回答同一个题目,选择答案中出现频率最高的。
所有这些技巧全用上以后,5400亿参数的Minerva在各种测试集中达到SOTA。
甚至80亿参数版的Minerva,在竞赛级数学题和MIT公开课问题中,也能达到GPT-3最新更新的davinci-002版本水平。
说了这么多,Minerva具体都能做出哪些题目?
数理化生全能,连机器学习都会
https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
https://minerva-demo.github.io/
Chain of Thought
https://arxiv.org/abs/2201.11903
Scrathpads
https://arxiv.org/abs/2112.00114
Majority Voting
https://arxiv.org/abs/2203.11171
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 习近平拉美之行的三个“一” 7997608
- 2 微信或史诗级“瘦身” 内存有救了 7988520
- 3 男子求助如何打开亡父遗留14年手机 7871214
- 4 中国主张成为G20峰会的一抹亮色 7763967
- 5 中国对日本等国试行免签 7675964
- 6 7万余件儿童羽绒服里没有真羽绒 7506043
- 7 女生半裸遭男保洁刷卡闯入 酒店回应 7428407
- 8 70多辆小米SU7同一天撞墙撞柱 7346199
- 9 操纵股价 2人被证监会罚没近3.35亿 7296653
- 10 千年古镇“因网而变、因数而兴” 7188056