论文Express | AI的智商(IQ)怎么测?这其实是个策略比赛

百家 作者:大数据文摘 2018-06-19 08:01:26

大数据文摘出品

编译:halcyon、蒋宝尚


在Google I/O 2018开发者大会上,发布了一款名为Google Duplex的语音助手,其表现非常惊艳,一时间大家都认为Google Duplex通过了图灵测试。然而,一些人持反对意见,认为Duplex并没有通过图灵测试,单击这里查看相关报道。


如何判断AI是否具有和人脑相当的能力一直是受争议的话题,图灵测试是否是唯一的判断方法?保加利亚科学院(Bulgarian Academy of Sciences)的最新论文给出了计算AI的智商(IQ)的方法,尝试利用不同的实验方法量化AI的IQ,并给出AI的定义。



在大数据文摘后台回复“智商”可下载论文~


以下是论文精华内容:


识别计算机程序是否为AI所要做的就是对它们进行测试并对通过测试的AI给予奖励。假定AI在测试中获得的分数为IQ,我们无法确定一个程序通过测试成为AI的最低IQ阈值,故我们选择一个特定值作为阈值。因此,我们定义AI为任何一个IQ高于该阈值的程序。


对于AI的测试,就类似于高考。考试中给出的问题是随机选择的,但所有考生都会遇到同样的问题。此外,解决问题需要进行逻辑思考,因为我们的目标是招收那些具有逻辑思维的学生,而不是偶然蒙对正确答案的幸运学生。


考试的分数基于每个考生解决的问题数量而设定。我们不能说应该解决多少问题,因为我们不知道考试中会有多少考生,也不知道他们的具体水平。我们可能会设定一个分数(例如4.50),并说我们打算录取所有分数超过4.50的考生。但是,在测试完成后要对最低分数进行修正。然后,我们将录取分数超过最低分数的前n位考生(例如,如果n为100,我们将录取分数排名在前100的考生)。


但是如果被测对象是计算机程序,高考的类比就不再合适。此时对AI的测试更像是应聘同一家公司CEO职位的招聘竞赛。


尽管图灵测试定义了受过教育的智力,是因为图灵非常理解受过教育和没受过教育的差异。他问了这样一个问题:“为什么试着去编写一个模拟成人思维的程序,而不试着去编写一个模拟孩子思维的程序呢?”


本文给出的AI的定义回答了这个问题。它不需要包括提前教育,并且测试中的任务也不需要任何先验知识。也就是说,每一项任务我们都会假设我们正在重新开始,并且在解决我们正在学习的任务的过程中,我们发现相关性信息并从错误中学习。


我们定义了全局IQ和局部IQ的概念。AI的全局IQ更准确,但却无法精确计算(因为组合爆炸问题)。AI的局部IQ并不准确,因为它取决于测试中特定任务的选择。但对于特定的任务,可以很容易和准确地计算局部IQ。


我们将采用完全随机的程序产生的序列,而不是采用特殊的k-可理解序列(k-comprehensible sequence)。我们在每一步预测下一个符号,而不是通过一个步骤预测符号。对一个序列的奖励将是所有步骤的奖励的总和。局部IQ将是我们在测试中序列的奖励均值。


问题设计


假设在特定的世界(World)中,我们拥有一个设备(Device )。 在每个步骤中,设备产生n个符号(也即行为,Action),然后从外部接收m个符号(在我们的术语中,第一个符号为“奖励”,其余的m-1符号为“观察”)。奖励可分为五种状态:{无,胜利,无败,平局,不正确的移动}。


设备的一个步骤由三个元素组成:< 动作, 奖励, 观察>,在设备与世界的互动过程中所做出的一系列的步骤决定了其本身的生命。


“真实生命”应该没有不正确的移动。因此,所有的奖励值是不正确移动的< 动作, 奖励, 观察>三元素都会被移除,剩下的就是真实生命。。


动作”(moment)由一系列步骤组成,而在这些步骤中,只有最后一步是正确的,除此之外,其他所有的步骤都将是错误的。实际上,生命中可能由很多步骤组成,不仅是动作,然而在真实的生命中,这些其他步骤的数量和动作的数量是相同的。


设备的行为可以表示为一种策略,即作为一个定义设备每一次生命开始,下一次动作的函数,同样地,世界的行为也可以作为一种策略来呈现,为设备每一种生命的开始,每一种行为都提供了奖励和观察,设备将会在下一个步骤中得到它们。应该指出的是,世界的策略不依赖于错误的动作。因此,我们可以把世界的策略想象成现实生活的函数。相反,设备的策略将取决于不正确的移动(这些移动将提供设备使用的附加信息)。


假设两个集合,Q和S,这些将是设备和世界内部状态的集合。这些集合将是有限的或可数的。设q_0和s_0分别是设备和世界的初始状态。我们会假设这些状态是固定的,因为生命将取决于我们最初的状态,但我们希望生命只依赖于设备和世界。


设备和世界定义为下面的两个函数:


对于每一个设备的内部状态,如果奖励,观察和动作集合在当时认为是不正确的,那么,设备将会返回一个新的行为和一个新的设备状态。我们假定设备永远不会返回在当时被确认为不正确的行为。


设备的内部状态会反映设备能记住的所有事情,那么它能记住什么呢?它能记住它的直到当前的最后一次行动,这就是我们使用Actions*Q而不是Q*Actions的原因。再次强调,设备的内部状态可以记住最后一次行动。


定义设备的生命如下:


让我们看看设备和世界函数是怎样定义生命的。


在这里,i-j是i+1之前的最后一个正确步骤,incorrect_actions_i 集合包含此刻不正确的行动。该集合具有j个元素,因此 incorrect_actions_i ={a_i-j+1, …, a_i}。incorrect_actions_0是个空集,因为在第一步之前不会有任何不正确的行动。


参数



上表的前四行描述了AI输入和输出的参数。它们告诉我们所寻求的AI的格式。因此,我们不能随意改变这些参数。接下来的八行所描述的参数会影响你选择测试世界,从而会影响到测试结果,也就是影响AI的定义。最后一个参数也会对定义产生影响。这就意味着,如果我们改变了上述的九个参数,我们也会改变AI的定义。


第i个动作符号的可能范围从0到ki-1。同样,第i个观测符号的可能范围也是从0到kn+1-i -1。我们假设符号0的含义是“没有”。第一个观察符号是奖励。而符号1,2,3我们命名为“胜利”,“失败”,“平局”,当然这会是最后的奖励。


奖励4(不正确的移动)因为调用了命令q1,所以不会被图灵机器返回。只有当图灵循环,即在没有到达最终状态的情况下执行1000步以上,或崩溃(例如,当堆栈为空时调用返回命令)时才会返回此奖励。


符号的数量尽可能的满足编码、行动和观察所需。我们将添加另外10个实用符号,其中第一个符号将为空符号λ。


测试原理


我们将为测试选择1000个世界。在每一个世界中,待测程序的生存周期都不超过1000场比赛。最后,我们将计算胜利,失败,平局的数量,并获得算术平均IQ值,其中胜利为1,失败为0,平局为1/2。


我们将随机选择世界,但我们希望选择的世界是固定的,所以我们在开始选择之前,将伪随机数生成器设置为1。因此,我们在测试中将永远使用相同的世界。在许多生成的世界里,我们剔除全赢和全输的世界。因此,我们将留下1000个有意义的世界。


世界


一个世界就是能够计算策略的图灵机器。


世界集合包含少于1000个状态的图灵机,因为每台机器都有不可到达的状态。结果是一个巨大的策略集合(世界集合)。这里更简单的策略将分配更多(更有可能)权重,因为它们由更多的图灵机产生。


计算特定计算机程序的IQ


我们可能会说IQ是所有世界成功率的算术平均值。(注:世界不是等概率的,我们需要把成功率乘以每个世界的概率(权重)。)


我们将这样获得的IQ称为全局IQ。全局IQ的定义很好,但无法计算。准确地说,它可以在理论上计算,但不能在实践中计算,因为有大量存在的世界。尽管如此,我们仍然可以用统计学方法近似计算出全局IQ。我们将随机选择1000个世界并计算这些世界算术平均值。获得的结果会接近全局IQ。


这种方法的问题是不同的测试世界的选择会产生不同的全局IQ近似。我们需要的是奖励给待测程序对应的IQ,因为它必须是一个特定的值而不是近似值。因此我们将修正随机选择的1000个世界,并认为局部IQ是这1000个世界的平均成功率。在这种情况下,不同的世界将不会有不同的权重,因为权重已经在测试世界的选择中得到了体现所以更有可能被选中。


局部IQ是一个容易计算的函数,它描述了我们对IQ的理解。有一个程序我们称之为“填鸭式”。这个程序是专为1000个测试世界而设计的,它的局部IQ很高,但它的全局IQ很低。我们应该如何解决这个问题?


我们将利用局部IQ来寻找AI。当我们遇到一个局部IQ很高的程序并且假定这个程序是填鸭式的,我们会给它额外的问题,所以我们会计算第二个局部IQ。这也意味着我们会采用下1000个随机世界并且从这些世界中推导另外一个算术平均值。以此类推,可以构建第三个甚至第四个局部IQ。


我们给出全局IQ的定义为:


在这个式子中,P(TM|interesting):如果世界有趣,机器TM被选中的条件概率。Success(Strategy,TM):策略在TM机器定义的世界存活一次计算出的算术平均值。总和是具有1000个状态的机器,其世界是有趣的。


局部IQ的定义为:

其中,TM_i是第i个预先选择的测试世界。


最终的定义


定义1:AI是任意局部IQ超过0.7的策略。


同样,一个公司可能会宣布它正在寻找CEO,并且会雇用能解决测试中70%问题的人。如果标准太低或太高,公司以后可能不得不调整这个水平。


定义2:如果一个计算机程序在前1000个游戏中的策略是一个AI策略,那么该计算机程序是AI。


结论


在这项研究中,我们描述了一种测试,它能让我们计算任何程序的IQ。更准确地说,我们指定了进行测试的程序,并告诉我们待测程序的IQ是多少。


这个程序可以让我们在几分钟内完成AI测试。这个时候测试程序需要计算测试结果。然后我们应该增加我们为每一个候选提供的思考时间。当我们把AI作为一种策略时,我们不需要问测试程序花多少时间思考。当我们把AI当作一个程序计算出AI策略时,我们必须确定程序计算一个步骤所消耗的时间。


在大数据文摘后台回复“智商”可下载论文~


今日机器学习概念】

Have a Great Definition

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接