酷应用

学界 | 大脑信号和翻译？利用脑信号实现英语、葡语和普通话三语互解

百家作者：机器之心 2017-10-23 07:30:33

选自Science Direct

机器之心编译

参与：路雪、蒋思源

利用大脑信号进行翻译？本文作者从 2014 年开始研究「用大脑信号进行翻译」(brain-based translation），并发过一篇关于英语葡语利用脑信号进行互译的论文，研究发现用被试者（英语）被英语概念激活的大脑信号去训练算法时，算法可以预测另一个被试者（葡萄牙语）大脑中被葡萄牙语激活的概念，通过大脑信号的类似，实现葡萄牙语和英语的互解。近日，她发表了新的研究成果，对三种语言（英语、葡语、普通话）互解进行研究，发现两种不同语言训练一个算法去预测第三种语言比仅使用一种语言去训练算法更好。机器之心选取了该论文的部分内容进行编译，更多细节请查看原论文。

论文链接：http://www.sciencedirect.com/science/article/pii/S0093934X1730158X

摘要

该研究将两种语言间的语义解码（基于概念的 fMRI 特征）扩展至三种语言（英语、葡语和普通话）的句子解码。分类器在一种语言词和激活模式之间的映射上，或两种语言之间的映射上（使用等量训练数据）进行训练，然后测试该分类器对第三种语言语义内容的解码能力。在两种语言上训练的分类器比在一种语言上训练的分类器在三个语言对上的准确度更高。该优势在抽象概念域，如社会交往和心理活动上更为突出。句间神经相似性的表征相似性分析（Representational Similarity Analyses，RSA）带来三种不同语言中句子的相似聚类，说明语言之间存在共享的神经概念空间。这些发现可以识别三种语言中较为普遍的语义域和语言或文化特有的语义域。

要点

三种语言中的句子可以使用神经激活模式进行分类。
在两种语言上训练的模型比在一种语言上训练的模型更有优势。
双语优势在抽象的概念域更为突出。
RSA 分析使三种语言间出现相似的句子聚类。
研究结果揭示了神经概念编码的共通性和文化特性。

1 引言

近期的眼球追踪研究发现三种书写风格迥异的语言（中文、英语和芬兰语）的使用者表现出大量相似的阅读行为（Liversedge et al., 2016），这与文本阅读中概念表征的共通性相一致，尽管语言之间存在字形和语言的变异。

多个 fMRI 跨语言解码研究也支持这种共通性，研究发现不同语言中类似的概念（指翻译中对等的词）给语言使用者带来相似的神经激活模式。因此，我们可以训练机器学习算法将概念和一种语言（训练语言）中词／句唤起的神经激活模式联系起来，然后识别另一种语言（测试语言）中翻译对等词汇的神经激活模式。

本研究调查了在两种语言的数据上训练的分类器是否比仅使用一种语言的等量数据训练的分类器更准确地解码第三种语言。如果答案是肯定的，则确定从双语训练中受益最多的语义域也将成为可能。

本研究中，分类器在句子和激活模式之间的映射上进行训练，然后在另外一组数据上进行测试。我们比较了三种情况：分类器在两种语言的映射上训练，在第三种语言上测试；分类器在一种语言的映射上训练，在另一种语言上测试；分类器在一种语言的映射上训练，在同一种语言上测试。三种情况使用的训练数据量相同。详见表 1。

表 1. 二对一映射、一对一映射和语言内映射着三种情况中的语言结合。

1.1 假设

我们测试了四种假设。第一，在训练数据等量的情况下，在两种语言（如英语和葡语）上训练的分类器比在一种训练语言（英语或葡语）上训练的分类器更好地泛化到第三种语言（如普通话）中（更准确地划分句子）。在其他两种语言上训练的分类器准确率比在一种其他语言上训练的分类器准确率与语言内准确率的相似度更高。

第二，我们假设此类双语优势（在两种语言上训练比在一种语言上训练的准确率高）在语言或文化特有的概念域中更加明显，相比于语言或文化中较为普遍的概念域而言，因为后者不会从第二种训练语言中得到额外收益。例如，表示社会互动的词如 marriage 的双语优势可能要大于 apple。第三，元语言神经共通性应该不受语言表层结构之间距离的影响。例如，英语和普通话之间的元语言概念表征距离不一定大于英语和葡语，尽管英语和葡语同属于印欧语系。第四，表征相似性分析（RSA）计算出的语言内句内神经相似性模式应该展示出三种语言的共通性，这表明不同语言中句子间的语义空间和语义关系是相似的。

2. 材料和方法

图 1. 示例句子在葡语、英语和普通话中的呈现范式（presentation paradigm）。每个词组的呈现时间根据之前文本阅读眼动研究构建的回归模型来确定。葡语和英语中的呈现时间是每个内容词词汇数 × 300 ms + 字母数 × 16 ms，普通话的呈现时间是每个内容词的字数 × 300 ms + 笔画数 × 8 ms。

图 2.（A）特定语言在参与者中普遍出现的稳定激活集群。英语集群绿色（左），普通话集群蓝色（中），葡语集群粉色（右）；（B）连接特定语言集群而得到的语言普遍的集群；（C）最小的长方形（红框）包含每个语言的普遍集群。

3 结果

表 2. 二对二、一对一和语言内映射的分类准确率。（括号中是测试参与者中的标准偏差）。

图 3. RSA 矩阵之间的成对相关矩阵中出现的两个一般跨语言集群。左：英语和葡语 RSA 矩阵间的相关矩阵；中：普通话和葡语 RSA 矩阵间的相关矩阵；右：普通话和英语 RSA 矩阵间的相关矩阵。左上方子矩阵构成在环境场景中描写事件的句子集群；右下方子矩阵构成描写社会互动的句子集群。

4. 讨论

在两种语言上训练的分类器的优势源于仅对第二种训练语言和测试语言普遍的神经映射，这可以扩大训练域，如图 4 黑色区域所示。研究结果表明存在语言特有的重叠映射，它们因语言而异。

图 4. 三种语言中概念-神经映射域图示。二对一映射比一对一映射多提供的信息如黑色区域所示。

4.5 结论

人类大脑为所有语言提供了一个表示句子的神经平台，导致语言间此类表征中存在大量共通性。同时，每种语言和文化只带来意义上的细微差别，因此概念的神经表征表面上看来是很相似的。查看多种语言中概念和神经表征之间的映射有可能揭示这一语言特殊性（language specificity）的存在，以及它们可能出现的语义域。识别语言共性和特殊性对定义大脑和语言之间全部映射是必要的。