酷应用

清华成立NLP与社会人文计算研究中心，开源机器翻译系统等三项成果

百家作者：大数据文摘 2019-07-02 06:49:03

大数据文摘出品

记者：宁静

2019年7月1日，清华大学人工智能研究院自然语言处理与社会人文计算研究中心（以下简称中心）成立仪式在清华大学FIT楼举行，这是清华人工智能研究院成立以来的第八个研究中心。

自然语言技术与社会人文学科的交叉探索

仅从名称来看，自然语言处理与社会人文计算研究中心不仅专注自然语言处理技术，也同时希望利用这一技术解决人文计算问题。

尤政院士在致辞中也指出，自然语言处理与社会科学及人文科学相结合，具有大跨度学科交叉的性质，既是人工智能研究本身的积极拓展，也是对传统学科在人工智能时代的守正出新。希望中心能够凝聚清华自然语言处理研究力量，加强与人文社科学科的交叉合作，开展具有世界水平的自然语言处理基础理论研究和关键技术创新，服务于清华与国家的人工智能发展战略。

张钹院士致辞

张钹院士在致辞中重点强调新成立的中心将致力于实现自然语言处理与人文社科的深度融合，从语言、社会学、人文学等多个角度理解人类智能的本质，在自然语言处理与社会学、人文学的交叉研究上形成特色，引领我国自然语言处理和社会人文计算研究领域的发展。他指出语言是人类智能的重要标志，机器自然语言理解是人工智能的终极目标。

另一方面，他也强调，现在人工智能主要面向非人主体，这带来社会学和人文学的新问题，人工智能艺术创造到底能带给人类审美的解放还是使得大众的审美趣味趋于同质化？技术的革新产生了可复制的艺术，基于大数据的绘画和作曲这种模拟的艺术是真正的艺术吗？机器产生的美感会不会重新定义美学概念从而改变人类的审美观，对此局面的产生，人类该如何应对？这是否意味着人类文学创造的独特性正在在消失殆尽。

尤政院士与张钹院士为中心揭牌

中心主任由清华大学人工智能研究院常务副院长孙茂松教授担任。在成立仪式上，尤政院士和张钹院士向孙茂松教授颁发了中心主任聘书。中国中文信息学会原理事长、中国工程院院士倪光南，滑铁卢大学讲座教授、加拿大皇家科学院院士李明，微软亚洲研究院副院长、国际计算语言学会会长周明，英国帝国理工学院数据科学研究所所长、英国皇家工程院院士郭毅可被聘为中心学术顾问。尤政院士和张钹院士现场向出席会议的李明院士和周明副院长颁发了中心学术顾问聘书。

开源成果展示

在开幕仪式后之后，由中心主任孙茂松教授主持开源成果发布会，主要介绍了三个开源成果，文摘菌列举如下：

THUMT：基于深度学习的机器翻译系统

项目网址：thumt.thunlp.org

在线翻译系统网址：translate.thumt.cn

THUMT翻译界面

THUMT是一个基于深度学习的机器翻译系统。该系统使用了数据驱动的机器翻译技术，具备良好的语言无关性，在具备训练数据的条件下可以迅速为新语种部署系统。本次开源成果公布了在TensorFlow平台上开发的新版本，采用了主流的Transformer模型，集成了目前最新的神经机器翻译技术，具有训练速度快（支持多机多卡并行）、显存占用低（支持单精度浮点数计算）、翻译性能高（与国际机器翻译开源软件相比位居前列）、易于可视化分析（支持层级相关反馈算法）等优点。

此外还开放了70万句对的句级对齐汉英平行语料库和4万句对的词级对齐汉英平行语料库。

刘洋副教授介绍开源成果THUMT

THUAIPoet：基于深度学习的中文诗歌自动生成系统

GitHub网址:github.com/thunlp-aipoet?

九歌APP网址：jiuge.thunlp.cn

九歌诗词创作系统界面

THUAIPoet (九歌)?是一个基于深度学习的中文诗歌自动生成系统，支持集句诗、绝句、藏头诗、词等不同体裁诗歌的在线生成。此次成果发布开源了系统中的无监督风格诗歌生成模型StylisticPoetry源码（相关论文发表于EMNLP 2018），能够在无标注数据集上进行任意数量的风格解耦控制。此外还发布两个人工标注的诗歌数据集（诗歌质量数据集和诗歌情绪数据集），以及国内外诗歌生成相关的主要论文列表。

矣晓沅博士生介绍开源成果THUAIPoet?

文摘君尝试使用THUAIPot（九歌）作诗生成图片如下：

感兴趣的读者可以尝试使用一下此系统。

OpenCLaP：多领域中文预训练模型仓库

GitHub网址:github.com/thunlp/OpenCLaP

OpenCLaP项目网址：zoo.thunlp.org

OpenCLaP（Open Chinese Language Pre-trained Model Zoo）是一个多领域中文预训练模型仓库。通过在多领域大规模中文文本的预训练，这些预训练模型可以在下游任务上进行微调以提高任务性能。本次开源成果公布了基于法律文本和百度百科千万级文档的预训练模型，支持最大512长度的文本输入适配多种任务需求。未来还将持续加入更多更强的预训练模型，如增加更多训练语料，引入大规模知识，使用全词覆盖策略等。