酷应用

10大类、142条数据源，中文NLP数据集线上搜索开放

百家作者：数据分析 2020-03-13 04:58:20

机器之心报道项目作者：CLUE benchmark ?参与：思、杜伟

有了这个开源项目，再也不用担心找不到好用的中文 NLP 数据集，142 条数据集，总有适合你的那一款。

中文 NLP 数据集搜索：https://www.cluebenchmarks.com/dataSet_search.html

在学习 NLP 的这条不归路上，我们总会发现大多数先进算法与优质示例代码都是用英文数据集。而当我们满怀希望地把模型迁移到中文世界时，缺少公开的优质数据集简直就是天堑。比如说最简单的语言模型与词嵌入模型，只需要一段段自然的中文文本就行了，然而实际上我们会发现好用的公开大型语料真的很少。

我们需要在 GitHub 等平台上找收集中文 NLP 数据集的各种项目，再根据需求进行选择。值得注意的是，很多国内中文数据集已经非常老了，它们的使用会比较麻烦，这时候就需要我们自行判断与试错了。

不过在本文中，我们将介绍一项新的中文 NLP 数据搜索项目，它可能是目前最全的中文 NLP 数据集信息收集项目。该项目收集了一百多条中文 NLP 数据信息，并以搜索的形式展示结果。我们只要键入关键词，或者数据集所属的领域等信息，就能找到对应的数据集。

每一条搜索结果都会展示数据集的基本信息、访问链接等关键信息，能帮助我们快速筛选数据集。因为每一个领域都能找到非常多的同类数据集，因此这些简述非常有意义。

如果读者想看看到底有哪些数据集，可以直接查看该搜索项目的 GitHub 地址，所有数据集的信息都在上面。

这可能是最全的中文 NLP 数据集合

本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。

具体而言，对于每一个数据集，项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。

项目地址：https://github.com/CLUEbenchmark/CLUEDatasetSearch

本项目中文 NLP 数据集分类。

但由于整个项目包含的数据集种类很多，机器之心只对其中的情感分析和文本分类数据集进行以下简要介绍。

情感分析

作为自然语言处理（NLP）的一种常见应用，情感分析特别适用于以提取文本情感内容为目的的分类方法中。本项目中介绍了 11 个情感分析数据集来源，其中包括 NLPCC 2013/2014、Weibo Emotions Corpus、之江杯电商评论观点挖掘大赛以及 2019 搜狐校园算法大赛数据集。