酷应用

新闻
- 看点
- 观点
- 读点
- 热点
科技
- 数码
- 软件
- 应用
- 极客
企服
- 电商
- 运营
- 移动
- 访谈
- 动态
- 招聘
- 访谈
- 百家
安全
- 业界
- 快讯
- 技术
- 校园
- 工具
文娱
- 明星
- 影视
- 音乐
- 网娱
- 韩娱
- 词典
游戏
- 手游
- 页游
- 端游
好货
- 报道
- 值得买
- 健康

资源 | 一网打尽成语歇后语，GitHub新华字典数据库

百家作者：大数据文摘 2018-07-30 07:58:38

大数据文摘出品

作者：蒋宝尚

今天，文摘菌给大家推荐一个非常优秀的数据库——新华字典数据库。

数据库收录了包括14032条歇后语，16142个汉字，31648个成语。下面文摘菌就简单的介绍一下这个数据库。

这个数据库放在GitHub中，所有的数据放在data/目录下，并且如果对性能没有要求的同学，可以使用作者的新华字典API访问数据库。

数据库地址：

https://github.com/pwxcoo/chinese-xinhua

项目结构

在GitHub中，整个新华字典数据库的项目结构为：

整个结构包括数据文件夹，配置文件以及脚本文件夹，在脚本文件夹下提供了成语脚本和汉字脚本以及歇后语脚本的下载。

数据库介绍及API的使用

前面提到，整个数据库包括14032条歇后语，16142个汉字，31648个成语。

在使用API查询每条成语的时候，分为两种情况：

如果直接请求成语，需要两个参数：
type=idiom 表示需要请求成语
word=兴高采烈表示请求的成语
请求拼音首字母缩写，也需要两个参数：
type=idiom 表示需要请求成语
word=xgcl 表示请求的成语拼音首字母缩写

下面文摘菌用Python简单实现了一下：

返回结果为：

上图可知，当你请求的是成语时，返回的结果包括：成语的来源、成语的解释、成语的拼音、用成语造的句子以及成语的首字母缩写。

当访问歇后语的时候则也需要两个参数：

type=xiehouyu 表示需要请求歇后语
riddle=王婆表示请求的歇后语的语面。可以模糊匹配

Python实现?

由上图的Python实现可知，当你输入的关键词是模糊的时候，结果会返回带有关键词的所有歇后语。例如，你查询关键词为王婆的歇后语，返回了三条结果，每条结果包含歇后语的迷面以及歇后语的谜底。

当需要访问汉字的时候，当前接口只能直接请求汉字，不能请求拼音。如果请求了拼音，则返回的结果为空。

请求汉字需要两个参数：

type=word 表示需要请求汉字
word=“蒋” 表示请求的汉字

Python实现?

如上图所示，当请求‘蒋’这个汉字的时候，返回的结果包括汉字的拼音、汉字的来源、以及汉字的繁体版等等。

注：GET、POST均可，返回数据格式为JSON。

数据库GitHub地址：

https://github.com/pwxcoo/chinese-xinhua

开课倒计时2天

数据科学实训营第6期

优秀助教推荐|姜姜

作为一枚对数据分析的理解仅限于Excel的小白，曾经一直认为通过写代码来分析数据是件无比高大上的事。可是，在数据科学实训营居然就实现了！

手把手的教学方式，助教和同学们热烈的交流讨论，让我慢慢地觉得一行行代码如此亲切。而当把自己头脑中的构思通过代码实现，看到结果的那一刻，真是无比激动！

经过Kaggle、天池的案例的历练，对这些数据比赛也开始兴趣盎然，有没有小伙伴有兴趣一起去玩一玩的？

作为第6期的北美地区助教，寄语各位学员：前方高能，请准备好足够的时间，如果你能按时提交作业，结业时一定脱胎换骨。

【今日机器学习概念】

Have a Great Definition

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

四季很好，只要有你，文娱排行榜：https://www.yaopaiming.com/
让资讯触达的更精准有趣：https://www.0xu.cn/

*文章为作者独立观点，不代表爱尖刀立场

本文由大数据文摘发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/2b/baijia/146698.html

Github

图库

大数据文摘

公众号

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

百度热搜榜

排名热点搜索指数