资源 | 一网打尽成语歇后语,GitHub新华字典数据库

大数据文摘出品
作者:蒋宝尚
今天,文摘菌给大家推荐一个非常优秀的数据库——新华字典数据库。
数据库收录了包括14032条歇后语,16142个汉字,31648个成语。下面文摘菌就简单的介绍一下这个数据库。
这个数据库放在GitHub中,所有的数据放在data/目录下,并且如果对性能没有要求的同学,可以使用作者的新华字典API访问数据库。
数据库地址:
https://github.com/pwxcoo/chinese-xinhua
项目结构
在GitHub中,整个新华字典数据库的项目结构为:
整个结构包括数据文件夹,配置文件以及脚本文件夹,在脚本文件夹下提供了成语脚本和汉字脚本以及歇后语脚本的下载。
数据库介绍及API的使用
前面提到,整个数据库包括14032条歇后语,16142个汉字,31648个成语。
在使用API查询每条成语的时候,分为两种情况:
如果直接请求成语,需要两个参数:
type=idiom 表示需要请求成语
word=兴高采烈 表示请求的成语
请求拼音首字母缩写,也需要两个参数:
type=idiom 表示需要请求成语
word=xgcl 表示请求的成语拼音首字母缩写
下面文摘菌用Python简单实现了一下:
返回结果为:
上图可知,当你请求的是成语时,返回的结果包括:成语的来源、成语的解释、成语的拼音、用成语造的句子以及成语的首字母缩写。
当访问歇后语的时候则也需要两个参数:
type=xiehouyu 表示需要请求歇后语
riddle=王婆 表示请求的歇后语的语面。可以模糊匹配
Python实现?
由上图的Python实现可知,当你输入的关键词是模糊的时候,结果会返回带有关键词的所有歇后语。例如,你查询关键词为王婆的歇后语,返回了三条结果,每条结果包含歇后语的迷面以及歇后语的谜底。
当需要访问汉字的时候,当前接口只能直接请求汉字,不能请求拼音。如果请求了拼音,则返回的结果为空。
请求汉字需要两个参数:
type=word 表示需要请求汉字
word=“蒋” 表示请求的汉字
Python实现?
如上图所示,当请求‘蒋’这个汉字的时候,返回的结果包括汉字的拼音、汉字的来源、以及汉字的繁体版等等。
注:GET、POST均可,返回数据格式为JSON。
数据库GitHub地址:
https://github.com/pwxcoo/chinese-xinhua

开课倒计时2天
数据科学实训营第6期
优秀助教推荐|姜姜
作为一枚对数据分析的理解仅限于Excel的小白,曾经一直认为通过写代码来分析数据是件无比高大上的事。可是,在数据科学实训营居然就实现了!
手把手的教学方式,助教和同学们热烈的交流讨论,让我慢慢地觉得一行行代码如此亲切。而当把自己头脑中的构思通过代码实现,看到结果的那一刻,真是无比激动!
经过Kaggle、天池的案例的历练,对这些数据比赛也开始兴趣盎然,有没有小伙伴有兴趣一起去玩一玩的?
作为第6期的北美地区助教,寄语各位学员:前方高能,请准备好足够的时间,如果你能按时提交作业,结业时一定脱胎换骨。

【今日机器学习概念】
Have a Great Definition


关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 中央经济工作会议在北京举行 7904321
- 2 紧急提醒:请在日中国公民进行登记 7807900
- 3 电子体温计没水银体温计准?医生解答 7713605
- 4 “九天”无人机成功首飞 7619531
- 5 断崖式降温!今冬最强寒潮来了 7522332
- 6 中央定调明年继续“国补” 7423816
- 7 陕西一地给枯草喷颜料?当地回应 7332167
- 8 北京延庆、房山已飘起雪花 7236231
- 9 00后女生摆摊卖水培蔬菜日售千元 7136454
- 10 寒潮来袭 “速冻”模式如何应对 7040415







大数据文摘
