Kaggle上线超170万篇arXiv论文,数据集共1.1 T
导读:近日,arXiv 将 170 万+ 篇的论文,打包成数据集,放在了 kaggle 平台,以后访问和下载论文,就更方便了。该数据集目前大小 1.1 TB 左右,而且之后还会随着每周的更新持续增长。
作者 | 神经小兮
来源 | HyperAI超神经(ID: HyperAI)
170 万+ 篇学术论文,1.1 TB 大小,这是 arXix 最近在 kaggle 开放的一套数据集,网友问讯惊呼:太酷了!
网友评论区纷纷捧场:太棒了!
数据集整理团队表示,希望能以此激发相关研究者,探索更丰富的机器学习技术,提出更多的发现和创新。
开放数据集,让论文搜索更简单
近 30 年来,arXiv 为公众和研究团队提供学术文章的开放访问渠道,这些学术论文涵盖的领域极为广泛,从物理学的庞大分支,到计算机科学的众多分支,再到数学、统计学、电子工程、定量生物学和经济学等所有学科。
这些 arXiv 上大量的研究论文,虽然很多人从中获益,但也经常有人反映,它存在浏览、搜索和排序不方便等缺点。甚至有人还专门找到一些在 arXiv 上搜论文的技巧分享出来。
于是,为了让 arXiv 更加易于访问,康奈尔大学现在在 Kaggle 上提供了一个免费、开放的 arXiv 数据集。
该数据集包含了 170 万篇学术论文,还包含了论文相关的元素(features),例如文章标题、作者、类别、摘要以及全文 PDF 等。
arXiv 执行董事 Eleonora Presani 介绍说:「在 Kaggle 上拥有整个 arXiv 语料库,极大地增加了 arXiv 论文的潜力。通过在 Kaggle 上提供数据集,我们不再只是让大家通过阅读这些文章学到知识,更重要的是,将 arXiv 背后的数据和信息,以机器可读的格式提供给公众。」
arXiv Dataset
发布人员: Paul Ginsparg,Moonshot Factory,Jack Hidary
包含数量:170 万+ 篇学术论文
数据格式:json
数据大小:1.1 TB
发布时间:2020 年 8 月
下载地址:https://www.kaggle.com/Cornell-University/arxiv
id:论文访问地址,可用于访问论文; submitter:论文提交者; authors:论文作者; title:论文标题; comments:论文页数和图表等其它信息; journal-ref:论文发表的期刊信息; doi:数字对象标识符; abstract:论文摘要; categories:论文在 arXiv 所属类别或标签; versions:论文版本。
https://arxiv.org/abs/{id}:论文页面,包括摘要和其他链接; https://arxiv.org/pdf/{id}:论文 PDF 下载页面。
tarpdfs/arXiv_pdf_1001_001.tar.gz (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_001.tar.gz)
tarpdfs/arXiv_pdf_1001_002.tar.gz (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_002.tar.gz)
tarpdfs/arXiv_pdf_1001_003.tar.gz (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_003.tar.gz)
推荐阅读
美国禁止与字节跳动及微信交易,腾讯股价暴跌,字节跳动回应了 我还没考试,算法就说我的物理一定挂科 华为首秀 AI 全栈软件平台! Python再夺冠,上古语言COBOL大流行,IEEE Spectrum 2020年度编程语言排行榜出炉! 中台架构详解(上) | 大咖说中台
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 总书记对反腐败斗争提出明确要求 7952699
- 2 “今天阳光明媚”竟是欢迎围猎暗号 7963933
- 3 地震被压废墟下戴帽小孩系AI生成 7800517
- 4 全国统一大市场建设再提速 7762273
- 5 小猫突然出现按下辞职报告发送键 7600925
- 6 是谁在骗中国人去缅北 7527969
- 7 刘亦菲梦回白秀珠 7447632
- 8 “硬刚”特朗普 丹麦宣布改国徽 7371880
- 9 市面上哪些手机不能参与国补? 7229979
- 10 原来白鹿是真睡着了 7130408