这个使用 Python 编写的 PDF 神器你值得拥有!


作者 | 若名
出品 | AI科技大本营
如果经常跟数据表格打交道,那你应该体验过那种令人烦躁到抓狂的心情。但现在,学会下面将要介绍的一款工具的使用方法,相信我,它会让你在工作中简直不能更舒爽。
Excalibur,从古希腊语翻译过来就是“神剑”,它现在也是一种用于从 PDF 中提取表格数据的 Web 界面,使用 Python 3 编写,由 Camelot(Python 库) 提供支持,可以让任何人轻松地从 PDF 文件中提取表格数据。需要注意的是,Excalibur 仅适用于基于文本的 PDF 文件,扫描文件不在此列。
Camelot 和 Excalibur 的作者和维护者是来自新德里 Bharati Vidyapeeth 工程学院的 Vinayak Mehta,目前他正全职做这些项目。

Excalibur 的四大特性
可移植文件格式
PDF 文件定义了将字符放置在相对于页面左下角的 x,y 坐标的指令。通过将某些字符放在比其他字符更近的地方来模拟单词。空格是通过将单词放在相对较远的地方来模拟的。最后,通过放置在电子表格中显示的字词来模拟表格,格式没有表格结构的内部表示。
自动检测 PDF 中的表格数据
可移植文件格式不是为表格数据设计的。可悲的是,许多开放数据共享时都是 PDF 文件,但对其中的表格进行分析却是一件非常痛苦的事。简单的复制粘贴行不通,Excalibur 通过自动检测 PDF 中的表格并让你通过 Web 界面将它们保存为 CSV 和 Excel 文件,这使 PDF 表格提取变得非常简单。
可动态调整表格提取规则
虽然有很多广泛用于 PDF 表格提取的开源和闭源工具,但他们输出的表格良莠不齐。Excalibur 由 Camelot 提供支持,为用户提供附加设置以调整表格提取并获得最佳效果。相较而言,它的性能要好于其他开源工具和库。
数据完全可控且安全
你可以完全控制数据,因为所有文件存储和处理都在你自己的本地或远程计算机上进行。Excalibur 还可以配置 MySQL 和 Celery 系统,以并行和分布式方式执行表格提取任务。默认情况下,任务按顺序执行。

快速上手指南
下载和安装
https://github.com/camelot-dev/excalibur/releases
https://excalibur-py.readthedocs.io/en/master/user/install.html#install
设置开发环境
你可以使用 pip 轻松安装开发依赖项:
$ pip install excalibur-py [dev]
测试(很快)
安装后,你可以使用以下命令运行测试:
$ python setup.py test
使用“神剑”
安装后,可以使用以下命令初始化元数据的数据库:
$ excalibur initdb
然后使用以下命令启动 Web 服务器:
$ excalibur webserver
现在,你可以转到 http:// localhost:5000 并开始从 PDF 文件中提取表格数据。
上传 PDF
你可以使用 Web 界面上传 PDF 文件,还可以与之前的上传进行整合。

自动检测表格
Excalibur 可以自动检测 PDF 中的表格。

绘制表格区域或者放置分隔符
如果表格深埋在文本内部并且自动检测失败,则可以通过绘制表格区域和列分隔符进行操作。

加载已保存的规则设置
你也可以保存 PDF 文件中表格提取的规则设置,并将其应用于新的 PDF 文件以提取具有类似结构的表格。
查看和下载数据
最后,你可以查看提取的表格并将其下载为 CSV 或 Excel 文件。Excalibur 还支持 JSON 和 HTML 格式。

最后给出源代码链接,你可以通过以下方式查看最新源代码:
$ git clone https://www.github.com/camelot-dev/excalibur
热 文 推 荐
print_r('点个好看吧!');
var_dump('点个好看吧!');
NSLog(@"点个好看吧!");
System.out.println("点个好看吧!");
console.log("点个好看吧!");
print("点个好看吧!");
printf("点个好看吧!n");
cout < < "点个好看吧!" < < endl;
Console.WriteLine("点个好看吧!");
fmt.Println("点个好看吧!");
Response.Write("点个好看吧!");
alert("点个好看吧!")
echo "点个好看吧!"
点击“阅读原文”,打开 CSDN App 阅读更贴心!

关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平听取岑浩辉述职报告 7904800
- 2 收入分配制度或迎重大改革 7808063
- 3 4400万粉丝网红直播泳池派对被处理 7712568
- 4 2025年度文化记忆 重温感动瞬间 7616104
- 5 河南学校火灾致13人遇难 25人被处分 7521444
- 6 “爱你老己”是今年最好的梗 7423850
- 7 39岁中国女子伦敦被刺身亡 7328942
- 8 云南一村告示:外省结婚交1500元 7232350
- 9 62岁乒乓球名将倪夏莲正式复出 7143032
- 10 用漫画方式了解海南自贸港封关 7043674



![花珊珊 Hi[月亮] baby have good night~](https://imgs.knowsafe.com:8087/img/aideep/2022/3/23/c6fddb608636611903f93b19b5af85ca.jpg?w=250)



CSDN
