gmft

gmft是一个用于将PDF中的表格转换为多种格式的工具包。它轻量级、模块化且性能优越。gmft依赖于微软的Table Transformers,这是众多替代方案中性能最好、最可靠的。gmft无需GPU即可运行,具有高吞吐量,并且安装简便,仅需一行代码即可完成安装。它使用PyPDFium2,因其高吞吐量和宽松的许可证而受到青睐。gmft使用的训练模型TATR在多样化的数据集PubTables-1M上训练,具有高可靠性。

需求人群:

"gmft的目标受众是数据分析师、研究人员和任何需要从PDF文档中提取表格数据的用户。由于其轻量级和高性能的特性,gmft特别适合需要处理大量PDF文件并快速转换数据的场合。"

使用场景示例:

数据分析师使用gmft从研究报告中提取数据进行进一步分析

研究人员利用gmft从学术论文中提取实验数据

企业用户通过gmft自动化从合同文档中提取表格数据的过程

产品特色:

支持将PDF表格转换为Pandas DataFrame等多种格式

能够输出表格的文本和位置列表

支持输出表格的裁剪图像

支持表格标题的提取

无需OCR即可快速提取表格,适用于图像和扫描PDF

通过PyPDFium2实现高吞吐量的PDF处理

可配置性强,支持自定义模型和提取方法

使用教程:

安装gmft:在命令行中输入`pip install gmft`进行安装

导入必要的模块:在Python脚本中导入`CroppedTable, TableDetector, AutoTableFormatter`等

创建PyPDFium2Document对象:使用待提取表格的PDF文件路径创建文档对象

使用TableDetector进行表格检测:遍历文档的每一页,使用detector提取表格

使用AutoTableFormatter格式化表格:将检测到的表格进行格式化处理

将提取的表格数据转换为所需格式:例如转换为Pandas DataFrame或其他支持的格式

关闭文档对象:完成提取后,调用文档对象的close方法释放资源

浏览量:14

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

5.04m

平均访问时长

00:06:44

每次访问页数

5.72

跳出率

37.31%

流量来源

直接访问

52.46%

自然搜索

32.55%

邮件

0.05%

外链引荐

12.51%

社交媒体

2.27%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

13.03%

德国

3.56%

印度

9.44%

俄罗斯

5.59%

美国

18.14%

类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图