Tabled

Tabled是一个用于检测和提取表格的Python库,它使用surya来识别PDF中的表格,识别行列,并能够将单元格格式化为Markdown、CSV或HTML。这个工具对于数据科学家和研究人员来说非常有用,他们经常需要从PDF文档中提取表格数据以进行进一步的分析。Tabled的主要优点包括高准确性的表格检测和提取能力,支持多种输出格式,以及易于使用的命令行界面。此外,它还提供了一个交互式的APP,允许用户直观地尝试在图像或PDF文件上使用Tabled。

需求人群:

"Tabled的目标受众主要是数据科学家、研究人员和开发者,他们需要从PDF文档中提取表格数据以进行数据分析或进一步处理。这个工具适合他们,因为它提供了高准确性的表格检测和提取,支持多种输出格式,并且易于集成到现有的工作流程中。"

使用场景示例:

研究人员使用Tabled从学术论文的PDF中提取数据,以便进行统计分析。

数据科学家利用Tabled将市场研究报告中的表格数据转换为CSV格式,用于经济预测模型。

开发者将Tabled集成到他们的软件产品中,以提供自动化的PDF表格数据处理功能。

产品特色:

检测PDF中的表格并识别行列

将表格数据格式化为Markdown、CSV或HTML

支持命令行工具和交互式APP两种使用方式

自动下载模型权重,无需额外配置

提供额外的行和列信息的JSON文件保存选项

能够保存显示检测到的行、列和单元格的调试图像

支持从Python代码中直接调用,便于集成到更大的工作流程中

使用教程:

1. 安装Python 3.10+和PyTorch。

2. 使用pip安装Tabled:'pip install tabled-pdf'。

3. 运行Tabled,指定数据路径:'tabled DATA_PATH'。

4. 使用--format选项指定输出格式(Markdown、HTML或CSV)。

5. 如果需要,使用--save_json选项保存额外的行和列信息。

6. 使用--save_debug_images选项保存调试图像。

7. 如果图像已经是裁剪过的表格,使用--skip_detection选项。

8. 查看生成的'results.json'文件,它包含了提取的表格数据。

浏览量:2

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

4.89m

平均访问时长

00:06:37

每次访问页数

5.70

跳出率

37.28%

流量来源

直接访问

52.59%

自然搜索

32.74%

邮件

0.05%

外链引荐

12.33%

社交媒体

2.17%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

12.61%

德国

3.57%

印度

9.68%

俄罗斯

4.81%

美国

18.94%

类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图