简介:

基于视觉语言模型的检索增强型生成模型

功能:

直接将文档作为图像嵌入,增强文档生成能力

利用视觉语言模型进行文档嵌入,提高信息保留率

通过检索增强,提升文档生成的质量和相关性

支持使用不同的VLMs进行生成,如MiniCPM-V 2.0和GPT-4o

提供详细的训练和评估脚本,方便复现和应用

在训练过程中使用梯度检查点以减少内存使用

支持多模态文档,包括PDF和由VLM生成的伪查询

需求人群:

"VisRAG的目标受众主要是研究人员和开发者,特别是那些在多模态文档处理、信息检索和增强型文本生成领域工作的专业人士。由于VisRAG能够处理包括图像和文本在内的多种类型的数据,它适合需要从复杂文档中提取和生成信息的场景,如自动化文档摘要、内容推荐系统和智能问答系统。"

浏览量:13

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图