vdr-2b-multi-v1

vdr-2b-multi-v1 是一款由 Hugging Face 推出的多语言嵌入模型,专为视觉文档检索设计。该模型能够将文档页面截图编码为密集的单向量表示,无需 OCR 或数据提取流程即可搜索和查询多语言视觉丰富的文档。基于 MrLight/dse-qwen2-2b-mrl-v1 开发,使用自建的多语言查询 - 图像对数据集进行训练,是 mcdse-2b-v1 的升级版,性能更强大。模型支持意大利语、西班牙语、英语、法语和德语,拥有 50 万高质量样本的开源多语言合成训练数据集,具有低 VRAM 和快速推理的特点,在跨语言检索方面表现出色。

需求人群:

"适用于需要进行多语言视觉文档检索的用户,如研究人员、企业分析师、内容创作者等,尤其适合在语言多样化的环境中快速准确地查找文档信息。"

使用场景示例:

研究人员可以利用该模型快速检索不同语言的学术文献中的关键图表和内容。

企业分析师能够跨语言搜索行业报告中的可视化数据和分析结果。

内容创作者可以方便地查找多语言文档中的灵感素材和参考资料。

产品特色:

支持多语言(意大利语、西班牙语、英语、法语、德语)文档检索

低 VRAM 和快速推理,推理速度比基础模型快 3 倍,VRAM 使用量更低

跨语言检索能力强,可实现不同语言间的文档搜索

采用 Matryoshka 表示学习,可将向量大小缩小 3 倍,同时保持 98% 的嵌入质量

提供 SentenceTransformers 和 LlamaIndex 直接集成,易于生成嵌入

使用教程:

1. 通过 pip 安装 llama-index-embeddings-huggingface 或 sentence-transformers 库。

2. 导入相应的模型类,如 HuggingFaceEmbedding 或 SentenceTransformer。

3. 创建模型实例,指定模型名称和其他参数,如设备类型。

4. 使用模型的 get_image_embedding 或 encode 方法,传入图像文件路径或查询文本,获取嵌入向量。

5. 利用得到的嵌入向量进行文档检索等操作。

浏览量:8

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

21315.89k

平均访问时长

00:05:02

每次访问页数

5.22

跳出率

45.50%

流量来源

直接访问

49.07%

自然搜索

35.51%

邮件

0.03%

外链引荐

12.37%

社交媒体

3.00%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

14.90%

印度

8.10%

日本

3.61%

俄罗斯

5.37%

美国

18.06%

类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图