Phi-3.5-vision

简介:

先进的多模态模型,支持图像和文本理解。

功能:

支持多帧图像理解和推理,适用于办公场景。

在单图像基准测试中表现出性能提升,如MMMU和MMBench。

提供多语言支持,但主要针对英语环境设计。

适用于内存/计算受限环境和延迟敏感场景。

支持图像理解、光学字符识别、图表和表格理解。

设计用于加速语言和多模态模型的研究,作为生成式AI功能构建模块。

需求人群:

"目标受众为需要在视觉和文本输入能力方面进行AI系统和应用开发的研究人员和开发者。特别是那些寻求在内存或计算资源受限、对延迟敏感或需要图像理解能力的应用场景中的专业人士。"

浏览量:22

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图