MiniGemini

Mini-Gemini是一个多模态视觉语言模型,支持从2B到34B的系列密集和MoE大型语言模型,同时具备图像理解、推理和生成能力。它基于LLaVA构建,利用双视觉编码器提供低分辨率视觉嵌入和高分辨率候选区域,采用补丁信息挖掘在高分辨率区域和低分辨率视觉查询之间进行补丁级挖掘,将文本与图像融合用于理解和生成任务。支持包括COCO、GQA、OCR-VQA、VisualGenome等多个视觉理解基准测试。

需求人群:

"Mini-Gemini可应用于需要同时处理文本和图像的各种场景,如视觉问答、图像描述生成、图像编辑等。"

使用场景示例:

根据给定的图像内容回答相关问题

生成图像的文字描述

根据指令对图像进行编辑生成新图像

产品特色:

低分辨率/高分辨率双视觉编码器

补丁级信息挖掘

基于大型语言模型的图文融合

支持视觉理解和生成任务

浏览量:315

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

0

平均访问时长

00:00:00

每次访问页数

0.00

跳出率

0.00%

流量来源

直接访问

0

自然搜索

0

邮件

0

外链引荐

0

社交媒体

0

展示广告

0

截止目前所有流量趋势图

类似产品

© 2024     AIbase    备案号:闽ICP备2023012347号-1

隐私政策

用户协议

意见反馈 网站地图