需求人群:
利用本地 AI 模型为网页浏览提供辅助,支持互联网搜索、图像识别等功能
使用场景示例:
使用本地 AI 模型在浏览器中进行互联网搜索
利用视觉模型在网页上进行图像识别
通过侧边栏的 PDF 对话框与 PDF 文档进行交互
产品特色:
提供侧边栏进行各种任务
支持视觉模型
提供最小化的本地 AI 模型 Web 用户界面
支持互联网搜索
在侧边栏上与 PDF 进行对话
新的测试版功能:与文档(PDF、CSV、TXT、MD 格式)进行聊天
使用教程:
null
评分:4.833333
下载量:3000
浏览量:257
最新流量情况
月访问量
2.74m
平均访问时长
00:01:55
每次访问页数
2.60
跳出率
59.37%
流量来源
直接访问
67.40%
自然搜索
15.91%
邮件
0.13%
外链引荐
15.07%
社交媒体
0.79%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
巴西
5.06%
英国
3.17%
印度
7.06%
俄罗斯
6.45%
美国
19.51%
利用本地 AI 模型为您提供网页浏览辅助
Page Assist 是一个为本地 AI 模型提供便捷的 Web 用户界面的辅助工具。您可以利用本地 AI 模型与浏览器交互,或者将其作为本地 AI 模型供应商(如 Ollama Repo)的 Web 用户界面。当前功能包括侧边栏任务支持、视觉模型支持、最小化的本地 AI 模型 Web 用户界面、互联网搜索功能、侧边栏上的 PDF 对话框、文档聊天(PDF、CSV、TXT、MD 格式)等。
Aya Vision 是 Cohere 推出的多语言多模态视觉模型,旨在提升多语言场景下的视觉和文本理解能力。
Aya Vision 是 Cohere For AI 团队开发的先进视觉模型,专注于多语言多模态任务,支持 23 种语言。该模型通过创新的算法突破,如合成标注、多语言数据扩展和多模态模型融合,显著提升了视觉和文本任务的性能。其主要优点包括高效性(在计算资源有限的情况下仍能表现出色)和广泛的多语言支持。Aya Vision 的发布旨在推动多语言多模态研究的前沿发展,并为全球研究社区提供技术支持。
CogView4 是一个支持中文和英文的高分辨率文本到图像生成模型。
CogView4 是由清华大学开发的先进文本到图像生成模型,基于扩散模型技术,能够根据文本描述生成高质量图像。它支持中文和英文输入,并且可以生成高分辨率图像。CogView4 的主要优点是其强大的多语言支持和高质量的图像生成能力,适合需要高效生成图像的用户。该模型在 ECCV 2024 上展示,具有重要的研究和应用价值。
olmOCR-7B-0225-preview 是一个基于 Qwen2-VL-7B-Instruct 微调的文档图像识别模型,用于高效转换文档为纯文本。
olmOCR-7B-0225-preview 是由 Allen Institute for AI 开发的先进文档识别模型,旨在通过高效的图像处理和文本生成技术,将文档图像快速转换为可编辑的纯文本。该模型基于 Qwen2-VL-7B-Instruct 微调,结合了强大的视觉和语言处理能力,适用于大规模文档处理任务。其主要优点包括高效处理能力、高精度文本识别以及灵活的提示生成方式。该模型适用于研究和教育用途,遵循 Apache 2.0 许可证,强调负责任的使用。
Magic 1-For-1 是一个高效的图像到视频生成模型,可在一分钟内生成一分钟的视频。
Magic 1-For-1 是一个专注于高效视频生成的模型,其核心功能是将文本和图像快速转换为视频。该模型通过将文本到视频的生成任务分解为文本到图像和图像到视频两个子任务,优化了内存使用并减少了推理延迟。其主要优点包括高效性、低延迟和可扩展性。该模型由北京大学 DA-Group 团队开发,旨在推动交互式基础视频生成领域的发展。目前该模型及相关代码已开源,用户可以免费使用,但需遵守开源许可协议。
Kimi 视觉模型可理解图片内容,包括文字、颜色和物体形状等。
Kimi 视觉模型是 Moonshot AI 开放平台提供的先进图像理解技术。它能够准确识别和理解图片中的文字、颜色和物体形状等内容,为用户提供强大的视觉分析能力。该模型具有高效、准确的特点,适用于多种场景,如图像内容描述、视觉问答等。其定价与 moonshot-v1 系列模型一致,根据模型推理的总 Tokens 计费,每张图片消耗的 Tokens 为固定值 1024。
探索AI对话的画布,将每次聊天分支视为可合并、比较和丢弃的实验。
Tangent是一个用于探索AI对话的平台,它允许用户在达到上下文限制后无缝恢复对话,轻松创建对话分支以测试多种方法或想法,并且完全由本地模型支持。它的目标是将与AI助手的交互转变为更视觉化/文本化的探索,而不仅仅是一个聊天界面。这个项目背景是为了让对话能够超越传统的聊天应用限制,成为一个可以自由实验、复活旧线程或深入探讨的话题的工作台。
利用复合AI技术,将文档内联处理,跨越模态差距。
Document Inlining是Fireworks AI推出的一款复合AI系统,它能够将任何大型语言模型(LLM)转化为视觉模型,以处理图像或PDF文档。这项技术通过构建自动化流程,将任何数字资产格式转换为LLM兼容的格式,实现逻辑推理。Document Inlining通过解析图像和PDFs,直接将它们输入到用户选择的LLM中,提供更高的质量、输入灵活性和超简单的使用方式。它解决了传统LLM在处理非文本数据时的局限性,通过专业化的组件分解任务,提高了文本模型推理的质量,并且简化了开发者的使用体验。
基于InternViT-6B-448px-V1-5的增强版视觉模型
InternViT-6B-448px-V2_5是一个基于InternViT-6B-448px-V1-5的视觉模型,通过使用ViT增量学习与NTP损失(阶段1.5),提升了视觉编码器提取视觉特征的能力,尤其是在大规模网络数据集中代表性不足的领域,如多语言OCR数据和数学图表等。该模型是InternVL 2.5系列的一部分,保留了与前代相同的“ViT-MLP-LLM”模型架构,并集成了新增量预训练的InternViT与各种预训练的LLMs,包括InternLM 2.5和Qwen 2.5,使用随机初始化的MLP投影器。
垂直标签管理器,整理浏览器标签页的新方式
Side Space是一款浏览器扩展程序,旨在通过垂直标签管理器帮助用户整理和控制浏览器中的多个标签页。它允许用户将标签页组织到侧边栏的垂直空间中,使得查找、管理和专注特定标签变得更加容易。产品背景信息显示,Side Space支持AI驱动的标签分组、自动保存、跨设备同步等功能,主要优点包括提高浏览效率、减少标签混乱、个性化定制等。Side Space的定价策略简单透明,提供一次性付费终身使用的选项。
免费 npm 库,用 Llama 3.2 Vision 进行 OCR,输出 markdown 文本
开源 npm 库,免费使用 Llama 3.2 Vision 进行 OCR,支持本地和远程图像,计划支持 PDF,受 Zerox 启发,有免费和付费接口
机器人操控的时空关系关键点约束推理
ReKep是一个用于机器人操控的时空关系关键点约束推理系统,它通过将机器人操控任务表示为关联机器人和环境的约束来编码期望的机器人行为。ReKep利用大型视觉模型和视觉-语言模型,无需特定任务训练或环境模型,即可生成基于关键点的约束,这些约束可以被优化以实现多阶段、野外、双手和反应性行为。ReKep的主要优点包括其通用性、无需手动标记以及能够被现成求解器实时优化以产生机器人动作。
先进的人工智能视觉模型,专门分析和理解人类动作。
Sapiens视觉模型由Meta Reality Labs开发,专注于处理人类视觉任务,包括2D姿态估计、身体部位分割、深度估计和表面法线预测等。模型在超过3亿张人类图像上训练,具备高分辨率图像处理能力,并能在数据稀缺情况下表现出色。其设计简单、易于扩展,性能在增加参数后显著提升,已在多个测试中超越现有基线模型。
自动化解释性代理,提升AI模型透明度
MAIA(Multimodal Automated Interpretability Agent)是由MIT计算机科学与人工智能实验室(CSAIL)开发的一个自动化系统,旨在提高人工智能模型的解释性。它通过视觉-语言模型的支撑,结合一系列实验工具,自动化地执行多种神经网络解释性任务。MAIA能够生成假设、设计实验进行测试,并通过迭代分析来完善其理解,从而提供更深入的AI模型内部运作机制的洞察。
使用Ollama和Gradio UI的GraphRAG本地模型
GraphRAG-Ollama-UI是一个基于微软GraphRAG的本地模型适配版本,支持使用Ollama进行本地模型支持。它通过Gradio UI提供了一个交互式用户界面,使得用户可以更方便地管理数据、运行查询和可视化结果。该模型的主要优点包括本地模型支持、成本效益高、交互式用户界面、实时图可视化、文件管理、设置管理、输出探索和日志记录。
玩转热门主流 AI 模型,并接入在你的产品中
X Model 是一个集成热门主流 AI 模型的平台,用户可以在其产品中轻松接入这些模型。它的主要优点包括多样的模型选择、高质量的输出结果以及简单易用的接入流程。X Model 价格灵活,适用于各种规模的业务。
从语言到视觉的长上下文转换模型
LongVA是一个能够处理超过2000帧或超过200K视觉标记的长上下文转换模型。它在Video-MME中的表现在7B模型中处于领先地位。该模型基于CUDA 11.8和A100-SXM-80G进行了测试,并且可以通过Hugging Face平台进行快速启动和使用。
AuraSR 是基于 GAN 的超分辨率图像处理模型,可用于提升生成图像的质量。
AuraSR 是基于 GAN 的 Super-Resolution 模型,通过图像条件化增强技术,提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现,并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量,适用于图像处理领域。
先进的视觉基础模型,支持多种视觉和视觉-语言任务。
Florence-2是由微软开发的高级视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示,执行如描述、目标检测和分割等任务。它利用包含54亿个注释的5.4亿张图像的FLD-5B数据集,精通多任务学习。模型的序列到序列架构使其在零样本和微调设置中都表现出色,证明其为有竞争力的视觉基础模型。
先进的视觉基础模型,支持多种视觉和视觉-语言任务
Florence-2-large是由微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示来执行如图像描述、目标检测和分割等任务。它利用包含54亿注释的5.4亿图像的FLD-5B数据集,精通多任务学习。其序列到序列的架构使其在零样本和微调设置中均表现出色,证明是一个有竞争力的视觉基础模型。
本地机器智能的探索之旅
Local III是一个由超过100名来自世界各地的开发者共同开发的更新,它提供了易于使用的本地模型浏览器,深度集成了推理引擎如Ollama,为开放模型如Llama3、Moondream和Codestral定制了配置文件,并提供了一套设置,使离线代码解释更加可靠。Local III还引入了一个免费的、托管的、可选的模型通过解释器--model i。与i模型的对话将用于训练我们自己的开源计算机控制语言模型。
一种统一的视觉任务基础模型。
Florence-2是一个新型的视觉基础模型,它通过统一的、基于提示的表示方式,能够处理多种计算机视觉和视觉-语言任务。它设计为接受文本提示作为任务指令,并以文本形式生成期望的结果,无论是图像描述、目标检测、定位还是分割。这种多任务学习设置需要大规模、高质量的注释数据。为此,我们共同开发了FLD-5B,它包含了54亿个综合视觉注释,涵盖1.26亿张图像,使用了自动化图像注释和模型细化的迭代策略。我们采用了序列到序列的结构来训练Florence-2,以执行多样化和全面的视觉任务。广泛的评估表明,Florence-2是一个强大的视觉基础模型竞争者,具有前所未有的零样本和微调能力。
个性化角色创造平台,AI 乌托邦 PRO,打造新一代超拟人 AI 智能体。
乌托邦是一个个性化角色创造平台,致力于打造新一代超拟人 AI 智能体。其主要优点包括更可控、拟人、安全。背景信息显示该产品注重用户参与创造,定位于提供高度个性化的角色模型。
通过本地Ollama LLM与你的Obsidian笔记聊天
Obsidian Ollama Chat是一个插件,允许用户通过本地运行的Ollama LLM模型与自己的Obsidian笔记进行交互和查询。它提供了一种新颖的笔记管理和信息检索方式,使得用户可以更加直观和便捷地获取所需信息。该插件的开发背景是索引和查询笔记内容的需要,它通过本地模型运行,保护用户隐私,并且避免了对外部服务的依赖。
基于llama3 8B的SOTA视觉模型
llama3v是一个基于Llama3 8B和siglip-so400m的SOTA(State of the Art,即最先进技术)视觉模型。它是一个开源的VLLM(视觉语言多模态学习模型),在Huggingface上提供模型权重,支持快速本地推理,并发布了推理代码。该模型结合了图像识别和文本生成,通过添加投影层将图像特征映射到LLaMA嵌入空间,以提高模型对图像的理解能力。
在侧边栏固定聊天 GPT-4o Gemini Claude
Sidebar Tab 可以轻松在侧边栏中打开网页,而不会打断主要的浏览任务。您可以将任何网页固定在 Chrome 侧边栏中,包括聊天 GPT-4o Gemini Claude等。只需复制网页的 URL,粘贴到地址栏中,它就会永远固定在侧边栏中,您可以保持对主浏览器窗口的关注。当您切换标签时,您仍然可以在侧边栏中看到固定的内容,方便进行交叉引用和监视。
基于先进 AI 模型的图像修复工具。
IOPaint 是一个免费、开源且完全可自托管的修复 / 填充工具,使用最先进的 AI 模型。它可以帮助用户删除图像中的不需要的对象、修复瑕疵、添加新对象、扩大图像等。
© 2025 AIbase 备案号:闽ICP备08105208号-14