需求人群:
利用本地 AI 模型为网页浏览提供辅助,支持互联网搜索、图像识别等功能
使用场景示例:
使用本地 AI 模型在浏览器中进行互联网搜索
利用视觉模型在网页上进行图像识别
通过侧边栏的 PDF 对话框与 PDF 文档进行交互
产品特色:
提供侧边栏进行各种任务
支持视觉模型
提供最小化的本地 AI 模型 Web 用户界面
支持互联网搜索
在侧边栏上与 PDF 进行对话
新的测试版功能:与文档(PDF、CSV、TXT、MD 格式)进行聊天
使用教程:
null
评分:4.833333
下载量:3000
浏览量:4
最新流量情况
月访问量
2.41m
平均访问时长
00:02:05
每次访问页数
2.59
跳出率
58.87%
流量来源
直接访问
66.85%
自然搜索
14.96%
邮件
0.07%
外链引荐
16.38%
社交媒体
0.95%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
巴西
4.62%
英国
3.58%
印度
6.23%
俄罗斯
7.03%
美国
20.91%
利用本地 AI 模型为您提供网页浏览辅助
Page Assist 是一个为本地 AI 模型提供便捷的 Web 用户界面的辅助工具。您可以利用本地 AI 模型与浏览器交互,或者将其作为本地 AI 模型供应商(如 Ollama Repo)的 Web 用户界面。当前功能包括侧边栏任务支持、视觉模型支持、最小化的本地 AI 模型 Web 用户界面、互联网搜索功能、侧边栏上的 PDF 对话框、文档聊天(PDF、CSV、TXT、MD 格式)等。
垂直标签管理器,整理浏览器标签页的新方式
Side Space是一款浏览器扩展程序,旨在通过垂直标签管理器帮助用户整理和控制浏览器中的多个标签页。它允许用户将标签页组织到侧边栏的垂直空间中,使得查找、管理和专注特定标签变得更加容易。产品背景信息显示,Side Space支持AI驱动的标签分组、自动保存、跨设备同步等功能,主要优点包括提高浏览效率、减少标签混乱、个性化定制等。Side Space的定价策略简单透明,提供一次性付费终身使用的选项。
免费 npm 库,用 Llama 3.2 Vision 进行 OCR,输出 markdown 文本
开源 npm 库,免费使用 Llama 3.2 Vision 进行 OCR,支持本地和远程图像,计划支持 PDF,受 Zerox 启发,有免费和付费接口
机器人操控的时空关系关键点约束推理
ReKep是一个用于机器人操控的时空关系关键点约束推理系统,它通过将机器人操控任务表示为关联机器人和环境的约束来编码期望的机器人行为。ReKep利用大型视觉模型和视觉-语言模型,无需特定任务训练或环境模型,即可生成基于关键点的约束,这些约束可以被优化以实现多阶段、野外、双手和反应性行为。ReKep的主要优点包括其通用性、无需手动标记以及能够被现成求解器实时优化以产生机器人动作。
先进的人工智能视觉模型,专门分析和理解人类动作。
Sapiens视觉模型由Meta Reality Labs开发,专注于处理人类视觉任务,包括2D姿态估计、身体部位分割、深度估计和表面法线预测等。模型在超过3亿张人类图像上训练,具备高分辨率图像处理能力,并能在数据稀缺情况下表现出色。其设计简单、易于扩展,性能在增加参数后显著提升,已在多个测试中超越现有基线模型。
自动化解释性代理,提升AI模型透明度
MAIA(Multimodal Automated Interpretability Agent)是由MIT计算机科学与人工智能实验室(CSAIL)开发的一个自动化系统,旨在提高人工智能模型的解释性。它通过视觉-语言模型的支撑,结合一系列实验工具,自动化地执行多种神经网络解释性任务。MAIA能够生成假设、设计实验进行测试,并通过迭代分析来完善其理解,从而提供更深入的AI模型内部运作机制的洞察。
使用Ollama和Gradio UI的GraphRAG本地模型
GraphRAG-Ollama-UI是一个基于微软GraphRAG的本地模型适配版本,支持使用Ollama进行本地模型支持。它通过Gradio UI提供了一个交互式用户界面,使得用户可以更方便地管理数据、运行查询和可视化结果。该模型的主要优点包括本地模型支持、成本效益高、交互式用户界面、实时图可视化、文件管理、设置管理、输出探索和日志记录。
玩转热门主流 AI 模型,并接入在你的产品中
X Model 是一个集成热门主流 AI 模型的平台,用户可以在其产品中轻松接入这些模型。它的主要优点包括多样的模型选择、高质量的输出结果以及简单易用的接入流程。X Model 价格灵活,适用于各种规模的业务。
从语言到视觉的长上下文转换模型
LongVA是一个能够处理超过2000帧或超过200K视觉标记的长上下文转换模型。它在Video-MME中的表现在7B模型中处于领先地位。该模型基于CUDA 11.8和A100-SXM-80G进行了测试,并且可以通过Hugging Face平台进行快速启动和使用。
AuraSR 是基于 GAN 的超分辨率图像处理模型,可用于提升生成图像的质量。
AuraSR 是基于 GAN 的 Super-Resolution 模型,通过图像条件化增强技术,提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现,并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量,适用于图像处理领域。
先进的视觉基础模型,支持多种视觉和视觉-语言任务。
Florence-2是由微软开发的高级视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示,执行如描述、目标检测和分割等任务。它利用包含54亿个注释的5.4亿张图像的FLD-5B数据集,精通多任务学习。模型的序列到序列架构使其在零样本和微调设置中都表现出色,证明其为有竞争力的视觉基础模型。
先进的视觉基础模型,支持多种视觉和视觉-语言任务
Florence-2-large是由微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示来执行如图像描述、目标检测和分割等任务。它利用包含54亿注释的5.4亿图像的FLD-5B数据集,精通多任务学习。其序列到序列的架构使其在零样本和微调设置中均表现出色,证明是一个有竞争力的视觉基础模型。
本地机器智能的探索之旅
Local III是一个由超过100名来自世界各地的开发者共同开发的更新,它提供了易于使用的本地模型浏览器,深度集成了推理引擎如Ollama,为开放模型如Llama3、Moondream和Codestral定制了配置文件,并提供了一套设置,使离线代码解释更加可靠。Local III还引入了一个免费的、托管的、可选的模型通过解释器--model i。与i模型的对话将用于训练我们自己的开源计算机控制语言模型。
一种统一的视觉任务基础模型。
Florence-2是一个新型的视觉基础模型,它通过统一的、基于提示的表示方式,能够处理多种计算机视觉和视觉-语言任务。它设计为接受文本提示作为任务指令,并以文本形式生成期望的结果,无论是图像描述、目标检测、定位还是分割。这种多任务学习设置需要大规模、高质量的注释数据。为此,我们共同开发了FLD-5B,它包含了54亿个综合视觉注释,涵盖1.26亿张图像,使用了自动化图像注释和模型细化的迭代策略。我们采用了序列到序列的结构来训练Florence-2,以执行多样化和全面的视觉任务。广泛的评估表明,Florence-2是一个强大的视觉基础模型竞争者,具有前所未有的零样本和微调能力。
个性化角色创造平台,AI 乌托邦 PRO,打造新一代超拟人 AI 智能体。
乌托邦是一个个性化角色创造平台,致力于打造新一代超拟人 AI 智能体。其主要优点包括更可控、拟人、安全。背景信息显示该产品注重用户参与创造,定位于提供高度个性化的角色模型。
通过本地Ollama LLM与你的Obsidian笔记聊天
Obsidian Ollama Chat是一个插件,允许用户通过本地运行的Ollama LLM模型与自己的Obsidian笔记进行交互和查询。它提供了一种新颖的笔记管理和信息检索方式,使得用户可以更加直观和便捷地获取所需信息。该插件的开发背景是索引和查询笔记内容的需要,它通过本地模型运行,保护用户隐私,并且避免了对外部服务的依赖。
基于llama3 8B的SOTA视觉模型
llama3v是一个基于Llama3 8B和siglip-so400m的SOTA(State of the Art,即最先进技术)视觉模型。它是一个开源的VLLM(视觉语言多模态学习模型),在Huggingface上提供模型权重,支持快速本地推理,并发布了推理代码。该模型结合了图像识别和文本生成,通过添加投影层将图像特征映射到LLaMA嵌入空间,以提高模型对图像的理解能力。
在侧边栏固定聊天 GPT-4o Gemini Claude
Sidebar Tab 可以轻松在侧边栏中打开网页,而不会打断主要的浏览任务。您可以将任何网页固定在 Chrome 侧边栏中,包括聊天 GPT-4o Gemini Claude等。只需复制网页的 URL,粘贴到地址栏中,它就会永远固定在侧边栏中,您可以保持对主浏览器窗口的关注。当您切换标签时,您仍然可以在侧边栏中看到固定的内容,方便进行交叉引用和监视。
基于先进 AI 模型的图像修复工具。
IOPaint 是一个免费、开源且完全可自托管的修复 / 填充工具,使用最先进的 AI 模型。它可以帮助用户删除图像中的不需要的对象、修复瑕疵、添加新对象、扩大图像等。
连接不同语言模型和生成视觉模型进行文本到图像生成
LaVi-Bridge是一种针对文本到图像扩散模型设计的桥接模型,能够连接各种预训练的语言模型和生成视觉模型。它通过利用LoRA和适配器,提供了一种灵活的插拔式方法,无需修改原始语言和视觉模型的权重。该模型与各种语言模型和生成视觉模型兼容,可容纳不同的结构。在这一框架内,我们证明了通过整合更高级的模块(如更先进的语言模型或生成视觉模型)可以明显提高文本对齐或图像质量等能力。该模型经过大量评估,证实了其有效性。
隐藏聊天GPT侧边栏
这是一个Chrome插件,用于在Chat GPT网站上隐藏或显示侧边栏。通过隐藏侧边栏,用户可以更好地利用屏幕空间,并专注于聊天内容。插件还添加了隐藏和显示侧边栏的按钮,以及支持开发者的捐赠按钮。
AI聊天助手,侧边栏展示
Free ChatGPT Sidebar Assistant是基于OpenAI的ChatGPT 3.5和4模型开发的AI聊天助手。它支持多个AI模型,包括GPT 3.5、GPT 4、ChatGPT、视觉和AI绘画。它提供丰富的提示模板,适合初学者快速提问。聊天历史存储在云端,便于访问和回顾。它以侧边栏形式展示,不影响页面使用,方便进行并行比较。免费使用,每个用户每天提供超过10,000个令牌的免费访问,并提供订阅购买额外令牌的选项。
在侧边栏中使用AI服务
在侧边栏中打开和使用Google Gemini、Microsoft Copilot、ChatGPT和Baidu AI等AI服务,让您在浏览任何网页时都可以使用AI。 特点: 1. 在浏览网页时可以在侧边栏中打开和使用Google Gemini、Microsoft Copilot、ChatGPT和Baidu AI 2. 自定义AI顺序 3. 记录上次打开AI的时间
AI 时尚模型,用于电商卖家
Modeli.ai 是下一代 AI 模型,利用 AI 模型快速生成视觉吸引力强、成本效益高的时尚服装描述。它可以节省 80% 的拍摄成本和时间,增加产品的图片数量,提高转化率。
视觉状态空间模型,线性复杂度,全局感知
VMamba是一种视觉状态空间模型,结合了卷积神经网络(CNNs)和视觉Transformer(ViTs)的优势,实现了线性复杂度而不牺牲全局感知。引入了Cross-Scan模块(CSM)来解决方向敏感问题,能够在各种视觉感知任务中展现出优异的性能,并且随着图像分辨率的增加,相对已有基准模型表现出更为显著的优势。
大规模自回归图像模型预训练
这篇论文介绍了AIM,这是一组使用自回归目标进行预训练的视觉模型。这些模型受其文本对应物,即大型语言模型(LLMs)的启发,并表现出类似的扩展特性。具体来说,我们强调了两个关键发现:(1)视觉特征的性能随着模型容量和数据量的增加而提高,(2)目标函数的价值与模型在下游任务上的性能相关。我们通过在20亿张图像上对70亿参数的AIM进行预训练,实现了在ImageNet-1k上使用冻结主干达到84.0%的准确率。有趣的是,即使在这个规模上,我们观察到性能没有饱和的迹象,这表明AIM可能代表了训练大规模视觉模型的新前沿。AIM的预训练类似于LLMs的预训练,并不需要任何图像特定的策略来稳定大规模训练。
3,600+ AI 模型生成的照片
iStock 提供 3,600 多张由 AI 模型生成的照片。用户可以在这个网站上搜索高质量的照片,这些照片都是使用 AI 技术生成的,用户可以在其他地方找不到这样的照片。
Windows AI Studio 简化生成式 AI 应用程序开发
Windows AI Studio 通过将来自 Azure AI Studio Catalog 和 Hugging Face 等目录的先进 AI 开发工具和模型集合在一起,简化了生成式 AI 应用程序的开发。您可以浏览由 Azure ML 和 Hugging Face 提供支持的 AI 模型目录,将其下载到本地,进行微调、测试并在 Windows 应用程序中使用。所有计算都在本地进行,请确保您的设备能够承受负载。未来,我们计划将 ORT/DML 集成到 Windows AI Studio 工作流中,以便开发人员可以在任何 Windows 硬件上运行 AI 模型。
© 2024 AIbase 备案号:闽ICP备08105208号-14