浏览量:52
最新流量情况
月访问量
21755.37k
平均访问时长
00:04:24
每次访问页数
3.11
跳出率
46.13%
流量来源
直接访问
32.70%
自然搜索
44.92%
邮件
1.60%
外链引荐
16.28%
社交媒体
4.47%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
美国
20.68%
中国
16.31%
印度
3.92%
日本
3.91%
通过自然语言指令实现智能图像编辑的开源技术。
MGIE(多模态大语言模型引导的编辑)是一项由苹果开源的技术,利用多模态大型语言模型(MLLMs)生成图像编辑指令,通过端到端训练,捕捉视觉想象力并执行图像处理操作,使图像编辑更加智能、直观。
轻量级但功能强大的多模态模型家族。
Bunny 是一系列轻量级但功能强大的多模态模型,提供多种即插即用的视图编码器和语言主干网络。通过从更广泛的数据源进行精选选择,构建更丰富的训练数据,以补偿模型尺寸的减小。Bunny-v1.0-3B 模型在性能上超越了同类大小甚至更大的 MLLMs(7B)模型,并与 13B 模型性能相当。
强大的多模态LLM,商业解决方案
Reka Core是一个GPT-4级别的多模态大型语言模型(LLM),具备图像、视频和音频的强大上下文理解能力。它是目前市场上仅有的两个商用综合多模态解决方案之一。Core在多模态理解、推理能力、编码和Agent工作流程、多语言支持以及部署灵活性方面表现出色。
多模态AI模型,图像理解与生成兼备
Mini-Gemini是由香港中文大学终身教授贾佳亚团队开发的多模态模型,具备精准的图像理解能力和高质量的训练数据。该模型结合图像推理和生成,提供不同规模的版本,性能与GPT-4和DALLE3相媲美。Mini-Gemini采用Gemini的视觉双分支信息挖掘方法和SDXL技术,通过卷积网络编码图像并利用Attention机制挖掘信息,同时结合LLM生成文本链接两个模型。
集成音乐能力的开源LLM
ChatMusician是一个开源的大型语言模型(LLM),它通过持续的预训练和微调,集成了音乐能力。该模型基于文本兼容的音乐表示法(ABC记谱法),将音乐视为第二语言。ChatMusician能够在不依赖外部多模态神经结构或分词器的情况下,理解和生成音乐。
用户友好的LLMs WebUI
Open WebUI是一个为LLMs(大型语言模型)设计的友好型Web用户界面,支持Ollama和OpenAI兼容的API。它提供了直观的聊天界面、响应式设计、快速响应性能、简易安装、代码语法高亮、Markdown和LaTeX支持、本地RAG集成、Web浏览能力、提示预设支持、RLHF注释、会话标记、模型下载/删除、GGUF文件模型创建、多模型支持、多模态支持、模型文件构建器、协作聊天、OpenAI API集成等功能。
多模态视觉语言模型
MouSi是一种多模态视觉语言模型,旨在解决当前大型视觉语言模型(VLMs)面临的挑战。它采用集成专家技术,将个体视觉编码器的能力进行协同,包括图像文本匹配、OCR、图像分割等。该模型引入融合网络来统一处理来自不同视觉专家的输出,并在图像编码器和预训练LLMs之间弥合差距。此外,MouSi还探索了不同的位置编码方案,以有效解决位置编码浪费和长度限制的问题。实验结果表明,具有多个专家的VLMs表现出比孤立的视觉编码器更出色的性能,并随着整合更多专家而获得显著的性能提升。
多模态文档理解模型
DocLLM是一个提供多模态文档理解模型的平台,旨在处理企业文档中的文本和空间布局,并提供优于现有大型语言模型的性能。其模型采用轻量级扩展,避免昂贵的图像编码器,专注于边界框信息以纳入空间布局结构。通过分解经典Transformer中的注意机制,捕获文本和空间模态之间的交叉对齐。此外,设计了一个预训练目标,学习填充文本段落,以解决视觉文档中经常遇到的不规则布局和异质内容。该解决方案在14个任务的16个数据集中优于现有大型语言模型,并且对5个以前未见数据集具有良好的泛化能力。
端到端MLLM,实现精准引用和定位
ml-ferret是一个端到端的机器学习语言模型(MLLM),能够接受各种形式的引用并响应性地在多模态环境中进行精准定位。它结合了混合区域表示和空间感知的视觉采样器,支持细粒度和开放词汇的引用和定位。此外,ml-ferret还包括GRIT数据集(约110万个样本)和Ferret-Bench评估基准。
智能手机应用的多模态代理框架
AppAgent是一个基于LLM(大型语言模型)的多模态代理框架,设计用于操作智能手机应用。通过简化的动作空间(如点击和滑动),模仿人类般的互动方式,实现应用操作,无需系统后端访问。代理通过自主探索或观察人类演示学习新应用的使用方法,创建知识库用于执行不同应用中的复杂任务。
一框架,统一所有语言模态
OneLLM是一个旨在统一所有语言模态的框架。它提供了预览模型,并允许本地演示。该框架的功能包括模型安装、模型预览和本地演示。OneLLM的优势在于能够统一不同的模态,如图像和文本,以及语音和文本。该框架的定位是为了简化多模态任务的处理。
简化AI生成的提示的创建、测试和分享过程。
GeneratedBy简化了为提示工程师和数字劳动者创建、测试和分享AI生成的提示的过程。通过我们的平台,您可以轻松编写、优化和共享提示,提高工作效率。主要功能包括:提示编辑和优化、多模态内容和LLM支持、启发式提示收藏、表单、聊天泡泡或微型SaaS生成、ChatGPT插件和提示工具、协作API和角色管理等。
OpenELM是一套高效的语言模型家族,具备开源训练和推理框架。
OpenELM是由苹果公司开发的语言模型家族,旨在为开源研究社区提供先进的语言模型。这些模型基于公开可用的数据集训练,不提供任何安全保证,可能产生不准确、有害、有偏见或令人反感的输出。因此,用户和开发者需要进行彻底的安全测试,并实施适当的过滤机制。
Graph Neural Network (GNN)库,为苹果芯片量身打造
mlx-graphs是一个专为苹果芯片设计的图神经网络(GNN)库。它利用苹果硬件的优势,如统一内存架构,实现了在Mac设备上的高效GNN训练和推理。主要优点有:1)利用GPU并行计算,在大数据集上实现高速GNN运算;2)利用统一内存,支持在GPU上直接处理大规模图数据;3)无需设备间数据传输,简化开发流程。用户可以便捷地在Mac设备上处理大规模图问题,实现高性能GNN模型训练。
AI财务报告分析工具
PaperMoney是一款AI财务报告分析工具,提供超过5000家公司的深度财报分析,包括苹果、亚马逊、特斯拉等公司,涵盖10个行业。用户可以通过PaperMoney做出明智的决策。
设计你的应用界面,转化你的想法为SwiftUI
Trace AI是一个插件,可以帮助你在几分钟内设计应用界面。它可以将你的想法从文本转化为SwiftUI代码,并且可以将设计导出到你的Xcode项目或在手机上运行。指南具有以下功能:刷卡式无限卡片堆叠、联系人滚动视图、动态岛屿头部的个人资料视图、呼吸应用动画、滚动视图卡片、旋转的盘形表情符号、树形图绘制、交互式图表、重力表情符号、触摸和手势动画、苹果钱包支付环、类似Instagram的照片动态流。指南适用于设计师和开发者,帮助他们快速设计应用界面。
AI一键总结,节省时间
BibiGPT · AI 音视频助理是一款智能插件,支持B站、油管、小红书、抖音、推特、小宇宙、苹果播客、谷歌播客、本地视频、本地音频、微信公众号等任意网页链接。通过输入链接,即可获得AI一键总结、思维导图、字幕列表、AI改写图文、AI对话追问、热门视频总结等功能。帮助用户快速获取音视频内容的核心信息。
文字生成图片神器
Amazing AI 是一款使用稳定扩散技术,基于文字描述生成图像的深度学习模型。该产品专为苹果芯片(M1/M2)开发,并高度优化以运行在苹果神经引擎上。用户只需简单描述所需的图像,应用程序将像魔法一样生成图像。
多平台思维导图软件,创意破茧而出
亿图脑图是一款多平台思维导图软件,可用于 Windows,Mac 和 Linux 等桌面环境,也可以在线使用或在苹果,安卓等移动端上使用。集成思维导图社区和云平台,专业版本提供比免费版本更强大的特色功能。
手机通话录音软件,可录制、转录通话
这是一个可在苹果和安卓手机上录制电话通话的应用程序。它使用IVR技术以最佳质量录制通话,还能使用机器学习和人工智能技术将录音转录成可阅读的文本文档,包括语音分离、时间码等。主要功能有:高质量录制通话;可转录通话生成文本文件;可通过邮件分享录音和文本文件;购买额外时长;没有广告,不需要订阅。
发现新的激情,实现目标
MOTIV8 AI 是一款基于人工智能的任务生成应用程序,拥有丰富的生活方式待办事项目录。通过 MOTIV8 AI,您可以探索新的激情,实现您的目标。应用程序支持苹果App Store和Google Play下载。
智能聊天机器人应用
AI Chat Bot − Ask Anything是一款在苹果应用商店上评分达 4.6 的热门应用,已累计下载量超过 68,000 次。该应用通过提供智能聊天机器人服务,为用户提供各种问题的回答和娱乐功能。用户可通过应用内购买订阅功能,每月净利润达 $5,648。AI 聊天机器人定价合理,定位于个人和娱乐用户。
让老款苹果电脑与AI服务交互的工具
LegacyAI是一个允许旧款苹果电脑与OpenAI的ChatGPT进行交互的工具。它适用于从System 7到10.11(El Capitan)的15个不同的Mac系统。您还可以配置代理服务器以完全自定义您的体验。LegacyAI使1988年以后的Macintosh电脑能够在iOS推出官方应用程序之前就能与ChatGPT进行通信。LegacyAI是一个高效的工具,适用于任何想要在旧款Macintosh电脑上使用基于AI的个人助手的人。
macOS/iOS上集成AI的唯一应用
WriteMage是一款集成AI的应用,可在macOS和iOS上使用。它使用ChatGPT技术,可以在任何应用中进行聊天和写作。它可以在应用中悬浮显示,像苹果的Spotlight一样。WriteMage具有记忆功能,可以根据上下文进行回答,并保存所有的聊天记录。用户可以自定义和编辑提示内容。在beta版本期间,使用我们的应用是免费的,但是在正式版本发布后,需要使用自己的OpenAI API密钥。我们还提供iOS版本,可以在所有的iOS应用中使用。
AI金融信息平台,提供深度洞察和实时新闻
BeeBee AI是一家专业的基于人工智能的金融信息平台,为美国股市、中国概念股、香港股市和A股市场的投资者提供深度洞察和实时新闻。我们提供全面的分析和市场动态,覆盖苹果、特斯拉、阿里巴巴和雪球等热门股票。BeeBee AI整合主要的财经新闻,为用户选择有价值的投资信息,并提供来自主要公司的财报电话会议的原创内容和分析,帮助投资者全面了解企业运营和市场趋势。我们的订阅服务和个性化书签功能简化投资决策流程,帮助您轻松把握投资机会。
将文本转换为图片的AI应用
AI Photo是一款用户友好的文本转图片生成应用,可离线根据您的图像描述创建照片和艺术品。它采用稳定扩散技术,针对苹果芯片(M1和M2)进行了高度优化。支持随时保存和管理您的艺术品,还提供快速智能的搜索引擎。内置安全机制可过滤可能的结果。可在Mac、iPhone和iPad上使用。
全球AI黑客马拉松,AI解决方案,Wow AI
全球AI黑客马拉松汇集了来自80多个大公司(如谷歌、英特尔、IBM、苹果、三星、微软、安永等)的AI思想领袖设计的3个热门挑战,旨在全球范围内让才华横溢的团队竞争。通过参加这个黑客马拉松,您将有机会展示您的AI创新,完善您的想法,并为其商业化铺平道路。此黑客马拉松是启动WowDAO社区成员的第一步,WowDAO是一个专门为AI社区而设计的web3生态系统,利用区块链技术支持从构思、模型开发和资金到知识产权通过IP-NFT安全管理的整个创新过程。
© 2024 AIbase 备案号:闽ICP备2023012347号-1