浏览量:124
最新流量情况
月访问量
4.75m
平均访问时长
00:06:34
每次访问页数
6.10
跳出率
36.20%
流量来源
直接访问
52.19%
自然搜索
32.64%
邮件
0.04%
外链引荐
12.93%
社交媒体
2.02%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
14.32%
德国
3.68%
印度
9.04%
俄罗斯
3.92%
美国
19.25%
多模态知识图谱补全工具
MyGO是一个用于多模态知识图谱补全的工具,它通过将离散模态信息作为细粒度的标记来处理,以提高补全的准确性。MyGO利用transformers库对文本标记进行嵌入,进而在多模态数据集上进行训练和评估。它支持自定义数据集,并且提供了训练脚本以复现实验结果。
最新多模态检查点,提升语音理解能力。
Llama3-s v0.2 是 Homebrew Computer Company 开发的多模态检查点,专注于提升语音理解能力。该模型通过早期融合语义标记的方式,利用社区反馈进行改进,以简化模型结构,提高压缩效率,并实现一致的语音特征提取。Llama3-s v0.2 在多个语音理解基准测试中表现稳定,并提供了实时演示,允许用户亲自体验其功能。尽管模型仍在早期开发阶段,存在一些限制,如对音频压缩敏感、无法处理超过10秒的音频等,但团队计划在未来更新中解决这些问题。
一个正在训练中的开源语言模型,具备“听力”能力。
llama3-s是一个开放的、正在进行中的研究实验,旨在将基于文本的大型语言模型(LLM)扩展到具有原生“听力”能力。该项目使用Meta的Chameleon论文启发的技术,专注于令牌传递性,将声音令牌扩展到LLM的词汇表中,未来可能扩展到各种输入类型。作为一个开源科学实验,代码库和数据集都是公开的。
数学视觉指令调优模型
MAVIS是一个针对多模态大型语言模型(MLLMs)的数学视觉指令调优模型,主要通过改进视觉编码数学图表、图表-语言对齐和数学推理技能来增强MLLMs在视觉数学问题解决方面的能力。该模型包括两个新策划的数据集、一个数学视觉编码器和数学MLLM,通过三阶段训练范式在MathVerse基准测试中取得领先性能。
多粒度视觉指令调优的创新MLLM
MG-LLaVA是一个增强模型视觉处理能力的机器学习语言模型(MLLM),通过整合多粒度视觉流程,包括低分辨率、高分辨率和以对象为中心的特征。提出了一个额外的高分辨率视觉编码器来捕捉细节,并通过Conv-Gate融合网络与基础视觉特征融合。此外,通过离线检测器识别的边界框整合对象级特征,以进一步细化模型的对象识别能力。MG-LLaVA仅在公开可用的多模态数据上通过指令调优进行训练,展现出卓越的感知技能。
轻量级但功能强大的多模态模型家族。
Bunny 是一系列轻量级但功能强大的多模态模型,提供多种即插即用的视图编码器和语言主干网络。通过从更广泛的数据源进行精选选择,构建更丰富的训练数据,以补偿模型尺寸的减小。Bunny-v1.0-3B 模型在性能上超越了同类大小甚至更大的 MLLMs(7B)模型,并与 13B 模型性能相当。
Docker推出的人工智能应用开发解决方案
Docker GenAI Stack是一个面向开发者的人工智能应用开发解决方案。它整合了各大领先的AI技术,只需几次点击就可以部署完整的AI应用栈,实现代码级的AI集成。GenAI Stack内置预配置的大型语言模型,提供Ollama管理,采用Neo4j作为默认数据库,可实现知识图谱和向量搜索。还配备了LangChain框架用于编排和调试,以及全面的技术支持和社区资源。GenAI Stack使AI应用开发变得简单高效,开发者可以快速构建实用的AI解决方案。
一个强大的文本生成模型,适用于多种对话应用。
DeepSeek-V3-0324 是一个先进的文本生成模型,具有 685 亿参数,采用 BF16 和 F32 张量类型,能够支持高效的推理和文本生成。该模型的主要优点在于其强大的生成能力和开放源码的特性,使其可以被广泛应用于多种自然语言处理任务。该模型的定位是为开发者和研究人员提供一个强大的工具,帮助他们在文本生成领域取得突破。
RF-DETR 是由 Roboflow 开发的实时目标检测模型。
RF-DETR 是一个基于变压器的实时目标检测模型,旨在为边缘设备提供高精度和实时性能。它在 Microsoft COCO 基准测试中超过了 60 AP,具有竞争力的性能和快速的推理速度,适合各种实际应用场景。RF-DETR 旨在解决现实世界中的物体检测问题,适用于需要高效且准确检测的行业,如安防、自动驾驶和智能监控等。
高保真可动画 3D 人类重建模型,快速生成动画角色。
LHM(大规模可动画人类重建模型)利用多模态变压器架构进行高保真 3D 头像重建,支持从单张图像生成可动画的 3D 人类形象。该模型能够详细保留服装几何和纹理,尤其是在面部身份和细节恢复方面表现优异,适合对 3D 重建精度有较高要求的应用场景。
Pruna 是一个模型优化框架,帮助开发者快速高效交付模型。
Pruna 是一个为开发者设计的模型优化框架,通过一系列压缩算法,如量化、修剪和编译等技术,使得机器学习模型在推理时更快、体积更小且计算成本更低。产品适用于多种模型类型,包括 LLMs、视觉转换器等,且支持 Linux、MacOS 和 Windows 等多个平台。Pruna 还提供了企业版 Pruna Pro,解锁更多高级优化功能和优先支持,助力用户在实际应用中提高效率。
SpatialLM 是一个用于空间理解的大语言模型。
SpatialLM 是一个专为处理 3D 点云数据设计的大型语言模型,能够生成结构化的 3D 场景理解输出,包括建筑元素和对象的语义类别。它能够从单目视频序列、RGBD 图像和 LiDAR 传感器等多种来源处理点云数据,无需专用设备。SpatialLM 在自主导航和复杂 3D 场景分析任务中具有重要应用价值,显著提升空间推理能力。
一个开源文本转语音系统,致力于实现人类语音的自然化。
Orpheus TTS 是一个基于 Llama-3b 模型的开源文本转语音系统,旨在提供更加自然的人类语音合成。它具备较强的语音克隆能力和情感表达能力,适合各种实时应用场景。该产品是免费的,旨在为开发者和研究者提供便捷的语音合成工具。
基于大模型 RAG 知识库的知识图谱问答系统,支持多种大模型适配和本地部署。
语析Yuxi-Know 是一个基于大模型 RAG 知识库的知识图谱问答系统,采用 Llamaindex + VueJS + Flask + Neo4j 构建。它支持 OpenAI、国内主流大模型平台的模型调用以及本地 vllm 部署,能够实现知识库问答、知识图谱检索和联网检索等功能。该系统的主要优点是灵活适配多种模型、支持多种知识库格式以及强大的知识图谱集成能力。它适用于需要高效知识管理和智能问答的企业和研究机构,具有较高的技术先进性和实用性。
AI Mode 是谷歌搜索中的一项实验性生成式 AI 功能,可帮助用户解决复杂问题。
AI Mode 是谷歌搜索中的一项实验性功能,基于 Gemini 2.0 模型开发。它通过高级推理和多模态能力,为用户提供更深入、更全面的搜索结果。该功能旨在帮助用户更高效地处理复杂的多部分问题,并通过实时数据和知识图谱提供高质量的响应。AI Mode 的推出体现了谷歌在提升搜索体验方面的持续创新,同时也展示了生成式 AI 在信息检索中的应用潜力。
为Firefox浏览器翻译功能优化的CPU加速神经机器翻译模型。
Firefox Translations Models 是由Mozilla开发的一组CPU优化的神经机器翻译模型,专为Firefox浏览器的翻译功能设计。该模型通过高效的CPU加速技术,提供快速且准确的翻译服务,支持多种语言对。其主要优点包括高性能、低延迟和对多种语言的支持。该模型是Firefox浏览器翻译功能的核心技术,为用户提供无缝的网页翻译体验。
基于 Gemini 的 Colab 数据科学助手,可自动生成完整的 Colab 笔记本代码。
Data Science Agent in Colab 是 Google 推出的一款基于 Gemini 的智能工具,旨在简化数据科学工作流程。它通过自然语言描述自动生成完整的 Colab 笔记本代码,涵盖数据导入、分析和可视化等任务。该工具的主要优点是节省时间、提高效率,并且生成的代码可修改和共享。它面向数据科学家、研究人员和开发者,尤其是那些希望快速从数据中获取洞察的用户。目前该工具免费提供给符合条件的用户。
3FS是一个高性能分布式文件系统,专为AI训练和推理工作负载设计。
3FS是一个专为AI训练和推理工作负载设计的高性能分布式文件系统。它利用现代SSD和RDMA网络,提供共享存储层,简化分布式应用开发。其核心优势在于高性能、强一致性和对多种工作负载的支持,能够显著提升AI开发和部署的效率。该系统适用于大规模AI项目,尤其在数据准备、训练和推理阶段表现出色。
提供全球最便宜的GPU云服务,助力自托管AI/ML开发。
Thunder Compute是一个专注于AI/ML开发的GPU云服务平台,通过虚拟化技术,帮助用户以极低的成本使用高性能GPU资源。其主要优点是价格低廉,相比传统云服务提供商可节省高达80%的成本。该平台支持多种主流GPU型号,如NVIDIA Tesla T4、A100等,并提供7+ Gbps的网络连接,确保数据传输的高效性。Thunder Compute的目标是为AI开发者和企业降低硬件成本,加速模型训练和部署,推动AI技术的普及和应用。
olmOCR是一个用于将PDF线性化以用于LLM数据集训练的工具包。
olmOCR是由Allen Institute for Artificial Intelligence (AI2)开发的一个开源工具包,旨在将PDF文档线性化,以便用于大型语言模型(LLM)的训练。该工具包通过将PDF文档转换为适合LLM处理的格式,解决了传统PDF文档结构复杂、难以直接用于模型训练的问题。它支持多种功能,包括自然文本解析、多版本比较、语言过滤和SEO垃圾信息移除等。olmOCR的主要优点是能够高效处理大量PDF文档,并通过优化的提示策略和模型微调,提高文本解析的准确性和效率。该工具包适用于需要处理大量PDF数据的研究人员和开发者,尤其是在自然语言处理和机器学习领域。
TensorPool 是一个简化机器学习模型训练的云 GPU 平台。
TensorPool 是一个专注于简化机器学习模型训练的云 GPU 平台。它通过提供一个直观的命令行界面(CLI),帮助用户轻松描述任务并自动处理 GPU 的编排和执行。TensorPool 的核心技术包括智能的 Spot 节点恢复技术,能够在抢占式实例被中断时立即恢复作业,从而结合了抢占式实例的成本优势和按需实例的可靠性。此外,TensorPool 还通过实时多云分析选择最便宜的 GPU 选项,用户只需为实际执行时间付费,无需担心闲置机器带来的额外成本。TensorPool 的目标是让开发者无需花费大量时间配置云提供商,从而提高机器学习工程的速度和效率。它提供个人计划和企业计划,个人计划每周提供 $5 的免费信用额度,而企业计划则提供更高级的支持和功能。
Graphiti 是一个用于构建和查询动态时序知识图谱的工具,支持多种数据源和复杂关系的演变。
Graphiti 是一个专注于构建动态时序知识图谱的技术模型,旨在处理不断变化的信息和复杂的关系演变。它通过结合语义搜索和图算法,支持从非结构化文本和结构化 JSON 数据中提取知识,并能够进行时间点查询。Graphiti 是 Zep 内存层的核心技术,支持长期记忆和基于状态的推理,适用于需要动态数据处理和复杂任务自动化的应用场景,如销售、客户服务、健康、金融等领域。
从任何文本中提取知识图谱的人工智能工具。
kg-gen 是一个基于人工智能的工具,能够从普通文本中提取知识图谱。它支持处理小到单句话、大到长篇文档的文本输入,并且可以处理对话格式的消息。该工具利用先进的语言模型和结构化输出技术,能够帮助用户快速构建知识图谱,适用于自然语言处理、知识管理以及模型训练等领域。kg-gen 提供了灵活的接口和多种功能,旨在简化知识图谱的生成过程,提高效率。
一个专注于超大规模系统设计和优化的工具,提供高效解决方案。
The Ultra-Scale Playbook 是一个基于 Hugging Face Spaces 提供的模型工具,专注于超大规模系统的优化和设计。它利用先进的技术框架,帮助开发者和企业高效地构建和管理大规模系统。该工具的主要优点包括高度的可扩展性、优化的性能和易于集成的特性。它适用于需要处理复杂数据和大规模计算任务的场景,如人工智能、机器学习和大数据处理。产品目前以开源的形式提供,适合各种规模的企业和开发者使用。
KET-RAG 是一个结合知识图谱的检索增强型生成框架,用于高效文档索引和答案生成。
KET-RAG(Knowledge-Enhanced Text Retrieval Augmented Generation)是一个强大的检索增强型生成框架,结合了知识图谱技术。它通过多粒度索引框架(如知识图谱骨架和文本-关键词二分图)实现高效的知识检索和生成。该框架在降低索引成本的同时,显著提升了检索和生成质量,适用于大规模 RAG 应用场景。KET-RAG 基于 Python 开发,支持灵活的配置和扩展,适用于需要高效知识检索和生成的开发人员和研究人员。
VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。
VideoRAG 是一种创新的检索增强型生成框架,专门用于理解和处理极长上下文视频。它通过结合图驱动的文本知识锚定和层次化多模态上下文编码,实现了对无限制长度视频的理解。该框架能够动态构建知识图谱,保持多视频上下文的语义连贯性,并通过自适应多模态融合机制优化检索效率。VideoRAG 的主要优点包括高效的极长上下文视频处理能力、结构化的视频知识索引以及多模态检索能力,使其能够为复杂查询提供全面的回答。该框架在长视频理解领域具有重要的技术价值和应用前景。
Heron的AI技术可自动化处理文档密集型工作,提升工作效率。
Heron是一款专注于自动化文档处理的生产力工具。它通过先进的AI技术,能够快速接收、分类、解析和同步文档数据,直接将结构化数据同步到用户的CRM系统中。Heron的主要优点包括高效的数据处理能力、强大的机器学习支持以及与现有业务流程的无缝集成。该产品主要面向需要处理大量文档的中小企业融资、法律、保险等行业,旨在帮助用户节省时间、降低成本并提高决策效率。Heron的定价策略灵活,具体价格根据客户需求定制,适合希望通过技术提升工作效率的企业。
Data Commons 是一个由 Google 发起的公共数据整合与分析平台,致力于简化全球公共数据的探索过程。
Data Commons 是一个强大的公共数据平台,旨在通过整合全球公共数据,提供统一的知识图谱,帮助用户轻松探索和分析数据。它由 Google 发起,支持多种数据源的整合,并提供丰富的可视化工具和 API 接口,方便用户进行数据探索和研究。Data Commons 的主要优点是数据的标准化和统一化,用户可以通过其强大的工具快速获取和分析数据,无需复杂的预处理。此外,它还支持社区贡献,用户可以分享自己的分析和见解,共同推动数据科学的发展。Data Commons 适用于研究人员、数据分析师、政策制定者以及任何需要公共数据支持决策的群体,其免费的访问模式降低了数据使用的门槛,促进了数据的广泛传播和应用。
© 2025 AIbase 备案号:闽ICP备08105208号-14