需求人群:
"目标受众为需要进行AI工作负载处理、数据流管理、目标检测、语音和推荐处理的企业和研究机构。SiFive Intelligence XM系列的高效能和高扩展性使其成为这些应用的理想选择。"
使用场景示例:
用于处理大规模AI模型训练和推理任务。
在数据中心中进行高效的数据流管理和分析。
在边缘计算设备中实现实时目标检测和语音处理。
产品特色:
SiFive Matrix Engine:采用Fat Outer Product设计,与4个X-Cores紧密集成,深度融合向量单元。
4个X-Cores每个簇:每个具有双向量单元,执行所有其他层,例如激活函数,新增指数加速指令。
新的矩阵指令:由标量单元获取,源数据来自向量寄存器,目标为每个矩阵累加器。
1个簇=16 TOPS (INT8), 8 TFLOPS (BF16) 每个GHz。
每个XM系列簇提供1TB/s的持续带宽。
XM簇通过两种方式连接到内存:CHI端口用于一致性内存访问,高带宽端口连接到SRAM以存储模型数据。
主机CPU可以是RISC-V、x86或Arm(或不出现)。
系统可以通过CHI跨多个芯片扩展。
使用教程:
1. 访问SiFive官网并下载SiFive Kernel Library。
2. 根据项目需求选择合适的XM系列配置。
3. 集成XM系列到现有的硬件或软件架构中。
4. 使用开源库加速开发过程。
5. 进行系统测试,确保性能满足预期。
6. 根据需要扩展系统,以适应更大规模的计算需求。
浏览量:9
最新流量情况
月访问量
66.67k
平均访问时长
00:01:04
每次访问页数
2.49
跳出率
37.64%
流量来源
直接访问
38.24%
自然搜索
50.75%
邮件
0.10%
外链引荐
8.36%
社交媒体
2.08%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
7.89%
印度
7.19%
俄罗斯
9.87%
美国
22.56%
高效能AI计算引擎,集成多种计算单元,提供高内存带宽。
SiFive Intelligence XM系列是SiFive推出的高效能AI计算引擎,通过集成标量、向量和矩阵引擎,为计算密集型应用提供极高的性能功耗比。该系列继续SiFive的传统,提供高效的内存带宽,并通过开源SiFive Kernel Library来加速开发时间。
首个无需注意力机制的7B大规模模型
Falcon Mamba是由阿布扎比技术创新研究所(TII)发布的首个无需注意力机制的7B大规模模型。该模型在处理大型序列时,不受序列长度增加导致的计算和存储成本增加的限制,同时保持了与现有最先进模型相当的性能。
高性能AI模型加载器,大幅减少冷启动时间。
Mystic Turbo Registry是一款由Mystic.ai开发的高性能AI模型加载器,采用Rust语言编写,专门针对减少AI模型的冷启动时间进行了优化。它通过提高容器加载效率,显著减少了模型从启动到运行所需的时间,为用户提供了更快的模型响应速度和更高的运行效率。
高性能知识图谱数据库与推理引擎
RDFox 是由牛津大学计算机科学系的三位教授基于数十年知识表示与推理(KRR)研究开发的规则驱动人工智能技术。其独特之处在于:1. 强大的AI推理能力:RDFox 能够像人类一样从数据中创建知识,基于事实进行推理,确保结果的准确性和可解释性。2. 高性能:作为唯一在内存中运行的知识图谱,RDFox 在基准测试中的表现远超其他图技术,能够处理数十亿三元组的复杂数据存储。3. 可扩展部署:RDFox 具有极高的效率和优化的占用空间,可以嵌入边缘和移动设备,作为 AI 应用的大脑独立运行。4. 企业级特性:包括高性能、高可用性、访问控制、可解释性、人类般的推理能力、数据导入和 API 支持等。5. 增量推理:RDFox 的推理功能在数据添加或删除时即时更新,不影响性能,无需重新加载。
领先的LLM服务提供平台
Mooncake是Kimi的服务平台,由Moonshot AI提供,是一个领先的大型语言模型(LLM)服务。它采用了以KVCache为中心的解耦架构,通过分离预填充(prefill)和解码(decoding)集群,以及利用GPU集群中未充分利用的CPU、DRAM和SSD资源来实现KVCache的解耦缓存。Mooncake的核心是其KVCache中心调度器,它在确保满足延迟相关的服务级别目标(SLOs)要求的同时,平衡最大化整体有效吞吐量。与传统研究不同,Mooncake面对的是高度过载的场景,为此开发了基于预测的早期拒绝策略。实验表明,Mooncake在长上下文场景中表现出色,与基线方法相比,在某些模拟场景中吞吐量可提高525%,同时遵守SLOs。在实际工作负载下,Mooncake的创新架构使Kimi能够处理75%以上的请求。
下一代开源AI模型,性能卓越。
Gemma 2是谷歌DeepMind推出的下一代开源AI模型,提供9亿和27亿参数版本,具有卓越的性能和推理效率,支持在不同硬件上以全精度高效运行,大幅降低部署成本。Gemma 2在27亿参数版本中,提供了两倍于其大小模型的竞争力,并且可以在单个NVIDIA H100 Tensor Core GPU或TPU主机上实现,显著降低部署成本。
极速、便捷的匿名在线即时聊天室
AQChatServer是一个接入AI的极速、便捷的匿名在线即时聊天室,基于Netty和protobuf协议实现高性能,对标游戏后端开发,全程无需HTTP协议,支持文本、图片、文件、音频、视频的发送和接收。
端侧可用的GPT-4V级多模态大模型
MiniCPM-Llama3-V 2.5 是 OpenBMB 项目中最新发布的端侧多模态大模型,具备8B参数量,支持超过30种语言的多模态交互,并在多模态综合性能上超越了多个商用闭源模型。该模型通过模型量化、CPU、NPU、编译优化等技术实现了高效的终端设备部署,具有优秀的OCR能力、可信行为以及多语言支持等特点。
AI图片生成式开发者平台
fal.ai 是一款面向开发者的生成媒体平台,提供了业界最快的推理引擎,可以让您以更低的成本运行扩散模型,创造出全新的用户体验。它拥有实时、无缝的 WebSocket 推理基础设施,为开发者带来了卓越的使用体验。fal.ai 的定价方案根据实际使用情况灵活调整,确保您只为消耗的计算资源付费,实现了最佳的可扩展性和经济性。
以低成本实现高性能的大型语言模型
JetMoE-8B是一个开源的大型语言模型,通过使用公共数据集和优化的训练方法,以低于10万美元的成本实现了超越Meta AI LLaMA2-7B的性能。该模型在推理时仅激活22亿参数,大幅降低了计算成本,同时保持了优异的性能。
突破性SSM-Transformer开放模型
Jamba是一款基于SSM-Transformer混合架构的开放语言模型,提供顶级的质量和性能表现。它融合了Transformer和SSM架构的优势,在推理基准测试中表现出色,同时在长上下文场景下提供3倍的吞吐量提升。Jamba是目前该规模下唯一可在单GPU上支持14万字符上下文的模型,成本效益极高。作为基础模型,Jamba旨在供开发者微调、训练并构建定制化解决方案。
多语言高质量文本转语音库
MeloTTS是由MyShell.ai开发的多语言文本转语音库,支持英语、西班牙语、法语、中文、日语和韩语。它能够实现实时CPU推理,适用于多种场景,并且对开源社区开放,欢迎贡献。
高性能、低成本的端到端chat-ruanyifeng向量搜索服务
Aha Vector Search是一个高性能、低成本的端到端向量搜索服务。它提供了一种快速构建端到端向量搜索的方法,帮助用户以更低的成本实现高效的搜索体验。
减少计算并提高模型准确性,轻松高效地构建您的 AI 模型
CentML 是一个高效、节约成本的 AI 模型训练和部署平台。通过使用 CentML,您可以提升 GPU 效率、降低延迟、提高吞吐量,实现计算的高性价比和强大性能。
稳定可靠的开源Web服务器
Apache HTTP Server是一个稳定可靠的开源Web服务器,具有高度可配置性和可扩展性。它支持多种操作系统和编程语言,提供了强大的功能和性能。Apache HTTP Server被广泛用于构建和托管网站,是Web开发的首选工具。它采用了模块化的架构,可以轻松地进行功能扩展和定制。Apache HTTP Server是免费的,适用于个人和商业用途。
© 2024 AIbase 备案号:闽ICP备08105208号-14