PowerInfer

PowerInfer 是一个在个人电脑上利用消费级 GPU 进行高速大型语言模型推理的引擎。它利用 LLM 推理中的高局部性特点,通过预加载热激活的神经元到 GPU 上,从而显著降低了 GPU 内存需求和 CPU-GPU 数据传输。PowerInfer 还集成了自适应预测器和神经元感知的稀疏运算符,优化神经元激活和计算稀疏性的效率。它可以在单个 NVIDIA RTX 4090 GPU 上以平均每秒 13.20 个标记的生成速率进行推理,比顶级服务器级 A100 GPU 仅低 18%。同时保持模型准确性。

需求人群:

"PowerInfer 适用于在本地部署大型语言模型的高速推理。"

产品特色:

利用稀疏激活和 “热”/“冷” 神经元概念进行高效的 LLM 推理

无缝集成 CPU 和 GPU 的内存 / 计算能力,实现负载均衡和更快的处理速度

与常见的 ReLU 稀疏模型兼容

设计和深度优化用于本地部署在消费级硬件上,实现低延迟的 LLM 推理和服务

向后兼容性,支持与 llama.cpp 相同的模型权重进行推理,但不会有性能提升

浏览量:250

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

5.16m

平均访问时长

00:06:42

每次访问页数

5.81

跳出率

37.20%

流量来源

直接访问

52.27%

自然搜索

32.92%

邮件

0.05%

外链引荐

12.52%

社交媒体

2.15%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

11.99%

德国

3.63%

印度

9.20%

俄罗斯

5.25%

美国

19.02%

类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图