需求人群:
"T-MAC主要面向需要在CPU上进行大型语言模型推理的开发者和企业,特别是那些寻求在边缘设备上实现实时或近实时推理性能的应用场景。它适用于需要优化能耗和计算资源的场合,如移动设备、嵌入式系统或任何资源受限的环境。"
使用场景示例:
在Surface Laptop 7上使用T-MAC进行3B BitNet模型的推理,实现了显著的速度提升。
在Snapdragon X Elite芯片上,通过T-MAC实现了与NPU相当的性能,同时减少了模型大小。
在Jetson AGX Orin上,T-MAC与CUDA GPU相比,在特定任务上展示了能耗优势。
产品特色:
支持1/2/3/4位量化的Llama模型在GPTQ格式下的推理。
在最新的Snapdragon X Elite芯片上,T-MAC的令牌生成速度甚至超过了NPU。
原生支持Windows ARM上的部署,T-MAC在Surface Laptop 7上展示了显著的5倍速度提升。
通过使用查找表,T-MAC显著减少了CPU核心的使用,同时降低了功耗和能耗。
与NPU相比,在Snapdragon X Elite芯片上,T-MAC的CPU性能优于高通骁龙神经处理引擎(NPE)。
与CUDA GPU相比,在Jetson AGX Orin上,T-MAC的2位mpGEMM性能与CUDA GPU相当。
使用教程:
安装Python环境,确保版本为3.8以满足TVM的要求。
根据操作系统的不同,安装cmake>=3.22和其他依赖项。
在虚拟环境中使用pip安装T-MAC,并激活相应的环境变量。
使用提供的工具脚本进行端到端推理,或与llama.cpp集成进行特定任务的推理。
根据需要调整参数,如使用-fa开启快速聚合以获得额外的速度提升。
浏览量:17
最新流量情况
月访问量
4.91m
平均访问时长
00:06:18
每次访问页数
5.57
跳出率
37.92%
流量来源
直接访问
51.73%
自然搜索
32.88%
邮件
0.04%
外链引荐
13.01%
社交媒体
2.27%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
13.81%
德国
3.69%
印度
9.16%
俄罗斯
4.47%
美国
18.04%
低比特大型语言模型在CPU上的推理加速
T-MAC是一个内核库,通过使用查找表直接支持混合精度矩阵乘法,无需去量化操作,旨在加速CPU上的低比特大型语言模型推理。它支持多种低比特模型,包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16以及OSX/Linux/Windows上的ARM/Intel CPU的BitNet W1(.58)A8。T-MAC在Surface Laptop 7上实现了3B BitNet的令牌生成吞吐量,单核每秒20个,四核每秒48个,比现有最先进的CPU低比特框架(llama.cpp)快4~5倍。
© 2024 AIbase 备案号:闽ICP备08105208号-14