exo

exo是一个实验性的软件项目,旨在利用家中的现有设备,如iPhone、iPad、Android、Mac、Linux等,统一成一个强大的GPU来运行AI模型。它支持多种流行的模型,如LLaMA,并具有动态模型分割功能,能够根据当前网络拓扑和设备资源来最优地分割模型。此外,exo还提供了与ChatGPT兼容的API,使得在应用程序中使用exo运行模型仅需一行代码的更改。

需求人群:

"目标受众为开发者和AI爱好者,他们希望利用家中的现有设备来构建和运行AI模型,无需昂贵的NVIDIA GPU。exo提供了一个实验性的平台,允许用户在多设备环境中探索和实现AI模型的分布式计算。"

使用场景示例:

使用iPhone和iPad构建一个AI集群来处理图像识别任务。

在家中的多台Linux设备上运行自然语言处理模型。

通过Mac和Android设备联合执行复杂的数据分析任务。

产品特色:

支持LLaMA等流行模型。

动态模型分割,根据网络拓扑和设备资源最优分配模型。

自动设备发现,无需手动配置。

提供与ChatGPT兼容的API,简化模型运行流程。

支持多种推理引擎,如MLX、tinygrad、llama.cpp。

支持多种网络模块,包括GRPC、Radio、Bluetooth。

使用教程:

1. 从源代码安装exo:进入exo目录,使用pip安装依赖。

2. 根据文档示例,在多个设备上运行exo。

3. 使用提供的API在应用程序中集成exo,实现模型的运行。

4. 通过访问设备上的8000端口来使用ChatGPT风格的Web界面。

5. 如果需要,可以通过修改代码来访问推理引擎。

6. 监控和参与社区,报告问题并贡献代码。

浏览量:171

打开站点

网站流量情况

最新流量情况

月访问量

4.85m

平均访问时长

00:06:25

每次访问页数

6.08

跳出率

35.86%

流量来源

直接访问

52.62%

自然搜索

32.72%

邮件

0.05%

外链引荐

12.34%

社交媒体

2.17%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

12.55%

德国

3.84%

印度

9.38%

俄罗斯

4.61%

美国

18.64%

类似产品

透明跟踪和触发,细粒度计算与集合的重叠

大型语言模型在训练和推断中越来越依赖于分布式技术。这些技术需要在设备之间进行通信,随着设备数量的增加,这可能会降低扩展效率。虽然一些分布式技术可以重叠,从而隐藏独立计算的通信,但类似张量并行(TP)的技术固有地将通信与模型执行串行化。隐藏这种串行化通信的一种方法是以细粒度的方式将其与生产者操作(通信数据的产生)交错在一起。然而,在软件中实现这种细粒度的通信和计算交错可能很困难。此外,与任何并发执行一样,它需要在计算和通信之间共享计算和内存资源,导致资源争用,从而降低了重叠效率。为了克服这些挑战,我们提出了T3,它应用硬件-软件共同设计,透明地重叠串行通信,同时最小化与计算的资源争用。T3通过简单配置生产者的输出地址空间,透明地融合了生产者操作和随后的通信,需要进行轻微的软件更改。在硬件层面,T3添加了轻量级的跟踪和触发机制,以编排生产者的计算和通信。它进一步利用增强计算的存储器来进行通信的相关计算。因此,T3减少了资源争用,并有效地将串行通信与计算重叠。对于重要的Transformer模型,如T-NLG,T3将通信密集型子层的速度提高了30%的几何平均值(最大47%),并将数据移动减少了22%的几何平均值(最大36%)。此外,随着模型的扩展,T3的好处仍然存在:对于sim500亿参数模型的子层,几何平均值为29%,PALM和MT-NLG。

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图