Dr. Pang 史丹福机器人庞博士
  • 主页
  • AI和大模型课程
  • ChatGPT
  • 智能体
  • AI照相
  • 简介
Sign in Subscribe

Leo Pang

在苹果硅片的电脑本地运行大模型的性能

在苹果硅片的电脑本地运行大模型的性能

lama.cpp允许你在自己的电脑上运行大型语言模型(LLM)。影响性能的关键因素包括CPU、GPU、RAM的大小与速度,以及所用的模型。这里是一个概览,帮助你决定应该选择哪种电脑和量化方式。特别强调这里说的是苹果硅片机Apple Silicon,因为它们支持大容量和高速度的RAM。 Georgi的创新使我们能够通过llama.cpp在本地运行LLM,并且功能不断增加。模型量化也很关键,因为它减小了存储需求。现在,我们可以使用多种技能和量化格式的LLM,例如在huggingface/theBloke上(请注意,要运行llama.cpp需要GGUF模型格式)。Georgi最近还开始了一个仅针对苹果硅片的性能统计比较,提供数据帮助我们在硬件选择和量化效果上做出决策。以下是我的一些主要观点,这些观点通过我的本地实验得到增强。 LLM的“回答”性能(为单个用户生成令牌)主要取决于: a) 可用的RAM需大于模型的内存需求 — 参见huggingface上的模型说明。 在GPU上运行通常比在CPU上快得多,但具体快多少则取决于GPU和CPU的性能。 llama.cpp允许模型在GPU或仅CP

By Leo Pang 09 Mar 2024
See all
Dr. Pang 史丹福机器人庞博士
  • Sign up
Powered by Ghost

Dr. Pang 史丹福机器人庞博士

斯坦福庞博士为你带来硅谷最新科技,尤其是机器人、AI和大模型的最新进展、知识、课程、实战应用,使用技巧等。输入你的邮箱免费订阅: