英伟达的GPU本地运行大模型NVIDIA RTX Chat

英伟达的GPU本地运行大模型NVIDIA RTX Chat

在这个快速指南中,我将向你展示Nvidia的一款全新软件——RTX聊天。你会在下面的描述中找到这个链接。我会向你展示如何安装它,当然,也会告诉你如何使用它。 它到底是什么呢?嗯,你可能之前已经使用过像ChatGPT、Gemini等聊天模型,但这个是运行在你的PC上的。这是Nvidia自己的一个演示,使用当前非常火的模型,给你提供了一个你可以互动的聊天界面。当然,这个东西也可以与你的文档互动,所以你可以对文件夹中的一堆文档提出问题。 GitHub - NVIDIA/trt-llm-rag-windows:一个为在Windows上使用TensorRT-LLM创建检索增强生成(RAG)聊天机器人的开发者参考项目... 安装和开始使用都很简单,但有一些要求。在这个页面上,你可以点击“系统要求”,向下滚动,你会看到你需要: Windows 16GB或更多的RAM Windows 11驱动535或更高版本 一个RTX 30或40系列显卡,或者RTX安培或带至少8GB VRAM的一代显卡 但对于大多数拥有较新显卡进行游戏等活动的人来说,你可能能够满足这个要求。 请记住,如果你想使用一个

By Leo Pang
什么是1位大语言模型(LLMs)? BitNet b1.58时代的1位LLMs

什么是1位大语言模型(LLMs)? BitNet b1.58时代的1位LLMs

在人工智能界,最新加入的是1位大语言模型(LLMs)。你可能难以置信,但这能改变很多事情,并有望解决LLMs面临的一些主要挑战,特别是它们庞大的体积问题。 通常(不总是),不管是LLMs还是逻辑回归,机器学习模型的权重通常存储为32位或16位浮点数。这就是我们无法在个人电脑和生产环境中使用GPT或其他大型模型的原因,因为这些模型由于高精度权重而体积巨大。比如,假设我们有一个名为“MehulGPT”的LLM,它有70亿参数(类似于Mistral或Llama-7B),使用32位精度(每个4字节)。该模型将占用 总内存 = 单个权重大小 * 权重数 总内存 = 4字节 * 70亿 总内存 = 280亿字节 换算成千兆字节(GB): 总内存 = 280亿字节 / 1024³字节每GB 总内存 ≈ 26.09 GB 这个体积非常大,导致许多设备,包括手机,因为没有足够的存储或处理能力而无法使用它。 那么如何让小型设备和手机也能使用LLMs呢? 1位LLMs 在1位大语言模型中,与传统LLMs的32/16位不同,权重参数只用1位(

By Leo Pang
在苹果硅片的电脑本地运行大模型的性能

在苹果硅片的电脑本地运行大模型的性能

lama.cpp允许你在自己的电脑上运行大型语言模型(LLM)。影响性能的关键因素包括CPU、GPU、RAM的大小与速度,以及所用的模型。这里是一个概览,帮助你决定应该选择哪种电脑和量化方式。特别强调这里说的是苹果硅片机Apple Silicon,因为它们支持大容量和高速度的RAM。 Georgi的创新使我们能够通过llama.cpp在本地运行LLM,并且功能不断增加。模型量化也很关键,因为它减小了存储需求。现在,我们可以使用多种技能和量化格式的LLM,例如在huggingface/theBloke上(请注意,要运行llama.cpp需要GGUF模型格式)。Georgi最近还开始了一个仅针对苹果硅片的性能统计比较,提供数据帮助我们在硬件选择和量化效果上做出决策。以下是我的一些主要观点,这些观点通过我的本地实验得到增强。 LLM的“回答”性能(为单个用户生成令牌)主要取决于: a) 可用的RAM需大于模型的内存需求 — 参见huggingface上的模型说明。 在GPU上运行通常比在CPU上快得多,但具体快多少则取决于GPU和CPU的性能。 llama.cpp允许模型在GPU或仅CP

By Leo Pang