Leo Pang - Dr. Pang 史丹福机器人庞博士 (Page 4)

英伟达的GPU本地运行大模型NVIDIA RTX Chat

在这个快速指南中，我将向你展示Nvidia的一款全新软件——RTX聊天。你会在下面的描述中找到这个链接。我会向你展示如何安装它，当然，也会告诉你如何使用它。它到底是什么呢？嗯，你可能之前已经使用过像ChatGPT、Gemini等聊天模型，但这个是运行在你的PC上的。这是Nvidia自己的一个演示，使用当前非常火的模型，给你提供了一个你可以互动的聊天界面。当然，这个东西也可以与你的文档互动，所以你可以对文件夹中的一堆文档提出问题。 GitHub - NVIDIA/trt-llm-rag-windows：一个为在Windows上使用TensorRT-LLM创建检索增强生成(RAG)聊天机器人的开发者参考项目... 安装和开始使用都很简单，但有一些要求。在这个页面上，你可以点击“系统要求”，向下滚动，你会看到你需要： Windows 16GB或更多的RAM Windows 11驱动535或更高版本一个RTX 30或40系列显卡，或者RTX安培或带至少8GB VRAM的一代显卡但对于大多数拥有较新显卡进行游戏等活动的人来说，你可能能够满足这个要求。请记住，如果你想使用一个

什么是1位大语言模型(LLMs)? BitNet b1.58时代的1位LLMs

在人工智能界，最新加入的是1位大语言模型(LLMs)。你可能难以置信，但这能改变很多事情，并有望解决LLMs面临的一些主要挑战，特别是它们庞大的体积问题。通常（不总是），不管是LLMs还是逻辑回归，机器学习模型的权重通常存储为32位或16位浮点数。这就是我们无法在个人电脑和生产环境中使用GPT或其他大型模型的原因，因为这些模型由于高精度权重而体积巨大。比如，假设我们有一个名为“MehulGPT”的LLM，它有70亿参数（类似于Mistral或Llama-7B），使用32位精度（每个4字节）。该模型将占用总内存 = 单个权重大小 * 权重数总内存 = 4字节 * 70亿总内存 = 280亿字节换算成千兆字节（GB）：总内存 = 280亿字节 / 1024³字节每GB 总内存 ≈ 26.09 GB 这个体积非常大，导致许多设备，包括手机，因为没有足够的存储或处理能力而无法使用它。那么如何让小型设备和手机也能使用LLMs呢？ 1位LLMs 在1位大语言模型中，与传统LLMs的32/16位不同，权重参数只用1位（

在苹果硅片的电脑本地运行大模型的性能

lama.cpp允许你在自己的电脑上运行大型语言模型（LLM）。影响性能的关键因素包括CPU、GPU、RAM的大小与速度，以及所用的模型。这里是一个概览，帮助你决定应该选择哪种电脑和量化方式。特别强调这里说的是苹果硅片机Apple Silicon，因为它们支持大容量和高速度的RAM。 Georgi的创新使我们能够通过llama.cpp在本地运行LLM，并且功能不断增加。模型量化也很关键，因为它减小了存储需求。现在，我们可以使用多种技能和量化格式的LLM，例如在huggingface/theBloke上（请注意，要运行llama.cpp需要GGUF模型格式）。Georgi最近还开始了一个仅针对苹果硅片的性能统计比较，提供数据帮助我们在硬件选择和量化效果上做出决策。以下是我的一些主要观点，这些观点通过我的本地实验得到增强。 LLM的“回答”性能（为单个用户生成令牌）主要取决于： a) 可用的RAM需大于模型的内存需求 — 参见huggingface上的模型说明。在GPU上运行通常比在CPU上快得多，但具体快多少则取决于GPU和CPU的性能。 llama.cpp允许模型在GPU或仅CP