英伟达的GPU本地运行大模型NVIDIA RTX Chat

在这个快速指南中，我将向你展示Nvidia的一款全新软件——RTX聊天。你会在下面的描述中找到这个链接。我会向你展示如何安装它，当然，也会告诉你如何使用它。
它到底是什么呢？嗯，你可能之前已经使用过像ChatGPT、Gemini等聊天模型，但这个是运行在你的PC上的。这是Nvidia自己的一个演示，使用当前非常火的模型，给你提供了一个你可以互动的聊天界面。当然，这个东西也可以与你的文档互动，所以你可以对文件夹中的一堆文档提出问题。

GitHub - NVIDIA/trt-llm-rag-windows：一个为在Windows上使用TensorRT-LLM创建检索增强生成(RAG)聊天机器人的开发者参考项目...

安装和开始使用都很简单，但有一些要求。在这个页面上，你可以点击“系统要求”，向下滚动，你会看到你需要：
Windows
16GB或更多的RAM
Windows 11驱动535或更高版本
一个RTX 30或40系列显卡，或者RTX安培或带至少8GB VRAM的一代显卡
但对于大多数拥有较新显卡进行游戏等活动的人来说，你可能能够满足这个要求。

请记住，如果你想使用一个可以在你的PC上托管的AI聊天机器人进行聊天，即使没有显卡，只使用你的CPU和RAM，也完全可以免费做到。更不用说，你还可以使用旧的显卡，只要你有足够的RAM。
无论如何，那是另一个视频的内容，或者当然，你会在下面找到的链接中找到。这个专注于RTX聊天。
为了下载并安装它，前往下面描述中的页面，选择“立即下载”。你会下载一个大约35GB的巨大zip文件。当这个巨大的zip文件下载完成后，提取其中的文件夹，当然，删除实际的zip本身以节省大量空间。
完成后，打开文件夹，我们这里有“设置”。简单地打开它，你可以像安装任何其他Nvidia软件一样安装它。你需要安装RTX聊天，你也可以选择安装Mile 7B形式。这是我们可以使用的模型之一。我建议你保留这个选择，因为它是一个非常好的模型。我们将选择下一步，选择安装位置。现在你可以选择它的安装位置。对我来说，我觉得这里挺好，下一步，我们等待它安装。
安装完成后可能需要相当长的时间，到目前为止，这个过程大约花了我40分钟，我将能够启动它并点击关闭。太棒了！现在程序将启动。当然，你可以删除你下载的文件夹以节省额外的空间，并等待它启动。这将开始下载最后一点点的内容，在另外大约3GB的下载后，它将准备一切并最终启动。那是，当然，除非你遇到某种灾难性的错误。对我来说，第一次运行时我遇到了一些奇怪的CUDA错误，重启应用没有帮助。我不得不重启我的整个PC，但当我这样做时，我能够启动程序，现在你可以看到它应该正常工作了。
所以，如果我们在终端这里控制点击这个，否则你可以通过拖动选择它，右键复制，然后我们可以在浏览器中打开它。一旦打开，你会看到像这样的东西。我们可以选择一个AI模型，当前这里只有Mistal。我在某处看到了Llama 2，不确定为什么这里没有包括，但无论如何，让我们快速了解这个东西能做什么。
在我们选择了模型和数据集文件夹后，我们可以向它询问一些关于这个数据集的问题。如果我打开这个，你会看到这里有一堆关于Nvidia不同事物的文本文档。我们可以提出任何问题，比如这里的一些提示，它会很快使用我们系统上的显卡给出回应。现在，我正在运行一个3080 Ti，它似乎相当快。所以，它会打出来。

Source：https://medium.com/@jh.baek.sd/nvidias-chat-with-rtx-a-revolutionary-offline-gpt-experience-9dea7bcea9a7

英伟达的GPU本地运行大模型NVIDIA RTX Chat

Read more

Micron Technology (MU) 投资分析报告 2026

AionUI 深度研究：多 Agent 协作桌面工作台

PicoClaw 入门：打造轻量级个人 AI 助手

RAG 之后：LLM Wiki 正在成为个人知识库的新范式