英伟达的GPU本地运行大模型NVIDIA RTX Chat

在这个快速指南中,我将向你展示Nvidia的一款全新软件——RTX聊天。你会在下面的描述中找到这个链接。我会向你展示如何安装它,当然,也会告诉你如何使用它。
它到底是什么呢?嗯,你可能之前已经使用过像ChatGPT、Gemini等聊天模型,但这个是运行在你的PC上的。这是Nvidia自己的一个演示,使用当前非常火的模型,给你提供了一个你可以互动的聊天界面。当然,这个东西也可以与你的文档互动,所以你可以对文件夹中的一堆文档提出问题。
GitHub - NVIDIA/trt-llm-rag-windows:一个为在Windows上使用TensorRT-LLM创建检索增强生成(RAG)聊天机器人的开发者参考项目...
安装和开始使用都很简单,但有一些要求。在这个页面上,你可以点击“系统要求”,向下滚动,你会看到你需要:
Windows
16GB或更多的RAM
Windows 11驱动535或更高版本
一个RTX 30或40系列显卡,或者RTX安培或带至少8GB VRAM的一代显卡
但对于大多数拥有较新显卡进行游戏等活动的人来说,你可能能够满足这个要求。
请记住,如果你想使用一个可以在你的PC上托管的AI聊天机器人进行聊天,即使没有显卡,只使用你的CPU和RAM,也完全可以免费做到。更不用说,你还可以使用旧的显卡,只要你有足够的RAM。
无论如何,那是另一个视频的内容,或者当然,你会在下面找到的链接中找到。这个专注于RTX聊天。
为了下载并安装它,前往下面描述中的页面,选择“立即下载”。你会下载一个大约35GB的巨大zip文件。当这个巨大的zip文件下载完成后,提取其中的文件夹,当然,删除实际的zip本身以节省大量空间。
完成后,打开文件夹,我们这里有“设置”。简单地打开它,你可以像安装任何其他Nvidia软件一样安装它。你需要安装RTX聊天,你也可以选择安装Mile 7B形式。这是我们可以使用的模型之一。我建议你保留这个选择,因为它是一个非常好的模型。我们将选择下一步,选择安装位置。现在你可以选择它的安装位置。对我来说,我觉得这里挺好,下一步,我们等待它安装。
安装完成后可能需要相当长的时间,到目前为止,这个过程大约花了我40分钟,我将能够启动它并点击关闭。太棒了!现在程序将启动。当然,你可以删除你下载的文件夹以节省额外的空间,并等待它启动。这将开始下载最后一点点的内容,在另外大约3GB的下载后,它将准备一切并最终启动。那是,当然,除非你遇到某种灾难性的错误。对我来说,第一次运行时我遇到了一些奇怪的CUDA错误,重启应用没有帮助。我不得不重启我的整个PC,但当我这样做时,我能够启动程序,现在你可以看到它应该正常工作了。
所以,如果我们在终端这里控制点击这个,否则你可以通过拖动选择它,右键复制,然后我们可以在浏览器中打开它。一旦打开,你会看到像这样的东西。我们可以选择一个AI模型,当前这里只有Mistal。我在某处看到了Llama 2,不确定为什么这里没有包括,但无论如何,让我们快速了解这个东西能做什么。
在我们选择了模型和数据集文件夹后,我们可以向它询问一些关于这个数据集的问题。如果我打开这个,你会看到这里有一堆关于Nvidia不同事物的文本文档。我们可以提出任何问题,比如这里的一些提示,它会很快使用我们系统上的显卡给出回应。现在,我正在运行一个3080 Ti,它似乎相当快。所以,它会打出来。