如何用 Python 快速搭建本地 LLM 对话界面？

人工智能·

ppp 社区常客 · 发布于 2026-03-08 18:16:19

如何用 Python 快速搭建本地 LLM 对话界面？

上周五晚上十一点，我对着黑乎乎的终端发呆，手边一杯冷透的茉莉花茶，心里骂自己：又双叒想本地跑个LLM聊天界面，结果卡在模型加载上两小时。说真的，现在开源模型多得像菜市场打折白菜，但真要搭个能点开就聊的本地界面，光看文档能看吐。

试过 Ollama，装完 ollama run llama3 是挺快，但默认没 Web UI，硬塞个 --host 0.0.0.0 又怕被隔壁工位扫到端口——咱不是搞生产环境，就是想蹲沙发上问它“今晚吃啥”，犯不着配 TLS。后来翻到 text-generation-webui，好家伙，Python 环境一配，pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121，结果 CUDA 版本对不上，直接报错 CUDA error: no kernel image is available for execution on the device。这事儿挺神奇，显卡明明是 3090，驱动也更新了，最后发现是 PyTorch 官网下载页里那个“cu121”链接根本不是给 3090 准备的，得切回 cu118。

折腾完环境，我盯上了更轻量的方案：llama-cpp-python + gradio。一行命令搞定核心依赖：

pip install llama-cpp-python gradio --no-cache-dir

然后写了个 50 行的 app.py，重点就三块：加载 .gguf 模型（我用的是 Phi-3-mini-4k-instruct.Q4_K_M.gguf，4GB 内存稳稳吃下），定义 chat 函数带 history，最后 gradio.ChatInterface(chat).launch(server_name="127.0.0.1", server_port=7860)。启动后浏览器打开 http://127.0.0.1:7860，输入“你好”，它真回了“你好！有什么我可以帮你的吗...

有个坑必须说：.gguf 文件路径千万别用中文或空格，我放桌面时路径是 /Users/老张/Downloads/我的模型/xxx.gguf，死活打不开，改成 /tmp/phi3-q4.gguf 立刻通了。还有，第一次运行会编译 llama.cpp 的 C++ 扩展，等三分钟别慌，看到 llama_model_load_internal: loading model part 1/1 就快成了。

现在我把它做成 alias：alias llm='cd ~/llm && python app.py'，下班回家敲完 llm，倒杯水回来界面就蹦出来了。不用联网、不传数据、不等 API 响应——这才是本地 LLM 的体面。

你们都用什么模型做本地对话？Qwen2-1.5B 还是 Gemma-2-2B？求推荐个真正适合 16G 笔记本跑的，别再让我为显存掉头发了。

上周五晚上十一点，我对着黑乎乎的终端发呆，手边一杯冷透的茉莉花茶，心里骂自己：又双叒想本地跑个LLM聊天界面，结果卡在模型加载上两小时。说真的，现在开源模型多得像菜市场打折白菜，但真要搭个能**点开就聊**的本地界面，光看文档能看吐。

试过 Ollama，装完 `ollama run llama3` 是挺快，但默认没 Web UI，硬塞个 `--host 0.0.0.0` 又怕被隔壁工位扫到端口——咱不是搞生产环境，就是想蹲沙发上问它“今晚吃啥”，犯不着配 TLS。后来翻到 `text-generation-webui`，好家伙，Python 环境一配，`pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121`，结果 CUDA 版本对不上，直接报错 `CUDA error: no kernel image is available for execution on the device`。这事儿挺神奇，显卡明明是 3090，驱动也更新了，最后发现是 PyTorch 官网下载页里那个“cu121”链接根本不是给 3090 准备的，得切回 cu118。

![深夜电脑屏幕蓝光映在眼镜片上，键盘右下角粘着半块融化的巧克力，终端窗口里滚动着红色的 CUDA 错误日志](https://pic2.zhimg.com/v2-4329368960a7523358a769b3feeb9814_r.jpg)

折腾完环境，我盯上了更轻量的方案：`llama-cpp-python` + `gradio`。一行命令搞定核心依赖：

```bash
pip install llama-cpp-python gradio --no-cache-dir
```

然后写了个 50 行的 `app.py`，重点就三块：加载 `.gguf` 模型（我用的是 `Phi-3-mini-4k-instruct.Q4_K_M.gguf`，4GB 内存稳稳吃下），定义 `chat` 函数带 history，最后 `gradio.ChatInterface(chat).launch(server_name="127.0.0.1", server_port=7860)`。启动后浏览器打开 http://127.0.0.1:7860，输入“你好”，它真回了“你好！有什么我可以帮你的吗？”，那一刻我对着屏幕点了三下空格键，像在确认这不是幻觉。

有个坑必须说：`.gguf` 文件路径千万别用中文或空格，我放桌面时路径是 `/Users/老张/Downloads/我的模型/xxx.gguf`，死活打不开，改成 `/tmp/phi3-q4.gguf` 立刻通了。还有，第一次运行会编译 llama.cpp 的 C++ 扩展，等三分钟别慌，看到 `llama_model_load_internal: loading model part 1/1` 就快成了。

![MacBook 触控板上残留着几道浅浅的指甲印，屏幕显示 Gradio 界面左上角有“Phi-3-mini”水印，对话框里刚输入“今天北京天气如何”，光标正在闪烁](https://img.technews.tw/wp-content/uploads/2021/12/10101942/aitlo-y090a.jpg)

现在我把它做成 alias：`alias llm='cd ~/llm && python app.py'`，下班回家敲完 `llm`，倒杯水回来界面就蹦出来了。不用联网、不传数据、不等 API 响应——这才是本地 LLM 的体面。

你们都用什么模型做本地对话？Qwen2-1.5B 还是 Gemma-2-2B？求推荐个真正适合 16G 笔记本跑的，别再让我为显存掉头发了。

登录后操作

暂无回复

如何用 Python 快速搭建本地 LLM 对话界面？

🛡️ 权限设置

iPhone/iPad 安装到桌面