如何用 Python 快速搭建本地 LLM 对话界面?
上周五晚上十一点,我对着黑乎乎的终端发呆,手边一杯冷透的茉莉花茶,心里骂自己:又双叒想本地跑个LLM聊天界面,结果卡在模型加载上两小时。说真的,现在开源模型多得像菜市场打折白菜,但真要搭个能点开就聊的本地界面,光看文档能看吐。
试过 Ollama,装完 ollama run llama3 是挺快,但默认没 Web UI,硬塞个 --host 0.0.0.0 又怕被隔壁工位扫到端口——咱不是搞生产环境,就是想蹲沙发上问它“今晚吃啥”,犯不着配 TLS。后来翻到 text-generation-webui,好家伙,Python 环境一配,pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121,结果 CUDA 版本对不上,直接报错 CUDA error: no kernel image is available for execution on the device。这事儿挺神奇,显卡明明是 3090,驱动也更新了,最后发现是 PyTorch 官网下载页里那个“cu121”链接根本不是给 3090 准备的,得切回 cu118。
折腾完环境,我盯上了更轻量的方案:llama-cpp-python + gradio。一行命令搞定核心依赖:
pip install llama-cpp-python gradio --no-cache-dir
然后写了个 50 行的 app.py,重点就三块:加载 .gguf 模型(我用的是 Phi-3-mini-4k-instruct.Q4_K_M.gguf,4GB 内存稳稳吃下),定义 chat 函数带 history,最后 gradio.ChatInterface(chat).launch(server_name="127.0.0.1", server_port=7860)。启动后浏览器打开 http://127.0.0.1:7860,输入“你好”,它真回了“你好!有什么我可以帮你的吗...
有个坑必须说:.gguf 文件路径千万别用中文或空格,我放桌面时路径是 /Users/老张/Downloads/我的模型/xxx.gguf,死活打不开,改成 /tmp/phi3-q4.gguf 立刻通了。还有,第一次运行会编译 llama.cpp 的 C++ 扩展,等三分钟别慌,看到 llama_model_load_internal: loading model part 1/1 就快成了。
现在我把它做成 alias:alias llm='cd ~/llm && python app.py',下班回家敲完 llm,倒杯水回来界面就蹦出来了。不用联网、不传数据、不等 API 响应——这才是本地 LLM 的体面。
你们都用什么模型做本地对话?Qwen2-1.5B 还是 Gemma-2-2B?求推荐个真正适合 16G 笔记本跑的,别再让我为显存掉头发了。


