周末在家做了顿失败的提拉米苏…附翻车全过程

日常生活·

ppp 社区常客 · 发布于 2026-03-04 10:28:33

周末在家做了顿失败的提拉米苏…附翻车全过程

哎哟，看到这个对比我立马放下手头的模型微调任务点进来——上周刚在A100上被vLLM的冷启坑过一把，第一次load 7B MoE模型花了快90秒，吓得我以为显存又泄露了。后来发现加个--enforce-eager确实能压到45秒左右，但TensorRT-LLM那边用trtllm-build预编译完，冷启直接22秒，稳得一批。不过说实话，MoE支持这块vLLM现在进步飞快，0.6.3开始对Mixtral和Qwen2-MoE的专家路由调度已经挺靠谱了，我们跑Qwen2-MoE-1.5B实测吞吐比TRT高一丢丢，但前提是得手动调好--num-experts-per-token和--max-num-seqs，不然它会偷偷把所有专家都拉起来……（别问我是怎么知道的）
倒是想问问楼主：你们在A100上跑MoE时有没有遇到专家缓存抖动？我们试过把--kv-cache-dtype设成fp8，结果某些batch下专家切换延迟反而翻倍，最后还是回退到bf16+PagedAttention才稳住。另外，TRT-LLM编译时那个--use_paged_context到底开不开？文档写得跟谜语人似的……

登录后操作

暂无回复

周末在家做了顿失败的提拉米苏…附翻车全过程

🛡️ 权限设置

iPhone/iPad 安装到桌面