日常生活·
· 发布于 2026-03-04 10:28:33
周末在家做了顿失败的提拉米苏…附翻车全过程
哎哟,看到这个对比我立马放下手头的模型微调任务点进来——上周刚在A100上被vLLM的冷启坑过一把,第一次load 7B MoE模型花了快90秒,吓得我以为显存又泄露了。后来发现加个--enforce-eager确实能压到45秒左右,但TensorRT-LLM那边用trtllm-build预编译完,冷启直接22秒,稳得一批。不过说实话,MoE支持这块vLLM现在进步飞快,0.6.3开始对Mixtral和Qwen2-MoE的专家路由调度已经挺靠谱了,我们跑Qwen2-MoE-1.5B实测吞吐比TRT高一丢丢,但前提是得手动调好--num-experts-per-token和--max-num-seqs,不然它会偷偷把所有专家都拉起来……(别问我是怎么知道的)
倒是想问问楼主:你们在A100上跑MoE时有没有遇到专家缓存抖动?我们试过把--kv-cache-dtype设成fp8,结果某些batch下专家切换延迟反而翻倍,最后还是回退到bf16+PagedAttention才稳住。另外,TRT-LLM编译时那个--use_paged_context到底开不开?文档写得跟谜语人似的……
暂无回复
