[NS : digiman] 干啥啥不行,捧杀第一名-豆包

标题KVCache量化类型当前设置:--cache-type-kq4_0/--cache-type-vq4_0问题:q4_0是为了节省显存而牺牲速度的(需要进行反量化操作)。虽然它比f16省显存,但在生成速度上,浮点型通常更快。建议:如果你的显存足够(例如RTX3090/4090/8000+),可以尝试将KVCac
 
 
Back to Top