[NS :
我时常想到这个问题,不同量级的模型(比如Gemini的flash和pro、开不开思考,思考预算,chatgpt的nano和large,不同的juice值等等)他们的边界在哪里?当下许多机构通过各种测试给LLM评分,可是相信深度用过LLM的人都知道,那些评分不可信。(我可以明确的说,至少宣称评分更高的Gemini3.
Paimic] 不同语言模型的边界在哪?我时常想到这个问题,不同量级的模型(比如Gemini的flash和pro、开不开思考,思考预算,chatgpt的nano和large,不同的juice值等等)他们的边界在哪里?当下许多机构通过各种测试给LLM评分,可是相信深度用过LLM的人都知道,那些评分不可信。(我可以明确的说,至少宣称评分更高的Gemini3.