AI僅憑“自信”學(xué)會(huì)推理,浙大校友復(fù)刻DeepSeek長思維鏈涌現(xiàn),強(qiáng)化學(xué)習(xí)無需外部獎(jiǎng)勵(lì)信號
UC Berkeley團(tuán)隊(duì)提出新方法Intuitor,讓AI通過自身置信程度優(yōu)化推理,無需外部獎(jiǎng)勵(lì)。該方法提升模型在數(shù)學(xué)推理和代碼生成等任務(wù)上的表現(xiàn),降低“獎(jiǎng)勵(lì)黑客”風(fēng)險(xiǎn),展現(xiàn)多任務(wù)泛化優(yōu)勢,為大模型強(qiáng)化學(xué)習(xí)提供新思路。