"強(qiáng)化學(xué)習(xí)"相關(guān)的文章
AI
AI僅憑“自信”學(xué)會(huì)推理,浙大校友復(fù)刻DeepSeek長思維鏈涌現(xiàn),強(qiáng)化學(xué)習(xí)無需外部獎(jiǎng)勵(lì)信號

AI僅憑“自信”學(xué)會(huì)推理,浙大校友復(fù)刻DeepSeek長思維鏈涌現(xiàn),強(qiáng)化學(xué)習(xí)無需外部獎(jiǎng)勵(lì)信號

UC Berkeley團(tuán)隊(duì)提出新方法Intuitor,讓AI通過自身置信程度優(yōu)化推理,無需外部獎(jiǎng)勵(lì)。該方法提升模型在數(shù)學(xué)推理和代碼生成等任務(wù)上的表現(xiàn),降低“獎(jiǎng)勵(lì)黑客”風(fēng)險(xiǎn),展現(xiàn)多任務(wù)泛化優(yōu)勢,為大模型強(qiáng)化學(xué)習(xí)提供新思路。
AI,個(gè)人隨筆
AI騎手調(diào)度系統(tǒng):京東如何用強(qiáng)化學(xué)習(xí)降低30%配送成本?

AI騎手調(diào)度系統(tǒng):京東如何用強(qiáng)化學(xué)習(xí)降低30%配送成本?

當(dāng)你在網(wǎng)上下單買東西,滿心期待它能快快送到手中,結(jié)果卻等了很久。其實(shí)在這背后,騎手調(diào)度系統(tǒng)起著至關(guān)重要的作用。今天咱們就來深入聊聊 AI 騎手調(diào)度系統(tǒng),尤其是京東是如何用強(qiáng)化學(xué)習(xí)降低 30% 配送成本的,同時(shí)也會(huì)拆解一下達(dá)達(dá)智能調(diào)度與美團(tuán)超腦算法的技術(shù)差異。
AI
強(qiáng)化學(xué)習(xí)RL-NPC復(fù)雜獎(jiǎng)勵(lì)機(jī)制的陷阱與需求簡化策略

強(qiáng)化學(xué)習(xí)RL-NPC復(fù)雜獎(jiǎng)勵(lì)機(jī)制的陷阱與需求簡化策略

在強(qiáng)化學(xué)習(xí)領(lǐng)域,獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)對于模型性能至關(guān)重要。然而,復(fù)雜的獎(jiǎng)勵(lì)規(guī)則并不一定帶來更好的效果。本文通過一個(gè)基于貪吃蛇的強(qiáng)化學(xué)習(xí)實(shí)驗(yàn),揭示了復(fù)雜獎(jiǎng)勵(lì)機(jī)制可能導(dǎo)致的陷阱,如目標(biāo)稀釋效應(yīng)、懲罰過載抑制探索和信號噪聲干擾等問題。
算法人生(14):從“探索平衡策略”看“生活工作的平衡之道”

算法人生(14):從“探索平衡策略”看“生活工作的平衡之道”

在機(jī)器學(xué)習(xí)的早期階段,探索對于理解環(huán)境至關(guān)重要,但隨著智能體學(xué)習(xí)的深入,利用已知策略以獲取穩(wěn)定回報(bào)變得更為重要。過多的探索可能導(dǎo)致錯(cuò)失最優(yōu)行動(dòng)帶來的回報(bào),而過多的利用則可能使智能體陷入局部最優(yōu),錯(cuò)失更好的策略。因此,如何在探索和利用之間找到平衡,是強(qiáng)化學(xué)習(xí)中的關(guān)鍵問題。
AI
人工智能中的機(jī)器學(xué)習(xí)核心領(lǐng)域、流程與分支(基礎(chǔ)入門篇)

人工智能中的機(jī)器學(xué)習(xí)核心領(lǐng)域、流程與分支(基礎(chǔ)入門篇)

人工智能作為當(dāng)下新質(zhì)生產(chǎn)力的代表,其技術(shù)更新已經(jīng)歷過很多個(gè)版本,隨著ChatGPT的火熱,AI逐漸進(jìn)入大眾視野,并在衣食住行方方面面影響著人們。AI 是讓計(jì)算機(jī)模擬人類智能的技術(shù),它包括機(jī)器學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺、語音識別等多個(gè)領(lǐng)域,通過使用大量的數(shù)據(jù)和算法,AI 可以讓計(jì)算機(jī)學(xué)會(huì)像人類一樣思考、學(xué)習(xí)和解決問題。機(jī)器學(xué)習(xí)作為人工智能領(lǐng)域的核心,是使計(jì)算機(jī)擁有智能的基石,本文對機(jī)器學(xué)習(xí)的核心領(lǐng)域、術(shù)語和深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)作簡單介紹,不涉及復(fù)雜的數(shù)學(xué)模型,通俗地講解AI底層知識原理。
算法人生(1):從“強(qiáng)化學(xué)習(xí)”看如何“戰(zhàn)勝拖延”

算法人生(1):從“強(qiáng)化學(xué)習(xí)”看如何“戰(zhàn)勝拖延”

強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,是一個(gè)動(dòng)態(tài)的、可迭代的過程,需要進(jìn)行試錯(cuò),并找到正確的策略。本文從“強(qiáng)化學(xué)習(xí)”看如何“戰(zhàn)勝拖延”,一起來看看吧。
產(chǎn)品經(jīng)理
策略產(chǎn)品經(jīng)理必讀系列—第五講強(qiáng)化學(xué)習(xí)篇

策略產(chǎn)品經(jīng)理必讀系列—第五講強(qiáng)化學(xué)習(xí)篇

編輯導(dǎo)語:強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它能通過不斷與環(huán)境的交互、試錯(cuò),最終完成特定目的或者使得整體行動(dòng)收益最大化。本文作者對強(qiáng)化學(xué)習(xí)進(jìn)行了總結(jié)分析,一起來...
AI
機(jī)器學(xué)習(xí) | 強(qiáng)化學(xué)習(xí),解決決策問題的行家(上)

機(jī)器學(xué)習(xí) | 強(qiáng)化學(xué)習(xí),解決決策問題的行家(上)

本文筆者將與大家講述:強(qiáng)化學(xué)習(xí)的基本原理、兩個(gè)基本類型,以及基于這兩個(gè)類型下的相關(guān)算法。 一般地,我們認(rèn)為,機(jī)器學(xué)習(xí)領(lǐng)域最基本的三個(gè)方向就是“監(jiān)督學(xué)習(xí)”“無監(jiān)督...
AI
強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化?

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化?

強(qiáng)化學(xué)習(xí)(RL)為優(yōu)化面向目標(biāo)的行為提供了一個(gè)統(tǒng)一而靈活的框架,在解決諸如玩電子游戲、連續(xù)控制和機(jī)器人學(xué)習(xí)等具有挑戰(zhàn)性的任務(wù)方面取得了顯著的成功。在這些應(yīng)用領(lǐng)...