"Transformer"相關(guān)的文章
AI,個人隨筆
搞不懂Transformer?我用大白話給你講明白

搞不懂Transformer?我用大白話給你講明白

Self-Attention、位置編碼、多頭機制……別被這些黑話嚇退!這篇用“分水果”“傳紙條”就能秒懂的比喻,把 Transformer 拆成一條流水線:誰負責(zé)查字典、誰負責(zé)排隊、誰負責(zé)打包,十分鐘讓你明白大模型為什么能“一眼看完一句話”??赐瓴辉僦皇钦{(diào)包,而是真正知道 GPT 在干嘛。
AI,個人隨筆
從零學(xué)習(xí)大模型(4)——Transformer 的 “內(nèi)部齒輪”:FFN、殘差連接與歸一化如何讓 AI 更聰明?

從零學(xué)習(xí)大模型(4)——Transformer 的 “內(nèi)部齒輪”:FFN、殘差連接與歸一化如何讓 AI 更聰明?

本文將從功能原理、技術(shù)細節(jié)到實際作用,系統(tǒng)解析這些 “幕后模塊”:為什么 FFN 能讓注意力的輸出更 “有用”?殘差連接如何讓模型 “越 deep 越聰明”?歸一化又為何能讓訓(xùn)練 “穩(wěn)如泰山”?
AI,個人隨筆
從零學(xué)習(xí)大模型(1)——Transformer架構(gòu):原理、演進與AI領(lǐng)域的顛覆性影響

從零學(xué)習(xí)大模型(1)——Transformer架構(gòu):原理、演進與AI領(lǐng)域的顛覆性影響

在深度學(xué)習(xí)的發(fā)展歷程中,2017 年谷歌團隊發(fā)表的《Attention Is All You Need》論文具有里程碑意義 —— 該論文提出的 Transformer 架構(gòu),徹底改變了自然語言處理(NLP)乃至人工智能領(lǐng)域的技術(shù)路徑。與傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)不同,Transformer 以 “注意力機制” 為核心,實現(xiàn)了并行化計算與長序列依賴建模的雙重突破,成為當(dāng)前所有大型語言模型(如 GPT、BERT)的基礎(chǔ)架構(gòu)。本文將從技術(shù)原理、架構(gòu)設(shè)計、演進歷程及應(yīng)用價值四個維度,系統(tǒng)解析這一革命性模型。
AI
從0構(gòu)建大模型知識體系(4):大模型的爸爸Transformer

從0構(gòu)建大模型知識體系(4):大模型的爸爸Transformer

在人工智能領(lǐng)域,尤其是自然語言處理(NLP)的浪潮中,Transformer架構(gòu)無疑是近年來最重要的突破之一。它不僅徹底解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的健忘和訓(xùn)練速度慢的問題,還開啟了大語言模型的新紀(jì)元。本文將從機器翻譯這一經(jīng)典任務(wù)出發(fā),深入剖析Transformer架構(gòu)的核心原理,包括編碼器-解碼器架構(gòu)、注意力機制的奧秘,以及它如何通過純注意力機制實現(xiàn)高效的序列處理。
AI
混合專家架構(gòu)(MoE) 與 Transformer 融合的·深度解讀

混合專家架構(gòu)(MoE) 與 Transformer 融合的·深度解讀

在人工智能領(lǐng)域,混合專家架構(gòu)(MoE)與Transformer架構(gòu)的融合正在成為推動大模型發(fā)展的新趨勢。文章深入剖析了MoE架構(gòu)的核心理念、優(yōu)勢以及與Transformer架構(gòu)的融合方式,探討了這種融合如何提升模型的計算效率、擴展性和適應(yīng)性,供大家參考。