從零學(xué)習(xí)大模型(3)——注意力機(jī)制:從 Self-Attention 到 KVCache,AI 如何學(xué)會(huì) “聚焦”?
從 Transformer 的 Self-Attention 到 GPT 的 KVCache,注意力機(jī)制的每一次優(yōu)化都推動(dòng)著 AI 能力的躍升。本文將從基礎(chǔ)原理出發(fā),解析 Self-Attention、Cross-Attention 的核心邏輯,以及 MHA、GQA 等優(yōu)化策略如何讓 AI 在效率與性能間找到平衡。