top of page

AI 科技前沿:超越標準 LLM 的新浪潮

超越標準LLM架構的創新探索與未來趨勢


AI 科技前沿:超越標準 LLM 的新浪潮 近年來,以 DeepSeek R1、MiniMax-M2 為代表的開源大型語言模型(LLMs)持續刷新性能紀錄,它們的核心無一例外都是基於原始的 Transformer 架構,特別是多頭注意力機制。然而,科技界從未停止探索的腳步。從文本擴散模型(Text Diffusion Models)到近期的線性注意力混合架構(Linear Attention Hybrids),一股「超越標準 LLM」的替代方案正在興起。這些新架構的目標不盡相同,有的追求極致效率,有的則試圖在建模性能上取得突破。小編認為,當主流模型不斷在參數規模上內捲時,這些另闢蹊徑的探索,或許才是未來 AI 發展的關鍵轉捩點。 線性注意力混合架構的復甦 傳統的 Transformer 架構中,Scaled-Dot-Product Attention 的計算複雜度隨著序列長度呈平方增長(O(n^2)),這成為處理超長上下文的阿基里斯之踵。雖然過去十年中出現過各種線性化嘗試,但大多因精度下降而未能普及。然而,近期我們見證了線性注意力機制的復甦,特別是在混合架構中。 MiniMax-M1 採用的 Lightning Attention、Qwen3-Next 以及 DeepSeek V3.2 都引入了次平方或線性的計算機制。這波熱潮在九月達到頂峰,但隨後 MiniMax 團隊又將 M2 模型轉回常規注意力,聲稱線性注意力在推理和多輪對話中的表現不佳。這讓許多人懷疑線性化的努力是否白費。但很快,Kimi Linear 模型帶著其線性的 Kimi Delta Attention(KDA)機制出現,再次點燃了希望。這些模型多採用 3:1 的混合比例,將高效的線性層與傳統的完整注意力層交錯使用,試圖在速度與準確性之間找到甜蜜點。 Qwen3-Next 與 Gated DeltaNet 的精妙融合 Qwen3-Next 採用 Gated DeltaNet 與 Gated Attention 的混合架構,成功實現了原生的 262k token 上下文長度。其核心是 Gated DeltaNet,這是一種從 Mamba2 演化而來的狀態空間模型(SSM)結構,它利用 Delta Rule 進行記憶狀態更新,本質上是按順序處理 token,並維護一個固定大小的記憶體狀態 S。這種方式將計算複雜度降至線性 O(n),並極大地節省了 KV Cache 記憶體。 與傳統注意力需要計算 n x n 的注意力矩陣不同,Gated DeltaNet 通過固定的記憶體狀態 S 實現遞迴更新,類似於 RNN 的工作方式。儘管這犧牲了一定的全局上下文建模能力,但 Qwen3-Next 巧妙地用 3:1 的比例配置,用 DeltaNet 處理大部分層,只在關鍵層使用傳統注意力。小編認為,這種混合策略展現了對模型瓶頸的深刻理解,即在計算效率和上下文感知能力之間進行權衡。 Kimi Linear 的進一步優化 Kimi Linear 在繼承 Qwen3-Next 混合策略的基礎上,對 Gated DeltaNet 進行了升級,命名為 Kimi Delta Attention(KDA)。KDA 用更細緻的通道級別(channel-wise)門控取代了 Qwen3-Next 的標量門控,以更精準地控制記憶體衰減,這據稱能提升長上下文推理能力。此外,Kimi Linear 在其全局注意力層中使用了 MLA(Multi-Head Latent Attention),並移除了 RoPE 嵌入,進一步優化了長上下文的穩定性。Kimi Linear 的表現證明,線性能量再次回歸,甚至在某些基準測試中,其速度與精度表現優於使用 MLA 的模型。這無疑是給那些專注於效率的研究者一劑強心針。 文本擴散模型的激進嘗試 與線性注意力混合架構相對溫和的演進不同,文本擴散模型代表了更激進的架構轉變。繼圖像生成領域的輝煌之後,Diffusion-LM 等模型將擴散過程引入文本生成。其核心賣點是並行生成多個 token,而非傳統 LLM 的單一 token 順序生成。 儘管擴散模型需要多個去噪步驟,但理論上,少量的去噪迭代(如 20-60 步)可能遠比數千步的自迴歸推理更有效率。然而,如 ParallelBench 研究所示,純粹的並行解碼會導致嚴重的質量下降,因為它難以捕捉 token 之間的自迴歸依賴性。Google 的 Gemini Diffusion 宣稱能顯著加速響應,但性能與其最快的自迴歸模型相當。小編不禁要問,如果為了追求速度犧牲了依賴性,這種速度提升的實用價值究竟有多大?對於需要工具調用或思維鏈(CoT)的複雜任務,純擴散模型似乎仍面臨巨大挑戰。 代碼世界模型的深入理解 與專注於效率的路線相反,代碼世界模型(Code World Models, CWM)則旨在提升建模性能,特別是在代碼理解上。CWM 模型訓練時不僅學習語法模式,更重要的是,它學會了模擬代碼的運行結果,即預測執行某行代碼後變數狀態的變化。這本質上是在模型內部建立了一個可供模擬的「代碼執行環境」。 CWM 雖在推理時仍是自迴歸的,但其輸出的 token 可以編碼結構化的執行追蹤。這使得 CWM 在需要複雜推理的代碼基準測試(如 SWE-bench)上,以更小的規模取得了與更大模型相當的性能。小編認為,CWM 開啟了讓 LLM 不僅「知道」代碼如何寫,更能「理解」代碼如何運作的可能性,這對於 AI 軟體工程師的發展極具啟發性。 小型遞迴 Transformer 的理性之光 最後一個方向是小型遞迴 Transformer,例如 HRM 和更小的 TRM(Tiny Recursive Model)。這些模型體積微小(TRM 僅 700 萬參數),卻能在特定推理任務(如 ARC 挑戰、數獨)上達到頂尖表現。它們通過「迭代自我細化」的方式進行推理,而不是一次性生成答案。 TRM 的一個驚人發現是,它在這些結構化任務上,竟然可以捨棄自注意力機制,僅依賴 MLP 結構,並取得了更好的泛化性能。雖然這些模型目前是特定領域的「計算器」,而非通用 LLM,但它們證明了高效推理不一定需要龐大的通用模型。小編相信,未來這些模型可能作為大型 LLM 的高效「工具」或「模組」嵌入,處理特定的複雜邏輯問題。 總結與展望 標準的自迴歸 Transformer 依然是當前的王者,特別是在通用任務上。然而,線性注意力混合體展示了處理長上下文的實用性;擴散模型提供了並行生成的可能性,但面臨質量權衡;代碼世界模型則指向更深層次的代碼理解;而遞迴模型則證明了小型化、專業化推理的潛力。總之,當前的 AI 研究不再是單一維度的軍備競賽,而是多條戰線齊頭並進的百花齊放時代。 解鎖 AI 超能力:加入香港 AI 培訓學院 面對如此快速演進的 AI 科技浪潮,停滯不前就意味著落後。如果你渴望深入理解這些前沿技術的底層邏輯,並將其應用於實戰,那麼由 AI-SOLVE 小編團隊主辦的「解鎖 AI 超能力 - AI 實戰講座」將是你的最佳選擇。我們將用最貼地、最直觀的方式,拆解 Transformer、擴散模型與 SSM 的核心機制,助你在 AI 時代佔據先機。立即報名免費講座,獲取你的 AI 超能力! 免費課程講座報名連結:=https://www.hkai-solve-academy.com/ai-superpower?utm_source=blogpost 新聞來源:Sebastian Raschka, PhD, Beyond Standard LLMs 連結:=https://magazine.sebastianraschka.com/p/beyond-standard-llms

留言


© 2025 香港AI培訓學院 

 

聯絡我們

  • Whatsapp
  • Instagram
  • Facebook

+852 6757 7206     admin@hkai-solve.com

九龍灣常悦道21號Eastmark6樓601室     Unit 601, 6/F, Eastmark,No. 21 Sheung Yuet Road, Kowloon Bay

bottom of page