top of page

DeepSeek 模型技術深度剖析:從 V3 到 V3.2 的進化之路

DeepSeek V3到V3.2的技術迭代與架構演進詳解


DeepSeek 模型技術深度剖析:從 V3 到 V3.2 的進化之路 DeepSeek 團隊再次投下震撼彈,選在美國重大節日期間發布了他們最新的旗艦開源模型 DeepSeek V3.2。這款模型性能直逼 GPT-5 和 Gemini 3.0 Pro 等閉源巨頭,無疑是開源社群的一大亮點。對於科技媒體編輯來說,這不僅僅是另一個跑分數字的提升,更是一場精彩的技術演進之旅。Sebastian Raschka 博士的深入分析,為我們拆解了 DeepSeek V3 到 V3.2 之間令人著迷的技術迭代,AI-SOLVE 小編認為,這份報告簡直是 LLM 架構愛好者的聖經。 DeepSeek 發展時程與市場地位 回顧 DeepSeek 的發布時間線,DeepSeek V3 在 2024 年 12 月初登場時雖然未立刻引爆市場,但基於其相同架構的 R1 推理模型,卻成功讓 DeepSeek 成為開源領域中,能與 OpenAI、Google 等巨頭分庭抗禮的堅實選項。不過,在 R1 之後的十個多月裡,市場上曾出現對 DeepSeek 團隊「江郎才盡」的論調。小編倒覺得,在 AI 晶片從 NVIDIA 轉向華為,再回歸 NVIDIA 的過程中,光是基礎設施的調整就夠團隊忙上大半年了。這次 V3.2 的發布,證明了他們不僅「沒死」,還憋了個大招,連同中間穿插的 V3.1 和 V3.2-Exp 都是為了這次主力發布暖身。 從專用推理模型到混合架構的轉向 DeepSeek 在模型類型的選擇上也展現了務實的態度。DeepSeek V3 初始是一個基礎模型,而 R1 則是加入了額外的後訓練,專注於推理能力。這與 Qwen3 最初作為可切換推理模式的混合模型形成對比。有趣的是,許多團隊在開發過程中曾徘徊於專用推理模型和混合模型之間,例如 Qwen 團隊後來還是決定拆分出專用模型以優化單一場景的表現。DeepSeek 似乎走了相反的路,從專用模型 R1 轉向了 V3.1 和 V3.2 這樣的混合模式。小編推測,R1 可能更像是一個研究性的原型,而 V3.2 的目標是成為一個適用於各種場景的最佳化通用模型。 DeepSeek V3 與 MLA 的基礎 要理解 V3.2,我們必須先重溫 V3 的核心架構特點:混合專家模型 (MoE) 和多頭潛在注意力 (Multi-Head Latent Attention, MLA)。MLA 是一個記憶體優化策略,它將 Key 和 Value 張量壓縮到低維空間儲存於 KV Cache,雖然推理時需要額外的矩陣乘法進行解壓縮,但它有效降低了記憶體佔用,這項技術其實在 V2 中就已導入。對於追求長上下文的高效能模型而言,MLA 無疑是個聰明的取捨。 DeepSeek R1 的推理訓練與 RLVR DeepSeek R1 在 V3 架構的基礎上,專注於透過「可驗證獎勵強化學習」(Reinforcement Learning with Verifiable Rewards, RLVR) 來強化推理能力。R1 使用了 GRPO 演算法,這是一種簡化版的 PPO,關鍵在於它直接從符號或程式碼驗證結果中獲取獎勵,而非依賴傳統的 RLHF 中複雜的人工回饋獎勵模型和評論家模型。小編認為,這種「直接從正確答案中學習」的思路,對於數學和程式碼等嚴謹領域的訓練極具潛力。 V3.1 的混合推理與 V3.2-Exp 的稀疏注意力 DeepSeek V3.1 成為一個混合模型,基於 V3.1-Base,允許用戶透過提示詞模板在指令和推理模式間切換。然而,真正引人注目的是 V3.2-Exp,它引入了「DeepSeek 稀疏注意力」(DeepSeek Sparse Attention, DSA)。DSA 的核心是為了提高訓練和推理效率,尤其在長上下文場景中。它不像傳統的固定寬度滑動視窗注意力,DSA 依賴一個「閃電索引器」(lightning indexer) 和一個「標記選擇器」(token-selector) 來動態決定當前查詢標記應關注哪些過去的標記。 DSA 的運作機制很精妙:閃電索引器計算了每個查詢與先前標記的相關性分數(基於 MLA 壓縮後的查詢和鍵向量的 ReLU 點積),然後選擇得分最高的 $k$ 個標記進行關注。這將注意力機制的計算複雜度從二次方 $O(L^2)$ 降到了近似線性 $O(Lk)$。小編觀察到,V3.2-Exp 雖然發布時性能未達頂峰,但其釋出顯然是為了在大規模發布 V3.2 前,讓整個生態系統和推理基礎設施做好準備,這點戰略部署非常值得稱讚。 DeepSeekMath V2:自我驗證與自我精煉的雛形 在 V3.2 正式登場前,DeepSeekMath V2 帶著一個重要的技術概念出現,它是 V3.2 的一個概念驗證模型。它旨在解決傳統 RLVR 的痛點:正確答案不保證推理過程正確。DeepSeekMath V2 引入了「LLM 擔任驗證者」的機制,訓練了一個 LLM 2(驗證器)來評分 LLM 1(生成器)的證明步驟。更有趣的是,他們還引入了 LLM 3(元驗證器)來檢查 LLM 2 是否稱職。這種「生成-驗證-元驗證」的結構,簡直像在 LLM 訓練中實施了某種 GANS 結構,極大地提升了數學推理的嚴謹性。在推理階段,生成器經過這種嚴格訓練後,能自行進行「自我精煉」,這在資源節省上是巨大的優勢。 DeepSeek V3.2 的全面升級與 RL 更新 DeepSeek V3.2 終於來了,性能數據亮眼,並延續了 MLA 和 DSA 的架構優勢。在強化學習方面,V3.2 吸收了 DeepSeekMath V2 的經驗,將 RLVR 擴展到通用任務。對於可驗證領域(如數學和代碼),仍採用基於結果的獎勵;而對於通用任務,則引入了生成獎勵模型(LLM-as-a-judge)。這標誌著 DeepSeek 的訓練流程從純粹的 RLVR 轉向了更混合、更全面的獎勵機制。 在 GRPO 演算法層面,V3.2 採納了許多近期論文的優化,例如 DAPO 和 Dr. GRPO 中提到的零梯度信號過濾、主動採樣等,但它並沒有像部分模型那樣徹底移除 KL 損失項,而是將其作為可調參數,特別在數學任務中傾向於弱化甚至歸零。此外,V3.2 引入了「無偏的 KL 估計」和「偏離策略序列遮罩」,確保訓練數據的新鮮度和相關性。小編認為,這些微調顯示出 DeepSeek 對於大規模 RL 訓練穩定性的深刻理解,絕非隨意疊加新技術。 DeepSeek V3.2-Speciale:極致推理的代價 最後,還有一個「擴展思考」的極致版本 DeepSeek V3.2-Speciale,它在 RL 階段只使用推理數據訓練,並減少了長度懲罰。這換來了更高的準確性,但代價是生成更長的 Token 序列。這是一個經典的推理擴展權衡,證明了在特定應用場景下,增加計算開銷確實能帶來質變的準確度提升。 總結來說,DeepSeek V3.2 是一次架構優化(DSA)、訓練策略革新(引入 Math V2 的自我驗證思想),以及對 RL 流程(GRPO 穩定性)的精細調校的結晶。DeepSeek 的每一次發布都充滿了值得深入研究的技術細節,這才是開源界最寶貴的財富。 想要了解這些尖端 LLM 技術如何從理論走向實戰,並親手掌握這些架構設計的精髓嗎?AI-SOLVE 小編強烈推薦各位參加香港AI培訓學院 Hong Kong AI-SOLVE Academy 的「解鎖AI超能力 - AI實戰講座」。我們將用最實戰、最貼地的方式,帶你領略從 Transformer 到稀疏注意力背後的奧秘。 立即報名,解鎖你的AI超能力: https://www.hkai-solve-academy.com/ai-superpower?utm_source=blogpost 新聞來源:Sebastian Raschka, PhD 連結:https://magazine.sebastianraschka.com/p/technical-deepseek

© 2025 香港AI培訓學院 

 

聯絡我們

  • Whatsapp
  • Instagram
  • Facebook

+852 6757 7206     admin@hkai-solve.com

九龍灣常悦道21號Eastmark6樓601室     Unit 601, 6/F, Eastmark,No. 21 Sheung Yuet Road, Kowloon Bay

bottom of page