02/01/2026 08:51
【AI】梁文鋒署名DeepSeek新論文,提出mHC新架構優化大模型性能
DeepSeek團隊發布新論文,提出了一種名為mHC(流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益。DeepSeek創始人梁文鋒也在作者名單中。
論文公布了DeepSeek-V3在訓練和推理過程中,如何解決「硬件瓶頸」的方法:mHC通過將傳統Transformer的單一殘差流擴展為多流並行架構,並利用Sinkhorn-Knopp算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和訊號爆炸問題。
實證表明,mHC不僅解決了穩定性問題,且在大規模訓練中(如27B模型)表現出卓越的可擴展性。在n=4的擴展倍率下,僅增加了6.7%的訓練時間開銷,卻換來了顯著的性能提升。mHC為基礎模型的拓撲架構演進指明了方向。
《經濟通通訊社2日專訊》
論文公布了DeepSeek-V3在訓練和推理過程中,如何解決「硬件瓶頸」的方法:mHC通過將傳統Transformer的單一殘差流擴展為多流並行架構,並利用Sinkhorn-Knopp算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和訊號爆炸問題。
實證表明,mHC不僅解決了穩定性問題,且在大規模訓練中(如27B模型)表現出卓越的可擴展性。在n=4的擴展倍率下,僅增加了6.7%的訓練時間開銷,卻換來了顯著的性能提升。mHC為基礎模型的拓撲架構演進指明了方向。
《經濟通通訊社2日專訊》
【樂本健11月限時優惠!】 憑獨家優惠碼【ETN2511】,購物滿$500即送免費禮品► 了解詳情
-
上一篇
【AI】蘋果公司:中國未正式推出蘋果AI 05/01/2026 08:49
-
下一篇
【AI】上緯新材正式進軍個人機器人新賽道,首款產品啟元Q1… 31/12/2025 18:01
-
【AI】智元機器人與MiniMax合作,將獲文本到語音全流程AI技術支持 05/01/2026 13:45
-
【AI】九科信息宣布完成億元級B2輪融資,啟動IPO籌備工作 05/01/2026 11:56
-
【AI】高德據報已布局世界模型,計劃推出相關產品應用 05/01/2026 10:30
-
【AI】中國科技企業據報已訂購逾200萬顆H200芯片,英… 31/12/2025 17:58
-
【AI】Kimi完成5億美元C輪融資,CEO楊植麟:公司現… 31/12/2025 16:33