《經濟通通訊社31日專訊》阿里巴巴(09988)開源視頻生成模型Wan2﹒2,採
用混合專家(Mixture-of-Experts, MoE)架構,現已於
Hugging Face、GitHub及阿里雲開源社區ModelScope開放下載。
Wan2﹒2系列包含文生視頻模型Wan2﹒2-T2V-A14B、圖生視頻模型
Wan2﹒2-I2V-A14B,以及統一視頻生成模型Wan2﹒2-TI2V-5B。
公司稱,模型可在單一框架內同時處理文生視頻與圖生視頻任務,且基於MoE架構並經過
精選美學數據訓練,當中Wan2﹒2-T2V-A14B與Wan2﹒2-I2V-A14B
能夠生成具有電影級品質的視頻,且均採用雙模型設計,配有專注整體場景布局的高噪專家模型
,與負責細節紋理優化的低噪專家模型。兩款模型總參數達270億,但每步僅激活140億參
數,成功降低50%計算消耗。
公司亦稱,相較Wan2﹒1,Wan2﹒2模型訓練數據量大幅擴充,其中圖像數據增加
65﹒6%,視頻數據增長83﹒2%。
另外,全新推出的混合模型Wan2﹒2-TI2V-5B採用高壓縮率3D VAE架構
,僅需消費級GPU即可在數分鐘內生成5秒720P視頻。
阿里巴巴亦提到,曾於2025年2月開源四款Wan2﹒1模型,並於同年5月發布
Wan2﹒1-VACE(多合一視頻編輯全功能模型)。截至目前,這些模型在
Hugging Face與ModelScope的總下載量已突破540萬次。(rh)
【香港好去處】2025去邊最好玩?etnet為你提供全港最齊盛事活動,所有資訊盡在掌握!► 即睇