《經濟通通訊社駐京記者黃燕明14日北京專電》國家數據局局長劉烈宏表示,北京數交所
為例,高質量數據集佔交易總量的比例從去年的10%躍升到目前的近80%。上海、天津、安
徽等地正在試點「數據語料作價入股」等新模式,引導企業將高質量數據集折算為股權投入到相
關企業。高質量數據集的發展需要數據標注產業的支撐,我們已布局了成都、沈陽、合肥等7個
數據標注基地,助力高質量數據集的建設。
*高質量數據集累計交易額近40億元*
他指出,截至今年6月底,中國已經建設高質量數據集超過3﹒5萬個,總體量超過了
400PB(1PB可存儲約5億張2MB大小的高清照片,400PB的總量相當於中國國家
圖書館數字資源總量的140倍左右)。人工智能模型的訓練也推動了數據交易需求的攀升,截
至今年6月底,各地高質量數據集累計交易額近40億元,數據交易機構掛牌的高質量數據集總
規模達到了246PB。
*多數模型訓練使用中文數據佔比超60%*
此外,中文數據在國內大模型的訓練性能提升方面發揮著重要作用。經過一段時間的努力,
國內多數模型訓練使用的中文數據佔比已經超過了60%,有的模型已達到80%。中文高質量
數據的開發和供給能力持續增強,推動中國人工智能模型性能的快速提升。
【你點睇?】美俄峰會即將舉行,你認為特朗普能否促成普京停火?► 立即投票