• 中文科技資訊 CWX中文科技資訊官方網站!

超10萬億Tokens數據集煉成記:中國電信天翼AI如何構建AI發展基石

   時間:2025-09-26 15:40 來源:快訊作者:楊凌霄

在人工智能浪潮席卷全球的當下,高質量數據已成為驅動行業發展的核心資源。中國電信天翼AI憑借其強大的數據基礎設施,構建了超過10萬億tokens的通用大模型語料庫,并打造了覆蓋14個關鍵行業的專業數據集,總存儲量達350TB。這些數據不僅體量龐大,更經過精心標注和優化,形成多模態、行業化的高質量數據資產,為AI模型訓練提供了堅實基礎。

高質量數據的價值在于其直接服務于AI模型開發。通過采集、清洗、標注等環節,原始數據被轉化為可用的訓練素材,顯著提升模型的準確性、泛化性和實用性。中國電信天翼AI打造的星辰MaaS平臺,正是這一過程的關鍵載體。該平臺通過基模、數據工具鏈、模型工具鏈和智能體的協同運作,構建了“數據—模型—服務”的完整閉環,為行業提供從數據到應用的端到端解決方案。

星辰MaaS平臺的核心優勢在于其四大核心能力:基模作為“動力引擎”,提供基礎認知與推理能力;數據工具鏈作為“原料庫”,持續輸送高質量數據;模型工具鏈作為“加工廠”,將數據轉化為可用模型;智能體作為“執行中樞”,調度資源并完成復雜任務?;谶@一體系,天翼AI不僅推進了大模型、智傳網、具身智能等基礎技術研發,更將技術轉化為實際產品,服務于產業場景。

在技術落地方面,天翼AI已取得顯著成果。其打造的“三全”星辰大模型體系——全模態、全尺寸、全國產,成功訓練出萬億參數的大模型。該模型依托全國產的萬卡集群和深度學習框架,在國產化創新領域走在前列。例如,在福建晉江的紡織廠中,基于星辰MaaS平臺的AI驗布系統取代了傳統人工檢測,實現了對并緯、擦傷、斷經等10余種瑕疵的高效檢出,檢測準確率超95%,生產效率提升50%以上。

這一案例僅是天翼AI數據價值的冰山一角。從港口到供應鏈,從智慧醫療到現代農業,高質量數據正深度滲透至各行各業。中國電信天翼AI副總經理阮宜龍表示,公司重倉投入數據基礎設施建設,源于對國家戰略、市場需求、運營商優勢和使命責任的綜合考量。AI已上升為國家戰略,而高質量數據是推動技術突破、實現普惠發展的關鍵。

在技術實現層面,星辰MaaS平臺覆蓋了數據全生命周期管理。其數據工具鏈支持文本、圖片、音視頻等多模態數據的統一接入和存儲,通過上百種處理工具實現數據清洗、轉換和增強。例如,在自動駕駛領域,平臺利用AIGC技術生成極端天氣和罕見事故的數據集,彌補現實數據采集的不足。模型工具鏈則支持40多種標注任務,通過AI預標注將效率提升5倍以上,降低標注成本。

對于高質量數據的定義,天翼AI認為需結合模型訓練階段和應用場景?;A大模型預訓練數據集更關注規范性、完整性和安全性,而行業微調數據集則強調全面性、多樣性和專有知識。以紡織缺陷檢測為例,高質量數據集需覆蓋20余種瑕疵類型,包含油污、水漬等多樣形態,并精準標注瑕疵位置和類別。

在服務大型央企時,天翼AI針對其生產優化、系統復雜度高、安全和國產化要求等特點,提供端到端解決方案。例如,為物流集團構建的AI套件納管超500P國產化算力卡,支撐流云大模型及CV模型研發,賦能全國智慧物流場景。在國家級數據標注基地建設中,天翼AI不僅提供技術平臺,更扮演產業生態規劃者、產能運營者和新職業培育者的角色,推動“算力供給-數據生產-模型訓練-應用落地”生態鏈的形成。

目前,天翼AI的高質量數據集已在14個行業、30多個場景中落地。在醫療領域,與三甲醫院合作構建的醫療質量管理數據集,推動醫院運行管理智能化;在農業領域,為雄安新區打造的“雄小農”應用,幫助農民增收超15%;在政務服務領域,與深圳市政數局合作構建的民生訴求數據集,支撐25個智能應用場景。這些案例表明,高質量數據正從實驗室走向產業一線,創造實際價值。

除數據和算法外,天翼AI還圍繞數據治理、模型健壯性和應用可信性,自主研發星辰大模型安全圍欄,防范意識形態和惡意利用風險。其推出的星辰系列大模型已完成雙備案,并開源了國內領先的“全模態、全尺寸、全國產”模型。面向B端用戶,提供18項API服務;面向C端用戶,發布“智能反詐”應用和智能玩偶;面向家庭場景,推出AI智能眼鏡,覆蓋多場景需求。

中國電信天翼AI的最終愿景是成為國家戰略科技力量和領先的通用人工智能服務提供商。為此,公司將在技術上追求領先,探索前沿領域;在應用上追求普惠,讓AI走進千家萬戶;在生態上保持開放,支持全球開發者參與建設;在人才上實現研用一體,培養高層次AI隊伍。作為AI國家隊,天翼AI將持續強化賦能,打造高價值行業大模型,同時構建安全防護體系,確保數字經濟紅利全民共享。

 
 
更多>同類內容
全站最新
熱門內容