中國信通院大模型第二輪評測正式啟動

發布時間:2023-09-06

作者:NGAI

評測背景

隨著人工智能與實體經濟不斷融合,數據標注成本高、算力建設難度大、模型泛化能力差等發展瓶頸不斷顯現。大規模預訓練模型(以下簡稱大模型)作為人工智能領域的重大突破之一,參數規模和模型性能不斷創出新高。憑借較強的模型性能和泛化能力,大模型可極大降低技術門檻和開發成本,引發產學界高度關注。大模型在2022-2023年兩度蟬聯百度和阿里巴巴十大科技趨勢預測前列,并入選中國信息通信研究院(以下簡稱中國信通院)2023年ICT十大趨勢。

近期,大模型的發展重心逐步從學術打榜轉向生態建設,隨著模型工程化發展進程不斷加快,模型能力與場景結合日漸加深。其中,OpenAI發布的ChatGPT已成為大規模預訓練語言模型在對話場景的落地示范,上線約兩個月其月活用戶數量已破億,成為現象級產品。然而,在持續攀升的熱度背后,敏感數據泄露、安全可信等問題不斷顯露。為推動大模型技術安全可信發展,工程化進程穩健推進,中國信通院布局大模型相關研究,聯合產學研用各方制定《大規模預訓練模型技術和應用評估方法》系列標準。

參考標準

中國信通院密切關注大模型發展態勢,依托人工智能關鍵技術和應用評測工業和信息化部重點實驗室成立人工智能工程化推進委員會,下設大模型工作組,現已吸納50余家成員單位。緊扣大模型全生命周期,積極開展技術研究、標準制定、案例征集、技術沙龍等相關工作,圍繞模型開發、模型能力、模型應用和安全可信四個維度制定多維評價指標。目前,模型開發、模型能力兩部分標準已發布,模型應用標準初步定稿,安全可信標準編制工作正在進行中。

評測范圍

參考《大規模預訓練模型技術和應用評估方法》系列標準,本次開放模型開發、模型能力、模型應用三個評測模塊,通過功能、性能指標綜合評級。本輪新增專項能力評測,參測方可結合技術和產品研發情況選測部分能力項。

模型開發模塊:包括數據構建、模型訓練、模型管理、模型部署4個能力域、16個能力子域、60余個能力項,全面評估研究主體開發大模型的能力;

模型能力模塊包含功能豐富度、性能優越度、服務成熟度3個評測維度、8個能力域、30余個能力項,全面評估大模型的各項技術能力;

模型應用模塊:包含工程路徑、運營管理能力、應用豐富度、服務成熟度4個能力域、14個能力子域、30余個能力項,綜合評估大模型應用成熟度。

2022年,中國信通院開放模型開發與模型能力兩個測試模塊,現已為2家企業累計提供4個模塊的產品評測,其中華為、百度在參測的模型開發和模型能力兩個模塊中均取得4+評級。為進一步促進技術水平提升、幫助用戶方選型產品,中國信通院正式啟動大模型第二輪評測。

評測流程

評測流程主要分為商務確認和技術對接兩個部分,商務流程依次為評測意向溝通、評測流程申請和商務合同確認,技術對接主要圍繞評測材料的準備、評估測試的實施及評測結果的評審展開。

圖片

時間安排

1.評測報名:即日起開始

2.評測執行:2023年2月至2023年6月底

3.專家評審:2023年7月

4.證書頒發:2023年7月底可信AI峰會(擬)


聯系人

張老師,15722924458,

zhangxueqiang@caict.ac.cn

陸老師,18761677976,

lutiewen@caict.ac.cn