2023-09-09 04:09:53 來源 : 中國新聞網
(資料圖片)
中新網上海9月8日電 (記者 鄭瑩瑩)中國大模型語料數據聯盟8日又吸納了一批新成員,來充實適用于大模型的中文語料數據。中國大模型語料數據聯盟由上海人工智能實驗室、中國科學技術信息研究所等單位在今年的世界人工智能大會上聯合發起成立,致力建設開放型的大模型語料數據生態圈。
上海人工智能實驗室主任助理王延峰說,ChatGPT令人驚艷,但它對中文的理解還不盡人意。
9月8日,中國大模型語料數據聯盟在上海又吸納了一批新成員。中新網記者 鄭瑩瑩 攝大模型時代帶來以數據為中心的人工智能領域新發展,但“投喂”哪些數據備受關注。王延峰在接受記者采訪時表示,語料數據不僅要量大,而且要高質量,“就像培養一個孩子一樣,投入高質量的教育,才有高質量的‘輸出’。”
對于中文語料數據的不足,他表示,中文語料數據對于大模型能力的提升至關重要,業界需要高質量的中文語料數據集。
上海蜜度信息技術有限公司(簡稱:蜜度)首席技術官劉益東在受訪時指出,目前中國國內的大模型訓練里,非常缺少高質量的中文語料數據集,“現在很多市面上的大模型主要是基于外文資料,再加上少量的中文資料,這樣訓練出來的大模型,對中文的理解能力以及對中文內容的生成能力是有欠缺的。”
蜜度是此次加入中國大模型語料數據聯盟的9位“新成員”之一。現場,蜜度發布了包含7000多萬條數據的開源中文語料數據集。
劉益東說,在大模型“百花齊放”的發展背景下,需要有一些機構或團體去做“公共建設”,去推動這個行業的發展,企業樂于加入其中。
上海市經濟和信息化委員會人工智能發展處處長王志佳表示,“百模大戰”不是一場零和游戲,攜手并進才能把生成式人工智能真正與生產力相結合,把大模型這個“冷灶”真正“燒熱”起來。
他指出,建設高質量語料庫是大模型產業鏈的關鍵環節。大模型語料數據的多元供給需要多方協力、共同推進。(完)
標簽: