中國大模型語料數(shù)據(jù)聯(lián)盟開源發(fā)布高質量多模態(tài)語料“書生·萬卷”
2023-08-14 20:32:47 | 來源:云財經(jīng) |
2023-08-14 20:32:47 | 來源:云財經(jīng) |
(相關資料圖)
繼今年7月在2023世界人工智能(161631)大會發(fā)起成立“中國大模型語料數(shù)據(jù)聯(lián)盟”,上海人工智能(161631)實驗室于8月14日宣布,聯(lián)合語料數(shù)據(jù)聯(lián)盟成員單位,共同開源發(fā)布“書生·萬卷”1.0多模態(tài)預訓練語料。“書生·萬卷”1.0目前包含文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分,本次開源的數(shù)據(jù)總量超過2TB。該語料數(shù)據(jù)包含超過5億個文本,2200萬個圖文交錯文檔,1000個節(jié)目影像視頻,具備多元融合、精細處理、價值對齊、易用高效等四大特征。(上證報)