產品
  • 產品
  • 廠商
  • 商情/研究報告
  • 活動
  • 影片
搜尋
我的帳戶
個人資料 我的最愛
登出
首頁 商情/ 研究報告 網路優質資料難求 2年內將供應短缺 影響AI發展
網路優質資料難求 2年內將供應短缺 影響AI發展
商業新聞
2024.04.16
+A -A

據媒體報導,爭相開發更強大人工智慧(AI)的企業很快就會遭遇一個新難題:比起他們的遠大計畫,網際網路太小了。

網路資源供不應求的主要原因是,有些資料所有人不讓AI公司透過網際網路取用他們擁有的資料,而網際網路上優質的公共資源也不多。有的AI業界高階主管與研究人員認為,符合AI訓練所需的高品質文本資料,可能在兩年內就會出現供應短缺問題,拖累AI發展速度。
知情人士說,AI公司已在尋找尚未開發的資料來源,也重新思考該如何訓練AI系統。ChatGPT開發商OpenAI就討論過,將公開的YouTube影片內容轉換成腳本,拿來訓練公司的下一代AI模型GPT-5。也有公司嘗試使用AI生成的資料(也稱「合成資料」)作為訓練材料,不過許多研究人員說,這種方法實際上可能會造成系統嚴重故障。

AI公司物色所需資料通常都秘密進行,業者相信,這些手段都攸關競爭優勢。

目前AI語言模型是使用取自網際網路的文本所建立,收進來的材料被分解成詞元(token),AI模型用它們來學習如何構建出類似人類的表達。

OpenAI沒有透露過目前最先進的語言模型GPT-4的詳細訓練材料。根據AI研究專家維拉羅伯推估,GPT-4的訓練素材應該已經多達12兆個詞元;而根據一個電腦運算擴展定律,如果繼續遵循當前軌跡,像GPT-5這樣的AI系統將需要60兆到100兆個詞元的資料。

Meta Platforms執行長祖克柏最近宣傳了公司可由自家旗下各平台獲取資料的能力,認定這將會是Meta發展AI的一大優勢。他說,Meta可以挖掘旗下Facebook、Instagram等網站上,數以千億計公開分享的圖片和影片,總量大於多數常用的資料集。不過數量雖大,但還不清楚有多大比率會被視為高品質資料。

OpenAI執行長奧特曼則說過,OpenAI正在研究訓練未來AI模型的新方法。他去年在一場會議上提到,「我認為我們正處於那種模型要很大、很大的時代的末期;我們會用其他方法讓AI系統變得更好」。

備註:經濟部駐外單位為利業者即時掌握商情,廣泛蒐集相關資訊供業者參考。國際貿易署無從查證所有訊息均屬完整、正確,讀者如需運用,應自行確認資訊之正確性。