該公司首席技術官 Mira Murati 並不清楚 OpenAI 即將推出的視頻生成人工智能模型 Sora 的數據來源。

在 3 月 13 日接受《華爾街日報》採訪時,當被問及該公司 Sora 模型的數據來源時,Murati 給出了含糊的回答,該模型能夠根據文本指令生成視頻。

“我們使用公開數據和許可數據,”Murati 在談到這家估值 800 億美元的公司如何訓練其即將推出的模型時回答道。

《華爾街日報》的喬安娜·斯特恩 (Joanna Stern) 隨後詢問 Sora 是否接受過 YouTube、Instagram 或 Facebook 等社交媒體平臺的數據訓練。 “我實際上對此並不確定,”穆拉蒂回答道,並補充道:

“你知道,如果它們是公開可用的——公開可用。但我不確定。我對此沒有信心。”

在轉向另一個話題之前,Stern 提到了 OpenAI 與庫存圖片公司 Shutterstock 的合作關係,詢問其數據是否可以用於訓練 Sora。 “我只是不打算詳細介紹所使用的數據。但它是公開可用或許可的數據,”穆拉蒂補充道。後來,她向《華爾街日報》證實,Sora 使用了 Shutterstock 數據。

AI 模型使用大量數據(稱爲訓練數據集)進行訓練,這些數據可幫助模型學習識別模式、進行預測或理解語言。

OpenAI 首席技術官 Mira Murati 接受《華爾街日報》採訪。資料來源:華爾街日報

Murati 自 2018 年以來一直在 OpenAI 工作,領導了該公司一些最受歡迎的項目,包括圖像生成器模型 DALL-E 3、語音識別工具 Whisper 以及該公司最新版本的聊天機器人 GPT-4。 2023 年 11 月,在 OpenAI 董事會罷免 Sam Altman 後,她短暫接任臨時首席執行官。

OpenAI 已成爲多項涉及其人工智能模型訓練數據的法律訴訟的目標。 2023 年 7 月,作者 Sarah Silverman、Richard Kadrey 和 Christopher Golden對該公司提起訴訟,指控 ChatGPT 根據受版權保護的內容生成作者作品的摘要。

去年 12 月,《紐約時報》在一項類似的版權侵權訴訟中起訴微軟和 OpenAI,指控這些公司使用報紙的內容來訓練人工智能聊天機器人。另一項集體訴訟在加利福尼亞州提起,指控 OpenAI 在未經用戶同意的情況下從互聯網上抓取私人用戶信息來訓練 ChatGPT。

雜誌:Inside Pink Drainer — 安全分析師捍衛他的加密貨幣詐騙專營權