OpenAI 的 Mira Murati “不確定”Sora 的訓練數據來自哪裏

該公司首席技術官 Mira Murati 並不清楚 OpenAI 即將推出的視頻生成人工智能模型 Sora 的數據來源。
在 3 月 13 日接受《華爾街日報》採訪時，當被問及該公司 Sora 模型的數據來源時，Murati 給出了含糊的回答，該模型能夠根據文本指令生成視頻。
“我們使用公開數據和許可數據，”Murati 在談到這家估值 800 億美元的公司如何訓練其即將推出的模型時回答道。
《華爾街日報》的喬安娜·斯特恩 (Joanna Stern) 隨後詢問 Sora 是否接受過 YouTube、Instagram 或 Facebook 等社交媒體平臺的數據訓練。 “我實際上對此並不確定，”穆拉蒂回答道，並補充道：
 “你知道，如果它們是公開可用的——公開可用。但我不確定。我對此沒有信心。”
在轉向另一個話題之前，Stern 提到了 OpenAI 與庫存圖片公司 Shutterstock 的合作關係，詢問其數據是否可以用於訓練 Sora。 “我只是不打算詳細介紹所使用的數據。但它是公開可用或許可的數據，”穆拉蒂補充道。後來，她向《華爾街日報》證實，Sora 使用了 Shutterstock 數據。
AI 模型使用大量數據（稱爲訓練數據集）進行訓練，這些數據可幫助模型學習識別模式、進行預測或理解語言。
OpenAI 首席技術官 Mira Murati 接受《華爾街日報》採訪。資料來源：華爾街日報
Murati 自 2018 年以來一直在 OpenAI 工作，領導了該公司一些最受歡迎的項目，包括圖像生成器模型 DALL-E 3、語音識別工具 Whisper 以及該公司最新版本的聊天機器人 GPT-4。 2023 年 11 月，在 OpenAI 董事會罷免 Sam Altman 後，她短暫接任臨時首席執行官。
OpenAI 已成爲多項涉及其人工智能模型訓練數據的法律訴訟的目標。 2023 年 7 月，作者 Sarah Silverman、Richard Kadrey 和 Christopher Golden對該公司提起訴訟，指控 ChatGPT 根據受版權保護的內容生成作者作品的摘要。
去年 12 月，《紐約時報》在一項類似的版權侵權訴訟中起訴微軟和 OpenAI，指控這些公司使用報紙的內容來訓練人工智能聊天機器人。另一項集體訴訟在加利福尼亞州提起，指控 OpenAI 在未經用戶同意的情況下從互聯網上抓取私人用戶信息來訓練 ChatGPT。
雜誌：Inside Pink Drainer — 安全分析師捍衛他的加密貨幣詐騙專營權

OpenAI 的 Mira Murati “不確定”Sora 的訓練數據來自哪裏

創作者的更多內容

實時新聞

OpenAI 的 Mira Murati “不確定”Sora 的訓練數據來自哪裏

創作者的更多內容

實時新聞

熱門文章