OpenAI ha annunciato che a partire dal 5 dicembre 2024, ora locale, si terrà una serie di eventi di lancio o dimostrazione della durata di 12 giorni (uno per ogni giorno lavorativo). Sebbene al momento non si sappia esattamente cosa comporteranno ogni evento, secondo varie fonti e supposizioni, potrebbero includere quanto segue:
Primo, il rilascio pubblico del tool di generazione video Sora
Sora è un nuovo prodotto di OpenAI presentato all'inizio dell'anno, ed è stato in stato di test interno su invito. L'ex CTO dell'azienda, Mira Murati, ha affermato che Sora potrebbe essere rilasciato pubblicamente agli utenti entro la fine dell'anno, quindi è molto probabile che Sora venga presentato in uno di questi 12 eventi di lancio. Nel campo dell'intelligenza artificiale, la tecnologia di generazione video da testo è un'area di ricerca molto popolare. Ad esempio, Google ha anche lanciato il suo ultimo modello video generativo chiamato Veo. Il rilascio di Sora offrirà agli utenti nuovi modi di creare contenuti, ad esempio gli utenti possono inserire una sceneggiatura e Sora genererà contenuti video corrispondenti, con ampie prospettive di applicazione in produzione cinematografica, creazione pubblicitaria, produzione di video educativi, ecc.
Secondo, un nuovo modello di ragionamento
Secondo rapporti di TheVerge e altri media, il nuovo prodotto include un nuovo modello di ragionamento, che potrebbe essere una versione completa del modello o1 o un altro modello AI di ragionamento simile. Le capacità di ragionamento sono cruciali nell'intelligenza artificiale, per esempio nel trattamento di problemi scientifici e matematici complessi, nell'analisi logica, ecc. In precedenza, OpenAI aveva pianificato di lanciare modelli focalizzati sul ragionamento, come il modello "Fragola" menzionato in precedenza, che è anch'esso un prodotto AI focalizzato sul ragionamento. Il nuovo modello di ragionamento potrebbe dimostrarsi più efficiente e preciso nel gestire compiti complessi, contribuendo a migliorare la competitività di OpenAI nel campo del ragionamento AI e potrebbe anche essere applicato in ambiti come la sanità, la ricerca scientifica, ecc. che richiedono ragionamenti logici complessi.
Terzo, nuovi miglioramenti vocali e funzionalità nel modello vocale di ChatGPT
1. Nuova voce
OpenAI potrebbe aggiungere una voce speciale al modello vocale di ChatGPT (si dice che potrebbe essere la voce di Babbo Natale), e alcuni utenti hanno già scoperto nel codice che il pulsante del modello vocale può trasformarsi in una forma di fiocco di neve, il che potrebbe essere un indizio relativo alla nuova voce. L'aggiunta di una nuova voce potrebbe offrire agli utenti un'esperienza interattiva più diversificata, ad esempio in occasioni festive specifiche o in scenari tematici, una voce speciale potrebbe aumentare il divertimento e l'immersione.
2. Miglioramenti delle funzionalità
Il modello vocale avanzato di ChatGPT ha margini di miglioramento, e potrebbe implementare la connessione a ricerche in tempo reale su Internet, così come l'analisi del mondo reale tramite la connessione a telecamere. Se viene realizzata la connessione a ricerche in tempo reale su Internet, ChatGPT potrà fornire informazioni più tempestive e accurate, non essendo più limitato dalle conoscenze contenute nei dati di addestramento precedenti; l'analisi del mondo reale tramite telecamere potrebbe espandere le sue applicazioni in scenari come l'IoT e le smart home, ad esempio riconoscendo le condizioni ambientali interne o effettuando monitoraggio della sicurezza.
Quarto, altri contenuti di rilascio potenziali
1. Funzionalità di generazione di immagini sbloccata per il modello GPT - 4o
La funzionalità di generazione di immagini del modello GPT - 4o, che è stata sempre bloccata, ha mostrato risultati impressionanti e capacità di controllo generativo in dimostrazioni precedenti, e questo modello ha anche capacità di analisi video nativa. Se la funzionalità di generazione di immagini viene sbloccata, allora GPT - 4o avrà capacità più complete nella generazione di contenuti multimediali, permettendo agli utenti di utilizzarlo per la creazione di immagini, design, ecc.
2. o2 modello o anteprima di GPT - 5o
Gli utenti sono molto ansiosi di vedere l'anteprima del modello o2 o di GPT - 5o. Se all'evento di lancio sarà mostrata un'anteprima correlata, gli utenti e gli sviluppatori potranno avere un'idea anticipata della direzione futura dei modelli di OpenAI, che potrebbero riguardare informazioni sull'architettura del modello, miglioramenti delle prestazioni, nuove funzionalità, ecc., e avrà anche un certo impatto sulle tendenze di sviluppo dell'industria.
3. Anticipazione del tool di sintesi vocale e del framework AI noto come "Operatore"
Il tool di sintesi vocale di OpenAI e il framework AI noto con il nome in codice "Operatore" sono previsti per essere rilasciati il prossimo anno, ma potrebbero anche debuttare nelle prossime due settimane. Il tool di sintesi vocale può essere utilizzato in ambiti come l'interazione vocale e la produzione di audiolibri; il framework AI aiuta a costruire agenti intelligenti e più efficienti, applicabili in assistenza clienti intelligente, gestione dei processi automatizzati, ecc.

