Riflessioni sui modelli linguistici di OpenAI o1 e o3 per 5 secondi

  • A settembre 2024, l'azienda ha presentato un'anteprima del modello linguistico o1.
  • OpenAI ha annunciato i modelli o3 e o3-mini.
    • Il modello precedente si chiama o1.
    • L'azienda ha deliberatamente saltato un numero "per rispetto a Telefonica (un'azienda di telecomunicazioni che opera con il marchio O2) e la tradizione di inventare nomi pessimi," ha detto il CEO di OpenAI Sam Altman.
  • Gli sviluppatori hanno addestrato o3 a "pensare" prima di rispondere a una domanda dell'utente.
    • Il modello risponde con un leggero ritardo.
    • Ribadisce la sua catena di ragionamento prima di fornire la risposta che considera più accurata, secondo TechCrunch.
  • Gli utenti possono "regolare" il tempo per il ragionamento — più tempo viene dato al modello, meglio può gestire una richiesta.
  • Nel test ARC-AGI, progettato per misurare la capacità di un'IA di apprendere abilità oltre i suoi dati di addestramento, o3 ha ottenuto un punteggio dell'87,5%.
    • Un punteggio dell'85% è considerato "livello umano".
    • TechCrunch nota che questi risultati dovrebbero essere presi con cautela in attesa di test esterni.
Un confronto tra la versione di anteprima di o1, o1 e le prestazioni di o3:Grafico a sinistra: una competizione matematicaGrafico a destra: un questionario con domande scientifiche a livello di laureaScala verticale: accuratezza delle risposte (fonte: OpenAI)
  • Attualmente, entrambi i modelli non sono disponibili al pubblico generale, ma saranno aperti per test di sicurezza pubblici — i ricercatori di sicurezza potranno testarli.
    • Secondo Altman, OpenAI prevede di rilasciare o3-mini entro la fine di gennaio 2025, seguito da o3.
  • OpenAI ha introdotto l'anteprima del modello linguistico o1 (focalizzato su compiti che richiedono ragionamento) a settembre 2024.
    • All'inizio di dicembre, l'azienda ha rilasciato la versione completa di o1 e ha aggiunto un abbonamento ChatGPT Pro con accesso a una versione "esclusiva".