Vladimir Malinovsky, un ricercatore del dipartimento scientifico di Yandex, ha sviluppato un servizio rivoluzionario che consente di eseguire modelli linguistici di grandi dimensioni con 8 miliardi di parametri su computer normali o persino smartphone, direttamente tramite un browser web. Ecco una panoramica di questa tecnologia innovativa:
Accessibile su Dispositivi Standard
- Il servizio utilizza Llama 3.1-8B, un grande modello linguistico ridotto di otto volte—da 20GB a 2,5GB.
- Gli utenti possono testare il servizio su una pagina web dedicata, dove il modello viene scaricato sul loro dispositivo per l'uso offline.
Funzionalità Offline
- Dopo il download, il modello funziona completamente senza richiedere una connessione internet, garantendo privacy e indipendenza dai servizi cloud.
Prestazioni
- La velocità del modello dipende dalla potenza di elaborazione del dispositivo:
- Ad esempio, su un MacBook Pro con processore M1, il modello genera circa 3-4 caratteri al secondo.
Costruito con Tecnologie Moderne
- Rust e WebAssembly:
- Il servizio è scritto in Rust e sfrutta WebAssembly, una tecnologia che consente alle applicazioni di funzionare in modo efficiente all'interno di un browser web su più piattaforme e linguaggi.
Tecniche di Compressione Avanzate
- Il servizio impiega metodi all'avanguardia sviluppati in collaborazione da:
- Yandex Research
- Istituto di Scienza e Tecnologia Austria (ISTA)
- Università di Scienza e Tecnologia Re Abdullah (KAUST)
Due Strumenti Principali
- Compressione del Modello:
- Comprimi i modelli fino a otto volte, permettendo loro di funzionare su una singola GPU invece di più GPU.
- Correzione degli Errori:
- Mitiga gli errori introdotti durante la compressione, garantendo l'alta qualità delle risposte della rete neurale.
Lancio e Open Source
- Il progetto è stato presentato per la prima volta nell'estate 2024 ed è stato reso disponibile al pubblico.
- Il codice sorgente è accessibile pubblicamente su GitHub, invitando gli sviluppatori a esplorare e costruire su questa innovazione.