image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Black Friday

Novità!

Prova la nuova modalità di navigazione con le storie!

Accedi a Xenforo
Immagine di Windows 26 riprende l’eredità di Vista e 7, ma con stile Windows 26 riprende l’eredità di Vista e 7, ma con stile...
Immagine di Scatta il blocco sui siti porno: cosa succede ora? Scatta il blocco sui siti porno: cosa succede ora?...

Una ricerca mostra come ridurre al minimo i consumi delle IA senza perdere prestazioni

I consumi dei data center e delle applicazioni IA sono troppo alti ma forse c'è un modo per ridurli drasticamente e renderli più sostenibili.

Advertisement

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più
Avatar di Marco Silvestri

a cura di Marco Silvestri

Editor

Pubblicato il 26/06/2024 alle 16:15

Uno studio pubblicato dell'Università della California, Santa Cruz, ha rivelato la scoperta di un modo per far funzionare i moderni modelli di linguaggio di grandi dimensioni (LLM) con soli 13 Watt di potenza. Per avere un valore di riferimento, parliamo all'incirca dello stesso consumo energetico di una lampadina LED da 100W equivalente. Al contempo si parla di una riduzione di 50 volte rispetto ai 700W di potenza necessari per alimentare le GPU per i data center come la Nvidia H100 e H200, senza contare la futura Blackwell B200 che può arrivare fino a 1200W per GPU.

I ricercatori hanno ottenuto questi risultati utilizzando hardware custom FGPA, chiarendo che la maggior parte dei guadagni in termini di efficienza può essere applicata tramite software open-source e ottimizzazioni degli attuali setup. La chiave di queste prestazioni elevate è stata la rimozione della matrice di moltiplicazione (MatMul) dai processi di addestramento e inferenza dei LLM.

Immagine id 16148

Ma come hanno fatto a rimuovere la MatMul da una rete neurale mantenendo le stesse prestazioni e accuratezza? I ricercatori hanno combinato due metodi. Innanzitutto, hanno convertito il sistema numerico in un sistema "ternario" utilizzando -1, 0 e 1. Questo rende possibile il calcolo sommando piuttosto che moltiplicando i numeri. Successivamente, hanno introdotto il calcolo basato sul tempo nell'equazione, dando alla rete una sorta di "memoria" per permetterle di eseguire ancora più rapidamente con meno operazioni.

Il modello di riferimento utilizzato dai ricercatori è stato il LLM di Meta, LLaMa. L’ispirazione per il progetto è venuta da un paper di Microsoft sull’uso dei numeri ternari nelle reti neurali, anche se Microsoft non è arrivata a rimuovere la moltiplicazione della matrice o a rendere open-source il proprio modello come hanno fatto i ricercatori dell'UC Santa Cruz.

In sostanza, si tratta di un problema di ottimizzazione. Rui-Jie Zhu, uno dei ricercatori che ha lavorato al paper, ha spiegato:

"Abbiamo sostituito l'operazione costosa con operazioni più economiche". Resta da vedere se l'approccio possa essere applicato universalmente alle soluzioni AI e LLM, ma se fosse possibile, potrebbe cambiare radicalmente il panorama dell'AI.

Negli ultimi anni, abbiamo assistito a una crescente domanda di potenza dai principali aziende di IA. Questa ricerca suggerisce che gran parte di questo aumento è dovuto all'uso di metodi di elaborazione inefficienti. Figure autorevoli, come il CEO di Arm, avvertono che se la domanda di potenza dell'AI continua a crescere ai tassi attuali, potrebbe consumare un quarto dell'energia degli Stati Uniti entro il 2030. Ridurre l'utilizzo di potenza a un cinquantesimo dell’attuale quantità rappresenterebbe un miglioramento significativo.

Ci auguriamo che aziende come Meta, OpenAI, Google, Nvidia e altri grandi player trovino modi per sfruttare questa innovazione open-source. Un'elaborazione più veloce e molto più efficiente dei carichi di lavoro dell'IA ci avvicinerebbe a livelli di funzionalità simili al cervello umano(che consuma circa 0,3 kWh di potenza al giorno, circa 1/56 di ciò che richiede una Nvidia H100). Naturalmente, molti LLM richiedono decine di migliaia di queste GPU e mesi di addestramento, quindi il nostro cervello non è completamente sorpassato, almeno per ora.

Fonte dell'articolo: www.tomshardware.com

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione
Advertisement

Non perdere gli ultimi aggiornamenti

Newsletter Telegram

I più letti di oggi


  • #1
    Lavorare 72 ore a settimana, il nuovo modello che piace a USA e Cina
  • #2
    BMW X3 20d: il SUV più desiderato d'Italia cambia forma
  • #3
    Sono già 8 milioni gli utenti che programmano con Lovable AI
  • #4
    22% di sconto su Amazon con appena 25€ di spesa
  • #5
    Può esistere massa senza il bosone di Higgs?
  • #6
    Scatta il blocco sui siti porno: cosa succede ora?
Articolo 1 di 5
Scatta il blocco sui siti porno: cosa succede ora?
Da oggi 12 novembre, in Italia i siti per adulti devono adottare sistemi di verifica dell'età sicuri e indipendenti, così da rispettare le nuove norme AGCOM.
Immagine di Scatta il blocco sui siti porno: cosa succede ora?
40
Leggi questo articolo
Articolo 2 di 5
Windows 26 riprende l’eredità di Vista e 7, ma con stile
Il designer Abdi propone un Windows 26 che recupera l'estetica di Vista e 7 con il Liquid Glass, mentre Microsoft punta su AI e piattaforme agentiche.
Immagine di Windows 26 riprende l’eredità di Vista e 7, ma con stile
7
Leggi questo articolo
Articolo 3 di 5
Addio visori ingombranti: l’AR fa un salto avanti
Un team dell’Università di Rochester ha creato un nuovo componente ottico che promette di rendere gli occhiali AR più luminosi, efficienti e compatti.
Immagine di Addio visori ingombranti: l’AR fa un salto avanti
Leggi questo articolo
Articolo 4 di 5
AMD Ryzen 5 7500X3D: la 3D V-Cache economica costa troppo? | Test & Recensione
L'ultimo nato con 3D V-Cache ha le carte in regola per finire in tutti i PC da gaming entry level, ma dovrà avere il giusto prezzo.
Immagine di AMD Ryzen 5 7500X3D: la 3D V-Cache economica costa troppo? | Test & Recensione
6
Leggi questo articolo
Articolo 5 di 5
Quante ne sai su i monitor CRT? Mettiti alla prova con il nostro quiz
Sono passati quasi quarant'anni dalla loro epoca d'oro, ma la magia dei monitor CRT è ancora vivida. Quante ne sapete su questi prodotti?
Immagine di Quante ne sai su i monitor CRT? Mettiti alla prova con il nostro quiz
3
Leggi questo articolo
Advertisement
Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.