image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Volete sentirvi vecchi? Il Blu-ray compie oggi 20 anni Volete sentirvi vecchi? Il Blu-ray compie oggi 20 anni...
Immagine di Intel Arc B770 compare su GitHub prima del lancio al CES 2026 Intel Arc B770 compare su GitHub prima del lancio al CES 202...

Una ricerca mostra come ridurre al minimo i consumi delle IA senza perdere prestazioni

I consumi dei data center e delle applicazioni IA sono troppo alti ma forse c'è un modo per ridurli drasticamente e renderli più sostenibili.

Advertisement

Avatar di Marco Silvestri

a cura di Marco Silvestri

Editor @Tom's Hardware Italia

Pubblicato il 26/06/2024 alle 16:15
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Uno studio pubblicato dell'Università della California, Santa Cruz, ha rivelato la scoperta di un modo per far funzionare i moderni modelli di linguaggio di grandi dimensioni (LLM) con soli 13 Watt di potenza. Per avere un valore di riferimento, parliamo all'incirca dello stesso consumo energetico di una lampadina LED da 100W equivalente. Al contempo si parla di una riduzione di 50 volte rispetto ai 700W di potenza necessari per alimentare le GPU per i data center come la Nvidia H100 e H200, senza contare la futura Blackwell B200 che può arrivare fino a 1200W per GPU.

I ricercatori hanno ottenuto questi risultati utilizzando hardware custom FGPA, chiarendo che la maggior parte dei guadagni in termini di efficienza può essere applicata tramite software open-source e ottimizzazioni degli attuali setup. La chiave di queste prestazioni elevate è stata la rimozione della matrice di moltiplicazione (MatMul) dai processi di addestramento e inferenza dei LLM.

Immagine id 16148

Ma come hanno fatto a rimuovere la MatMul da una rete neurale mantenendo le stesse prestazioni e accuratezza? I ricercatori hanno combinato due metodi. Innanzitutto, hanno convertito il sistema numerico in un sistema "ternario" utilizzando -1, 0 e 1. Questo rende possibile il calcolo sommando piuttosto che moltiplicando i numeri. Successivamente, hanno introdotto il calcolo basato sul tempo nell'equazione, dando alla rete una sorta di "memoria" per permetterle di eseguire ancora più rapidamente con meno operazioni.

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

Il modello di riferimento utilizzato dai ricercatori è stato il LLM di Meta, LLaMa. L’ispirazione per il progetto è venuta da un paper di Microsoft sull’uso dei numeri ternari nelle reti neurali, anche se Microsoft non è arrivata a rimuovere la moltiplicazione della matrice o a rendere open-source il proprio modello come hanno fatto i ricercatori dell'UC Santa Cruz.

In sostanza, si tratta di un problema di ottimizzazione. Rui-Jie Zhu, uno dei ricercatori che ha lavorato al paper, ha spiegato:

"Abbiamo sostituito l'operazione costosa con operazioni più economiche". Resta da vedere se l'approccio possa essere applicato universalmente alle soluzioni AI e LLM, ma se fosse possibile, potrebbe cambiare radicalmente il panorama dell'AI.

Negli ultimi anni, abbiamo assistito a una crescente domanda di potenza dai principali aziende di IA. Questa ricerca suggerisce che gran parte di questo aumento è dovuto all'uso di metodi di elaborazione inefficienti. Figure autorevoli, come il CEO di Arm, avvertono che se la domanda di potenza dell'AI continua a crescere ai tassi attuali, potrebbe consumare un quarto dell'energia degli Stati Uniti entro il 2030. Ridurre l'utilizzo di potenza a un cinquantesimo dell’attuale quantità rappresenterebbe un miglioramento significativo.

Ci auguriamo che aziende come Meta, OpenAI, Google, Nvidia e altri grandi player trovino modi per sfruttare questa innovazione open-source. Un'elaborazione più veloce e molto più efficiente dei carichi di lavoro dell'IA ci avvicinerebbe a livelli di funzionalità simili al cervello umano(che consuma circa 0,3 kWh di potenza al giorno, circa 1/56 di ciò che richiede una Nvidia H100). Naturalmente, molti LLM richiedono decine di migliaia di queste GPU e mesi di addestramento, quindi il nostro cervello non è completamente sorpassato, almeno per ora.

Fonte dell'articolo: www.tomshardware.com

Le notizie più lette

#1
Carte rubate senza toccarle, la nuova frode dei wallet digitali
7

Smartphone

Carte rubate senza toccarle, la nuova frode dei wallet digitali

#2
Saremo tutti ricchissimi e nessuno lavorerà più
8

Business

Saremo tutti ricchissimi e nessuno lavorerà più

#3
Intel Arc B770 compare su GitHub prima del lancio al CES 2026
2

CES 2026

Intel Arc B770 compare su GitHub prima del lancio al CES 2026

#4
Volete sentirvi vecchi? Il Blu-ray compie oggi 20 anni
5

CES 2026

Volete sentirvi vecchi? Il Blu-ray compie oggi 20 anni

#5
I migliori leader non devono essere simpatici: il primato del rispetto sul consenso
1

Business

I migliori leader non devono essere simpatici: il primato del rispetto sul consenso

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

Intel Arc B770 compare su GitHub prima del lancio al CES 2026
2

CES 2026

Intel Arc B770 compare su GitHub prima del lancio al CES 2026

Di Andrea Maiellano
Volete sentirvi vecchi? Il Blu-ray compie oggi 20 anni
5

CES 2026

Volete sentirvi vecchi? Il Blu-ray compie oggi 20 anni

Di Andrea Maiellano
AMD:come seguire il keynote di Lisa Su al CES 2026
3

CES 2026

AMD:come seguire il keynote di Lisa Su al CES 2026

Di Andrea Maiellano
Intel presenta i processori Core Ultra Series 3 al CES 2026

CES 2026

Intel presenta i processori Core Ultra Series 3 al CES 2026

Di Andrea Maiellano
Musk di nuovo nei guai, Grok sveste le ragazze (senza consenso)
9

Hardware

Musk di nuovo nei guai, Grok sveste le ragazze (senza consenso)

Di Andrea Maiellano

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.