Taalas HC1 "hardwire" Llama 3.1 8B, direttamente su chip: 17.000 token al secondo, 1.000x più efficiente di una GPU convenzionale. L'inferenza AI non sarà più la stessa.
La startup canadese Taalas ha creato HC1, un chip con un LLM al suo interno. Più in particolare, si tratta di Llama 3.1 8B, che in un certo senso è "inciso letteralmente nel silicio", con i pesi nel cablaggio del chip stesso. Il risultato è un acceleratore che produce fino a 17.000 token al secondo per l'inferenza su quel modello specifico — superando acceleratori datacenter come la NVIDIA B200, la H200 e i chip Cerebras, che sono i principali riferimenti del mercato per l'inferenza ad alta performance.
HC1 non è solo 10 volte più veloce dei chip Cerebras, ma anche 20 volte meno costoso da costruire e consuma 10 volte meno energia. Taalas rivendica un miglioramento di 1.000x in performance-per-watt e performance-per-dollar rispetto all'hardware GPU convenzionale. Un singolo rack standard — raffreddato ad aria, senza liquid cooling — può ospitare dieci schede HC1 da 250W, erogando la potenza di un intero cluster GPU in un unico server.
- Training è il processo in cui il modello impara: vengono elaborati miliardi di dati, i parametri vengono aggiustati iterativamente per minimizzare gli errori. È costoso, lento, richiede enormi risorse computazionali (GPU/TPU per settimane o mesi). Si fa una volta (o periodicamente).
- Inferenza è quando il modello già addestrato risponde a una richiesta. È molto più leggera, avviene in tempo reale, ma su scala massiva diventa comunque un costo rilevante per chi gestisce i servizi AI.
Per capire perché questi numeri siano possibili bisogna capire il problema che HC1 risolve: il Memory Wall. Le GPU tradizionali separano calcolo e memoria, e quando eseguono un'inferenza, usano quasi il 90% del tempo e dell'energia a spostare i pesi del modello dalla memoria High Bandwidth (HBM) ai core di calcolo. Taalas elimina questo ciclo alla radice, fondendo storage e compute in un unico chip a densità DRAM — e rendendo superflua l'HBM esterna che rende così costose le H200 e le B200.
Un time to first token instantaneo
Chiunque abbia provato a usare un LLM integrato in un'applicazione sa che il ritardo nella generazione del testo — il time to first token — è la principale fonte di attrito nell'esperienza utente. A 17.000 token al secondo, questo problema scompare.
Taalas ha messo online una demo pubblica su cui chiunque può misurarlo: domande semplici vengono processate a quasi 20.000 token al secondo; query più complesse scendono tra i 15.000 e i 16.000. Il chip è prodotto da TSMC su processo a 6nm, misura 815mm² e integra 53 miliardi di transistor.
Il limite ovvio di questo approccio è la rigidità. Incidere un modello nel silicio significa che quel chip funziona con quel modello, e solo con quello; non ci saranno futuri aggiornamenti né modifiche sostanziali. HC1 tuttavia supporta il fine-tuning tramite LoRA e la context window configurabile, ma la flessibilità resta strutturalmente limitata rispetto a una GPU.
Stiamo migrando verso l'inferenza
Come ha già riconosciuto anche Nvidia, il mercato dell'inferenza si sta muovendo verso hardware specializzato — e il trade-off tra flessibilità e efficienza è il nodo centrale di questa transizione.
Taalas ha risolto il problema della flessibilità attraverso l'automazione del design. Storicamente, progettare un ASIC richiedeva due anni e decine di milioni di dollari. Taalas ha costruito un sistema automatizzato — simile a un compilatore — che riceve i pesi del modello e genera il design del chip in circa una settimana. Modificando solo i metal mask superiori del silicio, il ciclo "pesi-to-silicio" si comprime a 60 giorni. Un ciclo abbastanza breve da considerare la produzione di nuovi chip via via che escono nuovi modelli.
La startup non è la sola a scommettere su questa direzione. Per esempio, MatX ha raccolto 500 milioni per sviluppare chip LLM 10x più efficienti delle GPU Nvidia, con produzione TSMC prevista dal 2027. Il mercato dei chip per l'inferenza AI si sta affollando rapidamente — il che conferma la tesi di Taalas, ma aumenta anche la pressione competitiva.
A cosa serve un chip come questo?
Il mercato a cui punta Taalas è quello dell'inferenza di produzione: non la ricerca, non il training, ma il deployment di modelli consolidati a scala. È la fase in cui ci si trova oggi, dove il costo per token è la metrica che conta. Taalas descrive questa transizione come il passaggio "dalle pale alle stampanti": le GPU di Nvidia servono ancora per il training e la sperimentazione, ma quando si distribuiscono milioni di interazioni al secondo su un modello stabile, portano con sé un costo strutturale che un chip hardwired elimina.
La startup ha già raccolto 219 milioni di dollari in finanziamenti. L'HC2 — seconda generazione, densità più alta, velocità ancora maggiore — è atteso entro fine 2026. Durante il Q2 arriverà un modello di ragionamento di medie dimensioni, ancora basato sull'HC1. La roadmap è aggressiva e non priva di rischi: se i modelli di riferimento cambiano struttura radicalmente — passando a architetture mixture-of-experts molto più grandi — la proposta di Taalas potrebbe richiedere adattamenti non banali.
Tuttavia, per contesti specifici e limitati, sembra essere una specie di Uovo di Colombo.
Finché il mercato era dominato dal training, le GPU generaliste di Nvidia erano insostituibili. Ora che il baricentro si sposta sull'inferenza di produzione, la specializzazione hardware diventa competitiva. E se il ciclo di obsolescenza dei modelli si stabilizza — se Llama 3.1 8B o un suo discendente rimane il modello di riferimento per l'inferenza per 12-18 mesi — il vantaggio di efficienza di un chip hardwired diventa un vantaggio economico difficile da ignorare.