Come liberarsi dalla dipendenza dai modelli proprietari senza dover affrontare la complessità operativa della gestione delle infrastrutture GPU? Baseten, startup di San Francisco valutata di recente 2,15 miliardi di dollari, ha presentato la sua risposta con il lancio in versione definitiva di una piattaforma che promette di semplificare radicalmente l'addestramento di modelli AI open source. Si tratta di una svolta significativa per un'azienda finora concentrata prevalentemente sull'inferenza, e rappresenta il tentativo più ambizioso di conquistare l'intero ciclo di vita dell'implementazione dell'intelligenza artificiale.
Il nuovo servizio, chiamato Baseten Training, punta a risolvere i problemi infrastrutturali che affliggono le aziende quando cercano di personalizzare modelli AI open source: dalla gestione dei cluster GPU all'orchestrazione multi-nodo, passando per la pianificazione della capacità cloud. L'approccio adottato è deliberatamente di basso livello, lasciando alle imprese il pieno controllo su codice, dati e pesi dei modelli, ma eliminando le incombenze operative più onerose. Questa filosofia nasce da un precedente fallimento che il CEO Amir Haghighat oggi considera un insegnamento prezioso.
Circa due anni e mezzo fa, Baseten aveva già tentato di entrare nel mercato della formazione con un prodotto chiamato Blueprints, che però si rivelò un flop clamoroso. L'errore, spiega Haghighat, fu creare un livello di astrazione troppo elevato, un'esperienza "magica" dove gli utenti sceglievano programmaticamente un modello di base, i dati e alcuni iperparametri, aspettandosi che uscisse automaticamente un modello funzionante. Il risultato? Gli utenti non avevano l'intuizione necessaria per fare le scelte giuste e, quando i modelli non performavano, accusavano il prodotto. Baseten si trovò così a fare consulenza piuttosto che fornire infrastrutture, aiutando i clienti con problemi che spaziavano dalla deduplicazione dei dataset alla selezione dei modelli.
Dopo aver chiuso Blueprints, l'azienda si riconcentrò interamente sull'inferenza, promettendo di "guadagnarsi il diritto" a espandersi nuovamente. Quel momento è arrivato quest'anno, spinto da due constatazioni di mercato: la stragrande maggioranza dei ricavi di Baseten derivanti dall'inferenza proveniva da modelli personalizzati che i clienti addestravano altrove, e molte piattaforme concorrenti vincolavano i clienti attraverso termini di servizio che impedivano di esportare i pesi dei modelli personalizzati. Una strategia che Haghighat comprende ma non condivide, convinto che la vera sfida e il vero valore risiedano nell'inferenza, non nell'addestramento.
La domanda dei clienti, del resto, era diventata insistente. Haghighat racconta l'episodio di un cliente che gli confessò: "Guarda, ho comprato un sacco di H100 da un fornitore di servizi cloud. Devo connettermi tramite SSH il venerdì, eseguire la mia ottimizzazione e poi controllare lunedì per vedere se ha funzionato. A volte scopro che non ha funzionato per tutto il tempo." Un aneddoto che riassume perfettamente le frustrazioni operative che Baseten Training si propone di eliminare.
Sul fronte tecnico, la piattaforma offre supporto per l'addestramento multi-nodo su cluster di GPU NVIDIA H100 o B200, checkpointing automatico contro i guasti dei nodi, pianificazione dei lavori in meno di un minuto e integrazione con il sistema proprietario Multi-Cloud Management di Baseten. Quest'ultimo elemento è particolarmente strategico: consente di fornire dinamicamente capacità GPU su diversi provider cloud e regioni, evitando i vincoli di capacità e i contratti pluriennali tipici degli accordi con i grandi fornitori. Quando AWS ha subito un'interruzione importante alcune settimane fa, i servizi di inferenza di Baseten sono rimasti operativi grazie al reindirizzamento automatico del traffico verso altri provider, una funzionalità ora estesa anche ai carichi di lavoro di addestramento.
I primi risultati sul campo sono significativi. AlliumAI, startup specializzata nella strutturazione dei dati retail complessi, ha ottenuto un risparmio dell'84% sui costi rispetto agli approcci precedenti, riducendo le spese totali di inferenza da 46.800 a 7.530 dollari. Parsed, azienda che opera in settori critici come sanità, finanza e servizi legali, ha registrato una latenza end-to-end inferiore del 50% per i casi d'uso di trascrizione e ha avviato oltre 500 attività di formazione sulla piattaforma. Charles O'Neill, co-fondatore e direttore scientifico di Parsed, sottolinea come prima del passaggio a Baseten l'azienda soffrisse di prestazioni degradate a causa di bug del precedente fornitore e avesse difficoltà a scaricare i pesi dopo le sessioni di training.
La strategia di Baseten poggia su una convinzione di fondo: i modelli AI open source stanno raggiungendo livelli di qualità tali da consentire un'adozione aziendale su larga scala attraverso una messa a punto precisa. Non è nemmeno necessario che l'open source superi i modelli proprietari, sostiene Haghighat, perché entrambi stanno migliorando costantemente, sbloccando così nuove soglie di utilità per diversi casi d'uso. La proliferazione di tecniche di apprendimento per rinforzo e ottimizzazione supervisionata permette alle aziende di prendere un modello open source e renderlo "buono quanto il modello chiuso, non in tutto, ma in quella ristretta gamma di capacità che desiderano".
Questa tendenza è già visibile nell'attività Model APIs di Baseten, lanciata insieme a Training per fornire accesso di livello produttivo a modelli open source come DeepSeek V3 e R1, Llama 4 e Qwen 3. Il percorso ideale prevede che le aziende partano da modelli standard, si rendano conto della necessità di personalizzazione, passino a Training per la messa a punto e infine implementino sull'infrastruttura Dedicated Deployments di Baseten. Un funnel completo che copre l'intero ciclo di vita del modello.
L'interconnessione tra addestramento e inferenza è più profonda di quanto l'industria generalmente riconosca. Il team di Baseten dedicato alle prestazioni dei modelli utilizza intensamente la piattaforma di addestramento per creare "modelli bozza" per la decodifica speculativa, una tecnica avanzata che può accelerare notevolmente l'inferenza. L'azienda ha recentemente annunciato di aver raggiunto oltre 650 token al secondo sul modello GPT OSS 120B di OpenAI, con un miglioramento del 60% rispetto alle prestazioni di lancio, proprio grazie alla decodifica speculativa EAGLE-3, che richiede l'addestramento di piccoli modelli specializzati.
Questa interdipendenza tecnica rafforza la tesi secondo cui controllare sia l'addestramento che l'inferenza crea valore difendibile. Un modello addestrato su Baseten può essere distribuito con un solo clic su endpoint di inferenza pre-ottimizzati per quell'architettura specifica, con supporto per l'implementazione dal checkpoint per carichi di lavoro di completamento chat e trascrizione audio. Un approccio che contrasta con concorrenti verticalmente integrati come Replicate o Modal, che offrono anch'essi entrambi i servizi ma con compromessi architetturali diversi.
Il mercato delle infrastrutture AI è affollato e competitivo. I grandi provider cloud come AWS, Google Cloud e Microsoft Azure offrono elaborazione GPU per l'addestramento, mentre fornitori specializzati come Lambda Labs, CoreWeave e Together AI competono su prezzo e prestazioni. Ci sono poi piattaforme integrate come Hugging Face, Replicate e Modal che coprono addestramento, inferenza e hosting. La differenziazione di Baseten si articola su tre pilastri: il sistema MCM per la gestione multi-cloud della capacità, una competenza profonda nell'ottimizzazione delle prestazioni derivata dalla sua attività di inferenza e un'esperienza di sviluppo pensata per distribuzioni di produzione piuttosto che per sperimentazione.
Greg Schoeninger, CEO di Oxen AI, partner di Baseten nella gestione dei dataset e messa a punto dei modelli, articola un principio strategico condiviso da molti nel settore: "Ogni volta che ho visto una piattaforma provare a gestire sia l'hardware che il software, di solito fallisce in uno dei due. Ecco perché collaborare con Baseten per la gestione dell'infrastruttura è stata la scelta ovvia." Oxen ha costruito la propria esperienza cliente interamente sull'infrastruttura di Baseten, utilizzando la CLI per orchestrare programmaticamente i processi di training e nascondendo completamente l'interfaccia di Baseten dietro la propria.
La recente valutazione di Serie D da 150 milioni di dollari offre a Baseten le risorse per investire contemporaneamente su entrambi i fronti. Tra i clienti principali figurano Descript per i carichi di lavoro di trascrizione, Decagon per l'AI nel servizio clienti e Sourcegraph per gli assistenti di programmazione, tutti operanti in settori dove personalizzazione e prestazioni costituiscono vantaggi competitivi decisivi. L'azienda sta anche sviluppando un "ML Cookbook" di ricette open source per modelli popolari come Gemma, GPT OSS e Qwen, progettato per accelerare il raggiungimento del "successo formativo".
Haghighat riconosce che il mercato rimane "confuso" su quali tecniche di addestramento domineranno. Baseten sta cercando di proteggersi rimanendo all'avanguardia attraverso il suo team di Forward Deployed Engineering, che lavora a stretto contatto con clienti selezionati su apprendimento per rinforzo, messa a punto supervisionata e altre tecniche avanzate. La roadmap futura include potenziali astrazioni per modelli di formazione comuni, espansione nella messa a punto di immagini, audio e video, e integrazione più profonda di tecniche come la disaggregazione prefill-decode, che separa l'elaborazione iniziale dei prompt dalla generazione di token.
La capacità di Baseten di realizzare questa visione dipenderà dalla gestione di tensioni intrinseche alla strategia: rimanere al livello infrastrutturale senza trasformarsi in consulenti, fornire potenza e flessibilità senza sopraffare gli utenti con complessità, sviluppare astrazioni al livello giusto man mano che il mercato matura. La volontà dell'azienda di abbandonare Blueprints quando fallì suggerisce un pragmatismo che potrebbe rivelarsi decisivo in un mercato dove molti fornitori di infrastrutture promettono troppo e mantengono poco. "Siamo un'azienda che si occupa di inferenza in senso stretto", ribadisce Haghighat. "Il motivo per cui abbiamo svolto attività di formazione è al servizio dell'inferenza." Una chiarezza di intenti che, trattando la formazione come mezzo piuttosto che come fine, potrebbe costituire la risorsa strategica più importante mentre l'AI aziendale avanza dalla sperimentazione alla produzione su larga scala.