Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
% Black Friday
%
Accedi a Xenforo
Immagine di Questa è la soluzione per modelli IA aziendali efficienti e trasparenti
Business
Immagine di Conto aziendale online per PMI e freelance: come Vivid semplifica la gestione finanziaria e valorizza la liquidità Conto aziendale online per PMI e freelance: come Vivid sempl...
Immagine di Smettila di subire l'IA e iniziare a usarla a tuo vantaggio, ecco come Smettila di subire l'IA e iniziare a usarla a tuo vantaggio,...

Questa è la soluzione per modelli IA aziendali efficienti e trasparenti

Framework open source per migliorare il ragionamento multimodale dei modelli linguistici con addestramento trasparente in due fasi e dataset di qualità.

Avatar di Antonino Caffo

a cura di Antonino Caffo

Editor @Tom's Hardware Italia

Pubblicato il 03/12/2025 alle 11:40

La notizia in un minuto

  • OpenMMReasoner è un framework completamente open source che permette di addestrare modelli linguistici multimodali con trasparenza totale e dataset più piccoli ma di qualità superiore, superando le prestazioni dei concorrenti
  • Il sistema utilizza un addestramento in due fasi: supervisione strutturata con distillazione dei dati e apprendimento per rinforzo con penalità per il "pensiero eccessivo", migliorando affidabilità ed efficienza
  • Vantaggi concreti per le aziende includono implementazione locale, riduzione di latenza e costi, pieno controllo sui dati ed eliminazione della dipendenza da sistemi proprietari opachi

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Un team di ricercatori di MiroMind AI e diverse università cinesi ha sviluppato un nuovo metodo per addestrare modelli linguistici multimodali che potrebbe cambiare le carte in tavola per le aziende che necessitano di sistemi di intelligenza artificiale più trasparenti ed efficienti. Il framework, chiamato OpenMMReasoner, si distingue per la sua natura completamente open source e per la capacità di ottenere prestazioni superiori utilizzando dataset più piccoli ma di qualità superiore rispetto ai concorrenti. La caratteristica più interessante è che tutto il processo di addestramento è completamente trasparente e riproducibile, un aspetto critico che finora è mancato in molte ricerche nel campo del ragionamento multimodale.

Kaichen Zhang, coautore dello studio che illustra la nuova metodologia, sottolinea i vantaggi pratici per le imprese: la possibilità di implementare localmente modelli più piccoli, ridurre la latenza, abbattere i costi associati ai processi di ragionamento estesi e mantenere il pieno controllo sui propri dati. Inoltre, questi modelli possono essere personalizzati per adattarsi a compiti specifici del settore. Si tratta di una risposta concreta alle esigenze di quelle organizzazioni che vogliono evitare la dipendenza da sistemi proprietari di grandi dimensioni, spesso considerati come scatole nere.

Ti potrebbe interessare anche

youtube play
Guarda su youtube logo

Il problema principale che OpenMMReasoner affronta riguarda proprio la mancanza di trasparenza che caratterizza molte ricerche recenti sul ragionamento multimodale. Numerosi studi non forniscono informazioni dettagliate sui processi di raccolta dati e addestramento, rendendo impossibile replicare i risultati o comprendere veramente i meccanismi alla base del funzionamento di questi modelli. Questa opacità limita la riproducibilità scientifica e impedisce una comprensione profonda di come vengono effettivamente costruiti i modelli multimodali capaci di ragionamento complesso.

Il cuore innovativo del sistema risiede in un processo di addestramento articolato in due fasi distinte. La prima fase prevede un addestramento supervisionato strutturato in tre passaggi: inizia con la raccolta di circa 103.000 coppie di domande e risposte da dataset pubblici che coprono compiti di comprensione visiva e ragionamento generale. Successivamente interviene un processo di distillazione dei dati, dove un modello potente genera nuove tracce di ragionamento di alta qualità per domande selezionate. L'elemento cruciale è l'aumento della diversità delle risposte, attraverso la generazione di molteplici percorsi di ragionamento verificati per ogni singola domanda, portando il dataset a 583.000 campioni.

Un modello più piccolo può essere più efficiente e controllabile di un gigante proprietario

La fase finale dell'addestramento supervisionato include un passaggio di "domain mixing", che integra dati provenienti da domini di ragionamento matematico per generalizzare ulteriormente le capacità del modello. Il risultato finale è un dataset di 874.000 esempi. Questo approccio graduale e stratificato rappresenta una sorta di blueprint che le aziende possono seguire per addestrare i propri modelli, anche quando dispongono di dati limitati specifici del proprio settore.

La seconda fase utilizza l'apprendimento per rinforzo su un dataset più piccolo di 74.000 campioni, curati da domini come scienza, matematica e puzzle logici. Il modello viene addestrato con una funzione di ricompensa composita che valuta sia la correttezza della risposta finale sia la coerenza del formato di output. Un aspetto particolarmente interessante è l'introduzione di una penalità per il "pensiero eccessivo", che scoraggia il modello dal generare risposte troppo lunghe, un problema comune nei modelli di ragionamento addestrati con rinforzo che tendono erroneamente a produrre sequenze di ragionamento eccessivamente estese.

Zhang spiega che questo processo passo dopo passo modifica radicalmente l'affidabilità degli output del modello. I modelli tradizionali tendono a "saltare" direttamente alla risposta, esplorando solo una porzione limitata dello spazio di ragionamento. Al contrario, un approccio che prioritizza il ragionamento costringe il modello a esaminare esplicitamente molteplici passaggi intermedi, permettendogli di percorrere percorsi molto più profondi e arrivare a risposte con una coerenza interna significativamente maggiore.

I ricercatori hanno applicato la ricetta OpenMMReasoner per generare dati per il fine-tuning del modello open source Qwen2.5-VL-7B-Instruct, specializzato in visione e linguaggio. Il modello risultante supera costantemente metodi all'avanguardia come Open Vision Reasoner (OVR) su un'ampia gamma di benchmark di ragionamento multimodale. Già la sola fase di addestramento supervisionato crea un modello base solido che raggiunge prestazioni superiori e maggiore efficienza dei dati rispetto ad altri approcci, nonostante utilizzi un dataset di addestramento significativamente più piccolo.

La fase successiva di apprendimento per rinforzo affina ulteriormente queste capacità, portando a prestazioni più consistenti e migliorate. Il modello finale raggiunge risultati da record su diversi benchmark, inclusi WeMath, MathVerse e MathVista. Un dato particolarmente interessante emerso dalla ricerca è che, mentre il modello migliorava nel ragionamento multimodale, mostrava anche una graduale emergenza di comportamenti di ragionamento testuale, suggerendo un trasferimento di competenze dal dominio multimodale a quello puramente linguistico.

Questo fenomeno indica che le abilità apprese in una modalità possono rafforzare le prestazioni in un'altra. Zhang conferma che i risultati dimostrano come il potenziamento del ragionamento multimodale possa persino migliorare le capacità matematiche in contesti puramente testuali, una prova che le abilità logiche fondamentali possono trasferirsi attraverso diverse modalità. Il ricercatore si aspetta che questi metodi possano estendersi in futuro anche a video e audio.

L'efficienza dei token si è rivelata un elemento cruciale. Sebbene consentire a un modello di generare passaggi di ragionamento più lunghi possa migliorare le prestazioni, un numero eccessivo di token riduce l'efficienza complessiva. I risultati mostrano che impostare un "budget di ragionamento" più contenuto può raggiungere un'accuratezza comparabile o persino superiore, una considerazione fondamentale per implementare applicazioni aziendali economicamente sostenibili.

La decisione di rendere open source tutti i componenti del flusso di lavoro fornisce una visione riproducibile dell'intero processo. Per i team aziendali, questa trasparenza ha un valore inestimabile, specialmente per i leader preoccupati per il vendor lock-in, i bias nascosti o le fonti di dati opache. Zhang sottolinea che questo livello di trasparenza è essenziale perché consente ai team di validare i dati, personalizzare il pipeline per nuovi domini e mantenere l'indipendenza a lungo termine da qualsiasi singolo fornitore. Per le aziende con dati specifici di dominio limitati, la strategia suggerita consiste nell'aumentare prima la diversità delle risposte per il dataset esistente, quindi utilizzare il domain mixing per integrare questi dati in una ricetta di ragionamento generale come quella proposta, consentendo al modello di acquisire solide capacità di ragionamento generale pur adattandosi a compiti specifici del settore.

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Ti potrebbe interessare anche

Smettila di subire l'IA e iniziare a usarla a tuo vantaggio, ecco come

Business

Smettila di subire l'IA e iniziare a usarla a tuo vantaggio, ecco come

Di Valerio Porcu
Conto aziendale online per PMI e freelance: come Vivid semplifica la gestione finanziaria e valorizza la liquidità

Sponsorizzato

Conto aziendale online per PMI e freelance: come Vivid semplifica la gestione finanziaria e valorizza la liquidità

Di Massimo Costante
Detesto Windows con IA ma la strada è segnata (ed è quella giusta)

Business

Detesto Windows con IA ma la strada è segnata (ed è quella giusta)

Di Valerio Porcu
ChatGPT compie tre anni: l'infrastruttura invisibile che ha riscritto le regole del lavoro

Business

ChatGPT compie tre anni: l'infrastruttura invisibile che ha riscritto le regole del lavoro

Di Valerio Porcu
Obbligare Big Tech a pagare per l'infrastruttura elettrica, un'idea sensata?

Business

Obbligare Big Tech a pagare per l'infrastruttura elettrica, un'idea sensata?

Di Valerio Porcu
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.