Un team di ricercatori di MiroMind AI e diverse università cinesi ha sviluppato un nuovo metodo per addestrare modelli linguistici multimodali che potrebbe cambiare le carte in tavola per le aziende che necessitano di sistemi di intelligenza artificiale più trasparenti ed efficienti. Il framework, chiamato OpenMMReasoner, si distingue per la sua natura completamente open source e per la capacità di ottenere prestazioni superiori utilizzando dataset più piccoli ma di qualità superiore rispetto ai concorrenti. La caratteristica più interessante è che tutto il processo di addestramento è completamente trasparente e riproducibile, un aspetto critico che finora è mancato in molte ricerche nel campo del ragionamento multimodale.
Kaichen Zhang, coautore dello studio che illustra la nuova metodologia, sottolinea i vantaggi pratici per le imprese: la possibilità di implementare localmente modelli più piccoli, ridurre la latenza, abbattere i costi associati ai processi di ragionamento estesi e mantenere il pieno controllo sui propri dati. Inoltre, questi modelli possono essere personalizzati per adattarsi a compiti specifici del settore. Si tratta di una risposta concreta alle esigenze di quelle organizzazioni che vogliono evitare la dipendenza da sistemi proprietari di grandi dimensioni, spesso considerati come scatole nere.
Il problema principale che OpenMMReasoner affronta riguarda proprio la mancanza di trasparenza che caratterizza molte ricerche recenti sul ragionamento multimodale. Numerosi studi non forniscono informazioni dettagliate sui processi di raccolta dati e addestramento, rendendo impossibile replicare i risultati o comprendere veramente i meccanismi alla base del funzionamento di questi modelli. Questa opacità limita la riproducibilità scientifica e impedisce una comprensione profonda di come vengono effettivamente costruiti i modelli multimodali capaci di ragionamento complesso.
Il cuore innovativo del sistema risiede in un processo di addestramento articolato in due fasi distinte. La prima fase prevede un addestramento supervisionato strutturato in tre passaggi: inizia con la raccolta di circa 103.000 coppie di domande e risposte da dataset pubblici che coprono compiti di comprensione visiva e ragionamento generale. Successivamente interviene un processo di distillazione dei dati, dove un modello potente genera nuove tracce di ragionamento di alta qualità per domande selezionate. L'elemento cruciale è l'aumento della diversità delle risposte, attraverso la generazione di molteplici percorsi di ragionamento verificati per ogni singola domanda, portando il dataset a 583.000 campioni.
La fase finale dell'addestramento supervisionato include un passaggio di "domain mixing", che integra dati provenienti da domini di ragionamento matematico per generalizzare ulteriormente le capacità del modello. Il risultato finale è un dataset di 874.000 esempi. Questo approccio graduale e stratificato rappresenta una sorta di blueprint che le aziende possono seguire per addestrare i propri modelli, anche quando dispongono di dati limitati specifici del proprio settore.
La seconda fase utilizza l'apprendimento per rinforzo su un dataset più piccolo di 74.000 campioni, curati da domini come scienza, matematica e puzzle logici. Il modello viene addestrato con una funzione di ricompensa composita che valuta sia la correttezza della risposta finale sia la coerenza del formato di output. Un aspetto particolarmente interessante è l'introduzione di una penalità per il "pensiero eccessivo", che scoraggia il modello dal generare risposte troppo lunghe, un problema comune nei modelli di ragionamento addestrati con rinforzo che tendono erroneamente a produrre sequenze di ragionamento eccessivamente estese.
Zhang spiega che questo processo passo dopo passo modifica radicalmente l'affidabilità degli output del modello. I modelli tradizionali tendono a "saltare" direttamente alla risposta, esplorando solo una porzione limitata dello spazio di ragionamento. Al contrario, un approccio che prioritizza il ragionamento costringe il modello a esaminare esplicitamente molteplici passaggi intermedi, permettendogli di percorrere percorsi molto più profondi e arrivare a risposte con una coerenza interna significativamente maggiore.
I ricercatori hanno applicato la ricetta OpenMMReasoner per generare dati per il fine-tuning del modello open source Qwen2.5-VL-7B-Instruct, specializzato in visione e linguaggio. Il modello risultante supera costantemente metodi all'avanguardia come Open Vision Reasoner (OVR) su un'ampia gamma di benchmark di ragionamento multimodale. Già la sola fase di addestramento supervisionato crea un modello base solido che raggiunge prestazioni superiori e maggiore efficienza dei dati rispetto ad altri approcci, nonostante utilizzi un dataset di addestramento significativamente più piccolo.
La fase successiva di apprendimento per rinforzo affina ulteriormente queste capacità, portando a prestazioni più consistenti e migliorate. Il modello finale raggiunge risultati da record su diversi benchmark, inclusi WeMath, MathVerse e MathVista. Un dato particolarmente interessante emerso dalla ricerca è che, mentre il modello migliorava nel ragionamento multimodale, mostrava anche una graduale emergenza di comportamenti di ragionamento testuale, suggerendo un trasferimento di competenze dal dominio multimodale a quello puramente linguistico.
Questo fenomeno indica che le abilità apprese in una modalità possono rafforzare le prestazioni in un'altra. Zhang conferma che i risultati dimostrano come il potenziamento del ragionamento multimodale possa persino migliorare le capacità matematiche in contesti puramente testuali, una prova che le abilità logiche fondamentali possono trasferirsi attraverso diverse modalità. Il ricercatore si aspetta che questi metodi possano estendersi in futuro anche a video e audio.
L'efficienza dei token si è rivelata un elemento cruciale. Sebbene consentire a un modello di generare passaggi di ragionamento più lunghi possa migliorare le prestazioni, un numero eccessivo di token riduce l'efficienza complessiva. I risultati mostrano che impostare un "budget di ragionamento" più contenuto può raggiungere un'accuratezza comparabile o persino superiore, una considerazione fondamentale per implementare applicazioni aziendali economicamente sostenibili.
La decisione di rendere open source tutti i componenti del flusso di lavoro fornisce una visione riproducibile dell'intero processo. Per i team aziendali, questa trasparenza ha un valore inestimabile, specialmente per i leader preoccupati per il vendor lock-in, i bias nascosti o le fonti di dati opache. Zhang sottolinea che questo livello di trasparenza è essenziale perché consente ai team di validare i dati, personalizzare il pipeline per nuovi domini e mantenere l'indipendenza a lungo termine da qualsiasi singolo fornitore. Per le aziende con dati specifici di dominio limitati, la strategia suggerita consiste nell'aumentare prima la diversità delle risposte per il dataset esistente, quindi utilizzare il domain mixing per integrare questi dati in una ricetta di ragionamento generale come quella proposta, consentendo al modello di acquisire solide capacità di ragionamento generale pur adattandosi a compiti specifici del settore.