L'intelligenza artificiale cinese DeepSeek continua a sorprendere con innovazioni che puntano dritto al cuore di uno dei problemi più costosi del settore: l'elaborazione di grandi quantità di dati testuali. Dopo aver fatto scalpore all'inizio del 2025 dimostrando capacità simili a ChatGPT e Google Gemini ma con costi di sviluppo drasticamente inferiori, gli sviluppatori cinesi hanno presentato DeepSeek-OCR, un modello che ribalta il tradizionale approccio all'analisi dei documenti. La soluzione? Trasformare il testo in immagini prima di processarlo, una scelta apparentemente controintuitiva che sta già facendo discutere esperti e addetti ai lavori.
Il funzionamento di questa tecnologia si basa su un principio elegante nella sua semplicità: utilizzare codificatori di visione per convertire documenti complessi e lunghi blocchi di testo in formato immagine. Quando l'AI deve successivamente accedere a queste informazioni, il consumo di token risulta ridotto da sette fino a venti volte rispetto ai metodi tradizionali. Secondo quanto riportato da SCMP, questa riduzione non compromette significativamente la precisione del sistema, aprendo scenari inediti per l'efficienza computazionale.
I campi di applicazione dove questa tecnologia potrebbe rivelarsi particolarmente preziosa sono quelli che gestiscono grandi volumi di dati strutturati: finanza, medicina e ricerca scientifica. La capacità di DeepSeek-OCR di interpretare tabelle, grafici e rappresentazioni visali complesse con un minimo dispendio di risorse computazionali potrebbe rivoluzionare l'analisi di bilanci, cartelle cliniche o dataset scientifici. Gli sviluppatori sottolineano come questa compressione visione-testo offra "una direzione promettente" per gestire calcoli che richiedono contesti estremamente lunghi.
I test di benchmark condotti dagli sviluppatori rivelano dati interessanti sulle prestazioni effettive del sistema. Con una compressione inferiore al fattore 10, DeepSeek-OCR mantiene un impressionante 97% di accuratezza nella decodifica delle informazioni. Quando però si spinge l'acceleratore al massimo con una compressione di 20 volte, la precisione scende drasticamente al 60%, evidenziando i limiti attuali della tecnologia. Anche una modesta riduzione del consumo di token del doppio, mantenendo un'accuratezza vicina al 100%, potrebbe tuttavia rappresentare un cambio di paradigma nel costo operativo dei modelli AI più avanzati.
Gli sviluppatori stanno inoltre esplorando l'utilizzo di questo approccio per generare dati di addestramento per modelli futuri. Questa prospettiva solleva però interrogativi legittimi: introdurre anche solo qualche punto percentuale di errore in fase di training potrebbe compromettere l'affidabilità dei sistemi che ne derivano. La comunità scientifica osserva con interesse ma anche con cautela questa possibile applicazione.
Per chi volesse sperimentare direttamente con DeepSeek-OCR, il modello è già disponibile sulle piattaforme di sviluppo Hugging Face e GitHub. Questa scelta di rendere pubblicamente accessibile la tecnologia riflette la strategia degli sviluppatori cinesi di costruire un ecosistema aperto attorno alle loro innovazioni, contrastando l'approccio più chiuso di alcuni competitor occidentali.