Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Sconti & Coupon

Novità!

Prova la nuova modalità di navigazione con le storie!

Accedi a Xenforo
Immagine di Abbiamo fatto un giro in Silicon Valley, ecco com'è andata Abbiamo fatto un giro in Silicon Valley, ecco com'è andata...
Immagine di C'è chi è convinto che i large language model possano pensare C'è chi è convinto che i large language model possano pens...

Come funzionano i giudici IA dei sistemi

La sfida nell'implementazione aziendale dell'IA non è l'intelligenza dei modelli, ma la capacità di definire e misurare la qualità dei risultati.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più
Avatar di Antonino Caffo

a cura di Antonino Caffo

Editor

Pubblicato il 05/11/2025 alle 10:25

La notizia in un minuto

  • Il vero ostacolo nell'adozione dell'AI in produzione non è tecnologico ma organizzativo: le aziende faticano a definire criteri di qualità condivisi e a raggiungere un consenso interno tra esperti
  • Judge Builder di Databricks risolve il "problema dell'uroboro" creando giudici AI specifici che valutano altri sistemi AI, minimizzando la distanza tra valutazioni automatiche e competenze umane di settore
  • Bastano 20-30 casi limite ben selezionati per creare giudici efficaci, con team che completano l'implementazione in sole tre ore e raggiungono risultati concreti come spese a sette cifre in soluzioni GenAI
Riassunto generato con l'IA. Potrebbe non essere accurato.

L'ostacolo principale che impedisce alle aziende di portare l'intelligenza artificiale dalla fase sperimentale a quella produttiva non risiede nelle capacità tecniche dei modelli. Il vero problema è molto più sottile e spesso sottovalutato: la difficoltà nel definire con precisione cosa significhi "qualità" in un contesto specifico e come misurarla in modo affidabile. È proprio per affrontare questa sfida che stanno emergendo i cosiddetti "giudici AI", sistemi di intelligenza artificiale progettati per valutare i risultati prodotti da altri sistemi AI.

Databricks ha sviluppato Judge Builder, un framework specificamente pensato per creare questi giudici, lanciato inizialmente come parte della tecnologia Agent Bricks all'inizio dell'anno. Dopo i primi mesi di utilizzo, l'approccio si è evoluto in modo significativo. Le versioni iniziali si concentravano principalmente sugli aspetti tecnici, ma il riscontro diretto degli utenti ha rivelato una realtà diversa: il vero collo di bottiglia non era tecnologico ma organizzativo. Le aziende faticavano a raggiungere un consenso interno sui criteri di qualità, ad estrarre e formalizzare le competenze di esperti chiave e a implementare sistemi di valutazione che potessero funzionare su larga scala.

Ti potrebbe interessare anche

youtube play
Guarda su youtube logo

Jonathan Frankle, responsabile scientifico dell'intelligenza artificiale di Databricks, ha inquadrato la questione in termini chiari: i modelli sono già sufficientemente intelligenti. La sfida vera sta nel fargli fare esattamente ciò che desideriamo e nel capire se l'hanno effettivamente fatto. Non si tratta dunque di potenziare ulteriormente le capacità dei modelli linguistici, ma di costruire sistemi affidabili per guidarli e valutarli.

Una delle scoperte più interessanti emerse dall'esperienza con i clienti riguarda proprio il concetto di consenso interno. Quando Databricks ha iniziato a lavorare con le aziende sulla definizione dei criteri di qualità, è emerso un problema ricorrente: anche gli esperti della stessa organizzazione spesso non concordano su cosa costituisca un risultato accettabile. Una risposta del servizio clienti può essere tecnicamente corretta ma utilizzare un tono inappropriato. Un report finanziario può essere completo ma troppo complesso per il pubblico di riferimento. Come ha sottolineato Frankle, i problemi tecnici si trasformano invariabilmente in problemi umani, e le organizzazioni non sono un singolo cervello ma molti cervelli che devono allinearsi.

I modelli sono già abbastanza intelligenti, il problema è fargli fare ciò che vogliamo

Il framework offre ora un percorso strutturato attraverso workshop che aiutano i team a superare queste difficoltà. La soluzione proposta prevede l'annotazione in batch con controlli di affidabilità tra valutatori diversi. I team analizzano esempi in piccoli gruppi e misurano i livelli di concordanza prima di procedere, permettendo di identificare precocemente eventuali disallineamenti. In un caso concreto, tre esperti hanno assegnato valutazioni completamente diverse allo stesso output prima che una discussione rivelasse interpretazioni differenti degli stessi criteri.

Pallavi Koppol, ricercatore di Databricks che ha guidato lo sviluppo, ha identificato quello che definisce il "problema dell'uroboro", riferendosi all'antico simbolo del serpente che si morde la coda. Utilizzare sistemi AI per valutare altri sistemi AI crea inevitabilmente una sfida di validazione circolare: se un giudice deve verificare la validità di un sistema AI, ma il giudice stesso è un sistema AI, come si stabilisce la validità del giudice? La risposta sta nel misurare la distanza tra le valutazioni del giudice AI e quelle degli esperti umani, minimizzando il divario per creare proxy scalabili affidabili.

L'approccio tecnico di Judge Builder si distingue dai tradizionali sistemi di controllo qualità. Invece di verificare se un output supera un generico test, il framework crea criteri di valutazione altamente specifici, calibrati sulle competenze di settore e sui requisiti aziendali di ciascuna organizzazione. Si integra con gli strumenti di ottimizzazione MLflow e può funzionare con qualsiasi modello sottostante, permettendo di controllare le versioni dei giudici e distribuirne diversi contemporaneamente su multiple dimensioni qualitative.

L'esperienza sul campo ha rivelato che l'approccio migliore consiste nel scomporre criteri vaghi in giudici distinti. Piuttosto che creare un singolo giudice che valuti se una risposta è "pertinente, fattuale e concisa", è più efficace sviluppare tre giudici separati, ciascuno focalizzato su un aspetto specifico. Questa granularità è fondamentale: un punteggio complessivo negativo indica che qualcosa non va, ma non cosa correggere esattamente. I risultati ottimali derivano dalla combinazione di requisiti dall'alto, come vincoli normativi, con la scoperta dal basso dei pattern di errore effettivamente osservati.

Contrariamente a quanto si potrebbe pensare, non servono grandi quantità di dati per creare giudici affidabili. I team possono sviluppare sistemi efficaci partendo da appena 20-30 esempi ben selezionati. La chiave sta nello scegliere casi limite che evidenzino disaccordi, piuttosto che esempi ovvi su cui tutti concordano. Koppol ha riferito che alcuni team hanno completato l'intero processo in sole tre ore, dimostrando che l'approccio è praticabile anche per organizzazioni con risorse limitate.

I risultati concreti parlano da soli. Databricks misura il successo attraverso tre metriche: la volontà dei clienti di riutilizzare il framework, l'aumento della spesa in intelligenza artificiale e i progressi nel percorso di adozione dell'AI. Un cliente ha creato oltre una dozzina di giudici dopo il workshop iniziale, arrivando a misurare sistematicamente ogni aspetto del proprio sistema. Altri clienti hanno raggiunto livelli di spesa a sette cifre per soluzioni GenAI, cosa che prima non facevano. Forse ancora più significativo, clienti che prima esitavano nell'utilizzare tecniche avanzate come l'apprendimento per rinforzo ora si sentono sicuri nell'implementarle, perché possono finalmente misurare se i miglioramenti si sono effettivamente verificati.

Per le aziende che vogliono implementare questo approccio, Databricks raccomanda tre passaggi pratici. Primo, identificare un requisito normativo critico e una modalità di errore osservata per costruire il portfolio iniziale di giudici. Secondo, creare flussi di lavoro snelli con gli esperti in materia: poche ore dedicate alla revisione di casi limite forniscono una calibrazione sufficiente per la maggior parte dei giudici. Terzo, pianificare revisioni periodiche utilizzando i dati di produzione, poiché nuove modalità di errore emergeranno inevitabilmente con l'evoluzione del sistema.

Come ha sintetizzato Frankle, un giudice non è solo uno strumento di valutazione: può fungere da barriera di sicurezza, da metrica per l'ottimizzazione rapida dei prompt e da parametro per l'apprendimento per rinforzo. Una volta creato un giudice che rappresenta in forma empirica le preferenze umane di un'organizzazione, questo può essere utilizzato in innumerevoli modi diversi per misurare o migliorare i sistemi AI. I team che hanno avuto successo nel portare l'AI dalla fase pilota a quella produttiva trattano i giudici non come artefatti statici, ma come risorse in continua evoluzione che crescono insieme ai loro sistemi.

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Non perdere gli ultimi aggiornamenti

Newsletter Telegram

I più letti di oggi


  • #1
    Il ragno delle Canarie che ha dimezzato il suo genoma
  • #2
    Nascita e morte del CD: la tecnologia che ha cambiato tutto
  • #3
    Windows 7 “mini” da 69 MB: geniale o inutile?
  • #4
    Siri cambia anima: l’AI di Google arriva su iPhone
  • #5
    Allenarsi rallenta il cuore (e ti fa guadagnare anni)
  • #6
    Intel rilancia: AVX e AMX tornano con Nova Lake
Articolo 1 di 5
C'è chi è convinto che i large language model possano pensare
Un'analisi confronta il ragionamento CoT con i processi cognitivi umani e i risultati dei benchmark.
Immagine di C'è chi è convinto che i large language model possano pensare
1
Leggi questo articolo
Articolo 2 di 5
Abbiamo fatto un giro in Silicon Valley, ecco com'è andata
Dalle aule di Stanford ai laboratori Google, il nostro Grand Tour in Silicon Valley ha svelato il vero spirito della disruption AI. Abbiamo trovato una forte comunità italiana tra campus, startup e big tech: l'innovazione è qui.
Immagine di Abbiamo fatto un giro in Silicon Valley, ecco com'è andata
Leggi questo articolo
Articolo 3 di 5
Tolleranza zero al blackout: l'UPS trifase come pilastro della resilienza industriale e aziendale
Per la resilienza industriale, gli UPS trifase sono un pilastro contro i blackout. Evitano danni e fermi. Caratteristiche chiave: modularità, scalabilità e monitoraggio remoto.
Immagine di Tolleranza zero al blackout: l'UPS trifase come pilastro della resilienza industriale e aziendale
1
Leggi questo articolo
Articolo 4 di 5
25 strumenti AI per la creazione di contenuti e il marketing
Una guida analizza 25 strumenti IA per la creazione di contenuti, evidenziando una tendenza all'automazione accessibile che promette di abbassare la barriera d'ingresso al mercato.
Immagine di 25 strumenti AI per la creazione di contenuti e il marketing
Leggi questo articolo
Articolo 5 di 5
Perché Alphabet trasforma i progetti moonshot in società indipendenti
L'interesse concreto nei progetti resta quando questi diventano aziende indipendenti.
Immagine di Perché Alphabet trasforma i progetti moonshot in società indipendenti
Leggi questo articolo
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.