Il team di ricerca di Apple sta esplorando nuove metodologie per addestrare l'intelligenza artificiale generativa nella creazione di interfacce utente, concentrandosi su un approccio radicalmente diverso rispetto al tradizionale Reinforcement Learning from Human Feedback. Secondo un recente studio pubblicato dai ricercatori della casa di Cupertino, i metodi RLHF convenzionali non si allineano efficacemente con i flussi di lavoro reali dei designer e ignorano il ragionamento complesso che sta alla base delle critiche e dei miglioramenti delle interfacce. La nuova ricerca propone invece di sfruttare feedback nativi dei professionisti del design, trasformando commenti, schizzi e modifiche dirette in dati di addestramento per modelli di linguaggio di grandi dimensioni.
Il progetto rappresenta un'evoluzione del precedente UICoder, una famiglia di modelli open-source su cui Apple aveva lavorato mesi fa per generare codice UI funzionale. Se la prima fase si concentrava principalmente sulla compilabilità del codice e sulla corrispondenza di base con le richieste degli utenti, questa nuova iterazione punta sulla qualità del design vero e proprio. I ricercatori hanno coinvolto 21 designer professionisti con esperienza variabile da 2 a oltre 30 anni, attivi in ambiti diversi come UI/UX design, product design e service design, raccogliendo complessivamente 1.460 annotazioni che sono state convertite in esempi di preferenza per addestrare un modello di ricompensa.
La metodologia adottata si distingue nettamente dai classici sistemi di ranking. Invece di semplici valutazioni binarie o classifiche tra opzioni, i designer hanno lavorato direttamente sulle interfacce generate dal modello, producendo feedback attraverso tre modalità: commenti testuali, schizzi di miglioramento e modifiche dirette al codice HTML. Questo materiale è stato poi utilizzato per addestrare un reward model capace di assegnare punteggi numerici alle interfacce, premiando quelle che incorporano meglio i principi di design professionale. Il sistema elabora due input principali: un'immagine renderizzata dell'interfaccia e una descrizione in linguaggio naturale degli obiettivi dell'UI, producendo uno score che riflette la qualità del design.
Come base per i modelli generativi, il team ha utilizzato Qwen2.5-Coder, applicando successivamente il reward model addestrato anche a varianti più piccole e recenti della famiglia Qwen per testare la generalizzabilità dell'approccio. Gli autori dello studio riconoscono che l'architettura finale risulta sorprendentemente simile a una pipeline RLHF tradizionale, ma sottolineano la differenza cruciale: il segnale di apprendimento proviene da workflow nativi dei designer piuttosto che da semplici feedback di tipo like/dislike o ranking superficiali.
I risultati dello studio confermano l'efficacia dell'approccio, con alcune riserve importanti. I modelli addestrati con feedback nativi dei designer, specialmente quelli che incorporano schizzi e revisioni dirette, hanno prodotto interfacce di qualità notevolmente superiore rispetto sia ai modelli base che alle versioni addestrate con dati di ranking convenzionali. Il modello più performante ha dimostrato che una quantità limitata di feedback esperto di alta qualità può permettere a modelli più piccoli di superare LLM proprietari di dimensioni maggiori nella generazione di interfacce utente.
La soggettività rappresenta tuttavia il principale ostacolo identificato dai ricercatori. Quando il team ha valutato indipendentemente le stesse coppie di UI che i designer avevano classificato, l'accordo si è fermato al 49,2%, praticamente il risultato di un lancio di moneta. La situazione è migliorata significativamente quando i designer hanno fornito feedback attraverso schizzi (63,6% di concordanza) e soprattutto con modifiche dirette (76,1%). Questo dato evidenzia come la capacità di mostrare specificamente cosa modificare, invece di scegliere semplicemente tra opzioni preesistenti, faciliti enormemente la definizione condivisa di cosa costituisca un design migliore.
La varianza elevata nelle risposte e la molteplicità di soluzioni valide per i problemi di design rappresentano sfide significative per i meccanismi di feedback basati su ranking, tradizionalmente utilizzati nell'addestramento di modelli AI. L'approccio proposto da Apple sembra aggirare parzialmente questo problema sfruttando la ricchezza informativa dei feedback visuali e delle modifiche dirette, che catturano meglio l'intenzionalità del designer rispetto a valutazioni più astratte.