Il colosso di Cupertino sta esplorando nuove frontiere nell'intelligenza artificiale applicata allo sviluppo software, pubblicando tre ricerche che potrebbero trasformare radicalmente il modo in cui i programmatori lavorano quotidianamente. Gli studi rivelano l'ambizione di Apple di ridurre drasticamente i tempi di sviluppo e migliorare la qualità del codice attraverso sistemi automatizzati capaci di individuare errori, gestire test e persino correggere bug in autonomia.
Particolarmente innovativo appare SWE-Gym, un ambiente di addestramento progettato per creare agenti AI in grado di leggere, modificare e verificare codice reale. A differenza di altri approcci, questo sistema si basa su 2.438 compiti reali estratti da 11 repository open-source in Python, ognuno dotato di un ambiente eseguibile e una suite di test che permettono agli agenti di esercitarsi in condizioni autentiche. I risultati ottenuti sono stati sorprendenti: gli agenti addestrati con questa piattaforma hanno risolto correttamente il 72,5% delle attività proposte, superando i precedenti standard di riferimento di oltre venti punti percentuali.
Per rendere il processo di addestramento più accessibile e rapido, i ricercatori hanno sviluppato anche SWE-Gym Lite, una versione semplificata che include 230 compiti meno complessi e più circoscritti. Questa variante riduce quasi della metà i tempi di formazione rispetto alla configurazione completa, pur mantenendo risultati comparabili. Tuttavia, la gamma limitata di problemi affrontati la rende meno efficace per testare i modelli su sfide più ampie e articolate.
Sul fronte della previsione dei difetti software, Apple ha presentato ADE-QVAET, un modello che supera le limitazioni degli attuali sistemi basati su LLM, come le "allucinazioni" e la perdita di relazioni critiche durante l'analisi di grandi quantità di codice. Questo approccio si distingue perché non esamina direttamente il codice sorgente, ma analizza metriche e dati relativi alla complessità, dimensione e struttura del software, cercando schemi che possano indicare dove è probabile che si verifichino errori.
Il modello combina quattro tecniche di intelligenza artificiale: l'Evoluzione Differenziale Adattiva che regola l'apprendimento, un Autoencoder Variazionale Quantistico per individuare schemi profondi nei dati, un livello Transformer che mantiene traccia delle relazioni tra questi schemi, e un sistema di riduzione e aumento del rumore adattivo che pulisce e bilancia i dati. Testato su un dataset Kaggle specifico per la previsione di bug software, ADE-QVAET ha raggiunto livelli di accuratezza del 98,08%, con precisione del 92,45% e un punteggio F1 del 98,12%, dimostrandosi estremamente affidabile nell'identificare errori reali evitando falsi positivi.
Il terzo studio affronta invece il problema della creazione e manutenzione di piani di test dettagliati per progetti software complessi, un'attività che assorbe dal 30 al 40% del tempo degli ingegneri della qualità. Il sistema sviluppato utilizza LLM e agenti AI autonomi per generare e gestire automaticamente tutti gli artefatti di testing, dai piani di prova ai report di validazione, mantenendo una tracciabilità completa tra requisiti, logica aziendale e risultati.
I miglioramenti registrati in questo ambito sono stati notevoli: l'accuratezza è passata dal 65% al 94,8%, mentre la sperimentazione su progetti reali di migrazione SAP e sistemi aziendali ha dimostrato una riduzione dell'85% nei tempi di testing e un miglioramento dell'85% nell'efficienza della suite di test. Le proiezioni indicano inoltre un risparmio dei costi del 35%, con un'accelerazione di due mesi nella messa in produzione dei sistemi.
Tuttavia, i ricercatori hanno anche evidenziato alcune limitazioni del framework, principalmente legate al fatto che lo studio si è concentrato esclusivamente su ambienti relativi a sistemi aziendali, finanza e SAP, limitandone le capacità di generalizzazione ad altri contesti.