Captcha audio insicuri, registrazioni in pericolo

Ricercatori dello Stanford Security Laboratory hanno creato un programma che riesce a comprendere i captcha audio, usati durante la registrazione ai siti web, svelando così una falla che espone i siti ad attacchi automatizzati.

Avatar di Manolo De Agostini

a cura di Manolo De Agostini

Un gruppo di ricercatori di Stanford ha trovato un modo per farsi beffe dei captcha audio. Durante la registrazione a un sito web spesso bisogna superare delle misure di sicurezza, piazzate per verificare che siate vere persone e non bot gestiti da computer.

Solitamente si ha a che fare con un gruppo di lettere e numeri scritti in maniera distorta, che bisogna capire e riscrivere in un box dedicato. Si tratta dei cosiddetti captcha (Completely Automated Public Turing test to tell Computers and Humans Apart).

I captcha audio sono stati ideati per i non vedenti e richiedono agli utenti di ascoltare una stringa di lettere e numeri all'interno di un file audio con un rumore di sottofondo. A Stanford, grazie a un programma, sono riusciti a decifrare correttamente i captcha audio usati da Digg, eBay, Microsoft, Yahoo e reCAPTCHA, un'azienda che crea queste misure di sicurezza.

A occuparsi del progetto sono il professore di scienze del computer John Mitchell, la collega Elie Bursztein e altri ricercatori. Il software, chiamato Decaptcha, è riuscito a decodificare con successo i captcha audio di Microsoft il 50 percento delle volte.

reCAPTCHA

"Immaginate una grande rete di computer maligni preposta alla creazione di molti account falsi su YouTube. Questi account potrebbero concentrarsi nella visione di un unico video, incrementandone la popolarità e il fatturato pubblicitario. Le reti potrebbero inoltre inondare gli account con messaggi di spam".

I ricercatori hanno insegnato al loro programma a riconoscere il modello unico del suono per ogni lettera dell'alfabeto, così come le cifre numeriche. Poi hanno sfidato il loro software, chiedendogli di decodificare captcha audio che non aveva mai sentito prima.

Il programma si è messo al lavoro per identificare le forme del suono nel file captcha di destinazione, confrontandole con quelle memorizzate in memoria, e ha avuto successo svariate volte.

Progettare i captcha non è semplice. I test devono essere abbastanza semplici in modo che gli utenti possano rispondere rapidamente, ma al contempo devono essere complicati al punto giusto per evitare che i computer scoprano il loro funzionamento. Il rumore di fondo in un captcha audio può confondere il computer, ma finora si sapeva poco sul tipo di rumori che hanno un migliore effetto.

Per i loro test i ricercatori hanno creato 4 milioni di captcha audio mixati con rumore bianco, eco o musica, e sfidato il programma a decodificarli. Dopo aver allenato Decaptcha con alcuni esempi, l'hanno messo alla prova.

Il programma ha facilmente risolto i captcha con suoni statici o ripetitivi, con un tasso di successo dal 60 all'80 percento. Le versioni con musica di sottofondo si sono rivelate una sfida più complessa.

Decaptcha rimuove il rumore di sottosfondo da ogni file audio, distinguendo i picchi di energia per ogni numero o lettera inserita nel captcha. Il programma isola questi picchi dal rumore bianco o dell'eco. Tuttavia quando il captcha contiene rumori che mimano questi picchi di energia, il software va spesso in confusione.

Altro che captcha, suggeriamo Gandalf come misura di sicurezza

Tra i captcha commerciali testati, reCAPTCHA si è dimostrato il più difficile da aggiarare perché contiene conversazioni in sottofondo e altri tipi di rumori semantici. Microsoft e Digg hanno modificato recentemente il loro captcha audio, ma i test hanno sancito che il nuovo approccio non è abbastanza sicuro.

Secondo dati diffusi da eBay, l'un percento degli utenti che si registrano al sito di e-commerce usa i captcha audio. Se la percentuale vi sembra ridotta, ricordate che stiamo comunque parlando di decine migliaia di persone.

I ricercatori suggeriscono ai programmatori di usare musica di sottofondo o intere parole invece che una stringa di lettere. Il vero problema è di trovare un equilibrio perché se il captcha è troppo complicato, gli utenti non saranno in grado di decodificarlo.

Nonostante gli sforzi per difendere i captcha audio contro gli attacchi informatici, ci sarà sempre qualche minaccia, come gli attacchi "crowdsourced" portati avanti da un gruppo di persone assunte a bassissimo costo per risolvere captcha manualmente. Chissà cosa ne pensano Stanford dei p-Captcha ideati al Max Planck Institute.