image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Sconti & Coupon

Novità!

Prova la nuova modalità di navigazione con le storie!

Accedi a Xenforo
Immagine di iOS 26.2 svela il misterioso Apple Creator Studio iOS 26.2 svela il misterioso Apple Creator Studio...
Immagine di ASUS ROG NUC 2025, potenza desktop in formato mini | Test & Recensione ASUS ROG NUC 2025, potenza desktop in formato mini | Test & ...

Wikipedia diventa più accessibile per l'IA

Un nuovo database renderà l'enorme patrimonio di conoscenze di Wikipedia più facilmente accessibile per i modelli di intelligenza artificiale.

Advertisement

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più
Avatar di Antonello Buzzi

a cura di Antonello Buzzi

Senior Editor

Pubblicato il 01/10/2025 alle 11:05

La notizia in un minuto

  • Wikipedia lancia un sistema di ricerca semantica che trasforma 120 milioni di voci in dati facilmente accessibili per l'intelligenza artificiale, superando le limitazioni delle tradizionali ricerche per parole chiave
  • Alternativa democratica ai giganti tech: il progetto di Wikimedia offre un'opzione aperta e collaborativa per l'addestramento dell'AI, evitando costose battaglie legali e il controllo delle grandi corporations
  • Dati verificati e di qualità superiore rispetto ai dataset massivi del web, fondamentali per applicazioni AI che richiedono alta precisione e informazioni fact-based
Riassunto generato con l'IA. Potrebbe non essere accurato.

La battaglia per i dati di qualità nell'era dell'intelligenza artificiale ha trovato un nuovo protagonista inaspettato: Wikipedia. Mentre i giganti tecnologici si contendono fonti informative affidabili per addestrare i loro modelli, spesso finendo in costose battaglie legali, la celebre enciclopedia online si propone come alternativa democratica e accessibile. L'iniziativa, lanciata dalla divisione tedesca di Wikimedia, punta a trasformare radicalmente il modo in cui i sistemi di AI accedono alla conoscenza verificata dai redattori della piattaforma.

Una rivoluzione semantica per 120 milioni di voci

Il Wikidata Embedding Project rappresenta un salto tecnologico significativo rispetto agli strumenti tradizionali di interrogazione del database di Wikipedia. Il nuovo sistema implementa una ricerca semantica basata su vettori, una tecnologia che consente ai computer di comprendere non solo le parole chiave, ma anche i significati e le relazioni tra i concetti. Questa innovazione coinvolge quasi 120 milioni di voci presenti su Wikipedia e le sue piattaforme sorelle.

A differenza dei precedenti metodi di ricerca limitati a interrogazioni per parole chiave o al linguaggio specializzato SPARQL, la nuova architettura è progettata per funzionare efficacemente con i sistemi di retrieval-augmented generation (RAG). Questi sistemi permettono ai modelli di intelligenza artificiale di attingere informazioni esterne durante la generazione di risposte, offrendo agli sviluppatori la possibilità di ancorare i loro modelli a conoscenze verificate.

Il contesto che fa la differenza

La vera innovazione del progetto risiede nella strutturazione semantica dei dati. Una ricerca per il termine "scienziato", ad esempio, non restituisce semplicemente una definizione, ma genera elenchi di fisici nucleari di rilievo, ricercatori che hanno lavorato nei laboratori Bell, traduzioni del termine in diverse lingue e collegamenti a concetti correlati come "ricercatore" o "studioso". Il sistema include anche immagini verificate da Wikimedia che illustrano gli scienziati al lavoro.

L'AI non deve essere controllata da poche aziende

Philippe Saadé, responsabile del progetto AI di Wikidata, ha sottolineato l'indipendenza dell'iniziativa dai grandi laboratori di intelligenza artificiale e dalle multinazionali tecnologiche. "Questo lancio dell'Embedding Project dimostra che un'intelligenza artificiale potente non deve necessariamente essere controllata da una manciata di aziende", ha dichiarato Saadé alla stampa. "Può essere aperta, collaborativa e costruita per servire tutti."

Collaborazioni strategiche e accessibilità

Lo sviluppo del progetto ha visto la collaborazione tra Wikimedia Deutschland, la società di ricerca neurale Jina.AI e DataStax, azienda specializzata in dati di addestramento in tempo reale di proprietà IBM. Il database è già pubblicamente accessibile tramite Toolforge, mentre Wikidata ha programmato un webinar dedicato agli sviluppatori interessati per il 9 ottobre.

Il progetto include anche il supporto per il Model Context Protocol (MCP), uno standard che facilita la comunicazione tra sistemi di AI e fonti di dati. Questa integrazione rende le informazioni più facilmente accessibili alle interrogazioni in linguaggio naturale provenienti dai modelli linguistici di grandi dimensioni.

La corsa ai dati di qualità

L'iniziativa di Wikimedia si inserisce in un contesto dove gli sviluppatori di AI sono in costante ricerca di fonti dati affidabili per l'ottimizzazione dei modelli. Mentre i sistemi di addestramento sono diventati più sofisticati, spesso configurati come ambienti di training complessi piuttosto che semplici dataset, la necessità di dati accuratamente curati rimane fondamentale. Per applicazioni che richiedono alta precisione, la disponibilità di dati affidabili diventa particolarmente critica.

La qualità dei dati di Wikipedia, pur non essendo immune da critiche, risulta significativamente più orientata ai fatti rispetto a dataset onnicomprensivi come Common Crawl, che raccoglie massivamente pagine web da tutto internet senza filtri qualitativi. Questa ricerca di fonti affidabili può comportare conseguenze economiche rilevanti per i laboratori di AI: ad agosto, Anthropic ha accettato di pagare 1,5 miliardi di dollari per risolvere una causa intentata da un gruppo di autori le cui opere erano state utilizzate come materiale di addestramento senza autorizzazione.

Fonte dell'articolo: techcrunch.com

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione
Advertisement

Non perdere gli ultimi aggiornamenti

Newsletter Telegram

I più letti di oggi


  • #1
    In calo da ottobre, ora questo SSD a 35€ è più interessante che mai
  • #2
    ASUS ROG NUC 2025, potenza desktop in formato mini | Test & Recensione
  • #3
    Huawei lancia nuovi PC con CPU e OS cinesi proprietari
  • #4
    Un raggio di luce può violare la terza legge di Newton
  • #5
    Fusa la prima rete quantistica a 18 nodi: svolta dalla Cina
  • #6
    Huawei MatePad 12X Papermatte Edition è un tablet incredibile | Recensione
Articolo 1 di 5
ASUS ROG NUC 2025, potenza desktop in formato mini | Test & Recensione
Un mini PC che racchiude prestazioni gaming di alto livello in appena 3 litri di volume, con processore Intel e GPU NVIDIA RTX 5080.
Immagine di ASUS ROG NUC 2025, potenza desktop in formato mini | Test & Recensione
17
Leggi questo articolo
Articolo 2 di 5
iOS 26.2 svela il misterioso Apple Creator Studio
Apple sviluppa Creator Studio, una piattaforma emersa dal codice iOS 26.2 beta che potrebbe unificare gli strumenti creativi professionali dell'azienda.
Immagine di iOS 26.2 svela il misterioso Apple Creator Studio
4
Leggi questo articolo
Articolo 3 di 5
Microsoft si scusa con 2,7 milioni di utenti
L'autorità australiana per la concorrenza ha citato in giudizio Microsoft per non aver informato 2,7 milioni di utenti sulla possibilità di downgrade.
Immagine di Microsoft si scusa con 2,7 milioni di utenti
3
Leggi questo articolo
Articolo 4 di 5
Intel abbandona gli E-Core su desktop: arriva Bartlett Lake
Nei carichi sensibili alla latenza, in particolare nel gaming competitivo, la struttura monolitica P-Core potrebbe superare le performance di Arrow Lake.
Immagine di Intel abbandona gli E-Core su desktop: arriva Bartlett Lake
6
Leggi questo articolo
Articolo 5 di 5
Google ottiene il via libera per acquisire Wiz
L’acquisizione porta in Google tecnologie nate per proteggere ambienti multicloud complessi, sempre più centrali nelle aziende moderne.
Immagine di Google ottiene il via libera per acquisire Wiz
2
Leggi questo articolo
Advertisement
Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.