image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
% Black Friday
%
Accedi a Xenforo
Immagine di Sora e Nano Banana Pro: arriva la stretta sulle AI Sora e Nano Banana Pro: arriva la stretta sulle AI...
Immagine di Mini PC affidabile a prezzo scontato? Il Black Friday GEEKOM ha le migliori offerte Mini PC affidabile a prezzo scontato? Il Black Friday GEEKOM...

Wikipedia diventa più accessibile per l'IA

Un nuovo database renderà l'enorme patrimonio di conoscenze di Wikipedia più facilmente accessibile per i modelli di intelligenza artificiale.

Advertisement

Avatar di Antonello Buzzi

a cura di Antonello Buzzi

Senior Editor @Tom's Hardware Italia

Pubblicato il 01/10/2025 alle 11:05

La notizia in un minuto

  • Wikipedia lancia un sistema di ricerca semantica che trasforma 120 milioni di voci in dati facilmente accessibili per l'intelligenza artificiale, superando le limitazioni delle tradizionali ricerche per parole chiave
  • Alternativa democratica ai giganti tech: il progetto di Wikimedia offre un'opzione aperta e collaborativa per l'addestramento dell'AI, evitando costose battaglie legali e il controllo delle grandi corporations
  • Dati verificati e di qualità superiore rispetto ai dataset massivi del web, fondamentali per applicazioni AI che richiedono alta precisione e informazioni fact-based

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

La battaglia per i dati di qualità nell'era dell'intelligenza artificiale ha trovato un nuovo protagonista inaspettato: Wikipedia. Mentre i giganti tecnologici si contendono fonti informative affidabili per addestrare i loro modelli, spesso finendo in costose battaglie legali, la celebre enciclopedia online si propone come alternativa democratica e accessibile. L'iniziativa, lanciata dalla divisione tedesca di Wikimedia, punta a trasformare radicalmente il modo in cui i sistemi di AI accedono alla conoscenza verificata dai redattori della piattaforma.

Una rivoluzione semantica per 120 milioni di voci

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

Il Wikidata Embedding Project rappresenta un salto tecnologico significativo rispetto agli strumenti tradizionali di interrogazione del database di Wikipedia. Il nuovo sistema implementa una ricerca semantica basata su vettori, una tecnologia che consente ai computer di comprendere non solo le parole chiave, ma anche i significati e le relazioni tra i concetti. Questa innovazione coinvolge quasi 120 milioni di voci presenti su Wikipedia e le sue piattaforme sorelle.

A differenza dei precedenti metodi di ricerca limitati a interrogazioni per parole chiave o al linguaggio specializzato SPARQL, la nuova architettura è progettata per funzionare efficacemente con i sistemi di retrieval-augmented generation (RAG). Questi sistemi permettono ai modelli di intelligenza artificiale di attingere informazioni esterne durante la generazione di risposte, offrendo agli sviluppatori la possibilità di ancorare i loro modelli a conoscenze verificate.

Il contesto che fa la differenza

La vera innovazione del progetto risiede nella strutturazione semantica dei dati. Una ricerca per il termine "scienziato", ad esempio, non restituisce semplicemente una definizione, ma genera elenchi di fisici nucleari di rilievo, ricercatori che hanno lavorato nei laboratori Bell, traduzioni del termine in diverse lingue e collegamenti a concetti correlati come "ricercatore" o "studioso". Il sistema include anche immagini verificate da Wikimedia che illustrano gli scienziati al lavoro.

L'AI non deve essere controllata da poche aziende

Philippe Saadé, responsabile del progetto AI di Wikidata, ha sottolineato l'indipendenza dell'iniziativa dai grandi laboratori di intelligenza artificiale e dalle multinazionali tecnologiche. "Questo lancio dell'Embedding Project dimostra che un'intelligenza artificiale potente non deve necessariamente essere controllata da una manciata di aziende", ha dichiarato Saadé alla stampa. "Può essere aperta, collaborativa e costruita per servire tutti."

Collaborazioni strategiche e accessibilità

Lo sviluppo del progetto ha visto la collaborazione tra Wikimedia Deutschland, la società di ricerca neurale Jina.AI e DataStax, azienda specializzata in dati di addestramento in tempo reale di proprietà IBM. Il database è già pubblicamente accessibile tramite Toolforge, mentre Wikidata ha programmato un webinar dedicato agli sviluppatori interessati per il 9 ottobre.

Il progetto include anche il supporto per il Model Context Protocol (MCP), uno standard che facilita la comunicazione tra sistemi di AI e fonti di dati. Questa integrazione rende le informazioni più facilmente accessibili alle interrogazioni in linguaggio naturale provenienti dai modelli linguistici di grandi dimensioni.

La corsa ai dati di qualità

L'iniziativa di Wikimedia si inserisce in un contesto dove gli sviluppatori di AI sono in costante ricerca di fonti dati affidabili per l'ottimizzazione dei modelli. Mentre i sistemi di addestramento sono diventati più sofisticati, spesso configurati come ambienti di training complessi piuttosto che semplici dataset, la necessità di dati accuratamente curati rimane fondamentale. Per applicazioni che richiedono alta precisione, la disponibilità di dati affidabili diventa particolarmente critica.

La qualità dei dati di Wikipedia, pur non essendo immune da critiche, risulta significativamente più orientata ai fatti rispetto a dataset onnicomprensivi come Common Crawl, che raccoglie massivamente pagine web da tutto internet senza filtri qualitativi. Questa ricerca di fonti affidabili può comportare conseguenze economiche rilevanti per i laboratori di AI: ad agosto, Anthropic ha accettato di pagare 1,5 miliardi di dollari per risolvere una causa intentata da un gruppo di autori le cui opere erano state utilizzate come materiale di addestramento senza autorizzazione.

Fonte dell'articolo: techcrunch.com

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca cerchi

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

Mini PC affidabile a prezzo scontato? Il Black Friday GEEKOM ha le migliori offerte

Hardware

Mini PC affidabile a prezzo scontato? Il Black Friday GEEKOM ha le migliori offerte

Di Dario De Vita
Sora e Nano Banana Pro: arriva la stretta sulle AI
3

Hardware

Sora e Nano Banana Pro: arriva la stretta sulle AI

Di Antonello Buzzi
Costa meno di 180€, ma questo mini PC ha una potenza sorprendente

Black Friday

Costa meno di 180€, ma questo mini PC ha una potenza sorprendente

Di Dario De Vita
Acer dà un’accelerata al Black Friday con un extra -10%

Hardware

Acer dà un’accelerata al Black Friday con un extra -10%

Di Dario De Vita
IPVanish: maxi sconto Black Friday sulla VPN. Scopri cosa comprende

Hardware

IPVanish: maxi sconto Black Friday sulla VPN. Scopri cosa comprende

Di Dario De Vita

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.