image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di NVIDIA congela la roadmap GPU, RTX 60 rinviate fino al 2028 NVIDIA congela la roadmap GPU, RTX 60 rinviate fino al 2028...
Immagine di macOS 26.3 anticipa l’arrivo dei nuovi MacBook Pro M5 macOS 26.3 anticipa l’arrivo dei nuovi MacBook Pro M5...

Wikipedia diventa più accessibile per l'IA

Un nuovo database renderà l'enorme patrimonio di conoscenze di Wikipedia più facilmente accessibile per i modelli di intelligenza artificiale.

Advertisement

Avatar di Antonello Buzzi

a cura di Antonello Buzzi

Senior Editor @Tom's Hardware Italia

Pubblicato il 01/10/2025 alle 11:05

La notizia in un minuto

  • Wikipedia lancia un sistema di ricerca semantica che trasforma 120 milioni di voci in dati facilmente accessibili per l'intelligenza artificiale, superando le limitazioni delle tradizionali ricerche per parole chiave
  • Alternativa democratica ai giganti tech: il progetto di Wikimedia offre un'opzione aperta e collaborativa per l'addestramento dell'AI, evitando costose battaglie legali e il controllo delle grandi corporations
  • Dati verificati e di qualità superiore rispetto ai dataset massivi del web, fondamentali per applicazioni AI che richiedono alta precisione e informazioni fact-based

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

La battaglia per i dati di qualità nell'era dell'intelligenza artificiale ha trovato un nuovo protagonista inaspettato: Wikipedia. Mentre i giganti tecnologici si contendono fonti informative affidabili per addestrare i loro modelli, spesso finendo in costose battaglie legali, la celebre enciclopedia online si propone come alternativa democratica e accessibile. L'iniziativa, lanciata dalla divisione tedesca di Wikimedia, punta a trasformare radicalmente il modo in cui i sistemi di AI accedono alla conoscenza verificata dai redattori della piattaforma.

Una rivoluzione semantica per 120 milioni di voci

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

Il Wikidata Embedding Project rappresenta un salto tecnologico significativo rispetto agli strumenti tradizionali di interrogazione del database di Wikipedia. Il nuovo sistema implementa una ricerca semantica basata su vettori, una tecnologia che consente ai computer di comprendere non solo le parole chiave, ma anche i significati e le relazioni tra i concetti. Questa innovazione coinvolge quasi 120 milioni di voci presenti su Wikipedia e le sue piattaforme sorelle.

A differenza dei precedenti metodi di ricerca limitati a interrogazioni per parole chiave o al linguaggio specializzato SPARQL, la nuova architettura è progettata per funzionare efficacemente con i sistemi di retrieval-augmented generation (RAG). Questi sistemi permettono ai modelli di intelligenza artificiale di attingere informazioni esterne durante la generazione di risposte, offrendo agli sviluppatori la possibilità di ancorare i loro modelli a conoscenze verificate.

Il contesto che fa la differenza

La vera innovazione del progetto risiede nella strutturazione semantica dei dati. Una ricerca per il termine "scienziato", ad esempio, non restituisce semplicemente una definizione, ma genera elenchi di fisici nucleari di rilievo, ricercatori che hanno lavorato nei laboratori Bell, traduzioni del termine in diverse lingue e collegamenti a concetti correlati come "ricercatore" o "studioso". Il sistema include anche immagini verificate da Wikimedia che illustrano gli scienziati al lavoro.

L'AI non deve essere controllata da poche aziende

Philippe Saadé, responsabile del progetto AI di Wikidata, ha sottolineato l'indipendenza dell'iniziativa dai grandi laboratori di intelligenza artificiale e dalle multinazionali tecnologiche. "Questo lancio dell'Embedding Project dimostra che un'intelligenza artificiale potente non deve necessariamente essere controllata da una manciata di aziende", ha dichiarato Saadé alla stampa. "Può essere aperta, collaborativa e costruita per servire tutti."

Collaborazioni strategiche e accessibilità

Lo sviluppo del progetto ha visto la collaborazione tra Wikimedia Deutschland, la società di ricerca neurale Jina.AI e DataStax, azienda specializzata in dati di addestramento in tempo reale di proprietà IBM. Il database è già pubblicamente accessibile tramite Toolforge, mentre Wikidata ha programmato un webinar dedicato agli sviluppatori interessati per il 9 ottobre.

Il progetto include anche il supporto per il Model Context Protocol (MCP), uno standard che facilita la comunicazione tra sistemi di AI e fonti di dati. Questa integrazione rende le informazioni più facilmente accessibili alle interrogazioni in linguaggio naturale provenienti dai modelli linguistici di grandi dimensioni.

La corsa ai dati di qualità

L'iniziativa di Wikimedia si inserisce in un contesto dove gli sviluppatori di AI sono in costante ricerca di fonti dati affidabili per l'ottimizzazione dei modelli. Mentre i sistemi di addestramento sono diventati più sofisticati, spesso configurati come ambienti di training complessi piuttosto che semplici dataset, la necessità di dati accuratamente curati rimane fondamentale. Per applicazioni che richiedono alta precisione, la disponibilità di dati affidabili diventa particolarmente critica.

La qualità dei dati di Wikipedia, pur non essendo immune da critiche, risulta significativamente più orientata ai fatti rispetto a dataset onnicomprensivi come Common Crawl, che raccoglie massivamente pagine web da tutto internet senza filtri qualitativi. Questa ricerca di fonti affidabili può comportare conseguenze economiche rilevanti per i laboratori di AI: ad agosto, Anthropic ha accettato di pagare 1,5 miliardi di dollari per risolvere una causa intentata da un gruppo di autori le cui opere erano state utilizzate come materiale di addestramento senza autorizzazione.

Fonte dell'articolo: techcrunch.com

Le notizie più lette

#1
NordVPN vs Cyberghost: qual è la migliore?
2

Hardware

NordVPN vs Cyberghost: qual è la migliore?

#2
Niente GTA 6? Niente paura, per i giocatori PC c'è Fable

Editoriale

Niente GTA 6? Niente paura, per i giocatori PC c'è Fable

#3
macOS 26.3 anticipa l’arrivo dei nuovi MacBook Pro M5
2

Hardware

macOS 26.3 anticipa l’arrivo dei nuovi MacBook Pro M5

#4
NVIDIA congela la roadmap GPU, RTX 60 rinviate fino al 2028

Hardware

NVIDIA congela la roadmap GPU, RTX 60 rinviate fino al 2028

#5
Samsung Galaxy S26, trapelati i prezzi dei vari modelli
1

Smartphone

Samsung Galaxy S26, trapelati i prezzi dei vari modelli

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca cerchi

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

macOS 26.3 anticipa l’arrivo dei nuovi MacBook Pro M5
2

Hardware

macOS 26.3 anticipa l’arrivo dei nuovi MacBook Pro M5

Di Antonello Buzzi
NVIDIA congela la roadmap GPU, RTX 60 rinviate fino al 2028

Hardware

NVIDIA congela la roadmap GPU, RTX 60 rinviate fino al 2028

Di Antonello Buzzi
OneDrive punta a diventare un hub di produttività AI
2

Hardware

OneDrive punta a diventare un hub di produttività AI

Di Antonello Buzzi
Cyberattacco alla Sapienza, in vendita lauree false sul dark web
2

Hardware

Cyberattacco alla Sapienza, in vendita lauree false sul dark web

Di Antonello Buzzi
Intel e AMD, carenza di CPU server: rincari e attese record
8

Hardware

Intel e AMD, carenza di CPU server: rincari e attese record

Di Antonello Buzzi

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.