Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Alibaba rilascia Qwen2-Math, una serie di LLM per risolvere problemi matematici
Business
Immagine di Fare impresa vuole dire comunicare, ecco come farlo al meglio Fare impresa vuole dire comunicare, ecco come farlo al megli...
Immagine di È in atto una piccola rivoluzione nucleare, ma non ce ne siamo accorti È in atto una piccola rivoluzione nucleare, ma non ce ne si...

Alibaba rilascia Qwen2-Math, una serie di LLM per risolvere problemi matematici

Il team Qwen di Alibaba Cloud ha rilasciato Qwen2-Math, una famiglia di LLM pensati specificamente per risolvere problemi matematici complessi.

Avatar di Marina Londei

a cura di Marina Londei

Editor @Tom's Hardware Italia

Pubblicato il 13/08/2024 alle 09:00
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Il team Qwen di Alibaba Cloud ha rilasciato Qwen2-Math, una serie di LLM specifici per la risoluzione di problemi di matematica complessi. 

Al momento fanno parte della famiglia Qwen2-Math e Qwen2-Math-Instruct nelle versioni da 1,5B, 7B e 72B di parametri. Secondo il team di Qwen, i due LLM "superano significativamente le capacità matematica dei modelli open-source e persino di quelli closed-source (per esempio GPT-4o)".

Immagine id 30853

I due modelli sono stati addestrati su un dataset di testi, libri, porzioni di codice e domande di esami di matematica. La valutazione dei due LLM è avvenuta usando sei benchmark matematici noti: il GSK8K, il Math, l'MMLU-STEM, il CMATH, il GaoKao Math Cloe e il GaoKao Math QA.

I risultati dei due modelli sono stati confrontati con Llama 3.1-8B, Llama 3.1-70B, Llama 3.1-405B, DeepSeekMath-Base-7B, DeepSeek-Coder-V2-Lite-Base, Internlm2-Math-Base-20B, GPT-4o, Claude-3.5-Sonnet e Gemini-1.5-Pro.

Qwen2-Math e Qwen2-Math-Instruct hanno superato le performance degli altri modelli per qualsiasi benchmark utilizzato. 

Il team di Qwen ha condiviso anche alcuni casi di studio per dimostrare le capacità dei due modelli. Nel dettaglio, gli LLM sono riusciti a risolvere problemi matematici complessi di diverse competizioni matematiche mondiali, tra le quali IMO (International Mathematical Olympiad), Math Odyssey e JBMO (Junior Balkan Mathematical Olympiad).

Per garantire l'integrità e l'accuratezza dei modelli, il team ha eseguito una serie di step di "decontaminazione" sia nei dataset di pre-training che di post-training per eliminare i problemi duplicati e gli eventuali esempi che combaciavano con quelli presenti nei benchmark.

Al momento gli LLM supportano solo la lingua inglese, ma il team di Qwen ha intenzione di rilasciare modelli in grado di comprendere anche il cinese e, in futuro, altre tra le lingue più parlato. "Continueremo a migliorare l'abilità dei nostri modelli di risolvere problemi matematici complessi e sfidanti" conclude il team. 

Le notizie più lette

#1
È in atto una piccola rivoluzione nucleare, ma non ce ne siamo accorti
1

Business

È in atto una piccola rivoluzione nucleare, ma non ce ne siamo accorti

#2
Rockstar cambia rotta e lancia il marketplace ufficiale delle mod
2

Videogioco

Rockstar cambia rotta e lancia il marketplace ufficiale delle mod

#3
RTX 5070 Ti al capolinea, pesa la strategia di NVIDIA
8

Hardware

RTX 5070 Ti al capolinea, pesa la strategia di NVIDIA

#4
Scoperto perché le statine causano dolore muscolare
2

Scienze

Scoperto perché le statine causano dolore muscolare

#5
NVIDIA DLSS 4.5 esce dalla beta ed è ora disponibile per tutti
8

Hardware

NVIDIA DLSS 4.5 esce dalla beta ed è ora disponibile per tutti

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca cerchi

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Ti potrebbe interessare anche

È in atto una piccola rivoluzione nucleare, ma non ce ne siamo accorti

Business

È in atto una piccola rivoluzione nucleare, ma non ce ne siamo accorti

Di Antonino Caffo
Fare impresa vuole dire comunicare, ecco come farlo al meglio

Sponsorizzato

Fare impresa vuole dire comunicare, ecco come farlo al meglio

Di Valerio Porcu
Adesso Amazon ha un cloud europeo "sovrano". Ecco cosa significa

Business

Adesso Amazon ha un cloud europeo "sovrano". Ecco cosa significa

Di Valerio Porcu
Sicurezza fisica e informatica: la convergenza ridefinisce la protezione aziendale

Business

Sicurezza fisica e informatica: la convergenza ridefinisce la protezione aziendale

Di Valerio Porcu
L'intelligenza artificiale ridisegna le risorse umane: i dati sulla diffusione in Italia

Business

L'intelligenza artificiale ridisegna le risorse umane: i dati sulla diffusione in Italia

Di Valerio Porcu
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.