DeepSeek: il nuovo colosso cinese dell'IA che sta facendo impazzire il Mondo

La startup cinese DeepSeek sorprende la Silicon Valley con una intelligenza artificiale all'avanguardia, suscitando stupore e preoccupazione.

Avatar di Andrea Maiellano

a cura di Andrea Maiellano

Author

1

Un'azienda cinese dedicata all'intelligenza artificiale, DeepSeek, ha sviluppato modelli IA innovativi che sembrano offrire prestazioni paragonabili ai migliori chatbot al mondo, ma a una frazione del costo. La startup, fondata solo un anno fa, ha attirato l'attenzione della Silicon Valley con la sua tecnologia all'avanguardia.

L'emergere di DeepSeek potrebbe mettere in discussione l'idea diffusa che il futuro dell'IArichieda quantità sempre maggiori di energia e potenza di calcolo per svilupparsi. Le implicazioni di questa innovazione hanno già avuto un impatto sui mercati finanziari, con un calo delle azioni tecnologiche globali mentre gli investitori valutano le possibili conseguenze per i concorrenti statunitensi e i loro fornitori di hardware.

DeepSeek afferma che il suo modello R1 offre prestazioni paragonabili all'ultimo prodotto di OpenAI.

DeepSeek è stata fondata nel 2023 da Liang Wenfeng, capo del fondo speculativo quantitativo High-Flyer. L'azienda sviluppa modelli AI open-source, permettendo alla comunità di sviluppatori di ispezionare e migliorare il software.

La sua app mobile è rapidamente salita in cima alle classifiche di download per iPhone negli Stati Uniti dopo il lancio all'inizio di gennaio. Ciò che distingue questa app da altri chatbot come ChatGPT di OpenAI è la capacità di articolare il proprio ragionamento prima di fornire una risposta.

Sebbene i dettagli non siano stati completamente rivelati, il costo di addestramento e sviluppo dei modelli DeepSeek sembra essere solo una frazione di quanto richiesto per i migliori prodotti di OpenAI o Meta Platforms Inc.

L'efficienza molto maggiore del modello mette in discussione la necessità di ingenti spese di capitale per acquisire gli acceleratori IA più potenti e recenti da aziende come NVIDIA. Questo amplifica anche l'attenzione sulle restrizioni all'esportazione statunitensi di semiconduttori avanzati verso la Cina, che miravano proprio a prevenire progressi del tipo che DeepSeek sembra rappresentare.

Secondo l'azienda, R1 si avvicina o supera i modelli rivali in diversi benchmark di primo piano come AIME 2024 per compiti matematici, MMLU per conoscenze generali e AlpacaEval 2.0 per prestazioni di domande e risposte. Si classifica inoltre tra i migliori performer nella Chatbot Arena, una classifica affiliata all'Università di Berkeley.

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

1 Commenti

⚠️ Stai commentando come Ospite. Vuoi accedere?


Quante stupidate mi tocca leggere. Alla fine si sono inventati un modo per far scendere di prezzo le azioni legate alle tecnologie IA. Questa d
DeepSeek ha ottimizzato modelli già esistenti. Come molte volte accade chi ha un'idea migliore ottiene risultati migliori. La necessità aguzza l'ingeno, ma la loro IA gira comunque su hw nvidia e senza cuda core non potrebbe funzionare. Nvida fornisce hw e strumenti di sviluppo, non è lei a sviluppare i modelli. Basta provare DeepSeek per accorgersi che funziona bene, ma non ha la "potenza" per essere fluida e responsiva come Gemini o Copilot ecc. Finita la tempesta nel bicchiere d'acqua si accorgeranno tutti che se vuoi fornire un servizio realtime devi avere hw in grado di supportarlo.
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

0
rispondo a mmXfile qua perchè le risposte non funzionano con i nuovi commenti:
E invece no, è un modello nuovo. Intanto deepseek non gira su h100 ma su h800, molto meno avanzati, con risultati comunque superiori ai più famosi.
inoltre il costo per l'addestramento è stato di SOLI 5,6mil$ contro la forbice tra i 300mil$ e 1mld$ di quelli più noti.
se questo non bastasse i costi di inferenza sono di soli 0,27$ per milione di token in input e 1,10$ in output, un decimo rispetto ad openAI e similari.
se poi aggiungiamo che utilizza un'architettura nuova (Mixture-of-Experts) e tecniche avanzate come MLA e Multi Token Prediction, si può ben capire perchè i big stanno tremando.
Deepseek non è un miglioramento di modelli esistenti.
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.