Quante stupidate mi tocca leggere. Alla fine si sono inventati un modo per far scendere di prezzo le azioni legate alle tecnologie IA. Questa d
DeepSeek ha ottimizzato modelli già esistenti. Come molte volte accade chi ha un'idea migliore ottiene risultati migliori. La necessità aguzza l'ingeno, ma la loro IA gira comunque su hw nvidia e senza cuda core non potrebbe funzionare. Nvida fornisce hw e strumenti di sviluppo, non è lei a sviluppare i modelli. Basta provare DeepSeek per accorgersi che funziona bene, ma non ha la "potenza" per essere fluida e responsiva come Gemini o Copilot ecc. Finita la tempesta nel bicchiere d'acqua si accorgeranno tutti che se vuoi fornire un servizio realtime devi avere hw in grado di supportarlo.
Questo commento è stato nascosto automaticamente.
0
rispondo a mmXfile qua perchè le risposte non funzionano con i nuovi commenti:
E invece no, è un modello nuovo. Intanto deepseek non gira su h100 ma su h800, molto meno avanzati, con risultati comunque superiori ai più famosi.
inoltre il costo per l'addestramento è stato di SOLI 5,6mil$ contro la forbice tra i 300mil$ e 1mld$ di quelli più noti.
se questo non bastasse i costi di inferenza sono di soli 0,27$ per milione di token in input e 1,10$ in output, un decimo rispetto ad openAI e similari.
se poi aggiungiamo che utilizza un'architettura nuova (Mixture-of-Experts) e tecniche avanzate come MLA e Multi Token Prediction, si può ben capire perchè i big stanno tremando.
Deepseek non è un miglioramento di modelli esistenti.
Questo commento è stato nascosto automaticamente.