DeepSeek frappe encore : Transformer plus stable et moins cher

Il y a un an, DeepSeek sortait R1 et faisait chuter l'action Nvidia de 17% en une journée — 600 milliards $ de capitalisation évaporés. Le 1er janvier 2026, ils récidivent : nouveau papier mHC (Manifold-Constrained Hyper-Connections), amélioration de l'architecture Transformer qui rend l'entraînement plus stable et moins cher.

Le playbook DeepSeek est toujours le même : d'abord un papier technique sur arXiv (Liang Wenfeng le publie personnellement, comme pour R1 et V3), puis le modèle. Un flagship est probablement à quelques semaines.

Ce que ça dit du nouveau paradigme IA

→ Les gains du simple scaling s'épuisent — pas la peine de continuer à empiler les paramètres
→ La progression vient maintenant des améliorations architecturales et du Reinforcement Learning
→ Les coûts se déplacent du training vers l'inférence
→ Le prix des tokens s'est effondré — divisé par 1 000 en 3 ans, ce qui change radicalement les business cases possibles

Ce que ça change pour vous

L'avantage des hyperscalers américains se gomme tous les 6 mois. Une équipe chinoise de 200 personnes produit des résultats qui forcent OpenAI et Google à baisser leurs prix. Le vrai moat n'est plus dans la taille du modèle, c'est dans le context engineering, la gouvernance et la façon dont l'organisation absorbe l'IA.

Pour aller plus loin sur la migration vers des architectures plus légères : les SLM vont tuer les LLM.

Votre stratégie IA est-elle résilente à un effondrement des prix de tokens, ou avez-vous figé un budget basé sur les tarifs de 2024 ?

DeepSeek : l'IA moins chere et plus stable

Ce que ça dit du nouveau paradigme IA

Ce que ça change pour vous