DeepSeek : Comment cette start-up chinoise bouscule l'empire de l'intelligence artificielle

DeepSeek : Comment cette start-up chinoise bouscule l'empire de l'intelligence artificielle

AIRouter 5 分钟阅读 6 次浏览

小葵API服务 的 AI API 使用建议

小葵API服务 面向需要 OpenAI 兼容接口、Claude/Gemini/GPT 多模型切换、包月额度管理和图像模型调用的用户。阅读本文后,可以结合本站的模型清单、独立使用文档和个人面板,把教程内容直接落到实际调用流程中。

L'univers de l'intelligence artificielle a connu de nombreux bouleversements ces dernières années, mais peu ont été aussi soudains et profonds que l'irruption de DeepSeek. Fondée en juillet 2023 par Liang Wenfeng, cette start-up basée à Hangzhou, en Chine, est parvenue en un temps record à rivaliser avec les géants américains de la Silicon Valley comme OpenAI, Google et Meta.

Qualifiée de « moment Spoutnik » par de nombreux analystes et investisseurs, la réussite de DeepSeek repose sur une promesse audacieuse : proposer des modèles d'IA de pointe extrêmement performants, mais à un coût de développement et d'infrastructure drastiquement inférieur à celui de ses concurrents.


La genèse : Du trading algorithmique à l'AGI

L'histoire de DeepSeek est intimement liée à celle de High-Flyer, un fonds spéculatif (hedge fund) chinois quantitatif cofondé en 2016 par Liang Wenfeng. Très tôt, High-Flyer s'est appuyé exclusivement sur l'intelligence artificielle et l'apprentissage profond pour piloter ses transactions financières.

Pour soutenir ses algorithmes, l'entreprise a construit ses propres supercalculateurs, notamment la série Fire-Flyer. Avant que les restrictions américaines sur l'exportation de puces haut de gamme vers la Chine ne se durcissent, High-Flyer a accumulé des milliers de GPU Nvidia A100. En avril 2023, Liang annonce la création d'un laboratoire de recherche dédié à l'Intelligence Artificielle Générale (AGI), totalement indépendant de l'activité financière. En juillet de la même année, ce laboratoire devient une entité à part entière : DeepSeek.


Une révolution d'efficacité : Comment réduire les coûts par 10 ?

Alors qu'OpenAI aurait dépensé plus de 100 millions de dollars pour entraîner GPT-4, DeepSeek affirme avoir entraîné son modèle V3 pour seulement 5,6 millions de dollars, tout en consommant près de dix fois moins de puissance de calcul que Meta pour son modèle Llama 3.1.

Comment une telle prouesse a-t-elle été possible ? La réponse réside dans une série d'innovations architecturales majeures :

1. Le Mélange d'Experts (MoE) et l'Attention Latente (MLA)

Au lieu d'activer l'intégralité du réseau de neurones à chaque requête (modèle dense), l'architecture de DeepSeek utilise un système de Mélange d'Experts (Mixture of Experts - MoE). Le modèle est divisé en plusieurs sous-réseaux (« experts »). Pour chaque mot (token) traité, seule une poignée d'experts pertinents est activée.

De plus, DeepSeek a introduit la technologie MLA (Multi-head Latent Attention), qui compresse considérablement la mémoire cache nécessaire (KV cache), réduisant de fait les besoins en bande passante et en mémoire vive des serveurs.

Architecture DeepSeek-V2 (MoE et MLA)

2. Le calcul en précision mixte (FP8)

Pour maximiser l'efficacité du matériel disponible, l'équipe technique de DeepSeek a optimisé l'entraînement en effectuant la majorité des calculs en format FP8 (nombres à virgule flottante sur 8 bits) plutôt qu'en 16 ou 32 bits traditionnels. Cette technique de précision mixte, hautement personnalisée, a permis de réduire drastiquement la latence de communication entre les puces.

Entraînement en précision mixte dans DeepSeek V3


DeepSeek-R1 : L'avènement du raisonnement logique

En janvier 2025, DeepSeek a lancé son chatbot grand public et son modèle phare, DeepSeek-R1. À l'instar d'OpenAI o1, R1 est un modèle dit « de raisonnement » (reasoning model) capable de générer une chaîne de pensée interne avant de formuler sa réponse finale (matérialisée par les balises <think> ... </think>).

Le pipeline d'entraînement multi-étapes de R1 :

Le processus d'entraînement de R1 repose principalement sur l'apprentissage par renforcement (Reinforcement Learning - RL) via une méthode optimisée appelée GRPO (Group Relative Policy Optimization), évitant ainsi le coût d'un modèle de récompense lourd.

Le pipeline de DeepSeek-R1

Ce pipeline combine :

  • Un entraînement initial de démarrage à froid (« cold-start ») avec des données de haute qualité.
  • Une phase d'apprentissage par renforcement pour acquérir les capacités de raisonnement (mathématiques, code, logique).
  • Une génération de données synthétiques (rejection sampling) pour affiner d'autres modèles plus petits (distillation).

Les performances de R1 sur les benchmarks de mathématiques (comme l'AIME) et de programmation ont égalé, voire dépassé sur certains aspects, les meilleurs modèles propriétaires occidentaux, tout en étant distribué sous licence libre MIT (« open-weight »).


Le saut vers le futur : DeepSeek-V4

Loin de se reposer sur ses lauriers, DeepSeek a publié en avril 2026 un aperçu de sa série V4, comprenant le modèle géant DeepSeek-V4-Pro (1,6 billion de paramètres) et le modèle agile DeepSeek-V4-Flash (284 milliards de paramètres).

Cette nouvelle génération introduit de nouvelles avancées :

  • mHC (Manifold-constrained Hyper Connections) : Une architecture visant à améliorer les connexions résiduelles traditionnelles au sein des Transformers.
  • Attention hautement compressée (HCA) : Pour gérer des fenêtres de contexte atteignant 1 million de tokens.
  • L'optimiseur Muon : Utilisé pour accélérer la convergence et stabiliser l'entraînement sur des puces de conception chinoise (comme Huawei Ascend).

Un impact géopolitique et économique mondial

L'émergence de DeepSeek a redéfini les règles du jeu de l'industrie de l'IA :

  • Guerre des prix : Surnommé le « Pinduoduo de l'IA » en référence au géant du commerce en ligne à bas coût, DeepSeek a forcé les géants chinois (Alibaba, Tencent, Baidu, ByteDance) et mondiaux à baisser drastiquement les tarifs de leurs API.
  • Séisme boursier : Fin janvier 2025, l'annonce de l'efficacité de DeepSeek face aux restrictions de puces a provoqué une chute historique de l'action Nvidia, effaçant temporairement 600 milliards de dollars de capitalisation boursière.
  • Souveraineté et expansion : En proposant des solutions abordables et moins gourmandes en énergie, DeepSeek s'implante fortement sur d'autres continents, notamment en Afrique (Nairobi, etc.), offrant une alternative flexible aux plateformes américaines.

DeepSeek a prouvé qu'il n'était pas toujours nécessaire d'accumuler de manière exponentielle des puces à plusieurs dizaines de milliers de dollars pour innover. Parfois, l'astuce algorithmique et l'optimisation logicielle peuvent s'avérer bien plus redoutables.