OpenAI lance GPT-5.4 avec un contexte de 1M de tokens, un usage natif de l'ordinateur et des benchmarks records

OpenAI a lancé GPT-5.4, son modèle fondamental le plus performant à ce jour, disponible en trois variantes — standard, Thinking et Pro. Ce lancement marque la mise à jour la plus significative depuis GPT-5.2, introduisant une fenêtre de contexte de 1 million de tokens, des capacités natives d'utilisation de l'ordinateur et une précision considérablement améliorée sur les benchmarks professionnels.

Points clés

Fenêtre de contexte de 1 million de tokens — la plus grande jamais proposée par OpenAI, permettant l'analyse de bases de code entières et des workflows d'agents étendus
Usage natif de l'ordinateur atteignant 75% sur OSWorld-Verified, dépassant le seuil de performance humaine de 72,4%
33% de fausses affirmations en moins et 18% d'erreurs globales en moins par rapport à GPT-5.2
83% sur GDPval, un nouveau record dans 44 catégories de tâches professionnelles

Trois variantes, une seule architecture

GPT-5.4 est proposé en trois versions ciblant différents cas d'usage :

GPT-5.4 Thinking remplace GPT-5.2 Thinking comme modèle de raisonnement par défaut dans ChatGPT. Il apporte des améliorations dans six domaines : programmation et utilisation d'outils, traitement visuel, workflows d'agents, efficacité des tokens, synthèse de recherche web et automatisation de documents professionnels. Il est déployé progressivement pour les abonnés Plus, Team et Pro, GPT-5.2 Thinking étant retiré dans trois mois.

GPT-5.4 Pro est la variante haute performance optimisée pour les charges de travail les plus exigeantes, au prix de 30 $ par million de tokens d'entrée et 180 $ par million de tokens de sortie.

GPT-5.4 standard sert de modèle API polyvalent à 2,50 $ par million de tokens d'entrée et 15 $ par million de tokens de sortie, avec un cache d'entrée à seulement 0,25 $ par million de tokens.

L'usage de l'ordinateur devient courant

GPT-5.4 est le premier modèle généraliste d'OpenAI doté de capacités natives d'utilisation de l'ordinateur. Les agents peuvent désormais contrôler les entrées de la souris et du clavier, naviguer dans les applications de bureau et exécuter des workflows multi-étapes entre logiciels — le tout sans outillage externe.

Sur OSWorld-Verified, qui teste les tâches de navigation sur le bureau, GPT-5.4 a atteint un taux de réussite de 75%, une progression massive par rapport aux 47,3% de GPT-5.2, dépassant notablement le seuil de performance humaine de 72,4%. Sur WebArena-Verified pour les tâches basées sur le navigateur, il a obtenu 67,3%.

Résultats des benchmarks

Le modèle établit de nouveaux records sur les benchmarks professionnels et techniques :

Benchmark	GPT-5.4	GPT-5.2	Notes
GDPval (travail intellectuel)	83,0%	—	Record dans 44 professions
OSWorld-Verified	75,0%	47,3%	Dépasse le seuil humain de 72,4%
SWE-Bench Pro	57,7%	56,8%	Tâches d'ingénierie logicielle
MMMU-Pro (visuel)	81,2%	—	Compréhension visuelle
Tâches tableur	87,3%	—	Automatisation professionnelle

GPT-5.4 revendique également la première place sur le benchmark APEX-Agents de Mercor, conçu pour évaluer les agents sur des tâches professionnelles soutenues en banque d'investissement, conseil et droit des affaires.

Efficacité des tokens

Au-delà des performances brutes, OpenAI a souligné les gains d'efficacité. Sur le benchmark MCP Atlas, GPT-5.4 a obtenu une réduction de 47% de la consommation de tokens tout en maintenant la précision — une amélioration cruciale pour les utilisateurs d'API soucieux des coûts. Dans Codex, le modèle prend en charge un mode /fast offrant une vitesse de génération de tokens jusqu'à 1,5 fois plus rapide.

Paysage concurrentiel

Le lancement cible directement le Claude Opus 4.6 d'Anthropic, actuellement en tête dans les workflows de programmation et d'agents. À 2,50/15 $ par million de tokens (entrée/sortie), GPT-5.4 standard est moins cher que le tarif de 5/25 $ de Claude Opus 4.6, bien que la variante Pro à 30/180 $ soit nettement plus coûteuse.

La fenêtre de contexte de 1 million de tokens rejoint ce que proposent Anthropic et Google, comblant un écart qui désavantageait OpenAI pour les charges de travail à long contexte.

Et après

GPT-5.4 Thinking est déployé progressivement dans ChatGPT et Codex. L'API est disponible immédiatement pour les développeurs. OpenAI a indiqué que les capacités d'utilisation de l'ordinateur continueront de s'étendre, avec une intégration plus poussée dans les workflows d'entreprise et les plateformes d'agents autonomes.

Source : TechCrunch