OpenAI تطلق GPT-5.4 بنافذة سياق مليون رمز واستخدام حاسوب مدمج ونتائج قياسية

أطلقت OpenAI نموذج GPT-5.4، أقوى نموذج أساسي لديها حتى الآن، متاحاً بثلاثة إصدارات — العادي وThinking وPro. يمثل هذا الإطلاق أهم تحديث للنماذج منذ GPT-5.2، حيث يقدم نافذة سياق تصل إلى مليون رمز، وقدرات استخدام حاسوب مدمجة، ودقة محسنة بشكل كبير عبر المعايير المهنية.
أبرز النقاط
- نافذة سياق مليون رمز — الأكبر التي تقدمها OpenAI على الإطلاق، تتيح تحليل قواعد برمجية كاملة وسير عمل وكلاء ممتدة
- استخدام حاسوب مدمج يحقق 75% على معيار OSWorld-Verified، متجاوزاً خط الأساس البشري البالغ 72.4%
- ادعاءات خاطئة أقل بنسبة 33% وأخطاء إجمالية أقل بنسبة 18% مقارنة بـ GPT-5.2
- 83% على معيار GDPval، رقم قياسي جديد عبر 44 فئة مهام مهنية
ثلاثة إصدارات، بنية واحدة
يأتي GPT-5.4 بثلاثة أشكال تستهدف حالات استخدام مختلفة:
GPT-5.4 Thinking يحل محل GPT-5.2 Thinking كنموذج الاستدلال الافتراضي في ChatGPT. يقدم تحسينات في ستة مجالات: البرمجة واستخدام الأدوات، والمعالجة البصرية، وسير عمل الوكلاء، وكفاءة الرموز، وتوليف بحث الويب، وأتمتة المستندات التجارية. يتم طرحه تدريجياً لمشتركي Plus وTeam وPro، مع إيقاف GPT-5.2 Thinking خلال ثلاثة أشهر.
GPT-5.4 Pro هو الإصدار عالي الأداء المحسن لأصعب المهام، بسعر 30 دولاراً لكل مليون رمز إدخال و180 دولاراً لكل مليون رمز إخراج.
GPT-5.4 العادي يعمل كنموذج API للأغراض العامة بسعر 2.50 دولار لكل مليون رمز إدخال و15 دولاراً لكل مليون رمز إخراج، مع إدخال مخبأ بـ 0.25 دولار فقط لكل مليون رمز.
استخدام الحاسوب يصبح سائداً
GPT-5.4 هو أول نموذج عام من OpenAI مزود بقدرات استخدام حاسوب مدمجة. يمكن للوكلاء الآن التحكم في إدخالات الفأرة ولوحة المفاتيح، والتنقل في تطبيقات سطح المكتب، وتنفيذ سير عمل متعددة الخطوات عبر البرامج — كل ذلك دون أدوات خارجية.
على معيار OSWorld-Verified الذي يختبر مهام التنقل في سطح المكتب، حقق GPT-5.4 نسبة نجاح 75%، بقفزة كبيرة من 47.3% لـ GPT-5.2 ومتجاوزاً بشكل ملحوظ خط الأساس البشري البالغ 72.4%. على معيار WebArena-Verified للمهام المعتمدة على المتصفح، سجل 67.3%.
نتائج المعايير
يحقق النموذج أرقاماً قياسية جديدة عبر المعايير المهنية والتقنية:
| المعيار | GPT-5.4 | GPT-5.2 | ملاحظات |
|---|---|---|---|
| GDPval (العمل المعرفي) | 83.0% | — | رقم قياسي عبر 44 مهنة |
| OSWorld-Verified | 75.0% | 47.3% | يتجاوز خط الأساس البشري 72.4% |
| SWE-Bench Pro | 57.7% | 56.8% | مهام هندسة البرمجيات |
| MMMU-Pro (بصري) | 81.2% | — | الفهم البصري |
| مهام جداول البيانات | 87.3% | — | أتمتة الأعمال |
كما يتصدر GPT-5.4 معيار APEX-Agents من Mercor، المصمم لتقييم الوكلاء في المهام المهنية المستدامة عبر الخدمات المصرفية الاستثمارية والاستشارات والقانون المؤسسي.
كفاءة الرموز
إلى جانب الأداء الخام، أكدت OpenAI على مكاسب الكفاءة. على معيار MCP Atlas، حقق GPT-5.4 تخفيضاً بنسبة 47% في استخدام الرموز مع الحفاظ على الدقة — تحسين حاسم لمستخدمي API المهتمين بالتكاليف. في Codex، يدعم النموذج وضع /fast الذي يوفر سرعة توليد رموز أسرع بما يصل إلى 1.5 مرة.
المشهد التنافسي
يستهدف الإطلاق مباشرة نموذج Claude Opus 4.6 من Anthropic، الذي يتصدر حالياً في البرمجة وسير عمل الوكلاء. بسعر 2.50/15 دولاراً لكل مليون رمز (إدخال/إخراج)، يقدم GPT-5.4 العادي سعراً أقل من تسعير Claude Opus 4.6 البالغ 5/25 دولاراً، رغم أن إصدار Pro بسعر 30/180 دولاراً أغلى بكثير.
تتطابق نافذة السياق البالغة مليون رمز مع ما قدمته Anthropic وGoogle، مما يسد فجوة كانت تضع OpenAI في موقف أضعف لأعباء العمل ذات السياق الطويل.
ما التالي
يتم طرح GPT-5.4 Thinking تدريجياً في ChatGPT وCodex. واجهة API متاحة فوراً للمطورين. أشارت OpenAI إلى أن قدرات استخدام الحاسوب ستتوسع أكثر، مع تكامل أوثق في سير العمل المؤسسي ومنصات الوكلاء المستقلة.
المصدر: TechCrunch
ناقش مشروعك معنا
نحن هنا للمساعدة في احتياجات تطوير الويب الخاصة بك. حدد موعدًا لمناقشة مشروعك وكيف يمكننا مساعدتك.
دعنا نجد أفضل الحلول لاحتياجاتك.