العموم نيوز- شهدت تقنيات توليد الصور بالذكاء الاصطناعي تطورًا ملحوظًا مع إطلاق نموذج Images 2.0 الجديد من شركة OpenAI، والذي بات قادرًا على إنتاج نصوص داخل الصور بدقة غير مسبوقة، في خطوة قد تُصعّب التمييز بين المحتوى المُصنّع بشريًا ونظيره المُولد آليًا.
فحتى وقت قريب، كانت النماذج السابقة تعاني من أخطاء واضحة في كتابة الكلمات، حيث كانت تولد نصوصًا مشوهة أو غير مفهومة، خصوصًا في مهام بسيطة مثل تصميم قوائم الطعام.
أما الآن، فقد أصبح بإمكان النموذج الجديد إنشاء محتوى بصري متكامل، مثل قوائم طعام لمطاعم، تبدو احترافية وقابلة للاستخدام الفعلي دون ملاحظة أخطاء تُذكر، بحسب تقرير نشره موقع “تك كرانش” واطلعت عليه “العربية Business”.
ويرجع هذا التحسن إلى تطور آليات توليد الصور، إذ كانت النماذج التقليدية تعتمد على ما يُعرف بنماذج الانتشار، التي تعيد بناء الصورة انطلاقًا من الضوضاء، ما يجعل النصوص داخلها جزءًا هامشيًا يصعب إتقانه.
في المقابل، بدأت الأبحاث تتجه نحو نماذج أكثر تقدمًا مثل النماذج التلقائية (Autoregressive models)، التي تعمل بطريقة أقرب إلى نماذج اللغة، ما يحسن دقة التفاصيل الدقيقة مثل النصوص.
ورغم أن OpenAI لم تكشف بشكل صريح عن البنية التقنية للنموذج الجديد، إلا أنها أكدت أن Images 2.0 يتمتع بقدرات تفكير متقدمة، تتيح له تنفيذ مهام معقدة مثل البحث، وإنشاء عدة صور من طلب واحد، ومراجعة النتائج قبل تقديمها.
كما أوضحت الشركة أن النموذج الجديد يقدم دعمًا محسّنًا للنصوص غير اللاتينية، بما يشمل لغات مثل اليابانية والكورية والهندية والبنغالية، ما يعزز استخدامه في أسواق عالمية متعددة.
وبفضل هذه القدرات، أصبح بإمكان المستخدمين إنشاء مواد تسويقية عالية الجودة، أو رسوم كوميكس متعددة المشاهد، مع الحفاظ على دقة التفاصيل مثل الأيقونات وعناصر واجهات المستخدم، وحتى النصوص الصغيرة، وهي من أبرز التحديات التي واجهت النماذج السابقة.
ورغم أن توليد هذا النوع من المحتوى قد يستغرق وقتًا أطول مقارنة بالردود النصية التقليدية، إلا أنه يتم خلال دقائق معدودة حتى في الحالات المعقدة.
ومن المقرر أن يتاح النموذج الجديد لجميع مستخدمي تشات جي بي تي و«Codex»، مع ميزات إضافية للمشتركين المدفوعين، إلى جانب إطلاق واجهة برمجية تحمل اسم «gpt-image-2»، والتي ستُسعّر وفق جودة ودقة الصور المنتجة.
ويعكس هذا التطور تسارع المنافسة في مجال الذكاء الاصطناعي، ويضع معيارًا جديدًا لقدرات توليد الصور، خاصة في ما يتعلق بدمج النصوص بدقة داخل المحتوى البصري.

