قد تتوفر قريبًا إمكانات الرؤية المرتقبة لـ ChatGPT، وفقًا لبعض المحققين ذوي النظرة الثاقبة.
هيئة الروبوت رصدت بعض أسطر التعليمات البرمجية في جزء وضع الصوت المتقدم من أحدث إصدار تجريبي من ChatGPT v1.2024.317، والتي تشير إلى شيء يسمى “الكاميرا الحية”. ويبدو أن الرمز بمثابة تحذير للمستخدمين بعدم استخدام الكاميرا المباشرة “للتنقل المباشر أو القرارات التي قد تؤثر على صحتك أو سلامتك”.
ويبدو أن سطرًا آخر في الكود يعطي تعليمات لقدرات الرؤية، حيث يقول: “اضغط على أيقونة الكاميرا للسماح لـ ChatGPT بعرض المناطق المحيطة بك والدردشة حولها”.
سرعة الضوء ماشابل
تحديثات ChatGPT لنظامي التشغيل Windows وmacOS: كل ما تحتاج إلى معرفته
قدرات ChatGPT المتطورة: الرؤية والصوت وما بعده
كانت قدرة ChatGPT على معالجة المعلومات بشكل مرئي ميزة رئيسية ظهرت لأول مرة في حدث OpenAI في مايو الماضي، حيث تم إطلاق GPT-4o. أظهرت العروض التوضيحية من الحدث كيف يمكن لـ GPT-4o استخدام كاميرا محمولة أو كاميرا مكتبية لتحديد الموضوعات وتذكر التفاصيل حول العناصر المرئية. أظهر أحد العروض التوضيحية تحديد GPT-4o لكلب يلعب بكرة التنس وتذكر أن اسمه هو “Bowser”.
منذ حدث OpenAI والوصول المبكر اللاحق إلى عدد قليل من مختبري ألفا المحظوظين، لم يُقال الكثير عن GPT-4o مع الرؤية. وفي الوقت نفسه، قامت OpenAI بشحن الوضع الصوتي المتقدم لمستخدمي ChatGPT Plus وTeam في سبتمبر.
إذا كان وضع رؤية ChatGPT وشيكًا كما يقترح الكود، فسيتمكن المستخدمون قريبًا من اختبار كلا مكوني ميزات GPT-4o الجديدة التي تم طرحها في الربيع الماضي.
ربما تم حذف التغريدة
لقد كان OpenAI مشغولاً مؤخرًا، على الرغم من التقارير التي تفيد بوجود تناقص العوائد مع النماذج المستقبلية. وفي الشهر الماضي، أطلقت شركة ChatGPT Search، التي تربط نموذج الذكاء الاصطناعي بالويب، وتوفر معلومات في الوقت الفعلي. ويشاع أيضًا أنه يعمل على نوع ما من الوكلاء القادرين على القيام بمهام متعددة الخطوات نيابة عن المستخدم، مثل كتابة التعليمات البرمجية وتصفح الويب، ومن المحتمل أن يتم إصداره في يناير.