دعونا نرى ما إذا كان بإمكانك حل هذه المشكلة الحسابية:
أوليفر يختار 44 كيوي يوم الجمعة. ثم يختار 58 كيوي يوم السبت. وفي يوم الأحد، قام بقطف ضعف عدد حبات الكيوي التي قطفها يوم الجمعة، لكن خمسة منها كانت أصغر قليلاً من المتوسط. كم عدد الكيوي الذي يمتلكه أوليفر؟
إذا كانت إجابتك “190”، فتهانينا: لقد قمت بأداء جيد مثل طفل المدرسة الابتدائية العادي في الإجابة الصحيحة. (44 يوم الجمعة زائد 58 يوم السبت زائد 44 يوم الأحد مضروبًا في 2، أو 88، يساوي 190.)
كما تفوق في الأداء على أكثر من 20 نموذجًا من نماذج الذكاء الاصطناعي من الجيل التالي التي تم اختبارها من قبل فريق أبحاث الذكاء الاصطناعي التابع لشركة Apple. لقد اكتشفوا أن روبوتات الذكاء الاصطناعي كانت دائمًا مخطئة.
لقد جذبت حقيقة قيام شركة Apple بهذا الأمر الكثير من الاهتمام، لكن لا ينبغي لأحد أن يتفاجأ بالنتائج.
– الناقد لمنظمة العفو الدولية غاري ماركوس
وقد وجد فريق شركة أبل “انخفاضات كارثية في أداء” تلك النماذج عندما حاولوا تحليل مسائل رياضية بسيطة مكتوبة في شكل مقال. في هذا المثال، الأنظمة التي تطرح السؤال غالبًا لم تفهم أن حجم ثمرة الكيوي لا علاقة له بعدد حبات الكيوي التي يمتلكها أوليفر. ومن ثم طرح البعض حبات الكيوي الخمسة الأصغر حجمًا من المجموع وأجابوا بـ “185”.
وافترض الباحثون أن أطفال المدارس من البشر أفضل بكثير في اكتشاف الفرق بين المعلومات ذات الصلة والمنحنيات غير المهمة.
ورقة حقائق
احصل على الأحدث من مايكل هيلتزيك
تعليق على الاقتصاد وحائز على أكثر من جائزة بوليتزر.
قد تتلقى أحيانًا محتوى ترويجيًا من Los Angeles Times.
تم نشر النتائج التي توصلت إليها شركة Apple في أكتوبر وثيقة فنية والتي اجتذبت اهتمامًا واسع النطاق في مختبرات الذكاء الاصطناعي والصحافة العامة، ليس فقط لأن النتائج موثقة جيدًا، ولكن أيضًا لأن الباحثين يعملون لدى الشركة الاستهلاكية الرائدة في مجال التكنولوجيا الفائقة في البلاد، والتي أطلقت للتو مجموعة من ميزات الذكاء الاصطناعي المفترضة لـ مستخدمي آيفون.
يقول غاري ماركوس، وهو منتقد لكيفية تسويق أنظمة الذكاء الاصطناعي على أنها موثوقة و”ذكية”: “حقيقة أن شركة أبل فعلت ذلك قد جذبت الكثير من الاهتمام، ولكن لا ينبغي لأحد أن يتفاجأ بالنتائج”.
في الواقع، يتوافق استنتاج شركة أبل مع الدراسات السابقة التي وجدت أن نماذج اللغات الكبيرة، أو LLMs، لا “تفكر” في الواقع، بل تتطابق مع الأنماط اللغوية للمواد التي تم تقديمها لها كجزء من “تدريبها”. وعندما يتعلق الأمر بالتفكير المجرد ــ “الجانب الرئيسي من الذكاء البشري”، على حد تعبير ميلاني ميتشل، خبيرة الإدراك والذكاء في معهد سانتا في ــ فإن النماذج تفشل في تحقيق ذلك.
“حتى الأطفال الصغار جدًا هم خبراء في تعلم القواعد المجردة من بضعة أمثلة.” كتب ميتشل وزملاؤه العام الماضي بعد إخضاع روبوتات GPT لسلسلة من ألغاز القياس. وكان استنتاجهم هو أنه “لا تزال هناك فجوة كبيرة في التفكير التجريدي الأساسي بين البشر وأنظمة الذكاء الاصطناعي الحديثة”.
وهذا أمر مهم لأن LLMs مثل GPT تدعم منتجات الذكاء الاصطناعي التي جذبت انتباه الجمهور. لكن طلاب الماجستير في القانون الذين اختبرهم فريق Apple كانوا يتعرضون للتضليل باستمرار بسبب أنماط اللغة التي تم تدريبهم عليها.
شرع باحثو شركة Apple في الإجابة على السؤال التالي: “هل تفهم هذه النماذج المفاهيم الرياضية حقًا؟” كما قال أحد المؤلفين الرئيسيين، مهرداد فرج طبر خيط في x. إجابتك هي لا. وتساءلوا أيضًا عما إذا كان من الممكن إصلاح أوجه القصور التي حددوها بسهولة، وكانت إجابتهم أيضًا لا: “هل يمكن لتوسيع نطاق البيانات أو النماذج أو الحوسبة حل هذه المشكلة بشكل أساسي؟” سأل فرج طبر في موضوعه. “نحن لا نصدق ذلك!”
يعد بحث Apple، إلى جانب النتائج الأخرى حول القيود المعرفية لروبوتات الذكاء الاصطناعي، بمثابة تصحيح مطلوب بشدة لعروض المبيعات القادمة من الشركات التي تروج لنماذج وأنظمة الذكاء الاصطناعي الخاصة بها، بما في ذلك OpenAI ومختبر DeepMind من Google.
يصف المروجون عمومًا منتجاتهم بأنها موثوقة وإنتاجهم جدير بالثقة. وفي الواقع، فإن إنتاجها موضع شك دائمًا، مما يشكل خطرًا واضحًا عند استخدامها في سياقات تكون فيها الحاجة إلى الدقة الصارمة مطلقة، على سبيل المثال في تطبيقات الرعاية الصحية.
هذا ليس هو الحال دائما. قال لي ماركوس: “هناك بعض المشاكل التي يمكنك من خلالها كسب الكثير من المال دون أن يكون لديك حل مثالي”. محركات التوصية المدعومة بالذكاء الاصطناعي: تلك التي توجه متسوقي أمازون نحو المنتجات التي قد تعجبهم أيضًا، على سبيل المثال. إذا حصلت هذه الأنظمة على توصية سيئة، فهذا ليس بالأمر الكبير؛ قد ينفق العميل بضعة دولارات على كتاب لم يعجبه.
يقول ماركوس: “لكن الآلة الحاسبة الصحيحة في 85% فقط من الحالات تعتبر تافهة”. “لن تستخدمه.”
وتتعزز احتمالات الحصول على نتائج غير دقيقة على نحو ضار من خلال قدرات اللغة الطبيعية التي تتمتع بها روبوتات الذكاء الاصطناعي، والتي تقدم حتى إجابات غير دقيقة إلى حد سخيف بحماس متعجرف بشكل مقنع. وفي كثير من الأحيان، عند سؤالهم، يكررون أخطائهم.
غالبًا ما يصف باحثو الذكاء الاصطناعي هذه الأخطاء بأنها “هلوسة”. قد يجعل هذا المصطلح الأخطاء تبدو غير ضارة تقريبًا، ولكن في بعض التطبيقات، حتى معدل الخطأ الضئيل يمكن أن يكون له تداعيات خطيرة.
هذا ما توصل إليه الباحثون الأكاديميون تحليل تم نشره مؤخرًا لـ Whisperأداة تحويل الكلام إلى نص مدعومة بالذكاء الاصطناعي تم تطويرها بواسطة OpenAI، والتي يمكن استخدامها لتدوين المناقشات الطبية أو المحادثات المحتجزة التي يراقبها ضباط الإصلاحيات.
ووجد الباحثون أن حوالي 1.4% من المقاطع الصوتية التي نسخها ويسبر في العينة الخاصة بهم تحتوي على هلاوس، بما في ذلك إضافة عبارات ملفقة بالكامل إلى المحادثة المكتوبة والتي تضمنت تصوير “العنف الجسدي أو الموت… [or] “التلميحات الجنسية” والقوالب النمطية الديموغرافية.
وأشار الباحثون إلى أنه يمكن دمج الأخطاء في السجلات الرسمية، مثل نصوص شهادة المحكمة أو المكالمات الهاتفية في السجن، مما قد يؤدي إلى قرارات رسمية بناءً على “عبارات أو تصريحات لم يقلها المدعى عليه مطلقًا”.
وهذا يقودنا إلى استوديو أبل.
استخدم الفريق نماذج الذكاء الاصطناعي المواضيعية الخاصة بهم مع أسئلة مستمدة من مجموعة شائعة تضم أكثر من 8000 مسألة حسابية في المدارس الابتدائية والتي اختبرت فهم أطفال المدارس لعمليات الجمع والطرح والضرب والقسمة. وعندما تضمنت المشاكل فقرات قد تبدو ذات صلة ولكنها لم تكن كذلك، انخفض أداء النماذج بشكل حاد.
كان هذا صحيحًا بالنسبة لجميع النماذج، بما في ذلك إصدارات روبوتات GPT التي طورتها OpenAI، وMeta’s Llama، مايكروسوفت فاي-3, جوجل جوهرة والعديد من النماذج التي طورتها المختبر الفرنسي ميسترال للذكاء الاصطناعي.
كان أداء البعض أفضل من البعض الآخر، لكن الجميع أظهروا انخفاضًا في الأداء حيث أصبحت المشكلات أكثر تعقيدًا.
لماذا حدث هذا؟ الجواب هو أن طلاب ماجستير القانون يتم تطويرهم أو تدريبهم من خلال تزويدهم بكميات هائلة من المواد المكتوبة المستمدة من الأعمال المنشورة أو الإنترنت، وليس من خلال محاولة تعليمهم المبادئ الرياضية. تعمل LLMs من خلال التقاط الأنماط الموجودة في البيانات ومحاولة مطابقة النمط مع السؤال المطروح.
لكنهم “يفرطون في التكيف مع بيانات التدريب الخاصة بهم”، كما أوضح فرجتابار عبر X. “إنهم يحفظون ما هو موجود على الويب ويقارنون الأنماط ويستجيبون وفقًا للأمثلة التي رأوها.
ومن المرجح أن يفرض ذلك حدودًا على ما يمكن استخدام الذكاء الاصطناعي من أجله. في التطبيقات ذات المهام الحرجة، سيتعين على البشر دائمًا أن يكونوا “على دراية”، كما يقول مطورو الذكاء الاصطناعي، حيث يقومون بفحص الاستجابات بحثًا عن أخطاء واضحة أو خطيرة أو تقديم إرشادات لمنع الروبوتات من إساءة تفسير بياناتهم، أو تحريف ما يعرفونه أو ملء الثغرات في المعلومات. معرفتهم مع الافتراءات.
وهذا أمر مريح إلى حد ما، لأنه يعني أن أنظمة الذكاء الاصطناعي لا يمكنها إنجاز الكثير دون وجود شركاء بشريين. ولكنه يعني أيضًا أننا نحن البشر يجب أن ندرك ميل مروجي الذكاء الاصطناعي إلى المبالغة في قدرات منتجاتهم وإخفاء حدودها.
يقول ماركوس: “هذه الأنظمة سترتكب الأخطاء دائمًا لأن الهلوسة متأصلة”. “إن الطريقة التي يتعاملون بها مع المنطق هي تقريبية وليست حقيقة. ولن يختفي أي من هذا حتى نحصل على بعض التكنولوجيا الجديدة.