أعلنت شركة Mistral عن إطلاق نموذج Pixtral 12B متعدد الوسائط للذكاء الاصطناعي مع ميزة “الرؤية الحاسوبية”

أطلقت شركة Mistral أول نموذج متعدد الوسائط للذكاء الاصطناعي (AI) المسمى Pixtral 12B يوم الأربعاء. كما قامت شركة الذكاء الاصطناعي، المعروفة بنماذج اللغة الكبيرة مفتوحة المصدر (LLMs)، بإتاحة أحدث نموذج للذكاء الاصطناعي على GitHub و Hugging Face للمستخدمين للتنزيل والاختبار. والجدير بالذكر أنه على الرغم من كونه متعدد الوسائط، لا يمكن لـ Pixtral معالجة الصور إلا باستخدام تقنية الرؤية الحاسوبية والإجابة على الاستفسارات حولها. تمت إضافة اثنين من أجهزة الترميز الخاصة لهذه الوظيفة. لا يمكنها إنشاء صور مثل نماذج الانتشار المستقر أو شبكات Midjourney التنافسية التوليدية (GANs).

ميسترال تطلق Pixtral 12B

اكتسبت Mistral شهرة كبيرة بسبب إعلاناتها البسيطة، حيث أصدر الحساب الرسمي لها على X (المعروف سابقًا باسم Twitter) نموذج الذكاء الاصطناعي في بريد من خلال مشاركة رابط المغناطيس الخاص به. يبلغ الحجم الإجمالي لملف Pixtral 12B 24 جيجابايت، وسيتطلب جهاز كمبيوتر مزودًا بوحدة NPU أو جهازًا مزودًا بوحدة معالجة رسومية قوية لتشغيل النموذج.

يأتي Pixtral 12B مزودًا بـ 12 مليار معلمة وتم بناؤه باستخدام نموذج Nemo 12B AI الحالي للشركة. تسلط Mistral الضوء على أن المستخدمين سيحتاجون أيضًا إلى Gaussian Error Linear Unit (GeLU) كمحول للرؤية و 2D Rotary Position Embedding (RoPE) كمشفر للرؤية.

ومن الجدير بالذكر أن المستخدمين يستطيعون تحميل ملفات الصور أو عناوين URL إلى Pixtral 12B، وينبغي أن يكون قادرًا على الإجابة على الاستفسارات حول الصورة مثل تحديد الكائنات، وحساب عددها، ومشاركة معلومات إضافية. ولأنه مبني على Nemo، فإن النموذج سيكون أيضًا بارعًا في إكمال جميع المهام النصية النموذجية أيضًا.

مستخدم Reddit تم نشره صورة توضح درجات المقارنة المعيارية لـ Pixtral 12B، ويبدو أن LLM يتفوق على Claude-3 Haiku وPhi-3 Vision في القدرات المتعددة الوسائط على منصة ChartQA. كما يتفوق أيضًا على كلا نموذجي الذكاء الاصطناعي المنافسين على منصة Massive Multitask Language Understanding (MMLU) فيما يتعلق بالمعرفة المتعددة الوسائط والاستدلال.

نقلاً عن المتحدث باسم الشركة، TechCrunch التقارير يمكن ضبط نموذج الذكاء الاصطناعي Mistral واستخدامه بموجب ترخيص Apache 2.0. وهذا يعني أنه يمكن استخدام مخرجات النموذج للاستخدام الشخصي أو التجاري دون قيود. بالإضافة إلى ذلك، أوضحت صوفيا يانج، رئيسة علاقات المطورين في Mistral، في بريد سيكون Pixtral 12B متاحًا قريبًا على Le Chat و Le Platforme.

في الوقت الحالي، يمكن للمستخدمين تنزيل نموذج الذكاء الاصطناعي مباشرةً باستخدام رابط المغناطيس الذي توفره الشركة. بدلاً من ذلك، تم أيضًا إضافة أوزان النموذج مُستضاف حول Hugging Face وGitHub القوائم.

مصدر

LEAVE A REPLY

Please enter your comment!
Please enter your name here