حتى في الوقت الذي تواجه فيه دعوى قضائية من صناعة التسجيل لاستخدام عدد لا يحصى من الأغاني المحمية بحقوق الطبع والنشر لتدريب نموذج الذكاء الاصطناعي المولد للموسيقى، أصبحت Suno خامس أكثر خدمات الذكاء الاصطناعي التوليدي استخدامًا في العالم – ولا تزال الشركة تدفع تقنيتها إلى الأمام. يتوفر نموذج جديد أكثر واقعية، V4، اليوم للمشتركين المدفوعين، وسيصل في النهاية إلى جميع المستخدمين. يقول ميكي شولمان، المؤسس المشارك لشركة Suno: “أعتقد أن الأمر يتحول إلى شيء أرغب في الاستماع إليه بنشاط”. “بدلاً من شيء أريد الاستمرار في تحسينه.”
يجلس شولمان في مساحة استوديو جديدة تمامًا، مكتملة بالقيثارات الفعلية، والباس، ونظام صوت متطور، في مكاتب الشركة الجديدة أيضًا والمبنية خصيصًا، والتي تشغل طابقين – قريبًا سيكون ثلاثة – بجوار المبنى مباشرةً. حرم جامعة هارفارد في كامبريدج، ماساتشوستس. يقول شولمان مازحا: “كان علينا أن نجعل النموذج أفضل لتبرير شراء مكبرات الصوت الفاخرة”. اعتبارًا من شهر فبراير، كان لدى الشركة 12 موظفًا أو نحو ذلك؛ والآن وصل عددهم إلى أكثر من 50 شخصًا، وهناك المزيد في المستقبل. يقول شولمان، في إشارة إلى عملاق الذكاء الاصطناعي الذي يقف وراء ChatGPT: “من الصعب التنافس مع OpenAI على الباحثين الموهوبين حقًا”. “لكن الطريقة التي نتنافس بها هي إذا كنت تريد أن تتعلم التوافق [AI] نماذج ذات ذوق إنساني، وليس هناك مكان أفضل للقيام بذلك.
على عكس نماذج اللغات الكبيرة، التي لها معايير موضوعية – يمكنك مقارنة نتائج كلود وChatGPT في اختبارات LSAT، على سبيل المثال – يمكن لمهندسي Suno استخدام التفضيلات البشرية فقط. إن ملاحظة تفضيلات المستخدمين السابقين بين النتائج المختلفة من نفس الموجه قد لعبت دورًا كبيرًا في تحسين النموذج الجديد. يقول شولمان: “بعد بضعة أشهر فقط من قدرتنا على القيام بذلك، أصبح لدينا أفكار أفضل حول ماهية التفضيلات البشرية”.
تميل الموسيقى المولدة بواسطة الذكاء الاصطناعي، سواء من Suno أو من منافسها المباشر Udio، إلى الحصول على درجة معينة من الصفاء – لا تختلف عن ملفات MP3 ذات معدل البت المنخفض – وهذا أكثر وضوحًا في الغناء. بينما نقوم بإنشاء أغنية تلو الأخرى على مدار بضع ساعات في الاستوديو، فإن إنتاجات V4 أكثر وضوحًا مما يمكن أن يحشده أي نموذج سابق لـ Suno، مع مطربين وأدوات أكثر واقعية، بالإضافة إلى مجال استريو أوسع. يقول شولمان إن النموذج قد حسن مهاراته التركيبية أيضًا. ويقول: “الموسيقى أصبحت أكثر إثارة للاهتمام”. “أنت تحصل على تغييرات في الوتر لم تكن تتوقعها.”
في إحدى جهودنا، والتي يمكنك سماعها أعلاه، استخدمنا مجموعة من الكلمات التي كتبتها بسرعة، مقترنة بمطالبة بـ “البلد العضوي”، مع نتائج مبهرة إلى حد ما – يمكنك عمليًا رؤية القبعة البالية على المطرب غير الموجود. يبدو هذا المطرب مضبوطًا تلقائيًا بشكل ملحوظ، والذي قد يعكس عدد الأصوات المحسّنة إلكترونيًا في بيانات تدريب Suno.
بالنسبة لمعارضي موسيقى الذكاء الاصطناعي – وهي الفئة التي تشمل، على الأقل رسميًا، صناعة التسجيلات بأكملها تقريبًا وفنانيها، الذين وقع الكثير منهم على التماسات مناهضة للذكاء الاصطناعي – فإن احتمال وجود ذكاء اصطناعي أكثر قدرة على توليد الموسيقى ليس جيدًا أخبار. ومع ذلك، هناك استثناءات: تم إخبار تيمبالاند مؤخرًا رولينج ستون إنه يستخدم Suno “10 ساعات في اليوم” لإنهاء الأغاني غير المكتملة، وقد دخل في شراكة مع الشركة كمستشار إبداعي. ويصر شولمان على أنه يستمع إلى العديد من الفنانين وكتاب الأغاني والمنتجين الذين يستخدمون Suno بهدوء، بما في ذلك فنان واحد على الأقل يقول شولمان إنه وقع على عريضة مناهضة للذكاء الاصطناعي.
يأمل شولمان أن يتم التوصل إلى اتفاق ما بشأن استخدام بيانات التدريب، لكنه يعتقد أيضًا أن الفنانين يجب أن يكونوا أكثر قلقًا بشأن النماذج التي يمكنها في النهاية إعادة إنتاج أصواتهم حتى لو لم يتم تدريبهم عليها – وهو أمر لا يسمح به سونو، نظرًا لأن الفنانين الأسماء محظورة من المطالبات. يقول شولمان: “سيقوم شخص ما بتدريب عارضة أزياء دون وجود نيل يونج فيها”. “ثم اكتشف كيفية إخراج صورة نيل يونغ من هذا النموذج من خلال وصفها بشكل صحيح.”
لقد تجاوزت إمكانيات Suno بكثير المطالبات النصية على نمط ChatGPT – يمكنك الآن تحميل مقطوعاتك الموسيقية الجزئية أو غناء بدون مصاحبة من الالات الموسيقية أو الحلقات أو أي صوت آخر وتحويلها إلى أغانٍ، في مستوى متقدم من التعاون بين الإنسان والذكاء الاصطناعي. (لديهم أيضًا ميزة تجريبية تتيح لك تحميل مقاطع الفيديو أو الصور لإلهام الأغاني.)
تقول ريبيكا هو، مديرة مشروع Suno، إن القدرة على التكرار من الصوت الموجود تجذب صانعي الإيقاعات الشباب إلى المنصة. يقول هو: “إن الكثير من مستخدمي الطاقة لدينا هم من المنتجين الشباب”. “إنهم يعتقدون أن هذا هو المستقبل… نحن نحاول الانتقال إلى واجهة مستخدم تعتمد على الموسيقى. يصعب فهم النص عندما يتعلق الأمر بالموسيقى. أعتقد أن حالات الاستخدام المثيرة للاهتمام هي تكرار المنتجين أو مؤلفي الأغاني في الغرفة. ومع ذلك، تركز الشركة في الغالب على مهمتها الأصلية المتمثلة في إشراك غير الموسيقيين في صناعة الموسيقى.
يأتي V4 أيضًا مزودًا بخيار استخدام نموذج جديد قيد التنفيذ لتوليد كلمات غنائية تعمل عليه الشركة، والذي يولد كلمات أكثر غرابة وأكثر إنسانية من الاستخدام السابق لنموذج ChatGPT. إنه أفضل بشكل ملحوظ في إنشاء كلمات موسيقى الراب، على الرغم من أنه يقتبس سطرًا من أغنية Drake في حوالي عام 2015 – “running Through the Six” – في أحد عروضنا التجريبية.
يقول شولمان إن دعوى حقوق الطبع والنشر التي تلوح في الأفق بشأن شركة Suno ليست في أذهان معظم الموظفين، لكنها “تؤثر بشكل واضح على الأمور، وليس من الجيد أن تتم مقاضاتها. لكنني أعتقد أن هناك مستقبلًا للموسيقى نحن متحمسون لبنائه. ومن هذا المنطلق، فإن هذا يمثل مطبًا سريعًا، ولكن لا ينبغي في النهاية أن يقف في طريق الجميع لبناء مستقبل الموسيقى هذا. ويضيف أنه يريد في نهاية المطاف تجنيد شركات الإنتاج والفنانين كشركاء: “هذا المستقبل للموسيقى، لا يمكننا في الواقع ولا نريد أن نفعله بأنفسنا”.