ما التحديات التي تفرضها أداة فاسا-١ لتوليد مقاطع الفيديو في كشف التضليل بالفضاء الرقمي؟

24 أبريل 2024

ما التحديات التي تفرضها أداة فاسا-١ لتوليد مقاطع الفيديو في كشف التضليل بالفضاء الرقمي؟

فاسا-1 أداة جديدة لتوليد مقاطع الفيديو بتقنيات الذكاء الاصطناعي (مايكروسوفت)

كشفت شركة مايكروسوفت عن أداة جديدة تحمل اسم "فاسا-1"VASA-1، وهي أداة تُمكن المستخدمين من تحويل صورة وجه واحدة ومقطع صوتي، إلى فيديو واقعي يُظهر وجهًا يتكلم بطريقة تحاكي الواقع، عبر الذكاء الاصطناعي.

وأشارت مايكروسوفت إلى أن الأداة قادرة على التعامل مع جميع أنواع الصور والمدخلات الصوتية، وتعمل على توليد مقاطع الفيديو بحركات شفاه تُناسب الصوت المُضاف وتعابير الوجه وحركة رأس تجعله يبدو حقيقًا.

وأكد الباحثون في الشركة، أن الأداة تم تدريبها على الصور المولدة عبر الذكاء الاصطناعي على غرار DALL·E-3، وهو ما يُشير إلى أن الأداة قادرة على توليد مقاطع الفيديو لشخصيات افتراضية غير موجودة في الواقع، عقب توليد صورة لهم عبر أدوات توليد الصور بالذكاء الاصطناعي.

أداة فاسا-1 لتوليد مقاطع فيديو باستخدام الذكاء الاصطناعي

تخوفات من مساهمة الأداة في انتشار أوسع للتضليل

وعلى الرغم من توضيح مايكروسوفت بأن هذه المرحلة والنماذج المُقدمة هي مجرد عرض بحثي وعدم تقديمها جدولًا زمنيًا لموعد طرح الأداة للجمهور، إلا أن مجرد الإعلان عما يمكن للأداة فعله أثار العديد من التخوفات لقدرتها على توليد مقاطع فيديو بتفاصيل دقيقة ما قد يُساهم في إنشاء محتوى مزيف وانتشار للتضليل في الفضاء الرقمي، خاصةً في فترات الانتخابات هذا العام في العالم.

ومن جانبها، أكدت الشركة التزامها بتطوير ذكاء اصطناعي مسؤول، بهدف تعزيز رفاهية الإنسان، لافتة إلى أن إطلاق الأداة لا يهدف إلى إنشاء محتوى بقصد التضليل أو الاحتيال، لكنها أشارت إلى أن الأداة قد تُستخدم لأهداف مُسيئة وانتحال شخصيات بغرض التضليل.

وساهم عدم إشارة مايكروسوفت إلى آليات لمنع إساءة استخدام الأداة أو وضع حواجز للحماية من التضليل، على غرار إضافة علامة مائية بارزة على مقاطع الفيديو التي سيتم توليدها في تعزيز المخاوف بشأن الأداة الجديدة، خاصةً وأن مايكروسوفت سبق وأن تجاهلت مشاكل السلامة والخصوصية مع مولد الذكاء الاصطناعي DALL·E-3. وبحسب صحيفة ذا غارديان البريطانية فإن "منشئ صور الذكاء الاصطناعي التابع للشركة يفتقر إلى الضمانات الأساسية ضد إنشاء صور عنيفة وجنسية".

تقرير عن تجاهل مايكروسفت لمشاكل السلامة في أداة توليد الصور

مخاطر محتملة لاستخدامات أداة “فاسا-1”

من المحتمل أن يتم إساءة استخدام أداة مايكروسوفت الجديدة لانتحال صفات الأشخاص، حيث يمكن استغلال الصور دون إذن أصحابها، وخداع الأشخاص عبر الإنترنت من خلال توليد مقطع فيديو مزيف يحاكي الواقع لشخص يثقون به.

كما يمكن استخدامها أيضًا لإنشاء مقاطع فيديو تروج لسردية معينة أو نشر معلومات مضللة خاصة في الفترات الانتخابية.

ولتسليط الضوء على التهديدات التي يشكلها الذكاء الاصطناعي اليوم من خلال استخدام آليات التزييف العميق، قال رئيس اللجنة الفرعية المعنية بالخصوصية والتكنولوجيا والقانون في مجلس الشيوخ الأميركي ريتشارد بلومنتال، أثناء اجتماع اللجنة في في 16 إبريل/نيسان الجاري، لمناقشة خطورة تأثير الذكاء الاصطناعي على الانتخابات، "إن الصور ومقاطع الفيديو المزيفة أصبحت سهلة جدًا وأصبح من السهل على أي شخص أن ينشئها"، مشيرًا إلى المخاطر التي تشكلها هذه الأدوات على الانتخابات.

ويأتي اجتماع اللجنة الأميركية، عقب استخدام التزييف العميق لانتحال شخصية الرئيس الأميركي جو بايدن خلال الانتخابات التمهيدية في ولاية نيو هامبشاير في يناير/كانون الثاني الفائت.

ولإظهار مدى واقعية التزييف العميق عبر تقنيات الذكاء الاصطناعي، أجرى بلومنتال تجربة خلال الاجتماع، وطلب من الحضور تحديد تسجيل صوته الذي تم إنشاؤه عبر الذكاء الاصطناعي.

وقال بلومنتال إن الذكاء الاصطناعي التوليدي خطر على الديمقراطية، وأنه يجب اتخاذ إجراءات في الكونغرس الأميركي للحد من هذا التضليل.

اجتماع اللجنة الفرعية المعنية بالخصوصية والتكنولوجيا والقانون في مجلس الشيوخ الأميركي لمناقشة خطورة الذكاء الاصطناعي

أداة “فاسا-1” تُشكّل تحديًا لمدققي المعلومات

وعلى الرغم من إمكانية كشف مدققي المعلومات للمحتوى المولد باستخدام تقنيات الذكاء الاصطناعي، من صور ومقاطع فيديو في غالبية الأحيان، خاصةً إذا كانت مقاطع الفيديو لشخصيات مشهورة، وذلك من خلال مقارنة المقطع المزيف بالمقاطع الحقيقة للشخصية ذاتها، واكتشاف الفروق في حركات الشفاه وتعابير الوجه وحركة الجسد، إضافة إلى مراجعة الصوت وتدقيقه، وغيرها من الخطوات، إلا أن أداة فاسا-1 قد تشكل تحديًا جديدًا في عالم تدقيق المعلومات نظرًا للوصف الدقيق الذي قدمته مايكروسوفت عن الأداة، إلى جانب صعوبة اكتشاف الفيديوهات المزيفة إذا ما تعلقت بالمسؤولين أو الموظفين أو الناشطين أو المواطنين العاديين، نظرًا لقدرة التزييف العميق على توليد مقاطع فيديو بتعابير وجه دقيقة وإنسانية نابضة.

فعلى سبيل المثال يُمكن ملاحظة دقة أداة فاسا-1 في تحريك صورة الموناليزا، التي نشرت لها مايكروسوفت نموذجًا وهي تغني أحد مقاطع الراب.

وفي هذا السياق، عبر مهندس البرمجيات والكاتب جيرغيلي أوروسز عن معارضته لإطلاق مثل هذه الأدوات التي من شأنها تعزيز إنشاء محتوى مضلل وضار بالأشخاص الحقيقيين.

مهندس البرمجيات جيرغيلي أوروسز عن معارضته لإنشاء المحتوى عبر الذكاء الاصطناعي

"[This model that generated the below AI video] could still potentially be misused for impersonating humans. We are opposed to any behavior to create misleading/harmful contents of real persons."

Me: it generates this video from a single photo. What else will the #1 use case be? pic.twitter.com/7qeDqzp3JB
— Gergely Orosz (@GergelyOrosz) April 18, 2024

الذكاء الاصطناعي التوليدي في انتخابات عام 2024

ويخشى الباحثون في مجال المعلومات المضللة من إساءة استخدام الأدوات التي تعمل بالذكاء الاصطناعي، لتوليد الصور والمقاطع الصوتية ومقاطع فيديو وإنشاء محتوى مضلل في عام يعد عامًا انتخابيًا في أكثر من دولة في العالم. إذ علق الباحث في مختبر الوسائط الاجتماعية في كلية تيد روجرز للإدارة في جامعة تورنتو متروبوليتان وأحد مؤسسي المؤتمر الدولي حول وسائل التواصل الاجتماعي والمجتمع فيليب ماي، على أداة مايكروسوفت الجديدة، وقال إنه باستخدام صورة واحدة فقط ومقطع صوتي واحد، يمكن لنموذج الذكاء الاصطناعي الجديد إنشاء تزييف عميق لإنسان.

واعتبر الباحث أنه من المخاطرة إطلاق أداة ذكاء اصطناعي بهذه الدقة في هذا العام الانتخابي، حيث سيذهب نصف العالم إلى صناديق الاقتراع.

فيليب ماي علق على أداة فاسا-1 وخطورتها خلال انتخابات العام 2024

With just one photo and one piece of audio, Microsoft's new AI model Vasa-1 can create a human deepfake, eg., hyper-realistic talking face video with precise lip-audio sync, lifelike facial behaviour, & naturalistic head movements, generated in real-time. https://t.co/dB90j3fbQH pic.twitter.com/yYxQzZPJ71
— Philip Mai (@PhMai) April 18, 2024

ومع اقتراب الانتخابات الرئاسية الأميركية لعام 2024، يشكل الذكاء الاصطناعي التوليدي خطرًا على نزاهة الانتخابات، خاصةً بعد اعتراف المستشار السياسي الذي يعمل لصالح مرشح ديمقراطي منافس لبايدن ستيف كرامر، أنه كان وراء انتحال شخصية جو بايدن عبر مكالمة آلية زائفة مولدة باستخدام الذكاء الاصطناعي تم إرسالها إلى الناخبين لتضليلهم.

وقال كرامر في تصريحه لوسائل إعلام أميركية إنه تمكن من استنساخ صوت بايدن بكل سهولة، وبتكلفة 150 دولارًا فقط، مستخدمًا تقنيات الذكاء الاصطناعي المتوفرة على الإنترنت لإنشاء ملفًا صوتيًا يُكرّر صوت بايدن ويقرأ إدخالًا نصيًّا.

ستيف كرامر يضلل الناخبين عبر مكالمة انتحل فيها شخصية بايدن

وتبين العروض التوضيحية التي نشرتها مايكروسوفت قوة الأداة وقدرة الذكاء الاصطناعي على جعل الوجوه تغني وتتحدث بلغات مختلفة، إضافة إلى قدرتها على التعامل مع مدخلات الصور والتسجيلات الصوتية الخارجية والمزج بينها، وتتميز هذه النماذج بدرجة كبيرة من الواقعية تجعل من الصعب تمييزها لو لم نكن نعلم أنها مزيفة.

ومع تعدد أدوات الذكاء الاصطناعي وتنوعها، فإن تكاملها وإساءة استخدامها سيشكل تحديًا أمام مدققي المعلومات حيث سيؤجج انتشار المعلومات المضللة ويعقد مسألة محاصرتها وتفنيدها بما قد يشوه فضاء المعلومات.

كما تعدّ أداة DALL‑E 3 من مايكروسوفت واحدة من أدوات الذكاء الاصطناعي، التي باتت تفرض تحديًا جديًا بخصوص قدرة مدققي المعلومات على محاربة المعلومات المضللة والتمييز بين الصور الحقيقية والمزيفة، فالأداة قادرة على توليد صور فريدة فقط من خلال إدخال نصوص وصفية لموضوع الصورة ونمطها وإطارها وخصائصها.

أيضا فرضت أداة Voice Engine التي كشفت عنها شركة OpenAI في شهر مارس/آذار الفائت، والقادرة على استنساخ الأصوات تحديًا آخر أمام مدققي المعلومات، فالأداة تحتاج إلى عينة صوتية مدتها 15 ثانية فقط حتى تستطيع استنساخ نبرة الصوت على أي إدخال نصي يطلب منها، بنفس لغة المتحدث أو بلغة أخرى.

الأداة بدورها قادرة على توليد صوت يبدو طبيعيًّا إلى حد كبير ويتشابه مع نبرة الصوت التي تم تزويدها بها، كما يمكنها توليد أصوات بنبرات عاطفية مختلفة.

أداة “سورا” لتوليد مقاطع الفيديو

وفي السياق ذاته، أوضح مسبار في تقريرٍ سابق عن آلية تشغيل أداة سورا Sora ومساهمتها في نشر المعلومات المضللة، والتي أعلنت عنها شركة OpenAI في 17 فبراير/شباط الفائت، ودورها في تضخيم انتشار الأخبار الزائفة على الإنترنت، من خلال تسهيل عملية إنشاء صور مرئية لدعم الادعاءات المضللة، مما قد يؤدي إلى قصور في القدرة على محاصرة المعلومات المضللة.