منهجية متقدمة لكشف الأخبار الزائفة باللغة العربية باستخدام الذكاء الاصطناعي

19 ديسمبر 2024

منهجية متقدمة لكشف الأخبار الزائفة باللغة العربية باستخدام الذكاء الاصطناعي

تقنيات حديثة لكشف الأخبار الزائفة باللغة العربية

مع الانتشار الواسع للمعلومات الزائفة عبر المواقع الإخبارية ومنصات التواصل الاجتماعي، تزداد الحاجة إلى تطوير أدوات دقيقة قادرة على التمييز بين الأخبار الصحيحة والزائفة بسرعة وشفافية، ولا تقتصر أهمية هذه الأدوات على دعم مدققي المعلومات، بل تسهم أيضًا في تمكين منصات تدقيق الحقائق من مواجهة التضليل الإعلامي بفعالية في الفضاء العمومي.

وفي السياق، تسلط دراسة علمية حديثة، صدرت عن مجلة Scientific Reports، الضوء على منهجية مبتكرة لتصنيف النصوص الزائفة باللغة العربية، تعتمد على تمثيلات لغوية عميقة ونموذج يجمع بين تقنيتي CNN وLSTM، بالإضافة إلى الذكاء الاصطناعي القابل للتفسير لتحسين الشفافية في عملية التصنيف، وهي خطوة هامة في معالجة التحديات المرتبطة بالنصوص العربية، مثل تعقيد بنيتها وتنوع معانيها.

وكانت إحدى الدوافع الرئيسية لإجراء الدراسة أن معظم الأبحاث السابقة ركزت على كشف الأخبار الزائفة في النصوص الإنجليزية، بينما تعاني النصوص العربية حتى الآن من نقص واضح في الحلول التقنية الملائمة لمواجهة هذه المشكلة.

دور مسبار في مواجهة التضليل الإعلامي في العالم العربي

أشارت الدراسة إلى التزايد الملحوظ في استخدام منصات التواصل الاجتماعي في العالم العربي، مما جعلها بيئة مهيأة لنشر المعلومات المغلوطة والتضليل الإعلامي. ومع تفاعل 79 في المئة من سكان الشرق الأوسط بانتظام مع هذه المنصات، واعتماد 64 في المئة منهم عليها كمصدر رئيسي للأخبار، ازدادت مخاطر التضليل، خاصة في ظل ضعف رقابة المحتوى وسرعة انتشار الأخبار عبر منصات مثل فيسبوك وإكس، وتطبيقات كواتساب وسناب شات.

وركزت الدراسة على أهمية تطوير حلول تقنية تعتمد على الذكاء الاصطناعي، مع الإشارة إلى الجهود القائمة مثل منصة مسبار، التي تُعد واحدة من أبرز المنصات العربية المتخصصة في التحقق من الأخبار. على الرغم من أن مسبار تعتمد في الوقت الحالي على التحقّق اليدوي المدعوم بخبراء لضمان دقة عالية، إلا أن الدراسة أوضحت التحديات التي تواجه هذا النهج، مثل التكلفة العالية وصعوبة مواكبة الكم الهائل من الأخبار المتداولة.

انتشار التضليل في العالم العربي ودور مسبار في التحقق من الأخبار

وتشكل المعلومات الخاطئة تحديًا كبيرًا، إذ تؤثر سلبًا على جودة المعلومات المتاحة للجمهور، مما يعقّد عمليات اتخاذ القرار على المستويين الفردي والجماعي. وتزداد صعوبة الكشف عنها في النصوص العربية بسبب نقص واضح في الحلول التقنية مقارنة باللغات الأخرى.

كما تتيح منصات التواصل الاجتماعي للأفراد نشر آرائهم ومشاركتها بحرية على نطاق واسع، مما يؤدي إلى تدفق كميات هائلة من المحتوى الخاطئ والمضلل، الأمر الذي يزيد من تحديات التحقّق من صحة المعلومات.

نهج متقدم للكشف عن الأخبار الزائفة باللغة العربية

يعتمد النهج المقترح للكشف عن الأخبار الزائفة باللغة العربية على خطوات منهجية شاملة. تبدأ العملية بإعداد مجموعة البيانات، التي تُقسَّم إلى بيانات للتدريب (70%)، والتحقق (10%)، والاختبار (20%). يتم بعد ذلك استخدام تقنيات حديثة لتحليل النصوص، مثل ELMo، لاستخراج الميزات اللغوية وفهم الكلمات في سياقها.

تُدمج هذه الميزات في نموذج يعتمد على تقنيات التعلم العميق، مثل CNN وLSTM، لتحليل الأنماط المكانية والزمنية للنصوص، مما يمكّن النموذج من الكشف عن الأخبار الزائفة بدقة عالية. ولضمان الأداء الفعّال، تم تقييم النموذج باستخدام معايير مثل الدقة والاسترجاع، ومقارنته بأحدث النماذج العالمية مثل BERT وRoBERTa.

إضافة إلى ذلك، تم استخدام أدوات ذكاء اصطناعي قابلة للتفسير، مثل LIME XAI، لتوضيح كيفية اتخاذ النموذج لقراراته، مما يُتيح فهمًا أعمق لدوره في الكشف عن الأخبار الزائفة. يُعد هذا النهج خطوة محورية في تطوير أدوات موثوقة وقابلة للتفسير لمواجهة التضليل الإعلامي باللغة العربية.

آلية عمل النموذج المقترح لكشف الأخبار الزائفة في اللغة العربية

تشير الدراسة إلى أن الأبحاث السابقة حول معالجة اللغة العربية لمواجهة التضليل الإعلامي، تؤكد ضرورة استخدام استراتيجيات تراعي السياق الثقافي في العالم العربي. ومع ذلك، هناك تحديات كبيرة، مثل الانحيازات في خوارزميات التعلم الآلي وقلة البيانات المصنفة بدقة. لذلك، هناك حاجة لتطوير تقنيات أكثر كفاءة لفهم تعقيدات اكتشاف الأخبار الزائفة باللغة العربية.

نموذج فعّال وسريع للكشف عن الأخبار الزائفة بالعربية

أظهرت الدراسة نتائج مميزة باستخدام مجموعة بيانات الأخبار الزائفة العربية (AFND)، التي تحتوي على مقالات مصنفة وفقًا لمصداقيتها. تتميز المجموعة بتنوع كبير في مصادرها، حيث تشمل 134 موقعًا إخباريًا تم إخفاء أسمائها لضمان الحيادية. تضمنت البيانات عناصر رئيسية مثل العنوان، النص، وتاريخ النشر، ما ساعد في بناء النموذج المقترح واختباره.

وحقق النموذج المقترح أداءً استثنائيًا مقارنة بالنماذج الأخرى في مجال كشف الأخبار الزائفة. وفقًا للدراسة، بلغت الدقة (Accuracy) 98.42 في المئة، وهي مقياس لعدد الأخبار التي صُنفت بشكل صحيح من إجمالي الأخبار. كما سجل النموذج إحكامًا (Precision) بنسبة 98.54 في المئة، مما يعكس قدرة النموذج على تقليل الأخبار الحقيقية المصنفة خطأ كزائفة. أما الاسترجاع (Recall) فبلغ 99.5 في المئة، مما يعني قدرة النموذج على اكتشاف أغلب الأخبار الزائفة الحقيقية. وحققت الدراسة درجة F1 بنسبة 98.93 في المئة، وهي مقياس متوازن يجمع بين الدقة والإحكام لضمان التقييم الشامل للنموذج.

بالإضافة إلى ذلك، أظهرت الدراسة تفوق النموذج المقترح من حيث سرعة الاستنتاج، إذ يستغرق 1.2 ثانية فقط لتحليل النصوص، بينما يستغرق نموذج BERT حوالي 3.5 ثانية، ما يعكس كفاءة وسرعة النموذج في معالجة النصوص.

وتوضح هيكلية النموذج المُجمّع المقترح والأجزاء الفرعية المستخدمة في التجربة تمثيلًا تفصيليًا للإطار المقترح، ويعتمد الإطار لتصنيف الأخبار الزائفة باللغة العربية (AFND) على بنية الشبكات العصبية CNN وLSTM. يعمل النموذج من خلال استخراج ميزات النصوص باستخدام CNN لتحليل الأنماط المكانية، وLSTM لتحليل التسلسل والسياق. يتم دمج نتائج الاحتمالات الناتجة عن كلا النموذجين باستخدام تقنية التصويت المدمج، حيث يُحسب متوسط الاحتمالات لتحديد ما إذا كانت الأخبار حقيقية أو زائفة. يعتمد القرار النهائي على أعلى احتمال، مما يجعل النموذج دقيقًا وفعالًا في معالجة النصوص وتصنيف الأخبار بدقة عالية، وفقًا للباحثين.

بُنية النموذج المقترح وكيفية تلقيه للنص وتحليله

دور تقنية LIME في تعزيز شفافية نماذج الكشف عن الأخبار الزائفة

أبرزت الدراسة أهمية تقنية LIME، التي تُعد من أدوات الذكاء الاصطناعي القابلة للتفسير، والتي تساعد على تعزيز الشفافية من خلال توضيح كيفية اتخاذ النموذج قراراته، مما يمكن المستخدمين من فهم دور الكلمات والعبارات المؤثرة في تصنيف النصوص، سواء كانت حقيقية أو زائفة.

على سبيل المثال، عند تحليل خبر عن اللاعب حكيمي وفوزه المرتقب بلقب الدوري الإيطالي، أشار النموذج إلى كلمات مثل حكيمي، التحديثات، واكتشف، كعوامل إيجابية ساعدت في تصنيف الخبر على أنه حقيقي. وفي الوقت نفسه، أظهر كلمات مثل اليوم و المباراة، كعوامل ذات تأثير سلبي طفيف.

ما يسهم في جعل النموذج أكثر شفافية وسهولة في الفهم، وهو أمر مهم في مجالات مثل المؤسسات الإخبارية ومنصات مكافحة التضليل الإعلامي، وفقًا لما أكدته الدراسة.

ويُظهر الشكل الكلمات ذات التأثير الإيجابي باللون الأخضر، مثل Hakimi ، on ، the، verge، Discover، وupdates، إذ يعتبر النموذج أن هذه الكلمات تعكس أسلوبًا موثوقًا ومناسبًا للغة الأخبار الحقيقية، مما يعزز ثقته في تصنيف النص كخبر حقيقي. أما الكلمات ذات التأثير السلبي، والمُشار إليها باللون الأحمر، مثل league، latest، match، وprofessionally، فعلى الرغم من أنها ليست بالضرورة خاطئة، إلا أنها قد تُستخدم في سياقات مبالغ فيها أو مضللة، مما يثير الشكوك لدى النموذج.

مثال لتحليل النموذج لخبر وتقسيمه للكلمات الورادة في الخبر

دور الذكاء الاصطناعي في مواجهة التضليل الإعلامي في العالم العربي

تعد تقنيات الذكاء الاصطناعي اليوم أداة أساسية في مجال تدقيق المعلومات، خاصة مع تزايد الاعتماد على تقنيات التزييف العميق وتوليد المحتوى التي تمثل تحديًا لمدققي المعلومات ومنصات التدقيق. تتطلب هذه التحديات وجود نماذج وتقنيات متقدمة تدعم المدققين من خلال تسريع عمليات التحقق وتقليل الجهد، لمواجهة الانتشار الواسع للتضليل في الفضاء الرقمي.

أظهرت الدراسة التي ناقشناها أعلاه إمكانية تطبيق النموذج المقترح بسهولة في منصات فحص الحقائق في العالم العربي، خاصة خلال الأزمات مثل الحرب الإسرائيلية الجارية على قطاع غزة منذ السابع من أكتوبر/تشرين الأول عام 2023، وعملية ردع العدوان في سوريا مؤخرًا والتي أسفرت عن إسقاط نظام بشار الأسد، إلى جانب الأزمات السياسية والصحية التي غالبًا ما تشهد تدفقًا واسعًا للأخبار الزائفة والمعلومات المضللة.

أهمية الاستمرار في تطوير تقنيات اللغة العربية

كما سلطت الدراسة الضوء على أهمية تطوير تقنيات معالجة اللغة العربية نظرًا لتعقيداتها اللغوية والثقافية، ما يجعل هذا البحث خطوة مهمة لسد فجوة كبيرة في الأبحاث التي ركزت على المحتوى الإنجليزي. بالإضافة إلى ذلك، توفر الدراسة أساسًا قويًا للأبحاث المستقبلية التي قد تستفيد من توسيع قاعدة البيانات، ودمج قواميس لغوية أوسع، واستخدام تقنيات التعلم بالنقل لتعزيز الدقة والأداء.

وتوصي الدراسة بضرورة اختبار النموذج على لهجات عربية متعددة لتوسيع نطاق استخدامه، ما قد يسهم في تعزيز الثقة في المؤسسات الإعلامية وتمكينها من التصدي للمعلومات المضللة بشكل أكثر فعالية. وهنا تبرز الحاجة إلى استمرار البحث في مجال معالجة اللغة العربية وتطوير نماذج أكثر تطورًا ودقة لمواكبة التحديات المتزايدة في مجال كشف الأخبار الزائفة.

تأثير النصوص الزائفة على الرأي العام والمجتمعات

سبق لمسبار أن تناول تأثير النصوص الزائفة على الرأي العام والمجتمعات في مقال ناقش أثر التزييف العميق على نزاهة الانتخابات مقارنة بالأخبار والنصوص الزائفة. وأشار المقال إلى مخاوف متزايدة من استخدام تقنيات التزييف العميق (Deepfakes) خلال الاستحقاقات الانتخابية، مثل الانتخابات الرئاسية في الولايات المتحدة وتونس والجزائر، والانتخابات النيابية في الأردن.

كما تناول مسبار تجربتين استقصائيتين شملتا أكثر من 5700 مشارك، لاختبار قدرتهم على اكتشاف التزييف العميق واستجابتهم له. أظهرت النتائج أن 42 في المئة من المشاركين خُدعوا بواسطة مقاطع التزييف العميق، وهي نسبة مماثلة لأولئك الذين خُدعوا بالأخبار الزائفة المقدمة بصيغ نصية أو صوتية. وأكدت الدراسة أن المعلومات المضللة التي تُنقل عبر التزييف العميق لا تمتلك تأثيرًا أكبر من تلك التي تُنقل من خلال النصوص أو التسجيلات الصوتية.