` `

مسبار تشارك في بناء أكبر قاعدة بيانات عربية للتحقق من الأخبار

بيان حمدان بيان حمدان
علوم
30 مارس 2021
مسبار تشارك في بناء أكبر قاعدة بيانات عربية للتحقق من الأخبار

تعدّ مشكلة الأخبار الزائفة واحدة من أهم المشكلات التي يواجهها العالم، أفرادًا ومؤسسات، نتيجة التطوّر الهائل الذي نشهده حاليًّا في مجال الاتصالات والتكنولوجيا. ولعلّ أبرز العقبات أمام حل هذه المشكلة، يتمثل بسرعة انتشار الأخبار الزائفة، في مقابل الوقت والجهد الكبيرين، اللذين تستهلكهما عملية التحقق اليدوية من الأخبار. 

لذلك، وبالتوازي مع انطلاق عدد من المنصات العربية للتحقق من الأخبار في السنوات الأخيرة، اتجه الخبراء والباحثون إلى بناء أنظمة آليّة قادرة على إنجاز مهام متعلّقة بالتحقق من الأخبار والمعلومات المنتشرة في الفضاء الرقمي، إلا أنّ عدم وجود قاعدة بيانات كبيرة من الادعاءات التي تم التحقق منها، كان حائلًا دون الوصول إلى نتائج مرضية عبر الأنظمة المطوّرة.

في هذا السياق كانت أرافاكتس (Arafacts) هي أول قاعدة بيانات كبيرة باللغة العربية. وقد صدرت حديثًا، ورقة بحثية لمجموعة باحثين من قسم علوم وهندسة الحاسوب في جامعة قطر، بعنوان "أرافاكتس: أول قاعدة بيانات كبيرة باللغة العربية، لادعاءات تم التحقق منها احترافيًّا"، عُرضت فيها أبرز مميزات قاعدة البيانات الأولى من نوعها، من حيث عدد الادعاءات التي ضمته، فهي مكوّنة من 6222 ادعاء، جُمّعت من خمسة مواقع عربية للتحقق من الأخبار، وأُتيحت لكل العاملين في المجتمعات البحثية. 

المواقع الخمسة المساهمة في بناء قاعدة البيانات وفق الترتيب التنازلي لنسبة المساهمة بعدد الادعاءات هي:

منصة مسبار، منصة فتبيّنوا، خدمة تقصي الحقائق في وكالة فرانس برس، منصة تأكد، ومنصة مهارات الإخبارية.

صورة متعلقة توضيحية

في هذا العمل البحثي، استخرج الباحثون جميع مقالات التحقق من المواقع الخمسة، ثم استخرجوا من المقالات، صيغة الادعاء، وتقييمه (صحيح، زائف، ..)، وموضوعه (سياسة، دين، فن، ..) ونوعه (نص، صورة، مقطع فيديو)، بالإضافة إلى بيانات وصفية أخرى.

ولكن، نظرًا لاختلاف تقييمات الادعاء وموضوعاته من منصة لأخرى، عمل الباحثون على توحيدها، لتسهيل عملية تحليل البيانات ودراستها، فأصبحت التقييمات المُوحدة تشتمل على: زائف، صحيح، زائف جزئيًّا، وساخر. والموضوعات المُوحدة: سياسة، أخبار، صحة، اجتماع، دين، علوم عامة، فنون وثقافة، وأخرى.

واستقرت بنية قاعدة البيانات على شكل نهائي شمل التالي:

  • ترميز الادعاء: هوية خاصة للادعاء تميّزه عن غيره.
  • نص الادعاء: صيغة الادعاء المختصرة من الموقع.
  • مصدر الادعاء: اسم منصة التحقق من الأخبار التي أُخذ منها الادعاء.
  • وصف الادعاء: توصيف مفصّل للادعاء.
  • تقييم المصدر للادعاء: تقييم الادعاء بحسب المنصة التي أّخذ منها.
  • التقييم الموحد للادعاء: تقييم الادعاء بحسب التقييمات الموحدة التي ابتكرها الفريق البحثي.
  • موضوع الادعاء وفقًا للمصدر: موضوع الادعاء بحسب المنصة التي أُخذ منها.
  • الموضوع الموحد للادعاء: موضوع الادعاء بحسب الموضوعات الموحدة التي ابتكرها الفريق البحثي.
  • التاريخ: تاريخ نشر مقال التحقق على المنصة التي أُخذ منها الادعاء.
  • رابط المصدر: رابط مقال التحقق من المنصة التي أُخذ منها الادعاء.
  • روابط الادعاء: روابط لصفحات إلكترونية نشرت الادعاء.
  • روابط التحقق: روابط المصادر المعتمدة من قبل المنصة التي أُخذ منها الادعاء، في الاحتكام إلى صحته.
  • نوع الادعاء: نص، أو صورة، أو مقطع فيديو.

 

من تحليل البيانات:

صورة متعلقة توضيحية

بتحليل توزيع التقييمات الموحدة على الموضوعات، يظهر أن نسبة التقييم الأكبر في كل الموضوعات كانت لتقييم زائف، وأن موضوع السياسة حاز على الحصة الأكبر من الادعاءات، ثم تلاه موضوعا الصحة والأخبار بنسب متقاربة جدًّا.

صورة متعلقة توضيحية

وبالنظر إلى أكثر من 100 كلمة تكرّرت في الادعاءات، تظهر كلمات عديدة في السياسة والدين والصحة والأعمال، أكثرها بروزًا هي: فايروس، كورونا، الإسلام، العالمية، دولار، القرآن.

صورة متعلقة توضيحية

وكان من اللافت للباحثين عند تحليل نوع الادعاءات، ملاحظة أنّ “مسبار”، أكثر منصة ساهمت في هذا العمل البحثي، من جهة عدد الادعاءات، إذ يحتوي الموقع على ادعاءات صوريّة أكثر من الادعاءات النصية.

 

اقتراحات لاستخدام قاعدة البيانات:

في آخر الورقة البحثية، قدّم الباحثون أربع اقترحات لاستخدام قاعدة البيانات في تطوير مهام آليّة تساعد في عملية التحقق من الأخبار وتسرّع وتيرتها، وهي:

  • التحقق من صحة الادعاء: عملية تتمثل بإدخال ادعاء للتنبؤ بصحته.
  • استرجاع الادعاء: عملية تتمثل بإدخال الادعاء للتأكد مما إذا تم التحقق منه مسبقًا أم لا، وتكمن أهمية هذه المهمة في كون نسبة كبيرة من الادعاءات المنتشرة في مواقع التواصل الاجتماعي، هي تكرارٌ لادعاءات تم النظر في صحتها مسبقًا، ما يعني أن تطوير هذه المهمة آليًّا له أن يساعد في الحد من انتشار هذه الادعاءات.
  • استرجاع الدليل: عملية تتمثل بإدخال الادعاء لاسترجاع جملٍ مفتاحيةٍ تساعد في التحقق من الادعاء، على اعتبار أنّ قاعدة البيانات تتضمن مقالات التحقق كاملة ورابط التحقق.
  • التحقق من الادعاءات المرتبطة بالصور: عملية تتمثل بإدخال ادعاء متعلق بصورة، للتنبؤ بصحة الادعاء، باستخدام الربط بينه وبين الصورة.

هذه الورقة البحثية، قيمة علميّة مضافة إلى مجال التحقق الآلي من الأخبار، ونأمل أن يُلمس أثرها قريبًا، في تطوير أنظمة مختلفة تساعد في الحدّ من انتشار ظاهرة الأخبار الزائفة.

 

المصادر:

AraFacts: The First Large Arabic Dataset of Naturally-Occurring Professionally-Verified Claims 

الأكثر قراءة