نادية ك. كونروي، فيكتوريا ل. روبين وييمين تشين
ترجمة: مجد أبو عامر
مقدمة
تهدفُ عمليةُ التحقق الآلية من الأخبار، إلى توظيف التكنولوجيا لتحديد المحتوى الإخباري الرقمي المُضلِّل عَمداً، وهي إحدى القضايا الهامّة لعلم المكتبات والمعلومات (LIS). حيث يُعرّف كشف الأخبار الزائفة (Fake News Detection)، على أنّه التنبؤ بفرص وجود مادة إخبارية مُضلِّلة عَمداً، سواء كانت افتتاحية، تقرير إخباري، أو تحقيق. وأدوات التحرّي الإلكترونية تسعى إلى محاكاة مهام الفلترة، التي كانت سابقاً من اختصاص الصحافيين وناشري المحتوى الإخباري التقليدي.
يعدُّ التحقق من موثوقية المعلومات عبر الإنترنت تحدياً شاقًّا وهامًّا. وقد ساعدتنا أربعة عقود من بحوث تحرّي التضليل (Deception Detection) على معرفة قدرة البشر على كشفِ الأكاذيب، والتي أشادت أننا لسنا جيّدون بما فيه الكفاية، فبناءً على التحليل التلوي (Meta-analysis) لأكثر من 200 تجربة علمية، يظهرُ أن النسبة لا تتجاوز 4٪ مقارنةً باحتمالات الصدفة. الأمر الذي دفعَ الباحثين والتقنيين إلى البحث عن طرائق أوتوماتيكية لتقدير قيمة الحقيقة في النص المشكوك فيه، استناداً إلى خصائص المحتوى وأنماط الاتصال الشبكي.
إن عملية التحقّق من قواعد البيانات المنظمة أسهل مقارنةً بالبيانات غير المنظمة (أو شبه المنظمة) مثل النصوص، فعندما نَعرفُ نطاق اللغة (مثل دعاوى التأمين أو الأخبار المتعلقة بالصحة)، يمكننا التخمين بصورة أفضل حول طبيعة التضليل واستغلاله. إلّا أن بيانات الويب – شبه المنظمة وغير المرتبطة بنطاق محدد – تقع في أشكال مختلفة وتتطلبُ طُرقاً مرنة للتحقق من صحتها، ومع ذلك استثنتها منهجيات التحقّق لبعض الوقت، وظلّت غير معروفة نسبيًّا في علم المكتبات والمعلومات. إلّا أنّ جهود منهجية "التلقيح المتقاطع" والمقاربات الهَجينة، أسفرت عن نتائج واعدة في الآونة الأخيرة. وبالنظر إلى الممارسات الصحافية ومصادر الأخبار المتاحة، نجدُ أنّها تتطلبُ النظر في طرق متعددة، حيث أن أحد الأساليب غالباً ما يعالجُ نقاط الضعف المعروفة في أخرى. وعليه، كيف يُمكن قياس مدى صحّة الأخبار عبر الإنترنت؟
تسعى هذه المقالة إلى تزويد الباحثين بخريطة للمشهد الحالي حول طرائق تقييم المصداقية (أو التضليل)، ومستوياتها الرئيسية وأهدافها، وذلك بهدف اقتراح مقاربة هجينة لتصميم نظام كشف الأخبار الزائفة. وقد برزت هذه الطرائق من اتجاهات تطوير مُختلفة، وباستخدام تقنيات مُتباينة. وخلال هذا المسح، تظهرُ فئتان رئيسيتان من الطرائق: (1) المقاربات اللغوية، والتي يُستخرجُ ويُحلّل فيها محتوى الرسائل المُضلّلة، لربط أنماط اللغة بالتضليل؛ (2) المقاربات الشبكية، والتي تُسخَّر فيها معلومات الشبكة –مثل البيانات الوصفية للرسائل أو استعلامات شبكة المعرفة المنظمة– لكشف كافّة تدابير التضليل.
يتضمن كلا النموذجين تقنيات تعليم الآلة، لتدريب المُصنفات على ملائمة التحليل. ومع أنه من الضروري للباحثين فهم هذه المجالات المختلفة، إلّا أنه لا يوجد تصنيف معروف لهذه الطرائق في الأدبيات الحالية. وعليه نهدفُ إلى تقديم مسحٍ للبحوث الحالية مع اقتراح مقاربة هجينة، والتي تَستخدمُ أكثر طرائق كشف التضليل فعاليةً، لإنجاز أداة كشف الأخبار الزائفة.
المقاربات اللغوية
يستخدمُ معظم الكاذبين لُغتهم بشكلٍ استراتيجي لتجنّب كَشفهم، وعلى الرغم من محاولتهم التحكم فيما يقولونه، إلّا أنّ تسرّب اللغة يقعُ مع بعض المظاهر اللفظية التي يصعُب مراقبتها، مثل تكرار الضمائر وأنماطها، حروف العطف، واستخدام تعبيرات المشاعر السلبية. تهدفُ المقاربة اللغوية إلى البحث عن حالات التسرب هذه – أو ما يسمى بــ"تلميحات التضليل التنبؤية" – في محتوى الرسالة.
تمثيل البيانات
لعلّ أبسط طريقة لتمثيل النصوص هي مقاربة حقيبة الكلمات (Bag of words)، التي تَعتبرُ كلَ كلمة وحدةَ واحدة بذات الأهمية. في مقاربة "حقيبة الكلمات"، تُجمع وتُحلّل سواء الكلمات الفردية أو تكرار تسلسل عناصر (N‐grams) الكلمات المتعددة، للكشف عن تلميحات التضليل. إن المُراقبة الإلكترونية للكلمات في التلميحات المعجمية، تُمكّن من تحديد مجموعات التكرار التي تُساعد في الكشفِ عن تلميحات التضليل اللغوية.
العيب الأكبر لهذا التمثيل هو بساطته، فإضافةً إلى الاعتماد الحصري على اللغة، تؤدي طريقة تسلسل العناصر المعزولة، إلى فصل الكلمات عن سياق المعلومات المفيدة. في هذه الطريقة، لا يوجد أي أداة للتعرّف على الكلمات الغامضة. وقد وجدَ العديد من الباحثين أن طريقة كشف التضليل هذه، تغدو مفيدةً إذا ما اقترنت بـ"التحليل التكميلي" المختلف عمّا نناقشه في هذا المقترح.
تركيب الجملة المعقّد
لأن تحليل الكلمات غير كافٍ للتنبؤ بالتضليل، فإن تحليل الهياكل اللغوية العميقة تفيدُ للتنبؤ بحالات التضليل، وذلك من خلال "القواعد الاحتمالية الخالية من السياق" (PCFG)، حيث تُحوّل العبارات إلى مجموعة من قواعد إعادة الكتابة (شجرة الأصل Parse tree) لوصف أساس تركيب الجملة، أي تفكيك العبارة إلى الأسماء والأفعال مثلًا، ومن ثمّ إعادة كتابتها من خلال الأجزاء المكوّنة لها. تنتج المجموعة الأخيرة من إعادة الكتابة "شجرة الأصل" مع الإحالة إلى احتمال مُعيّن. وتُستخدم هذه الطريقة لتمييز فئات القواعد (مثل التراكيب المعجمية وغير المعجمية، والأصلية) لاكتشاف التضليل بدقة 85-91٪ (اعتماداً على فئة القاعدة المستخدمة). كما تُساعد أدوات الطرف الثالث – مثل "Stanford Parser" أو محلل تركيب الجملة "AutoSlog‐TS" وغيرها – على الأتمتة. ومع ذلك، فإن التحليل اللغوي ليس قادراً بما فيه الكفاية لتحديد التضليل، وغالباً ما تجمعُ الدراسات بين هذه المقاربة مع تقنيات تحليل لغوية أو شبكية أخرى.
الشكل (1): معلومات منظمة عن الرئيس أوباما واردة في "صندوق معلومات" مقالات ويكيبيديا. (b) هو أقصر مسار للرسم البياني المعرفي، وهو يعودُ للبيان الكاذب "باراك أوباما مسلم". يجتاز المسار تراكيب لغوية عالية الدرجة تُمثّل الكيانات العامة، مثل "كندا"، ويُعيّن على قيمة منخفضة للحقيقة.
التحليل الدلالي
كبديل لتلميحات التضليل، تُنجزُ وتُحلّلُ مؤشرات المصداقية من خلال وصف درجة التوافق بين التجربة الشخصية (تقييم فندق مثلاً) مقارنةً بـ"ملف تعريف" المحتوى المُستمد من مجموعة البيانات المماثلة. تعملُ هذه المقاربة على توسيع نموذج تسلسل عناصر بناء الجملة، من خلال دمج ميزات ملف التعريف المتوافقة، مما يُحسّن أداء التصنيف بشكلٍ كبير. من البدهيِ أن الكاتب المُضلِّل/ الُمخادع الذي ليس لديه خبرة في حدث أو شيء (لم يسبق له زيارة الفندق المعني مثلاً)، قد يُضمّن تناقضاتٍ أو إغفالاً للحقائق الموجودة في ملفات التعريف حول مواضيع مماثلة. فلتقييم المُنتج، من المُرجّح أن يُماثل كاتب التقييم الصادق التعليقات الأخرى حول جوانب المنتج، مثل المُقيمين الصادقين الآخرين. ومن خلال مواءمة الملفات الشخصية ووصف التجربة الشخصية للكاتب، فإن تقييم المصداقية يعتمدُ على درجات التوافق: (1) التوافق مع وجود بعض الجوانب المميزة (متحف فني بالقرب من الفندق مثلاً)؛ (2) التوافق مع وصف بعض الجوانب العامة، مثل الموقع أو الخدمة. ويظهر أن التنبؤ بالكذب دقيق بنسبة 91٪ تقريباً بهذه الطريقة.
وعلى الرغم من أنها أثبتت فائدتها في سياق المراجعات أعلاه، إلّا أن هذه الطريقة محصورة من ناحية التطبيق حتى الآن، إذ هناك نوعان من القيود المحتملة في هذه الطريقة: (1) تعتمدُ قدرة تحديد التوافق بين السمات والواصفات (Descriptors)، على وجود كمية كافية من المحتوى المخفي للملفات الشخصية؛ (2) صعوبة ربط الواصفات بالسمات المستخرجة على نحوٍ صحيح.
البنية البلاغية وتحليل الخطاب
على مستوى الخطاب، تُقدمُ تلميحات التضليل نفسها في كلٍّ من التواصل الشبكي والمحتوى الإخباري. يتحقّق توصيف الخطاب من خلال الإطار التحليلي لنظرية البنية البلاغية (RST)، الذي يُحدّد حالات العلاقات الخطابية بين العناصر اللغوية. وتُجمعُ الاختلافات المُنظَّمة بين الرسائل المُضلّلة والصادقة من حيث تماسكها وبنيتها، من خلال نموذج الفضاء الشعاعي (VSM) الذي يُقيِّم موضع كل رسالة في مساحة نظرية البنية البلاغية متعددة الأبعاد، فيما يتعلق بمسافة بُعدها عن مراكز الحقيقة والتضليل. في هذا المستوى من التحليل اللغوي، يُمكن أن يكون الاستخدام البارز لبعض العلاقات اللغوية مؤشراً على التضليل. ورغم أن أدوات أتمتة التصنيف البلاغي متاحة، إلّا أنها لم تُستخدم بعد في سياق تقييم المصداقية.
المُصنِفات
تُفيدُ مجموعات تكرارات الكلمات والفئات، التحليل العددي المؤتمت اللاحق، الذي يُدرّب المُصنفات (Classifiers) كما هو الحال في شعاع الدعم الآلي (SVM) ونماذج "Naive Bayes". ببساطة، عندما يُدرَّب نموذج رياضي بشكل كافٍ على أمثلة مُشفرة مُسبقاً في فئتين، يُصبح قادراً على التنبؤ بحالات التضليل المُستقبلي على أساس التكتّل الرقمي والأبعاد. تتشكّل دقة شعاع الدعم الآلي (SVM) من استخدام طرق التجميع المختلفة، ووظائف الأبعاد بين نقاط البيانات، والذي يدعو إلى إجراء تجارب جديدة على التأثير الصافي لهذه المتغيرات. بينما تقوم خوارزميات "Naive Bayes" ببناء التصنيفات استناداً إلى الأدلة المتراكمة للعلاقة بين متغير معين (تركيب الجملة مثلاً) والمتغيرات الأخرى الموجودة في النموذج.
ويَعتمدُ تصنيف العواطف على الحدس الضمني الذي يستخدمهُ المُضللون/المخادعون في التواصل العاطفي العفوي، أو الحكم، أو تقييم الحالة العاطفية. وبطريقةٍ مُماثلة، يُمكن استخدام الأنماط النحوية في تمييز الشعور عن الحجج القائمة على الحقائق، من خلال ربط الأنماط المُكتسبة لتصنيفات النقاش. في دراسات الاتصالات التجارية، يكون الأداء أفضل بكثير من التخمين العشوائي بنسبة 16٪، ولغة المديرين التنفيذيين المُضلّلين/ المخادعين تُظهرُ عدداً أقل من المشاعر الإيجابية غير الجامحة. أظهرت المقارنة بين الحكم البشري ومصنفات شعاع الدعم الآلي دقة الأداء، بنسبة 86٪ على المحتوى العشوائي المُضلّل غير المرغوب "Spam". ولو أنتجَ المُقيّمون السلبيون عبارات عاطفية سلبية مقارنةً بالتقييمات الصادقة، لا تُعتبَر هذه نتيجة "تلميحات مُسرّبة" من المحنة العاطفية للكذب، بل تُعبّر عنها المُغالاة العاطفية للمخادعين.
تعتمد جميع هذه الأساليب اللغوية على استخدام اللغة وتحليلها، وهي واعدة عند استخدامها في المقاربات الهجينة. ومع ذلك، قد تكون النتائج المنبثقة من الدراسات الخاصة بموضوعات تقييمات المنتجات والأعمال التجارية، غير قابلة للتعميم تجاه كشف مصداقية الأخبار في الوقت الفعلي.
المقاربات الشبكية
تُعتبر الاستخدامات المُبتكرة والمُتنوعة لخصائص الشبكة وسلوكها، طرقاً لإتمام المُقاربات القائمة على المحتوى (أي التي تعتمدُ على اللغة المُضلِّلة وتلميحات التسرّب للتنبؤ بالتضليل). نظراً لتزايد انتشار المحتوى للأحداث الجارية في الوقت الفعلي، من خلال تطبيقات المدوّنات الصغيرة مثل Twitter، فإن أدوات تحليل التضليل هي الأكثر أهمية.
البيانات المرتبطة
قد يُمثّل استخدام شبكات المعرفة خطوةً مُهمة نحو طرائق تدقيق الحقائق الحاسوبية القابلة للتوسع. بالنسبة لبعض البيانات، يمكن أن تُمثّل "البيانات الواقعية" الكاذبة شكلاً من أشكال التضليل، حيث يُمكن استخلاصها وفحصها جنباً إلى جنب مع العبارات التي يمكن العثور عليها حول العالم. تستفيدُ هذه المقاربة من مجموعة موجودة من المعرفة الإنسانية الجماعية، لتقييم حقيقة البيانات الجديدة. تعتمدُ الطريقة على الاستعلام حول شبكات المعرفة الحالية أو البيانات المُنظمة المتاحة للجمهور، مثل "DBpedia ontology"، أو "Google Relation Extraction Corpus (GREC)".
تُوَصّل شبكة البيانات المُنظمة للكيانات من خلال علاقة أصلية، حيث يُمكن تقليل التحقّق من الحقائق بشكلٍ فعّال إلى مشكلة بسيطة في تحليل الشبكة: حساب المسار الأقصر البسيط (يُنظر: الشكل 1). يُعيّن القُرب الدلالي للاستعلامات المُستندة إلى بيانات الحقائق المُستخرجة، كدالة للعلاقة التبادلية بين الفاعل (Subject) والفعل (Predicate)، عبر التراكيب الأخرى. فكلما اقتربنا من التراكيب زادت احتمالية أن تكون بيانات الفاعل-الفعل-المفعول به الدقيقة صحيحة.
هناك العديد مما يُسمى متغيرات "أثر الشبكة" التي تُستغلُ لاشتقاق احتمالات الحقيقة، مما يجعل توقعات استغلال مستودعات البيانات المُنظمة لتدقيق الحقائق واعدةً. فمن القائمة القصيرة للأعمال المنشورة الموجودة في هذا المجال، تتراوح النتائج – باستخدام عينات من أربع مجالات مختلفة – من 61٪ إلى 95٪، وقد قِيسَ النجاح بناءً على ما إذا كانت الآلة قادرةً على تعيين قيم حقيقية أعلى للعبارات الحقيقية من تلك التي تكون خاطئة. ومع ذلك، فإن مشكلة هذه الطريقة تكمُن في حقيقة أن العبارات يجب أن تكون في قاعدة معرفية موجودة مسبقاً.
سلوك الشبكة الاجتماعية
إثبات الهوية عبر وسائل التواصل الاجتماعي أمرٌ بالغ الأهمية لمفهوم الثقة. إن انتشار الأخبار في شكل الأحداث الحالية من خلال تقنيات جماهيرية مثل المدوّنات الصغيرة، يدعو إلى التحقّق من الفرق بين المحتوى الزائف والحقيقي.
يأتي استخدام البيانات الوصفية والسلوك المُنبثق للمصادر المشكوك فيها، خارج تحليل المحتوى. الاستخدام الأخير لمنصة (Twitter) في التأثير على التصوّرات السياسية، هو أحد السيناريوهات التي يُمكن من خلالها تجميع بيانات معينة؛ أي تضمين الروابط التشعبية (Hyperlinks) أو البيانات الوصفية المرتبطة بها، لإنشاء تقييمات المصداقية. يُمثّل تحليل الرنين المركزي (CRA) – وهو أسلوب تحليل النص استناداً إلى الشبكة – محتوى مجموعات كبيرة من النصوص، من خلال تحديد أهم الكلمات التي تربطُ كلمات أخرى في الشبكة.
وقد وُظِّفَ هذا من قبل باباشرسي وأوليفرا لتحديد أنماط المحتوى في المنشورات حول الانتخابات المصرية (2012). تزعمُ الدراسات التي تجمعُ بين المشاعر والسلوك، أن التقييمات التي تُركّز على مشاعر المساهمين الفرديين تؤثر بشكلٍ كبير على التصنيف عبر الإنترنت، وأن هذا مؤشرٌ على المساهمة بتقييمات زائفة لتشويه الترتيب بشكل مصطنع.
خاتمة
أظهرت المقاربات اللغوية والشبكية نتائج عالية الدقة في مهام التصنيف ضمن نطاقات مُحددة. يَصيغُ هذا النقاش تصنيفاً أساسيًّا للطرق المتاحة بقصدِ المزيد من التحسين والتقييم، ويوفّر الأساس لتصميم أداة شاملة للكشف عن الأخبار الزائفة. يُمكن استخدام التقنيات الناشئة عن مقاربات متباينة معاً في نظام هجين، تُلخَّص ميزاته كالتالي:
- يجب أن تُبنى المعالجة اللغوية على طبقات متعددة، بدءاً بالتحليل الكلامي/المعجمي، ووصولاً إلى أعلى مستوى تحليل للخطاب، لتحقيق الأداء الأمثل.
- يجب توحيد سلوك الشبكة مع بُعد "الثقة" من خلال تحديد مصادر موثوقة، كبديلٍ قابل للتطبيق للمقاربات القائمة على المحتوى بصرامة.
- ينبغي تصميم الأدوات لزيادة الحُكم البشري، لا استبداله، فالعلاقات بين الطرائق ومُخرجات الآلة يجب أن تكون واضحة.
- المساهمات التي تقعُ في شكل مجموعات بيانات قياسية مُتاحة للجمهور، يجب أن تكون بصيغة بيانات مترابطة، للمساهمة في عصرنة فحص الحقائق.