كما أكدت الدراسة التي نشرها باحثون من جامعة تكساس في أوستن على موقع arXiv وأوردتها مجلة Nature، أن النماذج اللغوية الكبرى (LLMs) تصبح أضعف في التفكير والاستنتاج، بل وتتخذ قرارات خاطئة أو تتخطى خطوات منطقية أساسية حين تُغذّى بمحتوى قصير وسطحي أو مثير للجدل كما هو شائع على منصات مثل "إكس" و"تيك توك" و"ريديت". "القمامة الرقمية" تولّد نتائج فاسدة
وفي السياق، قال الباحث تشانغ يانغ وانغ، المشرف على الدراسة، إن المشكلة ليست في اللغة بحد ذاتها، بل في جودة المعنى والمحتوى. وأضاف قائلا "حتى لو كان النص مكتوباً بشكل صحيح لغوياً، يمكن أن يكون فقيراً في المضمون أو مكرراً أو مضللاً... وهذه المواد تفسد النموذج من الداخل".
واعتمد الفريق في تجربته على مليون منشور عام من منصة "إكس" لتدريب نسخ مفتوحة المصدر من نماذج "Llama 3" التابعة لشركة "Meta" و"Qwen" المطوّرة من قبل "علي بابا".
فيما أظهرت النتائج أن النماذج التي استندت إلى بيانات رديئة تخطّت مراحل التفكير المنطقي أو أعطت إجابات غير دقيقة، حتى في أسئلة متعددة الخيارات.تغيّرات سلوكية أيضاً
أما الأخطر، بحسب الدراسة، فيكم في أن النماذج التي تغذّت بمحتوى منخفض الجودة أظهرت تغيّراً في "شخصيتها" الافتراضية.
فقد لوحظ أن نموذج Llama، الذي كان يميل إلى صفات مثل الانفتاح والضمير والود، أصبح أكثر نرجسية وعدوانية بل وظهرت عليه سمات نفسية مرضية بعد تدريبه على بيانات التواصل الاجتماعي.
وفاجأت هذه النتيجة الباحثين لأنها توحي بأن الذكاء الاصطناعي لا يتأثر فقط معرفياً، بل أخلاقياً أيضاً عند التعرض المفرط لمحتوى مشحون أو سطحي.محاولات فاشلة للإنقاذ
في حين جرّب الفريق تعديل التعليمات (prompts) لتحسين الأداء، وزيادة كمية البيانات الجيدة، لكن التحسّن كان جزئياً فقط.
وحتى عندما طُلب من النماذج مراجعة تفكيرها وتصحيح أخطائها، واصلت القفز على الخطوات المنطقية، ما يشير إلى أن إصلاح آثار "تغذية القمامة" ليس سهلا.
وعلق الباحث الأسترالي ستان كارانايوس من "جامعة كوينزلاند"، قائلا: "الأمر يشبه تسميم العقل... فكلما زادت كمية المحتوى المضلل أو المبتذل في بيانات التدريب، زادت احتمالات أن تنتج النماذج ذكاءً مشوّهاً أو عديم المنطق".تنقية المحتوى
هكذا أكدت الدراسة مجدداً قاعدة قديمة في علم البيانات تقول: "القمامة تدخل، القمامة تخرج" (Garbage In, Garbage Out)، بمعنى أنه عندما تغذي الأنظمة بمعلومات غير جيدة، فإن النتائج حتما ستكون غير جيدة.
فيما رأى الباحثون أن الحل يكمن في تنقية البيانات بدقة واستبعاد المحتوى السطحي أو الشعبوي قبل استخدامه في تدريب النماذج، وإلا فإن ما يُعرف اليوم بالذكاء الاصطناعي قد يتحول إلى ذكاء مشوَّه يفتقر إلى المنطق والأخلاق.








