دراسة: الذكاء الاصطناعي يواجه صعوبة في فهم التاريخ - أرض المملكة

الأربعاء 22 يناير 2025 11:01 صباحاً

نعرض لكم زوارنا أهم وأحدث الأخبار فى المقال الاتي:
دراسة: الذكاء الاصطناعي يواجه صعوبة في فهم التاريخ - أرض المملكة, اليوم الأربعاء 22 يناير 2025 11:01 صباحاً

لقد أظهر الذكاء الاصطناعي خلال المدة الماضية تفوقه في أداء بعض المهام التقنية والإبداعية، مثل: كتابة الأكواد البرمجية أو إنتاج حلقات بودكاست، ولكنه مازال يواجه تحديات كبيرة في فهم التاريخ، وذلك بحسب ما كشفت عنه دراسة حديثة اختبرت قدرات ثلاثة من أهم النماذج اللغوية الكبيرة في الإجابة عن أسئلة تاريخية معقدة.

معيار جديد لاختبار النماذج اللغوية الكبيرة في التاريخ:

لإجراء هذه الدراسة؛ أنشأ فريق من الباحثين معيارًا جديدًا يُسمى (Hist-LLM)، لاختبار أداء ثلاثة نماذج لغوية كبيرة رائدة، وهي:(GPT-4) من OpenAI، و(Llama) من ميتا، و(Gemini) من جوجل، في الإجابة عن أسئلة تاريخية دقيقة.

واعتمد هذا المعيار في تقييمه على قاعدة بيانات شاملة للمعرفة التاريخية تُسمى (سشات) Seshat، وهي قاعدة بيانات ضخمة تجمع معلومات تاريخية من مصادر متعددة وتغطي فترات زمنية وأماكن جغرافية مختلفة، وقد سميت هذه القاعدة على اسم سشات، إلهة الحكمة والكتابة والمعرفة في الحضارة المصرية القديمة.

ويركز معيار (Hist-LLM) في اختبار مدى دقة المعلومات التاريخية وموثوقيتها التي يقدمها كل نموذج لغوي، مقارنةً بالمعلومات الموثقة في قاعدة بيانات (Seshat)، مما يساعد في تحديد نقاط القوة والضعف في قدرة النماذج اللغوية الكبيرة على فهم السياق التاريخي واستيعابه والتمييز بين الحقائق التاريخية الصحيحة والمعلومات غير الصحيحة أو المضللة.

نتائج مخيبة للآمال:

عُرضت نتائج هذه الدراسة في مؤتمر (NeurIPS)، وهو أحد أبرز المؤتمرات العالمية في مجال الذكاء الاصطناعي، وجاءت مخيبة للآمال، وفقًا للباحثين المنتسبين إلى معهد الأبحاث (Complexity Science Hub) في النمسا، إذ حقق نموذج (GPT-4 Turbo) أفضل أداء بين النماذج المختبرة، ولكنه لم يحقق سوى دقة تقارب 46% في الإجابة عن الأسئلة التاريخية، ويشير هذا الرقم إلى أن أداء نموذج (GPT-4 Turbo) لم يكن أفضل بكثير من التخمين العشوائي، إذ إن نسبة 50% تمثل احتمالية الإجابة الصحيحة عن سؤال له خياران فقط عن طريق التخمين.

وعلقت ماريا ديل ريو-شانونا، الأستاذة المشاركة في علوم الحاسوب في جامعة كوليدج لندن وأحد مؤلفي الورقة البحثية، على هذه النتائج قائلة: “الخلاصة الرئيسية من هذه الدراسة هي أن النماذج اللغوية الكبيرة أصبحت مثيرة للإعجاب في الكثير من الجوانب التقنية والإبداعية، ولكنها ما زالت تفتقر إلى عمق الفهم المطلوب للتعامل مع البحث التاريخي المتقدم على مستوى الدراسات العليا”.

وأضافت تشانونا تفصيلًا مهمًا حول طبيعة هذه النماذج وقدراتها، إذ أشارت إلى أنها رائعة في استرجاع الحقائق الأساسية والمعلومات العامة وتقديمها، بمعنى آخر، يمكن لهذه النماذج التعامل بكفاءة مع المعلومات التاريخية المباشرة والمتاحة بسهولة، مثل تواريخ الأحداث المهمة أو أسماء الشخصيات التاريخية.

ويؤكد ذلك أن النماذج اللغوية الكبيرة غير قادرة حاليًا على تحليل المصادر التاريخية بشكل نقدي، أو فهم السياق التاريخي المعقد، كما لا يمكنها حاليًا إجراء تحليلات تاريخية مبتكرة أو تقديم تفسيرات جديدة للأحداث التاريخية.

وشارك الباحثون بعض الأمثلة للأسئلة التاريخية التي أخطأت النماذج اللغوية الكبيرة في الإجابة عنها، فعلى سبيل المثال، عندما سُئل نموذج (GPT-4 Turbo)، هل الدروع الحرشفية كانت مستخدمة في مدة زمنية معينة في مصر القديمة، أجاب بنعم، ولكن هذه التقنية لم تظهر في مصر إلا بعد 1500 عام من تلك الحقبة الزمنية.

أسباب ضعف النماذج اللغوية الكبيرة في التاريخ:

تثير نتائج هذه الدراسة التساؤل عن أسباب ضعف النماذج اللغوية الكبيرة في الإجابة عن الأسئلة التاريخية التقنية، في حين تظهر كفاءة عالية في الإجابة عن أسئلة معقدة في مجالات أخرى مثل البرمجة.

وأرجعت ديل ريو-شانونا ذلك إلى ميل هذه النماذج إلى الاستقراء من البيانات التاريخية الشائعة والبارزة، مما يجعل من الصعب عليها استرجاع المعرفة التاريخية الأكثر غموضًا.

وكمثال آخر، سأل الباحثون نموذج GPT-4، هل كان لدى مصر القديمة جيش نظامي محترف خلال مدة تاريخية محددة، وفي حين أن كانت الإجابة الصحيحة هي “لا”، أجاب النموذج بـ “نعم”.

ويرجح الباحثون أن سبب هذا الخطأ هو وجود كم كبير من المعلومات المتاحة عن إمبراطوريات قديمة أخرى، مثل: الإمبراطورية الفارسية، التي كانت تمتلك جيوشًا نظامية، ما أدى إلى تضليل النموذج.

وشرحت ديل ريو شانونا هذه الظاهرة قائلة: “إذا تكرر ذكر (A) و (B)أمامك 100 مرة، وذُكر (C) مرة واحدة فقط، ثم طُرح عليك سؤال حول (C)، فمن المحتمل أن تتذكر (A) و (B) وتحاول الاستنتاج بناءً عليهما”.

تحيزات في بيانات التدريب:

كشفت الدراسة أيضًا عن توجهات أخرى، منها أن أداء نموذجي GPT-4، و Llama كان أسوأ في مناطق معينة مثل أفريقيا جنوب الصحراء الكبرى، مما يشير إلى وجود تحيزات محتملة في بيانات التدريب المستخدمة.

وأكد بيتر تورتشين، قائد الدراسة وعضو هيئة التدريس في معهد (Complexity Science Hub)، أن نتائج هذه الدراسة تظهر أن النماذج اللغوية الكبيرة لا تزال غير قادرة على الحلول محل البشر في مجالات معينة مثل التاريخ.

ومع ذلك، لا يزال الباحثون متفائلين بإمكانية استفادة المؤرخين من هذه النماذج في المستقبل كأداة مساعدة تساهم في تسريع بعض جوانب البحث وتوفير معلومات أولية، ويعملون حاليًا على تحسين معايير التقييم المستخدمة في دراستهم بإضافة المزيد من البيانات من المناطق الممثلة تمثيلًا ناقصًا، وطرح أسئلة أكثر تعقيدًا.

وتُختتم الورقة البحثية بالتأكيد أن النتائج تسلط الضوء على المجالات التي تحتاج فيها النماذج اللغوية الكبيرة إلى تحسين، وتؤكد أيضًا إمكانات هذه النماذج في المساعدة في البحث التاريخي.

نسخ الرابط تم نسخ الرابط

أخبار متعلقة :