غوغل تؤكد: دقة روبوتات الدردشة بالذكاء الاصطناعي لا تتعدى 70%

أظهرت دراسة حديثة أجرتها شركة جوجل أن دقة روبوتات الدردشة التي تعتمد على نماذج اللغة الكبيرة للذكاء الاصطناعي غالبًا ما تقل عن 70%، مما يثير تساؤلات حول الاعتماد الكامل عليها في تقديم معلومات دقيقة وموثوقة. وكشفت الدراسة المكثفة، التي نشرت في تقرير مفصل، عن نقاط ضعف رئيسية في هذه النماذج وقدرتها على معالجة المعلومات والإجابة على الأسئلة بشكل صحيح.
وقد أجريت هذه الدراسة في أعقاب النمو الهائل في استخدام نماذج الذكاء الاصطناعي في تطبيقات مختلفة، من خدمة العملاء إلى البحث عن المعلومات، مما زاد من أهمية تقييم دقتها وموثوقيتها. تُظهر النتائج أن حتى الإجابات التي تبدو منطقية قد تكون خاطئة في ثلث الحالات تقريبًا، وفقًا لتقرير نشره موقع “ديجيتال تريندز”.
آلية اختبار دقة روبوتات الدردشة
استخدمت مختبرات “ديب مايند” التابعة لجوجل أربعة معايير رئيسية لاختبار دقة النماذج اللغوية. تضمنت هذه المعايير قياس قدرة النماذج على استرجاع المعرفة الداخلية، والبحث على الإنترنت، وفهم الصور، وتقديم إجابات متسقة مع سياق معين. ويهدف هذا النهج الشامل إلى تحديد نقاط القوة والضعف في كل نموذج بشكل موضوعي.
وحصل نموذج “جيميناي 3 برو” على أعلى تقييم في الاختبار، حيث تجاوزت دقته 69%. وجاء في المركز الثاني “جيميناي 2.5 برو” بنسبة 62%، يليه “جي بي تي 4” بنسبة 61.8%. بينما أظهر نموذجا “كلود أوبس 4.5” و “غروك” نتائج أقل، حيث حققا نسبتي 51% و 53% على التوالي.
نتائج الاختبارات التفصيلية
أظهرت النتائج تباينًا كبيرًا في أداء النماذج المختلفة عبر المعايير الأربعة. ففي حين تفوق “جيميناي 3 برو” في الأداء العام، أظهر “شات جي بي تي 4” قوة خاصة في معيار البحث والمعيار الأساسي. ومع ذلك، واجهت جميع النماذج صعوبات في معيار الفهم متعدد الوسائط، مما يشير إلى الحاجة إلى تطوير قدراتها في معالجة المعلومات المرئية.
بالمقابل، كان نموذج “غروك 4 فاست” هو الأقل أداءً، حيث حقق متوسط نتيجة 36%، وانخفض إلى 17% في اختبار الصور و 15% في اختبار المعرفة الداخلية. وهذا يسلط الضوء على الفجوة المحتملة في القدرات بين النماذج التجارية المختلفة. يمثل الذكاء الاصطناعي التوليدي مجالاً متطوراً بسرعة، وتظهر هذه النتائج التحديات المستمرة في ضمان الدقة والموثوقية.
وقد تم مشاركة بيانات الاختبار الكاملة مع مجتمع “كاغل” العلمي، وهو منصة رائدة لعلماء البيانات والمحللين. تتيح هذه الخطوة الشفافية وتشجع على مزيد من البحوث والتطوير في مجال معالجة اللغة الطبيعية.
أهمية النتائج وتأثيرها المحتمل
يأتي هذا التقييم في الوقت الذي يزداد فيه الاعتماد على نماذج الذكاء الاصطناعي في مجالات حساسة مثل الرعاية الصحية والتمويل. وتؤكد الدراسة على أن الأخطاء، حتى لو كانت بنسبة صغيرة، قد تكون لها عواقب وخيمة في هذه القطاعات. لذلك، من الضروري تطوير آليات أكثر فعالية لتقييم وضمان جودة هذه النماذج. علاوة على ذلك، تثير هذه النتائج أسئلة حول المسؤولية في حالة تقديم نماذج الذكاء الاصطناعي معلومات خاطئة أو مضللة.
ويشير تقرير “ديجيتال تريندز” إلى أن جودة البيانات المستخدمة لتدريب هذه النماذج تلعب دورًا حاسمًا في دقتها. فالنماذج التي يتم تدريبها على بيانات متحيزة أو غير كاملة قد تنتج إجابات غير دقيقة أو تعكس هذه التحيزات. لذا، فإن التركيز على جمع وتنظيف البيانات عالية الجودة أمر ضروري لتحسين أداء نماذج الذكاء الاصطناعي. يتّضح أن تطوير نماذج ذكاء اصطناعي موثوقة يتطلب جهودًا متعددة الأوجه، بما في ذلك تحسين خوارزميات التعلم وتقييم البيانات المستخدمة وتقييم أداء النماذج بشكل مستمر.
من المتوقع أن تستمر جوجل و “ديب مايند” في إجراء المزيد من الاختبارات والتحليلات لتقييم أداء نماذج الذكاء الاصطناعي. قد تتضمن الخطوات التالية تطوير معايير تقييم أكثر دقة وشمولية، وإجراء اختبارات على نطاق أوسع، والتعاون مع الباحثين والمطورين في جميع أنحاء العالم. المجتمع العلمي يترقب عن كثب أي تحديثات حول هذه القضية، حيث أنها ذات أهمية كبيرة لمستقبل الذكاء الاصطناعي وتطبيقاته.





