ختام أكبر هاكاثون في العالم "أبشر طويق"    مقتل شخصين وإصابة ثمانية جراء إطلاق النار في جامعة براون في أمريكا    حققت قفزة نوعية بمعدل 9 نقاط خلال عامين.. السعودية بالمرتبة ال10 بمؤشر التغطية الصحية الشاملة    45 اتفاقية ومذكرة لصندوق التنمية الوطني.. 6 مليارات ريال تمكيناً لشراكات القطاع الخاص    دعت لتبني سلوكيات التنزه.. البيئة: 3 آلاف ريال غرامة مخالفة التخييم دون تصريح    لحظة تأمُّل    وسط انتقادات واشنطن لقرار أممي.. مؤتمر دولي لبحث إنشاء «قوة غزة»    جيش الاحتلال يستهدف القيادي في حماس رائد سعد    1092 توفوا في غزة نتيجة تأخر الإجلاء الطبي ونقص الإمدادات    المنتخب الوطني يواصل تحضيراته لمواجهة الأردن    برعاية خادم الحرمين.. أمير الرياض يحضر ختام العرض الدولي الثامن لجمال الخيل العربية الأصيلة    تنظيم الإعلام الرياضي وعقوبات على المتجاوزين ومثيري التعصب.. بعد الموافقة عليه.. تفاصيل مشروع نظام الرياضة الجديد    ضبط 19.5 ألف مخالف    أمطار على معظم المناطق حتى نهاية الأسبوع    1145 حالة ضبط لممنوعات بالمنافذ    يسرا اللوزي تستعد بمسلسلين لرمضان    أمسية شعرية وطنية في «جدة للكتاب»    فسح وتصنيف 40 محتوى سينمائياً    تنظمها وزارة الشؤون الإسلامية.. دورات متخصصة لتأهيل الدعاة والأئمة ب 3 دول    المملكة تقود مستقبل التحول الرقمي    دراسة: كلما زاد إقناع الذكاء الاصطناعي قلت دقته    المملكة توزع 1000 سلة غذائية في ولاية البحر الأحمر بالسودان    القبض على شخصين لترويجهما القات    ضبط 19576 مخالفاً للإقامة والعمل وأمن الحدود    الأخضر يتجهز لمواجهة الأردن بفترة «حرة»    تقرير بريطاني يفتح الباب لرحيل صلاح نحو الدوري السعودي    كوزمين: هدفنا النهائي    أمير الشرقية يرعى تكريم الفائزين بجائزة الأحساء للتميز.. غداً    «جائزة الإعلام» تطلق مسار «التميّز»    ورحلت رفيقة دربي أُم تركي    تحسين الفئات الوظيفية ل3808 من منتسبي المساجد    «الأمر بالمعروف» تفعّل معرض «ولاء» بالطائف    مهاجم نادي الفيحاء يخضع لعملية جراحية ناجحة بمجمع الدكتور سليمان الحبيب الطبي في العليا    مستشفيات الدكتور سليمان الحبيب بالخبر والمحمدية والفيحاء والحمراء والصحافة تحصل على شهادة الاعتماد الدولية JCI    71.5% من الأنشطة العقارية بالرياض    2.31 تريليون دولار قيمة الإقراض بالبنوك الخليجية    السوق السعودية يغلق الأسبوع على مكاسب محدودة    حقن التخسيس تدخل عالم القطط    النوم الجيد مفتاح النشاط اليومي    رب اجعل هذا البلد آمنا    ترمب: هجوم تدمر حدث في منطقة خارج سيطرة الحكومة السورية    «هوبال» يحصد جائزة «فاصلة» لأفضل فيلم سعودي    تشكيل منتخب السعودية المتوقع أمام الأردن في كأس العرب    العزاب يغالطون أنفسهم    غزة بين آثار الحرب والطقس القاسي مع استمرار الضربات العسكرية    السعودية تواصل إيواء النازحين في جنوب غزة    زبرجد فيلم روائي يجذب زوار معرض جدة للكتاب    الملك يرعى الحفل الختامي للعرض الثامن لجمال الخيل العربية الأصيلة    فريق قوة عطاء التطوعي يحتفي باليوم العالمي للتطوّع ويكرّم أعضاءه    ورشة عمل في فندق كراون بلازا تحت إشراف جمعية القلب السعودية ضمن حملة 55 قلبك بخير    سماء المنطقة العربية تشهد زخة قوية من الشهب هذه الليلة    كشف السلطة في محل الفول: قراءة من منظور فوكو    رئيس دولة إريتريا يصل إلى جدة    نائب أمير الرياض يعزي أبناء علي بن عبدالرحمن البرغش في وفاة والدهم    غرفة إسكندراني تعج بالمحبين    القيادة تعزّي ملك المغرب في ضحايا انهيار مبنيين متجاورين في مدينة فاس    طيور مائية    ولي العهد يفتتح مرافق قاعدة الملك سلمان الجوية    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



نماذج OpenAI بهلوسة غير مسبوقة
نشر في الوطن يوم 20 - 04 - 2025

أطلقت شركة OpenAI مؤخرًا نماذجها الجديدة المسماة o3 وo4-mini، ضمن ما يعرف بنماذج الاستدلال، والتي وُصفت بأنها تمثل تطورًا كبيرًا في قدراتها الحسابية، خصوصًا في مجالات البرمجة والرياضيات. لكن المفارقة أن هذه النماذج تعاني من مشكلة قديمة تتفاقم: الهلوسة.
الهلوسة في الذكاء الاصطناعي تعني أن يُنتج النموذج معلومات خاطئة تبدو مقنعة، وقد كانت مشكلة مستمرة في جميع النماذج السابقة، إلا أن المقلق في النماذج الجديدة أنها تُظهر معدلات أعلى من الهلوسة مقارنة بنماذج OpenAI الأقدم مثل o1 وGPT-4o.
في اختبارات داخلية، تبين أن نموذج o3 يهلوس في نحو 33 % من إجابات اختبار PersonQA، وهو معيار داخلي لقياس دقة النموذج في المعلومات المتعلقة بالأشخاص، وهي نسبة تقارب ضعف ما سجله o1 وo3-mini. أما o4-mini فكانت نتائجه أسوأ، حيث بلغت نسبة الهلوسة 48 %.
ولعل الأمر الأكثر إثارة للقلق هو أن OpenAI نفسها لا تعرف حتى الآن السبب الدقيق لزيادة هذه المشكلة، وصرحت في تقاريرها بأن الأمر يحتاج إلى مزيد من البحث لفهم العلاقة بين توسيع نطاق النماذج وزيادة معدلات الهلوسة، وفقًا ل«تك كرانش».
مؤسسة الأبحاث Transluce لاحظت أيضًا أن نموذج o3 لا يكتفي بالمعلومات الخاطئة، بل قد «يختلق سيناريوهات»، كادعائه تشغيل كود برمجي على جهاز MacBook Pro رغم عدم امتلاكه القدرة على ذلك، مما يثير تساؤلات حول حدود مصداقية النموذج.
ورغم هذه المشكلات، فإن بعض الخبراء، مثل كيان كاتانفوروش من جامعة ستانفورد، يرون أن الأداء البرمجي العالي لo3 يجعله منافسًا قويًا، لكنه لا يزال يقع في أخطاء مثل تقديم روابط وهمية أو غير فعالة.
وفي ظل تزايد اعتماد الشركات على نماذج الذكاء الاصطناعي، تصبح دقة المخرجات أمرًا أساسيًا لا يمكن التهاون فيه، خاصة في مجالات حساسة مثل القانون أو الطب. من هنا، يُطرح أحد الحلول المحتملة: دمج النماذج مع إمكانيات البحث الحي عبر الإنترنت، كما هو الحال في نموذج GPT-4o، الذي أظهر دقة بلغت 90 % في اختبار SimpleQA.
في النهاية، يبقى الاستدلال أداة واعدة، لكنه يحمل في طياته تحديات حقيقية، وعلى رأسها الهلوسة. ويبدو أن OpenAI، ومعها المجتمع البحثي، أمام مفترق طرق: إما السيطرة على هذه الظاهرة، أو مواجهة تباطؤ في اعتماد هذه النماذج في تطبيقات الحياة الواقعية.


انقر هنا لقراءة الخبر من مصدره.