استشهاد 5 فلسطينيين بينهم 3 أطفال في غارة إسرائيلية شمال قطاع غزة    مركز الملك عبدالعزيز الحضاري ينظم جلسة حوارية بأمانة عسير    موسم البرق الأحمر يقترب مع تزايد العواصف الرعدية    ولي العهد يلتقي رئيس الاتحاد السويسري    أمير منطقة جازان يستقبل الرئيس التنفيذي للشركة السعودية للقهوة    أمير منطقة جازان يضع حجر الأساس لمركز أمراض الدم الوراثية    انفاذا لتوجيهات القيادة.. بدء عملية فصل التوأم الملتصق الفلبيني كليا وموريس آن    العالم يتحد في يوم الأرض 2026    استقرار أسعار الذهب    ترمب مدّد وقف النار: إيران على وشك الانهيار    "الوزاري العربي" يدين الهجمات الإيرانية ضد دول الخليج والأردن والعراق    «صندوق الاستثمارات العامة» مستثمر رئيس في «ستيت ستريت الجديد» للمؤشرات المتداولة    حمدالله: جاهزون لحصد اللقب    النصر يسحق الأهلي القطري.. ويصل نهائي آسيا 2    زكري: ثقتي كبيرة في اللاعبين    تعليم المدينة يختتم فعالية «مستقبلي في روضتي»    إنقاذ حياة طالب اختنق بنقود معدنية    أمير القصيم يرأس عمومية «دمي».. ويدشّن عربة التبرع للفصائل النادرة    تنمية القدرات الوطنية لتعزيز الابتكار الصناعي ودعم التحول الرقمي    «الترفيه» وموسم الرياض يطلقان تصوير فيلم «عو»    18 ألف طالب في الأحساء يشاركون ب «يوم التراث»    المُسعف الصحي.. دور حاسم في إنقاذ حياة المرضى    «طبية الداخلية» تدشّن تصحيح النظر بالليزك    نشر أسرار الطلاق.. تشهير يعاقب عليه النظام    دول الخليج.. مواقف تُدرس    نهضة المرأة في السعودية    متخصص في جراحة السمنة: 45 % من سكان المملكة مصابون بزيادة الوزن    رئيس الاتحاد السويسري يصل إلى جدة    موجز    وسط ترتيبات لمحادثات واشنطن.. عون: بيروت تتحرك لتمديد الهدنة مع إسرائيل    مركز الملك سلمان يوزع سلالاً غذائية ب 3 دول.. اتفاقية لتمكين النازحين واللاجئين في النيجر    الوثائق لها قوة الإثبات وتعد سنداً تنفيذياً.. العدل: لا يمكن التراجع عن الوقف بعد قبول طلب توثيقه    السبيعي يحتفي بالسفراء    تثير المخاوف من تجاوز المؤسسات.. مبادرة «اللجنة المصغرة» تربك المشهد الليبي    أكدت أن الأمن الغذائي مستقر.. طهران تقلل من آثار الحصار البحري    10 ملايين ريال غرامة «المخالفات الغذائية» بالحج    «البلديات» تحصد شهادتي الجودة وإدارة الأصول    بمشاركة 100 متسابق يمثلون 53 دولة أفريقية.. خادم الحرمين يوافق على إقامة مسابقة القرآن بالسنغال    أحمد العوضي يستعد لسباق رمضان ب«سلطان الديب»    تدشين «كرسي الكتاب العربي»    أمير الرياض يرعى حفل تخريج الدفعة ال17 من طلاب جامعة الأمير سطام بن عبدالعزيز    وزير الدفاع ونظيره الإيطالي يستعرضان تطوير الشراكة العسكرية    إطلاق الخطة التشغيلية.. رئاسة الحرمين: توظيف الذكاء الاصطناعي لخدمة الحجاج    وصول أولى رحلات «طريق مكة» إلى المدينة المنورة    بدء إيداع أرباح الأوقاف عن العام 2025    في الجولة ال 29 من دوري روشن.. ديربي قصيمي يجمع النجمة والتعاون.. وقمة شرقاوية بين الفتح والخليج    الرابط بين ريال مدريد والأهلي    وزير الخارجية يستقبل وزير خارجية هولندا    أفلت من الموت 9 مرات.. وفي النهاية حفر قبره بيديه    الكرفس يخفض ضغط الدم بآليات طبيعية متعددة    مُحافظ الطائف يطّلع على جاهزية القطاعات الصحية لخدمة ضيوف الرحمن    الرياض تستضيف نهائي دوري أبطال آسيا 2 بين النصر وغامبا أوساكا في الأول بارك    واشنطن تمدد وقف إطلاق النار ليلا وطهران تشعل هرمز صباحا    نائب أمير عسير يؤكد أهمية تنمية الغطاء النباتي واستدامة الموارد الطبيعية    الجمعية الخيرية لرعاية الأيتام بنجران في زيارة لمدير عام تعليم منطقة نجران    حياة الفهد قصة نجاح ألهمت الأمهات.. وداعا سيدة الشاشة الخليجية    أمير الجوف يناقش استعدادات الجهات المشاركة في الحج    نائب أمير تبوك يواسي أسرة السحلي في وفاة فقيدهم    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.