الأرصاد: الفرصة لا تزال مهيأة لهطول أمطار رعدية    مجموعة stc تعلن عن نتائجها المالية الأولية الموحدة الموجزة للفترة المنتهية في 31 مارس 2024م.    تراجع طفيف لأسعار النفط    توطين وتخطيط.. أدوار الهيئة السعودية للمياه    الجلاجل: تنظيم "وقاية" خطوة لمجتمع صحي    أسترازينيكا تبدأ سحب لقاح كوفيد-19 عالمياً    مهما طلّ.. مالكوم «مالو حلّ»    «إنفاذ»: 30 مزاداً لبيع 161 عقاراً    عدالة ناجزة وشفافة    برعاية وزير الإعلام.. تكريم الفائزين في «ميدياثون الحج والعمرة»    أمير الشرقية ونائبه يتلقيان تهاني الرزيزاء بتأهل القادسية لدوري روشن    محمد عبده اقتربت رحلة تعافيه من السرطان    4 أمور تجبرك على تجنب البطاطا المقلية    وزير الخارجية الأردني ونظيره الأمريكي يبحثان الأوضاع في غزة    مساعد رئيس الشورى تلتقي وفداً قيادياً نسائياً هولندياً    أمين الرياض يحضر حفل سفارة هولندا    الشورى يدعو لتحديث كود البناء السعودي    أمير المدينة يستعرض جهود جمعية «لأجلهم»    بيئةٌ خصبة وتنوّعٌ نباتي واسع في محمية الملك سلمان    استعراض المؤشرات الاستراتيجية لتعليم جازان المنجز والطموح    «التواصل الحضاري» يعزز الهوية الوطنية    بدء أعمال ملتقي تبوك الدولي الأول لتعزيز الصحة    "الهلال" يطلب التتويج بلقب دوري روشن بعد مباراة الطائي في الجولة قبل الأخيرة    جامعة طيبة تختتم مسابقة «طيبة ثون»    أمير المدينة يرعى حفل تخريج الدفعة ال60 من طلاب الجامعة الإسلامية    مستشفى الدكتور سليمان الحبيب بالسويدي يُجري جراحة تصحيحية معقدة لعمليات سمنة سابقة لإنقاذ ثلاثيني من تبعات خطيرة    الأول بارك يحتضن مواجهة الأخضر أمام الأردن    بونو: لن نكتفي بنقطة.. سنفوز بالمباريات المتبقية    ديميرال: اكتفينا ب«ساعة» أمام الهلال    اختتام دور المجموعات للدوري السعودي الممتاز لكرة قدم الصالات في "الخبر"    أسواق ومسالخ العاصمة المقدسة تحت المجهر    اللجنة الأولمبية الدولية تستعين بالذكاء الاصطناعي لحماية الرياضيين من الإساءات خلال الأولمبياد    الأمير خالد بن سلمان يرعى تخريج الدفعة «21 دفاع جوي»    ولي العهد يعزي هاتفياً رئيس دولة الإمارات    تحذير قوي    إدانة دولية لعمليات الاحتلال العسكرية في رفح    "الجوازات" تعلن جاهزيتها لموسم الحج    مؤتمر الحماية المدنية يناقش إدارة الحشود    الحرب العبثية في غزة    اقتصاد المؤثرين    البنتاغون: الولايات المتحدة أنجزت بناء الميناء العائم قبالة غزة    تحقيقات مصرية موسعة في مقتل رجل أعمال إسرائيلي بالإسكندرية    جامعة الملك سعود تستضيف مؤتمر" العلوم الإدارية"    غاب مهندس الكلمة.. غاب البدر    عبدالغني قستي وأدبه    بدر الحروف    المدح المذموم    البدر والأثر.. ومحبة الناس !    تغريدتك حصانك !    استقبل مواطنين ومسؤولين.. أمير تبوك ينوه بدور المستشفيات العسكرية    الرؤية والتحول التاريخي ( 1 – 4)    رحلة استجمام الى ينبع البحر    هزيمة الأهلي لها أكثر من سبب..!    الفوائد الخمس لقول لا    بدء التسجيل ب"زمالة الأطباء" في 4 دول أوروبية    أمير تبوك يستقبل المواطنين في اللقآء الأسبوعي    الأمر بالمعروف في جازان تفعِّل المصلى المتنقل خلال مهرجان الحريد    وزير الدفاع يرعى تخريج طلبة الدفاع الجوي    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.