أمير حائل ينوّه بما تحقق من منجزات تنموية شاملة مبنية على مستهدفات رؤية المملكة 2030    المملكة تعزي قطر في وفاة أحد منسوبي الأمن الداخلي    نائب أمير المنطقة الشرقية: الخطاب الملكي الكريم خارطة طريق لمستقبلٍ مشرق    الذهب يرتفع بفضل رهانات خفض "أسعار الفائدة"    مجموعة الدكتور سليمان الحبيب الطبية تشارك في منتدى التكنولوجيا لعلوم الحياة 2025 المنعقد في ايطاليا    مسح ميداني للغطاء النباتي في محمية الملك عبدالعزيز    تضامن عربي وعالمي واسع مع قطر ضد العدوان الإسرائيلي    باريس: لوكورنو يتسلم مهامه مع موجة احتجاجات    سكان غزة.. يرفضون أوامر الإخلاء ومحاولات التهجير    الأخضر الشاب بطلاً لكأس الخليج    فيلانويفا يدافع عن قميص الفيحاء    باتشيكو حارساً للفتح    هيئة الشرقية تنظّم "سبل الوقاية من الابتزاز"    الكشافة السعودية تشارك في الجامبوري العالمي    مبادرات جمعية الصم تخدم ثلاثة آلاف مستفيد    "التعليم" توقع اتفاقية "الروبوت والرياضات اللاسلكية"    «آسان» و«الدارة» يدعمان استدامة التراث السعودي    «سلطان الخيرية» تعزز تعليم العربية في آسيا الوسطى    «الحج والعمرة» تُطلق تحدي «إعاشة ثون»    التأييد الحقيقي    "الشيخوخة الصحية" يلفت أنظار زوار فعالية العلاج الطبيعي بسيهات    إنقاذ حياة مواطنَيْن من تمزّق الحاجز البطيني    59% يفضلون تحويل الأموال عبر التطبيقات الرقمية    تداول يواصل الانخفاض    2.47 تريليون ريال عقود التمويل الإسلامي    هل توقف العقوبات انتهاكات الاحتلال في غزة    اتفاق نووي جديد يعيد فتح أبواب التفتيش في إيران    الهجوم الإسرائيلي في قطر يفضح تقاعس واشنطن ويغضب الخليج    المكملات بين الاستخدام الواعي والانزلاق الخفي    مُحافظ الطائف: الخطاب الملكي تجسيد رؤية القيادة لمستقبل المملكة    الأمير فهد بن جلوي توَّج الملاك الفائزين في تاسع أيام المهرجان    أمير تبوك الخطاب الملكي تأكيد للنهج القويم للمملكة داخليًا وخارجيًا    ختام بطولات الموسم الثالث من الدوري السعودي للرياضات القتالية الإلكترونية    صقار المستقبل برنامج موجه للصغار    تعليم الطائف يعلن بدء استقبال طلبات إعادة شهادة الثانوية لعام 1447    نائب أمير منطقة مكة يستقبل رئيس فريق تقييم أداء الجهات الحكومية    السبع العجاف والسبع السمان: قانون التحول في مسيرة الحياة    فضيلة المستشار الشرعي بجازان: " ثمرة تماسك المجتمع تنمية الوطن وازدهاره"    نائب أمير منطقة تبوك يستعرض منجزات وأعمال لجنة تراحم بالمنطقة    نائب أمير منطقة تبوك يستقبل رئيس وأعضاء جمعية الوقاية من الجريمة "أمان"    وسط حضور جماهيري كبير .. الأخضر السعودي تحت 20 يتوّج بكأس الخليج    البرامج الجامعية القصيرة تمهد لجيل من الكفاءات الصحية الشابة    أمير المدينة يلتقي العلماء والمشاركين في حلقة نقاش "المزارع الوقفية"    الأمير سعود بن طلال يُدشن موسم صرام الأحساء 2025 لتعزيز قطاع التمور    نيابة عن خادم الحرمين.. ولي العهد يُلقي الخطاب الملكي السنوي لافتتاح أعمال الشورى في الدور التشريغي 9 اليوم    "التخصصي" يفتتح جناح الأعصاب الذكي    8 مشروعات فنية تدعم «منح العلا»    يسرا تستعد لعرض فيلم «الست لما»    نونو سانتو أول الراحلين في الموسم الجديد بإنجلترا    مجلس الوزراء برئاسة ولي العهد: سلطات الاحتلال تمارس انتهاكات جسيمة ويجب محاسبتها    رقابة مشددة على نقل السكراب    أكد اتخاذ كافة الإجراءات القانونية لمواجهته.. رئيس وزراء قطر: العدوان الإسرائيلي «إرهاب دولة»    السعودية: ندعم الحكومة السورية في إجراءات تحقيق الاستقرار.. قصف إسرائيلي لمواقع في حمص واللاذقية ودمشق    إنفاذاً لأمر خادم الحرمين بناء على ما رفعه ولي العهد.. نائب أمير الرياض يسلم وسام الملك عبدالعزيز للدلبحي    مرتكبا الصيد دون ترخيص بقبضة الأمن    ولي العهد وملك الأردن يبحثان الهجوم الإسرائيلي الغاشم    إنتاج أول فيلم رسوم بالذكاء الاصطناعي    أهمية إدراج فحص المخدرات والأمراض النفسية قبل الزواج    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.