أوامر ملكية.. إعفاءات وتعيينات جديدة في عدد من القطاعات    ولي العهد يهنئ رئيس وزراء سنغافورة بمناسبة أدائه اليمين الدستورية    زين السعودية تعلن عن استثمارات بقيمة 1.6 مليار ريال لتوسعة شبكتها للجيل الخامس 5G    تشغيل 4 رحلات أسبوعياً للخطوط الجوية البريطانية من هيثرو إلى جدة    «البلسم» تختتم حملتها الطبية في اليمن وتنجح في إجراء 251 عملية قلب مفتوح و«قسطرة»    أمير منطقة القصيم يستقبل وزير الاستثمار    مندوب فلسطين يرحب بمبادرة البحرين بعقد مؤتمر دولي للسلام لحل القضية الفلسطينية    أمير منطقة الرياض يستقبل مدير السجون بالمنطقة    مدير تعليم الأحساء يكرم الطالبة الفائزة ببرونزية المعرض الدولي للاختراعات    ضبط 264 طن مأكولات بحرية منتهية الصلاحية    وزير العدل يلتقي رئيس المجلس الدستوري في فرنسا    ارتفاع النفط واستقرار الذهب    «النيابة»: باشرنا 15,500 قضية صلح جنائي أسري.. انتهاء 8 آلاف منها صلحاً    زلزال بقوة 5.1 درجات يضرب جزر قبالة سواحل نيوزيلندا    أمير تبوك يثمن للبروفيسور " العطوي " إهدائه لجامعة تبوك مكتبته الخاصة    «الصحة» تدعو الراغبين في الحج إلى أخذ واستكمال جرعات التطعيمات    نيمار يبدأ الجري حول الملعب    فيغا يعود للتدريبات الجماعية للأهلي    من أعلام جازان .. الشيخ عيسى بن رديف بن منصور شماخي    أمير حائل يكرم عدداً من الطلاب الحاصلين على الجائزة الوطنية بمبادرة «منافس»    السوق السعودية ضمن أول 10 دول في العالم المملكة أكثر الاقتصادات تسارعاً آخر 6 سنوات    الصمعاني يشارك في قمة رؤساء المحاكم في دول G20    أفضل الإجراءات وأجود الخدمات    وزير الحرس الوطني يرعى تخريج 2374 طالباً وطالبة من «كاساو»    جناح طائرة ترامب يصطدم بطائرة خاصة في مطار بفلوريدا    أمير تبوك ينوه بجهود القيادة في خدمة ضيوف الرحمن    سعود بن نايف: رؤية المملكة أسهمت في تحسين جودة الحياة    سعود بن بندر يثمّن جهود هيئة النقل    «الداخلية» و«سدايا» تطلقان جهازاً متنقلاً لإنهاء إجراءات المستفيدين من مبادرة «طريق مكة»    إطلاق مبادرة «دور الفتوى في حفظ الضرورات الخمس»    خادم الحرمين يرحب بضيوف الرحمن ويوجه بتقديم أجود الخدمات    لجلب صفقات من العيار الثقيل.. النصر يعتزم الاستغناء عن 3 أجانب    إعفاءات.. جمركية بالأسوق الحرة    وزارة لتشجيع زيادة المواليد بكوريا الجنوبية    واتساب تطلق تصميماً جديداً    الوجه الآخر لحرب غزة    المجون في دعم كيان صهيون    طموحنا عنان السماء    أهمية الاختبارات الوطنية «نافس» !    حالة مطرية في معظم المناطق حتى السبت    الأمن والاستقرار    نائب أمير مكة يستقبل عدد من اصحاب السمو والمعالي والفضيله    انطلاق برنامج الرعاية الأكاديمية ودورة البحث العلمي في تعليم الطائف    ..أنيس منصور الذي عاش في حياتنا 2-1    مكانة بارزة للمملكة في عدد مقاعد «آيسف»    تمكين المواهب وتنشيط القطاع الثقافي في المملكة.. استقبال 2200 مشاركة في مبادرة «إثراء المحتوى»    محتوى الغرابة والفضائح !    ليس لأحد الوصول    الاحتراف تحدد مواعيد تسجيل اللاعبين في دوري روشن و"يلو"    المان سيتي يكسر عقدة ملعب توتنهام الجديد وينفرد بصدارة الدوري الإنجليزي    الهلال والنصر.. والممر الشرفي    حمام الحرم.. تذكار المعتمرين والحجاج    تفقد محطة القطار ودشن «حج بلياقة».. أمير المدينة المنورة يطلع على سير الأعمال بالمطار    كأس إيطاليا بين خبرة اليوفي وطموح أتالانتا    ( قلبي ) تشارك الهلال الأحمر الاحتفاء باليوم العالمي    الكلام أثناء النوم ليس ضاراً    تأثير العنف المنزلي على الأطفال    مواد كيميائية تسبب السرطان داخل السيارات    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.