برعاية اتحاد الغرف السعودية.. اتفاقيات محلية ودولية في اختتام المعرض الدولي الأول العائم للامتياز التجاري    النفط يسجل مكاسب أسبوعية وسط تفاؤل بمحادثات أمريكا والصين    الجيش الباكستاني: ثلاث من قواعدنا الجوية تعرضت لهجوم صاروخي هندي    الكرملين: روسيا تدعم وقف إطلاق النار لمدة 30 يوما    بث مباشر من مدينة الملك عبدالله الطبية لعملية قسطرة قلبية معقدة    الخريف يبحث تعزيز التعاون مع منظمة الأمم المتحدة للتنمية الصناعية (UNIDO)    أرتيتا يصر على أن أرسنال «الأفضل» في دوري أبطال أوروبا    ميلان يقلب الطاولة على بولونيا في "بروفة" نهائي الكأس    الخليج يجدد عقد "بيدرو" حتى عام 2027    القبض على 3 هنود في عسير لترويجهم (63) كجم "حشيش"    باكستان: الهند أطلقت صواريخ باليستية سقطت في أراضيها    نادي القادسية يحصد ذهب ترانسفورم الشرق الأوسط وأفريقيا 2025    'التعليم' تعتمد الزي المدرسي والرياضي الجديد لطلاب المدارس    بعد تعيينها نائبًا لوزير التعليم بالمرتبة الممتازة .. من هي "إيناس بنت سليمان العيسى"    الهلال يعلن انتهاء موسم لاعبه"الشهراني" للإصابة    محمد الدغريري يكتب.. الملكي يُعاقب القارة    مشروع البحر الأحمر: أيقونة الجمال وسرعة الإنجاز    الإعلان عن أندية الدرجة الأولى الحاصلة على الرخصة المحلية    من أجل ريال مدريد.. ألونسو يُعلن موعد رحيله عن ليفركوزن    المملكة توزّع 2.000 سلة غذائية وحقيبة صحية في محافظة الحسكة السورية    أموريم يقر بأن يونايتد يستحق الانتقادات رغم وصوله لنهائي يوروبا ليغ    الدكتورة إيناس العيسى ترفع الشكر للقيادة بمناسبة تعيينها نائبًا لوزير التعليم    جوازات المدينة تستقبل أولى رحلات حجاج جيبوتي    سقوط مسبار فضائي على الأرض غدا السبت 10 مايو    إيران والردع النووي: هل القنبلة نهاية طريق أم بداية مأزق    مستشفى الطوال العام ينفذ فعالية اليوم العالمي للصحة والسلامة المهنية    النادي الأدبي بجازان يقيم برنامج ما بين العيدين الثقافي    إمام المسجد الحرام: الأمن ركيزة الإيمان ودرع الأوطان في زمن الفتن    جازان تودّع ربع قرن من البناء.. وتستقبل أفقًا جديدًا من الطموح    هلال جازان يحتفي باليوم العالمي للهلال الأحمر في "الراشد مول"    أمير منطقة الجوف يختتم زياراته التفقدية لمحافظات ومراكز المنطقة    مهرجان المانجو والفواكه الاستوائية في صبيا يشهد إقبالًا استثنائيًا في يومه الثاني    قيمة المثقف    الرياح الأربع وأحلام اليقظة    أوامر ملكية: تغييرات في إمارات المناطق وتعيينات قيادية رفيعة    الحج لله.. والسلامة للجميع    الرواية والسينما وتشكيل الهوية البصرية    اضطرابات نفسية.. خطر صادم    مرضى الكلى.. والحج    تطوير قطاع الرعاية الجلدية وتوفير أنظمة دعم للمرضى    الحجيج والهجيج    الأمير محمد بن عبدالعزيز يرفع الشكر للقيادة بمناسبة تعيينه أميرًا لمنطقة جازان    جامعة أمِّ القُرى تنظِّم الملتقى العلمي الرَّابع لطلبة المنح الدِّراسيَّة    رئاسة الشؤون الدينية تدشن أكثر من 20 مبادرة إثرائية    جامعة نايف للعلوم الأمنية تنال اعتمادا دوليا لكافة برامجها    جائزة البابطين للإبداع في خدمة اللغة العربية لمجمع الملك سلمان العالمي    15 مليون دولار مكافأة لتفكيك شبكات المليشيا.. ضربات إسرائيل الجوية تعمق أزمة الحوثيين    إحالة مواطن إلى النيابة العامة لترويجه "الحشيش"    الزهراني يحتفل بزواج ابنه أنس    تصاعد وتيرة التصعيد العسكري.. الجيش السوداني يحبط هجوماً على أكبر قاعدة بحرية    تصاعد التوترات بين البلدين.. موسكو وكييف.. هجمات متبادلة تعطل مطارات وتحرق أحياء    ضبط (4) مقيمين لارتكابهم مخالفة تجريف التربة    إنفاذًا لتوجيهات خادم الحرمين وولي العهد.. فصل التوأم الطفيلي المصري محمد عبدالرحمن    الرُّؤى والمتشهُّون    أمير تبوك يرعى حفل تخريج طلاب وطالبات جامعة فهد بن سلطان    المرأة السعودية تشارك في خدمة المستفيدين من مبادرة طريق مكة    الرياض تستضيف النسخة الأولى من منتدى حوار المدن العربية الأوروبية    رشيد حميد راعي هلا وألفين تحية    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.