Statistician (@anasbafaqeeh) 's Twitter Profile
Statistician

@anasbafaqeeh

نشر المعرفة في مجالات #الإحصاء و #علم_البيانات

ID: 559229497

calendar_today21-04-2012 05:28:44

1,1K Tweet

9,9K Followers

485 Following

الجمعية المهنية للإحصائيين وعلماء البيانات (@sa_pasds) 's Twitter Profile Photo

حرصًا من الجمعية على تقديم دورات تدريبية وورش عمل في المؤتمر الأول للجمعية السعودية للعلوم الإحصائية (الإحصاء والصحة) 📣 ندعو أعضاء الجمعية والخبراء الراغبين بتقديم برامج تدريبية ضمن محاور المؤتمر بالتواصل معنا عاجلًا عبر X خلال هذا الأسبوع ابتداءً من اليوم الأحد 12 نوفمبر 2023

حرصًا من الجمعية على تقديم دورات تدريبية وورش عمل في المؤتمر الأول للجمعية السعودية للعلوم الإحصائية (الإحصاء والصحة)

📣 ندعو أعضاء الجمعية والخبراء الراغبين بتقديم برامج تدريبية ضمن محاور المؤتمر بالتواصل معنا عاجلًا عبر X
خلال هذا الأسبوع ابتداءً من اليوم الأحد 12 نوفمبر 2023
Statistician (@anasbafaqeeh) 's Twitter Profile Photo

Granularity مصطلح يستخدم في سياق البيانات ويشير الى مستوى التفصيل وهو عكس التجميع Aggregation مثلاً يمكن جمع بيانات المبيعات يومياً ويمكن جمعها أسبوعياً أو شهرياً أو سنوياً مستوى التفصيل الأعلى، يعطي مرونة أكبر في التحليل، مثلاً يمكن حساب المبيعات الشهرية من اليومية

Granularity

مصطلح يستخدم في سياق البيانات ويشير الى مستوى التفصيل وهو عكس التجميع Aggregation

مثلاً يمكن جمع بيانات المبيعات يومياً ويمكن جمعها أسبوعياً أو شهرياً أو سنوياً 

مستوى التفصيل الأعلى، يعطي مرونة أكبر في التحليل، مثلاً يمكن حساب المبيعات الشهرية من اليومية
Statistician (@anasbafaqeeh) 's Twitter Profile Photo

معروف لدى البعض أنه يمكن التلاعب في شكل الخط البياني line chart من خلال تعديل المحور الرأسي - عندما يبدأ من الصفر أو لا كذلك يمكن التلاعب في شكل الخط البياني من خلال تعديل حجم الرسم 👇👇🤷🏻‍♂️

Statistician (@anasbafaqeeh) 's Twitter Profile Photo

كتبت صحيفتين نفس الخبر 1️⃣ "الطاقة الكهربائية متاحة ل ¾ المزارع الأمريكية …" 2️⃣ "ربع المزارع الأمريكية تفتقر للطاقة الكهربائية المتاحة …" الاولى ذكرت الجانب الإيجابي والأخرى الجانب السلبي وكلاً يخدم مصالحه والطاقة الكهربائية "المتاحة" لا تعني بالضرورة وجود كهرباء

Statistician (@anasbafaqeeh) 's Twitter Profile Photo

تسرُّب البيانات Data Leakage عندما تتم المعالجة المسبقة على البيانات قبل تقسيمها، تتسرب معلومات من بيانات الاختبار وتستخدم مع بيانات التدريب وبالتالي يكون الاداء عالي عند تطبيق النموذج على بيانات الاختبار ويتراجع الاداء بوضوح عند استخدام بيانات جديده، وهو مؤشر على حدوث التسرُّب

Statistician (@anasbafaqeeh) 's Twitter Profile Photo

#إثراء_البيانات Data Enrichment أحد إجراءات تمحيص البيانات Data Wrangling يتم فيها إضافة سياق للبيانات الأساسية مثل إضافة حقول أو بيانات خارجية للوصول إلى تحليلات أعمق ⚫️دمج بيانات الطقس + بيانات المبيعات لتحليل تأثيرها ⚫️دمج بيانات تدريب الموظفين + بيانات الاداء والانتاجية

#إثراء_البيانات Data Enrichment 

أحد إجراءات تمحيص البيانات Data Wrangling
يتم فيها إضافة سياق للبيانات الأساسية مثل إضافة حقول أو بيانات خارجية للوصول إلى تحليلات أعمق 

⚫️دمج بيانات الطقس + بيانات المبيعات لتحليل تأثيرها

⚫️دمج بيانات تدريب الموظفين + بيانات الاداء والانتاجية
Statistician (@anasbafaqeeh) 's Twitter Profile Photo

للتنبيه 🚨 هذه الطريقة خطيرة في كثير من الحالات لأنها راح تحذف الصفوف حتى لو احتوت على خلية واحدة فارغة وأحياناً يكون عندنا صفوف فيها بيانات مهمة لكن بمجرد احتواءها على خلية فارغة تُحذف لحل المشكلة ينبغي الاعتماد على عمود معرّف identifier في نفس المثال سيتم حذف الصف 5 ⬇️

للتنبيه 🚨

هذه الطريقة خطيرة في كثير من الحالات لأنها راح تحذف الصفوف حتى لو احتوت على خلية واحدة فارغة

وأحياناً يكون عندنا صفوف فيها بيانات مهمة لكن بمجرد احتواءها على خلية فارغة تُحذف

لحل المشكلة ينبغي الاعتماد على عمود معرّف identifier

في نفس المثال سيتم حذف الصف 5 ⬇️
Statistician (@anasbafaqeeh) 's Twitter Profile Photo

الجدول في الصورة يسمى جدول تكراري ثنائي Two-Way Frequency Table - كم نسبة الأولاد؟ - كم نسبة الأولاد الذين نجحوا في التصويب؟ - من الأولاد، كم نسبة الذين نجحوا في التصويب؟ ثلاثة أسئلة يمكن الإجابة عليها من الجدول. لاحظ الفرق بين السؤالين الثاني والثالث

الجدول في الصورة يسمى جدول تكراري ثنائي
Two-Way Frequency Table

- كم نسبة الأولاد؟ 
- كم نسبة الأولاد الذين نجحوا في التصويب؟
- من الأولاد، كم نسبة الذين نجحوا في التصويب؟

ثلاثة أسئلة يمكن الإجابة عليها من الجدول. لاحظ الفرق بين السؤالين الثاني والثالث
Statistician (@anasbafaqeeh) 's Twitter Profile Photo

تم بناء خط انحدار للتنبؤ بدرجة الطالب بناءً على عدد ساعات المذاكرة عدد ساعات المذاكرة لجميع الطلاب المختارين في العينة تتراوح بين ١-٦ ساعات ودرجات تحصيلهم تتراوح بين ٥٠-٩٠ درجة وفقاً لنموذج الانحدار اذا ذاكر الطالب ١٥ ساعة فسيحصل على ١٥٠ درجة من ١٠٠ Extrapolation Issue

تم بناء خط انحدار للتنبؤ بدرجة الطالب بناءً على عدد ساعات المذاكرة

عدد ساعات المذاكرة لجميع الطلاب المختارين في العينة تتراوح بين ١-٦ ساعات ودرجات تحصيلهم تتراوح بين ٥٠-٩٠ درجة 

وفقاً لنموذج الانحدار اذا ذاكر الطالب ١٥ ساعة فسيحصل على ١٥٠ درجة من ١٠٠ 

Extrapolation Issue