تقنيات لغة SQL وعلاقتها بعلوم البيانات

تقنيات لغة SQL وعلاقتها بعلوم البيانات

تقنيات لغة SQL وعلاقتها بعلوم البيانات

 

ملخص

  • SQL هي لغة يجب أن يعرفها أي شخص في التحليلات أو علوم البيانات
  • فيما يلي 8 تقنيات SQL أنيقة لتحليل البيانات سيحب متخصصو التحليلات وعلوم البيانات العمل معها

 

مقدمة

SQL هي الترس الأساسي في مستودع أسلحة متخصص في علوم البيانات.

أنا أتحدث من واقع التجربة – لا يمكنك ببساطة أن تتوقع الحصول على مهنة ناجحة في التحليلات أو علم البيانات إذا لم تكن قد اخترت SQL بعد.

 

فيما يلي سنتعرف علي تقنيات لغة SQL وعلاقتها بعلوم البيانات

ولماذا تعتبر SQL مهمة للغاية؟

مع اقترابنا من عقد جديد ، يرتفع معدل إنتاج البيانات واستهلاكها بشكل كبير يومًا بعد يوم.

لاتخاذ قرارات ذكية بناءً على البيانات ، تقوم المؤسسات في جميع أنحاء العالم بتوظيف متخصصين في البيانات مثل محللي الأعمال وعلماء البيانات لاستخراج الرؤى واكتشافها من كنز البيانات الهائل.

وأحد أهم الأدوات المطلوبة لهذا – لقد خمنت – SQL!

 

لغة الاستعلام الهيكلية (SQL) موجودة منذ عقود.

إنها لغة برمجة تستخدم لإدارة البيانات الموجودة في قواعد البيانات العلائقية.

يتم استخدام SQL في جميع أنحاء العالم من قبل غالبية الشركات الكبرى.

يمكن لمحلل البيانات استخدام SQL للوصول إلى البيانات المخزنة في قاعدة بيانات وقراءتها ومعالجتها وتحليلها وإنشاء رؤى مفيدة لدفع عملية اتخاذ القرار المستنيرة.

في هذه المقالة ، سأناقش 8 تقنيات / استعلامات SQL ستجعلك جاهزًا لأي مشاكل متقدمة في تحليل البيانات.

ضع في اعتبارك أن هذه المقالة تفترض معرفة أساسية جدًا بـ SQL.

 

لنفهم أولاً مجموعة البيانات

ما هي أفضل طريقة لتعلم تحليل البيانات؟

من خلال إجراء ذلك جنبًا إلى جنب على مجموعة بيانات! لهذا الغرض ، قمت بإنشاء مجموعة بيانات وهمية لمتجر بيع بالتجزئة.

يتم تمثيل جدول بيانات العميل بواسطة ConsumerDetails.

تتكون مجموعة البيانات الخاصة بنا من الأعمدة التالية:

الاسم – اسم المستهلك
المنطقة – مكان العميل
Total_amt_spend – إجمالي المبلغ الذي ينفقه المستهلك في المتجر
الصناعة – تعني الصناعة التي ينتمي إليها المستهلك
ملاحظة: – سأستخدم MySQL 5.7 للمضي قدمًا في المقالة.

يمكنك تنزيله من هنا – My SQL

5.7 Downloads.

 

تقنية SQL # 1 – عد الصفوف والعناصر

وظيفة العد

سنبدأ تحليلنا بأبسط استعلام ، أي حساب عدد الصفوف في جدولنا.

سنفعل ذلك باستخدام الوظيفة – COUNT ().

1.-count
1.-count

 

عظيم! الآن نحن نعرف عدد الصفوف في طاولتنا وهو 10.

قد يبدو الأمر مضحكًا باستخدام هذه الوظيفة في مجموعة بيانات اختبار صغيرة ولكنها يمكن أن تساعد كثيرًا عندما تصل صفوفك إلى الملايين!

 

  • وظيفة مميزة

في كثير من الأحيان ، يتم ملء جدول البيانات لدينا بقيم مكررة. لتحقيق القيمة الفريدة ، نستخدم وظيفة DISTINCT.

كذلك في مجموعة البيانات الخاصة بنا ، كيف يمكننا العثور على الصناعات الفريدة التي ينتمي إليها العملاء؟

لقد خمنت ذلك بشكل صحيح. يمكننا القيام بذلك باستخدام وظيفة DISTINCT.

2.-distinct-300x151
2.-distinct-300×151

 

يمكنك حتى حساب عدد الصفوف الفريدة باستخدام العد مع التمييز. يمكنك الرجوع إلى الاستعلام أدناه:

 

3.-countdistinct
3.-countdistinct

 

تقنية SQL # 2 – وظائف التجميع

وظائف التجميع هي الأساس لأي نوع من تحليل البيانات. يزودوننا بنظرة عامة على مجموعة البيانات. بعض الوظائف التي سنناقشها هي – SUM () و AVG () و STDDEV ().

  • احسب المجموع

نستخدم الدالة SUM () لحساب مجموع العمود العددي في الجدول.

لنكتشف مجموع المبلغ الذي أنفقه كل عميل:

4.-sum
4.-sum

 

في المثال أعلاه ، sum_all هو المتغير الذي يتم فيه تخزين قيمة المجموع. مجموع المبلغ الذي ينفقه المستهلكون هو روبية. 12.560.

 

  • احسب المتوسط

لحساب متوسط الأعمدة الرقمية ، نستخدم وظيفة AVG (). لنجد متوسط إنفاق المستهلكين على متجر البيع بالتجزئة الخاص بنا:

5.-avg
5.-avg

 

متوسط المبلغ الذي ينفقه العملاء في متجر البيع بالتجزئة هو روبية. 1256.

  • احسب الانحراف المعياري

إذا نظرت إلى مجموعة البيانات ثم متوسط قيمة الإنفاق من قبل المستهلكين ، فستلاحظ أن هناك شيئًا مفقودًا.

لا يقدم المتوسط الصورة الكاملة تمامًا ، لذلك دعونا نجد مقياسًا مهمًا آخر – الانحراف المعياري. الوظيفة هي STDDEV ().

 

الانحراف المعياري هو 829.7 مما يعني وجود تفاوت كبير بين نفقات المستهلكين!

 

تقنية SQL # 3 – تحديد القيمة القصوى

النوع التالي من التحليل هو تحديد القيم القصوى التي ستساعدك على فهم البيانات بشكل أفضل.

 

  • الأعلى

يمكن تحديد الحد الأقصى للقيمة الرقمية باستخدام دالة MAX (). دعونا نرى كيفية تطبيقه:.

 

الحد الأقصى للمبلغ الذي ينفقه المستهلك في متجر البيع بالتجزئة هو روبية. 3000.

 

  • MIN

على غرار دالة max ، لدينا وظيفة MIN () لتحديد الحد الأدنى للقيمة الرقمية في عمود معين:

 

MIN
MIN

 

الحد الأدنى للمبلغ الذي ينفقه مستهلك متجر البيع بالتجزئة هو روبية. 350.

 

تقنية SQL # 4 – تشريح البيانات

  • الآن ، دعونا نركز على أحد أهم أجزاء تحليل البيانات – تشريح البيانات. سيشكل هذا القسم من التحليل الأساس للاستعلامات المتقدمة ويساعدك على استرداد البيانات بناءً على نوع من الشروط.

لنفترض أن متجر البيع بالتجزئة يريد العثور على العملاء القادمين من منطقة ، وتحديدًا Shakti Nagar و Shanti Vihar. ماذا سيكون الاستعلام عن هذا؟

9.-filter-locality
9.-filter-locality

 

رائع ، لدينا 3 عملاء! لقد استخدمنا بند WHERE لتصفية البيانات بناءً على شرط أن يعيش المستهلكون في المنطقة المحلية – Shakti Nagar و Shanti Vihar.

لم أستخدم شرط OR هنا.

بدلاً من ذلك ، استخدمت عامل التشغيل IN الذي يسمح لنا بتحديد قيم متعددة في جملة WHERE.

كذلك نحتاج إلى العثور على العملاء الذين يعيشون في مناطق محددة (Shakti Nagar و Shanti Vihar) وإنفاق مبلغ أكبر من Rs. 2000.

10-filter-locality2
10-filter-locality2

 

في مجموعة البيانات الخاصة بنا ، لا يفي بهذه الشروط إلا شانتانو وناتاشا.

لذلك نظرًا لأنه يجب استيفاء كلا الشرطين ، فإن الشرط AND هو الأنسب هنا.

أيضا دعنا نتحقق من مثال آخر لتقسيم بياناتنا.

هذه المرة يريد متجر البيع بالتجزئة استرداد جميع المستهلكين الذين ينفقون بين روبية. 1000 روبية. 2000 لدفع عروض التسويق الخاصة.

ماذا سيكون الاستعلام عن هذا؟

11.-filter-total_amt_spend
11.-filter-total_amt_spend

 

هناك طريقة أخرى لكتابة نفس العبارة وهي:

12.-filter-total_amt_spend2
12.-filter-total_amt_spend2

 

روهان فقط هو من يزيل هذه المعايير!

عظيم! لقد وصلنا إلى منتصف الطريق في رحلتنا. دعونا نبني أكثر على المعرفة التي اكتسبناها حتى الآن.

 

تقنية SQL # 5 – تحديد البيانات

 

  • LIMIT

لنفترض أننا نريد عرض جدول البيانات المكون من ملايين السجلات.

لا يمكننا استخدام عبارة SELECT مباشرة لأن هذا سيؤدي إلى تفريغ الجدول الكامل على شاشتنا وهو أمر مرهق ومكثف من الناحية الحسابية.

بدلاً من ذلك ، يمكننا استخدام جملة LIMIT:

14.-limit
14.-limit

 

يساعدنا أمر SQL أعلاه في إظهار أول 5 صفوف من الجدول.

 

  • OFFSET

ماذا ستفعل إذا كنت تريد فقط تحديد الصفين الرابع والخامس فقط؟

سوف نستفيد من بند OFFSET.

ستتخطى جملة OFFSET عدد الصفوف المحدد.

لذلك دعونا نرى كيف يعمل:

15.-offset-with-limit
15.-offset-with-limit

 

تقنية SQL # 6 – فرز البيانات

كذلك يساعدنا فرز البيانات على وضع بياناتنا في منظورها الصحيح.

أيضا يمكننا إجراء عملية الفرز باستخدام الكلمة الأساسية – ORDER BY.

 

  • ترتيب حسب

يمكن استخدام الكلمة الأساسية لفرز البيانات بترتيب تصاعدي أو تنازلي.

كذلك تقوم الكلمة الأساسية ORDER BY بفرز البيانات بترتيب تصاعدي افتراضيًا.

أيضا دعنا نرى مثالاً حيث نقوم بفرز البيانات وفقًا للعمود Total_amt_spend بترتيب تصاعدي:

 

تقنية SQL # 7 – أنماط التصفية

في الأقسام السابقة ، تعلمنا كيفية تصفية البيانات بناءً على شرط واحد أو عدة شروط.

هنا ، سنتعلم كيفية تصفية الأعمدة التي تطابق نمطًا محددًا.

أيضا للمضي قدمًا في هذا الأمر ، سوف نفهم أولاً عامل التشغيل LIKE وأحرف البدل.

 

  • مثل العامل

يتم استخدام عامل التشغيل LIKE في جملة WHERE للبحث عن نمط محدد في عمود.

  • أحرف البدل

كذلك يتم استخدام أحرف البدل لاستبدال حرف واحد أو أكثر في سلسلة.

أيضا يتم استخدامها مع عامل التشغيل LIKE.

أكثر حرفين البدل شيوعًا هما:

 

  • ٪ – يمثل 0 أو أكثر من عدد الأحرف
  • _ – يمثل حرفًا واحدًا

في مجموعة بيانات البيع بالتجزئة الوهمية الخاصة بنا ، أيضا لنفترض أننا نريد جميع المناطق المحلية التي تنتهي بـ “Nagar”.

لذلك توقف لحظة لفهم بيان المشكلة وفكر في كيفية حلها.

دعونا نحاول حل المشكلة.

نحن نطلب كل المواقع التي تنتهي بـ “Nagar” ويمكن أن تحتوي على أي عدد من الأحرف قبل هذه السلسلة المعينة.

لذلك ، يمكننا الاستفادة من حرف البدل “٪” قبل “Nagar”:

18.-filter_pattern1
18.-filter_pattern1

 

رائع ، لدينا 6 مواقع تنتهي بهذا الاسم.

كذلك لاحظ أننا نستخدم عامل التشغيل LIKE لإجراء مطابقة النمط.

بعد ذلك ، سنحاول حل مشكلة أخرى قائمة على النمط. أيضا نريد أسماء المستهلكين الذين يكون حرفهم الثاني “أ” في أسمائهم الخاصة.

لذلك مرة أخرى ، أود أن أقترح عليك قضاء بعض الوقت لفهم المشكلة والتفكير في منطق لحلها.

دعونا نحلل المشكلة.

أيضا هنا ، يجب أن تكون الشخصية الثانية “أ”. يمكن أن يكون الحرف الأول أي شيء ، لذلك نستبدل هذا الحرف بحرف البدل “_”.

بعد الحرف الثاني ، يمكن أن يكون هناك أي عدد من الأحرف لذلك نستبدل هذه الأحرف بحرف البدل “٪”. ستبدو مطابقة النمط النهائية كما يلي:

19.-filter_pattern2
19.-filter_pattern2

 

لدينا 6 أشخاص يرضون هذه الحالة الغريبة!

 

تقنية SQL # 8 – التجميعات ، تجميع البيانات والتصفية في مجموعات

لقد توصلنا أخيرًا إلى واحدة من أقوى أدوات التحليل في SQL – كذلك تجميع البيانات التي يتم إجراؤها باستخدام عبارة GROUP BY.

أيضا إن التطبيق الأكثر فائدة لهذا البيان هو إيجاد توزيع المتغيرات الفئوية.

كذلك يتم ذلك باستخدام عبارة GROUP BY جنبًا إلى جنب مع وظائف التجميع مثل – COUNT و SUM و AVG وما إلى ذلك.

لذلك دعونا نحاول فهم هذا بشكل أفضل من خلال تناول بيان المشكلة.

يريد متجر البيع بالتجزئة العثور على عدد العملاء المطابق للصناعات التي ينتمون إليها:

20.-groupby1
20.-groupby1

 

أيضا نلاحظ أن عدد العملاء الذين ينتمون إلى الصناعات المختلفة هو نفسه إلى حد ما.

لذلك ، دعونا نمضي قدمًا ونجد إجمالي إنفاق العملاء مجمعين حسب الصناعة التي ينتمون إليها:

21.-groupby2
21.-groupby2

 

يمكننا أن نلاحظ أن الحد الأقصى للمبلغ الذي يتم إنفاقه هو من قبل العملاء الذين ينتمون إلى الصناعة التحويلية.

هذا يبدو سهلا قليلا ، أليس كذلك؟

لذلك دعونا نتقدم خطوة إلى الأمام ونجعلها أكثر تعقيدًا.

الآن ، يريد بائع التجزئة العثور على الصناعات التي يزيد مجموعها الإجمالي عن 2500.

لحل هذه المشكلة ، سنقوم مرة أخرى بالتجميع حسب البيانات وفقًا للصناعة ثم نستخدم شرط HAVING.

 

  • HAVING

تعتبر عبارة HAVING مثل جملة WHERE ولكن فقط لتصفية البيانات المجمعة حسب البيانات.

تذكر أنه سيأتي دائمًا بعد عبارة GROUP BY.

22.-groupby-3
22.-groupby-3

 

كذلك لدينا 3 فئات فقط تفي بالشروط – الطيران والدفاع والتصنيع.

ولكن لجعل الأمر أكثر وضوحًا ، سأضيف أيضًا الكلمة الأساسية ORDER BY لجعلها أكثر سهولة:

23.-groupby4
23.-groupby4

 

ملاحظات النهاية

أنا سعيد حقًا لأنك فعلتها حتى الآن وقرأت مقالتنا (تقنيات لغة SQL وعلاقتها بعلوم البيانات).

هذه هي اللبنات الأساسية لجميع استعلامات تحليل البيانات في SQL.

كذلك يمكنك أيضًا قبول الاستعلامات المتقدمة باستخدام هذه الأساسيات.

أيضا في هذه المقالة تقنيات لغة SQL وعلاقتها بعلوم البيانات ، استخدمت MySQL 5.7 لإنشاء الأمثلة.

آمل حقًا أن تساعدك استعلامات SQL هذه في حياتك اليومية عندما تقوم بتحليل البيانات المعقدة.

هل لديك أي من النصائح والحيل الخاصة بك لتحليل البيانات في SQL؟

اسمحوا لي أن نعرف في التعليقات!

أيضا للمزيد من المقالات الاحترافية اقرأ في سلسلة مقالات لغة البرمجة SQL t في مدونة twiintech

لدينا فريق من المهندسين المختصين في لغات البرمجة وقواعد البيانات اطلب الخدمة الاحترافية الان

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.