تقنيات لغة SQL وعلاقتها بعلوم البيانات
تقنيات لغة SQL وعلاقتها بعلوم البيانات
تقنيات لغة SQL وعلاقتها بعلوم البيانات
ملخص
- SQL هي لغة يجب أن يعرفها أي شخص في التحليلات أو علوم البيانات
- فيما يلي 8 تقنيات SQL أنيقة لتحليل البيانات سيحب متخصصو التحليلات وعلوم البيانات العمل معها
مقدمة
SQL هي الترس الأساسي في مستودع أسلحة متخصص في علوم البيانات.
أنا أتحدث من واقع التجربة – لا يمكنك ببساطة أن تتوقع الحصول على مهنة ناجحة في التحليلات أو علم البيانات إذا لم تكن قد اخترت SQL بعد.
فيما يلي سنتعرف علي تقنيات لغة SQL وعلاقتها بعلوم البيانات
ولماذا تعتبر SQL مهمة للغاية؟
مع اقترابنا من عقد جديد ، يرتفع معدل إنتاج البيانات واستهلاكها بشكل كبير يومًا بعد يوم.
لاتخاذ قرارات ذكية بناءً على البيانات ، تقوم المؤسسات في جميع أنحاء العالم بتوظيف متخصصين في البيانات مثل محللي الأعمال وعلماء البيانات لاستخراج الرؤى واكتشافها من كنز البيانات الهائل.
وأحد أهم الأدوات المطلوبة لهذا – لقد خمنت – SQL!
لغة الاستعلام الهيكلية (SQL) موجودة منذ عقود.
إنها لغة برمجة تستخدم لإدارة البيانات الموجودة في قواعد البيانات العلائقية.
يتم استخدام SQL في جميع أنحاء العالم من قبل غالبية الشركات الكبرى.
يمكن لمحلل البيانات استخدام SQL للوصول إلى البيانات المخزنة في قاعدة بيانات وقراءتها ومعالجتها وتحليلها وإنشاء رؤى مفيدة لدفع عملية اتخاذ القرار المستنيرة.
في هذه المقالة ، سأناقش 8 تقنيات / استعلامات SQL ستجعلك جاهزًا لأي مشاكل متقدمة في تحليل البيانات.
ضع في اعتبارك أن هذه المقالة تفترض معرفة أساسية جدًا بـ SQL.
لنفهم أولاً مجموعة البيانات
ما هي أفضل طريقة لتعلم تحليل البيانات؟
من خلال إجراء ذلك جنبًا إلى جنب على مجموعة بيانات! لهذا الغرض ، قمت بإنشاء مجموعة بيانات وهمية لمتجر بيع بالتجزئة.
يتم تمثيل جدول بيانات العميل بواسطة ConsumerDetails.
تتكون مجموعة البيانات الخاصة بنا من الأعمدة التالية:
الاسم – اسم المستهلك
المنطقة – مكان العميل
Total_amt_spend – إجمالي المبلغ الذي ينفقه المستهلك في المتجر
الصناعة – تعني الصناعة التي ينتمي إليها المستهلك
ملاحظة: – سأستخدم MySQL 5.7 للمضي قدمًا في المقالة.
يمكنك تنزيله من هنا – My SQL
تقنية SQL # 1 – عد الصفوف والعناصر
وظيفة العد
سنبدأ تحليلنا بأبسط استعلام ، أي حساب عدد الصفوف في جدولنا.
سنفعل ذلك باستخدام الوظيفة – COUNT ().
عظيم! الآن نحن نعرف عدد الصفوف في طاولتنا وهو 10.
قد يبدو الأمر مضحكًا باستخدام هذه الوظيفة في مجموعة بيانات اختبار صغيرة ولكنها يمكن أن تساعد كثيرًا عندما تصل صفوفك إلى الملايين!
-
وظيفة مميزة
في كثير من الأحيان ، يتم ملء جدول البيانات لدينا بقيم مكررة. لتحقيق القيمة الفريدة ، نستخدم وظيفة DISTINCT.
كذلك في مجموعة البيانات الخاصة بنا ، كيف يمكننا العثور على الصناعات الفريدة التي ينتمي إليها العملاء؟
لقد خمنت ذلك بشكل صحيح. يمكننا القيام بذلك باستخدام وظيفة DISTINCT.
يمكنك حتى حساب عدد الصفوف الفريدة باستخدام العد مع التمييز. يمكنك الرجوع إلى الاستعلام أدناه:
تقنية SQL # 2 – وظائف التجميع
وظائف التجميع هي الأساس لأي نوع من تحليل البيانات. يزودوننا بنظرة عامة على مجموعة البيانات. بعض الوظائف التي سنناقشها هي – SUM () و AVG () و STDDEV ().
-
احسب المجموع
نستخدم الدالة SUM () لحساب مجموع العمود العددي في الجدول.
لنكتشف مجموع المبلغ الذي أنفقه كل عميل:
في المثال أعلاه ، sum_all هو المتغير الذي يتم فيه تخزين قيمة المجموع. مجموع المبلغ الذي ينفقه المستهلكون هو روبية. 12.560.
-
احسب المتوسط
لحساب متوسط الأعمدة الرقمية ، نستخدم وظيفة AVG (). لنجد متوسط إنفاق المستهلكين على متجر البيع بالتجزئة الخاص بنا:
متوسط المبلغ الذي ينفقه العملاء في متجر البيع بالتجزئة هو روبية. 1256.
-
احسب الانحراف المعياري
إذا نظرت إلى مجموعة البيانات ثم متوسط قيمة الإنفاق من قبل المستهلكين ، فستلاحظ أن هناك شيئًا مفقودًا.
لا يقدم المتوسط الصورة الكاملة تمامًا ، لذلك دعونا نجد مقياسًا مهمًا آخر – الانحراف المعياري. الوظيفة هي STDDEV ().
الانحراف المعياري هو 829.7 مما يعني وجود تفاوت كبير بين نفقات المستهلكين!
تقنية SQL # 3 – تحديد القيمة القصوى
النوع التالي من التحليل هو تحديد القيم القصوى التي ستساعدك على فهم البيانات بشكل أفضل.
-
الأعلى
يمكن تحديد الحد الأقصى للقيمة الرقمية باستخدام دالة MAX (). دعونا نرى كيفية تطبيقه:.
الحد الأقصى للمبلغ الذي ينفقه المستهلك في متجر البيع بالتجزئة هو روبية. 3000.
-
MIN
على غرار دالة max ، لدينا وظيفة MIN () لتحديد الحد الأدنى للقيمة الرقمية في عمود معين:
الحد الأدنى للمبلغ الذي ينفقه مستهلك متجر البيع بالتجزئة هو روبية. 350.
تقنية SQL # 4 – تشريح البيانات
- الآن ، دعونا نركز على أحد أهم أجزاء تحليل البيانات – تشريح البيانات. سيشكل هذا القسم من التحليل الأساس للاستعلامات المتقدمة ويساعدك على استرداد البيانات بناءً على نوع من الشروط.
لنفترض أن متجر البيع بالتجزئة يريد العثور على العملاء القادمين من منطقة ، وتحديدًا Shakti Nagar و Shanti Vihar. ماذا سيكون الاستعلام عن هذا؟
رائع ، لدينا 3 عملاء! لقد استخدمنا بند WHERE لتصفية البيانات بناءً على شرط أن يعيش المستهلكون في المنطقة المحلية – Shakti Nagar و Shanti Vihar.
لم أستخدم شرط OR هنا.
بدلاً من ذلك ، استخدمت عامل التشغيل IN الذي يسمح لنا بتحديد قيم متعددة في جملة WHERE.
كذلك نحتاج إلى العثور على العملاء الذين يعيشون في مناطق محددة (Shakti Nagar و Shanti Vihar) وإنفاق مبلغ أكبر من Rs. 2000.
في مجموعة البيانات الخاصة بنا ، لا يفي بهذه الشروط إلا شانتانو وناتاشا.
لذلك نظرًا لأنه يجب استيفاء كلا الشرطين ، فإن الشرط AND هو الأنسب هنا.
أيضا دعنا نتحقق من مثال آخر لتقسيم بياناتنا.
هذه المرة يريد متجر البيع بالتجزئة استرداد جميع المستهلكين الذين ينفقون بين روبية. 1000 روبية. 2000 لدفع عروض التسويق الخاصة.
ماذا سيكون الاستعلام عن هذا؟
هناك طريقة أخرى لكتابة نفس العبارة وهي:
روهان فقط هو من يزيل هذه المعايير!
عظيم! لقد وصلنا إلى منتصف الطريق في رحلتنا. دعونا نبني أكثر على المعرفة التي اكتسبناها حتى الآن.
تقنية SQL # 5 – تحديد البيانات
-
LIMIT
لنفترض أننا نريد عرض جدول البيانات المكون من ملايين السجلات.
لا يمكننا استخدام عبارة SELECT مباشرة لأن هذا سيؤدي إلى تفريغ الجدول الكامل على شاشتنا وهو أمر مرهق ومكثف من الناحية الحسابية.
بدلاً من ذلك ، يمكننا استخدام جملة LIMIT:
يساعدنا أمر SQL أعلاه في إظهار أول 5 صفوف من الجدول.
-
OFFSET
ماذا ستفعل إذا كنت تريد فقط تحديد الصفين الرابع والخامس فقط؟
سوف نستفيد من بند OFFSET.
ستتخطى جملة OFFSET عدد الصفوف المحدد.
لذلك دعونا نرى كيف يعمل:
تقنية SQL # 6 – فرز البيانات
كذلك يساعدنا فرز البيانات على وضع بياناتنا في منظورها الصحيح.
أيضا يمكننا إجراء عملية الفرز باستخدام الكلمة الأساسية – ORDER BY.
-
ترتيب حسب
يمكن استخدام الكلمة الأساسية لفرز البيانات بترتيب تصاعدي أو تنازلي.
كذلك تقوم الكلمة الأساسية ORDER BY بفرز البيانات بترتيب تصاعدي افتراضيًا.
أيضا دعنا نرى مثالاً حيث نقوم بفرز البيانات وفقًا للعمود Total_amt_spend بترتيب تصاعدي:
تقنية SQL # 7 – أنماط التصفية
في الأقسام السابقة ، تعلمنا كيفية تصفية البيانات بناءً على شرط واحد أو عدة شروط.
هنا ، سنتعلم كيفية تصفية الأعمدة التي تطابق نمطًا محددًا.
أيضا للمضي قدمًا في هذا الأمر ، سوف نفهم أولاً عامل التشغيل LIKE وأحرف البدل.
-
مثل العامل
يتم استخدام عامل التشغيل LIKE في جملة WHERE للبحث عن نمط محدد في عمود.
-
أحرف البدل
كذلك يتم استخدام أحرف البدل لاستبدال حرف واحد أو أكثر في سلسلة.
أيضا يتم استخدامها مع عامل التشغيل LIKE.
أكثر حرفين البدل شيوعًا هما:
- ٪ – يمثل 0 أو أكثر من عدد الأحرف
- _ – يمثل حرفًا واحدًا
في مجموعة بيانات البيع بالتجزئة الوهمية الخاصة بنا ، أيضا لنفترض أننا نريد جميع المناطق المحلية التي تنتهي بـ “Nagar”.
لذلك توقف لحظة لفهم بيان المشكلة وفكر في كيفية حلها.
دعونا نحاول حل المشكلة.
نحن نطلب كل المواقع التي تنتهي بـ “Nagar” ويمكن أن تحتوي على أي عدد من الأحرف قبل هذه السلسلة المعينة.
لذلك ، يمكننا الاستفادة من حرف البدل “٪” قبل “Nagar”:
رائع ، لدينا 6 مواقع تنتهي بهذا الاسم.
كذلك لاحظ أننا نستخدم عامل التشغيل LIKE لإجراء مطابقة النمط.
بعد ذلك ، سنحاول حل مشكلة أخرى قائمة على النمط. أيضا نريد أسماء المستهلكين الذين يكون حرفهم الثاني “أ” في أسمائهم الخاصة.
لذلك مرة أخرى ، أود أن أقترح عليك قضاء بعض الوقت لفهم المشكلة والتفكير في منطق لحلها.
دعونا نحلل المشكلة.
أيضا هنا ، يجب أن تكون الشخصية الثانية “أ”. يمكن أن يكون الحرف الأول أي شيء ، لذلك نستبدل هذا الحرف بحرف البدل “_”.
بعد الحرف الثاني ، يمكن أن يكون هناك أي عدد من الأحرف لذلك نستبدل هذه الأحرف بحرف البدل “٪”. ستبدو مطابقة النمط النهائية كما يلي:
لدينا 6 أشخاص يرضون هذه الحالة الغريبة!
تقنية SQL # 8 – التجميعات ، تجميع البيانات والتصفية في مجموعات
لقد توصلنا أخيرًا إلى واحدة من أقوى أدوات التحليل في SQL – كذلك تجميع البيانات التي يتم إجراؤها باستخدام عبارة GROUP BY.
أيضا إن التطبيق الأكثر فائدة لهذا البيان هو إيجاد توزيع المتغيرات الفئوية.
كذلك يتم ذلك باستخدام عبارة GROUP BY جنبًا إلى جنب مع وظائف التجميع مثل – COUNT و SUM و AVG وما إلى ذلك.
لذلك دعونا نحاول فهم هذا بشكل أفضل من خلال تناول بيان المشكلة.
يريد متجر البيع بالتجزئة العثور على عدد العملاء المطابق للصناعات التي ينتمون إليها:
أيضا نلاحظ أن عدد العملاء الذين ينتمون إلى الصناعات المختلفة هو نفسه إلى حد ما.
لذلك ، دعونا نمضي قدمًا ونجد إجمالي إنفاق العملاء مجمعين حسب الصناعة التي ينتمون إليها:
يمكننا أن نلاحظ أن الحد الأقصى للمبلغ الذي يتم إنفاقه هو من قبل العملاء الذين ينتمون إلى الصناعة التحويلية.
هذا يبدو سهلا قليلا ، أليس كذلك؟
لذلك دعونا نتقدم خطوة إلى الأمام ونجعلها أكثر تعقيدًا.
الآن ، يريد بائع التجزئة العثور على الصناعات التي يزيد مجموعها الإجمالي عن 2500.
لحل هذه المشكلة ، سنقوم مرة أخرى بالتجميع حسب البيانات وفقًا للصناعة ثم نستخدم شرط HAVING.
-
HAVING
تعتبر عبارة HAVING مثل جملة WHERE ولكن فقط لتصفية البيانات المجمعة حسب البيانات.
تذكر أنه سيأتي دائمًا بعد عبارة GROUP BY.
كذلك لدينا 3 فئات فقط تفي بالشروط – الطيران والدفاع والتصنيع.
ولكن لجعل الأمر أكثر وضوحًا ، سأضيف أيضًا الكلمة الأساسية ORDER BY لجعلها أكثر سهولة:
ملاحظات النهاية
أنا سعيد حقًا لأنك فعلتها حتى الآن وقرأت مقالتنا (تقنيات لغة SQL وعلاقتها بعلوم البيانات).
هذه هي اللبنات الأساسية لجميع استعلامات تحليل البيانات في SQL.
كذلك يمكنك أيضًا قبول الاستعلامات المتقدمة باستخدام هذه الأساسيات.
أيضا في هذه المقالة تقنيات لغة SQL وعلاقتها بعلوم البيانات ، استخدمت MySQL 5.7 لإنشاء الأمثلة.
آمل حقًا أن تساعدك استعلامات SQL هذه في حياتك اليومية عندما تقوم بتحليل البيانات المعقدة.
هل لديك أي من النصائح والحيل الخاصة بك لتحليل البيانات في SQL؟
اسمحوا لي أن نعرف في التعليقات!
أيضا للمزيد من المقالات الاحترافية اقرأ في سلسلة مقالات لغة البرمجة SQL t في مدونة twiintech
لدينا فريق من المهندسين المختصين في لغات البرمجة وقواعد البيانات اطلب الخدمة الاحترافية الان