سلسلة علوم الحاسوب (9) كيف تحفظ الحواسب كل هذه البيانات؟

0 302

إذا كنت من المهتمين بآخر التّقنيّات التي تنتشر بسرعةٍ مؤخرًا، لا بدّ وأنك قد تساءلت يومًا عن كيفيّة تخزين البيانات التي تتولّد يوميًّا من كل هذه العمليات الرَّقميًّة وعمليات الإرسال أو الاستقبال عبر وسائل التَّواصل الاجتماعيّ. والبيانات التي تنتجها الأنظمة وأجهزة الاستشعار والأجهزة النَّقالة؟ وكيفيَّة معالجتها؟ وما مصدر نظم التنبؤ وخوارزميّات الذَّكاء الصِّناعيّ في اتخاذ قراراتها؟

وهنا عليك التَّعرف على قاعدة البيانات «Database»، وهي مجموعةٌ من البيانات المخزّنة في النِّظام الحاسوبيّ، بحيث يمكن للمستخدمين الدّخول والوصول لبياناتهم وتحليلها بسرعةٍ وسهولةٍ بالاعتماد على نظام إدارة الملفات «DBMS».

لكن مهلًا، لقد كنت تتعامل مع هذه الأداة المفيدة طوال الوقت، هل تتذكر عندما كنت تنتظر في غرفة الاستقبال الخاصّة بالطبيب وأدخل موظف الاستقبال معلوماتك الشَّخصيّة إلى جهاز الكومبيوتر مثلاً، أو عندما تأكّد موظف المخزن من وجود عنصرٍ ما في المستودع؟

إذا حدث ذلك الأمر معك سابقًا، فإنك قد رأيت قاعدة بياناتٍ تعمل فعلًا.

الطريقة الأسهل لفهم قواعد البيانات هي أن تفكّر بها على أنها مجموعةٌ من القوائم، لنعد إلى قاعدة البيانات التي ذكرناها آنفًا، والخاصّة بمعلومات المرضى لدى مكتب الطبيب، ما هي القوائم المحتملة في قاعدة بياناتٍ كتلك؟

ربما ستفكّر بدايةً بقائمةٍ من أسماء المرضى وقائمةٍ بالمواعيد السابقة له وقائمةٍ بالتاريخ الصِّحي وأخرى عن معلومات الاتصال الخاصَّة به وهكذا…

ما فكّرت به سينطبق على كلّ قواعد البيانات بدءًا من أبسطها وحتى أعقدها، ويُعتبر برنامج «Microsoft Access» الشهير برنامجًا لإنشاء وإدارة قواعد البيانات، ولفهمه عليك أولًا فهم قواعد البيانات.

طالما قواعد البيانات أساسًا هي مجموعةٌ من القوائم المخزّنة ضمن جداول وبإمكانك بناء الجداول باستخدام برنامج «Excel» مثلًا، لم سنحتاج لقاعدة بياناتٍ حقيقيّةٍ بالدرجة الأولى؟

حسنًا، برنامج «Excel» يعتبر مثاليًّا في التعامل مع الأرقام لكن ماذا عن القيم والبيانات غير العدديّة كالأسماء والتَّوصيف، فهذه القيم تلعب دورًا هامًّا في معظم قواعد البيانات الحاليّة وتُعتبر ذات أهميةٍ كونها ضروريةً في العديد من عمليات الفرز والتَّحليل.

كما يُعتقَد بأن الجزء الهام ّالذي يميّز قاعدة البيانات عن غيرها هو طريقة الربط، وتُسمّى قاعدة البيانات التي نتعامل معها في برنامج «Access» بقاعدة البيانات ذات الصلة «relational database» إذ أنها قادرةٌ على فهم طريقة ربط القوائم والأغراض بداخلها مع بعضها البعض.

لكن مع الأحجام الكبيرة والمتزايدة للبيانات، وتحويل المحتوى التناظري إلى رقمي وجمع الكثير والكثير من البيانات من سجلات الويب والأجهزة النَّقالة وأجهزة الاستشعار ومناقلات الشركات، تقدر شركة «IBM» أن 90% من البيانات في العالم اليوم أُنشئت خلال العامين الماضيين فقط،

الكثير من هذه البيانات يكون بشكلٍ غير منظَّمٍ، ممّا يجعل من الصَّعب تنظيمه في جداول من صفوفٍ وأعمدةٍ. وهنا ظهرت الحاجة الملحة لتنظيم هذا الحجم الهائل من البيانات واستخلاص النتائج منها باستخدام طرقٍ أحدث، إذ يمكننا الآن بالاعتماد على علوم البيانات «Data science» ونظم استخراج البيانات «Data mining»، تحديد أنماط وسلوك البيانات الضَّخمة «Big data»، الأمر الذي يعمّق فهمنا للظواهر انطلاقاً من النّظم الفيزيائيّة والبيولوجيّة وحتى السلوك الاجتماعي والاقتصاديّ البشريّ.

يهتّم علم البيانات بالكشف عن النتائج من خلال التعمق بالبيانات لفهم السُّلوكيات المعقَّدة والتَّوصّل إلى استنتاجاتٍ يمكن أن تساعد في اتخاذ قراراتٍ أكثر ذكاء، ولاستخراج نتائج من البيانات المعقّدة، غالبًا ما تعتمد مشاريع البيانات الكبيرة على أحدث التّحليلات في علم البيانات والتعلّم الآلّي.

أجهزة الحواسيب التي تعمل على خوارزمياتٍ متطوّرة يمكن أن تساعد في تأمين سلامة المعلومات عن طريق التخلّص من التشويش الناتج عن تنوّع وحجم وسرعة البيانات الضَّخمة.

أما إيجاد تعريفٍ دقيقٍ للبيانات الضخمة أو الكبيرة يبدو صعبًا إذ يختلف باختلاف المشاريع ورجال الأعمال. أما عمومًا فيمكن اعتبار البيانات الكبيرة قاعدة بياناتٍ ضخمةٍ لا يمكن معالجتها أو تخزينها باستخدام الأدوات التقليديّة، على حاسبٍ واحدٍ، وغالبًا ما تعتمد على استراتيجيات النّظم الموزعة.

أما الخطوات الأساسيَّة في العمليات على البيانات الكبيرة هي:

·      استيعاب البيانات في النظام.

يعتمد تعقيد عملية أخذ البيانات الخام وإضافتها إلى النظام على شكل ونوعيّة مصدر البيانات ومدى ملاءمة حالة البيانات مع الحالة المطلوبة قبل البدء بالمعالجة. إحدى طرق الإضافة إلى نظم البيانات الكبيرة تكون باستخدام أدواتٍ خاصّةٍ. تقنيات مثل «Apache Sqoop» حيث يمكن أن تأخذ البيانات الموجودة من قواعد البيانات ذات الصلة وإضافتها إلى نظم البيانات الكبيرة.

·      تخزين البيانات بشكلٍ دائمٍ.

العمليات السَّابقة عادةً عبارةٌ عن تسليم البيانات إلى المكوّنات التي تدير التَّخزين، بحيث تُخزَّن بشكلٍ موثوقٍ في الذاكرة. وعلى الرغم من أن ذلك يبدو بسيطًا، فإن حجم البيانات الواردة ومتطلّبات التَّوافر الدَّائم والحوسبة الموزَّعة تجعل من وجود نظم التخزين المعقّدة أمرًا ضروريًّا.

نظم الملفات مثل نظام ملفات «Apache Hadoop» الموزّع تسمح بكتابة كمياتٍ كبيرةٍ من البيانات على العديد من العقد ضمن العنقود.

·      عمليات الحساب وتحليل البيانات.

بمجرّد توافر البيانات، يمكن أن يبدأ النِّظام في معالجة البيانات.

وربما تكون عملية الحساب هي الجزء الأكثر تنوّعًا في النّظام، كما يمكن أن تختلف الطرق اختلافًا كبيرًا. وغالبًا ما تُعالج البيانات بشكلٍ متكرّرٍ، إما بواسطة أداةٍ واحدةٍ أو باستخدام عدّة أدوات.

·      تمثيل النتائج.

نظرًا لنوع المعلومات التي يجري معالجتها في نظم البيانات الضَّخمة، فإن مراقبة التَّغيّرات ضمن البيانات مع مرور الوقت غالبًا ما يكون أكثر أهميّةً من البيانات نفسها.

ويُعتبر تجسيد وتمثيل البيانات إحدى أكثر الطرق فائدةً لإيجاد معنىً مفهومٍ لحجمٍ كبيرٍ من البيانات.

كميّة البيانات في عالمنا قد انفجرت فعلًا ويُعتبر علم البيانات من أهمّ التقنيّات التي اقتحمت كلّ مجالات الأعمال تقريبًا. حتى أصبح تحليل البيانات الكبيرة حقلًا رئيسيًّا للمنافسة، يحمل معه موجاتٍ جديدةٍ من الابتكار التي نشهد نتائجها اليوم.

Sources:

http://www.cs.ubc.ca/nest/dbsl/intro.html

https://www.gcflearnfree.org/access2016/introduction-to-databases/1/

https://www.digitalocean.com/community/tutorials/an-introduction-to-big-data-concepts-and-terminology

https://datascience.berkeley.edu/about/what-is-data-science/

https://datajobs.com/what-is-data-sciencey

  • إعداد: دعاء عساف
  • مراجعة: أحمد سعد
  • تدقيق لغوي: رأفت فياض
تعليقات
Loading...