التعلّم الآلي يتنبأ بفائز بطولة كأس العالم هذه السنة

0 3٬515

لحد الآن لم يتم ابتكار روبوتات تلعب كرّة القدم بدلاً عن البشر، لكن مُنحت هذه المنظومات الذكية القدرة على التنبؤ بما يمكن أن تؤول إليه الأحداث اعتماداً بيانات وإحصائيات سابقة. حيث بُنيت تنبؤات الباحثين على أساس محاكاة بطولة كرة القدم بأكملها (100,000) مئة ألف مرة!

انطلقت بطولة كأس العالم لعام 2018 في روسيا الخميس الماضي، ومن المؤكّد أنه من الأحداث الرياضية الأكثر مشاهدة على مرّ التاريخ. وبالتالي معرفة الفائزين المتحملين تعتبر من أكبر الاهتمامات.

عادة تكون إحدى الطرق لمعرفة النتائج المتوقّعة هي الاطلاع على المراهنات، حيث تستخدم هذه الشركات إحصائيين محترفين لتحليل قواعد البيانات الشاملة للمباريات، بطريقة تحدّد احتمالات النتائج المختلفة لأي مباراة محتملة. بهذا المنهج، يستطيع المراهنون تقديم الاحتمالات لكلّ الألعاب التي يمكن أن تُطلق في الأسابيع القليلة التالية، فضلاً عن احتمالات تخصّ الرابحين أيضاً.

وبدمج كل هذه الاحتمالات من مختلف المراهنين، نحصل على أفضل تقدير. هذه المنهجية تشير إلى أن أفضل مرشّح للفور بكأس العالم هذه السنة هي البرازيل باحتمال ( 16.6%)، تليها ألمانيا ( 12.8%)، ثمّ اسبانيا( 12.5).

ولكن في السنوات القليلة الماضية، قام مجموعة من الباحثين بتطوير خوارزميات في التعلّم الآلي قادرة على التفوّق على المنهجيات الإحصائية التقليديّة، فما الذي تتوقعه هذه التقنيات كنتيجة محتملة للفائز بكأس العالم لهذه السنة 2018؟

الإجابة تأتي كحصيلة لعمل أندرياس غرول Andreas Groll وبعض زملائه، من جامعة دورتموند للتكنولوجيا في ألمانيا. قاموا بدمج منهجيات التعلّم الآلي مع الإحصاءات التقليدية، لتحديد الفائز المحتمل، تسمى هذه المنهجيّة التي اعتمدوها: الغابات العشوائية (Random-Forest) التي تعتبر من أكثر تقنيات التعلّم الآلي قوّة، وتمكّن المحللين من الحصول على نماذج فعّالة لمجموعات البيانات بشكل رائع، متجنّبة بذلك العوائق التي تصادف طرق التنقيب في البيانات((1) Data mining) الأخرى.

تعتمد الغابات العشوائية على فكرة أنّ بعض الأحداث المستقبلية يمكن تحديدها من خلال (2)شجرة القرار، حيث يتم حساب النتيجة في كل فرع منها بالرجوع إلى مجموعة من بيانات التدريب (البيانات المقصودة هي المعطيات التي ستبنى عليها التوقّعات). لكن في الغابات العشوائية، بدلاً من حساب النتيجة في كل فرع، يتم حساب نتيجة عدّة فروع عشوائية، ومن أجل عدّة أدوار (أي تكرر العملية عدّة مرات)، بحيث تكون الفروع العشوائية المُختارة مختلفة في كل دور عن بقيّة الأدوار. والنتيجة النهائية تكون متوسط نتائج جميع أشجار القرار هذه، المُنشَأة عشوائياً.

لهذه الطريقة مزايا جمّة. أولاً، التخلّص من مشكلة الـ(3) overfitting التي تعاني منها أشجار القرار العادية. أيضاً، الكشف عن العوامل الأكثر أهمية في تحديد النتيجة النهائية. لذا، إنْ تضمنت شجرة قرار معيّنة عدّة معاملات، سيكون من السهل معرفة أي من هذه المعاملات ذات التأثير الأكبر على النتيجة، وأي منها ذات تأثير ضعيف يمكن تجاهله في المستقبل. (ستتضح هذه الأمور بعد قليل.)

يستخدم الفريق هذه المنهجيّة لنمذجة بطولة كأس العالم 2018، إنّهم ينمذجون نتيجة كل مباراة من المرجح أن تلعبها الفِرق، ويستخدمون النتائج لبناء المسار الأكثر احتمالاً في البطولة (المسار المقصود موجود ضمن صورة الشجرة أدناه).

بدأوا مع مجموعة واسعة من العوامل المحتملة التي يمكن أن تحدد النتائج، تتضمن العوامل الاقتصاديّة مثل الناتج المحلي الإجمالي وتعداد السكان، وتصنيف الفيفا للفرق الوطنية، بالإضافة لخواصّ الفرق ذاتها، مثل متوسّط أعمار اللاعبين، عدد اللاعبين الذين لعبوا مباريات ضمن دوري أبطال أوروبا، وما إلى ذلك. غير أن تقنية الغابات العشوائية تسمح للباحثين بضمّ تصنيفات تجريبية أخرى، مثل التصنيفات المأخوذة عن المراهنين.

إضافة كل هذا إلى النموذج يؤدي إلى معلومات مثيرة للاهتمام. فعلى سبيل المثال، أكثر العوامل تأثيراً على النتيجة هي تصنيفات الفرق المأخوذة عن طرق أخرى، سواء من المراهنين أو من فيفا، أو غيرها. أيضاً، الناتج المحلّي الإجمالي وعدد لاعبي دوري أبطال أوروبا ضمن الفريق. أما العوامل الغير مهمّة هي التعداد السكّاني للبلد، وجنسية المدرب، وما إلى ذلك.

تختلف التوقّعات التي تمّ التوصل إليها من خلال هذه التقنيّة عن غيرها في بعض النقط الهامّة. تختار طريقة الغابة العشوائيّة كبداية إسبانيا باعتبارها الفائز الأكثر احتمالاً ( باحتمال قدره 17.8%).

العامل الكبير في هذا التنبؤ هو هيكلية البطولة ذاتها، فإذا تمكنّت ألمانيا من تخطّي مرحلة المجموعات من المنافسة، فمن المرجّح أن تواجه ممانعة قويّة في مرحلة خروج المغلوب (knockout phase). وبسبب ذلك، تحسب طريقة الغابة العشوائيّة فرصة ألمانيا في الوصول إلى الربع النهائي بـ 58%. وبالمقابل، من غير المحتمل أن تواجه اسبانيا ممانعة قوية في مرحلة خروج المغلوب، لذا لديها فرصة 73% للوصول إلى الدور الربع النهائي.

إذا وصل كلاهما إلى الدور الربع النهائي، فإن فرصتيهما متساوية في الفوز. ويقول الفريق

” اسبانيا مفضلّة قليلاً على ألمانيا، ويرجع ذلك إلى حقيقة أنّ لألمانيا احتمال أكبر للمغادرة في دور 16″

لكن هنالك انعطاف إضافي مهمّ، تسمح طريقة الأشجار العشوائية بمحاكاة البطولة بأكملها، وهذا يؤدي إلى نتائج مختلفة تماماً.

تمّ في هذا العمل إنجاز محاكاة للبطولة بأكملها مئة ألف مرّة. إذ قال الفريق:

” وفقاً لمسار البطولة الأكثر احتمالاً، ألمانيا هي التي ستفوز بكأس العالم وليس اسبانيا”

وبطبيعة الحال، بسبب العدد الكبير لتباديل المباريات، يبقى هذا المسار بعيد الاحتمال. وقد وُضعت الاحتمالات بنسبة 1 إلى مئة ألف. لذا حسب هذا العمل، في بداية البطولة لإسبانيا أفضل فرص الفوز، لكن إذا نجحت ألمانيا في الوصول إلى الربع النهائي، فإنها ستصبح في المرتبة الأولى.

الجدول التالي يظهر الاحتمالات المتوقّعة لوصول الفرق الـ 32 إلى المراحل المختلفة في بطولة كأس العالم لهذا العام 2018 ، بالاعتماد على مئة ألف محاكاة للبطولة كاملة، بالإضافة إلى احتمالات الفوز بالكأس.

إقرأ أيضا: الرياضيات و كرة القدم 

هامش:

  • Data Mining أي التنقيب في البيانات هي عملية تحليل كمية كبيرة من البيانات لإيجاد علاقة منطقية تلخّص هذه البيانات بطريقة مفهومة ومفيدة.
  • الأشجار هي أحد بنى تخزين البيانات
  • Overfitting هي مشكلة تحصل عندما يكون النموذج الإحصائي يتعرف على كل بيانات التدريب( أي قادر على التنبؤ بالنتيجة المطلوبة)، لكن فقط من أجل دخل موجود في مجموعة بيانات التدريب!.

حيث يصعب عليه إعطاء نتيجة منطقيّة من أجل معلومات دخل غير موجودة في مجموعة التدريب. وهذه مشكلة كبيرة في حدّ ذاتها.

يمكن الإطلاق على الورقة البحثية للعمل الذي أنجزه الفريق:

 Prediction of the FIFA World Cup 2018 – A random forest approach with an emphasis on estimated team ability parameters (https://arxiv.org/abs/1806.03208 )

 

  • إعداد: نور عبدو
مصدر MIT Review
تعليقات
Loading...

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More