fbpx
الفضائيون

الذكاء الصنعي يجمع بين تعرُّف الكلام والأشياء معًا!

 طور علماءٌ من معهد ماساتشوستس للتقنية (MIT) نظامًا يتعلم تعرُّف الأشياء في صورةٍ بالاعتماد على وصفها بشروحات نصيّة؛ وذلك من خلال التدريب على صورٍ وتسجيلاتٍ صوتية، يُسلِّطُ النظامُ الضوءَ على الأجزاء ذات الصلة في الصورة الموصوفة، وذلك في الزمن الحقيقي.

على خلاف تقنيات تعرُّف الكلام الحالية، لا يتطلب النموذج تحويلًا يدويًا للصوت وشروح الأمثلة التي يُدرب عليها؛ عوضًا عن ذلك يتعلم الكلمات مباشرة من التسجيل والأشياء الموجودة في الصور في مجموعة التدريب ويربطها معًا.

يُمكنُ للنموذج حاليًا تعرُّف بضع مئات من الكلمات المختلفة وأصنافٍ من الأشياء. لكن يأمل الباحثون أن توفّر هذه التقنيةُ إمكانيةً غير محدودة لتعرُّف الكلام والأشكال في المُستقبل.

تتطلب أنظمة تعرُّف الكلام، مثل Siri، تسجيلاتِ كلام بطول عدّة ألاف من الساعات. ثم باستخدام هذه البيانات، تتعلم هذه الأنظمة ربط إشارات الكلام مع كلمات معينة. أصبحت هذه البرامج تواجه مشاكل في حالاتٍ مثلَ إدخال مُصطلحٍ جديد غير موجودٍ في مجموعة التدريب إلى المعجم (النظام).

يصفُ دايفيد هارواث؛ الباحثُ في مختبر علوم الحاسوب والذكاء الصنعي (CSAIL) وأنظمة اللغة المحكية، النموذجَ في المؤتمر الأوربي للرؤية الحاسوبية، قائلاً:

” أردنا لِعَمَلنا أن تكون طريقة تعرُّف الكلام فيه أقرب ما يُمكن إلى الطبيعية، وذلك بالاستفادة من الإشارات الإضافية والمعلومات التي يستخدمها البشر، لكنّ خوارزميات تعلم الآلة لا تستطيعُ الوصولَ إلى مثل هذه المعلومات غالبًا. لذا جاءَت فكرة تدريب النموذج  بطريقةٍ مُشابهةٍ لتعليم الأطفال عن العالم من حوله وإخباره ما يراه”.

يستعرض الباحثون النموذجَ في بحثهم على صورةٍ لفتاة صغيرة ذات شعر أشقر وعيون زرقاء اللون وترتدي ثوبًا أزرقَ، وفي الخلفيةِ منارةٌ بيضاءُ سطحها أحمر اللون. تعلّم النموذج أن يربط فيما بين أي كتلةٍ من بكسلات الصورة (النقط اللونية في الصورة) والكلمات: “فتاة” و”شعر أشقر” و”عيون زرقاء” و”منارة بيضاء” و”سطح أحمر”. وعند تشغيل التسجيل الصوتي، أشار النموذجُ إلى كُلٍّ من هذه الأشياء في الصورة كما وُصفوا.

يتمثّلُ أحد التطبيقات الواعدة لهذا النموذج في تعلم الترجمة بين اللغات المختلفة دون الحاجة إلى قاموس ثنائيّ اللغة، ولكل اللغات حول العالم، التي يقارب عددها نحو 7000 لغة، بينما يوجد بيانات نصية من أجل تعرُّف الكلام لمئة لغة منها فقط. لكن، وباستخدام مبدأ النموذج، إذا كان شخصان يتحدثان بلغتين مختلفتين (A وB) لشرح نفس الصورة، وتعلم البرنامج إشارة الكلام من اللغة  Aالتي تناسب الشكل في الصورة، وتعلم إشارة الكلام في اللغة B  التي تناسب نفس الشكل، إذا تعلّم ذلك يمكن أن يفرض أن الإشارتين – الكلمتين – هما ترجمة إحداهما للأخرى.

الثنائيات (صوت، صورة)

يُعدّ هذا العمل استكمالاً لنموذج سابق طوره كل من هاروث  وغلاس وتورالبا، مفادهُ ربطُ الكلام مع مجموعة صور تتعلق بنفس الفكرة العامة. في البحث السابق قاموا بإدخال صور للحواس من قاعدة بيانات للتصنيف على منصة جمع البيانات (Mechanical Turk)، ثم قام مجموعة من الناس بوصف الصور مثلما يشرحونها لطفل، وذلك لمدّةٍ تصلُ نحوَ 10 ثوانٍ، حيث أنجزوا أكثر من 200 ألف ثنائية: (صوت، صورة) في مئات الفئات المُختلفة مثل: التسوق والشواطئ ومراكز التسوق وشوارع المدينة وغرف النوم.

ثم صمموا نموذجًا مكوّنًا من شبكتين عصبونيتين تلافيفيّتين مُنفصلتين (convolutional neural network: CNNs) ؛ إحداهما تعالج الصور والأُخرى تعالج طّيف الإشارة الصوتية (spectrograms)، وهو تمثيل مرئي للإشارات الصوتية و تغيرها عبر الزمن. تقوم الطبقة العُليا من النموذج بحساب الخرج للشبكتين وتربط نمط الكلام مع بيانات الصور.

يقوم الباحثون بإدخال الثنائية: (تسجيل صوتي A، صورة A) إلى النموذج، بحيث تكون ثُنائيةً صحيحة، ومن ثَم يدخلون (تسجيل صوتي عشوائي B، صورة A) ، وهي ثُنائية خاطئة. بعد مقارنة آلاف التسجيلات غير المُناسبة مع الصورة A، يتعلم النموذج إشارة الكلام المُرافقة للصورة A، ويربط هذه الإشارات مع الكلمات في التسجيل الصوتي. كما هو مشروح في دراسة قُدِّمت في عام 2016، تعلّم النموذج على الفور أن يختار الإشارة المناسبة للكلمة “ماء” ويستعيد الصور التي تحتوي على مشهد فيه مياه.

ويقول هارواث مُضيفًا في هذا الخصوص: “لكن لم تؤمن طريقةٌ لإنتاجِ إشارةٍ إلى اللحظة الزمنية التي ذَكَر بها أحدٌ ما كلمةً معينة تُشير إلى جزء معين من بكسلات الصورة”.

صنع خريطة ربط

عدّل الباحثون النموذج في ورقة البحث الجديدة؛ لِيربط كلماتٍ مُعينة مع جُزء معين من بكسلات الصورة. درّب الباحثون النموذجَ قاعدة البيانات ذاتها، لكن بما مجموعه 400 ألف ثنائية (صوت، صورة). من ضمنها 1000 ثُنائية عشوائيّة للاختبار.

يُعطى النموذجُ أثناء التدريب صورًا وتسجيلاتٍ صحيحةً وخاطئة. لكن هذه المرة، تقسّم شبكة تحليل الصور (CNN) الصورةَ إلى شبكة من الخلايا فيها كتلٌ من البكسلات. في حين تقطِّع شبكة تحليل الصوت (CNN) الطيفَ إلى قِطَع بطولِ 1 ثانية لتحصل على كلمة أو اثنتين.

بوجود الثنائية الصحيحة من الصورة والكلام، يقارن النموذج الخلية الأولى من الشبكة مع المقطع الأول من التسجيل الصوتي، ثم يقارن نفس الخلية مع المقطع الثاني من التسجيل… وهكذا بالنسبة إلى كل خلايا الثنائيات (صوت، صورة). تعطي درجة تقارب لكل خلية ومقطع صوت بالاعتماد على تشابه الإشارة مع الهدف.

يكمن التحدي في أنّه لا يُمكن للنموذج الوصول إلى المعلومات المُترابطة الصحيحة بين الكلام والصورة خلال فترة التدريب؛ إذا يقول هارواث: ” تكمنُ المساهمةُ الأكبرُ لهذه الورقة البحثية في تحديد مدى إمكانية نظام الربط (بين الصوت والصورة) أن يستنتج آليًا أي من الثنائيات (صوت، صورة) صحيحة، وأيُّها غير صحيح”.

أطلق الباحثُ اسمَ (خريطة ربط- machmap) على عمليةِ ربطِ التعلم الآلي فيما بين التسجيلات المحكية وبيكسلات الصورة. بعد التدرّب على آلاف الثُّنائيات (صوت، صورة)، تقوم الشبكة بتضييق احتمالات هذه الروابط إلى كلمات مُحدّدة تُمثِّل أجزاء محددة من الصورة في خريطة الربط.

يقول هاروث: “إنه يُشابه الانفجار العظيم؛ إذ كانت المادة منتشرة ثم تجمعت لتشكل الكواكب والنجوم”، ويضيف: “تبدأ التوقعات مبعثرةً في كل مكان، ثم تترتَّب البيانات بطريقةٍ منطقيةٍ للربط بين الكلمات المحكية والأشياء المرئية من خلال التدريب”.

يقول فلوريان ميتزه؛ باحث مُساعد في معهد تقنيات اللغة في جامعة كارنجي ميلون:

“من المُثير للاهتمام أن الشبكات العصبونية قادرة الآن على ربط عناصر صورة مع مقاطع صوتية دون الحاجةِ إلى نص وسيط بينهما”، ويضيف:

“هذا التعلمُ لا يُحاكي تعلّم البشر؛ بل هو مبنيٌّ كُليًّا على علاقة الترابط دون أي تغذية راجعة. لكن يمكن أن يساعدنا في فَهم كيفية تشكَّل ثُنائيات الصورة والصوت … إنّ الترجمةَ الآلية تقنيةٌ يُمكن استخدامها لتوثيق اللغات المُهددة بخطر الانقراض (إذا كان بالإمكان الحصول على متطلبات بيانات التدريب). يُمكن التفكير أيضًا باستخدام تعرُّف الكلام لتطبيقات أُخرى كتطبيقاتٍ للأشخاص المصابين بإعاقات مثلاً أو للأطفال”.

المصدر: news.mit

المُساهمون:
  • ترجمة: شهد مكانسي
  • مراجعة: نور عبدو
  • تدقيق لغوي: نور عبدو

تعليق واحد

الفضائيون

الفضائيون عبارة عن مجتمع مكون من أفراد يتعلمون معًا ويُشاركون هذه المعرفة مع العالم. نحن نقدم مرجعًا علميًا ينمو باستمرار يشمل مواد تعليمية ومقالات علمية عالية الدقة والجودة، بفضل الجهد الكبير الذي يبذله متطوعونا في الإعداد والمراجعة والتدقيق لتقديم محتوى جادّ ومؤثر، يُمكنك ولوجه مجانًا بشكل كامل.