لقدِ اعتادَ العالمُ فقط على قوة وتطور المساعدين الافتراضيين الذين صنعتهم شركات مثل جوجل وأمازون، والتي يمكنها فكُّ شيفرة خطابنا المنطوق بدقةٍ غريبةٍ مقارنةً بما كانت التكنولوجيا قادرةً عليه قبل بضعِ سنواتٍ فقط.

وفي الحقيقة، لقد باتَ أحدُ أكثرِ الأحداثِ إثارةً وحيرةً وشيكًا، إذ سيصبحُ التعرفُ إلى الكلام وكأنه لعبة أطفالٍ إلى حدٍ ما: أنظمةُ الذكاء الصنعي (AI) التي يمكنها ترجمةُ نشاط دماغنا إلى نصٍ كامل التكوين، دون سماع لفظ كلمةٍ واحدة.

إنه ليس خيالًا علميًا أبًدا، فقد تطورت الواجهاتُ الآلية- الدماغية ( Brain-machine interface) على نحوٍ سريعٍ على مدى العقود الأخيرة وانتقلت من النماذج الحيوانية إلى المشاركين من البشر.

ليس بدقةٍ كبيره بعد، يشرحُ الباحثون من جامعة كاليفورنيا سان فرانسيسكو ذلك في دراسةٍ جديدة. 

لمعرفة إن كان بإمكانهم تحسينُ ذلك، استخدم فريق بقيادة جراح الأعصاب إدوارد تشانغ من مختبر تشانغ التابع لـ “UCSF” طريقةً جديدة لفك شيفرة المخطط الكهربائي: سِجل النبضات الكهربائية التي تحدث أثناء النشاط القشري، والتي التُقطت بواسطة أقطاب كهربائية مزروعة في الدماغ.

في الدراسة التي ارتدى فيها أربعة مرضى بالصرع الغرسات لرصد النوبات الناجمة عن حالتهم الطبية، أجرى فريق “UCSF” تجربةً جانبية: إذ قام المشاركون بقراءة وتكرار عددٍ من الجمل المحددة بصوتٍ عالٍ، بينما سجّلت الأقطاب الكهربائية نشاط أدمغتهم أثناء التمرين.

ثم أُدخلت هذه البيانات في شبكة عصبونية صنعية (Artificial Neural network) حللت أنماط نشاط الدماغ المتعلقة ببصمات كلام معينة، مثل حروف العلّة أو الحروف الساكنة أو حركات الفم، بناءً على التسجيلات الصوتية للتجربة.

بعد ذلك، فكت شبكةٌ عصبونية أخرى تشفير هذه التصورات -والتي جُمعت من تكرار 30 إلى 50 جملة منطوقة- واستخدمتها في محاولة التنبؤِ بما يقال، استنادًا إلى البصمات القشرية للكلمات.

أنتج النظام، في أفضل حالاته، «معدل خطأ الكلمة» (Word Error Rate: WER) مع مشارك واحد بنسبة 3% فقط في ترجمة إشارات الدماغ إلى نص -والتي قد تكون قريبةً من قراءة عقل شخصٍ ما كما في الذكاء الصنعي- على الأقل في هذه الشروط التجريبية المحددة.

في بحثهم، فصّل الفريق العديد من الأمثلة على جُملٍ مرجعية قالها المشاركون، إلى جانب التنبؤات التي أنتجتها الشبكة، كانت أحيانًا خاطئة، ولكن ليس دائمًا. عندما ظهرت الأخطاء، والتي كانت تبدو مختلفة تمامًا عن نتائج الكلام الذي يُساء فهمه بواسطة الأذن البشرية (والتي يمكن أن تكون أثرًا جانبيًا لمحدودية البيانات المقدمة إلى الذكاء الصنعي).

ومن الأمثلة على الأخطاء:

جملة:  ‘the museum hires musicians every evening’والذي تنبأ بأنها:

 ‘the museum hires musicians every expensive morning’ 

وجملة:’part of the cake was eaten by the dog’  والذي تنبأ بأنها  

‘part of the cake was the cookie’

وجملة: ‘tina turner is a pop singer’ والتي أصبحت: ‘did turner is a pop singer’ 

في الحالات الأقل دقة، لا تحمل الأخطاءُ فعليًا أي علاقةٍ، دلاليةٍ أو صوتيةٍ، مع ما قيل: 

‘she wore warm fleecy woollen overalls’ 

فُسّرت على أنها:  ‘the oasis was a mirage’

وعلى الرغم من غرابة الأخطاء الواضحة، فقد يشكل النظام بشكلٍ عام معيارًا جديدًا للذكاء الصنعي القائم على فك تشفير نشاط الدماغ، وقد يتساوى في أفضل حالاته مع النسخ الاحترافي لخطاب الإنسان، والذي يحتوي على 5%  «لمعدل خطأ الكلمة» كما يقول الفريق.

بالطبع، يجب على الناسخين المحترفين الذين يتعاملون مع متحدثين بشريين عاديين أن يتعاملوا مع مفرداتٍ تصل إلى عشرات الآلاف من الكلمات. على النقيض من ذلك، كان على هذا النظام فقط أن يتعلم البصمات القشرية لحوالي 250 كلمة فريدة مستخدمة في مجموعة محدودة من الجمل القصيرة، لذا فهي ليست مقارنةً عادلة حقًا.

في حين أن هناك العديد من العقبات التي يجب التغلب عليها، يقترح الفريق أن النظام قد يعمل يومًا ما كأساس لأطراف اصطناعية للمرضى الذين فقدوا القدرة على التحدث. إذا كان مثل هذا الشيء ممكنًا، فقد يكون أمرًا كبيرًا -تزويد بعض الأشخاص بطريقة للتواصل مع العالم- وبطرق قد تتجاوز بكثير ما تظهره التجارب حتى الآن.

«إن كمية بيانات التدريب المتاحة ستكون بأحجام أكبر من نصف ساعة أو نحو ذلك من الكلام المستخدم في هذه الدراسة، إذا أُتيح استخدامها مع مشارك يمكننا من زرع غرسات كهربائية فترةً أطول، كما يوضح المؤلفون، مما يشير إلى أن مفردات اللغة ومرونتها قد تكون قابلة للتوسعة إلى حدٍ كبير».

المصدر.

  • ترجمة: ميمونة محمد خصاونة
  • تدقيق لغوي: سمية بن لكحل