كمبيوتر وملحقاته

كيف يتعرف الكمبيوتر على الصوت


لم يعد التحدث للكمبيوتر امراً مستغربا هذه الأيام فالعديد من الشركات الكبرى اصبحت تستخدم اجهزة ترد على المتصلين وتوجههم للفرع المطلوب بالطلب منك ان تقوم بالضغط على احد ازرار الهاتف ليقوم بتحويلك ألياً الى الشخص الذي سيلبي طلبك، وليس هذا فحسب فهناك بعض الانظمة المتطورة تستطيع ان تستقبل اوامر لفظية كأوامر للتحكم بوظائف معينة.  ولن نستعرب ايضا اذا ما قمنا بالتحدث للاجهزة المختلفة في المنزل مثل اطفاء وتشغيل التلفزيون والتحكم به او ان نعطي اوامر صوتية للميكروويف او ان نجد شحض ييأمر المصعد بان يفتح الباب بدون الضغط على اية ازرار. ان استخدام اصواتنا كمصدر للاوامر الكمبيوتر هو نتاج لعمل وجهد شاق ومضن لتطوير برامج كمبيوتر تأتي باسم برامج التعرف على الاصوات Speech Recognition Program.  

كما انك عزيزي القارئ تستخدم برامج التعرف على الصوت اما في العمل او في البيت حيث توفر الكثير من الشركات المتخصصة في هذا المجال مجموعة من البرامج التي تمكن مستخدم الكمبيوتر من تحويل النص الصوتي إلى نص مطبوع ويعمل مع برامج معالجة وتنسيق الكلمات مثل برنامج ميكروسوفت وورد أو برامج ارسال البريد الالكتروني، وبالتالي بدلا من الطباعة على لوحة المفاتيح كل ما عليك هو ان تلقي النص المراد طباعته بصوتك ويقوم الكمبيوتر بتحويله الى نص. كما توفر هذه البرامج امكانية التحكم بالكمبيوتر من خلال الاوامر الصوتية مثل ان تطلب منه تشغيل متصفح الانترنت وفتح قوائم الاوامر وتشغيلها من خلال اوامر صوتية محددة.  كما ان برامج التعرف على الصوت تكون في بعض الاحيان متخصصة حسب طبيعة العمل اذا كان في مجال الطب او مجال ادارة الاعمال او مجال الاعمال القانونية وتكون البرامج المتخصصة ذات كفاءة اكبر في التعرف على الصوت.

ان برامج التعرف على الصوت لها بالغ الاهمية لدى الاشخاص الذين يعانون من مشاكل في الطباعة نتيجة لاعاقة طبية في الرؤية او في استخدام اليد تحول دون امكانية التعامل مع الكمبيوتر،

اعلانات جوجل

في هذه المقالة من كيف تعمل الأشياء سوف نقوم بشرح فكرة عمل برامج التعرف على الصوت والقاء الضوء على الدور الذي تلعبه هذه البرامج في جعل الكمبيوتر قادرا على فهم ما نقوله وتنفيذ ما نطلبه وربما في المستقبل التحاور معنا. 

 

أنواع برامج التعرف على الصوت برامج عامة

وبكلمات محدود هذه البرامج المستخدمة في انظمة الاتصالات الحديثة والتي تقوم فيها البدالة بالرد على المتصلين.  حيث يتحدث المتصل للاستعلام عن أمر ما ويقوم البرنامج بتحليل الصوت وفهمه وربما الطلب من المتحدث باداء ضغطة او اكثر على هاتفه لاستكمال المهمة بدون الاستعانة بموظف او عامل.

 

اعلانات جوجل

برامج خاصة 

وبكلمات عديدة هذه البرامج تعمل مع فئة محدودة من الناس الذين تجمعهم بئية عمل مشتركة وتصل كفاءة هذه البرامج إلى 85% او اكثر في التعرف على التعليمات الصوتية بغض النظر عن اللهجة واختلاف نبرات الصوت.  ويتم تدريب هذه الانظمة من خلال تعريفها باصوات المستخدمين.  وكمثال توضيحي لذلك التعليمات الصوتية التي نقوم بتخزينها في الجوال لتشغيل بعض وظائف الجوال ومن ثم يصبح الجوال قادراً على التعرف على هذه التعلميات الصوتية التي تصدر من صاحب الصوت الاصلي، وبالطبع هذا المثال لتوضيح الفكرة فقط لان برامج التعرف على الصوت اكثر تعقيداً لانها يجب ان تكون قادرة على التجاوب مع عدد كبير من المتحدثين وبالتأكيد نطق كل شخص يختلف عن الآخر.

 

مجموعة من البرامج المتخصصة في التعرف على الاصوات

انظمة البرامج التي تتعرف على الصوت معروفة منذ اكثر من 10 سنوات مضت ولكن واجهت الكثير من المشاكل والتحديات والتي من بينها الانتقال من انظمة تتعرف على الصوت المنفصل المتقطع أي الحديث كلمة ثم التوقف وكلمة اخرى وهكذا إلى انظمة تستطيع التجاوب مع الحديث الطبيعي المتصل هذا بالاضافة الى المشكلة الكامنة في الاختلاف بين الناس في النطق لنفس الكلمات بالاضافة الى ان العديد من الكلمات الانجليزية تكون بنفس اللفظ ولكن لها معاني مختلفة.

 إن تطور برامج التعرف على الصوت سوف تمكننا من التحكم في كل شئ من ساعة اليد إلى الطائرة الحربية عن طريق الأوامر الصوتية.  ولكن قبل الوصول إلى هذا المستوى من التقدم التكنولوجى فإنه لابد من حل بعض المشاكل مثل صعوبة لفظ الكلمة نفسها مرتيين بنفس الطريقة حتى من قبل نفس المتحدث كأن تكون ممدودة أو مشوشة بسبب مرض أو غيره وكذلك الأختلاف فى اللهجة من مكان إلى آخر و اختزال بعض الأحرف أثناء الحديث خاصة اذا تشابهة نهاية الكلمة مع بداية الكلمة التالية لها أو أن تكون الكلمات لها نفس النطق ولكن تختلف فى المعنى.  وبالتالى لابد من وجود وسيلة تمكن الكمبيوتر من تلافى الوقوع فى مثل هذه الأخطاء.

اعلانات جوجل

نظام تعليمي للطلبة الصم يعتمد على نقل صورة المدرسة الى الطالب عن طريق الكمبيوتر وتحويل الصوت إلى نص مقروء ليتمكن الطالب متابعة الشرح

 

تحويل الصوت إلى بيانات رقمية

لتحويل الصوت المسموع الى نص مطبوع على شاشة الكمبيوتر او تنفيذ امر من اوامر الكمببوتر بمجرد نطقه للجهاز عبر الميكرفون فإنه على الكمبيوتر القيام بالعديد من الخطوات المعقدة لانجاز هذه المهمة. وهذه الخطوات هي:

اعلانات جوجل

(1) عندما نتحدث فإن اضراب في الهواء الخارج من الفم ينتشر في الهواء في صورة اهتزازات.

(2) يتلقى الكمبيوتر هذه الاهتزازات عبر الميكرفون ويحولها من اشارة تناظرية analog إلى اشارة رقمية digital من خلال دائرة الكترونية تعرف باسم analog-to-digital converter وتكتب اختصاراً ADC. وهذه الخطوة تعتبر اهم خطوة حيث يقوم فيها الكمبيوتر بتحويل الموجة الصوتية وتقسيمها إلى عناصر صغيرة Samples وتسمى في بعض كتب الكمبيوتر العربية المترجمة بعملية النمذجة، وهذه العناصر  تشكل المعلومات الرقمية التي يستطيع الكمبيوتر من التعامل معها وفهمها، ويخزن الكمبيوتر معلومات عن كل عنصر من هذه العناصر الرقمية تحتوي عى التردد الشدة كما هو موضح في الشكل الموضح ادناه

(3) يقوم الكمبيوتر في هذه الخطوة بالتخلص من الاصوات التي صدرت في الخلفية وتشكل ضجيج يتداخل مع الصوت من خلال البرنامج والذي يقوم ايضا بضبط الصوت ومعايرة شدته لمستوى سمعي محدد.  كما يقوم البرنامج بضبط سرعة الصوت لتتوافق مع سرعة الصوت العياري المخزن في البرنامج لان كل شخص يتحدث بسرعة تختلف عن الأخر.


 يتم تحويل الاشارة الصوتية التناظرية (باللون الاحمر) إلى اشارة صوتية رقمية مقسمة إلى عناصر او نماذج (باللون الأخضر) وكلما كانت العناصر اصغر كلما كانت الدقة اعلى والجودة اكثر

 

(4)   بعد عملية النمذجة “التقسيم” يتم اخضاع مكونات الصوت (الفونيمات phonemes) لفحص ومقارنة بالمقاطع الصوتية للغة المستخدمة والمخزنة في البرنامج والتي تعرف باسم الفونيمات phonemes وهي الاجزاء او المقاطع الصوتية التي تخرج من الفم لتشكل مع بعضها البعض اصواتاً مفهومة.  وفي اللغة الانجليزية يوجد حوالي 40 فونيم، ولكل لغة يوجد عدد من الفونيم الخاص بها قد يكون اقل او اكثر.


(5)   في هذه الخطوة الاكثر حساسية وصعوبة للكمبيوتر في انجازها والتي يعمل كل المطورين والخراء على تطويرها والتي تتعلق في عمل البرنامج الذي يعمل على فحص اللفظ اللغوي في سياق الجملة ومن ثم يعزله عن الاصوات الصادرة حوله وهذه العملية تتطلب القيام بالكثير من المحاولات الاحصائية المعقدة ومقارنة النتائج مع مكتبة ضخمة من الكلمات المعروفة والجمل الشائعة والعبارات المتداولة.  وبعدها يستطيع البرنامج من تحديد ماذا يقصد المتحدث بالضبط وهل هي اوامر للتنفيذ ام هي نص للطباعة.

 

وسوف نقوم في ما يلي بتوضيح وشرح المقصود بالخطوة الخامسة وكيف يقوم البرنامج بانجازها لان اي تطور في مجال برامج التعرف على الصوت يرتكز على تطوير هذه الخطوة حيث ان الخطوات الاربعة السابقة هي خطوات تحضيرية للخطوة الخامسة وتعتمد على التقدم في مجال الالكترونيات والكمبيوتر وهذا متاح ولا مشكلة فيه.

 برامج التعرف على الصوت والنماذج الاحصائية المستخدمة

أنظمة تمييز الصوت الأولية حاولت في البداية تطبيق مجموعة من القواعد النحوية. فإذا كانت الكلمات تناسب مجموعة من القواعد، فإن البرنامج يمكن أن يقرّر ما المقصود من تلك الكلمات. على أية حال، لغة الانسان لها إستثناءات عديدة خصوصاً اللهجات المستخدمة والتي تغير معنى بعض الكلمات بشكل كبير. تخيّل شخص ما من ولاية بوسطن الامريكية يقول الكلمة “barn” أي مخزن أو مستودع مثلا فإنه لا ينطق حرف “r“، أو يقول الجملة “I’m going to see the ocean.” إن أكثر الناس لا يلفظون كلماتهم بعناية وبدقة وبحروف واضحة المخارج دائماً حيث تخرج الكلمات متصلة وبدون وقفات ملحوظة بين الكلمة والأخرى ومن الممكن ان تنطق الجملة السابقة على النحو “I’m goin’ da see tha ocean“.  ولذلك فإن هذه الأنظمة التي اعتمدت على القواعد النحوية كانت فاشلة لأنها لم تستطيع معالجة هذه الإختلافات. وهذا يوضّح أيضا لماذا لم تستطع هذه الانظمة من أن تعالج حديث متصل وعليك ان تتكلّم كلّ كلمة بشكل منفصل مع مهلة قصيرة بين كل كلمتين.

أما في البرامج الحديثة المتوفرة في ايامنا هذه تستعمل أنظمة نمذجة إحصائية قوية ومعقدة. تتضمن استعمال مبادئ الاحتمالات ودوال رياضية لتقرر الكلمة المقصودة في الحديث المسموع. وطبقا للعالم جون غاروفولو John Garofolo، مدير مجموعة التعرف على الصوت في مختبر تقنية معلومات المعهد الوطني للمعايير والتقنية، فإن نموذجان من نماذج التعرف على الصوت يسيطران على هذا المجال وهما نموذج ماركوف المخفي Hidden Markov Model  وونموذج الشبكات العصبية neural networks. واللذان يتضمنان دوال رياضية معقّدة، تمكن الكمبيوتر من فهم المعلومات.


إن نموذج ماركوف المخفي هو النموذج الأكثر شيوعا، لذا سوف نتناوله بالشرح والتوضيح. في هذا النموذج، فإن كلّ فونيم  phoneme يعتبر كالوصلة في سلسلة، حيث نعتبر ان الكلمة هي عبارة عن سلسلة.  وتتفرّع هذه السلسلة في إتجاهات مختلفة في حين يعمل البرنامج على مقارنة الصوت الرقمي مع الفونيم الذي يقابله. وخلال هذه العملية، يخصص البرنامج نسبة محددة لكل احتمالية معتمداً على قاموس لغوي وعلى التدريب الصوتي الذي قام المستخدم بالتدرب عليه في اول مرة قام بتشغيل البرنامج.

هذه العملية معقدة جداً مع الجمل والعبارات لان البرنامج عليه أن يحدد أين تبدأ الكلمة وأين تتوقف في الجملة. فمثلاً الجملة “recognize speech”  اي “التعرف على الحديث” اذا ما نطقت بسرعة تبدو وكانك تقول “wreck a nice beach” أي “شاطئ لطيف محطم”. إن البرنامج عليه ان يحلل الفونيمات التي تستعمل في الجملة لكي يفهمه بشكل صحيح. وبتجزأة الجملتين على النحو التالي:


لماذا يبدو الامر مقعداً لهذه الدرجة؟ لنفترض مثلاً ان البرنامج يحتوي على عدد 60,000 كلمة فإن هناك 216 ترليون احتمالية لتكوين جملة من ثلاثة كلمات؟  وبالتأكيد اي كمبيوتر مهما كانت قدراته الحاسوبية فإنه غير قادر على البحث في كل هذه الاحتمالات بدون مساعدة او تدخل ما.


برنامج التدريب الخاص بالتعرف على الصوت والموجود ضمن برنامج

التشغيل ويندوز اكس بي تأتي المساعدة للكمبيوتر من خلال نموذج ماركوف المعتمد على برنامج التدريب حيث تحتاج هذه الأنظمة الإحصائية الكثير من بيانات التدريب النموذجية للوصول إلى أدائهم المثالي فالكلام المسجل كتدريب للبرنامج يستعمل لتكوين نماذج السمعية من الكلمات، والجمل والعبارات لتشكل للبرنامج شبكات إحتمالية متعددة. ولذلك عند حصولك على برنامج من برامج التعرف على الصوت فإنك بعد تنصيبه على الجهاز يطلب منك تدريب البرنامج من خلال قراءة نصوص تظهر لك على شاشة البرنامج بصوت واضح وتستغرق فترة التدريب هذه بحد اقصى 10 دقائق. وتكون هذه النصوص التي تقرأها معدة بطريقة دقيقة وربما تكون موجهة لتخصص معبن اذا كنت قد حددت للبرنامج مجال عملك كالطب او الادارة او السياسة.

 

عيوب ومشاكل انظمة التعرف على الصوت

لا يوجد نظام تعرف على الصوت مثالية تعمل بدقة 100% كما ان هناك عدة عوامل يمكن أن تقلل من الدقة بعضها عوامل تقنية وبعضها الأخر يرجع للمستخدم نفسه. ومن هذه العوامل ما يلي:

  • قلة الصوت بالنسبة للضجيج: حيث ان من المحتمل ان تصدر اصواتأ اخرى من البيئة المحيطة تسبب تشويش وتداخل يؤدي إلى فشل البرنامج في التعرف على الصوت. وهذا يتطلب ان تعمل البرامج في هدوء كامل وباستخدام ميكروفون وكرت صوت ذو جودة عالية.
  • الحديث المتداخل: حيث تعجز هذه الانظمة على التعرف على الصوت اذا تحدث شحصين في نفس الوقت ولذلك لا يمكن لهذه الانظمة ان تستخدم في جلسات النقاش والاجتماعات حيث يقاطع المتحدثون بعضهم البعض باستمرار وهذا يؤدي الى ارتفاع نسبة الخطأ في التعرف على الكلمات.
  • الحاجة الى كمبيوتر متطور للقيام بالعمليات الاحصائية المتواصلة لكل كلمة يسمعها كما يحتاج الكمبيوتر في بعض الاحيان اثناء خطوات التعرف على الصوت ان يحفظ بعض الكلمات في ذاكرته للعودة اليها لتكوين الجملة الصحيحة وهذا بالطبع يتطلب كمبيوتر قوي لان البطء في الاستجابة سيؤدي الى فشل في استمرار عمل البرنامج. وفي الحقيقة التطور المذهل في القدرات التخزينية للكمبيوتر وسرعة المعالج واماكنياته ادت الى نشاط كبير وتشجيع الباحثين في هذا المجال وخصوصاً ما يحمله لنا المستقبل القريب من امكانيات اضافية لاجهزة الكمبيوتر.
  • من العوامل التي لا يجب ان ننساها وهو ان الكثير من الكلمات لها نفس اللفظ بالرغم من انها لا تكتب بنفس الشكل مثل كلمة beو beeوكلمة Thereو Their. ولهذا لا يمكن لبرامج الكمبيوتر ان تتعرف على الكلمات المتشابه بالاعتماد على اللفظ الصوتي فقط ولكن برامج التدريب التي تحتوي على نماذج لعبارات وجمل تساعد في حل هذه المشكلة ورفع كفاءة برامج التعرف على الصوت.

مستقبل انظمة التعرف على الصوت


من الجدير ذكره ان العالم جراهام بيل

هو اول من حاول في ايجاد طريقة لتحويل الاصوات الى صور وذلك في محاولة منه لمساعدة زوجته التي كانت لا تسمع في ان تفهم ما يقوله لها ونجح في تحويل الصوت الى منحنيات مرسومة ولكن لم تستطع زوجته من فهمها ولكن بحثه المستمر في هذا المجال ادى الى ان يخترع لنا الهاتف.

ولعدة عقود مضت، طور العلماء طرق تجريبية لتمييز الصوت الكترونياً ولكن لم تكن اجهزة الكمبيوتر كتوفرة في ذلك الوفت. وفي التسعينيات حيث بدأت أجهزة الكمبيوتر تتوفر لتستخدم في مجال تمييز الصوت. واستمرت البحوث وتطورت مع تطور اجهزة الكمبيوتر ومن المتوقع ان تؤدّي هذه البحوث قريبا إلى التقنيات المستخدمة في افلام الخيال العلمي مثل سلسلة افلام “Star Trek” أي “رحلة عبر النجوم.”

إن وكالة الدفاع للبحوث والمشاريع المتقدمة Defense Advanced Research Projects Agency (DARPA) خصصت ثلاثة من الفرق البحثية للعمل على مشروع باسم Global Autonomous Language Exploitation (GALE),  أي تطوير لغة مستقلة عالمية بحيث تعمل هذه اللغة كوسيط بين لغات العالم بحيث تستطيع استقبال ارسال الاقمار الصناعية باي لغة وتحويلها الى اللغة التي نتحدث بها ونفهما واي تعمل مثل الافلام المدبلجة فتستطيع ان تستمع لاي محطة في العالم وباي لغة. أي اننا في المستقبل سوف نشاهد برامج ترجمة فورية تستطيع ان تترجم لغتان فوراً وبدقة تصل إلى 90%.  . “وكالة مشاريع البحوث المتقدمة دفاع تموّل أيضا R & D جهد دعا ترانستاك لتمكين جنودنا لإتّصال عمليا أكثر مع السكان المدنيين في البلدان غير الناطقة بالأنجليزية، “قال غاروفولو، يضيف بأنّ التقنية ستوزّع أسهم بلا شك إلى التطبيقات المدنية، بضمن ذلك a مترجم عالمي.

 هذا كما وتمول وكالة الدفاع للبحوث والمشاريع المتقدمة مسار أخر للبحوث في هذا المجال وباسم TRANSTAC يهدف إلى تمكين الجنود من التحدث إلى لغة البلد التي يحتلوها ويفهموها كما لو كانوا ناطقين بها.

اما على المستقبل البعيد فإن الوصول الى المترجم العالمي هو هدف الباحثين بالرغم من التحديات الكبيرة التي تواجه هذه الفكرة والناجمة عن اللهجات المختلفة والقواعد النحوية العديدة والعامية المستخدمة في الحياة اليومية هذا بالاضافة الى ان كلمة باللغة العربية قد تحتاج الى جملة من اربع الى خمس كلمات لتقابلها.

كما انه في وقت ما في المستقبل، قد ننتقل من التعرف الى الصوت إلى مرحلة الفهم وادراك المعنى والمقصود وربما بعد 25 سنة سنجد الكمبيوتر يتناقش ويتحاور معنا بل ويناقش مثل ما نشاهد في افلام الخيال العلمي.

في النهاية ارجو ان يكون لدينا نحن العرب برامج ابحاث مماثلة حتى لا  يضطر ابناءنا الابتعاد عن لغتنا بدواعي مواكبة هذا التطور المذهل للتكنولوجيا.

بعض الروابط المهمة والمفيدة في هذا الموضوع تجدها على الانترنت على العناوين التالية: 

National Institutes of Standards and Technology

http://www.nist.gov/

 University of Colorado: The Center for Spoken Dialog

http://cslr.colorado.edu/beginweb/spoken_dialog_systems/spoken_dialog_systems.html

Microsoft: Speech Technology

الدكتور حازم فلاح سكيك

د. حازم فلاح سكيك استاذ الفيزياء المشارك في قسم الفيزياء في جامعة الازهر – غزة | مؤسس شبكة الفيزياء التعليمية | واكاديمية الفيزياء للتعليم الالكتروني | ومنتدى الفيزياء التعليمي

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

هذا الموقع يستخدم Akismet للحدّ من التعليقات المزعجة والغير مرغوبة. تعرّف على كيفية معالجة بيانات تعليقك.

زر الذهاب إلى الأعلى