مكتبة وملتقى علم الأصوات Phonetics & Acoustics: حوسبة الصوت

خاص : (مكتبة وملتقى علم الأصوات)

عنوان الرسالة : التعرف على المتكلم اعتماداً على معايير السرعة الزمنية*

Speaker Identification Based On Temporal Parameters

الباحثة: إيمان محمد يسري

)رسالة ماجستير)

مصر

قسم الصوتيات واللسانيات

كلية الآداب ـ جامعة الإسكندرية

2015م

حقوق الرسالة : مكتبة وملتقى علم الأصوات

ــــــــــــــــــــــــــــ

حجم الملف : 3.8 م.ب

(للتنزيل أنقر هنا)

ـــــــــــــــــــــــــــــــــــــــ

المستخلص

تهدف هذه الدراسة إلى اﻟﺗﻌرف ﻋﻠﻰ ھوﯾﺔ اﻟﻣﺗﻛﻠﻣﯾن ﻏﯾر اﻟﻣﻌروﻓﯾن ﻣن ﺳرﻋﺔ ﻛﻼﻣﮭم، وﻗد ﺗم ﻓﻰ ھذا اﻟﺑﺣث -ﻋﻠﻰ اﻟﻣﺳﺗوى اﻹدراﻛﻲ - ﻋﻣل ﺗﻘﯾﯾم ﻟﻠﻘدرة اﻹدراﻛﯾﺔ ﻟﻠﻣﺳﺗﻣﻌﯾن ﻏﯾر اﻟﻣدرﺑﯾن ﻓﻰ اﻟﺗﻌرف اﻟﻣﺗﻛﻠم اﻋﺗﻣﺎدا ﻋﻠﻰ ﺳرﻋﺔ ﻛﻼﻣﮫ، وإدراك ﻣﺎ إذا ﻛﺎن اﻷﺳرع أم اﻷﺑطﺄ ﺑﯾن اﻟﻣﺗﻛﻠﻣﯾن اﻟﻌﺷرة اﻟذﯾن ﺗم اﺧﺗﯾﺎرھم ﻟﻠﺗﺟرﺑﺔ. أﻣﺎ ﻋﻠﻰ اﻟﻣﺳﺗوى اﻷﻛوﺳﺗﯾﻛﻲ، ﻓﻘد ﺗم رﺻد اﻟﻣﻌﺎﯾﯾر اﻟﻔﯾزﯾﺎﺋﯾﺔ اﻷﺳﺎﺳﯾﺔ ﻟﻠﺗﻌرف ﻋﻠﻰ ﺻوت اﻟﻣﺗﻛﻠم وھﻰ ﻛﺎﻵﺗﻰ:

1. اﻟﺘﺮدد اﻷﺳﺎسى F0

2. اﻟﺘﺮ ددات المكوﻧﺔ ﻟﻠﺼﻮاﺋﺖ(F1, F2, F3).

3. اﻟﺮ ﻧﯿﻦ اﻷﻧﻔﻲ ﻟﻠﺼﻮاﻣﺖ (اﻟﻐنة).

4. ﻣﻌﺪل ﺳﺮﻋﺔ اﻟﻜﻼم )(SR وﻣﻌﺪل ﺳﺮﻋﺔ اﻟﻤﻨﻄﻮﻗﺎت )(AR

وﻗد اﺧﺗﯾر اﻟﻌﻧﺻر اﻷﺧﯾر وھو ﺳرﻋﺔ اﻟﻛﻼم (Speech Tempo ) ﻛﻣوﺿوع ﻟﮭذه اﻟدراﺳﺔ. وﻗد ﺗم ﻋﻣل اﻟﺗﺣﻠﯾل اﻟﻔﯾزﯾﺎﺋﻰ ﻟﻛﻼم اﻟﻣﺗﺣدﺛﯾن وﻗﯾﺎس ﻣﻌدل ﺳرﻋﺔ اﻟﻛﻼم وﻣﻌدل ﺳرﻋﺔ اﻟﻣﻧطوﻗﺎت واﻟوﻗﻔﺎت ﻓﻰ ﻛﻼم ﻛل ﻣﺗﺣدث (أطواﻟﮭم وأﻋدادھم). ھذا ﻓﺿﻼ ﻋﻠﻰ ﻗﯾﺎس اﻟﺗردد اﻷﺳﺎﺳﻰ ﻟﻛل ﻣﺗﻛﻠم F0 وﺷدة اﻟﺻوت ( I ).

ھﻧﺎك اﻟﻌدﯾد ﻣن اﻷﺳﺑﺎب اﻷﺳﺎﺳﯾﺔ اﻟﺗﻲ ﺗوﺿﺢ ﻣدى أھﻣﯾﺔ اﻟﻣﻌﺎﯾﯾر اﻟزﻣﻧﯾﺔ وﻣﻌدل ﺳرﻋﺔ اﻟﻛﻼم ﻓﻰ اﻟﺗﻌرف ﻋﻠﻰ اﻟﻣﺗﻛﻠم ﻟﻸﻏراض اﻟﻘﺿﺎﺋﯾﺔ وھﻰ ﻛﻶﺗﻰ:

1. ﻻ ﯾﻤﻜﻦ ﻣﺤﺎﻛﺎة ﺳﻤﺎت اﻟﺴﺮﻋﺔ اﻟﺰﻣﻨﯿﺔ ﻟﻠﻜﻼم.

2. ﻻ ﯾﻤﻜﻦ ﻟﻠﻤﺘﻜﻠﻢ اﻟﺴﯿﻄﺮة ﻋﻠﻰ اﻟﺴﺮﻋﺔ اﻟﺰﻣﻨﯿﺔ ﻟﻜﻼﻣﮫ ﺑﺸﻜﻞ واع.

3. اﻟﻔﺮوق اﻟﻔﺮدﯾﺔ ﺑﯿﻦ اﻟﻤﺘﻜﻠﻤﯿﻦ ﺗُﻌﺪ ﻣﻦ أھﻢ ﻣﺼﺎدر اﻟﺘﻐﯿﺮ اﻟﺘﻲ ﺗُﺆﺛﺮ ﻋﻠﻰ ﻣﻌﺪل ﺳﺮﻋﺔ اﻟﻜﻼم.

اﻟﻣﻧﮭﺟﯾﺔ اﻟﺑﺣﺛﯾﺔ

ﺗﺷﻣل ھذة اﻟﺗﺟرﺑﺔ ﻋﺷرة أﺷﺧﺎص (ﺧﻣس ﻧﺳﺎء وﺧﻣﺳﺔ رﺟﺎل) ﻏﯾر ﻣﻌروﻓﯾن اﻟﮭوﯾﺔ وﻣﺗﺣدﺛﯾن أﺻﻠﯾﯾن ﻟﻠﻠﮭﺟﺔ اﻟﻌﺎﻣﯾﺔ اﻟﻌرﺑﯾﺔ وﺗﻘدر أﻋﻣﺎرھم ﺑﯾن 19 و40 ﻋﺎم. ﺗﺗﻛون اﻟﻣﺎدة ﻣن ﻛﻼم ﺗﻠﻘﺎﺋﻲ ﻟﻣدة ﻧﺻف دﻗﯾﻘﺔ (30 ﺛﺎﻧﯾﺔ) ﻟﻛل ﻣﺗﻛﻠم ﻣﻊ ﺗﺟﻧب ﺗﺄﺛﯾر أو ﺳﯾطرة أي ﻧوع ﻣن أﻧواع الﻣﺷﺎﻋر الﺳﻠﺑﯾﺔ ﻟﻠﻣﺗﻛﻠﻣﯾن.

ﺗﻢ ﺗﺴﺠﯿﻞ اﻟﻤﺎدة ﻣﻦ ﺧﻼل ﺑﺮﻧﺎﻣﺞ "اﻟﺼﺤﺎﻓﺔ ﻓﻰ ﻋﯿﻮﻧﮭﻢ" اﻟﺬي ﯾﺬاع ﯾﻮﻣﯿﺎً ﻋﻠﻰ رادﯾﻮ إذاﻋﺔ اﻹﺳﻜﻨﺪرﯾﺔ. وﺗﻢ ﺗﺤﻠﯿﻞ اﻟﻤﺎدة اﻟﻤﺴﺠﻠﺔ ﻟﻜﻞ ﻣﺘﻜﻠﻢ ﯾﺪوﯾﺎ و ﻛﺘﺎﺑﺘﮭﺎ ﺑﺎﻟﺮﻣﻮز اﻟﺼﻮﺗﯿﺔ Transcription وذﻟﻚ ﻋﻦ طﺮﯾﻖ اﻹﺳﺘﻤﺎع اﻟﺠﯿﺪ ﻟﮭﺬه اﻟﻤﺎدة اﻟﻤﺴﺠﻠﺔ ﻣﺮاراً وﺗﻜﺮاراً ﺑﻮاﺳﻄﺔ .Praat Software ﺛﻢ ﺗﻤﺖ ﻋﻤﻠﯿﺔ ﻓﺼﻞ اﻟﻤﻘﺎطﻊ Segmentation Process وذﻟﻚ ﻟﺤﺴﺎبSR & AR. ﻛﻤﺎ ﺗﻢ أﯾﻀﺎ ﻗﯿﺎس اﻟﺘﺮدد اﻷﺳﺎﺳﻲ و ﺷﺪة اﻟﺼﻮت ﻟﻜﻞ ﻣﺘﻜﻠﻢ ودرﺟﺔ اﻟﺘﻠﻌﺜﻢ و ﻋﺪد اﻟﻮﻗﻔﺎت وزﻣﻦ ﻛﻞ وﻗﻔﺔ وﻧﻮﻋﮭﺎ وﻧﺴﺒﺔ ﻛﻞ اﻟﻮﻗﻔﺎت إﻟﻰ ﻣﺪة اﻟﻜﻼم اﻟﻜﺎﻣﻠﺔ .

اﻹﺧﺘﺒﺎر اﻹﺳﺘﻤﺎﻋﻰ ﻟﻠﻤﺴﺘﻤﻌﯿﻦ

ﺳﺗون ﻣﺳﺗﻣﻊ ﻣن طﻠﺑﺔ اﻟﺟﺎﻣﻌﺎت وﻣﺗﺣدﺛﯾن أﺻﻠﯾﯾن أﯾﺿﺎً لﻟﻌﺎﻣﯾﺔ اﻟﻌرﺑﯾﺔ اﻟﻣﺻرﯾﺔ وﺗﺗراوح أﻋﻣﺎرھم ﺑﯾن 17 و25 ﻋﺎم ، ﺟﻣﯾﻌﮭم ﺗطوﻋوا ﻟﻺﺷﺗراك ﻓﻰ ھذا اﻹﺧﺗﺑﺎر. اﻟﻣﮭﻣﺔ اﻷﺳﺎﺳﯾﺔ ﻟﻠﻣﺳﺗﻣﻌﯾن ھﻰ اﻹﺳﺗﻣﺎع ﺑﺣرص ﺷدﯾد إﻟﻰ اﻟﻣﺗﻛﻠﻣﯾن اﻟﻌﺷرة وﺗﺣدﯾد اﻟﻣﺗﻛﻠم اﻷﺳرع و أﯾﺿﺎ اﻟﻣﺗﻛﻠم اﻷﺑطﺄ ﻣن ﺣﯾث ﺳرﻋﺔ اﻟﻛﻼم ﻋن طرﯾﻖ وﺿﻊ ﻋﻼﻣﺔ )√( أﻣﺎم اﻟرﻣز اﻟدال ﻋﻠﯾﮫ.

اﻟﻧﺗﺎﺋﺞ

ﺗﺷﯾر اﻟﻧﺗﺎﺋﺞ إﻟﻰ أن:

1. أﻛﻮﺳﺘﯿﻜﯿﺎً و إدراﻛﯿﺎً: ﺳﺮﻋﺔ اﻟﻜﻼم ﻣﻮﺿﺤﺔ ﻓﻰ ﻣﻌﺪل ﺳﺮﻋﺔ اﻟﻜﻼم )(SRھﻰ اﻟﻤﻌﯿﺎر اﻷﻗﻮى ﻓﻰ اﻟﺘﻌﺮف ﻋﻠﻰ اﻟﻤﺘﻜﻠﻤﯿﻦ ﻏﯿﺮ اﻟﻤﻌﺮوﻓﯿﻦ; ﺑﯿﻨﻤﺎ ﻣﻌﺪل ﺳﺮﻋﺔ ﻧﻄﻖ اﻷﺻﻮات (اﻟﺼﻮاﻣﺖ واﻟﺼﻮاﺋت )(AR) ﻛﺎن أﻗﻞ ﺗﺄﺛﯿﺮا ﻋﻠﻰ ﺗﺤﺪﯾﺪ ﺳﺮﻋﺔ اﻟﻤﺘﻜﻠﻢ.

2. اﻟﻨﺴﺒﺔ اﻟﻤﺌﻮﯾﺔ ﻟﻠﻮﻗﻔﺎت ﺗﻠﻌﺐ دوراً ﻣﮭﻤﺎ ﺟﺪاً ﻋﻠﻰ اﻟﻤﺴﺘﻮﯾﯿﻦ اﻹدراﻛﻲ واﻷﻛﻮﺳﺘﯿﻜﻲ؛ ﻋﻠﻰ اﻟﻤﺴﺘﻮى اﻹدراﻛﻲ ﻓﺈن زﯾﺎدة اﻟﻨﺴﺒﺔ اﻟﻤﺌﻮﯾﺔ ﻟﻠﻮﻗﻔﺎت ﺗُﻌﺪّ ﻣﻦ أھﻢ اﻟﻌﻨﺎﺻﺮ اﻟﺘﻲ ﺗﺆﺛﺮ ﻋﻠﻰ إدراك اﻟﻤﺴﺘﻤﻌﯿﻦ ﻟﻠﺴﺮﻋﺔ اﻟﺰﻣﻨﯿﺔ ﻟﻠﻜﻼم، ﺣﯿﺚ ﺗﺸﯿﺮ إﻟﻰ ﺳﺮﻋﺔ اﻟﻜﻼم اﻟﺒﻄﯿﺌﺔ. أﻣﺎ ﻋﻠﻰ اﻟﻤﺴﺘﻮى اﻷﻛﻮﺳﺘﯿﻜﻲ: ﻓﻠﯿﺲ ﻟﮭﺎ أي ﺗﺄﺛﯿﺮ واﺿﻊ ﻋﻠﻰ زﯾﺎدة أو ﻧﻘﺼﺎن ﺳﺮﻋﺔ اﻟﻜﻼم ﻟﻠﻤﺘﻜﻠﻢ.

3. درﺟﺔ اﻟﺘﻠﻌﺜﻢ ﻓﻰ اﻟﻜﻼم (اﻟﻮﻗﻔﺎت اﻟﻤﻤﻠﻮءة pauses filled )، ﺗُﻌﺪ ﻣﻦ اﻟﻌﻨﺎﺻﺮ اﻟﻤُﻤﯿﺰة ﻓﻰ اﻟﺘﻌﺮف ﻋﻠﻰ اﻟﻤﺘﻜﻠﻢ اﻷﺳﺮع ﻣﻦ ﺣﯿﺚ ﺳﺮﻋﺔ اﻟﻜﻼم ﻟﻠﻤﺘﻜﻠﻢ. وﻣﻊ ذﻟﻚ ﻓﻠﯿﺲ ﻟﮭﺎ أي دور ﻓﻌّﺎل ﻓﻰ اﻟﺘﻌﺮف ﻋﻠﻰ اﻟﻤﺘﻜﻠﻢ اﻷﺑﻄﺄ .

4. اﻟﺘﺮدد اﻷﺳﺎﺳﻲ ﻟﻠﻤﺘﻜﻠﻢ ﯾُﻌﺪ ﻣﻦ اﻟﻌﻨﺎﺻﺮ اﻷﻛﻮﺳﺘﯿﻜﯿﺔ اﻟﻤُﻤﯿﺰة ﻟﺘﺤﺪﯾﺪ ﺳﺮﻋﺔ اﻟﻜﻼم ﻟﻠﻤﺘﻜﻠﻢ ،ﺑﺤﯿﺚ زﯾﺎدة اﻟﺘﺮدد اﻷﺳﺎﺳﻲ ﻟﻠﻤﺘﻜﻠﻢ ﺗﺸﯿﺮ إﻟﻰ زﯾﺎدة ﻣﻌﺪل ﺳﺮﻋﺔ ﻛﻼﻣﮫ إدراﻛﯿﺎ وأﻛﻮﺳﺘﯿﻜﯿﺎ.

5. ﻣﺘﻮﺳﻂ ﺷﺪة اﻟﺼﻮت ﻟﺪى اﻟﻤﺘﻜﻠﻢ ﯾُﻌﺪ ﻣﻦ اﻟﻨﺎﺣﯿﺔ اﻹدراﻛﯿﺔ ﻣﻦ اﻟﻌﻨﺎﺻﺮ اﻟﻤُﻤﯿﺰة ﺑﺎﻟﻨﺴﺒﺔ إﻟﻰ آذان اﻟﻤﺴﺘﻤﻌﯿﻦ، ﺑﺤﯿﺚ زﯾﺎدة ﺷﺪة اﻟﺼﻮت ﺗﺸﯿﺮ إﻟﻰ زﯾﺎدة ﻣﻌﺪل ﺳﺮﻋﺔ اﻟﻜﻼم ﻟﻠﻤﺘﻜﻠﻢ ,وأﯾﻀﺎ ﻧﻘﺼﺎن ﺷﺪة اﻟﺼﻮت ﺗﺪل ﻋﻠﻰ ﻧﻘﺼﺎن ﻣﻌﺪل ﺳﺮﻋﺔ اﻟﻜﻼم ﻟﻠﻤﺘﻜﻠﻢ. وﻟﻜﻦ ھﺬه اﻟﻨﺘﺎﺋﺞ ﻻ ﺗﻨﻄﺒﻖ ﻋﻠﻰ اﻟﻤﺴﺘﻮى اﻷﻛﻮﺳﺘﯿﻜﻲ.

ــــــــــــــــــــــــــــ

* الرسالة باللغة الإنجليزية.

انقر هنا للدخول أو صفحة التحميل

من الذكاء الاصطناعي في الأصوات (سيري SIRI)

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ

خاص ـ مكتبة وملتقى علم الأصوات

   قبل أن نبدأ يجب أن نعرّف مصطلح (سيري SIRI) : 

   هو مساعد شخصي ذكي و متصفح معرفى (تأسس في عام 2007 م) يعمل كتطبيق لشركة أبل نظام تشغيل آي أو إس IOS. وهو تطبيق يستخدم واجهة مستخدم اللغة الطبيعية (ومنها العربية) للرد على الأسئلة، وتقديم توصيات ، وتنفيذ إجراءات من خلال تفويض طلبات لمجموعة من خدمات الإنترنت، وحوار المستخدم مع هذا المجيب الآلي الذكي كما هي في أجهزة أبل (آيفون ـ أيباد ...).  

      والجديد في صوت Siri – سواء الرجولي أو الأنثوي – تم تحسينه في نظام iOS 11 (وهو نظام تشغيل من آبل للأيفون والأيباد... ، يعمل كنظام الأندرويد والوندوز لكنه نظام خاص بشركة آبل) ليصبح طبيعياً أكثر ، و أقرب للصوت البشري من ناحية طبقة الصوت و النغمة و العمق ليبدو معبراً بشكل أفضل بعيداً عن الصوت الآلي الروبوتي التقليدي، علماً أن نوعية الصوت أيضاً تعتمد على الذكاء الاصطناعي والوقع المعزز والافتراضي، مما يعني أن الصوت سوف يتحسن أكثر وحده بمرور الوقت ، نأمل أن يشمل هذا أيضاً الصوت العربي لسيري.

#مكتبة_وملتقى_علم_الأصوات

#2017

ـــــــــــــــــ

المراجع :

https://www.apple.com/ios/siri

https://en.wikipedia.org/wiki/Siri

انقر هنا للدخول أو صفحة التحميل

من أهداف الموقع:

1. الحفاظ على اللغة العربية ونشرها وتسهيل تعليم اللغة العربية لغير الناطقين بها (صوتيا).

2. جمع مؤلفات علم الأصوات وبحوثه في كل فروعه (القديمة والحديثة).في مكان واحد منشورة مسبقا أو غير منشورة.
3. نشر المؤلفات والبحوث والعمل على توفير غير المصور منها إلكترونيا ليستفيد الباحثون (عمل طوعي من الجميع).
4. تداول المعلومات في مجال اللسانيات وعلم الأصوات وعمل حوارات بناءة ذات مردود علمي، سواء في الموقع (المدونة) أو مجموعة الفيس بوك.
5. العمل كمنتدى يجمع دارسي علم الاصوات واللسانيات العامة في مكتبة واحدة.
6. تذليل الصعاب أمام الباحثين وتوفير المعلومة والمرجع والإجابة عن استفسارات تعوق مسيرتهم البحثية (وهذا بإسهام جميع الأعضاء لا الإدارة)

مكتبة وملتقى علم الأصوات Phonetics & Acoustics

نظرة متعمقة في علم الأصوات ـ د. هلا السعيد

رسالة : التعرف على المتكلم اعتماداً على معايير السرعة الزمنية* Speaker Identification Based On Temporal Parameters (ماجستير) - إيمان محمد يسري

رسالة : التحليل النطقي والفيزيائي للأصوات المفخمة في العربية ـ رسالة دكتوراه ـ نادر جمعة

من الذكاء الاصطناعي في الأصوات (سيري SIRI 11) ـ خاص ـ مكتبة وملتقى علم الأصوات

اتصل بنا (الرسائل السريعة) أو (الإبلاغ عن رابط لا يعمل مع ذكر اسم الكتاب أو البحث)

محرك بحث الموقع

أنت الزائر رقم

الشيفرة الإلكترونية للموقع

من أهداف الموقع:

الأكثر تحميلاً / الأكثر مشاهدة

المكتبة

فروع علم الأصوات

إرشيف الموقع

فعاليات الملتقى

من نحن

المتواجدون الآن

Translate

للإعجاب بصفحتنا على الفيس بوك

التتبع

المتابعون