Upload
salma-subh
View
341
Download
2
Tags:
Embed Size (px)
1
“One of the most fascinating characteristics of humans is their capability to communicate ideas by means of
speech”
An Advanced Method for Speech Recognition
Prepared By:
Salma Subh Mohmmed&
Mahmoud Abd _Elmotelb Ibrhaim Mohammed
3
Production of Speech•voiced excitation•unvoiced excitation•transient excitation
Characteristics of the Speech•The bandwidth of the signal is 4 kHz•The signal is periodic with a fundamental frequency between 80 Hz and 350 Hz•There are peaks in the spectral distribution of energy at(2n − 1) ∗ 500 Hz ; n = 1, 2, 3, . . . (1.1)•The envelope of the power spectrum of the signal shows a decrease withincreasing frequency (-6dB per octave)
4
5
*Speech Recognition
• * is the process by which a computer (or other type of machine) identifies spoken words. Basically, it means talking to your computer, AND having it correctly recognize what you are saying.
Hallow
6
Acoustic processing
Feature extraction
Classification and
recognition
Feature selection
UTA algorithm
Fast Fourier Transform
Mels Scale Bank pass Filtering
Cepstral Analysis.
speech recognition process contains four
main stages:
Speech Recognition System
Three steps to do it
1- Pre-processing ( Analysis Speech) 2- Recognition
3- ( spectral analysis> ) parameter Conversion
7
Acoustic processing
8
AnalysisSpeech Analysis Techniques Based On Linear Prediction And Filterbanks.
Pre-processing
األساسية • المعالجة تسبق التي العمليات وهيللصوت
إل • الحاسوب إلى المدخل الصوت شكل ىتحويلال معه recognizer يستطيع التعامل
9
pre-processing
(Data collection & acquisition )واكتسابها البيانات تجميع
صوتية بصمات لهم ونأخذ متقاربة أعمار في وإناث ذكور معينين أشخاص جمع ومعناها
(voiced & unvoiced detection )مسموع والغير المسموع اكتشاف
... مسموعة وغير مسموعة أصوات الكالم في لدينا يكون أن الطبيعي من
لها : اى يكون .. : amplitudeالمسموع الذى وهو ، ظاهر غير اى مسموع الغير كبيرamplitude يشبه مما noiseصغير
ex
10
end -point-detection
المفيد الكالم ونهاية بداية تحديد
السكوت .. فترة فهناك شخص يتكلم عندمايكون ال له ampltiudeوهنا ولكن صفر
بـ يسمى وهذا جدا صغيرة noiseقيمة
11
Time Wrapping( segmentation into frame )
نطقوا األشخاص من مجموعة لدينا كان لو مثاللكل الصوتي التسجيل واحدة شخص كلمة
فترة في الكلمة نطق فرد كل أن فية نالحظ .. طول تحديد يجب وبالتالي األخر عن مختلفة
.. الصوتية البصمات لجميع معين
12
Framingجدا • بسيطة زمنية فترة خالل فإنه معين بحرف النطق أثناء
غير ثبات في النطق أعضاء هي ستكون الفترة وهذه 20ملحوظثانية ملي
•Speech ( كل ثبات فيها صغيرة ( 20يحدث فترة وهي ثانية مليتذكر ال تكاد جدا
ال • نقسم من speech سوف مجموعة أن framesإلى بحيثكل frame 20كل من نأخذ ثم ، ثانية sampleعينة frameملى
خصائص عن frameتعبر
13
Windwing
الخطأ • نسبة من التقليل يتم المرحلة هذه وبواسطةموجات تقسيم نتيجة تحدث قد إلى التي framesالكالم
•The most common in speech analysis is the Hamming window:
14
15
Mels Scale
Bank pass
Filtering
We can now assemble a set of band pass filters to analyse speech. These need to be covering - that is every frequency is covered by one filter so no information is lost
LPC
Linear predictive
analysis
is a popular speech coding analysis
Recognitionالمدخل • الصوت على التعرف مرحلة•: قسمين إلى المرحلة هذه تنقسم
(identification & verification)
Identification : على الطريقة هذه Distance تعتمدmeasurement
معينة كثافة داخل صحيح شيء اقرب حساب وهىالبصمة مثل
Verification : من الناتج صحة من التأكد وهىالسابقة 16الخطوة
#Concept
isolated word recognition I W Rال ألننا وذلك التعرف أنواع أسهل وهو بعضها عن ومعزولة منفصلة كلمات على للتعرف ويستخدم
ال مشكلة في co-articulationنواجه الحرف مع األولى الكلمة نهاية في الحرف التقاء وهيالتعرف في صعوبة يسبب مما الثانية الكلمة بداية
connected word recognition C W Rبوضع وذلك بفواصل الكلمات من مجموعة على للتعرف يشبه Stopsيستخدم وهو الكلمات بين
التعرف في أصعب لكنه السابق النوع
continuous speech recognition C S Rالمتواصل الكالم على للتعرف وهي
Speech understanding S Uإلى تحويله وممكن خاصة مترجمات بواسطة الكالم فهم عمليات عليه وهي التعرف بعد نصوص
speaker identification ,speaker verification S I, S V
word spottingمعينة كلمات عن للتنقيب ويستخدم
17
18
# Generally, there are three usual methods in speech
Recognition
•between two time series •determine if two waveforms represent the
same spoken
recognition: Dynamic Time
Warping (DTW )
• having a given number of stateHidden Markov
Model (HMM)
•parallel distributed processing•faster
Artificial Neural Networks
(ANNs)
19
Hidden Markov Models(HMM )
20
A hidden Markov model (HMM) is a statistical Markov model in which the system being modeled is assumed to be a Markov process with unobserved (hidden) states.
An HMM can be considered as the simplest dynamic Bayesian network.
In a regular Markov model, the state is directly visible to the observer, and therefore the state transition probabilities are the only parameters.
In a hidden Markov model, the state is not directly visible, but output, dependent on the state, is visible.
Each state has a probability distribution over the possible output tokens. Therefore the sequence of tokens generated by an HMM gives some information about the sequence of states.
21
Note that the adjective 'hidden' refers to the state sequence through which the model passes, not to the parameters of the model; even if the model parameters are known exactly, the model is still 'hidden'.
Hidden Markov models are especially known for their application in temporal pattern recognition such as speech, handwriting, gesture recognition, part-of-speech tagging, musical score following, partial discharges and bioinformatics.
A hidden Markov model can be considered a generalization of a mixture model where the hidden variables (or latent variables), which control the mixture component to be selected for each observation, are related through a Markov process rather than independent of each other.
التالية :• السلسلة إنشاء يمكننا ، السابق المخطط منN1 N2 N3
N1 N2 N2 N2 N3 N3 N3 N3 N3N1 N1 N2 N2 N3
كالتعرف المعقدة األشياء حاله في المخططات تلك بين المساراتهو كما ، القيم بعض عليها تكون ، اللغات ومعالجة الصوت على
القادمة الصورة في موضح
22
يلي : كما ، مسار كل في بعضها مع وضربها القيم بإسناد نقوم سوف أالن
N1 N2 N3 = 0.4 * 0.8 * 0.5 = 0.16
N1 N2 N2 N2 N3 N3 N3 N3 N3 = 0.4 x 0.2 x 0.2 x 0.8 x 0.5 x 0.5 x 0.5 x 0.5 = 0.0008
N1 N1 N2 N2 N3 = 0.6 x 0.4 x 0.2 x 0.8 x 0.5 = 0.192
•قد ، ماركوف نموذج يسمى القيم مع الموجه المخطط هذاتم حال في جدا فعال ولكنه ، فكرته لبساطه نظرا تتعجب
الصوت . على كالتعرف ما مشكله في استخدامه
مع التعامل البرنامج على يجب ، الصوت على التعرف حاله فيمن ) أكثر لها مختلف بشكل تنطق منها وكل الكلمات من اآلالف
بكلمة( كلمه البحث وطريقة ، بتاتا brute forceنطق مجدية غيراستخدام مع لكن ، أيضا والذاكرة الوقت من الكثير وتستهلك
النطق طريقه واختيار الكلمات تمثيل من يمكننا ماركوف نموذجكلمه لنطق التالي بالمثال األمر هذا نوضح ، أيضا المناسبة
tomato.
23
t ow m aa t ow - British Englisht ah m ey t ow - American Englisht ah mey t a - Possibly pronunciation when speaking quickly
المخفية : ماركوف نماذج مع ارتبطت رئيسية خوارزميات ثالث هنــاك
The forward algorithm, useful for isolated word recognition
The Viterbi algorithm, useful for continuous speech recognition
The forward-backward algorithm, useful for training an HMM
24
Good luck!