استفاده از یادگیری عمیق برای بازشناسی گفتار زبان فارسی
- رشته تحصیلی
- علوم تصمیم و مهندسی دانش
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 706;کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 706
- تاریخ دفاع
- ۱۵ اسفند ۱۳۹۵
- دانشجو
- ارمیتا حجی مانی
- استاد راهنما
- هادی ویسی
- چکیده
- به فرآیند تبدیل سیگنال صوتی به متن معادل آن تشخیص گفتار گفته می¬شود. امروزه از روش¬های مختلفی جهت بازشناسی گفتار استفاده می¬شود که مهمترین آنها روش آماری مدل مخفی مارکوف و شبکه عصبی می¬باشد. . یکی از مشکلاتی که هنوز در این حوزه مطرح است، بحث افزایش دقت و کارایی این سیستم¬ها می¬باشد و با توجه به این¬که یکی از راه¬های افزایش دقت سیستم¬های بازشناسی گفتار، بهبود مدل آوایی می¬باشد، در این پایان¬نامه برای اولین بار از شبکه عصبی عمیق حافظه کوتاه مدت ماندگار (LSTM) یکطرفه و دو¬طرفه با لایه خروجی طبقه¬بند زمانی پیوند¬گرا (CTC) جهت ساخت مدل آوایی فارسی استفاده شده است. از آنجایی¬که سیگنال صوت نمونه¬ای از دادههای متوالی می¬باشد که در آنها مقدار داده فعلی به دادههای قبلی وابسته است، شبکه¬های عصبی بازگشتی به دلیل دارا بودن حافظه برای این نوع داده¬ها مناسب می¬باشند. شبکه عصبی حافظه کوتاه مدت ماندگار یک شبکه عصبی بازگشتی است که در آن با جایگزین کردن نرون¬های لایه پنهان با بلوک¬های حافظه، مشکل فراموشی داده¬ها در دنباله¬های طولانی رفع شده است و کارایی بالای خود را در مدلسازی دادههای ترتیبی در کاربردهای مختلف نشان داده است. همچنین در این پایاننامه، از شبکه باور عمیق (DBN) جهت استخراج ویژگی استفاده شده است و نتایج به¬دست آمده با روش پایه استخراج ویژگی که همان ضرایب کپسترال در مقیاس مل (MFCC) است، مقایسه گردیده است. نتایج به-دست آمده نشان می¬دهد که استفاده از شبکه عمیق در مقایسه با شبکه یک¬لایه کارایی را بالاتر میبرد. به¬علاوه، استفاده از شبکه دو¬طرفه موجب افزایش دقت شبکه در مقایسه با شبکه یکطرفه، هم در حالت عمیق و هم در حالت غیرعمیق می¬گردد. نتایج به¬دست آمده با مدل مخفی مارکوف (HMM) مقایسه شده است که نشان می¬دهد، استفاده از شبکه عصبی عمیق حافظه کوتاه مدت ماندگار دو¬طرفه (DBLSTM) با ویژگی¬های حاصل از شبکه باور عمیق در بهترین حالت موجب بهبود دقت تشخیص واج فارسی به¬میزان 8.1% در مقایسه با مدل مخفی مارکوف روی مجموعه دادههای فارس¬دات شده است.
- Abstract
- The process of converting speech signal to its equivalent text is known as Automatic Speech Recognition (ASR). The most important methods for speech recognition are Hidden Markov Model (HMM) and Artificial Neural Network (ANN). One way to increase the accuracy of a speech recognition system is improving the quality of Acoustic Modeling (AM). In this thesis, for the first time, we have used deep unidirectional and bidirectional Long Short Term Memory (LSTM) neural network with Connectionist Temporal Classification (CTC) output layer to create Persian acoustic models. Because of the sequential structure of speech signal, recurrent neural networks are appropriate for processing them. However, because of vanishing problem of recurrent neural networks they are not suitable for processing long sequential data. LSTM as a recurrent neural network, has solved the vanishing problem by replacing hidden layer neurons with memory blocks. Moreover, in this thesis we have used Deep Belief Network (DBN) for feature extraction and compared the results with the baseline feature extraction method, Mel Frequency Cepstral Coefficient (MFCC). The results show that, the accuracy of phoneme recognition is improved by using DBN features in comparision with the MFCC. Also, deep bidirectional LSTM with DBN features has improved the Persian phoneme recogntion rate about 8.1% in comparison with the HMM on Farsdat speech dataset. Keywords Persian speech recognition, Long short term memory neural network, Bidirectional neural network, Deep neural network, Recurrent neural network, Connectionist temporal classification