عنوان پایاننامه
بازشناسی گفتار فارسی با استفاده از شبکه عصبی کوتاه مدت ماندگار
- رشته تحصیلی
- علوم تصمیم و مهندسی دانش
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 573;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78863;کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 573;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78863
- تاریخ دفاع
- ۲۴ شهریور ۱۳۹۵
- دانشجو
- محمد دانشور
- استاد راهنما
- هادی ویسی
- چکیده
- بازشناسی گفتار یکی از موضوعات کاربردی در حوزهی پردازش گفتار است که هدف اصلی آن، دریافت صدای گوینده و تبدیل سیگنال دریافتی به متن یا اجرای دستور کاربر است. روشهای متدوال امروزی برای بازشناسی گفتار استفاده از مدلهای آماری مانند مدل مختفی مارکوف و یا استفاده از شبکههای عصبی است. هدف این پایاننامه استفاده از نوعی شبکه عصبی بازگشتی به نام حافظه کوتاه-مدت ماندگار است که با جایگزین کردن واحدهای شبکه عصبی با بلوکهای حافظه توانسته به مشکل فراموشی در دنبالههای طولانی غلبه کند. در این پایاننامه از شبکه عصبی حافظه کوتاه-مدت ماندگار برای بازشناسی گفتار فارسی استفاده شده است. همچنین طبقهبند زمانی پیوندگرا برای محاسبه خروجی شبکه عصبی در سطح واج مورد استفاده قرار گرفته است. روش مرجع برای مقایسه نتایج به دستآمده در این پایاننامه استفاده از مدل مخفی مارکوف است. مدل مخفی مارکوف یک روش آماری است که تا زمان ارائه شبکه عصبی حافظه کوتاه-مدت ماندگار به عنوان بهترین روش در بازشناسی گفتار مورد استفاده قرار گرفته است. کمترین مقدار خطای تشخیص واج به دست آمده در این پایاننامه روی دادگان فارسدات 17.3 درصد خطا در بازشناسی واج که نسبت به روش مرجع 7.49 درصد بهبود نشان میدهد. همچنین با استفاده از یک روش ابتکاری در پسپردازش، میزان خطای حذف روی دادگان ارزیابی 0.2 درصد بهبود پیدا کرد.
- Abstract
- An Automatic Speech Recognition (ASR) is an important area in speech processing. Main goal of ASR is to convert the input voice signal into text or command. Statistical models like Hidden Markov Model (HMM) and Machine Learning methods such as Artificial Neural Networks (ANN) are two main approaches in ASR. In this work, we used Long Short-Term Memory (LSTM) neural network to implement a Persian speech recognition system. Recently, Recurrent Neural Networks (RNNs) have shown impressive performance in sequence classification tasks. In this thesis, we apply LSTM neural network on Persian phoneme recognition. LSTM is a recurrent neural network which uses memory cells and multiplicative gates which makes LSTM the best neural network with ability to memorize values in long time sequences. Also, Connectionist Temporal Classification (CTC) is used to overcome neural networks challenge in phonemewise speech recognition. According to CTC learning algorithm there is no need to segment data for each signal frame which eliminates error of speech data framewise segmentation. We compare our result with HMM result on Farsdat dataset. In this thesis, multilayer LSTM-CTC network is also used for Persian speech recognition. This multilayer network leads to 7.3 percent in Phoneme Error Rate (PER). This result shows 7.49 percent PER improvement compared to HMM method