عنوان پایان‌نامه

بازشناسی گفتار فارسی با استفاده از شبکه عصبی کوتاه مدت ماندگار



    دانشجو در تاریخ ۲۴ شهریور ۱۳۹۵ ، به راهنمایی ، پایان نامه با عنوان "بازشناسی گفتار فارسی با استفاده از شبکه عصبی کوتاه مدت ماندگار" را دفاع نموده است.


    مقطع تحصیلی
    کارشناسی ارشد
    محل دفاع
    کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 573;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78863;کتابخانه دانشکده علوم و فنون نوین شماره ثبت: 573;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78863
    تاریخ دفاع
    ۲۴ شهریور ۱۳۹۵
    دانشجو
    محمد دانشور
    استاد راهنما
    هادی ویسی

    بازشناسی گفتار یکی از موضوعات کاربردی در حوزه‌ی پردازش گفتار است که هدف اصلی آن، دریافت صدای گوینده و تبدیل سیگنال دریافتی به متن یا اجرای دستور کاربر است. روش‌های متدوال امروزی برای بازشناسی گفتار استفاده از مدل‌های آماری مانند مدل مختفی مارکوف و یا استفاده از شبکه‌های عصبی است. هدف این پایان‌نامه استفاده از نوعی شبکه عصبی بازگشتی به نام حافظه کوتاه-مدت ماندگار است که با جایگزین کردن واحدهای شبکه عصبی با بلوک‌های حافظه توانسته به مشکل فراموشی در دنبا‌له‌های طولانی غلبه کند. در این پایان‌نامه از شبکه عصبی حافظه کوتاه-مدت ماندگار برای بازشناسی گفتار فارسی استفاده شده است. همچنین طبقه‌بند زمانی پیوندگرا برای محاسبه خروجی شبکه عصبی در سطح واج مورد استفاده قرار گرفته است. روش مرجع برای مقایسه نتایج به دست‌آمده در این پایان‌نامه استفاده از مدل مخفی مارکوف است. مدل مخفی مارکوف یک روش آماری است که تا زمان ارائه شبکه عصبی حافظه کوتاه-مدت ماندگار به عنوان بهترین روش در بازشناسی گفتار مورد استفاده قرار گرفته است. کمترین مقدار خطای تشخیص واج به دست آمده در این پایان‌نامه روی دادگان فارس‌دات 17.3 درصد خطا در بازشناسی واج که نسبت به روش مرجع 7.49 درصد بهبود نشان می‌دهد. همچنین با استفاده از یک روش ابتکاری در پس‌پردازش، میزان خطای حذف روی دادگان ارزیابی 0.2 درصد بهبود پیدا کرد.
    Abstract
    An Automatic Speech Recognition (ASR) is an important area in speech processing‎. ‎Main goal of ASR is to convert the input voice signal into text or command‎. ‎Statistical models like Hidden Markov Model (HMM) and Machine Learning methods such as Artificial Neural Networks (ANN) are two main approaches in ASR‎. ‎In this work, we used Long Short-Term Memory (LSTM) neural network to implement a Persian speech recognition system‎‎. ‎Recently, Recurrent Neural Networks (RNNs) have shown impressive performance in sequence classification tasks‎. ‎In this thesis, we apply LSTM neural network on Persian phoneme recognition‎. ‎LSTM is a recurrent neural network which uses memory cells and multiplicative gates which makes LSTM the best neural network with ability to memorize values in long time sequences‎. ‎Also, Connectionist Temporal Classification (CTC) is used to overcome neural networks challenge in phonemewise speech recognition‎. ‎According to CTC learning algorithm there is no need to segment data for each signal frame which eliminates error of speech data framewise segmentation. We compare our result with HMM result on Farsdat dataset. In this thesis, multilayer LSTM-CTC network is also used for Persian speech recognition‎. ‎This multilayer network leads to 7.3 percent in Phoneme Error Rate (PER). ‎This result shows 7.49 percent PER improvement compared to HMM method