عنوان پایان‌نامه

بهبود کیفیت سیستم های تبدیل گفتار شخص به شخص با استفاده از آموزش غیر موازی



    دانشجو در تاریخ ۰۳ خرداد ۱۳۹۱ ، به راهنمایی ، پایان نامه با عنوان "بهبود کیفیت سیستم های تبدیل گفتار شخص به شخص با استفاده از آموزش غیر موازی" را دفاع نموده است.


    محل دفاع
    کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E2044;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 53330;کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E2044
    تاریخ دفاع
    ۰۳ خرداد ۱۳۹۱
    استاد راهنما
    حمید سلطانیان زاده

    امروزه سیستم‌های پردازش گفتار نقش مهمی را در صنعت بازی می‌کنند و دارای کاربردهای مختلفی هستند. سیستم‌های تبدیل صدا یکی از سیستم‌های جدید پردازش گفتار هستند. هدف از تبدیل صدا، تبدیل صدای گوینده‌ی مرجع به گوینده‌ی هدف می‌باشد. در واقع می‌خواهیم صدای گوینده مرجع را طوری تغییر دهیم که گویی گوینده‌ی هدف صحبت می کند. بیشتر سیستم‌های تبدیل صدا نیازمند دادگان آموزشی یکسان(موازی) در مرحله آموزش هستند که به این سیستم‌ها، سیستم‌های وابسته به متن می‌گویند. در بسیاری از کاربردهای عملی، بدست آوردن دادگان یکسان امکان پذیر نیست بنابراین اخیرا سیستم‌های مستقل از متن معرفی شده‌اند. این سیستم‌ها نیاز به دادگان آموزشی غیر یکسان(ناموازی) داند. در این پایان‌نامه‌، ابتدا مشکلات سیستم‌های تبدیل صدا مستقل از متن بررسی شده و سپس روشی بر مبنای تئوری اطلاعات پیشنهاد می‌شود که کیفیت سیستم‌های تبدیل صدا را بهبود می‌دهد. سیستم‌های موجود تبدیل صدا مستقل از متن، برای پیدا کردن بردارهای متناظر گوینده‌های هدف و مرجع از معیار کمترین فاصله استفاده می‌کنند. گرچه این معیار دارای مزیت‌هایی است ولی به علت ماهیت این معیار، خطاهایی وارد سیستم می‌شود. در روش ارائه شده سعی بر این است که این خطاها کاهش پیدا کنند. در روش پیشنهادی ابتدا بردارهای گوینده‌های هدف و مرجع با استفاده از معیار تئوری اطلاعات مستقلا خوشه بندی می‌شود. سپس برای هر خوشه‌ از گوینده مرجع خوشه‌ای از گوینده‌ی هدف که مقدار اطلاعات متقابل بیشتری دارد انتخاب می‌شود. و سپس با استفاده از معیار کمترین فاصله، بردارهای متناظر بدست میایند. در این پایان‌نامه از پایگاه داده‌‌ی CMU استفاده شده است. ارزیابی‌های کیفی و کمی برتری این روش را نسبت به روش‌های مستقل از متن نشان می‌دهند. همچنین صداهای تولیدی در مقایسه با صداهای تولید شده با استفاده از روش وابسته به متن مدل مخلوط گوسی می‌باشد.
    Abstract
    Abstract—Most voice conversion systems require parallel corpora for their training stage which means that source and target speakers should utter the same sentences. But in most practical applications, it is impossible to obtain parallel corpora. To solve this problem, text-independent voice conversion has been introduced. The main problem in text-independent voice conversion is data alignment. In this thesis we introduce a novel algorithm based on mutual information for data alignmen. This algorithm does not require phonetic labeling and can be used in practical applications. In this algorithm, first feature vectors have been clustered by mutual information separately. Then for each source cluster, we select a target cluster that has maximum mutual information with. Also for unselected target clusters, we select a source cluster that has maximum mutual information with. Now for each vector in a source cluster, we find a nearest neighbor target vector in corresponding target cluster. Objective and subjective tests show that this algorithm has the similar results to those of text-dependent systems and also has superior results than text-independent algorithms. Key words: Text-Independent Voice conversion, Mutual Information, Frame alignment, Mel cepstral frequency warping.