عنوان پایاننامه
بهبود کیفیت سیستم های تبدیل گفتار شخص به شخص با استفاده از آموزش غیر موازی
- رشته تحصیلی
- مهندسی برق- مهندسی پزشکی - بیوالکتریک
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E2044;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 53330;کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E2044
- تاریخ دفاع
- ۰۳ خرداد ۱۳۹۱
- دانشجو
- سعید مطیعیان
- استاد راهنما
- حمید سلطانیان زاده
- چکیده
- امروزه سیستمهای پردازش گفتار نقش مهمی را در صنعت بازی میکنند و دارای کاربردهای مختلفی هستند. سیستمهای تبدیل صدا یکی از سیستمهای جدید پردازش گفتار هستند. هدف از تبدیل صدا، تبدیل صدای گویندهی مرجع به گویندهی هدف میباشد. در واقع میخواهیم صدای گوینده مرجع را طوری تغییر دهیم که گویی گویندهی هدف صحبت می کند. بیشتر سیستمهای تبدیل صدا نیازمند دادگان آموزشی یکسان(موازی) در مرحله آموزش هستند که به این سیستمها، سیستمهای وابسته به متن میگویند. در بسیاری از کاربردهای عملی، بدست آوردن دادگان یکسان امکان پذیر نیست بنابراین اخیرا سیستمهای مستقل از متن معرفی شدهاند. این سیستمها نیاز به دادگان آموزشی غیر یکسان(ناموازی) داند. در این پایاننامه، ابتدا مشکلات سیستمهای تبدیل صدا مستقل از متن بررسی شده و سپس روشی بر مبنای تئوری اطلاعات پیشنهاد میشود که کیفیت سیستمهای تبدیل صدا را بهبود میدهد. سیستمهای موجود تبدیل صدا مستقل از متن، برای پیدا کردن بردارهای متناظر گویندههای هدف و مرجع از معیار کمترین فاصله استفاده میکنند. گرچه این معیار دارای مزیتهایی است ولی به علت ماهیت این معیار، خطاهایی وارد سیستم میشود. در روش ارائه شده سعی بر این است که این خطاها کاهش پیدا کنند. در روش پیشنهادی ابتدا بردارهای گویندههای هدف و مرجع با استفاده از معیار تئوری اطلاعات مستقلا خوشه بندی میشود. سپس برای هر خوشه از گوینده مرجع خوشهای از گویندهی هدف که مقدار اطلاعات متقابل بیشتری دارد انتخاب میشود. و سپس با استفاده از معیار کمترین فاصله، بردارهای متناظر بدست میایند. در این پایاننامه از پایگاه دادهی CMU استفاده شده است. ارزیابیهای کیفی و کمی برتری این روش را نسبت به روشهای مستقل از متن نشان میدهند. همچنین صداهای تولیدی در مقایسه با صداهای تولید شده با استفاده از روش وابسته به متن مدل مخلوط گوسی میباشد.
- Abstract
- Abstract—Most voice conversion systems require parallel corpora for their training stage which means that source and target speakers should utter the same sentences. But in most practical applications, it is impossible to obtain parallel corpora. To solve this problem, text-independent voice conversion has been introduced. The main problem in text-independent voice conversion is data alignment. In this thesis we introduce a novel algorithm based on mutual information for data alignmen. This algorithm does not require phonetic labeling and can be used in practical applications. In this algorithm, first feature vectors have been clustered by mutual information separately. Then for each source cluster, we select a target cluster that has maximum mutual information with. Also for unselected target clusters, we select a source cluster that has maximum mutual information with. Now for each vector in a source cluster, we find a nearest neighbor target vector in corresponding target cluster. Objective and subjective tests show that this algorithm has the similar results to those of text-dependent systems and also has superior results than text-independent algorithms. Key words: Text-Independent Voice conversion, Mutual Information, Frame alignment, Mel cepstral frequency warping.