عنوان پایاننامه
طراحی یک کنترل¬کننده نرخ بیت آگاه از محتوا برای بازی¬های مبتنی بر رایانش ابری
- رشته تحصیلی
- مهندسی کامپیوتر-فناوری اطلاعات
- مقطع تحصیلی
- دکتری تخصصی PhD
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2889;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 73165;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2889;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 73165
- تاریخ دفاع
- ۱۲ اسفند ۱۳۹۴
- دانشجو
- حامد احمدی
- استاد راهنما
- محمود رضا هاشمی
- چکیده
- فراگیر شدن کاربرد بازیهای مبتنی بر رایانش ابری (CG) و رسیدن به هدف نهایی آن که امکان بازی در هر زمان، در هر مکان، و بر روی هر وسیله است، بدون کاهش پهنایباند موردنیاز آن (حدود 5 مگابیت بر ثانیه) عملی نخواهد بود. کدکننده های ویدئوی معمول، اگرچه سعی میکنند هر دو نوع افزونگی آماری و ادراکی را حذف نمایند، اما به دلیل پیچیدگی بالای سامانه بینایی چشم انسان (HVS) و همچنین تنوع محتوا در کاربردهای مختلف، شناخت و حذف افزونگیهای ادراکی همچنان به تحقیق بیشتری نیاز دارد. ارائه مدلهای ادراکی، به خصوص مدلهای توجه بصری ، برای کاربرد بازیهای مبتنی بر رایانش ابری نیز به دلیل محتوای خاص ویدئوهای بازی، مانند خیالی بودن شخصیتها، نوع خاص چیدمان اشیا، و پیچیدگی طراحی و منطق بازی به منظور افزایش غوطهوری و رضایت بازیکنها، چالشبرانگیز است. تفاوت سطح مهارت، عادتها، و راهبردهای بازیکنها که در الگوی توجه آنها به ویدئوی بازی تاثیرگذار است، از دیگر چالشهای توسعه چنین مدلهایی محسوب میشود. بنابراین اولین گام برای بهکارگیری کدکردن ادراکی در کاهش پهنایباند و کنترل نرخ بیت کاربرد بازیهای مبتنی بر رایانش ابری، توسعه مدلهایی است که بتوانند بر چالشهای مذکور فائق آیند. این کار خود نیز مستلزم داشتن مجموعهدادهای است که نقطه توجه کاربر و سایر ویژگیهای نامبرده شده را در حین بازی بازیکنها ضبط کرده باشد. از آنجا که تاکنون مجموعهداده و مدل توجه مناسبی برای بازیهای مبتنی بر رایانش ابری ارائه نشده است، بخشی از این رساله به این موارد میپردازد. در این راستا، دو مجموعهداده و دو مدل ادراکی مبتنی بر توجه ارائه گردید. مجموعهداده اول شامل ویدئوی بازیهای گوناگون و اشیا موجود در آنها میباشد. مدلی که از روی این مجموعهداده ساخته میشود، مبتنی بر سازوکار توجه در انسان است و محل توجه بازیکنها را بر اساس ترکیب ویژگیهای سطح پایین سیگنال و اولویتدهی اشیا موجود در بازی در شرایط گوناگون، پیش بینی میکند. نتایج آزمایشهای کیفی نشان میدهد که با تنظیم پارامتر پیمانهبندی کدکننده ی H.264/AVC بر اساس این مدل، میتوان بطور متوسط تا 25% نرخ بیت ویدئوی بازی را کاهش داد، بدون آنکه کیفیت ادراکی بازیکن تغییر زیادی داشته باشد. مدل ادراکی دوم، تفاوت الگوهای توجه بین بازیکنها با مهارتهای مختلف را مدل میکند. برای توسعه این مدل، ابتدا الگوهای جمعآوری شده از دستگاه ردیاب چشم خوشهبندی شده و سپس همبستگی بالای خوشهها با مهارت بازیکنها از طرق آماری و آزمایشگاهی نشان داده میشود. برای پیشبینی سطح مهارت بازیکنها نیز از امتیاز استفاده میشود. استفاده از این مدل بسته به سطح مهارت بازیکنها به طور متوسط تا %15 نرخ بیت را کاهش میدهد. گام بعدی، بهکارگیری مدلهای ادراکی در کدکننده ویدئو است. برای این کار، از مدلهای نرخ-اعوجاج ادراکی استفاده میشود تا اختصاص بیتها به نواحی مختلف ویدئو بر اساس اهمیت ادراکی آنها برای HVS کنترل گردد. از آنجا که مدلهای اختصاص بیت مبتنی بر توجه فعلی سایر ویژگیهای ادراکی HVS را درنظر نمیگیرند، در بعضی مواقع مقدار اعوجاج تحمیل شده به نواحی کماهمیت ویدئو از حدی فراتر میرود که حواس بازیکن را پرت کرده و باعث افت کیفیت ادراکی وی میشود. در همین راستا، مدل جدیدی ارائه میشود که با درنظر گرفتن هر دو سازوکار توجه و گودی مرکزی شبکیه مقدار اعوجاج در نواحی مختلف را بر اساس فاصله آنها از نواحی مهم ویدئو کنترل کرده و متوسط امتیاز نظر را حدود 20% افزایش دهد. از دیگر دستاوردهای این رساله، توسعه یک سامانه آزمون بازیهای مبتنی بر رایانش ابری برای گسترش پژوهشهای مرتبط با CG میباشد.
- Abstract
- Flourishing of cloud gaming (CG) and fulfilling its ultimate goal, playing video games wherever, whenever and on every devices, would hardly be possible until its required high bandwidth is reduced. Although conventional video encoders try to remove both statistical and perceptual redundancies, due to high complexity of human visual system (HVS) and content diversity in different applications, identification and deletion of perceptual redundancies still need more research. Developing perceptual models, especially visual attention models, for cloud gaming is very challenging because of unique content of video games, such as their fantasy characters, object placements and complex game logic and design for the sake of immersion and satisfaction. Difference among players’ skill levels, playing habits and strategies is another challenge of developing such models. Therefore, the first step of employing perceptual coding in bandwidth reduction of cloud gaming is to develop models which can overcome the aforementioned challenges. It also needs a dataset including recorded players’ gaze locations and other data during their gameplay. Since there is not an appropriate game-specific dataset or model yet, in this thesis we work on them. Doing so, two datasets and two perceptual models are proposed. The first dataset includes a variety of video games and their objects. The model built on this dataset is grounded on visual attention mechanism and predicts the player’s gaze location based on a combination of low level signal properties and game object prioritization. Experimental results show that this model decreases the required bit rate by nearly 25% on average, while maintaining a relatively high user quality of experience. The second perceptual model, addresses the difference among attention patterns of the players. To develop this model, the recorded eye-tracking data is first clustered. Then, the correlation of clusters and skill levels are shown via statistical and experimental methods. Our analyses show that this model decreases the bandwidth by up to 15% based on the player’s skill. The second step is to incorporate the perceptual models into the video encoder by means of perceptual rate-distortion models to assign bits to each region of the video according to its importance to HVS. Since current attention-based bit allocation algorithms do not take other HVS properties into account, in some cases the amount of distortion in less important areas distracts the players and consequently lowers the user perceived quality. Therefore, a new model is proposed which controls the amount of attention in each region based on its distance to important areas by considering both attention and fovea mechanisms. This model results in better user perceived quality (20% increase in mean opinion score). Another contribution of this thesis is to develop a cloud gaming testbed to boost further researches pertaining to cloud gaming. Keywords: Cloud Gaming, Video Encoding, Perceptual Video Encoding, Visual Attention Model