عنوان پایاننامه
آشکارسازی رویدادها در ویدیو مسابقات فوتبال با استفاده از کنترل توجه
- رشته تحصیلی
- مهندسی کامپیوتر- هوش مصنوعی - رباتیک
- مقطع تحصیلی
- دکتری تخصصی PhD
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2841;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 71905
- تاریخ دفاع
- ۳۰ آبان ۱۳۹۴
- دانشجو
- محمدحسین سیگاری
- استاد راهنما
- حمید سلطانیان زاده
- چکیده
- یکی از مهمترین سیستمهای تحلیل معنایی ویدیو، سیستمهای آشکارسازی رویداد در ویدیو مسابقات ورزشی، به ویژه فوتبال، است. در این رساله، به بررسی و کاربرد کنترل توجه در سیستمهای آشکارسازی رویداد در ویدیو پخش تلویزیونی مسابقات فوتبال میپردازیم. بدین منظور، ابتدا یک سیستم ساده برای آشکارسازی گل ارائه میکنیم که بر اساس دانش زمینه و قوانین اکتشافی است. در مرحله بعد با اعمال کنترل توجه مبتنی بر تحریک، سیستم را از نظر ساختار و عملکرد طوری تغییر میدهیم که سرعت پردازش بسیار افزایش مییابد. بدین ترتیب، ابتدا با استخراج یکسری ویژگیهای ساده و بررسی محتوای اولیه ویدیو، در مورد ادامه روند پردازشها برای پردازش دقیقتر محتوا تصمیمگیری میشود. به عبارت دیگر، اگر محتوای ویدیو بر اساس ویژگیهای فعلی استخراج شده، نیاز به بررسی بیشتر داشته باشد، پردازشهای بیشتر انجام میشود، در غیر این صورت، نیازی به پردازش دقیقتر آن قسمت از ویدیو نیست. در ادامه تحقیق، چهارچوب جدیدی پیشنهاد میشود که میتواند کنترل توجه مبتنی بر هدف را در یک فرایند خودکار و مبتنی بر یادگیری، به یک سیستم تحلیل معنایی ویدیو با ساختار سلسله مراتبی اعمال کند. این چهارچوب، با اعمال یک الگوریتم انتخاب پویای ویژگی به واحدهای پردازشی سیستم، مکانیزم کنترل توجه مبتنی بر هدف را به صورت تغییر ساختار اولیه سیستم اعمال میکند. پس از آن، سیستم میتواند با استفاده از مکانیزم اعمال شده، بر اساس هدف نهایی و متناسب با محتوای ویدیو که تاکنون پردازش شده است، یک روند فعال و پویا برای شروع یا ادامه فرایند تحلیل ویدیو ارائه دهد. این روند فعال و پویا بر اساس الگوریتمهای یادگیری تقویتی میآموزد که چطور ضمن هدایت روند پردازش سیستم به سمت استخراج ویژگیهای مفید، تا حد امکان حجم محاسبات سیستم را کاهش دهد. بدین ترتیب، سیستم نهایی با اعمال این چهارچوب برای آشکارسازی رویداد در ویدیو مسابقات فوتبال ارائه گردید. نتایج آزمایشها نشان میدهد، سیستم نهایی میتواند علاوه بر آشکارسازی رویداد با دقت قابل قبول، حجم محاسبات سیستم را به صورت چشمگیری کاهش دهد. در عین حال، برخلاف بسیاری از سیستمهای تحلیل ویدیو، سیستم نهایی از دانش زمینه و قوانین اکتشافی کمتری برای رفع شکاف معنایی استفاده میکند. بر اساس آزمایشهای انجام شده، متوسط سرعت پردازش با استفاده از روش پیشنهادی 10.9 فریم در ثانیه برای ویدیوهایی با اندازه فریم 360×640 پیکسل است. همچنین، نرخ دقت و بازخوانی روش پیشنهادی برای آشکارسازی رویداد گل به ترتیب 90.9% و 86.4% و برای رویداد کارت به ترتیب 21.5% و 73.7% می باشد. واژههای کلیدی: آشکارسازی رویداد؛ انتخاب پویای ویژگی؛ تحلیل معنایی ویدیو؛ کنترل توجه، ویدیو پخش تلویزیونی فوتبال.
- Abstract
- One of the most interesting topics in semantic video analysis is event detection systems in broadcast soccer videos. In this dissertation, we consider application of attention control for analysis of broadcast soccer videos. To this end, we first introduce a simple system for goal event detection. This system extracts some features in different semantic levels and detects goal events using a fuzzy inference engine. This system is designed based on heuristic rules and prior knowledge in a way similar to many current video analysis systems. In the next step, we apply a stimulus driven attention control mechanism that increases speed of processing. It benefits from an on-demand feature extraction approach as a heuristic model of attention control. This method extracts some features from each frame/partition in a hierarchical structure. Then, according to the results of feature analysis at the lower level of processing, the system decides whether to analyze the contents of frame/partition of video in detail in the next level or ignore it. This mechanism of attention control is heuristic based. Therefore, if the structure of semantic video analysis system changes, we have to use another heuristic rules to impose attention control. Also, performance of attention control mechanism to improve processing speed and accuracy of the system is depended to the expertise of designer seriously. These two issues are the main drawbacks of this method. Thus, we present a new general framework to impose goal driven attention control on a video analysis system using SARSA learning method. Our proposed framework restructures a given system dynamically to direct attention to the blocks that extract the most informative features/concepts. As a result, our proposed method reduces computational complexity of the system. In other words, the proposed framework directs flow of processing actively using a learning attention control method. The proposed framework is evaluated for event detection in broadcast soccer videos using a limited numbers of training samples. Our experiments indicate that the proposed framework is able to learn how to direct attention to informative features/concepts and restructure the initial structure of the system dynamically to reach the final goal with less computational complexity. According to the experimental results, average speed of processing is 10.9 fps for 640x360 video frames. The obtained [precision, recall] for goal event and card event detection are [90.9%, 86.4%] and [21.5%, 73.7%] respectively. Keywords: Attention Control; Broadcast Soccer Video; Dynamic Feature Selection; Event Detection; Semantic Video Analysis.