عنوان پایاننامه
تحمل پذیری خطای نرم در پردازنده های چند هسته ای در سطح ریسمان
- رشته تحصیلی
- مهندسی کامپیوتر-معماری کامپیوتر
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2899;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 73474;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2899;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 73474
- تاریخ دفاع
- ۱۷ شهریور ۱۳۹۲
- دانشجو
- فاطمه پویان
- استاد راهنما
- سعید صفری
- چکیده
- پردازنده های چند هسته ای به دلیل نیاز به داشتن کارایی بیشتر همراه با توان مصرفی کمتر جایگزین پردازنده های تک هسته ای شده اند. ساخت پردازنده های چند هسته ای افزایش نمایی تعداد ترانزیستورها را بر روی تراشه های نوین به همراه داشته است. هر چند که بهبود کارایی و توان مصرفی از مزایای قابل توجه پردازنده های چند هسته ای محسوب می شود اما مجتمع سازی تعداد زیاد ترانزیستورها بر روی یک تراشه حساسیت بیشتری را نسبت به خطای نرم در این پردازنده ها ایجاد کرده است. خطای نرم به عنوان یک تهدید عمده در مقابل قابلیت اطمینان پردازنده های امروزی تلقی می شود. عوامل ایجاد خطای نرم معمولا ذرات پر انرژی مانند ذرات آلفا هنگام بسته بندی تراشه یا ذرات نوترون موجود در جو هستند. این ذرات توانایی وارونه کردن ارزش یک بیت در مدخل های ذخیره سازی را دارند و ممکن است باعث بروز خطا در برنامه شوند. پیاده سازی روش های تحمل پذیر خطا که نیازهای قابلیت اطمینان پردازنده های چند هسته ای را تامین می کنند به عنوان چالشی مطرح در فناوری های نوین است. روش های مختلفی تاکنون برای بهبود قابلیت اطمینان پردازنده های چند هسته ای ارائه شده اند. هرچند که این روش ها قابلیت اطمینان را تا حد زیادی بهبود بخشیده اند اما سربارهای قابل توجهی را از نظر کارایی و توان مصرفی به پردازنده ها افزوده اند. خوشبختانه تمامی خطاهای نرم باعث اشکال در خروجی نهایی برنامه نمی شوند و بسیاری از آنها در سطح معماری پوشش داده می شوند. فاکتور آسیب پذیری در سطح معماری احتمال اینکه وقوع خطای نرم منجر به خروجی خطادار شود را تخمین می زند. بنابراین فاکتور آسیب پذیری در سطح معماری می تواند به عنوان یک معیار مناسب برای آگاهی از قابلیت اطمینان در دست طراحان قرار بگیرد تا روش های کم هزینه ی حفاظت در برابر خطای نرم را بدون تحمیل سربارهای غیر ضروری مساحت، کارایی و انرژی مصرفی، پیاده سازی کنند. در این پژوهش ما با استفاده از تخمین آنلاین فاکتور آسیب پذیری ساختار های پردازنده در اجرای برنامه های کاربردی، روشی نوین برای بهبود قابلیت اطمینان و تحمل پذیری در برابر خطای نرم را برای پردازنده های چند هسته ای که از موازی سازی در سطح ریسمان استفاده می کنند، ارائه داده ایم. تخمین آنلاین فاکتور آسیب پذیری منجر به حذف سربارهای اضافی در زمانی که به آنها نیازی نیست، می شود که این امر تاثیر قابل ملاحظه ای در بهبود قابلیت اطمینان با کمترین کاهش در کارایی و توان مصرفی پردازنده های چند هسته ای با توانایی پردازش همزمان چندین ریسمان را دارد. علاوه بر این ما از ایده ی مهاجرت ریسمان بین هسته ها برای برقراری تعادل بار و آسیب پذیری تمامی هسته ها بهره برده ایم. در مقایسه ی روش پیشنهادی این تحقیق در مقابل روش های پیشینی که در زمینه ی بهبود قابلیت اطمینان انجام شده است، نتایج بدست آمده از این پژوهش حاکی از بهبود کارایی و قابلیت اطمینان همزمان در این پردازنده هاست.
- Abstract
- Single processor design has replaced with Chip Multi-Processor (CMP) architecture to obtain more performance and power improvement. Utilizing CMP architecture leads to exponential growth of small transistor count per chip. Although power and performance improvement is significant advantage for CMP design, integrating a large number of transistors on a single chip has caused more susceptibility to soft errors. Soft errors (or transient faults) are known as a major threat to reliability of modern integrated circuits. Soft errors are caused by energetic particles, such as alpha particles from packaging material and neutrons from the atmosphere. The particle strike can be flip a bit in storage and lead to program failure. Implementation of fault tolerant mechanisms to meet reliability demands is an important issue for CMPs, since they are usually utilized in critical devices such as servers. Several different strategies have been proposed for reliability enhancement of CMPs. Although these schemes have been significantly improved for the reliability of CMP architectures, yet they impose considerable overhead to system in terms of power and performance. Fortunately not every soft error causes a visible error in the program output and many of soft errors may be masked at architectural level. Architectural Vulnerability Factor (AVF) estimates the probability that a soft error produces a visible error in the program output. AVF can be used as an important reliability metric for designers to have low cost soft error protection schemes without incurring unnecessary space, performance, and energy overheads. In this research, we present a method to estimate online AVF for sensitive structures of a CMP with simultaneously-multithreaded (SMT) cores (CMP-SMT). We used online AVF to have performance efficient soft error protection scheme. Estimating AVF at runtime helps us to have partially redundancy for protection against soft errors. Our proposed AVF aware protection scheme uses partially thread redundancy (PTR) to establish trades-off between performance and reliability in CMPs. Furthermore we used thread migration technique to balance loads and vulnerabilities between all the cores. Our experimental results showed that we could improve performance and reliability simultaneously by estimating online AVF. Keywords: CMP, AVF, Thread, Reliability, Performance, Soft error