عنوان پایاننامه
افزایش کارایی با سفارشی سازی معماری GPU
- رشته تحصیلی
- مهندسی کامپیوتر-معماری کامپیوتر
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2596;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 66340
- تاریخ دفاع
- ۱۰ شهریور ۱۳۹۳
- دانشجو
- فاطمه کاظمی حسن آبادی
- استاد راهنما
- سعید صفری
- چکیده
- سیستم¬های امروزی مبتنی بر بازدهی برای رسیدن به یک سیستم مناسب از نظر انرژی و کارایی از خط لوله ترتیبی ، سازماندهی SIMD، چند ریسه ¬ای و ذخیره داده در حافظه نهان استفاده می¬کنند. در این پژوهش ابتدا به بررسی ساختارهای مبتنی بر پردازنده گرافیکی پرداخته شده است. این پژوهش شامل دو قسمت اصلی است. قسمت اول نشان دهنده ی تأثیر دو عامل چند ریسه ای تهاجمی و اندازه حافظه نهان تهاجمی در طراحی سیستم هایی با کارایی بالا است. بنابراین به بررسی تأثیر چند ریسه ای تهاجمی و اندازه حافظه نهان تهاجمی بر روی پردازنده های گرافیکی پرادخته شده است. در این قسمت فرض شد مساحت اضافه ای وجود دارد که می توان به چند ریسه ای و یا اندازه حافظه نهان اختصاص داد. نتایج نشان داد که چند ریسه ای متهاجم حدود 8/25 درصد و اندازه حافظه نهان متهاجم حدود 8/10 درصد کارایی را بهبود می دهند. همچنین انرژی مصرفی برای چند ریسه ای تهاجمی 87/3 و برای اندازه حافظه نهان تهاجمی حدود 74/0 درصد کاهش انرژی مصرفی دارد. بهبود کارایی در مدل چند ریسه ای متهاجم برای دسته برنامه محک های محاسباتی حدود 5/165 درصد و انرژی حدود 5/0 کاهش دارد. این مدل به عنوان نقطه مصالحه این نوع برنامه محک ها به شمار می رود. قسمت دوم با هدف کاهش مساحت مصرفی و کاهش نرخ دسترسی های ناموفق به حافظه های نهان انجام شده است. در این قسمت به بررسی سیاستهای جایگزینی حافظه نهان از جمله LRU پرداخته شد و نشان داده شده که این سیاست جایگزینی، مساحت مصرفی و پیچیدگی زیادی دارد. در این پژوهش به معرفی سیاست جدیدی برای پردازنده گرافیکی به نام Tree-based Pseudo-LRU پرداخته می شود. تأثیر این روش بر روی حافظه نهان سطح اول و دوم در این پژوهش بررسی شده است. دراین روش کارایی را تا حدودی از دست رفته که برای جبران آن بردارهای حرکتی برای اضافه کردن و ارتقا دادن بلوک استفاده شده است. نتایج بدست آمده کاهش مساحت مصرفی حدود 77 درصد را نسبت به سیاست LRU گزارش می کند. کاهش نرخ دسترسی ناموفق به حافظه نهان سطح دوم برای برنامه محک¬های محاسباتی حدود 11/10 درصد برای یکی از بردارها است. همچنین در این پژوهش تلاش برای پیدا کردن نقطه مصالحه بین کارایی و انرژی مصرفی می باشد. واژههای کلیدی: پردازنده گرافیکی، کارایی، انرژی مصرفی، سیاست های جایگزینی
- Abstract
- Today throughput-oriented systems employ in-order pipeline, SIMD organization, multithreading, and data caching to achieve energy-efficient high-performance system. Currently, two design goals have dominated the high-performance systems; aggressive multithreading (NVIDIA Kepler GK110) or aggressive caching (IBM BQC). In this paper we start with the GPU-like baseline and study the performance-power-area impact of aggressive multithreading and aggressive caching. We assume there is an extra area on chip that can be devoted to either multithreading or caching. Accordingly, we define a set of machine models to study the impact of multithreading depth and cache size on performance and power. Our results show on average aggressive multithreading and aggressive caching improve perfomance by 25.8% and 10.8%, respectively. Also, they decrease energy consumption by 3.87% and 0.74%, inorder. Aggressive multithreading machine model is selected as a trade-off point of compute bound benchmarks. Performance improvement of this model is about 165.5% and energy consumption reduction is about 0.5% of baseline model. To omit our assumption of extra area on previous research, we study replacement policy to improve performance, decrease area consumption and caches miss rate. The existing cache partitioning algorithms assume Least Recently Used (LRU) as underlying replacement policy. We propose old Tree-based PLRU on two-level caches with higher speed up or performance matching of LRU at GPUs. The algorithm is based on Pseudo LRU that uses binary tree to reduce area overhead. We evaluate effect of this policy on both L1 and L2 caches in GPUs. We evaluate the hardware costs in terms of performance, miss rates, DRAM locality, area, energy, and compare them with LRU and FIFO partitioning algorithms. We define a set of machine models to discuss our scheme on some general purpose workloads. The results show that our solutions impose negligible performance degradation comparing LRU. Then, we use insertion and promotion vectors to compensate for drop of performance. On compute workloads, the technique reduces L2 miss rate about 10.11%. This policy save area of each cache about 77%. Finding a trade-off point between performance and energy is a goal of this research. Keywords: Graphic Processor Unit(GPU), Performance, energy consumption, Replacement Policy