عنوان پایان‌نامه

راه اندازی سامانه کلان داده برای استخراج روابط معنایی از داده های عظیم سنسورهای مکانی



    دانشجو در تاریخ ۱۳ مهر ۱۳۹۵ ، به راهنمایی ، پایان نامه با عنوان "راه اندازی سامانه کلان داده برای استخراج روابط معنایی از داده های عظیم سنسورهای مکانی" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3085;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78402;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3085;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78402
    تاریخ دفاع
    ۱۳ مهر ۱۳۹۵
    استاد راهنما
    سیدامید فاطمی

    در?? سال اخیر با پیشرفت تکنولوژی‌های تولید، ذخیره‌سازی و پردازش داده‌ها، شاهد انقلابی در رشد داده‌های ذخیره شده در جهان هستیم. این حجم عظیم داده‌ها دارای پتانسیل فراوانی برای کشف دانش می‌باشند، اما روش‌های کلاسیک آماری و یادگیری ماشین از نظر عملی برای این حجم زیاد داده‌ها پاسخگو نیستند. در راستای پردازش داده‌های بزرگ چهارچوب‌ها و روش‌های مختلفی ارائه شده‌اند، اما به دلیل ساختار متفاوت داده‌ها و کاربردهای مختلف آنها، معمولا در هر کاربرد علاوه بر استفاده از روش‌های موجود، نیازمند ارائه‌ی روش‌های خاصی برای آن کاربرد نیز هستیم. در این پایان‌نامه مسئله انجام فرآیند پردازش داده‌های بزرگ در عمل، برای دسته‌ای از داده‌های فضاییزمانی که توسط سنسورهای مکانی ثبت شده‌اند می‌باشد. خروجی این پردازش، میزان روابط افراد مختلف با توجه به تاریخچه‌ی حرکتی آنها می‌باشد که در آخرین مرحله از فرآیند، سیستم می‌تواند با دریافت شناسه‌ی هر فرد، لیستی از مرتبط‌ترین افراد به او را به صورت مرتب شده برگرداند. این فرآیند به دلیل پیچیدگی‌هایی که دارد به بخش‌های کوچکتری شکسته شده است. یکی از زمانبرترین بخش‌های این فرآیند مربوط به یافتن نقاط توقف است. هدف از این تحقیق پیاده‌سازی سامانه‌های کلان‌داده برای حل این مسئله می‌باشد. ما این مرحله را با استفاده از چهارچوب Apache Spark و تغییر در روش محاسبه با تحمل خطایی کمتر از ?.?? درصد به گونه‌ای بهبود دادیم که زمان اجرای آن حدود ??.? درصد کاهش یافت. در این بهبود استفاده از حافظه‌ی داخلی و دیسک کاملا ثابت مانده است و تعداد هسته‌های پردازنده از ? هسته (روی رایانه با پردازنده‌ی ? هسته‌ای) به ? هسته افزایش یافته است و امکان اجرای الگوریتم به صورت توزیع شده و یا بر روی یک کامپیوتر وجود دارد. در هر کدام از حالت‌های توزیع شده و غیر توزیع شده، الگوریتم این قابلیت این را دارد که متناسب با تعداد هسته‌های اختصاص داده شده، سرعت پردازش را افزایش دهد. همان طور که گفته شد نتایج بدست آمده حاکی از مقیاس‌پذیری روش انجام شده و اجرای سریع در مقابل روش‌های کلاسیک می‌باشد. واژه‌های کلیدی: کلان‌داده، پردازش توزیع شده، پردازش موازی، داده‌های GPS، محاسبه‌ی میزان شباهت افراد
    Abstract
    By improvements in data generation, data storage and data processing technologies in the last 20 years a revolution in increasing of stored data in the world is happening. Such huge amounts of data have a great potential for knowledge discovery, but classic statistical methods and machine-learning don’t have enough capability for handling this huge amounts of data. So far, various frameworks and methods are provided for Big Data processing, however due to differences in various data structures and their various applications, new specific methods and ideas for each application are required. The issue in this research is carrying out the process of Big data processing on a type of spatiotemporal data, which are collected by GPS sensors. The output of this process is similarity between users, considering their movement history. In the final step the system gets the user-id and gives back a sorted list of the most similar users to “that user”. This algorithm is very complex; therefore, it is divided into a number of steps. One of the most time-consuming steps of this algorithm is “Finding the Stay-Points”. In this research we aim to implement a Big Data system to handle this complex step of algorithm. We have made a significant improvement in this step, by using Apache Spark framework and proposing a new computation method. By this method, the processing time has reduced by 99.9 percent. The error rate has been less than 0.1 percent. In this method there was no increment in HDD and RAM usage, but CPU cores increased from 4 cores to 8 cores. The modified algorithm has the capability to run in central or distributed modes. Either in central or distributed modes, modified algorithm can increase its processing speed due to the number of available CPU cores. The results represent scalability and fast computation of this method in comparison to the classic ones. Keywords: Big Data, Distributed Processing, Parallel Computing, GPS Data, User Similarity Calculation