عنوان پایاننامه
راه اندازی سامانه کلان داده برای استخراج روابط معنایی از داده های عظیم سنسورهای مکانی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3085;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78402;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3085;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78402
- تاریخ دفاع
- ۱۳ مهر ۱۳۹۵
- دانشجو
- امید ابراهیمی
- استاد راهنما
- سیدامید فاطمی
- چکیده
- در?? سال اخیر با پیشرفت تکنولوژیهای تولید، ذخیرهسازی و پردازش دادهها، شاهد انقلابی در رشد دادههای ذخیره شده در جهان هستیم. این حجم عظیم دادهها دارای پتانسیل فراوانی برای کشف دانش میباشند، اما روشهای کلاسیک آماری و یادگیری ماشین از نظر عملی برای این حجم زیاد دادهها پاسخگو نیستند. در راستای پردازش دادههای بزرگ چهارچوبها و روشهای مختلفی ارائه شدهاند، اما به دلیل ساختار متفاوت دادهها و کاربردهای مختلف آنها، معمولا در هر کاربرد علاوه بر استفاده از روشهای موجود، نیازمند ارائهی روشهای خاصی برای آن کاربرد نیز هستیم. در این پایاننامه مسئله انجام فرآیند پردازش دادههای بزرگ در عمل، برای دستهای از دادههای فضاییزمانی که توسط سنسورهای مکانی ثبت شدهاند میباشد. خروجی این پردازش، میزان روابط افراد مختلف با توجه به تاریخچهی حرکتی آنها میباشد که در آخرین مرحله از فرآیند، سیستم میتواند با دریافت شناسهی هر فرد، لیستی از مرتبطترین افراد به او را به صورت مرتب شده برگرداند. این فرآیند به دلیل پیچیدگیهایی که دارد به بخشهای کوچکتری شکسته شده است. یکی از زمانبرترین بخشهای این فرآیند مربوط به یافتن نقاط توقف است. هدف از این تحقیق پیادهسازی سامانههای کلانداده برای حل این مسئله میباشد. ما این مرحله را با استفاده از چهارچوب Apache Spark و تغییر در روش محاسبه با تحمل خطایی کمتر از ?.?? درصد به گونهای بهبود دادیم که زمان اجرای آن حدود ??.? درصد کاهش یافت. در این بهبود استفاده از حافظهی داخلی و دیسک کاملا ثابت مانده است و تعداد هستههای پردازنده از ? هسته (روی رایانه با پردازندهی ? هستهای) به ? هسته افزایش یافته است و امکان اجرای الگوریتم به صورت توزیع شده و یا بر روی یک کامپیوتر وجود دارد. در هر کدام از حالتهای توزیع شده و غیر توزیع شده، الگوریتم این قابلیت این را دارد که متناسب با تعداد هستههای اختصاص داده شده، سرعت پردازش را افزایش دهد. همان طور که گفته شد نتایج بدست آمده حاکی از مقیاسپذیری روش انجام شده و اجرای سریع در مقابل روشهای کلاسیک میباشد. واژههای کلیدی: کلانداده، پردازش توزیع شده، پردازش موازی، دادههای GPS، محاسبهی میزان شباهت افراد
- Abstract
- By improvements in data generation, data storage and data processing technologies in the last 20 years a revolution in increasing of stored data in the world is happening. Such huge amounts of data have a great potential for knowledge discovery, but classic statistical methods and machine-learning don’t have enough capability for handling this huge amounts of data. So far, various frameworks and methods are provided for Big Data processing, however due to differences in various data structures and their various applications, new specific methods and ideas for each application are required. The issue in this research is carrying out the process of Big data processing on a type of spatiotemporal data, which are collected by GPS sensors. The output of this process is similarity between users, considering their movement history. In the final step the system gets the user-id and gives back a sorted list of the most similar users to “that user”. This algorithm is very complex; therefore, it is divided into a number of steps. One of the most time-consuming steps of this algorithm is “Finding the Stay-Points”. In this research we aim to implement a Big Data system to handle this complex step of algorithm. We have made a significant improvement in this step, by using Apache Spark framework and proposing a new computation method. By this method, the processing time has reduced by 99.9 percent. The error rate has been less than 0.1 percent. In this method there was no increment in HDD and RAM usage, but CPU cores increased from 4 cores to 8 cores. The modified algorithm has the capability to run in central or distributed modes. Either in central or distributed modes, modified algorithm can increase its processing speed due to the number of available CPU cores. The results represent scalability and fast computation of this method in comparison to the classic ones. Keywords: Big Data, Distributed Processing, Parallel Computing, GPS Data, User Similarity Calculation