ارائه مدل داده مبنا جهت برآورد پارامترهای کیفی خروجی از تصفیه خانه های فاضلاب
- رشته تحصیلی
- مهندسی محیط زیست -آب وفاضلاب
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده محیط زیست شماره ثبت: ENV 1578;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 79633;کتابخانه دانشکده محیط زیست شماره ثبت: ENV 1578;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 79633
- تاریخ دفاع
- ۰۵ بهمن ۱۳۹۵
- دانشجو
- میلاد ابوذری
- استاد راهنما
- غلامرضا نبی بیدهندی, پرهام پهلوانی
- چکیده
- مدلسازی و بهینه نمودن دادهها در تصفیهخانه مورد مطالعه با چهار چالش عمده روبهرو است. مسئله اول در خصوص دادههای تصفیهخانه میباشد که به صورت فیزیکی و شیمیایی و بیولوژیکی توسط ابزارها یا توسط آزمایشهایی با حجم زیادی جمعآوری میشود که بعضی از متغیرهای موجود دارای ارتباط بسیار قوی با همدیگر میباشند و نیاز به ساماندهی دارند. مسئله دوم در خصوص دادهها دارای خطای بایاس و دستگاهی و دارای عدم قطعیت و در مواقعی دارای نقص میباشند که باید قبل از هرگونه مدلسازی یک سری مراحل به عنوان پیشپردازش انجام شود که باعث رفع دادههای گمشده و استاندارد کردن دادهها و کاهش ابعاد آنها میگردد. چالش سوم در خصوص ماهیت دورهای بودن دادههاست که انتخاب یک مدل مناسب باعث رفع این قضیه میگردد. آخرین چالش که در این تحقیق بر آن تاکید اساسی شده است، مربوط به بهینه نمودن مدل تخمین شده میباشد که نیاز به مدلی قوی و دینامیکی دارد و اینکه مدل نهایی تنها برای دادههای استاندارد شده و با واریانس همسان نباشد بلکه به دلیل اهمیت جلوگیری از حذف دادههای تاثیرگذار با واریانس بالاتر در صورت اطمینان از عدم مشاهده اشتباه، بتواند کمترین تاثیرپذیری منفی را از دادههای با واریانس بالاتر داشته باشد. در این تحقیق سعی شده تمام چالشهای بالا رفع گردند لذا با استفاده از انواع رگرسیونهای خطی و غیرخطی و همچنین روشهای درخت تصمیم و همچنین ابزارهای ماشینهای بردار پشتیبان و استفاده از شبکههای عصبی به صورت استاتیکی و پویا، سعی در مقایسه همه این مدلها جهت تخمین خروجی اکسیژنخواهی شیمیایی و کدورت در حوضچه زلالساز و همچنین مواد محلول در خروجی پساب و اسیدیته در چاهک جداکننده روغن شد. در این تحقیق سعی میکنیم اهمیت متغیرهای ورودی در تاثیرگذاری روی پارامترهای خروجی را با سه روش تغییرات R^2 وMSE و آنالیز حساسیت مورد بررسی قرار دهیم. همچنین در مدلهای شبکه عصبی مدلها و الگوریتمهای مختلفی را مقایسه خواهیم کرد. قابل توجه است که نحوه اجرای مدل شبکه عصبی به صورت میانگین وزندار از چندبار اجرای مدل و سپس بر اساس وزندهی بیشتر به مدلهای دارای R^2 بیشتر و MSE کمتر بنا شده است. در این تحقیق بیش از 20 مدل با مفاهیم مختلف را با استفاده از نرمافزار متلب تحت شرایط حذف یا عدم حذف دادههای پرت آماری برای واحدهای مربوطه را با شاخصهای عملکرد R^2، MSE، MAE، MRSE و MRAE و Rمقایسه شده است و در نهایت به بررسی بهترین مدل را با تقریب مهندسی و رتبهبندی متغیرهای ورودی در تاثیرگذاری روی پارامتر خروجی میپردازیم. در بین مدلهای استفاده شده روش استاتیکی بیان ژنی و شبکه عصبی با الگوریتمهای مختلف دارای عملکرد آماری بالاتر و حساسیت نسبتا پایینی نسبت به داده پرت بودند و مدل دینامیکی FTDNN نیز دارای عملکرد بالایی است ولی از حساسیت خوبی برخوردار نمیباشد. در واحد زلالساز، میزان R در حالت تصحیح داده پرت آماری، برای شاخص کدورت در مدل استاتیکی رگرسیون غیرخطی تکهای برابر 815/0 و در مدل دینامیکی برابر 835/0 میباشد و برای شاخص اکسیژنخواهی شیمیایی در مدل استاتیکی شبکه عصبی برابر 80/0 و در حالت دینامیکی برابر 778/0 میباشد. همچنین در خصوص تخمین شاخص کیفی مربوط به چاهک جداکننده روغن در مدل استاتیکی بیان ژنی برابر 981/0 و در مدل دینامیکی با الگوریتم آموزشی بیزی برابر 963/0 میباشد و میزان اسیدیته در همین واحد در مدل استاتیکی به روش تلفیقی کمترین مربعات مقاوم و ماشین بردار پشتیبان، برابر 851/0 و در حالت دینامیکی با الگوریتم لونبرگ برابر 865/0 میباشد. واژههای کلیدی: تصفیهخانه پتروشیمی فجر - مدل آماری – رگرسیون خطی و غیرخطی – شبکه عصبی – الگوریتم بیان ژنی- رکرسیون کمترین مربعات مقاوم - ماشین بردار پشتیبان – مدل دینامیکی
- Abstract
- Both industrial and municipal treatment plants consisted of physical, chemical and biological process and relationship between them cannot be stated with mathematical and physical relationships. Therefore, the product of an efficient model to describe the relationship between input and output parameters can be a powerful tool for better management in future. Past studies show that many researchers have trying to create a model to estimate the output parameters of physical and chemical processes and use them. What is much more important is simply and its efficacy. Modeling and optimization of data in the study plant is facing four major challenges. The first related to treatment plant data on the physical and chemical and biological experiments with large amounts by tools or collected by some of the variables that are relationships with each other and need to organize their perfectly. The second is about data with noise and uncertain and sometimes with defect that before any modeling a series of pre-processing be constructed that fix the missing data and data standardization reduce Variable dimensions. Third challenge is the cyclical nature of the data and choose an appropriate model eliminates this issue. Final and most challenge in this study is optimize the model and sure that if have not anything wrong in the experiments, negative influence of the data variance is least. Here we use linear and nonlinear regression types, decision tree method, the support vector machine tools and the use of artificial neural networks try to compare all models for estimating the output of our system processes and use dynamic modeling for them. In this research will try to study of importance of input variables affecting the output parameters with sensitivity analysis methods and examine changes in R2 and MSE. Is remarkable that the implementation of the neural network model for the weighted average of several times, and then run the model by weighting more models with higher R2 and lower MSE. All focus of the study is based on the presentation a data model and then improve it and then optimize and compare methods. In this study, more than 20 models with various concepts using MATLAB under corrected or nature data to remove statistical outliers for relevant units with performance indicators so R2, MSE, MAE and R be compared. Finally, the best approximation model with selected engineering ranking of input variables affecting the output parameter is discussed. Key Words: Fajr Petrochemical plant - statistical models - variety of linear and nonlinear regression - Sensitivity analysis - Artificial Neural Networks - s gene expression Algorithm.