عنوان پایاننامه
استخراج خودکار بخشهای مختلف صفحات وب
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3147;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 79972;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3147;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 79972
- تاریخ دفاع
- ۲۶ خرداد ۱۳۹۵
- دانشجو
- محمدمهدی یدالهی
- استاد راهنما
- مسعود اسدپور
- چکیده
- یک صفحه وب از بخشهای دادهای متفاوتی تشکیل شده است که هر کدام از آنها میتوانند اطلاعاتی و یا غیر اطلاعاتی باشند. در روشهای استخراج محتوای اصلی صفحات وب، به بخشهایی مانند عنوان صفحه، سر خطها، متون خبر، بدنه نوشتار بخشهای اطلاعاتی گویند. و در مقابل، بخشهای مانند تبلیغات، منوهای کناری و منوهای پیمایشی به عنوان بخشهای غیر اطلاعاتی اطلاق میشوند. کلیت کار روشهای موجود در زمینه استخراج محتوای اصلی صفحات وب، تشخیص و ایجاد خط مرزی مابین این دو دسته از بخشهای است. استخراج محتوای اصلی صفحات وب به دلیل وجود ساختارهای گوناگون مابین هر صفحه از وب عملی سخت و پیجیده به شمار میآید. در این پژوهش ما روشی به نام سامانه بخشبندی خودکار صفحات وبAWS معرفی کردیم که قادر است طی دو فاز متوالی صفحات وب را به صورت خودکار بخشبندی کرده و سپس تمامی بخشهای اطلاعاتی را ردهبندی کند. عمل بخشبندی و کشف بخشهای اطلاعاتی توسط فاز اول این سیستم و با استفاده از سه رویکرد مبتنی بر ردهبندی بخشها، پیدا کردن همریختی زیرگرافها و نظریه چند منظری بر روی گرافها انجام میگیرد. با توجه به غیر متوازن بودن دادهها، در این فاز برای بهتر شدن نتایج از الگوریتمهای نمونهسازی مجدد وSMOTE استفاده شده است. همچنین در فاز دوم از سیستم AWS بخشهایی که در فاز قبل به عنوان اطلاعاتی تشخیص داده شدهاند را با استفاده از مجموعه ویژگیهای ساختاری و متن کم عمق در کلاسهای خاصی ردهبندی کردیم. در طول این فرآیند ما از خصیصههای درختDOM صفحات وب بهره بردهایم. همچنین برای بهبود عملکرد این فاز از روشهای انتخاب ویژگی بهره بردهایم. در آخر نتایج بدست آمده از هر کدام از فازها را گزارش نمودهایم که در آن تاثیر الگوریتمهای انتخاب ویژگی به خوبی قابل مشاهده است. همچنین نشان دادیم که درختهای تصمیم عملکرد بهتری در تشخیص عناصر اطلاعاتی دارند.
- Abstract
- a webpage contains many blocks of data, which can be informative or non-informative. In content extraction methods, informative data such as page title, headlines, news article and post body are distinguished from non-informative data such as advertisement, sidebar and navigational menus. The content extraction tasks have many difficulties because of the variety structure of webpages. In this thesis, we proposed a content extraction method named Automatic Webpage Segmentation, AWS, which segmented informative and non-informative block of web page and then classified the informative one. for web page block segmenting, we proposed three methods: block classification based, subgraph Isomorphism based and method based on multiple views of graph. in this phase we benefit resampling algorithm for data balancing. for classification of informative segment, we using a feature set consisting of structural and shallow text features. We benefit DOM tree of webpages for feature extraction. The obtained results are promising due to the effectiveness of proposed method to classify individual text elements of a webpage. Besides, feature selection methods such as wrapper and filter are utilized to improve performance of AWS. Keywords: Information Extraction, Web Information Extraction, Content extraction, Main Content Extraction Full-text Extraction, Web Document Modeling