عنوان پایان‌نامه

استخراج خودکار بخشهای مختلف صفحات وب



    دانشجو در تاریخ ۲۶ خرداد ۱۳۹۵ ، به راهنمایی ، پایان نامه با عنوان "استخراج خودکار بخشهای مختلف صفحات وب" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3147;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 79972;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3147;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 79972
    تاریخ دفاع
    ۲۶ خرداد ۱۳۹۵
    استاد راهنما
    مسعود اسدپور

    یک صفحه وب از بخش‌های داده‌ای متفاوتی تشکیل شده است که هر کدام از آن‌ها می‌توانند اطلاعاتی و یا غیر اطلاعاتی باشند. در روش‌های استخراج محتوای اصلی صفحات وب، به بخش‌هایی مانند عنوان صفحه، سر خط‌ها، متون خبر، بدنه نوشتار بخش‌های اطلاعاتی گویند. و در مقابل، بخش‌های مانند تبلیغات، منو‌های کناری و منوهای پیمایشی به عنوان بخش‌های غیر اطلاعاتی اطلاق می‌شوند. کلیت کار روش‌های موجود در زمینه استخراج محتوای اصلی صفحات وب، تشخیص و ایجاد خط مرزی مابین این دو دسته از بخش‌های است. استخراج محتوای اصلی صفحات وب به دلیل وجود ساختارهای گوناگون مابین هر صفحه از وب عملی سخت و پیجیده به شمار می‌آید. در این پژوهش ما روشی به نام سامانه بخش‌بندی خودکار صفحات وبAWS معرفی کردیم که قادر است طی دو فاز متوالی صفحات وب را به صورت خودکار بخش‌بندی کرده و سپس تمامی بخش‌های اطلاعاتی را رده‌بندی کند. عمل بخش‌بندی و کشف بخش‌های اطلاعاتی توسط فاز اول این سیستم و با استفاده از سه رویکرد مبتنی بر رده‌بندی بخش‌ها، پیدا کردن هم‌ریختی زیرگراف‌ها و نظریه چند منظری بر روی گراف‌ها انجام می‌گیرد. با توجه به غیر متوازن بودن داده‌ها، در این فاز برای بهتر شدن نتایج از الگوریتم‌های نمونه‌سازی مجدد وSMOTE استفاده شده است. همچنین در فاز دوم از سیستم AWS بخش‌هایی که در فاز قبل به عنوان اطلاعاتی تشخیص داده شده‌اند را با استفاده از مجموعه ویژگی‌های ساختاری و متن کم عمق در کلاس‌های خاصی رده‌بندی کردیم. در طول این فرآیند ما از خصیصه‌های درختDOM صفحات وب بهره برده‌ایم. همچنین برای بهبود عملکرد این فاز از روش‌های انتخاب ویژگی بهره برده‌ایم. در آخر نتایج بدست آمده از هر کدام از فازها را گزارش نموده‌ایم که در آن تاثیر الگوریتم‌های انتخاب ویژگی به خوبی قابل مشاهده است. همچنین نشان دادیم که درخت‌های تصمیم عملکرد بهتری در تشخیص عناصر اطلاعاتی دارند.
    Abstract
    a webpage contains many blocks of data, which can be informative or non-informative. In content extraction methods, informative data such as page title, headlines, news article and post body are distinguished from non-informative data such as advertisement, sidebar and navigational menus. The content extraction tasks have many difficulties because of the variety structure of webpages. In this thesis, we proposed a content extraction method named Automatic Webpage Segmentation, AWS, which segmented informative and non-informative block of web page and then classified the informative one. for web page block segmenting, we proposed three methods: block classification based, subgraph Isomorphism based and method based on multiple views of graph. in this phase we benefit resampling algorithm for data balancing. for classification of informative segment, we using a feature set consisting of structural and shallow text features. We benefit DOM tree of webpages for feature extraction. The obtained results are promising due to the effectiveness of proposed method to classify individual text elements of a webpage. Besides, feature selection methods such as wrapper and filter are utilized to improve performance of AWS. Keywords: Information Extraction, Web Information Extraction, Content extraction, Main Content Extraction Full-text Extraction, Web Document Modeling