عنوان پایان‌نامه

طراحی کارگزار هوشمند مبتنی بر پیش بینی رفتار و یادگیری تصمیم جهت مذاکره برای عقد قراردادهای دوجانبه در بازار



    دانشجو در تاریخ ۲۱ تیر ۱۳۹۵ ، به راهنمایی ، پایان نامه با عنوان "طراحی کارگزار هوشمند مبتنی بر پیش بینی رفتار و یادگیری تصمیم جهت مذاکره برای عقد قراردادهای دوجانبه در بازار" را دفاع نموده است.


    رشته تحصیلی
    مهندسی برق‌-کنترل‌
    مقطع تحصیلی
    دکتری تخصصی PhD
    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2989;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 76151
    تاریخ دفاع
    ۲۱ تیر ۱۳۹۵

    هدف از این رساله طراحی کارگزاری است که به منظور کسب سود بیشتر، اقدام به مذاکره و چانه‌زنی با کارگزاران موجود در بازارِ قراردادهای دوجانبه می‌نماید. در برخی موارد به خاطر محدودیت‌های موجود در بازار، مذاکره با هم? کارگزاران میسر نیست. بنابراین لازم است تا هر کارگزار تعدادی کارگزار را به منظور آغاز فرآیند مذاکره انتخاب نماید. از آنجایی که تصمیم‌گیری کارگزاران برای انتخاب مناسب‌ترین پیشنهادهای موجود، می‌تواند در تزاحم با یکدیگر باشد، در این رساله از نظری? بازی‌ها، و بطور خاص حل تعادل استکلبرگ، برای فرآیند انتخاب کارگزار مطلوب استفاده خواهد شد. در بازارهای واقعی کارگزاران نسبت به سبک مذاکر? رقبا، ساختار توابع سود آنها و برخی دیگر از پارامترهای تاثیرگذار در مذاکره اطلاعات کاملی ندارند. افزون بر این، وجود برخی پیچیدگی‌ها در محیط، مدل‌سازی مساله را با دشواری‌هایی مواجه می‌نماید. لذا در این رساله چهارچوب‌هایی بر پای? روشِ مدل آزاد یادگیری تقویتی به منظور اخذ تصمیمات بهینه در مسال? مذاکره برای دامنه‌های مختلف مذاکره (مذاکره بر روی یک ویژگی یا چند ویژگی) و در حضور انواع رقبا (کارگزاران نرم‌افزاری یا انسان)، پیشنهاد شده است. در هر یک از موارد تلاش شده تا با استفاده از نوآوری‌هایی، مسال? یادگیری تصمیم بهینه در مذاکره تسهیل و قابل پیاده‌سازی گردد. به منظور ارزیابی کارایی چهارچوب‌های پیشنهادی در این رساله، بازارهای قراردادهای دوجانبه در دامنه‌های مختلف مذاکره شبیه‌سازی شده است. در مذاکرات بر روی یک ویژگی کارایی کارگزار یادگیر در مقابله با رفتارهای متداول ریسک پذیر و محافظه‌کار و ترکیب‌های آنها نشان داده شده است. تعداد مذاکراتِ موفق کارگزارِ ریسک‌ پذیر نسبت به سایرین بیشتر است. با این حال میانگین سود کسب شده توسط کارگزارِ یادگیر در مذاکرات موفق، به حدی بیشتر از این کارگزار است که در مجموع منجر به سود‌آوری بیشتر کارگزار یادگیر می‌گردد. کارگزار محافظه‌کار بیشترین میانگین سود را در مذاکرات موفق کسب می‌کند. با این حال تعداد موفقیت‌های بیشتر کارگزار یادگیر در مجموع منجر به سودآوری بیشتر کارگزار یادگیر در بازار می‌گردد. در مذاکرات بر روی چند ویژگی، کارایی کارگزار یادگیرِ چهارچوب پیشنهادی رساله در مقایسه با کارگزاران چهارچوب تصویرکردنِ متناوب نشان داده شده است. کارگزار یادگیر در عین اینکه موفق به کسب سودهای بیشتر در بازار می‌گردد، نزدیکی توافقات حاصل به مرزهای بهین? پاراتو را نیز به مانند چهارچوب تصویر کردن متناوب حفظ می‌نماید. نهایتاً در مذاکره با انسان، نقش موثر افزایش پیش‌بینی نوع رفتار رقیب به عنوان یکی از مولفه‌های حالت کارگزار یادگیر در بهبود عملکرد کارگزار یادگیر در بازار نشان داده شده است. کلید واژه‌: قراردادهای دوجانبه، مذاکره، یادگیری تقویتی، اطلاعات ناقص، نظری? بازی‌ها، تعادل استکلبرگ
    Abstract
    In this dissertation, novel intelligent agents are proposed to negotiate for bilateral contracts (BC) in block forward markets to gain higher profit. In a BC market, the buyers and the sellers submit their bids and offers on a daily basis. The buyer and seller could employ intelligent software agents to trade BC markets on their behalves. Due to some limitations of the markets, negotiating with all other agents is usually impossible. Thus, the agent has to invite only some of the agents for negotiations. Since each agent attempts to choose the best bid/offer in the market, there is a chance of conflict of interests. In this work, the matchmaking in BC markets is modeled and solved using the Stackelberg Equilibrium concept of game theory. In a real market, agents do not have complete information of the opponents’ behaviors in negotiation as well as the structure of their utility functions. Additionally, the inherit complexity of the environment makes modeling of the markets challenging. Thus, in this thesis, to make optimal decision in the negotiation, based on the model-free reinforcement learning method, novel frameworks are proposed for the negotiation problem in different domains (single and multi-issue negotiation) and against different opponents (either human or machine). To evaluate the performance the proposed frameworks, BC markets in different domains of negotiation is simulated. In single-issue negotiations, the performance of the learner agent against the agents with boulware and conceder time dependent behavior is presented. The simulations show that the number of successful agreements of the conceder agent is higher than the other agents. However, the higher average profit of the learner agent in successful agreement dominates the number of successful agreement of the conceder agent. The boulware agent gains the highest average profits in successful agreements. Nevertheless, the larger number of successful agreements of the learner agent results in a higher total profit. In multi-issues negotiations, the performance of the proposed learning framework is compared to the Alternating Projection (AP) framework. The same as AP frame work, our successful agreements can achieve near Pareto optimal frontier. However, comparing the average profits, our framework outperforms that of the AP framework. At the end, in single-issue negotiation against human, the effective role of considering the prediction of behavior type of the opponent as one of the elements of the state vector of the learner agent is demonstrated. Keyword: Bilateral contracts, Negotiation, Incomplete information, Reinforcement learning, Game theory, Stackelberg equilibrium.