عنوان پایاننامه
طراحی کارگزار هوشمند مبتنی بر پیش بینی رفتار و یادگیری تصمیم جهت مذاکره برای عقد قراردادهای دوجانبه در بازار
- رشته تحصیلی
- مهندسی برق-کنترل
- مقطع تحصیلی
- دکتری تخصصی PhD
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2989;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 76151
- تاریخ دفاع
- ۲۱ تیر ۱۳۹۵
- دانشجو
- میرحسام حاجی میری
- استاد راهنما
- اشکان رحیمی کیان, حامد کبریائی
- چکیده
- هدف از این رساله طراحی کارگزاری است که به منظور کسب سود بیشتر، اقدام به مذاکره و چانهزنی با کارگزاران موجود در بازارِ قراردادهای دوجانبه مینماید. در برخی موارد به خاطر محدودیتهای موجود در بازار، مذاکره با هم? کارگزاران میسر نیست. بنابراین لازم است تا هر کارگزار تعدادی کارگزار را به منظور آغاز فرآیند مذاکره انتخاب نماید. از آنجایی که تصمیمگیری کارگزاران برای انتخاب مناسبترین پیشنهادهای موجود، میتواند در تزاحم با یکدیگر باشد، در این رساله از نظری? بازیها، و بطور خاص حل تعادل استکلبرگ، برای فرآیند انتخاب کارگزار مطلوب استفاده خواهد شد. در بازارهای واقعی کارگزاران نسبت به سبک مذاکر? رقبا، ساختار توابع سود آنها و برخی دیگر از پارامترهای تاثیرگذار در مذاکره اطلاعات کاملی ندارند. افزون بر این، وجود برخی پیچیدگیها در محیط، مدلسازی مساله را با دشواریهایی مواجه مینماید. لذا در این رساله چهارچوبهایی بر پای? روشِ مدل آزاد یادگیری تقویتی به منظور اخذ تصمیمات بهینه در مسال? مذاکره برای دامنههای مختلف مذاکره (مذاکره بر روی یک ویژگی یا چند ویژگی) و در حضور انواع رقبا (کارگزاران نرمافزاری یا انسان)، پیشنهاد شده است. در هر یک از موارد تلاش شده تا با استفاده از نوآوریهایی، مسال? یادگیری تصمیم بهینه در مذاکره تسهیل و قابل پیادهسازی گردد. به منظور ارزیابی کارایی چهارچوبهای پیشنهادی در این رساله، بازارهای قراردادهای دوجانبه در دامنههای مختلف مذاکره شبیهسازی شده است. در مذاکرات بر روی یک ویژگی کارایی کارگزار یادگیر در مقابله با رفتارهای متداول ریسک پذیر و محافظهکار و ترکیبهای آنها نشان داده شده است. تعداد مذاکراتِ موفق کارگزارِ ریسک پذیر نسبت به سایرین بیشتر است. با این حال میانگین سود کسب شده توسط کارگزارِ یادگیر در مذاکرات موفق، به حدی بیشتر از این کارگزار است که در مجموع منجر به سودآوری بیشتر کارگزار یادگیر میگردد. کارگزار محافظهکار بیشترین میانگین سود را در مذاکرات موفق کسب میکند. با این حال تعداد موفقیتهای بیشتر کارگزار یادگیر در مجموع منجر به سودآوری بیشتر کارگزار یادگیر در بازار میگردد. در مذاکرات بر روی چند ویژگی، کارایی کارگزار یادگیرِ چهارچوب پیشنهادی رساله در مقایسه با کارگزاران چهارچوب تصویرکردنِ متناوب نشان داده شده است. کارگزار یادگیر در عین اینکه موفق به کسب سودهای بیشتر در بازار میگردد، نزدیکی توافقات حاصل به مرزهای بهین? پاراتو را نیز به مانند چهارچوب تصویر کردن متناوب حفظ مینماید. نهایتاً در مذاکره با انسان، نقش موثر افزایش پیشبینی نوع رفتار رقیب به عنوان یکی از مولفههای حالت کارگزار یادگیر در بهبود عملکرد کارگزار یادگیر در بازار نشان داده شده است. کلید واژه: قراردادهای دوجانبه، مذاکره، یادگیری تقویتی، اطلاعات ناقص، نظری? بازیها، تعادل استکلبرگ
- Abstract
- In this dissertation, novel intelligent agents are proposed to negotiate for bilateral contracts (BC) in block forward markets to gain higher profit. In a BC market, the buyers and the sellers submit their bids and offers on a daily basis. The buyer and seller could employ intelligent software agents to trade BC markets on their behalves. Due to some limitations of the markets, negotiating with all other agents is usually impossible. Thus, the agent has to invite only some of the agents for negotiations. Since each agent attempts to choose the best bid/offer in the market, there is a chance of conflict of interests. In this work, the matchmaking in BC markets is modeled and solved using the Stackelberg Equilibrium concept of game theory. In a real market, agents do not have complete information of the opponents’ behaviors in negotiation as well as the structure of their utility functions. Additionally, the inherit complexity of the environment makes modeling of the markets challenging. Thus, in this thesis, to make optimal decision in the negotiation, based on the model-free reinforcement learning method, novel frameworks are proposed for the negotiation problem in different domains (single and multi-issue negotiation) and against different opponents (either human or machine). To evaluate the performance the proposed frameworks, BC markets in different domains of negotiation is simulated. In single-issue negotiations, the performance of the learner agent against the agents with boulware and conceder time dependent behavior is presented. The simulations show that the number of successful agreements of the conceder agent is higher than the other agents. However, the higher average profit of the learner agent in successful agreement dominates the number of successful agreement of the conceder agent. The boulware agent gains the highest average profits in successful agreements. Nevertheless, the larger number of successful agreements of the learner agent results in a higher total profit. In multi-issues negotiations, the performance of the proposed learning framework is compared to the Alternating Projection (AP) framework. The same as AP frame work, our successful agreements can achieve near Pareto optimal frontier. However, comparing the average profits, our framework outperforms that of the AP framework. At the end, in single-issue negotiation against human, the effective role of considering the prediction of behavior type of the opponent as one of the elements of the state vector of the learner agent is demonstrated. Keyword: Bilateral contracts, Negotiation, Incomplete information, Reinforcement learning, Game theory, Stackelberg equilibrium.