سمینار درس کنترل پیشبین مبتنی بر مدل ( mpc )
DESCRIPTION
سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC ). کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته MPC on Discrete Event Systems. استاد درس: دکتر فرزاد توحید خواه. ارائه دهنده: گلناز بغدادی. فهرست مطالب. مقدمه ای بر سیستم های وقایع گسسته دلیل معرفی سیستم های وقایع گسسته - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/1.jpg)
![Page 2: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/2.jpg)
سمینار درس (MPCکنترل پیشبین مبتنی بر مدل )
کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته MPC on Discrete Event Systems
استاد درس: دکتر فرزاد توحید خواه
ارائه دهنده: گلناز بغدادی
![Page 3: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/3.jpg)
فهرست مطالبمقدمه ای بر سیستم های وقایع گسسته•
دلیل معرفی سیستم های وقایع گسسته•مثالهایی از انواع سیستم های وقایع گسسته•
مدلسازی سیستم های وقایع گسسته•معرفی انواع روشهای مدلسازی سیستم های وقایع گسسته•مقایسه انواع روشهای مدلسازی•ارائه مثالهایی از مدل های پرکاربرد در مدلسازی سیستم های وقایع •
گسسته صنعتی و بیولوژیکی کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته•
بیان تفاوت مفاهیم کنترلی در سیستم های وقایع گسسته•شرح نحوه اعمال کنترل پیشبین برروی انواعی از مدلهای ارائه شده•
مقایسه الگوریتم یادگیری تقویت شده با کنترل پیشبین مبتنی بر •مدل
کاربرد الگوریتم یادگیری تقویت شده در سیستم های وقایع گسسته•
![Page 4: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/4.jpg)
مقدمه ای بر سیستم های وقایع
گسسته
![Page 5: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/5.jpg)
( سیستم های وقایع گسستهDEVS در سال )1976( توسط دکتر برنارد زیگلر B. Zeiglerمعرفی شدند )
لغت "گسسته" به معنای "گسسته بودن زمان" و یا به معنای "گسسته بودن حالت ها" نیست.
اDداد هDت این رویDه ممکن اسDازند کDا می سDداد هDایی را رویDتم هDنین سیسDک چDدینامی زمانی که آغاز می شوند دارای سیر تکاملی گسسته و یا پیوسته باشند.
کDاعث یDانی بDر پایDرا هDت، زیDایی اسDداد هDنین رویDان چDروع و پایDرروی شDه، بDز اولیDتمرک شروع جدید می شود
time
Discrete state
x1
x2
x3
x4
x5
e1 e2 e4 e5 e6e3
Holding time
CVDS
![Page 6: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/6.jpg)
مثال )یک سیستم تولید(
:اDه کنDد، رویDداد می کDار بDه شDروع ماشDین
اسDت، شDده تمDام کDارش شDود، می خDراب
تعمیرش به اتمام رسیده است.
:اDام حالت هDانج بیکDار اسDت، در حDال ماشDین
تعمDیر در دسDت اسDت، اسDت، خDراب شDده کDار
است.
ب میDا برچسDداد هDا رویDا بDالت هDال بین حDانتق
خورند.
timex1
x2
x3
x4
e1 e2 e4 e5e3
ماشین بیکار است
ماشین شروع به کار می کند
ماشین در حال انجام کار است
ماشین خراب می شود
ماشین در حال انجام کار است
تعمیر به اتمام رسید
![Page 7: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/7.jpg)
7
…
xiTemporal State, xx1 x2
Switching Time
),,( tuzgz iiii
xi+1 = fi(xi,ui,t)
![Page 8: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/8.jpg)
مثال های دیگر :ورود اسناد“، "پردازش یک سند” و ... فرایند های تجاری”
کنترل زمانبندی ورود اسناد و مراحل انجام کار و استفاده از منابع جهت جلوگیری از ایجاد صف های از اسناد که نیاز به پردازش دارند.
:تماسهای تلفنی“، ”رسیدن یک فایل برای پرینت“، شبکه های ارتباطی” ”تقاضا از سرور برای تحویل یک صفحه معین“، ....
کنترل ترافیک موجود برروی لینک های ارتباطی، بهینه سازی ساختار شبکه و انتخاب طول مناسبی از صف
:درخواست استفاده از ابزارهای ورودی و سیستم های کامپیوتریخروجی همانند کنترلر شبکه ، دستورالعمل های ماشین و....
کنترل اولویت بندی و انتخاب مسیر اجرای عملیات و تخصیص منابع :ورود مواد اولیه، بیکار شدن ماشین، شروع به کار سیستم های تولیدی
ماشین، ...کنترل در جهت به اتمام رسیدن تولید مشخص در یک زمان مشخص، جلوگیری
از پر شدن بافر ها :رسیدن اطالعات سنسوری مختلف به مغزو سیستم های بیولوژیکی
اعصاب، تغییرات غلظت عناصر شیمیایی مختلف در خون یا بافت های دیگرکنترل در جهت اولویت بندی پردازش اطالعات سنسوری، انتخاب مسیر مناسب
جهت پاسخ، ....سیستم حمل و نقلسیستم های صف
![Page 9: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/9.jpg)
مسائل مطرح در سیستمهای وقایع گسسته
وظایف متعددی وجود دارد که ممکن است الزم باشد بعضی از آنها حتما
انجام شوند.
.ممکن است الزم باشند بعضی وظایف با ترتیب خاصی انجام شوند
.ممکن است الزامی به اجرای بعضی از وظایف نباشد
.گاهی ممکن است بین اجرای دو وظیفه باالجبار انتخابی انجام شود
مجموعه ای از منابع وجود دارد که ممکن است بین عناصر موجود در سیستم
های وقایع گسسته به اشتراک گذاشته شود.
فرایند رویداد ها که توصیف کننده یک سیستم وقایع گسسته است توسط یک
برنامه کنترلی اداره و اجرا می شوند.
![Page 10: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/10.jpg)
مدلسازی سیستم های وقایع گسسته
![Page 11: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/11.jpg)
روشهای مدلسازی متعددی برای توصیف سیستم های :وقایع گسسته ارائه شده است
مدلهای جبری-ماکس پالس•
شبکه های پتری•
مدلهای تصادفی مانند مدلهای مارکوف•
•...
![Page 12: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/12.jpg)
مدلهای جبری ماکس-پالس
![Page 13: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/13.jpg)
13
سیستم تولید نشان داده شده در شکل زیر را در نظر بگیرید. این سیستم متشکل مثال: هر واحد فقط زمانی برروی یک محصول شروع به کار می کند واحد )ماشین( پردازشگر است. 3از
که پردازش قبلی برروی محصول به پایان رسیده باشد. همچنین فرض می شود که هر واحد به محض اینکه تمامی قطعات حاضر شود شروع به کار می کند.
t2=1
t1=1t3=3
p1=1, p2=2, p3=2
u(k)( نشان دهنده لحظه زمانی است که در آنها بسته ای از مواد خام برای سیکل :k+1 ام به سیستم داده )
می شود.
xi(k) نشان دهنده لحظه زمانی است که در آن واحد :i در سیکل k.ام شروع به کار می کند
y(k): نشان دهنده لحظه زمانی است که در آن محصول k.ام سیستم را ترک می کند
![Page 14: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/14.jpg)
14
![Page 15: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/15.jpg)
15
خصوصیات جبر ماکس-پالس
مناسب برای بررسی زمان بندی سیستم های وقایع •گسسته
مناسب برای برنامه ریزی و آنالیز زمانبندی های •پیچیده
متخصصین این حوزه در فرانسه، هلند و چین هستند•
![Page 16: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/16.jpg)
16
()1939(Carl Adam Petriشبکه های پتری )
![Page 17: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/17.jpg)
17
اجزای تشکیل دهنده یک مدل پتری کالسیک
•Places•Transitions•Direct arcs•Input places•Output places•Tokens•Consume token•Produce token•Marking
state transition of form )1, 0( )0, 1(p1 : input place p2: output place
p2 p1
t1
![Page 18: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/18.jpg)
18
مثال
![Page 19: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/19.jpg)
• Finite tree
• Infinite tree
![Page 20: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/20.jpg)
20
چراغ راهنما
![Page 21: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/21.jpg)
21
rg1
red1
yellow1
green1
yr1
gy1
rg2
red2
yellow2
green2
yr2
gy2
![Page 22: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/22.jpg)
22
Two safe traffic lights
rg1
red1
yellow1
green1
yr1
gy1
rg2
red2
yellow2
green2
yr2
gy2
safe
![Page 23: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/23.jpg)
23
Two safe and fair traffic lights
rg1
red1
yellow1
green1
yr1
gy1
rg2
red2
yellow2
green2
yr2
gy2
safe2
safe1
![Page 24: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/24.jpg)
24
Example: life-cycle of a person
bachelor
child
married
puberty
marriage
divorce
death deadCurrent StateReachable StateDead State
![Page 25: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/25.jpg)
25
اضافه کردن وزن به اتصاالت
blackred
bbrr
br
2H2 + O2 2H2O
H2
O2
H2O
t
2
2
![Page 26: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/26.jpg)
26
مسائل مطرح در رویداد ها
• Sequential Execution• Synchronization• Merging• Concurrency• Conflict• Confusion
p2
t1
p1 p3
t2
t1
![Page 27: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/27.jpg)
27
شبکه های پتری رنگی
![Page 28: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/28.jpg)
28
شبکه های پتری زمانی
FIFO
![Page 29: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/29.jpg)
29
مدل چراغ راهنما با شبکه های پتری زمانی
![Page 30: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/30.jpg)
30
شبکه های پتری سلسله مراتبی
Unfolding
![Page 31: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/31.jpg)
مولفه بیان نمود:5یک شبکه پتری کالسیک را می توان با
• S is a set of places• T is a set of transitions • F is a set of arcs s.t.• M0 is an initial marking• W is the set of arc weights
به این ترتیب معادالت حالت سیستم به صورت زیر قابل بیان است:
M’ = M0 + WT * σ
Where is how many times each transition fires
WT state transition matrix
![Page 32: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/32.jpg)
• S={p1,p2,p3,p4} T={t1,t2,t3,t4}
• F={)p1,t1( )p2,t2( )p3,t3( )p4,t4( )t1,p2()t2,p3()t2 p4( )t3,p1( )t4,p2(}
2010
0110
1012
0101
CW
M0 Initial state )1,1,2,1(σ Firing sequence )t2 t3 t1 t4(Mn Final state )1,3,2,0(
![Page 33: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/33.jpg)
1
1
1
1
*
2010
0110
1012
0101
1
2
1
1
0
2
3
1
دنباله تکرار تعدادها رویداد
حالت نهایی
اولیه حالت
![Page 34: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/34.jpg)
34
خصوصیات شبکه های پتری
امکان نمایش محدود از حالت های نامحدود حالت •
ماشین ها
مناسب برای مسائل با سایز کوچک•
مراجع و شواهد متعددی در مورد این مدل و •
کاربردهای آن در مدلسازی سیستم های تولیدی و
صنعتی وجود دارد.
![Page 35: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/35.jpg)
35
Example: In a Restaurant )Scenario 1(
WaiterfreeCustomer 1 Customer 2
Takeorder
Takeorder
Ordertaken
Tellkitchen
wait wait
Serve food Serve food
eating eating
![Page 36: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/36.jpg)
36
Example: In a Restaurant )Scenario 2(
WaiterfreeCustomer 1 Customer 2
Takeorder
Takeorder
Ordertaken
Tellkitchen
wait wait
Serve food Serve food
eating eating
![Page 37: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/37.jpg)
37
مقایسه مدلهای معرفی شده
سیستم های جبر ماکس-پالس )برنامه
ریزی و زمان بندی(
شبکه های پتری )توالی و تکرار رویداد
ها(
![Page 38: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/38.jpg)
38
به کار گیری شبکه های پتری در مدلسازی شبکه های بیولوژیکی
Wnt signaling pathway
![Page 39: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/39.jpg)
![Page 40: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/40.jpg)
کنترل پیشبین مبتنی بر مدل در سیستم های
وقایع گسسته
![Page 41: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/41.jpg)
PLANT
EVENT-DRIVENDYNAMICS
TIME-DRIVENDYNAMICS
CONTROLLER
![Page 42: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/42.jpg)
42
l m
l m
A
Bm
m
l
l
2m
l
lC
![Page 43: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/43.jpg)
کنترل پیشبین مبتنی بر مدل در سیستم های جبر خطی ماکس-پالس
![Page 44: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/44.jpg)
کنترل پیشبین مبتنی بر مدل در سیستم های جبر خطی ماکس-پالس
سیگنال مرجع )زمان نهایی مورد انتظار برای تولید محصول(، rکه دراین روابط
Np ، افق پیش بین y)k+j|k( تخمین خروجی در زمان k+j بر اساس اطالعات
یک عد اسکالر که درجه اهمیت سیگنال کنترل نسبت به k ، λموجود در زمان
سیگنال کنترل است )u)k+j-1خطا را نشان می دهد و
کالسیک های سیستم در هزینه تابع
![Page 45: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/45.jpg)
برای تولید محصوالت مشخص باشد و اگر برای هر مقدار Rاگر زمانی نهایی مورد نظر در تابع هزینه را JOUTتاخیر بعد از این زمان تعیین شده مجبور به پرداخت جریمه باشیم بخش
می توان به صورت زیر برای سیستم های وقایع گسسته خطی ماکس –پالس تعریف نمود:
اگDر عالوه بDر شDرایط قبلی ، بDرای مثDال بDا محصDوالت فاسDد شDدنی روبDرو باشDیم کDه نتDوانیم آنهDا را زود تDر از تDاریخ تعDیین شDده تولیDد کDنیم آنگDاه تDابع هزینDه
را می توان به صورت زیر تعریف نمود:
و یا اگر فقط بخواهیم که زمان تولید را به یک حالت تعادل برسانیم می توان از تابع هزینه زیر استفاده نمود:
![Page 46: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/46.jpg)
نیز به صورت زیر عمل می شود:JINدر مورد بخش
معیار هزینه ورودی در سیستم های کالسیک به صورت تعریف شد، اما در مورد سیستم های وقایع گسسته خطی ماکس- پالس مینیمم کردن این تابع منجر به کوچک کردن لحظات زمانی ورودی می شود. که ممکن است نتیجه آن سرریز بافر ورودی باشد. بنابراین به نظر می رسد که بهتر باشد تابع ورودی ماکسیمم شود. در مورد سیستم های تولیدی به این معنا است که مواد
خام با حداکثر تاخیر ممکن به سیستم داده شود.که در نتیجه آن سایز بافر ورودی نیز می تواند کوچک گرفته شود. همچنین سر
ریز شدن ممکن است باعث ناپایداری در سیستم شود. به این ترتیب به نظر بهتر است تابع هزینه ورودی MPLمی رسد که برای سیستمهای وقایع گسسته
به صورت زیر تعریف شود که دقیقا مخالف سیستم های کالسیک زمان گسسته خطی است.
![Page 47: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/47.jpg)
داللت بر )u)k+j مولفه MPLاما در مورد سیستم های وقایع گسسته ام دارد به این k+jزمان دادن ورودی )مواد خام( به سیستم در رویداد
بدیهی است که زمان نیز افزایش می یابد و ثابت jترتیب با افزایش ماندن این زمان از یک رویدادی به بعد، بی معنا به نظر می رسد.
بنابراین در این سیستم ها این مسئله به این صورت تغییر داده می شود که به جای زمان ورودی ، نرخ تغییرات زمان ورودی در نظر گرفته می
شود، به بیان دیگر:
![Page 48: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/48.jpg)
قیود
extended linear complementarity problem )ELCP(
![Page 49: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/49.jpg)
تعاریف کنترلی در سیستم های وقایع گسسته
یک سیستم وقایع گسسته پایدار است اگر در سطح تمامی بافر هایش پایداری: محدود باقی بماند. همچنین تاخیر بین زمان تولید محصول و زمان مورد انتظار
)مطلوب( نیز محدود باشد. روابط زیر برقرار باشد SISOبه این ترتیب می توان گفت در مورد یک سیستم
پایداری سیستم تضمین می شود:
زمان تولید خروجی در y(k) مقادیری ثابت محدود و Myr, Mry, Myuکه در این روابط زمان مطلوب و مورد انتظار برای تولید محصول است.r(k)ام و kرویداد
یک مسئله مهم در اینجا این است که پایداری یک ویژگی ذاتی سیستم نیست و به تاریخ و زمان شروع دادن ورودی و زمان پایان تولید خروج دارد.
![Page 50: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/50.jpg)
تعاریف کنترلی در سیستم های وقایع گسسته
بدست نیاید می گوییم کنترل این )u)kزمانی که هیچگونه پاسخی برای امکان پذیری: سیستم امکان پذیر نیست. این حالت در صورت تداخل قیود اتفاق می افتد. که می
توان تعدادی از قیود را با توجه به اولویتشان بازتر نمود.
)r)kانتخاب دنباله زمان پایان
![Page 51: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/51.jpg)
The derivative of firing vector represents the flow of the timed model
The flow of the forced )or controlled( timed contPN will be denoted
کنترل پیشبین مبتنی بر مدل در شبکه های پتری
![Page 52: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/52.jpg)
کنترل پیشبین مبتنی بر مدل در شبکه های پتری
1
1
1
1
*
2010
0110
1012
0101
1
2
1
1
0
2
3
1
دنباله تکرار تعدادها رویداد
حالت نهایی
اولیه حالت
![Page 53: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/53.jpg)
کنترل پیشبین مبتنی بر مدل در شبکه های پتری
![Page 54: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/54.jpg)
مثال
![Page 55: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/55.jpg)
مقایسه الگوریتم یادگیری تقویت شده
با کنترل پیشبین مبتنی بر مدل
![Page 56: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/56.jpg)
الگوریتم یادگیری تقویت شدهReinforcement Learning
سيستم تالش می کند تا ((Reinforcement earningدر يادگيری تقويتیتقابالت خود با يک محيط پويا را از طريق خطا و آزمايش بهينه نمايد. در
يادگيری تقويتی هيچ نوع زوج ورودی- خروجی ارائه نمی شود. به جای آن، پس از اتخاذ يك عمل، حالت بعدی و پاداش بالفصل به عامل ارائه
می شود. هدف اوليه برنامه ريزی عامل ها با استفاده از تنبيه و تشويق است بدون آنکه ذکری از چگونگی انجام وظيفه آن ها شود.
یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه الزم
باشد نحوه انجام عمل را برای عامل مشخص نمائیم.
![Page 57: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/57.jpg)
در یک مسئلهRL:استاندارد با اجزای اصلی زیر روبرو هستیم عامل
که قرار است یادگیری را از طریق تعامل با محیط انجام دهد. برای اینکار باید
اعمالی که عامل میتواند در محیط انجام دهد مشخص باشند.◦محیط
برای محیط باید مشخصه های زیر تعیین شوند:وضعیت◦پاداش◦
عامل میتواند از طریق ورودیهایش تشخیص دهد که در چه را انجام at عمل Stوضعیتی قرار دارد. عامل در وضعیت
تغییر نماید. St+1میدهد. اینکار باعث میشود وضعیت محیط به و یا reinforcementدر اثر این تغییر وضعیت عامل سیگنال
را از محیط دریافت می نماید.rt+1 پاداش این محیط باید قابل مشاهده ویا حداقل تا قسمتی قابل
( partially observableمشاهده برای عامل باشد. ) مشاهده محیط ممکن است از طریق خواندن اطالعات یک
سنسور، توضیح سمبلیک و غیره باشد.
عمل یادگیری عبارت است ازیاد گرفتن یک سیاست که در واقع نگاشتی از وضعیت به عمل است به نحوی که استفاده از این سیاست برای انتخاب اعمال منجر به دریافت پاداش حداکثر
از محیط گردد.
الگوریتم یادگیری تقویت شدهReinforcement Learning
سیاست }|Pr{),( ssaaas ttt
Agent
Environment
State Reward Action
Policy
sss 221100 r a2
r a1
r a0 :::
![Page 58: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/58.jpg)
در RL وقتی عامل در یک حالت خاصعملی را انجام میدهد، در مقابل پاداش
(reward or reinforcement دریافت )میکند. در این سیستم عامل وظیفه دارد تا
پاداش دریافتی در دراز مدت را حداکثر نماید.
یکی از نکات طراحی یک سیستمRL reinforcementتعریف یک function.مناسب با اهداف عامل است
الگوریتم یادگیری تقویت شدهReinforcement Learning
![Page 59: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/59.jpg)
پاداش
: باشند موجود زیر بصورت ها پاداش از ای دنباله اگر
دریافت محیط از که را پاداشی تا نماید سعی باید عامل . به را پاداش ریاضی امید واقع در نماید اکثر حد میکند
. میرساند حداکثر بصورت محیط با تعامل مسایل از بسیاری اپیزودیدر
. را اتاق از خروج است قرار که روباتی مثال میشود انجامیادگیری اپیزود یک اتاق از شدن خارج محض به بگیرد یاد . حالت یک از شروع با که پاداشی کل لذا یابد می خاتمه
St ) یادگیری ) اپیزود خاتمه نهائی حالت به رسیدن STو: با است برابر آید می بدست
...,, 321 ttt rrr
}{ trE
Tttt rrrR ...21
![Page 60: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/60.jpg)
60
آینده پاداشهای گرفتن نظر در
پاداش زمان Rt اگر از شروع با عامل که باشد پاداشی tمجموعمحاسبه را پاداش این میتوان مختلف طرق به کند جمع میتواندنزدیکتر. پاداشهای به آن در که است زیر بصورت راه یک نمود
. میشود داده بیشتری ارزش
+50
-1-1
+3
r9r5r4r1
10...0
13
2
21
kkt
k
tttt rrrrR
50...11...3841
9 R
![Page 61: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/61.jpg)
61
تصمیم در آینده های رخداد کردن لحاظ نحوه عمل انتخاب در مهم نکات از یکی . برای است عامل انتخاب فعلی در آینده رخدادهای تاثیر بتواند عامل یک اینکه
شده پیشنهاد مختلفی مدلهای بگیرد نظر در را فعلی حالت برای مناسب عملاست:
finite horizonدر که را پاداشی مقادیر عمل انتخاب برای عامل که است این مدل ترین hساده
را پاداش مجموع که نماید انتخاب را عملی و نموده محاسبه میگیرد بعد مرحله. نماید حداکثر
(discounted cumulative reward )infinite horizonبجای روش این . hدر این میشود گرفته نظر در دریافتی درازمدت پاداش مرحله،
ارزش شد خواهد گرفته آینده در که پاداشهائی به و بوده مرسوم بسیار روش. میشود داده فوری پاداشهای به نسبت کمتری
10...)(0
2
2
1
kkt
k
tttt rrrrSV
h
kktt rSV
0
)(
![Page 62: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/62.jpg)
62
average rewardنظر در دور و نزدیک پاداشهای بین فرقی روش این در
. نمیشود گرفته
h
kktht rSV h 0
1)( lim
پیدا *p یادگیری تقویتی این است که یک خط مشی بهینه ای مثل هدفنماید به نحویکه مقدار امید ریاضی فوق را برای تمامی حاالت ماکزیمم
کند. سعی دارد عامل را وادار کند در اثر تجربه با محیط RLدر واقع
سیاست خود را تغییر داده و طوری رفتار نماید که در دراز مدت پاداش بیشتری کسب نماید.
![Page 63: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/63.jpg)
Start S2
S3S4
S5 Goal
S7S8
Arrows indicate strength between two problem states
Start maze …
Reinforcement learning example
![Page 64: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/64.jpg)
Start S2
S3S4
S5 Goal
S7S8
The first response leads to S2 …
The next state is chosen by randomly sampling from the possible next states weighted by their associative strength
Associative strength = line width
![Page 65: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/65.jpg)
Start S2
S3S4
S5 Goal
S7S8
Suppose the randomly sampled response leads to S3 …
![Page 66: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/66.jpg)
Start S2
S3S4
S5 Goal
S7S8
At S3, choices lead to either S2, S4, or S7.
S7 was picked )randomly(
![Page 67: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/67.jpg)
Start S2
S3S4
S5 Goal
S7S8
By chance, S3 was picked next…
![Page 68: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/68.jpg)
Start S2
S3S4
S5 Goal
S7S8
Next response is S4
![Page 69: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/69.jpg)
Start S2
S3S4
S5 Goal
S7S8
And S5 was chosen next )randomly(
![Page 70: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/70.jpg)
Start S2
S3S4
S5 Goal
S7S8
And the goal is reached …
![Page 71: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/71.jpg)
مقایسه الگوریتم یادگیری تقویت شده با کنترل پیش بین مبتنی بر مدل
Reinforcement learning and model predictive control are two families of control techniques which tackle control problems by formalizing them as optimal control problems. While MPC techniques assume that a model of the optimal control problemis available, reinforcement learning techniques assume that the only information available from the model is the one gathered from interaction with the system.
![Page 72: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/72.jpg)
مدلهای مارکو
![Page 73: سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC )](https://reader033.vdocuments.site/reader033/viewer/2022061421/56815223550346895dc06a4d/html5/thumbnails/73.jpg)
با تشکر از توجه شما