učenje i viši kognitivni procesi 6. učenje, iii deo: instrumentalno učenje
DESCRIPTION
Učenje i viši kognitivni procesi 6. Učenje, III Deo: Instrumentalno učenjeTRANSCRIPT
UČENJE I VIŠI KOGNITIVNI PROCESI Prolećni semestar 2013. Predavač: Goran S. Milovanović
Predavanje 6a UČENJE – Deo III: Instrumentalno učenje
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 2
SVRSISHODNOST PONAŠANJA LJUDI I ŽIVOTINJA Ograničenja paradigme klasičnog uslovljavanja u objašnjenju ponašanja
• U klasičnom uslovljavanju, jedna već instinktivno fiksirana reakcija biva povezana sa nekim, u odnosu na nju, prethodno neutralnim stimulusom.
• Proučavanje unutar paradigme klasičnog uslovljavanja nam ne govori ništa o načinima na koje životinje i ljudi stiču nove oblike ponašanja.
• Ponašanje ljudi i životinja je svrsishodno:
• Ponašanje je određeno u odnosu na relevantne ciljeve, motive, nagone – motivacija igra suštinsku ulogu u određivanju ponašanja!
• Kako organizmi biraju koje će akcije sprovesti u svojoj sredini u funkciji ciljeva koji im se nameću (ili koje biraju)?
• Paradigma instrumentalnog učenja proširuje eksperimentalnu analizu ponašanja u učenju tako da obuhvati ove netrivijalne komponente koje klasično uslovljavanje ne obuhvata.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 3
INSTRUMENTALNO UČENJE Osnovni nacrt, Torndajkova istraživanja i zaključci
Jedna od Torndajkovih „puzzle-boxes“ (Prema Thorndike, 1898). Neki od Torndajkovih rezultata
(Prema Thorndike, 1898).
Tipično ponašanje Torndajkovih eksperimentalnih životinja: 1. emitovanje slučajnih reakcija; 2. slučajno emitovanje „tačne“ reakcije; 3. pri vraćanju u kavez, ponovo emitovanje slučajnih reakcija; 4. postepeno smanjivanje vremena latencije do „tačne“ reakcije; 5. konačno, emisija samo „tačne“ reakcije.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 4
ZAKON EFEKTA Rekonstrukcija Torndajkovog misaonog puta
Edvard Torndajk
• Torndajk: životinje uče bez ikakvog razumevanja. • Metoda „slepih pokušaja i slučajnih uspeha“. • Postupnost učenja pokazuje da tu nema nikakvog uviđanja!
• Naučio mačke da se kavez otvara kada počnu da se ližu nema nikakve unutrašnje veze između lizanja i otvaranja kaveza (dok ima između mehanizma poluge ili omče i otvaranja vratanca)
• Zakoni asocijacija, Torndajku poznati iz filozofske tradicije (Aristotel, Braun, Bejn), nisu mogli da objasne instrumentalno učenje.
• Prema zakonu frekvencije, životinje uče najučestaliju reakciju koju emituju zato što je poslednja reakcija koju emitiju pre potkrepljenja, tj. „tačna reakcija“, uvek morala da bude emitovana!
• Torndajk: pogrešno objašnjenje. Tokom emitovanja slučajnih reakcija mnoge se reakcije
ponavljaju nema nikakvog razloga zašto one ne bi bile naučene i fiksirane u repertoaru ponašanja.
• Zaključak: mora da postoji princip jači od zakona učestalosti.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 5
ZAKON EFEKTA Posledice fiksiraju ponašanja u bihejvioralnom repertoaru organizama
Edvard Torndajk
• Torndajkova bibliografija je do 1949, kada je umro, brojala 507 knjiga, monografija i radova u naučnim časopisima. Zakon efekta i čuveni eksperimenti sa mačkama objavljeni su 1898. u njegovoj doktorskoj disertaciji, koja je 1911. godine objavljena kao „Inteligencija životinja“.
• Edvard Torndajk je bio prvi S-R teoretičar: pre njega, istorija asocijacionizma govori samo o S-S tipu asocijacija.
• Tolman, 1938: „Psihologija učenja životinja – da ne pominjemo psihologiju učenja dece – je u suštini bila i još uvek jeste pitanje slaganja ili neslaganja sa Torndajkom, ili malih pokušaja da se poboljša njegovo shvatanje “.
ZAKON EFEKTA Prvobitna formulacija zakona efekta: „Od nekoliko odgovora koji se u jednoj situaciji vrše, čvršće se za situaciju vezuju oni koji su praćeni zadovoljenjem (satisfaction), a oni koji su praćeni nezadovoljenjem (discomfort) bivaju oslabljeni“. (Thorndike, 1898).
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 6
FORME INSTRUMENTALNOG UČENJA Skiner: operantno i respondentno uslovljavanje
Barus F. Skiner
• Barus Skiner: verovatno najveći individualni doprinos psihologiji učenja tokom njene istorije; verovatno najznačajniji bihejviorista uopšte; 180 naučnih radova, 21 knjiga, prema mnogima najuticajniji psiholog XX veka uopšte.
• Skiner razlikuje • Respondentno uslovljavanje, u kome je reakcija organizma
automatska, izazvana emisijom bezuslovnog stimulusa = klasično uslovljavanje, i
• Operantno uslovljavanje, u kome se organizam uslovljava tako što se tačno određene reakcije koje on spontano emituje povezuju sa posledicama (nagradama, kaznama) koje to ponašanje fiksiraju ili eliminišu iz bihejvioralnog repertoara.
• Skinerova kutija: automatizacija merenja tokom proučavanja učenja, mahom kod golubova i pacova:
• poluga (dugme) koja se potiskuje nadole (kljuca) jedinica nagrade (hrana); • frekvencija pritisaka na polugu je mera jačine stečene navike u Skinerovoj kutiiji; • ponašanje životinja: kao u Torndajkovom kavezu; • automatizacija merenja: pritisak poluge aktivira pero i tako razvija vizuelni zapis
ponašanja.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 7
FORME INSTRUMENTALNOG UČENJA Skiner: merenje jačine navike u Skinerovoj kutiji
Viša rata priraštaja R Niža rata priraštaja R
• Svaki put kada eksperimentalna životinja pritisne polugu (kljucne dugme) u Skinerovoj kutiji, pero koje proizvodi vizuelni zapis ponašanja se podigne za određenu visinu.
• Tako automatski dobijamo zapis koji nam pokazuje koliko frekventno je pritiskana poluga.
• Dakle, na Y-osi se registruje svaka naredna reakcija odn. kumulativna frekvencija reagovanja; na X-osi je vreme.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 8
POTKREPLJENJE Pojam potkrepljenja (engl. reinforcement)
Barus F. Skiner
Skinerovi osnovni principi operantnog uslovljavanja 1. Bilo koji odgovor R kome sledi potkrepljenje (nagrada) teži da bude
ponovljen.
2. Potkrepljenje (nagrada) je bilo šta što povećava ratu kojom se odgovor R ponovo javlja.
U stvari, jedina osobina potkrepljivača koju sa izvesnošću znamo jeste da on potkrepljuje...
Davanje Oduzimanje
Apetitivni stimulus Pozitivno potkrepljenje (nagrada)
Izostavljanje nagrade (oblik kažnjavanja)
Averzivni stimulus
Kazna (uobičajeno kažnjavanje)
Negativno potkrepljenje
Naučite terminologiju u klasifikaciji potkrepljenja:
S R SR shema operantnog uslovljavanja
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 9
RAD BARUSA FREDERIKA SKINERA
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 10
FORME I BITNI FENEOMENI INSTRUMENTALNOG UČENJA Učenje reakcije bežanja (Escape Learning)
Nema šoka u ovom delu komore
U ovom obliku instrumentalnog učenja, životinja ne uspeva da izbegne neprijatni stimulus: ona uči da pobegne od njega. Potkrepljenje je prestanak dejstva neprijatnog stimulusa: negativno potkrepljenje.
Elektrifikovano trčište za pacove
Cilj
0% potkrepljenja je situacija u kojoj se prekid šoka odlaže za 20 sekundi bez obzira kad je životinja stigla na cilj.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 11
FORME I BITNI FENEOMENI INSTRUMENTALNOG UČENJA Učenje reakcije izbegavanja (Avoidance Learning)
• U prvim pokušajima, životinja posle dobijanja šoka u jednoj komori prelazi u drugu.
• Vremenom, životinja uči da napusti komoru u kojoj dobija šok pre nego što se šok zada: uči reakciju izbegavanja.
• Biološki veoma relevantna forma instrumentalnog učenja.
Učenje reakcije izbegavanja: Maurerova teorija dva faktora (1939) • Neutralni stimulusi iz komore u kojoj se zadaje šok se asociraju za averzivni stimulus mehanizmom
klasičnog emocionalnog uslovljavanja. • Napuštanje situacije, odn. prelazak u komoru u kojoj nema šoka, dovodi do smanjenja straha, i
tako predstavlja potkrepljenje izvršene instrumentalne reakcije. • I mehanizmi klasičnog uslovljavanja, i mehanizmi instrumentalnog učenja, učestvuju u učenju
reakcije izbegavanja. • Kritike: Vin i Solomon (1955, eliminišu aktivnost autonomnog nervnog sistema hemijskim ili
hirurškim putem), Blek (1959, meri aktivnost ANS-a tokom učenja) učenje reakcije izbegavanja se odvija i kada nema reakcije straha.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 12
FORME I BITNI FENEOMENI INSTRUMENTALNOG UČENJA Skinerov metod aproksimacije odn. oblikovanja (engl. shaping)
• Skiner: metoda aproksimacije (ili oblikovanja, engl. shaping) • Nagraditi prvu reakciju sličnu onoj koja se očekuje, onda...
1. diferencijalno potrekpljenje, i 2. sukcesivna aproksimacija.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 13
FORME I BITNI FENEOMENI INSTRUMENTALNOG UČENJA Učenje putem kažnjavanja (Punishment learning)
Eksperiment Estesa, 1944.
II grupa I grupa 8 pacova 8 pacova
(1) Trening pritiskanja
poluge
(1) Trening pritiskanja
poluge
(2) Gašenje: pritisak poluge ne dovodi do
hrane
(1) Gašenje: pritisak poluge
dovodi do elektrošoka
• Postoje 3 seanse gašenja • Samo u prvoj seansi I grupa dobija
elektrošokove; njena druga i treća seansa su iste kao u I grupi
• Rezultati pokazuju kako broj reakcija u II grupi postepeno aproksimira broj reakcija u II grupi koja nije kažnjavana kazna nema nikakav efekat u odnosu na uobičajeni postupak gašenja nepotkrepljivanjem!
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 14
FORME I BITNI FENEOMENI INSTRUMENTALNOG UČENJA Psihologija učenja o primeni kazne
• Edvard Torndajk. Posle 1930, suočen sa eksperimentalnim nalazima o neefikasnosti kažnjavanja, daje reviziju zakona efekta: „Nagrada povećava snagu konekcije (asocijacije), dok kazna ne utiče na snagu konekcije (asocijacije) ni na kakav način“.
• Glavni argument Barusa Skinera protiv upotrebe kazni u učenju: kažnjavanje je, na duge staze, neefikasno. Kazna može da eliminiše određeno ponašanje privremeno, dok se sprovodi, ali nema nikakav suštinski efekat tj. ne garantuje da se kažnjavano ponašanje neće ponoviti:
• Kažnjavanje dovodi do neželjenih i nepotrebnih emocionalnih stanja: organizam se plaši, a reakcija straha se generalizuje na mnoge druge stimuluse.
• Kazna označava ono što organizam ne treba da radi, a ne ono što treba da radi. To nije najzgodniji mehanizam za učenje koji možemo da zamislimo.
• Kažnjavanje opravdava nanošenje bola drugima. Kada dete dobije batine (što je protivzakonito u Republici Srbiji, da se podsetimo!), ono uči samo to da pod nekim okolnostima jeste opravdano nanositi bol drugima.
• Situacije u kojima postoji mogućnost da se ispolji prethodno kažnjavano ponašanje bez aktualne kazne mogu biti izgovor da se to ponašanje ispolji. Deca nauče da potisnu ponašanje u prisustvu aktera koji ih kažnjava, ne u njegovom odsustvu.
• Kažnjavanje vodi ka ispoljavanju agresije kod kažnjavane osobe, a ovo vodi u druge probleme. Razmislite o tipičnim sudbinama u institucijama za rehabilitaciju.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 15
FORME I BITNI FENEOMENI INSTRUMENTALNOG UČENJA Psihologija učenja o primeni kazne
Drugačija mišljenja • Stedon, 1995. Kazna nije neefetivna; zavisi od nacrta odn. kako je koristimo:
• Ako je elektrošok koji date eksperimentalnoj životinji veoma jak, ona ne samo da će prestati da emituje ponašanje na koje ste ciljali („pritiskanje poluge“ u proceduri gašenja) - ona će verovatno prestati da radi bilo šta u situaciji u kojoj se našla.
• Ako je elektrošok koji date umerenog intenziteta, čak i tada će pacov više manje „iz prve“ prestati da pritiska polugu ili emituje drugu reakciju na koju ste ciljali.
• Da li se kažnjavano ponašanje vraća posle perioda primene kazne ili ne?
Zavisi od toga kako kaznu primenjujemo. Npr. procedura odlaganja šoka:
• eksperimentalna životinja se operantno uslovi da neće dobiti elektrošok ako „tu i tamo“ pritisne polugu u Skinerovoj kutiji
• izgradnja veoma, veoma stabilne, održive reakcije.
• Stedon, 1995: prilično je nejasno da li je opšti zaključak moguć, i nagrađivanje i kažnjavanje imaju svojih prednosti i svojih mana u oblikovanju ponašanja.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 16
REŽIMI POTKREPLJENJA U OPERANTNOM USLOVLJAVANJU Režimi potkrepljenja i modifikacija ponašanja
• Režimi potkrepljenja: termin se odnosi na pravila u operantnom učenju koja određuju kada se potkrepljuje neka reakcija. Različiti režimi potkrepljenja vode ka različitim ponašanjima i ključni su u svim procedurama modifikacije ponašanja.
• Skiner, 1938. (prvi opis režima potkrepljenja) • 1957. Fester i Skiner: cela knjiga posvećena režimima
potrekpljenja.
• Interminentni režimi potkrepljenja: ne potkrepljuje se svaka reakcija.
• Hamfrisov paradoks: parcijalno potrekpljenje gradi reakcije koje se teže gase!
• Značaj: u prirodnim uslovima, retko kada je svaka emitovana reakcija potkrepljena!
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 17
REŽIMI POTKREPLJENJA Skinerovi režimi potkrepljenja u operantnom uslovljavanju
• Kontinuirani režim potkrepljenja
• Svaki put kada se emituje reakcija potkrepljenje. • Bihejvioralne posledice: ovako naučene reakcije se lako gase. • Primer: aparat za kafu i sokove. Kada je ispravan, svaki put kada ubacite novac u
njega, dobijete željeni proizvod. Taj aparat vas potkrepljuje kontinuirano. • Ali, ako je aparat pokvaren: koliko dugo ćete provesti u pritiskanju dugmeta da
dobijete željeni napitak?
1. Dok se reakcija potkrepljuje: aproksimativno linearan rast.
2. Prekid potrekpljenja.
3. Prekid reagovanja.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 18
REŽIMI POTKREPLJENJA Skinerovi režimi potkrepljenja u operantnom uslovljavanju
Interminenti (povremeni, delimični, parcijalni) režimi potkrepljenja
• Ne potkrepljuje se svaka reakcija! • Bihejvioralne posledice: reakcije se sporije izgrađuju,
ali se teže gase. • Klasifikacija interminentih režimia potkrepljenja se
bazira (a) na vremenu (intervalni režimi tj. vremenski režimi) ili (b) na frekvenciji reakcije (proporcijalni režimi tj. režimi srazmere)
• Vremenski režimi: potkrepljenje po isteku određenog vremenskog intervala
• Režimi srazmere: potkrepljenje posle određenog broja reakcija
• Četiri osnovna tipa:
• Fiksni interval (Fixed Interval – FI) • Varijabilni interval (Variable Interval – VI) • Fiksna srazmera (Fixed Ratio – FR) • Varijabilna srazmera (Variable Ratio – VR)
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 19
REŽIMI POTKREPLJENJA Skinerovi režimi potkrepljenja u operantnom uslovljavanju
Režim fiksnog intervala (FI)
• Potkrepljenje se javlja posle određenog fiksnog vremenskog intervala • Reakcije koje se potkrepljuju se javljaju po isteku intervala; njihova frekvencija ne
utiče na potkrepljenje ni na koji način. • Bihejvioralne posledice: na početku intervala, malo reakcija, pri kraju intervala,
dakle, pred trenutak kada se očekuje potkrepljenje nagli skok u frekvenciji reakcija.
Skok frekvencije R pred potkrepljenje
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 20
REŽIMI POTKREPLJENJA Skinerovi režimi potkrepljenja u operantnom uslovljavanju
Režim varijabilnog intervala (VI)
• Potkrepljenje se javlja posle vremenskih intervala koji variraju po trajanju • Režim se određuje prosečnom dužinom trajanja intervala, a intervali izlažu
slučajnim redosledom • Bihejvioralne posledice: veoma stabilna izgradnja reakcije, skoro linearan priraštaj u
frekvenciji reakcije sa vremenom (ima oscilacija, ali mnogo manje dramatičnih u odnosu na prethodni režim).
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 21
REŽIMI POTKREPLJENJA Skinerovi režimi potkrepljenja u operantnom uslovljavanju
Režim stalne srazmere (FR)
• Potkrepljenje se javlja posle određenog fiksnog broja reakcija • Bihejvioralne posledice: veoma stabilna izgradnja reakcije,skoro linearan priraštaj
frekvencije reagovanja sa vremenom. • Velika brzina i upornost reagovanja. Kod velikih srazmera (1:5, 1:10 i sl.) zapaža se
izvesna pauza posle dobijenog potkrepljenja; kod malih srazmera, npr. 1:100 i sl., takve pauze su ređe).
Kod velikih srazmera vidljiva je pauza u reagovanju posle potkrepljenja.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 22
REŽIMI POTKREPLJENJA Skinerovi režimi potkrepljenja u operantnom uslovljavanju
Režim varijabilne srazmere (VR)
• Potkrepljenje se javlja posle varijabilnog broja reakcija; slučajni raspored davanja potkrepljenja posle određenog broja reakcija; režim se određuje prosečnim brojem reakcija posle kojih se da je potkrepljenje
• Bihejvioralne posledice: izvanredan priraštaj u frekvenciji reagovanja sa vremenom, izuzetno visoka frekvencija reagovanja, trajnost – veoma teško se gasi.
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 23
PREGLED SKINEROVIH INTERMINENTIH REŽIMA POTKREPLJENJA
FI VI
FR VR
Učenje i viš.kog.procesi, Proleće 2013: Učenje, Deo III – Predavanje 6 24
REŽIMI POTKREPLJENJA Hernstejnov zakon slaganja (engl. Matching law)
Ričard Hernstejn (1930 – 1994), Skinerov student na Harvardu: proučava izborno ponašanje Paralelni režimi potkrepljenja: organizam može da emituje više različitih reakcija (npr. postoji nekoliko poluga za pritiskanje) od kojih svaka potkrepljuje po sopstvenom režimu potkrepljenja.
kljucanje dugmeta A
kljucanje dugmeta B
VI 2 minuta VI 1 minut
U intervalu od 2 minuta, dugme A potkrepljuje jednom, a dugme B – 2 puta. Šta golub treba da čini? Hernstejn, 1961 – evo šta golubovi čine:
kljucanje dugmeta A
kljucanje dugmeta B
~ 33% vremena ~ 67% vremena
Hernstejnov zakon slaganja:
odnos rata reakcija = odnos rata potkrepljenja