Rose M. Spielman; William J. Jenkins; Marilyn D. Lovett; Joanna Czarnota-Bojarska

Poprzednia część tego rozdziału koncentrowała się na rodzaju uczenia się asocjacyjnego znanego jako warunkowanie klasyczne. W warunkowaniu klasycznym jakiś bodziec w otoczeniu automatycznie wyzwala reakcję, a eksperymentatorzy trenują jednostkę, aby reagowała w taki sam sposób na inny bodziec. Teraz przechodzimy do drugiego rodzaju uczenia się asocjacyjnego, a jest nim warunkowanie sprawcze (ang. operant conditioning). W warunkowaniu sprawczym zwierzęta i ludzie uczą się kojarzyć zachowanie z jego konsekwencją (Tabela 6.1). Konsekwencja przyjemna sprawia, że dane zachowanie będzie częściej powtarzane w przyszłości. Na przykład delfin Duszek z National Aquarium w Baltimore wykonuje salto w powietrzu, gdy jego trener dmucha w gwizdek. Dla delfina konsekwencją wykonania salta jest posiłek: ryba.

Porównanie warunkowania klasycznego i sprawczego.

	Warunkowanie klasyczne	Warunkowanie sprawcze
Podejście do warunkowania	Bodziec bezwarunkowy (np. jedzenie) jest skojarzony z bodźcem obojętnym (np. dźwiękiem dzwonka). Bodziec obojętny staje się bodźcem warunkowym, który wywołuje reakcję warunkową (ślinienie).	Zachowanie jest nagradzane lub karane w celu odpowiedniego wzmocnienia lub osłabienia go; tak by uczący się osobnik częściej wykazywał w przyszłości zachowanie pożądane.
Czas pojawienia się bodźca	Bodziec występuje bezpośrednio przed reakcją.	Bodziec (wzmocnienie albo karanie) występuje wkrótce po reakcji.

Tabela 6.1

Psycholog Burrhus Frederic Skinner (1904-1990) zauważył, że warunkowanie klasyczne ogranicza się do zachowań wywoływanych odruchowo i nie uwzględnia nowych zachowań, takich jak jazda na rowerze. Zaproponował teorię opisującą, jak takie zachowania powstają. Skinner uważał, że zachowanie jest motywowane konsekwencjami, jakie nas za nie dosięgają: wzmocnieniami i karami. Zaproponowana przez niego koncepcja, że uczenie się jest wynikiem konsekwencji, opiera się na prawie efektu, które po raz pierwszy zaproponował Edward Thorndike (1874–1949). Prawo efektu (ang. law of effect) mówi, że zachowania, po których następują konsekwencje satysfakcjonujące dla osobnika, częściej się powtarzają, a zachowania, po których następują konsekwencje nieprzyjemne, powtarzają się rzadziej (Thorndike, 1911). Innymi słowy: jeśli człowiek lub zwierzę podejmuje działanie, które przynosi pożądany przezeń rezultat, to istnieje większe prawdopodobieństwo, że zrobi to ponownie. Jeśli organizm zrobi coś, co nie przyniesie korzystnego dla niego rezultatu, to istnieje mniejsze prawdopodobieństwo, że zrobi to ponownie. Przykładem działania prawa efektu jest zatrudnienie. Jednym z powodów (i często głównym), dla którego przychodzimy do pracy, jest to, że dostajemy za to wynagrodzenie. Jeśli pracodawca przestanie nam płacić, prawdopodobnie przestaniemy się pojawiać w pracy, nawet jeśli ją bardzo lubimy.

Na podstawie prawa efektu Thorndike’a Skinner zaczął przeprowadzać eksperymenty naukowe na zwierzętach (głównie szczurach i gołębiach), aby ustalić, w jaki sposób jednostki uczą się poprzez warunkowanie sprawcze (Skinner, 1938). Umieszczał zwierzęta w urządzeniu w formie skrzynki, znanej obecnie jako klatka Skinnera lub skrzynka problemowa (Ilustracja 6.10). Klatka Skinnera zawiera dźwignię (dla szczurów) lub tarczę (dla gołębi), które zwierzę może naciskać lub dziobać w celu otrzymania nagrody: pokarmu pojawiającego się w dozowniku. Głośniki i lampki mogą być wiązane z niektórymi zachowaniami. Nagrywarka zlicza liczbę reakcji zwierzęcia.

Ilustracja 6.10 (a) B.F. Skinner opracował metodologię badania warunkowania sprawczego, aby systematycznie sprawdzać, w jaki sposób zachowania są wzmacniane lub osłabiane w zależności od ich konsekwencji. (b) W klatce Skinnera szczur naciska dźwignię w komorze warunkowania sprawczego, aby otrzymać nagrodę – jedzenie. (Źródło: modyfikacja pracy „Silly rabbit”/Wikimedia Commons).

Sięgnij po więcej

Obejrzyj ten krótki wideoklip, żeby dowiedzieć się więcej o warunkowaniu sprawczym: Skinner udziela tu wywiadu i demonstruje warunkowanie gołębi.

Dyskutując o warunkowaniu sprawczym, używamy kilku codziennych słów — pozytywny, negatywny, wzmocnienie i karanie — w szczególny sposób. W warunkowaniu sprawczym określenia pozytywne i negatywne nie są równoznaczne z dobrem i złem, ale oznaczają, że warunkowanie pozytywne polega na dodaniu czegoś w celu zwiększenia lub zmniejszenia repertuaru zachowań, a warunkowanie negatywne – na zabraniu czegoś w celu zwiększenia lub zmniejszenia repertuaru zachowań. Wzmacnianie (ang. reinforcement) oznacza, że wzmagasz jakieś zachowanie, a karanie oznacza, że starasz się je osłabić. Zarówno wzmocnienie, jak i karanie może być pozytywne lub negatywne. Wszystkie wzmocnienia (pozytywne lub negatywne) zwiększają prawdopodobieństwo reakcji behawioralnej. Wszystkie kary (pozytywne lub negatywne) zmniejszają prawdopodobieństwo reakcji behawioralnej. Teraz spójrzmy na kombinację tych czterech terminów: wzmacnianie pozytywne, wzmacnianie negatywne, karanie pozytywne i karanie negatywne (Tabela 6.2).

Pozytywne i negatywne wzmacnianie i karanie.

	Wzmacnianie	Karanie
Pozytywne	Coś zostało dodane, żeby zwiększyć prawdopodobieństwo jakiegoś zachowania.	Coś zostało dodane, żeby zmniejszyć prawdopodobieństwo jakiegoś zachowania.
Negatywne	Coś zostało usunięte, żeby zwiększyć prawdopodobieństwo jakiegoś zachowania.	Coś zostało usunięte, żeby zmniejszyć prawdopodobieństwo jakiegoś zachowania.

Tabela 6.2

Wzmacnianie

Najbardziej skutecznym sposobem nauczenia osoby lub zwierzęcia nowego zachowania jest wzmacnianie pozytywne. Pozytywne wzmacnianie (ang. positive reinforcement) oznacza podanie pożądanego bodźca, aby zwiększyć prawdopodobieństwo danego zachowania.

Na przykład ojciec pięcioletniego Janka dał mu jako nagrodę nowy zestaw do rysowania, gdy syn posprzatął swój pokój. Zatrzymajmy się na chwilę. Niektórzy mogliby powiedzieć: „Dlaczego mam nagradzać moje dziecko za zrobienie tego, co należy do jego obowiązków?”. Zauważ jednak, że jesteśmy stale i konsekwentnie nagradzani. Nasze wynagrodzenia są nagrodami, podobnie jak wysokie oceny i przyjęcie nas do preferowanej szkoły. Pochwała za dobrze wykonane zadanie i zdanie egzaminu na prawo jazdy również są nagrodami. Pozytywne wzmacnianie jako narzędzie uczenia jest niezwykle skuteczne. W niektórych szkołach stwierdzono, że jednym z najskuteczniejszych sposobów podwyższenia ocen z czytania uczniów mających osiągnięcia poniżej średniej jest płacenie im za czytanie. I tak uczniowie drugiej klasy w Dallas otrzymywali 2 dolary za każdym razem, gdy przeczytali książkę i zdali krótki quiz na jej temat. W wyniku tych nagród znacznie wzrosły ich umiejętności czytania (Fryer, 2010). Co sądzisz o takim programie? Skinner, gdyby żył, prawdopodobnie uznałby to za świetny pomysł, ponieważ był zdecydowanym zwolennikiem stosowania zasad warunkowania sprawczego do nauczania i wychowania w szkole. Poza klatką, Skinner wynalazł także maszynę uczącą (Skinner, 1961) — wczesny prekursor nauczania wspomaganego komputerowo — która została zaprojektowana, aby nagradzać małe kroki w nauce. Jego maszyna ucząca sprawdzała wiedzę uczniów podczas pracy nad różnymi przedmiotami szkolnymi. Jeśli uczniowie odpowiedzieli poprawnie na pytania, otrzymywali natychmiastowe wzmocnienie pozytywne i mogli kontynuować; jeśli odpowiedzieli niepoprawnie, nie otrzymywali żadnego wzmocnienia. Chodziło o to, aby uczniowie spędzili na studiowaniu materiału dodatkowo trochę czasu, aby zwiększyć szansę na otrzymanie wzmocnienia następnym razem (Skinner, 1961).

Gdy chodzi o wzmacnianie negatywne (ang. negative reinforcement), to usuwa się niepożądany bodziec, aby zwiększyć częstość danego zachowania. Na przykład producenci samochodów stosują zasady wzmacniania negatywnego w systemach pasów bezpieczeństwa, które wydają dźwięk „piii, piii, piii”, dopóki ich nie zapniesz. Irytujący dźwięk ustaje, gdy przejawiasz pożądane zachowanie. Zwiększa to prawdopodobieństwo, że zapniesz pas także w przyszłości. Wzmacnianie negatywne jest również często stosowane w treningu koni. Jeźdźcy wywierają nacisk — ciągnąc wodze lub ściskając nogi — a następnie usuwają nacisk, gdy koń przejawia pożądane zachowanie, takie jak skręcanie lub przyspieszanie. Nacisk jest bodźcem nieprzyjemnym, który koń chce usunąć.

Karanie

Wiele osób myli negatywne wzmacnianie z karą w warunkowaniu sprawczym, ale są to dwa bardzo różne mechanizmy. Pamiętaj, że wzmacnianie, nawet gdy jest negatywne, zawsze zwiększa prawdopodobieństwo zachowania; z kolei karanie (ang. punishment) zawsze zmniejsza prawdopodobieństwo danego zachowania. W przypadku karania pozytywnego (ang. positive punishment) podajesz bodziec niepożądany, aby zmniejszyć częstość zachowania. Przykładem kary pozytywnej jest zwrócenie uwagi uczniowi, aby przestał pisać SMS-y na zajęciach. W takim przypadku bodziec (zwrócenie uwagi) ma na celu ograniczenie niepożądanego zachowania (esemesowanie podczas lekcji). Kiedy zachodzi karanie negatywne (ang. negative punishment), usuwany jest bodziec przyjemny, aby zmniejszyć powtarzalność zachowania. Na przykład, gdy dziecko źle się zachowuje, rodzic może wyłączyć telewizor podczas emisji ulubionego programu dziecka. W takim przypadku bodziec przyjemny (oglądanie programu) jest usuwany w celu zmniejszenia prawdopodobieństwa zachowania.

Kara, szczególnie gdy jest natychmiastowa, to jeden ze sposobów zmniejszenia częstości zachowań niepożądanych. Wyobraź sobie na przykład, że twój ośmioletni syn Tomek uderzył swojego młodszego brata. Każesz Tomkowi napisać 100 razy „Nie uderzę mojego brata” (kara pozytywna). Jest możliwe, że nie powtórzy już takiego zachowania. Dzisiaj takie metody są powszechne, w przeszłości jednak dzieci często podlegały karom fizycznym, takim jak klapsy. Ważne jest, aby zdawać sobie sprawę, że stosowanie kar fizycznych wobec dzieci ma dwie podstawowe wady. Po pierwsze, taka kara może uczyć strachu. Tomek może stać się bojaźliwy z tego powodu, ujawniając lęk przed innymi bodźcami, ale może też bać się osoby, która wymierzyła karę – ciebie, jego rodzica. Podobnie dzieci karane przez nauczyciela mogą obawiać się go i próbować unikać szkoły (Gershoff et al., 2010). W Polsce, która jest sygnatariuszem Konwencji o prawach dziecka, stosowanie kar fizycznych jest zakazane. Takie zapisy znajdujemy w kodeksie rodzinnym i opiekuńczym. Jednak, co zastanawiające, ustawodawca nie zawarł sankcji za ich stosowanie. Po drugie, wadą kar fizycznych jest prawdopodobieństwo wywołania w dziecku zachowań agresywnych i skłonności do aspołecznych zachowań oraz przestępstw (Gershoff, 2002). Gdy dzieci widzą, że ich rodzice uciekają się do klapsów, kiedy złoszczą się i czują się sfrustrowani, mogą zachowywać się tak samo, gdy to one złoszczą się i czują się sfrustrowane. Na przykład rozzłościło cię złe zachowanie Marysi i dajesz jej klapsa, ale w następstwie tego zdarzenia Marysia może zacząć bić swoich przyjaciół, gdy nie będą dzielić się z nią zabawkami (w takiej sytuacji może także zadziałać mechanizm uczenia się przez obserwację).

Ponieważ jednak karanie pozytywne może być w niektórych sytuacjach skuteczne, zwłaszcza gdy ma na celu natychmiastową eliminację zachowań zagrażających zdrowiu lub życiu, Skinner zasugerował, aby bardzo rozważnie podchodzić do decyzji o karaniu, ważąc jego potencjalne negatywne skutki. Dzisiejsi psychologowie i eksperci od wychowania wolą wzmacnianie niż karanie — zalecają uchwycenie momentu, gdy dziecko robi coś dobrego, a następnie nagrodzenie go za to (wzmocnienie tego zachowania). Zwróćmy jednak uwagę, że karanie jest obecne w życiu społecznym na różnych poziomach. Kary mogą wymierzać różne instytucje, sądy, służby (mandat za przekroczenie prędkości to kara), pracodawcy itd.

Kształtowanie

W swoich eksperymentach nad warunkowaniem sprawczym Skinner często stosował podejście zwane kształtowaniem (ang. shaping). Zamiast nagradzać tylko zachowanie docelowe, w kształtowaniu nagradzamy kolejne przybliżenia zachowania docelowego. Do czego potrzebne jest kształtowanie? Pamiętaj, że aby wzmacnianie zadziałało, jednostka musi najpierw przejawiać pożądane zachowanie. Kształtowanie jest potrzebne, ponieważ jest bardzo mało prawdopodobne, żeby człowiek lub zwierzę przejawiali spontanicznie bardziej złożone zachowania. W kształtowaniu zachowania dzieli się je na wiele małych, osiągalnych kroków. Konkretne kroki zastosowane w tym procesie są następujące:

Wzmocnij każdą reakcję, która przypomina pożądane zachowanie.
Następnie wzmocnij reakcję, która bardziej przypomina pożądane zachowanie. Jednocześnie nie wzmacniaj już wcześniej wzmocnionego zachowania.
Następnie zacznij wzmacniać zachowanie, które jeszcze bardziej przypomina to pożądane.
Kontynuuj wzmacnianie zachowań coraz bliższych zachowania pożądanego.
W końcu wzmacniaj tylko pożądane zachowanie.

Kształtowanie jest często stosowane w nauczaniu złożonych zachowań lub łańcucha zachowań. Skinner używał kształtowania, aby nauczyć gołębie nie tylko stosunkowo prostych zachowań, takich jak dziobanie tarczy w skrzynce problemowej, lecz także wielu nietypowych zachowań, takich jak obracanie się w kółko, chodzenie „po ósemce”, a nawet gra w ping-ponga; technika ta jest obecnie powszechnie stosowana przez trenerów zwierząt. Ważną częścią kształtowania jest różnicowanie bodźców. Przypomnij sobie psy Pawłowa — badacz wyszkolił je, aby reagowały na dźwięk dzwonka, a nie na podobne dźwięki lub odgłosy. Różnicowanie jest również ważne w warunkowaniu sprawczym i w kształtowaniu zachowania.

Sięgnij po więcej

Zobacz wideoklip o gołębiach Skinnera grających w ping-ponga.

Łatwo zobaczyć, jak skuteczne jest kształtowanie w uczeniu zachowań zwierząt, ale w jaki sposób kształtowanie działa u ludzi? Rozważmy sytuację rodziców, których celem jest, aby ich dziecko nauczyło się sprzątać swój pokój. Używają kształtowania, aby pomóc mu opanować kolejne kroki wiodące do tego celu. Zamiast skupiać się na całym zadaniu sprzątania, ustanawiają jego etapy i wzmacniają każdy krok. Najpierw dziecko sprząta jedną zabawkę. Potem sprząta pięć zabawek. Następnie decyduje, czy wziąć dziesięć zabawek, czy odłożyć na miejsce książki i ubrania. Po czym układa wszystko oprócz dwóch zabawek. Wreszcie sprząta cały pokój.

Wzmocnienia pierwotne i wtórne

Do usprawnienia nauki mogą być wykorzystywane nagrody takie jak naklejki, pochwały, pieniądze, zabawki i inne. Wróćmy jeszcze raz do szczurów Skinnera. Jak szczury nauczyły się naciskać dźwignię w skrzynce Skinnera? Za każde naciśnięcie dźwigni nagradzano je jedzeniem. Dla zwierząt jedzenie jest oczywistym wzmocnieniem.

Co może być dobrym wzmocnieniem dla ludzi? Obiecujesz synowi Marcinowi zabawkę, jeśli posprząta swój pokój. A co w przypadku Joachima, który gra w piłkę? Jeśli dasz mu cukierka za każdym razem, gdy zdobędzie gola, wprowadzisz wzmocnienie pierwotne (ang. primary reinforcer). Wzmocnienie pierwotne to wzmocnienie o wrodzonych właściwościach wzmacniających; tego rodzaju wzmocnienia nie są wyuczone. Wzmocnieniami pierwotnymi są między innymi woda, jedzenie, sen, schronienie, seks i dotyk, a także przyjemność, gdyż organizmy nie tracą popędu do tych rzeczy. Dla większości ludzi wejście do jeziora w upalny dzień jest wzmocnieniem, bo woda chłodzi ciało (zaspokaja potrzebę fizyczną) i kontakt z nią jest przyjemny. Zabawka i cukierek w powyższych przykładach stanowią wzmocnienia pierwotne, gdyż same z siebie dostarczają przyjemności.

Wzmocnienie wtórne (ang. secondary reinforcer) nie ma żadnej nieodłącznej wartości i nabywa właściwości wzmacniające tylko w połączeniu ze wzmocnieniem pierwotnym. Pochwała związana z emocjami jest jednym z przykładów wzmocnienia wtórnego, np. kiedy wołasz „Świetny strzał!” za każdym razem, gdy Joachim strzela gola. Kolejnym przykładem są pieniądze — są coś warte tylko wtedy, gdy można użyć ich do zakupu innych rzeczy albo do zaspokojenia naszych podstawowych potrzeb (jedzenie, woda, schronienie — lub innych, będących wzmocnieniami pierwotnymi), albo dostarczają innych wzmocnień wtórnych. Gdybyś znalazł się na bezludnej wyspie pośrodku Oceanu Spokojnego i miał stos pieniędzy, nie byłyby one do niczego przydatne, bo nie można byłoby ich na nic wydać.

Naklejki na tablicy motywacyjnej jako nagroda za dobre zachowanie są także wzmocnieniami wtórnymi. Zamiast naklejek czasami stosuje się żetony, które można wymienić na nagrody i wyróżnienia. Na użyciu tego rodzaju wzmocnień są zbudowane całe systemy kierowania zachowaniem, zwane ekonomią żetonową. Stwierdzono, że ekonomia żetonowa jest bardzo skuteczna w modyfikowaniu zachowań w różnych środowiskach, takich jak szkoły, więzienia i szpitale psychiatryczne. Na przykład badanie przeprowadzone przez Cangi i Dale (2013) wykazało, że korzystanie z ekonomii żetonowej zwiększyło częstotliwość odpowiednich zachowań społecznych i zmniejszyło częstotliwość niewłaściwych w grupie dzieci w wieku szkolnym z autyzmem. Dzieci z autyzmem mają tendencję do zachowań destrukcyjnych, takich jak szczypanie i bicie. Kiedy dzieci biorące udział w badaniu wykazywały odpowiednie zachowanie (powstrzymywały się od bicia i szczypania), otrzymywały żeton „spokojnych rąk”. Kiedy uderzyły lub uszczypnęły kogoś, traciły żeton. Dzieci mogły następnie wymieniać określoną liczbę żetonów na minuty zabawy.

Wokół nas

Kształtowanie zachowania u dzieci

Rodzice i nauczyciele często używają kształtowania, aby zmienić zachowanie dziecka. Kształtowanie zachowania wykorzystuje zasady warunkowania sprawczego do modyfikowania zachowania, tak aby niepożądane zachowania były zamieniane na bardziej akceptowalne społecznie. Niektórzy nauczyciele i rodzice tworzą tablicę motywacyjną z naklejkami, gdzie pojawiają się opisy zachowań (Ilustracja 6.11). Tablice motywacyjne z naklejkami są rodzajem ekonomii żetonowej, którą opisano wcześniej. Za każdym razem, gdy dzieci zachowują się dobrze, otrzymują naklejkę, a za określoną liczbę naklejek dostają nagrodę lub wzmocnienie. Celem jest zwiększenie liczby zachowań akceptowalnych i zmniejszenie liczby zachowań niewłaściwych. Pamiętaj, że dużo lepiej jest wzmocnić pożądane zachowania niż zastosować karę.

Nauczyciele podczas lekcji mogą wzmacniać wiele zachowań uczniów, np. podnoszenie ręki, ciche chodzenie po korytarzu, odrabianie zadań domowych. W domu rodzice mogą stworzyć tablicę motywacyjną, która nagradza dzieci za takie rzeczy jak odkładanie zabawek na miejsce, mycie zębów i pomoc przy obiedzie. Aby kształtowanie zachowania było skuteczne, wzmocnienie musi być powiązane z zachowaniem; wzmocnienie musi także mieć znaczenie dla dziecka i być stosowane konsekwentnie. Warto jednak mieć na uwadze, że metoda ta opiera się na motywacji zewnętrznej. Należy jednocześnie wspierać rozwój motywacji wewnętrznej, która sprawia, że dziecko chętniej podejmuje działania i ma większe poczucie sprawczości.

Ilustracja 6.11 Tablice motywacyjne są rodzajem wzmocnienia pozytywnego i narzędziem kształtowania zachowania. Gdy dziecko widoczne na zdjęciu zdobędzie określoną liczbę naklejek za wykazanie pożądanego zachowania, zostanie nagrodzone wyjściem na lody. (Źródło: Abigail Batchelder).

Kolejną popularną, choć krytykowaną przez psychologów dziecięcych, techniką stosowaną w kształtowaniu zachowania u dzieci jest tzw. time-out. Najtrafniejszym, choć nie idealnym, tłumaczeniem tego terminu na polski jest wykluczenie. Działa na zasadzie kary negatywnej; kiedy dziecko wykazuje niepożądane zachowanie, zostaje mu odebrana pożądana aktywność (Ilustracja 6.12). Powiedzmy na przykład, że Zosia i jej brat Mariusz bawią się klockami. Zosia rzuca klockami w brata, więc ostrzegasz ją, że jeśli zrobi to ponownie, to będzie musiała wyjść z pokoju. Kilka minut później rzuca znowu klockami w Mariusza. Wypraszasz Zosię z pokoju na kilka minut. Kiedy wraca, nie rzuca już klockami. W dawniejszych czasach stosowanym w szkołach rodzajem tej kary było odesłanie ucznia do kąta. Warto zdawać sobie sprawę, że metoda time-out nie uwzględnia emocji i potrzeb dziecka, wyłącznie skupiając się na jego zachowaniu. Wyproszone z pokoju dziecko zostaje pozostawione samo ze swoimi emocjami, tymczasem dorosły powinien towarzyszyć dziecku podczas stosowania technik wyciszających i wspierać je.

Jest kilka ważnych punktów, o których należy pamiętać, jeśli planuje się wprowadzić tę technikę kształtowania zachowania. Po pierwsze, upewnij się, że dziecko jest wykluczane z lubianej przez siebie zabawy i umieszczane w mniej pożądanym miejscu. Jeśli dana aktywność jest nielubiana przez dziecko, technika przyniesie skutek odwrotny, ponieważ dla dziecka bardziej pożądane będzie nieuczestniczenie w tej zabawie. Po drugie, ważna jest długość wymuszonej przerwy. Ogólnie przyjęta zasada to jedna minuta przerwy na każdy rok życia dziecka, więc pięcioletnia Zosia jest trzymana poza pokojem pięć minut. Ustawienie minutnika pomaga dzieciom orientować się, jak długo będzie trwało wykluczenie. Opiekun dziecka powinien zachować spokój, kiedy wyprasza dziecko, i zignorować je, jeśli domaga się uwagi dorosłego – uwaga opiekuna może wzmocnić jego złe zachowanie. Na zakończenie czasu wykluczenia opiekun powinien przytulić dziecko lub powiedzieć mu coś miłego.

Ilustracja 6.12 Wykluczenie jest formą kary negatywnej często stosowaną przez opiekunów. Kiedy dziecko źle się zachowuje, zostaje odsunięte od upragnionej zabawy, aby osłabić jego niepożądane zachowanie. Na przykład: (a) kiedy dziecko podczas zabawy na placu zabaw z przyjaciółmi popchnęło inne dziecko; (b) wówczas za złe zachowanie zostanie wykluczone z zabawy na krótki czas. (Źródło a: modyfikacja pracy Simone’a Ramelli; źródło b: modyfikacja pracy „JefferyTurner”/Flickr).

Rozkłady wzmocnień

Najlepsze efekty w uczeniu osiąga się, stosując wzmacnianie pozytywne. Na przykład Skinner za pomocą tej techniki nauczył szczury naciskać dźwignię w skrzynce problemowej. Na początku eksperymentu głodny szczur mógł przypadkowo uderzyć dźwignię w klatce, po czym do skrzynki wpadły kulki jedzenia. Jak myślisz, co zrobił głodny szczur po zjedzeniu tej porcji karmy? Znów nacisnął dźwignię i dostał kolejną porcję jedzenia. Za każdym razem naciśnięcie dźwigni skutkowało pojawianiem się karmy. Wzmacnianie ciągłe (ang. continuous reinforcement) zachodzi wtedy, kiedy jednostka otrzymuje wzmocnienie za każdym razem, gdy wykazuje dane zachowanie. Ten rozkład wzmocnień jest najszybszym sposobem nauczenia określonego zachowania, a szczególnie skuteczny okazuje się w przypadku wprowadzania całkowicie nowego zachowania. Spójrzmy na psa, który nauczył się siadać na rozkaz. Za każdym razem, gdy siada, dajesz mu smakołyk. Ważne jest tutaj wyczucie czasu: odniesiesz największe sukcesy, jeśli podasz wzmocnienie natychmiast po tym, jak pies usiądzie, aby mógł powiązać docelowe zachowanie (siadanie) z konsekwencją (otrzymanie smakołyku).

Sięgnij po więcej

Obejrzyj ten wideoklip, w którym lekarka weterynarii dr Sophia Yin kształtuje zachowanie psa, wykonując czynności opisane powyżej.

Na zakończenie ćwiczenia określonego zachowania badacze i trenerzy często wybierają inny rodzaj rozkładu wzmocnień — wzmacnianie sporadyczne (ang. partial reinforcement) — które zwane także bywa wzmacnianiem przerywanym. Jest to sytuacja, gdy osoby lub zwierzęcia nie wzmacnia się za każdym razem, kiedy zachowuje się w sposób oczekiwany. Istnieje kilka różnych rodzajów rozkładów wzmocnień (Tabela 6.3), które są opisane jako stałe lub zmienne oraz według proporcji lub odstępów czasowych. Pojęcie stałe odnosi się do liczby reakcji pomiędzy wzmocnieniami lub ilości czasu między wzmocnieniami mających charakter ustalony i niezmienny. Pojęcie zmienne odnosi się do liczby reakcji lub ilości czasu między wzmocnieniami niemającymi charakteru stałego, czyli właśnie zmiennych. Interwał oznacza, że rozkład opiera się na czasie między wzmocnieniami, a według proporcji oznacza, że rozkład opiera się na liczbie reakcji pomiędzy wzmocnieniami.

Rozkłady wzmocnień.

Rozkład wzmocnień	Opis	Wynik	Przykład
O stałych odstępach czasowych	Wzmocnienie jest dostarczane w przewidywalnych odstępach czasu (np. po 5, 10, 15 i 20 minutach).	Umiarkowana częstotliwość reakcji, ze znaczącymi przerwami po wzmocnieniach.	Pacjent w szpitalu korzysta z leku przynoszącego ulgę w bólu, lek jest brany przez pacjenta w ustalonych przez lekarza odstępach czasu.
O zmiennych odstępach czasowych	Wzmocnienie jest dostarczane w nieprzewidywalnych odstępach czasu (np. po 5, 7, 10 i 20 minutach).	Umiarkowany, lecz stały poziom reagowania.	Sprawdzanie konta na Facebooku.
Według stałych proporcji	Wzmocnienie jest dostarczane po przewidywalnej liczbie reakcji (np. po 2, 4, 6 i 8 reakcjach).	Wysoki poziom reagowania, z przerwami po wzmocnieniach	Akord — pracownik fabryki otrzymuje zapłatę za każdą n-tą liczbę wyprodukowanych przedmiotów.
Według zmiennych proporcji	Wzmocnienie jest dostarczane po nieprzewidywalnej liczbie reakcji (np. po 1, 4, 5 i 9 reakcjach).	Wysoki i stabilny poziom reagowania.	Hazard.

Tabela 6.3

Teraz zestawimy ze sobą te cztery terminy. Rozkład wzmocnień o stałych odstępach czasowych (ang. fixed interval reinforcement schedule) zachodzi wtedy, kiedy zachowanie jest nagradzane po określonym czasie. Janina poddaje się poważnej operacji w szpitalu. Spodziewa się, że podczas rekonwalescencji będzie odczuwać ból i potrzebować leków na receptę w celu jego złagodzenia. Kobieta dostaje kroplówkę dożylną ze środkiem przeciwbólowym, którą sama uruchamia. Jej lekarz ustala limit: jedna dawka na godzinę. Janina naciska guzik, gdy ból staje się trudny do wytrzymania, i dostaje dawkę leku. Ponieważ nagroda (złagodzenie bólu) występuje tylko w określonym odstępie czasowym, nie miałoby sensu zachowanie, które nie będzie nagrodzone.

Rozkład wzmocnień o zmiennych odstępach czasowych (ang. variable interval reinforcement schedule) zachodzi wtedy, kiedy osoba lub zwierzę otrzymuje wzmocnienia w różnych odstępach czasu, które są nieprzewidywalne. Powiedzmy, że Mikołaj jest kierownikiem restauracji typu fast food. Do jego restauracji co jakiś czas przychodzi ktoś z działu kontroli jakości. Jeśli restauracja jest czysta, a obsługa pracuje szybko, wszyscy na tej zmianie otrzymują premię. Mikołaj nigdy nie wie, kiedy pojawi się kontroler jakości, dlatego zawsze stara się utrzymywać restaurację w czystości i dzięki motywowaniu pracowników zapewnia klientom szybką i uprzejmą obsługę. Jego wydajność w zakresie szybkiej obsługi i utrzymywania czystej restauracji jest stała, ponieważ chce, aby jego załoga otrzymywała premie.

Rozkład wzmocnień według stałych proporcji (ang. fixed ratio reinforcement schedule) zachodzi wtedy, kiedy istnieje pewna liczba reakcji, które muszą wystąpić, zanim zachowanie zostanie nagrodzone. Karolina sprzedaje okulary w sklepie optycznym i dostaje prowizję od każdej sprzedanej pary. Stara się sprzedawać każdemu klientowi więcej niż jedną parę okularów, np. okulary zapasowe, bo w ten sposób zwiększa swój przychód. To, czy klient naprawdę potrzebuje dodatkowych okularów, jest dla niej kwestią drugorzędną, gdyż zależy jej wyłącznie na prowizji. Zauważmy, że premia Karoliny nie zależy też bezpośrednio od jakości sprzedawanego towaru, na który Karolina nie ma wpływu. Wybór rozkładu wzmocnień zależy od celu, do którego dążymy. Lepszy efekt w jakości działania uzyskuje się przy rozkładach o zmiennych odstępach czasowych. Przykładem mogą być karty lojalnościowe, np. darmowa każda co któraś kawa. Im bliżej przewidywanej nagrody, tym większa motywacja do działania. Sprzedawczyni nie ma oczywiście wpływu na jakość okularów, ale ma wpływ na jakość obsługi, która może przyczynić się do tego, że klient kupi więcej lub chętniej wróci do sklepu.

Rozkład wzmocnień według zmiennych proporcji (ang. variable ratio reinforcement schedule) zachodzi wtedy, kiedy liczba reakcji potrzebnych do nagrody jest różna. Jest to najpotężniejszy rozkład wzmacniania sporadycznego. Przykładem rozkładu wzmocnień o zmiennych proporcjach jest hazard. Wyobraź sobie, że Sara — mądra i oszczędna kobieta — po raz pierwszy odwiedza kasyno. Nie jest hazardzistką, ale z ciekawości wrzuca monetę do jednorękiego bandyty, a potem jeszcze raz i znowu, ale nic się nie dzieje. Po jeszcze kilku straconych monetach jej zainteresowanie zanika i Sara zamierza opuścić lokal. Ale wtem zapalają się lampki automatu do gry, rozdzwaniają się dzwonki i Sara wygrywa 50 monet. Tak już lepiej! Sara powraca do gry z nowym zainteresowaniem, a kilka minut później przegrywa całą swoją wygraną, a nawet jest na minusie. To rozsądny czas, aby zrezygnować. A jednak Sara wciąż wkłada pieniądze do automatu, ponieważ nigdy nie wiadomo, kiedy nadejdzie kolejne wzmocnienie. Nieustannie wierzy, że po następnej monecie może wygrać dużą kwotę. Ponieważ rozkład wzmocnień w większości rodzajów hazardu zachodzi według zmiennych proporcji, ludzie nieustannie próbują i mają nadzieję, że następnym razem wygrają duże pieniądze. Jest to jeden z powodów, dla których hazard jest tak uzależniający i tak odporny na wygaszanie.

W warunkowaniu sprawczym wygaszanie wzmocnionego zachowania następuje w pewnym momencie po zaprzestaniu jego wzmacniania, a prędkość, z jaką to się dzieje, zależy od rozkładu wzmocnień. W rozkładzie według zmiennych proporcji punkt wygaszania przychodzi bardzo powoli, jak to opisano powyżej. W pozostałych rozkładach wzmocnień wygaszanie może jednak nastąpić szybko. Na przykład jeśli Janina naciśnie przycisk podania leku przeciwbólowego przed wyznaczonym czasem, to nie otrzyma leku. Ma rozkład wzmocnień o stałych odstępach czasowych (dawka co godzinę), więc wygaszanie następuje szybko, jeśli wzmocnienie nie nastąpi w oczekiwanym czasie. Spośród rozkładów wzmocnień ten według zmiennych proporcji jest najbardziej wydajny i najodporniejszy na wygaszanie. Natomiast ten o stałych odstępach czasowych jest najmniej produktywny i najłatwiejszy do wygaszenia (Ilustracja 6.13).

Ilustracja 6.13 Cztery rozkłady wzmocnień dają różne wzorce reakcji. Rozkład według zmiennych proporcji jest nieprzewidywalny i skutkuje wysokim i stałym poziomem reagowania, z niewielką przerwą po wzmocnieniu lub bez niej (np. hazardzista). Rozkład według stałych proporcji jest przewidywalny i daje wysoki poziom reagowania, z krótką przerwą po wzmocnieniu (np. sprzedawczyni okularów). Rozkład o zmiennych odstępach czasowych jest nieprzewidywalny i zapewnia umiarkowany, stały poziom reagowania (np. kierownik restauracji). Rozkład o stałych odstępach czasowych skutkuje reagowaniem, którego wykres ma kształt ściegu muszelkowego, odzwierciedlając znaczną przerwę po wzmocnieniu (np. pacjentka chirurgiczna), taki wykres jest określany jako krzywa schodkowa.

Połącz wątki

Hazard i umysł

„Jeżeli kasyno nie potrafi przekonać stałego klienta do oddania pieniędzy bez korzyści dla siebie, może osiągnąć ten sam efekt, zwracając część pieniędzy temu klientowi w rozkładzie według zmiennych proporcji”. Powiedział w 1953 r. Skinner.

Skinner podaje hazard jako przykład siły rozkładu wzmocnień według zmiennych proporcji dla utrzymywania wzorca zachowań nawet po długim czasie bez ekspozycji na wzmocnienie. Badacz był tak pewny swojej wiedzy na temat uzależnienia od hazardu, że utrzymywał nawet, że może zamienić gołębia w patologicznego hazardzistę („Skinner’s Utopia,” 1971). Faktycznie, wzmacnianie według zmiennych proporcji skutkuje wytworzeniem się trwałych zachowań. Wyobraź sobie częste napady złości u dziecka, którym rodzic raz uległ. Nawet taka jednorazowa nagroda sprawia, że wyeliminowanie tego typu zachowań staje się niemal niemożliwe.

Najnowsze badania na szczurach nie wspierają koncepcji Skinnera, jakoby sam trening z zastosowaniem wzmocnień według zmiennych proporcji prowadził do patologicznego hazardu (Laskowski i et al., 2019). Jednakże inne badania wskazują, że hazard może oddziaływać na mózg w taki sam sposób jak niektóre substancje uzależniające. Może w związku z tym wystąpić efekt wynikający z jednoczesnego pojawienia się określonych związków chemicznych w mózgu i rozkładu wzmocnień według zmiennych proporcji, co może prowadzić do problemów z hazardem. Zwłaszcza najnowsze badania wykazują związek między hazardem a aktywacją ośrodków nagrody w mózgu, które wykorzystują dopaminę (neuroprzekaźnik) (Murch i Clark, 2016). Z badań tych płynie też kolejny ciekawy wniosek, że hazardziści nawet nie muszą wygrywać, żeby odczuć wzmożony efekt działania dopaminy w mózgu. Nawet otarcie się o wygraną, bycie „tuż-tuż”, a nie tylko sama wygrana, wzmaga aktywność w pobudzanych dopaminą ośrodkach nagrody (Chase i Clark, 2010). Przedstawione tu działanie mózgu jest niemal identyczne z działaniem wywołanym uzależniającymi narkotykami takimi jak kokaina i heroina (Murch i Clark, 2016). Wykazane na gruncie neuronauki podobieństwa między hazardem a zażywaniem kokainy czy heroiny sprawiły, że obecnie w DSM-5 patologiczny hazard jest rozpatrywany jako uzależnienie, a wcześniej klasyfikowano go jako zaburzenie kontroli impulsów.

Hazard oprócz dopaminy zaprzęga do działania także inne neuroprzekaźniki: noradrenalinę i serotoninę (Potenza, 2013). Noradrenalina uwalnia się, gdy czujemy stres, podniecenie lub dreszczyk emocji, więc prawdopodobnie nałogowi hazardziści wykorzystują hazard, by podnieść u siebie zbyt niskie stężenie tego neuroprzekaźnika. Podobnie zbyt niskie stężenie serotoniny może przyczyniać się do zachowań kompulsywnych, z nałogowym hazardem włącznie (Potenza, 2013). Cytowane tu badania sugerują, że mózgi patologicznych hazardzistów mogą różnić się od mózgów pozostałych ludzi; możliwe, że różnica ta w jakiś sposób doprowadziła hazardzistów do nałogu hazardu. Bardzo trudno jest jednak tę zależność udowodnić doświadczalnie, ponieważ eksperyment polegający na wywołaniu uzależnienia od hazardu w grupie losowo wybranych osób byłby nieetyczny. W związku z tym być może występuje odwrotna zależność: uprawianie hazardu w jakiś sposób modyfikuje stężenia neuroprzekaźników w mózgach niektórych hazardzistów. Możliwe jest również istnienie innego czynnika albo występowanie zmiennej zakłócającej, które oddziałują zarówno na uzależnienie od hazardu, jak i na różnice w wydzielaniu niektórych neuroprzekaźników w mózgu.

Ilustracja 6.14 Niektóre wyniki badań sugerują, że patologiczni gracze wykorzystują hazard, aby zrekompensować sobie anormalnie niskie stężenie hormonu noradrenaliny, która jest związana ze stresem i wydziela się w chwilach podniecenia i dreszczu emocji. (Źródło: Ted Murphy).

Poznanie i uczenie się utajone

Skrajni behawioryści, tacy jak Skinner i Watson, koncentrowali się wyłącznie na badaniu zachowania, a nie na poznaniu (np. myśleniu czy oczekiwaniach). Skinner był silnie przywiązany do przekonania, że poznanie nie ma znaczenia, dlatego określano go jako radykalnego behawiorystę. Uważał on, że umysł jest „czarną skrzynką”, pozostaje niepoznawalny, a tym samym niemożliwe jest jego badanie. Natomiast inny behawiorysta, Edward C. Tolman (1886–1959) miał na ten temat odmienne zdanie. W eksperymentach na szczurach wykazał, że organizmy mogą się uczyć, nawet jeśli nie otrzymują natychmiastowego wzmocnienia (Tolman i Honzik, 1930; Tolman, Ritchie et al. Kalish, 1946). Odkrycie to sugerowało poznawczy aspekt uczenia się i było sprzeczne z panującym wówczas przekonaniem, że skuteczne uczenie się wymaga natychmiastowego wzmocnienia.

Tolman umieszczał głodne szczury w labiryncie i nie nagradzał ich za znalezienie drogi wyjścia. Stworzył także grupę kontrolną, która była nagradzana jedzeniem na końcu labiryntu. Niewzmocnione szczury poznawały labirynt, w wyniku czego wytworzyły mapę poznawczą (in. mapę wyobrażeniową) (ang. cognitive map): mentalny obraz układu labiryntu, wyobrażenie, które powstało w ich umyśle (Ilustracja 6.15). Po 10 sesjach w labiryncie bez wzmocnień na końcu labiryntu zostało umieszczone jedzenie. Gdy tylko szczury dowiedziały się o jedzeniu, potrafiły do niego znaleźć drogę tak szybko jak zwierzęta z grupy kontrolnej. To zjawisko jest znane jako uczenie się utajone (ang. latent learning): uczenie się, które zachodzi, ale nie jest możliwe do zaobserwowania w zachowaniu, dopóki nie ma powodu, aby je wykazać.

Ilustracja 6.15 Psycholog Edward Tolman odkrył, że szczury używają mapy poznawczej do przemieszczania się przez labirynt. Czy masz doświadczenie w pokonywaniu różnych poziomów w grach wideo? Jeśli tak, nauczyły cię one, kiedy skręcać w lewo lub w prawo, poruszać się w górę lub w dół. Tym samym nauczyły cię polegać na mapie poznawczej, tak jak robią to szczury w labiryncie. (Źródło: modyfikacja pracy „FutUndBeidl”/Flickr).

Uczenie się utajone zachodzi również u ludzi. Dzieci mogą uczyć się, obserwując działania swoich rodziców, ale demonstrują to dopiero później, gdy zajdzie taka potrzeba. Załóżmy na przykład, że tata Romka codziennie odwozi go do szkoły. W ten sposób Romek uczy się drogi z domu do szkoły. Nigdy nie pojechał tam samodzielnie, więc nie miał okazji wykazać, że się tego nauczył. Gdy pewnego ranka tata Romka nie może zawieźć chłopca do szkoły, dziecko samodzielnie pokonuje rowerem tę samą trasę, którą tata wiózłby go samochodem. To obrazuje uczenie się utajone. Romek nauczył się drogi do szkoły, ale nie musiał wykazywać się tą wiedzą wcześniej.

Wokół nas

To miejsce jest jak labirynt

Czy kiedykolwiek zdarzyło ci się zgubić w budynku i nie móc znaleźć drogi powrotnej? Może to być frustrujące, ale nie jest niczym nowym – od czasu do czasu każdy z nas gubi się w miejscach takich jak muzeum, szpital czy biblioteka uniwersytecka. Ilekroć pojawiamy się w nowym miejscu, budujemy sobie mentalne przedstawienie – mapę poznawczą – danego miejsca, tak jak szczury Tolmana zbudowały mapę poznawczą swojego labiryntu. Topografia niektórych budynków jest myląca, ponieważ wiele pomieszczeń wygląda w nich podobnie lub dostarczają wąskiej perspektywy wzrokowej. Z tego powodu często trudno jest przewidzieć, co jest za rogiem, lub zdecydować się, czy należy skręcić w lewo, czy w prawo, aby wyjść z budynku. Psycholożka Laura Carlson (2010) sugeruje, że to, co umieszczamy na mapie poznawczej, może wpłynąć na nasz sukces w poruszaniu się po otoczeniu. Podsuwa pomysł, żeby zaraz po wejściu do budynku zwracać uwagę na określone cechy pomieszczenia, takie jak: zdjęcie na ścianie, fontanna, posąg lub ruchome schody; takie postępowanie dodaje kolejne informacje do naszej mapy poznawczej, można ich później użyć, aby znaleźć drogę wyjścia z budynku.

Sięgnij po więcej

Obejrzyj wideoklip, żeby dowiedzieć się więcej o badaniach Carlson nad mapą poznawczą oraz poruszaniem się po budynkach.

6.3 Warunkowanie sprawcze

Wzmacnianie

Karanie

Kształtowanie

Wzmocnienia pierwotne i wtórne

Kształtowanie zachowania u dzieci

Rozkłady wzmocnień

Hazard i umysł

Poznanie i uczenie się utajone

To miejsce jest jak labirynt