操作制約

维基百科,自由的百科全书
跳转至: 导航搜索

操控反射(Operant conditioning)是一种由刺激引起的行为改变的過程與方法,又被稱為工具制約或工具学习。操控反射与经典条件反射有所不同,操控反射的作用對象,是個體原來就已經自愿進行的行为;而经典条件反射則是使個體產生非自願反應的作用。

操控反射第一位研究者是愛德華·桑代克(1874-1949),桑代克观察他的猫试图逃出他所設計的迷箱的行为[1]。第一次猫花了很长时间才從箱子裡逃出。有了经验之后,无效的行為出現頻率逐渐减少,而成功的行為出現頻率則逐渐增加,此外猫成功逃出迷箱所用的时间也越来越少。在桑代克效果律中解释,成功的行為产生滿足的结果,而這種結果經由经验被“印入”(stamped in),使得成功行為的出现增加。失敗的行為則产生厭惡结果,因而被剔除(stamped out),造成失敗行為的出现频率減少。簡單的說,某些結果能夠增强行为,而某些结果能夠减弱行为。斯金纳(1904-1990)以桑代克的理論作為基础,建立了關於增強、惩罚與消弱的详细的操作制約理论。

通过卓有成效的研究,桑代克总结了“试误说”的三大定律:

  1. 效果律:试误学习的过程中,如果其他条件相等,在学习情境作特定的反应之后能够获得满意的结果时,则其联结就会增强;而得到烦恼的结果时,其联结就会削弱。
  2. 练习律:在试误学习的过程中,任何刺激与反应的联结,一旦练习运用,其联结的力量就逐渐增大;如果不运用,则联结的力量会逐渐减小。
  3. 准备律:在试误学习的过程中,当刺激与反应之间的联结,事前有一种准备状态时,实现则感到满意,否则感到烦恼;反之,当此联结不准备实现时,实现则感到烦恼。应该说明的是,虽然“尝试一错误”学习模式是从动物实验中抽象概括出来的,但它对于人类学习来说,仍有很大的借鉴意义。

增強、懲罰與消弱[编辑]

增强(reinforcement)和惩罚(punishment)兩種刺激是操作制約的核心思想,另外消弱(extinction)指的是没有產生作用的刺激。增強懲罰或是消弱不但能夠使用在實驗室中,也能夠用來形容包括人類以外其他動物的自然環境。

  • 增强 - 指使反應行為出現頻率增加。
  • 惩罚 - 指目的是抑制行為出現頻率的刺激。
  • 消弱 - 指生物個體對某刺激沒有產生厭惡也沒有喜愛,但會使行為出現頻率減少。

正向(positive)與負向(negative)在操作制約理論中則是代表增加與減少之意。正向指在生物個體境所處環境增加刺激並產生反應;负向指在生物個體所處環境減少刺激並產生反應。並由此導出4種操作制約分類如下:

  • 正向增強 - 在進行某個行為之後,增加對象喜愛的(通常是愉快的)刺激,並使該行为的出現頻率增加。在斯金纳的实验中,以食物或糖水做為刺激,經由老鼠按下槓桿的行為來供給食物和糖水,造成老鼠按下槓桿的頻率增加。
  • 负向增強 - 在進行某個行為之後,減少對象厭惡的(通常是不愉快的)刺激,並使該行為的出現頻率增加。在斯金纳的实验中,以噪音作為刺激,經由老鼠按下槓桿的行為來停止噪音,造成老鼠按下槓桿的頻率增加。
  • 正向惩罚 - 在進行某個行為之後,增加對象厭惡的刺激,並使該行為的出現頻率減少。例如在某個行為之後,以电击噪音作為刺激,造成該行为出現頻率減少。又稱為第一型懲罰。
  • 负向惩罚- 在進行某個行為之後,減少對象喜愛的刺激,並使該行為的出現頻率減少。例如在小孩進行某個行為之後,以拿走小孩的玩具作為刺激,造成小孩進行该行为的頻率減少。又稱為第二型懲罰。


行為表現頻率
增加 減少
正向 正向增強 正向懲罰(懲罰I)
負向 負向增強 負向懲罰(懲罰II)
  • 迴避學習(Avoidance learning) - 一種學習模式,指某種行為能夠造成一些令人厭惡的刺激停止。例如在大太陽下遮住眼睛,可以避免接受刺眼的陽光。
  • 消弱(Extinction) - 原來的增強刺激不再產生效果。在斯金納的實驗中,原本老鼠能夠透過按下槓桿來獲得食物,之後當按下槓桿不再供給食物的時候,老鼠將會逐漸減少按下槓桿的行為。
  • 非附帶增強(Non-contingent Reinforcement) - 是一種確認增強物效果的實驗技巧,在NCR的過程中,不論個案的行為如何,將增強物照一個固定的時間比例提供,若個案的回應頻率越高,則表示個案行為發生的前因與增強物呈現的相關性越低。(扩充内容:因為案例回應的替代行為與欲消除行為(undesired behavior、不希望對象進行的行為)競爭,當按照固定時間比例提供刺激,替代行為發生(個案回應)頻率提升,欲消除行為頻率減少。)

操作制約與固定行為型態[编辑]

斯金納所建構的操作制約理論,與諾貝爾獎得主康拉德·勞倫茲所提出的固定行為型態(fixed action patterns,FAPs)或本能行為有所對比。這些斯金納所說的行為,存在外在的操作制約變數,在進行行為的廣泛深入分析時是需要仔細思考的。

在狗的訓練中,利用覓食的慾望來對工作犬和偵查犬等進行訓練。這種來自於狩獵本能的固定行為型態的刺激,是產生非常困難但一致的行為的鑰匙刺激,且在大多數的例子裡,並不包括操作、古典或其他制約[來源請求]。在固定行為型態的演化塑造過程中,這些型態在長久的時間由於生存機制而維持穩定,也就是操作制約。

根據操作制約的規律,任何一個在一段時間內一致回饋的行為,將會在間歇性的對反應增強,並導致更穩定的反應速率,且對消弱有較大的抵抗力的行為更快的被消除。因此,以一隻偵查犬來說,任何對尋找指令作出的正確的行為,必須總是被以玩具或球的回饋來對反應作初始的獲取。之後則是衰減的過程,增強會被"減小",也就是並非每次的反應都被增強,使狗進入間歇性增強的行程,使牠對沒有增強的情況有更強的抵抗力。

然而,有些訓練者現在只利用狩獵慾望來訓練寵物狗,並發現效果狗對訓練的反應比只根據斯金納的操作制約更好[來源請求]。顯示本能在遊戲時的支配[2]

神經科學與操作制約的關係[编辑]

羅斯提·理查生(Rusty Richardson)和馬龍·德倫(Mahlon deLong)首先找出關於制約刺激反應的神經元[3][4]。他們發現將乙醯膽鹼釋放到大腦皮質基底核神經元,能夠在制約刺激或是制約刺激消失的回饋之後被短暫活化。這些神經元在正向和負向增強時被活化,並且在一些皮質區域產生可塑性plasticity[5]

證據並顯示多巴胺(dopamine)也同時被活化。多巴胺通道只有正向回饋,非造成厭惡的增強,且在額葉皮質區域有較高的濃度。有所不同的膽鹼(Cholinergic)投射(projections)則在後葉,如視覺皮質區,也有作用濃度。

改變刺激效果的因子[编辑]

某些因子的增加和減少,能夠改變增強懲罰刺激的效果。這些因子包括對刺激的滿足感(Satiation)、產生刺激的立即性(Immediacy)、和行為對刺激的附帶性(Contingency),以及刺激的大小(Size)。

  • 滿足感 - 也可稱為厭膩感。刺激的效果與動物個體對該刺激的"胃口"有關,個體對刺激的慾望愈大,刺激的效果也愈大;如果某動物個體已經對某個刺激感到滿足或是厭膩,那麼該刺激將不再有效果。例如食物對一隻已經被餵飽的狗,鼓勵的效果很小。
  • 立即性 - 個體進行一個行為過後,刺激回饋的立即性,會影響刺激的效果。行為與刺激的間隔愈短,效果愈大。例如一位在公路上超速的駕駛,若在一周之後才收到罰單,那麼此罰單的效果將不如警察立即攔阻開罰單的效果。
  • 伴隨性 - 如果一個刺激並非總是伴隨在行為之後,則刺激的效果將減少;如果一個刺激確實的附帶在每一次行為之後,刺激的效果較大。例如當一位學生習慣遲到,而對於遲到的處罰是偶然性的,並非每次遲到都會處罰,則處罰的效果不如每次遲到都處罰的效果。
  • 大小 - 一個刺激的效果也與"成本效益"有關,刺激的數量或是大小若是足夠,對行為的刺激效果較大。例如特別龐大的樂透獎金,將使人願意付出金錢和時間去購買彩券,如果獎金很少,可能不足以使人特地開車出門購買彩券。需要注意的是,在樂透的例子中除了獎金之外也存在懲罰(花費時間和金錢),行為是否表現,取決於增強和懲罰是否達到平衡。

這些改變效果的因子大多有生物學上的理由。生物個體的體內恆定可以用來解釋滿足感,例如生物個體需要補充類的時候,則糖的甜味會成為一個增強刺激;當生物體內的血糖濃度升高,甜味的刺激效果就會降低,甚至產生厭惡感。

立即性和附帶性能夠以神經化學來解釋,當生物個體受到增強刺激,則大腦中的多巴胺通道將被活化,這些通道組成的網路"釋放短暫的多巴胺脈衝到許多樹突,因此散發增強刺激訊號到突觸後神經元[6]。造成剛被活化的的突觸對輸出訊號的感應加強,因此造成增強刺激之前的行為的出現機率增加。在統計學上顯示對行為的增強刺激成功。然而當增強刺激的立即性和附帶性減少,多巴胺對突觸的影響能力也會減少。

消弱-誘導變異[编辑]

消弱發生時,在不間斷的執行動作之後,會導致欲消除行為確實的減少,但在短期內對象可能會產生消弱突然爆發(extinction burst),這種情形經常發生在消弱剛開始的時候。消弱突然爆發會使行為的出現頻率在短時間內暫時性的增加,之後欲消除的行為會開始減少。

舉例而言,某實驗中利用食物增強一隻鴿子敲啄按鈕的行為,每當牠敲啄按鈕,將會出現一些能吃的種子作為增強物,因此鴿子飢餓時,便會敲琢按鈕以獲得食物。然而當某一次敲啄按鈕之後食物不再出現,這隻鴿子將會再試著敲啄一次按鈕,若是食物仍未出現,牠將會一次、一次又一次的敲啄...。當這種瘋狂的行為依然無效的時候,鴿子就會減少敲啄的頻率。這種消弱突然爆發(extinction burst)行為擁有演化上的優勢,因為在自然界中,動物的行為並非絕對的附帶增強刺激,一次失敗之後,牠們有可能在多試一次之後確實得到增強。因此這些動物比起其他輕易放棄的動物更有生存優勢

消弱-誘導變異(Extinction-induced variability)扮演類似的腳色。當消弱開始,改變的並非只有行為的頻率增加,行為的改變也會反映在反應形(response topography、反應的型式)上。對象會一步一步的稍微改變他們的表現,這些改變可以包括特殊的動作、力道的大小、和行為作用時間的小小改變等等。成功的行為變化將會被保留,失敗的行為變化則會漸漸減少。在常態分佈中,水平線方向表示某行為可能的變異,垂直線方向表示某狀態下的行為出現頻率。當一個行為出現在分佈圖的中央(出現頻率最高)時,表示在此動物的經驗中,這種行為變異最能有效的產生增強刺激。

以一個在房間裡且能夠開門離開的人為例,他的行為是開門,而增強物是開門所得到的自由,當他開門的時候,並非總是用同一種方法,而是會有小小的改變,如力氣大小、雙手或單手、速度的快慢等等。因為能夠打開這道門而得到增強的方法並不是單一的,而是有一定的範圍。當某一次他試圖開門卻打不開的時候,就會發生消弱-誘導變異。他會試圖以不同的方法使門打開或是離開這個房間。這就是消弱使變異產生的過程,是一個重要的操作過程稱作"塑型"(shaping)。

回避学习[编辑]

回避训练属于一种负向增強的安排。對象經由所厭惡的刺激而終結或阻止某些反應。有2种常用的实验設定,分別是辨別迴避學習(Discriminated avoidance learning),和自由-操作迴避學習(Free-operant avoidance learning)。

  • 辨別迴避學習 - 新的刺激(如光線或聲音)出現之後,發生某個令人厭惡的刺激如驚嚇,兩者類似古典制約中的制約刺激(CS)和非制約刺激(US)。當動物表現操作反應時,各個帶有CS的US被移除。在第一次試驗(稱作逃脫試驗)中,動物會經常經驗到CS和US,表現出操作行為以終結令人厭惡的US。同時動物將學習到在CS發生的時候表現某些行為能夠使US的出現被阻止。這種學習被稱為辨別迴避學習。
  • 自由-操作迴避學習 - 在這種實驗類型裡,沒有不連續的刺激被當成厭惡刺激的發生訊號使用。也就是說,厭惡刺激(如驚嚇)的表現與明確的警告刺激分開。

兩種重要的時間間隔決定迴避學習的速率,第一種稱作S-S-interval(驚嚇-驚嚇-間隔),這是成功表現驚嚇的經過時間(除非操作反應表現)。另一種稱作R-S-interval(反應-驚嚇-間隔),這是操作反應在沒有驚嚇被傳遞前的的時間長度。也就是動物在沒有驚嚇的狀態下表現操作反應的時間。

迴避學習的双过程理論[编辑]

這個理論來自於對辨別迴避學習的解釋,並假設有兩種過程發生。

  • 恐懼的古典制約(Classical conditioning of fear) - 在第一個訓練的試驗中,生物個體經歷了制約刺激(CS)和厭惡的非制約刺激(US)。理論假設古典制約透過CS與US的同時出現參與這個試驗,因為對於US自然而然的厭惡,使得CS能夠引起制約情緒反應(conditioned emotional reaction、CER),也就是恐懼。在古典制約中,CS附帶厭惡的US出現使得生物個體進行的行為被中斷。
  • 產生操作反應並得到減少恐懼的增強(Reinforcement of the operant response by fear-reduction) - 由於第一個過程,CS代表了厭惡的US,透過引起恐懼使本身變成一個厭惡的刺激,生物個體產生操作反應以減少這種不愉快的情緒。生物個體學習到在CS出現時進行某個反應能夠終結CS帶來的厭惡的內部反應。一個重要的觀點在於"迴避"並無法完全的描述生物個體的行為,他們不是"避開"厭惡的US;而是逃離由CS所造成的厭惡的內在狀態。

一個有關訓練動物的操作制約訓練觀點是使用塑型(shaping),增強近似成功的行為,就向連鎖一樣。

延伸閱讀[编辑]

  • 斯金纳(1938). 生物個體的行为:实验分析. Acton, MA: Copley.
  • 斯金纳(1953). 科学和人类行为纽约. Macmillan.
  • 斯金纳(1957). Verbal行为Englewood Cliffs, NJ: Prentice Hall.
  • 桑代克(1901).动物智力:动物联结过程实验研究,Psychological Review Monograph Supplement, 2, 1-109.
  • Keller and Marian Breland (1961), "生物個體的不当行为" 美国心理学家.

参见[编辑]

参考文献[编辑]

  1. ^ Thorndike, E. L. (1901). Animal intelligence: An experimental study of the associative processes in animals. Psychological Review Monograph Supplement, 2, 1-109.
  2. ^ Breland, Keller & Breland, Marian (1961), The Misbehavior of Organisms, American Psychologist
  3. ^ [J. Neurophysiol. 34:414-27, 1971]
  4. ^ [Advances Exp. Medicine Biol. 295:233-53 1991]
  5. ^ [PNAS 93:11219-24 1996, Science 279:1714-8 1998]
  6. ^ Schultz, Wolfram (1998). Predictive Reward Signal of Dopamine Neurons. The Journal of Neurophysiology, 80(1), 1-27.

外部链接[编辑]