8.2 Modifier un comportement par le renforcement et la punition : Conditionnement opérant - Introduction à la psychologie - 1ère édition canadienne

27Sep 2020 by admin No Comments

Objectifs d’apprentissage

Exposer les principes du conditionnement opérant.
Expliquer comment l’apprentissage peut être façonné par l’utilisation de calendriers de renforcement et de renforçateurs secondaires.

Dans le conditionnement classique, l’organisme apprend à associer de nouveaux stimuli à des réponses biologiques naturelles telles que la salivation ou la peur. L’organisme n’apprend pas quelque chose de nouveau, mais commence à exécuter un comportement existant en présence d’un nouveau signal. Le conditionnement opérant, quant à lui, est un apprentissage qui se produit sur la base des conséquences du comportement et peut impliquer l’apprentissage de nouvelles actions. Le conditionnement opérant se produit lorsqu’un chien se retourne sur commande parce qu’il a été félicité pour l’avoir fait dans le passé, lorsqu’une brute à l’école menace ses camarades de classe parce que cela lui permet d’obtenir ce qu’il veut, et lorsqu’un enfant obtient de bonnes notes parce que ses parents menacent de le punir s’il ne le fait pas. Dans le conditionnement opérant, l’organisme apprend des conséquences de ses propres actions.

Comment le renforcement et la punition influencent le comportement : Les recherches de Thorndike et Skinner

Le psychologue Edward L. Thorndike (1874-1949) a été le premier scientifique à étudier systématiquement le conditionnement opérant. Dans le cadre de ses recherches, Thorndike (1898) a observé des chats qui avaient été placés dans une « boîte à puzzle » dont ils essayaient de s’échapper (« Clip vidéo : la boîte à puzzle de Thorndike »). Au début, les chats griffaient, mordaient et tapaient au hasard, sans savoir comment sortir. Mais finalement, et accidentellement, ils ont appuyé sur le levier qui ouvrait la porte et sont sortis vers leur prix, un morceau de poisson. La fois suivante où le chat a été contraint à l’intérieur de la boîte, il a tenté moins de réponses inefficaces avant d’effectuer la sortie réussie, et après plusieurs essais, le chat a appris à faire presque immédiatement la bonne réponse.

Observer ces changements dans le comportement des chats a conduit Thorndike à développer sa loi de l’effet, le principe selon lequel les réponses qui créent un résultat typiquement agréable dans une situation particulière sont plus susceptibles de se reproduire dans une situation similaire, tandis que les réponses qui produisent un résultat typiquement désagréable sont moins susceptibles de se reproduire dans la situation (Thorndike, 1911). L’essence de la loi de l’effet est que les réponses réussies, parce qu’elles sont agréables, sont « marquées » par l’expérience et se produisent donc plus fréquemment. Les réponses infructueuses, qui produisent des expériences désagréables, sont « estampillées » et se produisent par la suite moins fréquemment.

Lorsque Thorndike a placé ses chats dans une boîte à puzzle, il a constaté qu’ils apprenaient à adopter le comportement de fuite important plus rapidement après chaque essai. Thorndike a décrit l’apprentissage qui suit le renforcement en termes de loi de l’effet.

Watch : « La boîte à énigmes de Thorndike » : http://www.youtube.com/watch?v=BDujDOLre-8

L’influent psychologue du comportement B. F. Skinner (1904-1990) a développé les idées de Thorndike afin d’élaborer un ensemble plus complet de principes pour expliquer le conditionnement opérant. Skinner a créé des environnements spécialement conçus, appelés chambres opérantes (généralement appelées boîtes de Skinner), afin d’étudier systématiquement l’apprentissage. Une boîte de Skinner (chambre opérante) est une structure suffisamment grande pour accueillir un rongeur ou un oiseau et contenant une barre ou une clé sur laquelle l’organisme peut appuyer ou picorer pour libérer de la nourriture ou de l’eau. Elle contient également un dispositif permettant d’enregistrer les réponses de l’animal (figure 8.5).

La plus élémentaire des expériences de Skinner était assez similaire aux recherches de Thorndike sur les chats. Un rat placé dans la chambre réagissait comme on pouvait s’y attendre, se déplaçant dans la boîte et reniflant et griffant le sol et les murs. Le rat finit par tomber sur un levier, sur lequel il appuie pour libérer des boulettes de nourriture. La fois suivante, le rat met un peu moins de temps à appuyer sur le levier, et lors des essais successifs, le temps qu’il met à appuyer sur le levier devient de plus en plus court. Bientôt, le rat appuyait sur le levier aussi vite qu’il pouvait manger la nourriture qui apparaissait. Comme le prévoyait la loi de l’effet, le rat avait appris à répéter l’action qui faisait apparaître la nourriture et à cesser les actions qui ne le faisaient pas.

Skinner a étudié, en détail, comment les animaux modifiaient leur comportement par le biais du renforcement et de la punition, et il a développé des termes qui expliquent les processus de l’apprentissage opérant (tableau 8.1, » Comment le renforcement positif et négatif et la punition influencent le comportement « ). Skinner a utilisé le terme renforçateur pour désigner tout événement qui renforce ou augmente la probabilité d’un comportement, et le terme punisseur pour désigner tout événement qui affaiblit ou diminue la probabilité d’un comportement. Il a également utilisé les termes positif et négatif pour désigner le fait qu’un renforcement soit présenté ou supprimé, respectivement. Ainsi, le renforcement positif renforce une réponse en présentant quelque chose d’agréable après la réponse, et le renforcement négatif renforce une réponse en réduisant ou en supprimant quelque chose de désagréable. Par exemple, féliciter un enfant qui a terminé ses devoirs représente un renforcement positif, tandis que prendre de l’aspirine pour réduire la douleur d’un mal de tête représente un renforcement négatif. Dans les deux cas, le renforcement rend plus probable la répétition du comportement à l’avenir.

Figure 8.5 Boîte de Skinner. B. F. Skinner a utilisé une boîte de Skinner pour étudier l’apprentissage opérant. La boîte contient une barre ou une touche sur laquelle l’organisme peut appuyer pour recevoir de la nourriture et de l’eau, et un dispositif qui enregistre les réponses de l’organisme.

Punition négative

Tableau 8.1 Comment le renforcement positif et négatif et la punition influencent le comportement.
Terme de conditionnement opérant	Description	Résultat	Exemple

Renforcement positif	Ajouter ou augmenter un stimulus agréable	Le comportement est renforcé	Donner un prix à un élève qui a obtenu un A à un test
Renforcement négatif	Réduire ou supprimer un stimulus désagréable	Le comportement est renforcé	La prise d’analgésiques qui éliminent la douleur augmente le nombre d’élèves qui ont besoin d’un traitement. des analgésiques qui éliminent la douleur augmente la probabilité que vous preniez à nouveau des analgésiques
Punition positive	Présenter ou ajouter un stimulus désagréable	Le comportement est affaibli	Donner à un élève des devoirs supplémentaires après qu’il s’est mal comporté en classe
Réduction ou suppression d’un stimulus agréable	Comportement affaibli	Saisie de l’ordinateur d’un adolescent l’ordinateur d’un adolescent après qu’il ait manqué le couvre-feu

Le renforcement, qu’il soit positif ou négatif, fonctionne en augmentant la probabilité d’un comportement. La punition, quant à elle, fait référence à tout événement qui affaiblit ou réduit la probabilité d’un comportement. Une punition positive affaiblit une réponse en présentant quelque chose de désagréable après la réponse, tandis qu’une punition négative affaiblit une réponse en réduisant ou en supprimant quelque chose d’agréable. Un enfant qui est puni après s’être battu avec un frère ou une sœur (punition positive) ou qui perd la possibilité d’aller à la récréation après avoir obtenu une mauvaise note (punition négative) est moins susceptible de répéter ces comportements.

Bien que la distinction entre le renforcement (qui augmente le comportement) et la punition (qui le diminue) soit généralement claire, dans certains cas, il est difficile de déterminer si un renforçateur est positif ou négatif. Par une journée chaude, une brise fraîche peut être considérée comme un renforçateur positif (car elle apporte de l’air frais) ou négatif (car elle évacue l’air chaud). Dans d’autres cas, le renforcement peut être à la fois positif et négatif. On peut fumer une cigarette à la fois parce que cela procure du plaisir (renforcement positif) et parce que cela élimine le besoin de nicotine (renforcement négatif).

Il est également important de noter que le renforcement et la punition ne sont pas simplement opposés. L’utilisation du renforcement positif pour modifier un comportement est presque toujours plus efficace que l’utilisation de la punition. Cela est dû au fait que le renforcement positif permet à la personne ou à l’animal de se sentir mieux, ce qui contribue à créer une relation positive avec la personne qui fournit le renforcement. Les types de renforcement positif efficaces dans la vie de tous les jours comprennent les éloges ou les approbations verbales, l’attribution d’un statut ou d’un prestige et les paiements financiers directs. Les punitions, en revanche, sont plus susceptibles de n’entraîner que des changements temporaires de comportement, car elles sont basées sur la coercition et créent généralement une relation négative et conflictuelle avec la personne qui fournit le renforcement. Lorsque la personne qui fournit la punition quitte la situation, le comportement indésirable est susceptible de revenir.

Créer des comportements complexes grâce au conditionnement opérant

Vous vous souvenez peut-être d’avoir regardé un film ou d’avoir assisté à un spectacle dans lequel un animal – peut-être un chien, un cheval ou un dauphin – faisait des choses assez étonnantes. Le dresseur donnait un ordre et le dauphin nageait jusqu’au fond de la piscine, ramassait un anneau sur son nez, sautait hors de l’eau à travers un cerceau en l’air, plongeait à nouveau au fond de la piscine, ramassait un autre anneau, puis apportait les deux anneaux au dresseur au bord de la piscine. L’animal a été entraîné à faire ce tour, et les principes du conditionnement opérant ont été utilisés pour l’entraîner. Mais ces comportements complexes sont très éloignés des simples relations stimulus-réponse que nous avons examinées jusqu’à présent. Comment le renforcement peut-il être utilisé pour créer des comportements complexes tels que ceux-ci ?

Une façon d’étendre l’utilisation de l’apprentissage opérant est de modifier le calendrier sur lequel le renforcement est appliqué. Jusqu’à présent, nous n’avons abordé qu’un schéma de renforcement continu, dans lequel la réponse souhaitée est renforcée chaque fois qu’elle se produit ; chaque fois que le chien se retourne, par exemple, il reçoit un biscuit. Le renforcement continu entraîne un apprentissage relativement rapide, mais aussi une extinction rapide du comportement souhaité dès que l’agent de renforcement disparaît. Le problème est que, comme l’organisme est habitué à recevoir le renforcement après chaque comportement, le répondeur peut abandonner rapidement lorsque celui-ci n’apparaît pas.

La plupart des renforçateurs du monde réel ne sont pas continus ; ils se produisent selon un schéma de renforcement partiel (ou intermittent) – un schéma dans lequel les réponses sont parfois renforcées et parfois non. Par rapport au renforcement continu, les schémas de renforcement partiel entraînent un apprentissage initial plus lent, mais ils entraînent également une plus grande résistance à l’extinction. Comme le renforcement n’apparaît pas après chaque comportement, il faut plus de temps à l’apprenant pour déterminer que la récompense ne viendra plus, et l’extinction est donc plus lente. Les quatre types de schémas de renforcement partiel sont résumés dans le tableau 8.2, » Schémas de renforcement « .

.world example

Tableau 8.2 Schémas de renforcement.
Tableau de renforcement	Explication	Exemple du monde réel

Ratio fixe	Le comportement est renforcé après un nombre spécifique de réponses.	Des ouvriers d’usine qui sont payés en fonction du nombre de produits qu’ils fabriquent
Ratio variable	Le comportement est renforcé après un nombre moyen, mais imprévisible, de réponses.	Les gains des machines à sous et autres jeux de hasard
Intervalle fixe	Le comportement est renforcé pour la première réponse après qu’un temps spécifique se soit écoulé.	Personnes qui gagnent un salaire mensuel
Intervalle variable	Le comportement est renforcé pour la première réponse après qu’un temps moyen, mais imprévisible, se soit écoulé.	Personne qui vérifie ses messages par courriel

Les programmes de renforcement partiel sont déterminés par le fait que le renforcement est présenté sur la base du temps qui s’écoule entre les renforcements (intervalle) ou sur la base du nombre de réponses que l’organisme engage (ratio), et selon que le renforcement se produit selon un calendrier régulier (fixe) ou imprévisible (variable). Dans un programme à intervalle fixe, le renforcement se produit pour la première réponse donnée après un laps de temps spécifique. Par exemple, dans le cas d’un programme à intervalle fixe d’une minute, l’animal reçoit un renforcement toutes les minutes, à condition qu’il adopte le comportement au moins une fois pendant cette minute. Comme vous pouvez le voir à la figure 8.6, » Exemples de modèles de réponse d’animaux entraînés selon différents schémas de renforcement partiel « , les animaux soumis à des schémas à intervalle fixe ont tendance à ralentir leur réponse immédiatement après le renforcement, puis à augmenter à nouveau leur comportement à mesure que l’heure du renforcement suivant approche. (La plupart des étudiants étudient pour les examens de la même manière.) Dans un schéma à intervalles variables, les renforçateurs apparaissent sur un schéma d’intervalles, mais le moment où ils apparaissent varie autour de l’intervalle moyen, ce qui rend imprévisible l’apparition réelle du renforçateur. Un exemple pourrait être la vérification de votre courrier électronique : vous êtes renforcé par la réception de messages qui arrivent, en moyenne, disons toutes les 30 minutes, mais le renforcement ne se produit qu’à des moments aléatoires. Les schémas de renforcement par intervalles ont tendance à produire des taux de réponse lents et réguliers.

Figure 8.6 Exemples de schémas de réponse d’animaux entraînés selon différents schémas de renforcement partiel. Les programmes basés sur le nombre de réponses (types ratio) induisent un taux de réponse plus élevé que les programmes basés sur le temps écoulé (types intervalle). De même, les programmes imprévisibles (types variables) produisent des réponses plus fortes que les programmes prévisibles (types fixes).

Dans un programme à rapport fixe, un comportement est renforcé après un nombre spécifique de réponses. Par exemple, le comportement d’un rat peut être renforcé après qu’il a appuyé 20 fois sur une touche, ou un vendeur peut recevoir une prime après avoir vendu 10 produits. Comme vous pouvez le voir à la figure 8.6, » Exemples de modèles de réponse d’animaux entraînés selon différents schémas de renforcement partiel « , une fois que l’organisme a appris à agir conformément au schéma à proportion fixe, il ne fera qu’une brève pause lors du renforcement avant de revenir à un niveau de réactivité élevé. Un programme à proportion variable fournit des renforcements après un nombre spécifique mais moyen de réponses. Gagner de l’argent dans une machine à sous ou sur un billet de loterie est un exemple de renforcement qui se produit selon un programme à proportion variable. Par exemple, une machine à sous (voir figure 8.7, » Machine à sous « ) peut être programmée pour offrir un gain toutes les 20 fois que l’utilisateur tire sur la poignée, en moyenne. Les schémas à ratio ont tendance à produire des taux de réponse élevés car le renforcement augmente à mesure que le nombre de réponses augmente.

Figure 8.7 Machine à sous. Les machines à sous sont des exemples d’un programme de renforcement à ratio variable.

Les comportements complexes sont également créés par le façonnage, processus qui consiste à guider le comportement d’un organisme vers le résultat souhaité en utilisant des approximations successives d’un comportement final souhaité. Skinner a fait un usage intensif de ce procédé dans ses boîtes. Par exemple, il pouvait entraîner un rat à appuyer deux fois sur une barre pour recevoir de la nourriture, en lui donnant d’abord de la nourriture lorsque l’animal s’approchait de la barre. Lorsque ce comportement était acquis, Skinner commençait à fournir de la nourriture uniquement lorsque le rat touchait la barre. En poursuivant le façonnage, il limitait le renforcement au moment où le rat appuyait sur la barre, puis au moment où il appuyait sur la barre et la touchait une deuxième fois, et enfin au moment où il appuyait deux fois sur la barre. Bien que cela puisse prendre beaucoup de temps, de cette façon, le conditionnement opérant peut créer des chaînes de comportements qui ne sont renforcés que lorsqu’ils sont terminés.

Renforcer les animaux s’ils discriminent correctement entre des stimuli similaires permet aux scientifiques de tester la capacité des animaux à apprendre, et les discriminations qu’ils peuvent faire sont parfois remarquables. Des pigeons ont été entraînés à distinguer les images de Charlie Brown et des autres personnages des Peanuts (Cerella, 1980), ainsi que les différents styles de musique et d’art (Porter & Neuringer, 1984 ; Watanabe, Sakamoto & Wakita, 1995).

Les comportements peuvent également être entraînés par l’utilisation de renforçateurs secondaires. Alors qu’un renforçateur primaire comprend des stimuli qui sont naturellement préférés ou appréciés par l’organisme, comme la nourriture, l’eau et le soulagement de la douleur, un renforçateur secondaire (parfois appelé renforçateur conditionné) est un événement neutre qui a été associé à un renforçateur primaire par le biais du conditionnement classique. Un exemple de renforçateur secondaire serait le sifflet donné par un dresseur d’animaux, qui a été associé au fil du temps au renforçateur primaire, la nourriture. L’argent est un exemple de renforçateur secondaire quotidien. Nous aimons avoir de l’argent, non pas tant pour le stimulus lui-même, mais plutôt pour les renforçateurs primaires (les choses que l’argent peut acheter) auxquels il est associé.

Principaux éléments à retenir

Edward Thorndike a développé la loi de l’effet : le principe selon lequel les réponses qui créent un résultat typiquement agréable dans une situation particulière sont plus susceptibles de se reproduire dans une situation similaire, tandis que les réponses qui produisent un résultat typiquement désagréable sont moins susceptibles de se reproduire dans cette situation.
B. F. Skinner a développé les idées de Thorndike pour élaborer un ensemble de principes permettant d’expliquer le conditionnement opérant.
Le renforcement positif renforce une réponse en présentant quelque chose qui est typiquement agréable après la réponse, tandis que le renforcement négatif renforce une réponse en réduisant ou en supprimant quelque chose qui est typiquement désagréable.
La punition positive affaiblit une réponse en présentant quelque chose de typiquement désagréable après la réponse, alors que la punition négative affaiblit une réponse en réduisant ou en supprimant quelque chose de typiquement agréable.
Le renforcement peut être partiel ou continu. Les calendriers de renforcement partiel sont déterminés par le fait que le renforcement est présenté sur la base du temps qui s’écoule entre les renforcements (intervalle) ou sur la base du nombre de réponses que l’organisme engage (ratio), et par le fait que le renforcement se produit selon un calendrier régulier (fixe) ou imprévisible (variable).
Des comportements complexes peuvent être créés par le façonnage, le processus consistant à guider le comportement d’un organisme vers le résultat souhaité par l’utilisation d’approximations successives d’un comportement final souhaité.

Exercices et réflexion critique

Donnez un exemple de la vie quotidienne de chacun des éléments suivants : renforcement positif, renforcement négatif, punition positive, punition négative.
Pensez aux techniques de renforcement que vous pourriez utiliser pour entraîner un chien à attraper et à récupérer un frisbee que vous lui lancez.
Voyez les deux vidéos suivantes tirées d’émissions de télévision actuelles. Pouvez-vous déterminer quelles procédures d’apprentissage sont démontrées?
1. La série The Office : http://www.break.com/usercontent/2009/11/the-office-altoid- expérience-1499823
2. The Big Bang Theory : http://www.youtube.com/watch?v=JA96Fba-WHk

Cerella, J. (1980). L’analyse des images par le pigeon. Pattern Recognition, 12, 1-6.

Thorndike, E. L. (1898). L’intelligence animale : Une étude expérimentale des processus associatifs chez les animaux. Washington, DC : American Psychological Association.

Attributions d’images

Figure 8.6 : Adaptée de Kassin (2003).

Introduction à la psychologie – 1ère édition canadienne