242205558 Psicologia Del Aprendizaje 1 PDF

8/17/2019 242205558 Psicologia Del Aprendizaje 1 PDF

http://slidepdf.com/reader/full/242205558-psicologia-del-aprendizaje-1-pdf 1/297

Psicología del aprendizajeRicardo Pellón Suárez de Puga (Coordinador)

Miguel Miguéns Vázquez

Cristina Orgaz Jiménez

Nuria Ortega Lahera

Vicente Pérez Fernández

j B s k í '





ÍNDICE

Tema 1. A s p e c to s h i s t ó r i c o s , c o n c e p t u a l e s y m e t o d o l ó g i c o s

EN EL ESTUDIO DEL APRENDIZAJE Y LA CONDUCTA 9

Miguel Miguéns Vázquez y Ricardo Pellón Suárez de Puga

Tema 2. C o n d i c i o n a m i e n t o c l á s i c o : f u n d a m e n t o s ........................................ 5 3

Nur ia Ortega Lahe ra

Tema 3. M e c a n is m o s a s o c i a t i v o s y t e o r í a s d e l c o n d i c io n a m i e n t o

CLÁSICO .......................................................................................................................... 101


Tema 4. P r i n c i p i o s b á s i c o s d e l c o n d i c i o n a m i e n t o o p e r a n t e .............. 1 5 5


Tema 5. P r o g r a m a s y t e o r í a s d e l r e r f o r z a m i e n t o .................................... 2 1 1

Ricardo Pellón Suárez de Puga

Tema 6. C o n t r o l d e l a c o n d u c t a p o r e s t í m u l o 2 8 7


Tema 7. C o n t r o l a v e r s iv o e n e l c o n d i c i o n a m i e n t o o p e r a n t e .......... 3 4 5


7



PSICOLOGÍA DEL A PR ENDIZA JE

Quedan rigurosamente prohibidas, sin la autorización escrita de los titulares del Copyright, bajo las sanciones establecidas en las leyes, la reproducción total o

parcial de esta obra po r cualquier medio o procedimiento, comprendidos la reprografía

y el tratamiento informático, y la distribución de ejemplares de ella mediante alquiler o préstamos públicos.

© Universidad Nacional de Educación a Distancia Madrid 2014

wxvw.uned.es/publicaciones

© Ricardo Pellón Suárez de Puga (coordinador) Miguel Miguéns Vázquez, Cristina Orgaz Jiménez, Nur ia Ortega Lahera, y Vicente Pérez Fernández

ISBN electrónico: 978-84-362-6856-0

Edic ión digital: febrero de 2014



Psicología del aprendizaje

Ricardo Pellón Suárez de Puga (coordinador)Miguel Miguéns Vázquez Cristina Orgaz Jiménez

Nuria Ortega Lahera Vicente Pérez Fernández

UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA



T e m a 3

MECANISMOS ASOCIATIVOSY TEORÍAS DEL CONDICIONAMIENTO CLÁSICO


Departamento de Psicología Básica I, Facultad de Psicología. UNED

1. Las caracter ísiticas de los estím ulos ............................................. 103

1.1. In tensidad ......................................................................................... 104

1.2. Novedad ............................................................................................ 107

1.3. Natura leza ........................................................................................ 109

1.3.1. Tipos de estímulo .................................................................. 110

1.3.2. Relevancia de los estímulos ................................................. 112

1.3.3. La fuerza biológica ................................................................ 114

1.4. Contigüidad temporal entre estímulos ...................................... 119

2. ¿Cómo se asocian el EC y el El? ....................................................... 119

2.1. El concepto de contingencia ........................................................ 120

2.2. Fenómenos de competición de claves ........................................ 124

2.3. Teorías del Aprendizaje ................................................................. 127

2.3.1. Modelo Rescorla-Wagner ...................................................... 127

2.3.2. La importancia del contexto ............................................... 137

2.3.3. Hipótesis del Comparador ................................................... 138

2.3.4. Modelos atencionales.

Teoría de MackintoshTeoría de Pearce-Hall ............................................................ 140

2.3.5. Otras teorías ........................................................................... 143

Referencias .................................................................................................... 147

101



C o n o c i m i e n t o s p r e v i o s

Condicionamiento clásico o pavloviano: Forma básica de aprendizaje descu- bier ta por Pavlov que se basa en la relación ECEI y en las respuestas dadasante estos estímulos por los sujetos (RC y RI).

Condicionamiento Excitatorio: Tipo de condicionamiento en el que se dauna contingencia positiva entre la aparición del EC y la aparición del EI.La presentación repetida del El tras el EC provoca una RC similar a la RI.

Condicionamiento Inhibitorio: Tipo de condic ionamiento en el que se da unacontingencia negativa entre la apar ición del EC y la aparición del El, por loque el EC no provoca una RC similar a la RI.

Estímulo Condicionado (EC): Estímulo inicialmente neutro que no provocauna respuesta en el sujeto por sí mismo, pero adquiere la capacidad dehacerlo al ser asociado con un estímulo incondicionado.

Estímulo Incondicionado (El): Estímulo que provoca una respuesta en elsujeto por sí mismo, sin necesidad de asociación con otro estímulo ni en tre-namiento previo.

Respuesta Condicionada (RC): Respuesta que provoca un EC tras ser asocia-do a un El y que generalmente es similar a la RI.

Respuesta Incondicionada (RI): Respuesta que provoca un El, sin necesidadde un entrenamiento previo.

P s i c o l o g í a d e l a p r e n d i z a j e

102



En el capítulo anterior hemos visto algunos tipos de condicionamiento(excitatorio e inhibitorio) y una serie de procedimientos a través de loscuales podemos medir la Respuesta Condicionada (RC) generada a travésde dichos entrenamientos.

Por ejemplo, las fobias, como en el caso del experimento de Watson y

Rayner (1920) con el pequeño Albert, son un claro ejemplo de condiciona-miento pavloviano excitatorio. Como explicamos en el capítulo anterior,entre los distintos procedimientos que nos permiten comprobar si un con-dicionamiento ha tenido lugar está, po r ejemplo, la medida de la respuestade miedo ante un estímulo como una rata blanca.

La medición de las RCs es importante pero lo es más, si cabe, conocerlas variables que determinan dicha respuesta. La RC del pequeño Albert nosería posiblemente la mism a ante una rata blanca que ante cientos de ellas.

¿Qué determina el aprendizaje de la relación entre un (Estímulo Condi-cionado) EC y un El (Estímulo Incondicionado)? ¿Qué variables influyenen que la rata blanca (EC) provoque una RC de miedo en Albert? Las carac-terísticas de los propios estímulos son dete rminantes para el aprendizaje, aligual que las características de la relación que mantienen entre sí.

En este capítulo mostraremos cómo el aprendizaje se ve determinado por ciertas características estimulares, la experiencia previa y las manipu-laciones experimentales.

1. LAS CARACTERÍSTICAS DE LOS ESTÍMULOS

El El parece ser el estímulo más importante en el condicionamiento.Produce la RI por sí mismo, sin necesidad de asociación con ningún otroestímulo. Esto se debe al significado biológico que tiene para nosotros. LosEl más utilizados en los estudios de laboratorio sobre condicionamiento

103



pavloviano son genera lmente com ida, en el caso del condic ionamiento ape-titivo, y descargas o malestar estomacal, en el caso de condicionamientosaversivos. Tanto la comida como el daño físico son EIs muy significativos,

bio lógicamente hablando, para cualquie r organism o.

Una rata blanca puede ser un estímulo neutro y potencialmente poco peligroso. Pero para alguien sometido a un condic ionamiento aversivo, co-mo en el caso del pequeño Albert, un estímulo inicialmente neutro puededar lugar a una RC similar a la que el El (ruido fuerte), con el que se haasociado dicho estímulo, provoca por sí mismo. Que el El sea un estímulo

bio lógicamente significativo y que el EC sea un est ímulo neutro son condi-ciones necesarias pero no suficientes para conseguir un buen condiciona-miento. Sujetos como Albert, sometidos a algún tipo de condicionamiento

aversivo, no sentirán el mismo miedo ante ruidos a bajo o a alto volumen,o ante sonidos continuados o breves o ante ratas a las que estaba acostum- brado previamente .

Características fundamentales como la intensidad, la novedad, la du-ración o la naturaleza de los estímulos pueden, como veremos a continua-ción, favorecer o entorpecer el condicionamiento.

1.1. Intensidad

Si al pequeño Albert le presentasen una rata muy grande o cientos deratas a la vez posiblemente mostraría después del condicionamiento unaRC de miedo distinta que al mostrarle una pequeña rata. Del mismo modo,no mostrará la misma RI frente a un sonido suave que frente a uno muy

potente . Un El o un EC in tenso tienen como consecuencia, por norma ge-neral, una aceleración en el aprendizaje en un procedimiento de condicio-nam iento y una mayor expresión de la RC.

Relacionado con el concepto de intensidad está el de saliencia. Un estí-mulo saliente es aquel que es más perceptible o significativo que otros paraese organismo. Un EC que capta fácilmente la atención es un EC saliente,lo que le convierte en propicio para ser utilizado en un procedimiento decondicionamiento pavloviano.

En el caso de los EIs, debido a su significación biológica, son intensosy salientes por naturaleza (a diferencia de los EC, que inicialmente son es


10 4



tímulos neutros). Por ejemplo, un El como la comida no será tan saliente para un anim al que acaba de comer como para uno que lleva días en ayuno.Cuánto más significativo sea un El para un animal, más probabilidadeshabrá de que el aprendizaje se realice de forma más rápida y exitosa. Preci-samente por el carác ter biológico de los EIs, la influencia de las variacionesen la intensidad de los mismos en lo que al condicionamiento se refiereha sido ampliamente estudiada. Los estudios concluyen que la RC es másfuerte cuando se utilizan EIs más salientes (Bevins, McPhee, Rauhut yAyres, 1997; Kamin y Brimer, 1963).

Intensificar un estímulo puede aum en tar la saliencia del mismo, favore-ciendo que el animal le preste mayor atención. Por ejemplo, podemos va-riar la intensidad de una descarga eléctrica (El) y ver cómo influye esto en

la producción de la RC. Llevando a cabo esta manipulación experimental,Polenchar, Romano, Steinmetz y Patterson (1984) (ver también Annau yKamin, 1961; Morris y Bouton, 2006, para resultados similares) concluye-ron, como puede verse en la Figura 3.1, que aquellos animales que recibíandescargas más débiles que las recibidas previamente (por ejemplo, de unmiliamperio) mostraban pocos cambios en la amplitud de la RC (movi-miento de su pata) dura nte el entrenamiento, mien tras que los que recibíandescargas más intensas (por ejemplo, 4 miliamperios) veían aumentadasignificativamente la amplitud de dicha RC de flexión de pata.

o 112-i

1 2

3

M e c a n i s m o s a s o c i a t i v o s y t e o r í a s d e l c o n o c i m i e n t o c l á s i c o

Figura 3.1. Amplitud de la RC(milímetros de movimiento delmiembro) en grupos con distintasintensidades del El (descarga;1, 2, 3 o 4 miliamperios)(Polenchar, Romano, Steinmetz yPatterson, 1984).

105

r 4

T

5T

6T

7

Sesión de adquisición



Además de en las RCs de miedo, como lasmedidas a través de la supresión de la conducta ,también se perciben cambios en las RC de otrotipo, tanto conductuales cómo fisiológicas, ge-neradas por otros EIs que varían en intensidad.

Entre las primeras encontramos el reflejode parpadeo, los movimientos mandibulares

en conejos, y las RCs de flexión de pata en gatos (Smith, 1968; Sheafor yGormezano, 1972; Polenchar, Romano, Steinmetz y Patterson, 1984, res-

pectivamente). Como ejemplos de reacciones fisiológicas que varían deb idoa la intensidad del El utilizado tenemos la salivación, la tasa cardiaca, y loscambios glucémicos (Wagner, Sieguel, Thomas y Ellison, 1964; Fitzgerald

y Teyler; 1970; Woods y Shogren, 1972, respectivamente).La utilización en el condicionamiento de EIs de distinta intensidad no

sólo puede hacer que la amplitud de la respuesta sea distinta, esto es, queaumente o disminuya, sino que puede hacer que la respuesta dada por elanimal varíe en su forma. Holland (1979) descubrió que al aumentar lacantidad de comida suministrada a un grupo de ratas no sólo aumentaba laintensidad de sus respuestas relacionadas con la obtención de comida sinoque dedicaban más tiempo a éstas y menos a respuestas de otro tipo, comolas respuestas de orientación.

Es de suponer que si el aumento en la intensidad de un El tiene tanclaras consecuencias a nivel de la amplitud o la variación de la respuesta,hacer que un El sea más intenso presentando dos El simultáneamentedebería tener las mismas o similares. Efectivamente, según estudios comolos llevados a cabo con conejos por Frey, Maisiak y Duque (1976), si seutilizan dos EIs aversivos simultáneos (una descarga eléctrica en la man-díbula del animal y una estimulación cerebral intracraneal aversiva) trasun EC (auditivo en este caso), tiene lugar un cond iciona miento m ás fuerteante dicho EC, lo que tiene como consecuencia una RC de parpadeo másintensa.

Aunque, de forma general, la intensificación de los estímulos se traduceen un aum ento de la RC, puede que el condicionamiento llegue a su máximonivel independientemente de la intensidad de los mismos. Es decir, a partirde cierta intensidad o saliencia no hay variación en el condicionamiento nien la expresión de la RC (que puede haber llegado a su nivel máximo).


10 6

Ejemplo

Sentiré nn miedomenor ante la posible

picadura de una abejaque ante la de una ser- piente venenosa.



1.2. Novedad

Una variable relacionada con la intensidad o la saliencia de los estímu-los es la novedad. La variación en la intensidad o la presencia de estímulosmuy intensos puede resultar novedosa para el animal. Por eso, la novedad

puede ser re sponsable en cierta medida de los efectos de la in tensidad delos estímulos en el condicionamiento clásico (Kalat, 1974).

La novedad, por sí misma, sin estar relacionada con la intensidad de losestímulos, es una variable impo rtante a tener en cuenta de cara a conseguirun buen condicionamiento. Los estímulos novedosos suscitan reaccionesmás intensas que aquellos a los que ya estamos habituados. El efecto de laausencia de novedad de los estímulos puede comprobarse en el efecto de

preexposición. Preexponer un estímulo implica presentarlo repetidamenteen solitario antes de que tenga lugar el condicionamiento ECEI, de estaforma el estímulo deja de ser novedoso (ver Tabla 3.1).


Tabla 3.1. Diseño experimental del efecto de preexposición

Fase 1 Fase 2 Prueba RC

Preexposición al EC EC ECEI ¿EC?Poca RC (retraso en elcondicionamiento)

Preexposición al El El ECEI ¿EC? Poca RC (retraso en elcondicionamiento)

Dependiendo que cuál de los dos estímulos implicados en el condiciona-miento pavloviano sea el preexpuesto tenemos dos tipos de efectos:

Preexposición al EC o “Inhibición latente”:

Los estudios más relevantes sobre la influencia de la novedad del EC enlo que al condicionamiento y a la expresión de la RC se refiere (Hall, 1991;Lubow, 1989; Lubow y Gewirtz, 1995; para las implicaciones en psicopatología, véanse Lubow, 1989; Oberling, Gosselin y Miller, 1997), muestranque cuando un EC es preexpuesto, es decir, aparece repetidamente en au-sencia del El, esto retrasa la adquisición de la asociación ECEI posterior,dificultando así el condicionamiento.

10 7



El efecto de preexposición al EC tiene ca rac-terísticas similares al efecto de habi tuación. Enambos efectos la falta de novedad hace que se preste menos atención a aquellos est ímulos queno predicen n inguna consecuencia relevante. Siun estímulo no es seguido por ninguna conse-cuencia significativa, ni positiva ni negativa, yno provoca en nosotros nin guna RC, dejaremosde prestarle atención ya que, probablemente,no será importante para nuestra supervivencia.Por eso, la inhibición latente, como afirmaronLubow y Gewirtz (1995) «promueve la selec-ción de los estímulos necesaria para el apren-

dizaje rápido».

A pesar de sus similitudes con la habitua-ción, debemos aclarar que ambos efectos no son lo mismo. La habituaciónes una disminución en respuestas como la de orientación o sobresalto mien-tras que la inhibición latente supone el retraso de un aprendizaje posterior(Hall y Schachtm an, 1987). Debemos aclarar también que, a pesar de que selo denomine «inhibición latente» (además de preexposición al EC), no impli-ca que el EC se haya convertido en un inhibidor condicionado (Reiss y Wagner, 1972; Rescorla, 1971). Si el EC se convirtiera en un inhibidor du ran te lafase de preexposición esto debería hacer más fácil utilizarlo posteriormentecomo EC en un condicionamiento inhibitorio además de provocar una RCinhibitoria en un procedimiento de sumación, lo que en realidad no ocurre.

Preexposición al El:

Cuando el El se presenta repetidas veces, sin asociación previa con elEC, deja de ser novedoso. Si posteriormente intentamos que el animal o la persona aprenda una asociación en tre dicho El y un EC inicialmente neutro ,el aprendizaje se verá dificultado (Randich, 1981; Randich y LoLordo, 1979;Riley y Simpson, 2001; Salandin, ten Have, Saper, Labinsky y Tait, 1989).

¿Por qué el efecto de preexposición dificulta el condicionamiento posterior? La explicación más sencil la podría tener en su base filogenética la pérdida de la atención a los estímulos no relevantes para nuestrasupervivencia diaria. Que el efecto que producen ciertos eventos que se


108

Ejemplo

Preexposición alEC. Toda mi vida he

podido co mer kiwi deforma normal porquenunca me ha sentadomal. De repente, un día,me como un kiwi y ho-ras después tengo dolorde estómago. Me cuestaasociar más ese dolor deestómago a la ingestadel kiwi porque éste nome había producido ma -lestar con anterioridad.



repiten muy frecuentemente se vea reducidose ha seleccionado como mecan ismo de apre n-dizaje por su valor adaptativo. Probablemente por cuestiones de economía conductual o deinterrupción de otras actividades que puedanser relevantes pa ra la supervivencia del sujeto.

Cuando un estímulo no predice consecuen-cias importantes para nosotros dejamos de

presta rle atención para centrar nuestros re-cursos atencionales en otros estímulos poten-cialmente relevantes, ya sea porque predicenun peligro o porque indican la posibilidad de

obtener alimento.Pero, además de esta explicación atencio

nal, otros mecanismos asociativos y de memoria parecen estar en la basedel efecto de preexposición (Hall, 1991). Dichos mecanismos tienen comoorigen el efecto de interferencia (Lubow, Weiner y Schnur, 1981; McPhee,Rauhut y Ayers, 2001; Riley y Simpson, 2001), ya sea asociativa o de me-moria. Según la perspectiva de la interferencia asociativa, si el EC o el Elson expuestos previamente, la capacidad asociativa de dichos estímulosdisminuirá de cara a emparejarse con estímulos nuevos.

En el caso de la hipótesis de la interferencia de memoria en referenciaal enlentecimiento del condicionamiento una vez preexpuesto el estímulo,el recuerdo de lo ocurrido durante la fase de preexposición interfiere sobreel aprend izaje de la asociación ECEI. La existencia de este mecanism o sub-yacente en los efectos de preexposición se ve avalado por experimentos quemuestran que los procedimientos que reducen dicha interferencia ayudan afortalecer la RC (Graham, Barnet, Gunther y Miller, 1994; Rosas y Bouton,1997; Westbrook, Jones, Bailey y Harris, 2000).

1.3. Naturaleza

La naturaleza de los estímulos es una característica fundamental en elcondicionamiento pavloviano. Ha blar de la natura leza de los estímulos implica una serie de subcaracte rís ticas tales com o su tipo, apetit ivo o aversivo,su relevancia para ese organismo en particular o la importancia biológica.


10 9

Ejemplo

Preexposición al EI.Con cierta periodicidad

me duele el estómagosin razón aparente. Hoyhe comido kiwi y des-

pués ha com en zado adolerme el estómago.Dado que el kiwi nun-ca me había producidodolor, me costará másaprender que mi dolorde estómago se debe alkiwi porque éste ya sedaba con anterioridad.



1.3.1. Tipos de estímulo

El tipo de estímulo utilizado va a determinar el condicionamiento y laRC que va a tener lugar. Teniendo en cuenta que el condicionamiento pa-vloviano contribuye a una mejor adaptación al entorno permitiendo prede-cir los acontecimientos que van a suceder, que la RC se parezca a la RI, esdecir, que la RC esté en función del El u tilizado es más adaptativo que si nolo fuera. El condicionamiento y la RC no serán los mismos si el El utilizadoes apetitivo, como un alimento, o aversivo, como una descarga o cualquierotra fuente de dolor. Un animal no mostrará salivación como RC (ni comoRI) si utilizamos una descarga como El, ni adquirirá un condicionamientode miedo si utilizamos un El apetitivo, como la comida.

Un ejemplo claro de la importancia del tipo de El utilizado en el condi-cionamiento pavloviano es el experimento de automoldeamiento llevado acabo por Jenkins y Moore (1973). En este experimento, dos grupos de palo-mas fueron expuestas a un condic ionam iento pavloviano en el que el EC erauna tecla iluminada. Entre ambos grupos variaba el El al que podían teneracceso, siendo comida para uno de los grupos y agua para otro. La RC es-

perada, es decir, el picoteo de la tecla iluminada, fue la ob tenida , pero varióen su forma dependiendo del El utilizado. Aquellos animales que recibieronagua como El picoteaban la tecla de forma continua y lenta, mientras quelos que recibieron comida lo hacían de forma más vigorosa. La forma enque colocaban sus picos también dependía del El utilizado. En el caso delagua, las palom as abrían sus picos de la mism a forma que si fuesen a sorbery tragar agua. En el caso de utilizar comida, la apertura de dichos picos a

la hora de picotear la tecla era mayor, como alingerir alimento (ver también Woodruff y Starr,1978, para un experimento similar).

Aunque parece evidente que el tipo de Elutilizado es importante para el condiciona-

miento y la obtención de la RC esperada, pa-rece menos evidente la importancia del tipo deEC utilizado, dado que se trata de un estímuloinicialmente neutro que no produce una res-

puesta por sí mismo. Ya que el EC funciona co-mo señal anticipatoria de un futuro El, parecefactible pensar que cualquier estímulo puede


Ejemplo

Me duele un pié des-de hace un rato y nosé por qué. Repaso loque he hecho durante el

día que me haya podido producir el dolor y veoque me he dado un golpey que he comido kiwis.Deduzco que es más pro-

bable que me duela el pie a causa del golpe.

11 0



funcionar bien como EC, independientemente de su naturaleza sensorial.Pero en realidad la modalidad sensorial del EC determina en gran medidala forma de la RC. Distintos ECs pueden producir distintos tipos de RCs.

Holland (1977) reflejó la importancia de la naturaleza del EC en la ex- presión de la RC, util izando dos ECs de natura le za dis tin ta para llevar acabo un condicionamiento apetitivo en ratas. Utilizó dos grupos de ratas, presentando como EC en uno de ellos un tono y en el otro una luz, cadauno seguido de comida en cada ensayo de condicionamiento. La forma dela RC varió según el EC utilizado: aquellas ratas que fueron expuestas a untono mostraron movimientos de cabeza mientras que aquellas que fueronexpuestas a una luz mostraron conductas como ponerse de pie.

Como mostró Holland (1977), la modalidad sensorial del EC es impor-tante, pero también lo es la capacidad sensorial que los animales tienen para reaccionar ante dichos eventos. No todos los anim ales procesan losestímulos de igual forma. Algunas características de dichos EC, como laluz, el color o la posición, son más fácilmente procesadas por ciertas espe-cies animales.

Bowe, Green y Miller (1987), pusieron a prueba la capaci-dad de procesamiento de las

palomas en lo que a cier tas ca-racterísticas de un EC visual serefiere. Estos autores utilizarondos grupos de palomas, parauno de ellos el EC era una luz deun color y para el otro, la posi-ción del mismo EC. En el primergrupo, una luz roja anticipaba la

posterior apar ic ión de comida,

independientemente del lugaren el que apareciese dicha luz,mientras que en el segundo, la posición del estímulo luminoso(en este caso situado a la iz-quierda) precedía a la comida,independientem ente del color de


111

S g

G L U

L U

LU O

2! V)111o ü'oCL

LU

120-i

100 -

80 -

60-

40 -

20 -

0

COLOR

POSICION

T

0 1

T2 3 4

SESIONES

T

5

Figura 3.2. Porcentaje medio de respuesta scorrectas en función de las sesiones (Bowe,

Green y Miller, 1987)



dicho estímulo. Como muestra la Figura 3.2, las palomas del grupo en el queel color actuó como EC fueron más eficientes al llevar a cabo la RC (tienenun porcentaje mayor de aciertos) que las que debían actuar según la posicióndel estímulo. Esto nos permite concluir que las palomas procesan mejor, o

prestan más atención a los colores que a la localización espacial del EC.

1.3.2. Relevancia de los estímulos

La naturaleza de un EC nos lleva a un concepto más importante si cabe:la relevancia. La relevancia de un EC se mide según su pertinencia conrespecto al EL El condicionamiento es mejor si el EC y el El guardan unarelación en un contexto natural.

Garcia y Koelling (1966) lo dejaron claro en un experimento ya clásicosobre relevancia, en el que mostraron que ECs frecuentemente utilizadosen experimentos de aprendizaje eran relevantes con respecto a ciertos EIs.Para ello utilizaron como ECs sabores y estímulos audiovisuales, y comoEIs una descarga eléctrica y malestar estomacal. El diseño experimental delestudio puede verse en la Tabla 3.2:


Tabla 3.2. Diseño experimental utilizado por García y Koelling (1966)

Condicionamiento Prueba RC

Grupo 1 Gustativo + Audiovisual Descarga¿Gustativo?

¿Audiovisual?Poca RC

Mucha RC

Grupo 2 Gustativo + Audiovisual Malestar ¿Gustativo?¿Audiovisual?

Mucha RCPoca RC

El objetivo principal del experimento era ver cuáles de los ECs (saboro estímulos audiovisuales) eran más susceptibles de condicionarse con los

diversos EIs. Para ello, García y Koelling combinaron esos ECs y EIs de lasiguiente forma: requerían que las ratas bebiesen agua con sabor dulce osalado de forma previa a la aparición de un El (EC gustativo), y al mismotiempo se les mostraba un estímulo audiovisual (EC audiovisual). Tras la presentación sim ultánea de es tos ECs, se les administraba como El , o bien,una breve descarga, o bien, se les provocaba un malestar estomacal. Debidoal carácter aversivo de los EIs, se esperaba que los animales mostraran al

112



gún tipo de aversión ante los ECs, cosa que se vio reflejada en la respuestade las ratas ante los mismos.

Tras el condicionamien to, se realizaron pruebas con el EC gustativo

(sabor) y con el EC audiovisual por separado. El grado de aversión condi-cionada se medía utilizando como variable la supresión del lameteo. Losresultados, que pueden apreciarse en la Figura 3.3, muestran que los ani-males que fueron expuestos a la descarga suprimieron más su respuesta delamer ante un estímulo audiovisual que ante uno gustativo, mientras queaquellos que fueron expuestos a un malestar gástrico suprimieron más surespuesta de lamer ante un estímulo gustativo que ante uno audiovisual.


Gustativo E 3 Audiovisual

y iMalestar Descarga

Estimulo incondicionado

Figura 3.3. Resultados del experimento de García y Koelling (1966)

La explicación principal dada por estos autores a los resultados de suexperimento fue que en un contexto real, los animales pueden enfermar, osentir malestar, cuando comen un alimento en mal estado. De ahí que elcondicionamiento entre un sabor y un malestar genere una RC de aversiónmayor. Por otro lado, en dicho contexto natural, es más fácil que un animalsufra algún daño físico (como el generado por una descarga), provocado

por el ata que de un depredador, por ejemplo, ante cier tos est ímulos visua-les o auditivos, quizá procedentes del propio depredador.

Este experimento muestra la importancia del concepto de relevanciao pertinencia del EC con respecto al El, ya que el aprendizaje de ciertas

113



asociaciones (sabormalestar, estímulo audiovisualdescarga), se ve favore-cido si el EC es pertinente con respecto al EI. Ninguno de los ECs fue másefectivo que el otro en los condicionamientos en general, sólo con aquel Elcon el que por cuestiones ambientales se combinaba mejor. Este efecto derelevancia ECEI fue posteriormente confirmado por otros autores (Garb yStunkard, 1974; Gemberling y Domjan, 1982; Logue, Ophir y Strauss, 1981;Pelchat y Rozin, 1982).

Otra serie de experimentos sobre relevancia o pertinencia dignos demención son los llevados a cabo por LoLordo y sus colaboradores con palo-mas (Kelly, 1986; LoLordo, Jacobs y Foree, 1982; Shapiro, Jacobs y LoLor-do, 1980; Shapiro y LoLordo, 1982). Estos experimentos concluyeron quelas palomas asocian EIs alimenticios más fácilmente con estímulos (ECs)

visuales que auditivos, mientras que asocian EIs aversivos (descargas) másfácilmente a ECs auditivos. Esto indica que, al menos para las palomas, lasclaves visuales son más relevantes para la obtención de comida mientrasque las auditivas lo son para las conductas defensivas.

La investigación en humanos sobre relevancia del EC con respecto al Eltambién muestra una preferencia estimular con respecto a un El aversivo.Por ejemplo, es más fácil que los humanos asocien fotografías como ECcon una descarga (El) si dichas fotografías son de animales que no si sonde flores (Óhman, Dimberg y Óst, 1985).

La explicación teórica para todos estos ejemplos de preferencia esti-mular, es decir, de relevancia o pertinencia del EC con respecto a un El,se centra en que el EC provoca la activación de cierto tipo de conductaso ciertos sistemas de conductas. El sistema de conducta que se activadepende del estado motivacional del animal y la naturaleza del EI. Si elEl es comida, el EC activa la producción de conductas relacionadas conla búsqueda de la misma, mientras que ECs como descargas desencade-nan conductas defensivas similares a las mostradas en presencia de undepredador.

1.3.3. La fuerza biológica

Al hablar de los EIs, de su naturaleza y su pertinencia, es inevitable pensar en su carácter biológico. Los EIs apetitivos, com o el alimento, elicitan ciertas respuestas propias de las conductas de búsqueda de alimento


11 4



del animal: aproximación, ingesta, masticación, salivación... Este carácter biológico no es atr ibuib le a la mayoría de los ECs. Un EC neutro, como untono o una luz, no tiene un carácter biológico como el de la comida, no provoca re spuesta s directamente re lacionadas con sis temas de conductacomo el alimenticio.

La diferencia entre la fuerza biológica de un EC y un El es la que llevó aafirmar a Pavlov (1927) que para que el condicionamiento tuviera lugar, elEC debía tene r menos fuerza biológica que el El y, por lo tanto, las respues-tas elicitadas por el estímulo a condicionar debían ser menores o menosintensas que las RI provocadas por el EL

Sin embargo, las investigaciones actuales muestran que, además de conun El de mayor fuerza biológica que su EC, el condicionamiento puede darse

con estímulos de igual fuerza biológica o incluso sin fuerza biológica alguna.

A. Condicionamiento de dos e stímulos con distinta fuerza biológi-ca: condicionamiento de segundo orden.

En los procedimientos vistos hasta ahora el condicionamientotenía lugar emparejando un EC con un El, pero también es posiblecondicion ar un EC con otro EC que haya sido previamente condicio-nado. ¿Qué papel juega aquí la fuerza biológica? Un EC inicialmenteneutro que ha sido expuesto a un condicionam iento con un El puede,a su vez, hacer las veces de El para un nuevo condicionamiento, yaque ha adquirido u na fuerza biológica que no tenía antes. Este efectoresultante se conoce como condicionamiento de segundo orden (ver Tabla 3.3).


Tabla 3.3. Diseño experimental del condicionamiento de segundo orden, el contracondicionamiento y el precondicionamiento sensorial

Fase 1 Fase 2 Prueba RC

Condicionamiento de segundo orden EC,EI EC2 EC, ¿EC2? Mucha RCContracondicionamiento ECEI, ECEI2 ¿EC? Cambio de RC

Precondicionamiento sensorial ECr EC, EC,EI ¿e c 2? Mucha RC

El condicionamiento de segundo orden es un tipo de condi-cionamiento de orden superior. El condicionamiento de orden

115




superior (ver Figura 3.4) puede tener, comosu propio nombre indica, distintos niveles. Elaprendizaje más básico, ECEI, corresponde-ría a un condicionamiento de primer orden.Como se describe en el párrafo anterior, uncondicionamiento de segundo orden es aquelen el que se aprenden dos asociaciones quecomparten un elemento común, un estímuloque toma el papel de EC en una asociación y

posteriormente de El en la segunda. Si, porejemplo, un sonido, que ya ha sido asociado asu vez con un EC condicionado que actúa co-

mo El, se utiliza a su vez como El en el aprendizaje de una nueva

asociación ECEI, estaríamos hablando de un condicionamiento detercer orden. Y así sucesivamente.

En la vida diaria abundan los ejemplos de condicionamiento de ordensuperior. Uno de los más destacados es, por ejemplo, el dinero: un estímuloinicialmente neutro (papel) se asocia con la posibilidad de adquirir bienes.A su vez, el dinero, una vez adquirida su fuerza biológica por asociacióncon el El, puede actuar como El frente a un EC inicialmente neutro, comoun cajero automático o una tarjeta de crédito.

Ejemplo

Condic ionamien tode segundo orden. El

kiwi me produce dolorde estómago. Hoy mehe comido una manza-na antes de comer elkiwi. No sé cómo, perola manzana también haterminado sentándomemal.

Figura 3.4. Procedimiento de orden superior, concretamente, de segundo orden.

El condicionamiento de orden superior es coherente con la hipótesis dePavlov según la cual el condicionamiento tiene lugar cuando se emparejaun estímulo sin fuerza biológica con uno con fue rza biológica. Además, esteefecto mues tra que el condicionam iento clásico puede tener lugar sin un El básico, sólo con est ím ulos condic ionados previamente.

11 6



B. Condicionamiento de dos estímulos con fuerza biológica: contracondicio-namiento.

Pavlov afirmaba inicialmente que unestímulo que ya tiene fuerza biológicano puede servir como EC para un nuevocondicionamiento. Por ejemplo, si unarata había asociado una luz con una des-carga, ya no se podía asociar la mismaluz con comida.

El fenómeno de contracondicionamiento (Pavlov, 1927) mues-tra que esta idea es errónea. Como se puede ver en la Tabla 3.3, un

EC que se ha emparejado con un El puede emparejarse con un Eldiferente e incluso opuesto. Por ejemplo, si un EC se asocia con unEl aversivo, puede asociarse después con un El apetitivo.

En el laboratorio, son numerosos los ejemplos de condiciona-miento con ECs de gran fuerza biológica. Pearce y Dickinson (1975)mostraron cómo se pueden invertir las propiedades aversivas deuna breve descarga emparejando dicha descarga con comida. Ini-cialmente, las ratas del grupo experimental recibieron una descarga periódicamente , pero tras la administr ación de cada descarga reci- bían comida. En diferen tes grupos de control, las ratas recib ieronlas descargas y la comida de forma desemparejada, o recibieronsólo uno u otro de los EIs. En un condicionamiento posterior con ladescarga, el grupo que había recibido la descarga empare jada con lacomida mostró menos miedo que los grupos control. Este resultadoindica que el procedimiento de contracondicionamiento redujo las

propiedades aversivas de la descarga (para otros ejemplos de contra-condicionamien to, véase Dickinson y Dearing, 1979).

El contracondicionamiento no sólo puede variar completam ente laRC que tiene lugar (por ejemplo, del miedo a la salivación) sino quetambién puede variar una respuesta bidireccional de un extremo alotro. Por ejemplo, conseguir que un estímulo que inicialmente pro-voca un acercamiento suscite después una respuesta de alejamiento.

El contracondicionamiento está en la base de muchas terapiasde conducta, pero la nueva asociación aprendida no borra del todo


117

Ejemplo

Contracondic iona-miento. A los niños la

consulta del dentista les produce ansiedad. Perosi el dentista les regalauna piruleta, la experien-cia de ir a consulta lesresulta menos aversiva.



el aprendizaje original, por lo que la RC inicial puede reaparecer untiempo después o en un contexto distinto (como puede verse en fe-nómenos como la recuperación espontánea o la renovación vistos enel capítulo anterior). Por ello, el contracondicionamiento es un buenmétodo en el tratamiento de trastornos como las fobias, teniendo encuenta estas limitaciones.

C. Condicionamiento de dos estímulos sin fuerza biológica: pre-condicionamiento sensorial.

Como hemos visto, el contracondicionamiento nos muestra que elcondicionamiento puede tener lugar entre dos estímulos de gran fuer-za biológica, dos estímulos que provocan respuestas intensas. También

se puede dar aprendizaje entre dos estímulos sin fuerza biológica, quea priori no provocan respuestas intensas, como en el caso del fenóme-no de precondicionamiento sensorial (véase diseño en Tabla 3.3).

Si queremos, por ejemplo, que un an imal aprenda la relación en-tre dos estímulos neutros, un tono (EC,) y una luz (EC2), el principal pro ble ma con el que nos podemos encontrar es la ausencia de unaRC medible. Esto es, generalmente, un animal no muestra una RCante estímulos neutros. ¿De qué forma sabemos si el aprendizaje dela asociación ha tenido lugar si no podemos medirlo? Para ello, enla segunda fase del procedimiento, se empareja el EC! con un El,aversivo o apetitivo, para que dé lugar a una RC. De esta forma, si

el aprendizaje EC,EC2 ha tenido lugar, el EC2 provocará una respuesta sim ilar a la mostra da por EC, tras su empare jamie nto con el El (Berridge y Shulkin, 1989; Lavin, 1976; Rescorlay Durlach, 1981; WardRobinson y Hall, 1996,1998).

La diferencia de fuerza biológica entre elEC y el El, como afirmó Pavlov, ayuda a un co-rrecto condicionamiento, pero también es unaforma de medir el aprendizaje, especialmentecuando medimos RCs que no son fácilmenteobservables. La presencia de un El con fuerza

biológica es necesaria para que se haga eviden


Ejemplo

Precondicionamien-to sensorial. Suelo to-mar arroz con leche concanela de postre. He to-mado arroz con leche

(sin canela) y me ha produc ido un malestar.Ahora, cuando veo la ca-nela, evito tomarla porsi me produce tambiénmalestar cómo lo haceel arroz con leche.

118



te el aprendizaje que se ha dado, pero no para su adquisición. El pre condicionamiento sensorial es, por tanto , un ejemplo más de queaprendizaje y ejecución son procesos distintos.

1.4. Contigüidad temporal entre estímulos

Además de las características del EC y el El como estímulos independien-tes, cómo se ha visto en el capítulo anterior en relación a los procedimien-tos de condicionamiento pavloviano excitatorio, la relación temporal entreambos puede favorecer o perjudicar el aprendizaje de la asociación entre losmismos y, por lo tanto, influir en la aparición e intensidad de la RC.

Las variables temporales a destacar son dos:1. Intervalo ECEI: Las investigaciones muestran que, generalmente,

la RC es más débil cuando el intervalo ECEI es mayor (Marlin,1981). Además, dicho intervalo puede afectar a la forma de la RC.Holland (1980) mostró que cuando el intervalo ECEI es corto se danmás conductas de orientación hacia el EC, mientras que si es largo,las conductas más probables son las de orientación al El (por ejemplo, acercamiento al com edero) .

2. Intervalo entre ensayos (IEE): El condicionamiento es mejor (y portanto también la expresión de la RC) cuando los ensayos ECEI estándistanciados entre sí.

La relación entre la duración de cada ensayo y la distancia entre losmismos es del mismo modo importante para el aprendizaje correcto de laasociación ECEI. Las mejores condiciones para un condicionamiento ex-citatorio se dan con intervalos ECEI cortos y aislados en el tiempo (amplioIEE). Aún así, el condicionamiento puede tener lugar de forma óp tima conintervalos ECEI mayores siempre y cuando el IEE se alargue de forma

proporc ional (Kaplan, 1984).

2. ¿CÓMO SE ASOCIAN EL EC Y EL El?

Tradicionalmente se pensaba que lo más importante pa ra un bue n con-dicionamiento y, por lo tanto, para la obtención de la RC esperada, era el


11 9




emparejamiento repetido de la asociación ECEI (Pavlov, 1927). Aunqueesto es condición imprescindible, no es suficiente para un buen condicio-namiento. Se debe cumplir también la siguiente condición: el EC debe serun buen predictor del EL

2.1. El concepto de contingencia

En 1968, Rescorla descubrió que el mero emparejamiento de un EC(por ejemplo, una luz) y un El (por ejemplo, una descarga) no siempre dalugar a condicionamiento.

Para medir el grado en que una clave o estímulo, el EC, es un buen

predictor de la aparición de otro es tímulo, el El, se ut il iza el concepto decontingencia (Alian, 1980; Jenkins y Ward, 1965).

Las posibles alternativas de emparejamiento de un EC con un El en unensayo de condicionamiento concreto no se limitan a la aparición de ambosestímulos. Por ejemplo, en fenómenos como la extinción, la aparición delEC va seguida de la no aparición del El, lo que nos aporta una gran infor-mación predictiva a pesar de que no se da una contigüidad entre ambosestímulos.

EjemploLa probabilidad de

que habiendo nubes enel cielo después tenga lu-gar una tormenta es ma-yor que la probabilidadde que estando el cielocompletamente despeja-do se ponga a llover derepente. Por eso, cuando

vemos el cielo encapo-tado solemos pensar enque pronto va a llover.

Estas posibles alternativas, imprescindibles,como veremos, para el cálculo de la contingen-cia, se resumen en una tabla de contingen-cias. Esta tabla es una matriz 2x2 que repre-senta las ocurrencias conjuntas del EC y el El(véase Tabla 3.4.).

Tabla 3.4. Tabla de Contingencias

El NO El

EC a b

NO EC c d

La matriz muestra en sus cuatro celdas los cuatro tipos de combinacio-nes posibles que se pueden dar entre la aparición de un EC y la de un El enun procedimiento de condicionamiento:

12 0



a: Indica el número de ensayos de condicionamiento en los que habien-do aparecido el EC después aparece el EI.

b: Indica el núm ero de ensayos de condicionamien to en los que hab ien-

do aparecido el EC después NO aparece el EI.c: Indica el número de ensayos de condicionamiento en los que NO ha-

biendo aparecido el EC si aparece el EI.

d: Indica el núm ero de ensayos de condicionam iento en los ninguno delos dos estímulos aparece.

Sabiendo esto, se pueden calcular probabilidades condicionales te-niendo en cuenta toda la información obtenida de las cuatro celdas o una

información relativa por fila o por columna. Por ejemplo, la probabilidadde que se dé el El después de que el EC haya tenido lugar (denominada Pt)se calcula teniendo en cuenta las veces que el El aparece después de que lohaga el EC en función de todas las veces, en total, que ha aparecido el EC(haya o no haya aparecido después el El). De ahí que:

P,=P(EI|EC) = a / (a+b)

De la misma forma podemos hacer el cálculo relativo de la probabili-dad de que el El tenga lugar tras la NO aparición del EC (P0) teniendo encuenta todos los casos en los que dicho El aparece (ya sea precedido o node un EC):

P0=P(EI|EC) = c / (c+d)

Aunque se pueden dar múltiples combinaciones entre las celdas ademásde las mostradas por P, y P0(por ejemplo, la probabilidad de aparición delEC en relación a todas las posibles opciones : (a+b)/(a+b+c+d)), estas dos sonlas utilizadas para el cálculo de la contingencia en el aprendizaje asociativo.

Esto es, la contingencia se calcula teniendo en cuenta la probabilidad dela aparición del El en presencia del EC en relación a la aparición del El sinque previamente haya aparecido el EC. El índice resultante de este cálculode contingencia se llama AP y puede comprender valores entre 1 y 1.

AP = P(EI|EC) P(EI|noEC)= P,P0= [a/a+b] [c/c+d]


121



Según sus valores numéricos hay tres tipos de contingencia:

— Contingencia positiva: si la aparición del EC es un buen predictorde la aparición del El (la luz predice bien la poster ior aparic ión de la

descarga), el El debe ocurrir con más probabilidad cuando el EC hasido presentado previamente que en ausencia de éste. En este casose da un condicionamiento excitatorio.

P(EI|EC) > P(EI|noEC)

es decir, Pi>P0

AP>0

En el caso en el que el El sólo ocu rra en presencia del EC y nun caen su ausencia, la contingencia será perfecta:

AP = P(EI|EC) P(EI|noEC) = 1 0 = 1

— Contingencia nula: Si la probabilidad de que el El apareciese en presencia o en ausencia del EC fuese la misma (es decir, la descargaaparece el mismo número de veces en presencia que en ausencia dela luz), la contingencia tomaría un valor numérico de 0. Esto impli-caría, en teoría, una ausencia total de condicionamiento.

P(EI|EC) = P(EI|noEC)

es decir, P ^ P q

AP = 0

Aunque, como decimos, en teoría debería darse una falta decondicionamiento, en la práctica tiene lugar un efecto llamado irre levancia aprendida. El sujeto aprende que no hay una relación decontingencia entre el EC y el El lo que retrasa un posterior ap rend i-zaje de dicha relación, de forma similar a como ocurre en el fenóme-no de preexposición al EC o al EL

— Contingencia negativa: Una contingencia negativa indica que el ECes un gran predictor del El, pero de su ausencia, no de su presencia.Esto implicaría que el El es menos probable en presencia que enausencia del EC. En nuestro ejemplo, la descarga aparecería más




veces en ausencia de la luz que en su presencia, por lo que la luz nonos senaria para predecir su posterior aparición sino su posterior NO apar ición.

P(EI|EC) < P(EI|noEC)es decir, Pi<P0

AP<0

En el caso en el que el El siempre apareciese en ausencia del ECy nunca en su presencia,

AP = P(EI|EC) P(EI|noEC) = 0 1 = 1

Cuando la contingencia es negativa el condicionamiento es inhibitorio.En el condicionamiento inhibitorio, como vimos en el capítulo anterior, unEC predice la no aparición de un EI. Cuando la contingencia es negativa, elEl aparece con más frecuencia cuando el EC no está presente, por lo que elEC se convierte en un buen predictor, pero en este caso, de la ausencia del EI.


Figura 3.5. Representación gráfica de AP

Como se puede ver en la Figura 3.5, la contingencia también se puederepresentar gráficamente. Los valores superiores a la línea diagonal (trián-gulo superior izquierdo) representan situaciones de contingencia positiva,mientras que los que están por debajo (triángulo inferior derecho) repre-sentan la contingencia negativa. Las situaciones representadas por la dia-gonal corresponden a la ausencia de condicionamiento, es decir, AP = 0.

123




2.2. Fenómenos de competición de claves

La importancia de que un EC sea un buen predictor del El para queel condicionamiento tenga lugar ha quedado patente con el concepto de

contingencia. Pero, a veces, puede haber una contingencia perfecta entreun EC y un El y aún así la RC no tiene lugar. Esto es lo que muestran losfenómenos de competición de claves.

En estos fenómenos, como su propio nombre indica, se da una compe-tición entre los distintos ECs presentes para ser el mejor predictor del EI.Incluso cuando la contingencia entre cada uno de ellos y el El es perfecta,existen otros factores que pueden influir en el condicionamiento, favore-ciéndolo o dificultándolo.

Hay varios fenómenos de competición de claves, de los cuales destaca-remos dos: el ensombrecimiento y el bloqueo.

1. Ensombrecimiento

Este efecto (Pavlov, 1927) es el más sencillo de todos los fenóme-nos de competición de claves (ver diseño experimental en Tabla 3.5).En este caso, a diferencia de en el condicionamiento que hemosvisto hasta ahora, son dos los ECs presentes de forma simultánea.Por ejemplo, supongamos que queremos condicionar una luz (EC,)

y un sonido (EC2) con una descarga posterior (El) para provocar unarespuesta de miedo en unos animales. Aunque la contingencia entreel ECt y el El y entre el EC2y el mismo El es perfecta, ambos ECs

compiten para ser un mejor predictor del EI.Por eso, al aparecer juntos, EC2ensombrece aEC1; teniendo como consecuencia u na menorRC frente a ECj con respecto a ese mismo ECen un grupo control en el que EC, no ha sidoensombrecido.

Ejemplo

Como huevos fritoscon patatas para cenary horas después sientomalestar estomacal. En

vez de pensar que ambos al imentos me han produc ido el dolor porigual, creo que han si-do los huevos fritos losresponsables de que meencuentre mal.

Tabla 3.5. Diseño experimental del ensombrecimiento

Entrenamiento Prueba Prueba

Gr. Experimental (EC,+EC2)EI ¿EC,? Poca RC

Gr. Control EC, El ¿EC,? Mucha RC

12 4



Este fenómeno puede revertirse si llevamos a cabo una recuperacióndel ensombrecimiento (ver Tabla 3.6). Para ello, tras el ensombrecimientodebemos mostrarle al sujeto que ahora el estímulo ensom brecedor ya no esun buen predictor del El, con lo que conseguiremos que la RC frente al ECensombrecido aumente (con respecto a un grupo control en el que la fasede recuperación del ensombrecimiento no ha tenido lugar).


Tabla 3.6. Diseño experimental de la recuperación del ensombrecimiento

Fase 1 Fase 2 Prueba Resultado

Gr. Experimental (EC,+EC2)EI EC2 no El ¿EC,? Mucha RC

Gr. Control (EC,+EC2)EI ------ ¿EC,? Poca RC

2. Bloqueo

El bloqueo (Kamin, 1968) es un efec-to muy estudiado de competición declaves que consta de dos fases de entre-namiento (ver diseño experimental enTabla 3.7). Al igual que ocurre con el en-sombrecimiento, la aparición conjunta

de dos ECs igualmente contingentes conel El determina la RC frente a cada unode ellos.

En este caso el emparejamiento pre-vio (durante la primera fase de entre-namiento) de un estímulo (EC,) con elEl correspondiente determinará el con-dicionamiento de un EC posterior (EC2) con el mismo El, cuando

ambos ECs aparecen juntos. Es decir, inicialmente se estableceuna asociación entre el estímulo EC, y el El y cuando este estímuloestá completamente condicionado se añade un segundo estímulo(EC2). La poca fuerza de la RC ante el EC2durante la fase de pruebamuestra que el aprendizaje previo del EC, bloquea el desarrollo dela RC ante el estímulo añadido durante la segunda fase de entre-namiento (EC2).

125

Ejemplo

Cada vez que comohtievos fritos siento ma-lestar estomacal. Ayer,mi madre me puso hue-vos fritos con patatas para comer. Como pre-viamente ya he sufridoeste malestar comiendosólo huevos fritos, sicomo patatas sin huevofrito no me producirá

por si solas el malestar .




Tabla 3.7. Diseño experimental del bloqueo.


Gr. Experimental ECr EI (EC,+EC2)EI ¿e c 2? Poca RC

Gr. Control EC./EI (EC,+EC2)EI ¿e c 2? RC Media

Por ejemplo, de manera similar al caso de ensombrecimiento del apar-tado anterior, supongamos que condicionamos una luz (EC,) con unadescarga posterior (El) para provocar una respuesta de miedo en unosanimales. Si en una segunda fase de entrenamiento añadimos un estímulonuevo (EC2), por ejemplo, un sonido, aunque la contingencia entre dicho

sonido y el El es perfecta, el hecho de que la luz (ECt) ya se haya mostradocomo un predictor eficaz de la descarga en una fase previa va a dar comoresultado una menor RC frente a EC2con respecto a ese mismo EC en ungrupo control en el que en la Fase 1 no se produce la asociación EC,EI y, por lo tanto , EC2 no ha sido bloqueado.

Merece especial atención el control utilizado en el procedimiento de bloqueo. Para conseguir que los grupos experimenta l y control sean lo más parecidos posibles desde un punto de vista metodológico , se pre sentan losmismos estímulos el mismo número de veces en ambos grupos pero en el

caso del grupo control el ECj y el El se muestran explícitamente desempa-rejados para que no se cree asociación alguna entre ellos en la primera fasede entrenamiento.

La inversión de las fases de entrenamiento en un diseño de bloqueo dalugar a un tipo de bloqueo distinto: el bloqueo hacia atrás (Shanks, 1985).En este caso, como se puede ver en la Tabla 3.8, primero tiene lugar enentrenamiento en compuesto de ambos estímulos (EC! y EC2) seguidos

por el EI.

Tabla 3.8. Diseño experimental del bloqueo hacia atrás.


Gr. Experimental (EC,+EC2)EI ECr EI ¿EC2? Poca RC

Gr. Control (EC,+EC2)EI EC,/EI ¿e c 2? RC Media

12 6



2.3. Teorías del aprendizaje

Numerosas son las teorías y modelos que tratan de dar explicación a laforma en la que los humanos y demás animales aprendemos. A continua-ción introducimos algunas de las más relevantes en el área.

2.3.1. Modelo Rescorla-Wagner

Pensemos en la prim era vez que se asocia un EC con un EI. Ya que hastaese momento el El no era predicho por ningún otro elemento, éste resultasorprendente y, por ello, aprendemos algo nuevo sobre la asociación ECEI. El emparejamiento sucesivo, a lo largo del entrenamiento, de estos dos

estímulos hace que nos resulte menos sorprendente la aparición del El acontinuación del EC. En algún momento del entrenamiento, el EC predicede forma perfecta al El, es decir, esperamos sin lugar a dudas que el Elaparezca tras el EC, por lo que el El no resulta sorprendente de ningunamanera y el aumento en el aprendizaje ya no tiene lugar.

Esta idea fue sugerida inicialmente po r Kamin (1968, 1969) en referen-cia a los efectos de competición de claves que hemos visto anteriormente.Como se describe en el efecto de bloqueo, la asociación previa entre un

ECj y el El condicionará el aprendizaje de otra asociación en el que el mis-mo El se ve implicado (EC2EI). Según este autor, esto es debido a que elEl ya no nos resulta sorprendente, porque es predicho de forma perfecta

por el ECt.

Debido a la importancia del concepto de sorpresividad en lo que al pro-ceso de aprendizaje se refiere, Robert Rescorla y Alian Wagner (Rescorla yWagner, 1972; Wagner y Rescorla, 1972), propusiero n un m odelo asociativo para el aprendizaje que, a día de hoy, sigue siendo un modelo de referencia.La principal característica del mismo es que asume que en un ensayo de

condicionamiento el aprendizaje sólo tiene lugar si el El es sorprendente.

Rescorla y Wagner sugieren que la fuerza asociativa entre un EC y un Elaumenta en cada ensayo de aprendizaje hasta que el EC predice completa-mente el El y éste deja de ser sorprendente, punto en el cual dicha fuerzaalcanza su máximo posible. Estas variaciones de la fuerza asociativa encada ensayo de aprendizaje dependen de las siguientes variables:


127



— La saliencia del EC y el El (que llamaremos, a y (3), cons tantes durantetodo el proceso de aprendizaje. Numéricamente, esta saliencia pue-de expresarse desde un valor mínimo de 0 a uno máximo de 1, paraambos estímulos en el caso de que estén presentes. Habitualmente lasaliencia del EC toma un valor de 0.5 y la saliencia del El un valor de 1.

— La magnitud del El (X, lambda). Tras la aparición del EC en un en-sayo de condicionamiento, y relacionado con el concepto de contin-gencia, puede tener lugar la aparición del El, en cuyo caso el valorde X sería 1, o, no tener lugar, en cuyo caso su valor numérico sería0. Este concepto está asociado con el límite superior de una curva deaprendizaje, es decir, el máximo de esperabilidad del El (asíntota),que correspondería a un X = 1.

— La fuerza asociat iva que la asociación ECEI ha adquirido hasta elensayo anterior de condicionamiento (Vn',)• Indica el aprendizaje

previo sobre la re lación ECEI llevado a cabo hasta ese momento. Suvalor numérico puede, de nuevo, oscilar entre 0 y 1.

El cálculo final del incremento de fuerza asociativa entre el EC y el Elen un ensayo concreto (n) de aprendizaje se calcula matemáticamente conla siguiente fórmula:

AVn = ap( ̂V n_1)

Como muestra dicha fórmula, el incremento en la fuerza asociativa dela relación ECEI en un ensayo determinado de aprendizaje (AVn) es direc-tamente proporcional a la saliencia de ambos estímulos y depende de ladiferencia entre el máximo de aprendizaje adquirible (>.) y la fuerza de laasociación hasta el ensayo anterior (Vn l). AV puede, dependiendo de lascondiciones, oscilar entre valores de 1 a 1.

Una parte a des tacar de esta fórmula es el término (A.V11'1). Este térm i-

no denota la sorpresividad del EI. Como hemos visto, X indica si el El está presente y en qué magnitud y V n l se refiere al térm ino del aprendizaje ,describe en qué medida el EC está asociado o predice el EL La diferenciaentre los dos términos indica la diferencia entre lo que podemos llegar aaprender sobre la asociación entre el EC y el El y lo que hemos aprendidohasta ahora, es decir, lo sorprendente que nos resulta la aparición del Eltras el EC en ese ensayo de condicionamiento. Cuanto mayor sea V n l, el EC


128



se convierte en un mejor predictor del El y la diferencia (XVn l) va siendocada vez menor hasta que no ocurren más cambios en la fuerza asociativa.

La fuerza asociativa neta (V) en un ensayo determinado se calcula su-

mando la fuerza asociativa adquirida en el entrenamiento hasta el ensayoanterior y el incremento de la misma en el ensayo actual.

V= V o'1+ AVn

El proceso de aprendizaje de una asociación básica entre un EC y unEl queda ilustrado en la Figura 3.6. Esta figura muestra el crecimiento dela fuerza asociativa que se crea entre el EC y el El a medida que se repitenlos emparejamientos en el tiempo de estos estímulos, lo que es denominado«curva de aprendizaje».


Emparejamientos EC-EI

Figura 3.6. Curva de aprendizaje en un condicionam iento excitatorio

En cada ensayo de condicionamiento hay un aumento de la fuerza aso-ciativa y por lo tanto se da un aprendizaje. En los primeros ensayos, esecrecimiento es mayor (hay una mayor diferencia entre ensayo y ensayo),disminuyendo a medida que avanza el entrenamiento. Según Rescorla yWagner, esto ocurre porque el El es cada vez menos sorprendente. Por eso,en los primeros ensayos, el paréntesis (A.V n l) tiene valores mayores: la

12 9



discrepancia entre lo que ocurre (aparición del El en su magnitud) y lo queesperamos (la fuerza asociativa entre el EC y el El en los ensayos previos) esmuy grande y por tanto el incremento del aprendizaje en dichos ensayos esmayor. Dicho incremento, al igual que la sorpresividad van disminuyendocon el entrenamiento hasta llegar a una asíntonta, es decir, a un ensayo enel que el incremento del aprendizaje, AV, es cercano a 0, y la fuerza asocia-tiva de la asociación haya alcanzado el 100% de su valor.

Como hemos visto, la sorpresividad del El depende directamente de lamagnitud o intensidad del mismo (X). Por ejemplo, si el El utilizado en unensayo de condicionam iento es una descarga de cierta intensidad, su efectosobre el aprendizaje no será el mismo que si utilizamos una descarga conel doble de intensidad.

El comportamiento de la curva de aprendizaje en referencia a la utili-zación de distintas magnitudes del El puede verse en la siguiente gráfica(Figura 3.7). Como se puede apreciar, la utilización de dos magnitudesdistintas de un El da lugar a curvas de aprendizaje que se comportan deforma distinta. Cuando la intensidad es mayor, X es mayor y más alta es laasíntota que puede alcanzar el aprendizaje. Esto está en consonancia conlos efectos de la intensidad descritos en el apartado anterior.



Figura 3.7. Curva de aprendizaje de condicionamiento excitatorio con dos EIs deintensidades dist intas y ?i2)

13 0




Por último, como hemos visto, Rescorla y Wagner incluyen en el cálculode la fuerza asociativa dura nte u n ensayo de condicionamiento la salienciade los estímulos implicados en el mismo. La saliencia del EC (a), puedemodificar la cantidad de aprendizaje de un ensayo, ya que se multiplica porel factor sorpresividad: cuanto mayor sea la saliencia del EC, mayor seráel aprendizaje en ese ensayo. La consecuencia directa de esto es que unamayor saliencia hace que se alcance más rápido la asíntota del apren diza -

je, aunque no afecta al propio máxim o del aprendizaje , ya que éste vienedeterm inado por la magn itud del El (^). En la Figura 3.8 podemos observarlos cambios en la curva del aprendizaje utilizando valores de la saliencia deECs distintos.


Figura 3.8. Curva de aprendizaje de condicionamiento excitatorio con dos EC de salienciasdistintas (a! y a2).

Aunque en un ensayo de condicionamiento de primer orden sólo estén presentes un EC y un El , Rescorla y W agner afi rm an que en si tuaciones enlas que varios estímulos están presentes, la capacidad predictiva del EC seve afectada po r la presenc ia de los mismos. Esto es lo que ocurre en efectosde competición de claves, como el bloqueo o el ensombrecimiento, expues-tos con anterioridad en este capítulo.

131




Según estos autores, si dos ECs se presentan en compuesto, como enun ensayo de ensombrecimiento, ambos contribuyen a predecir el El y porlo tanto ambos influyen en los cambios de la fuerza asociativa en dichoensayo de condicionamiento. Para tener en cuenta este hecho a la hora decuantificar el aprendizaje, modificaron su fórmula básica sustituyendo V n l

por el términ o XV n l:

AV = ap(^£Vn_1)

ZV n l indica la suma de todos los valores V n l de todos los estímulos presentes en ese ensayo. De esta forma, el va lor de sorp resa viene dado porla diferencia entre X y la suma del valor asociativo de todos los estímulos presentes.

Además de la adquisición, esta teoría puede dar explicación a otrosfenómenos del aprendizaje asociativo, como los ya comentados efectos decompetición de claves, la extinción o el condicionamiento inhibitorio, fenó-menos descritos en el capítulo 2 de este libro.

BLOQUEO

Como hemos comentado en este mismo capítulo, en el efecto de bloqueo

el aprendizaje de la asociación entre un nuevo EC y el El se ve alterada porque dicho El ya era predicho de forma efectiva por otro EC con ante-rioridad.

Según Rescorla y Wagner, la primera fase de condicionamiento de unefecto de bloqueo, cuando el animal está aprendiendo la asociación entreel EC, y el El, dicho EC adquiere un valor de V positivo a medida que vantranscurriendo los ensayos de condicionamiento hasta alcanzar la asíntotadel aprendizaje. Suponiendo que utilizásemos un El que tuviese un X=l, alfinal de la pr im era fase de condic ionamien to el valor asociat ivo VEC1 seríacercano a 1.

En el primer ensayo:

AV EC1 = ocp(l0)= ap

V ecu ^P

132



En el último ensayo:

AVEC1 = ccP(ll )=0

V EC1= 0+1 = 1

la fuerza asociativa de EC, ha llegado a su valor asintótico y por lo tanto práctic amente no se da incremento de la misma en dicho ensayo.

Durante la segunda fase de entrenamiento, los ensayos de condiciona-miento continúan pero ahora se añade un EC2al EC, presentado durantela primera fase, ambos seguidos del EL Así que durante esta fase, parael cálculo de la fuerza asociativa entre ese nuevo EC (EC2) y el El, la Vde la ecuación se convertirá en ZVn l para mostrar la fuerza asociativa de

todos los estímulos presentes en ese ensayo, es decir, de EC, y de EC2, ysu influencia sobre el incremento del aprendizaje en cada ensayo de con-dicionamiento:

AVEC2 = ap

O lo que es lo mismo

AVECl = a p a (VEn¿| + VE"¿>))

Ya que el EC2no se ha presentado con anterioridad, todavía no tienefuerza asociativa y su valor inicial V es 0. Pero, la fuerza asociativa delEC, es máxima (V=l), debido a lo ocurrido durante la primera fase delen tre na m iento p or lo que AVEC2 en el pr im er ensayo de esta s egunda fasesería

AVEC2 = ap(l (1+ 0))=0

El incremento de la fuerza asociativa entre el EC2y el El durante este

primer ensayo es, com o se puede apreciar, inexistente. El modelo lo expl ica por la ausencia de sorpresa . Como el El ya era predicho con ante-rioridad por EC,, su aparición no produce sorpresa alguna en los ensayoscompuestos ((^XV)=0) por lo que no es necesario aprender nada sobre larelación EC2EI para anticipar la aparición de dicho EL Por tanto, segúnRescorlaWagner, se está produciendo un bloqueo de la adquisición de laasociac ión EC2EI.


133




EXTINCION

Este modelo tam bién p roporciona una explicación a la extinción. Comohemos visto en el capítulo 2, tras un entrenamiento de adquisición de unaasociación pavloviana, ECEI, que da lugar a una RC esperada, se puedeextinguir dicha RC si se presenta repetidamente el EC sin ir seguido del EI.

En este caso, en lo que a la aplicación del modelo se refiere, presentarel EC sin que vaya seguido del El es como hablar de un El que tiene inten-sidad cero (^.=0). Por esto, el primer ensayo de extinción, tras un procedi-miento de adquisición, se plasmaría numéricamente de la siguiente forma:

AV = a(3(?iV)= ap(0l)= ap

El incremento de la fuerza asociativa (AV) en el primer ensayo de ex-tinción es en realidad un decremento, ya es un término negativo. A medidaque transcurren los ensayos de extinción, el valor de V va reduciéndosehasta que no hay más sorpresa (es decir, el término (XV) se acerca a 0) y laasíntota se acerca esta vez a cero (Figura 3.9).

AV = a p a V n'!)= ap(00)= 0


Figura 3.9. Curva de aprendizaje en la extinción

13 4



Teniendo en cuenta lo anterior, el modelo se apoya formalmente en laidea de que la excitación y la inhibición son extremos contrarios de un con-tinuo (Rescorla, 1967b). Por lo tanto, la extinción consiste en un desaprendi-zaje según este modelo. Como veremos en el siguiente apartado, éste enfoqueno es correcto ya que no se ajusta a lo que se conoce como la extinción.

INHIBICIÓN CONDICIONADA

De forma similar a lo que ocurre en la extinción, en el fenómeno de inhi- bición condicionada (para una explicación más de tallada del fenómeno (véa-se capítulo 2), un EC predice la ausencia de la aparición posterior de un EL

En el caso de este efecto, durante la primera fase de entrenamiento, un

EC (ECj) es empare jado con un E l hasta llegar a la asín tota del aprendizaje(V= 1). En una segunda fase, ese mismo EC se empareja con el EC que vaa convertirse en inhibitorio (EC2), siendo ambos seguidos de la ausenciadel EI. Durante esta segunda fase, según Rescorla y Wagner, en el primerensayo del compuesto ocurriría lo siguiente:

AVEC] = cxP(Jt (VEC1+VEC2))= ap(0 (1+0))= ap

Esto indica que la fuerza asociativa del EC! irá decreciendo a medidaque aume nten los ensayos en compuesto, hasta llegar a 0.

Como hemos podido ver, según este modelo, en el caso de entrenamien-tos en compuesto los EC excitatorios suman fuerza asociativa mientras quelos inhibitorios la restan.

PROBLEMAS DEL MODELO

Aunque es un modelo de referencia en el estudio del aprendizaje asocia-tivo, el modelo RescorlaWagner tiene una serie de limitaciones que deben

tenerse en cuenta (Miller, Barnet y Grahame, 1995). Aquí destacaremos lasmás importantes:

1. La extinción de la inhibición condicionada

Este modelo afirma que si se presenta repetidamente un inhibi-dor condicionado sin ir acompañado de un El (es decir, X = 0), lainhibición se extinguirá.


135



Si aplicamos la fórmula a esta fase de extinción de la inhibición,el increm ento de la fuerza asociativa del EC inhibito rio sería positivoen el primer ensayo:

AV = aP(A, V)= ap(0 (1))= ap

lo que, según este modelo, hará que el EC anteriormente inhibi-torio se convierta en excitatorio poco a poco.

Pero esto no ocurre en realidad. De forma contraria, ciertas in-vestigaciones (De Vito y Fowler, 1986; Hallam, Grahame, Harris yMiller, 1992; Witcher y Ayres, 1984; ZimmerHart y Rescorla, 1974)muestran que no presentar el El tras la aparición de un EC inhibi-torio puede aumentar sus propiedades inhibitorias. Es posible que

la deducción del modelo sea errónea porque considera, como he-mos dicho previamente, la excitación y la inhibición como procesosopuestos y de signo contrario.

2. La inhibición latente (preexposición al EC)

El modelo RescorlaWagner no puede explicar el efecto de inhi- bición latente. En este efecto, como hemos visto en aparta dos ante-riores, un EC es preexpuesto sin ir seguido de un El para aparecer

junto s en una fase posterior. Para este modelo, com o el El no apa-rece ni es esperado durante la fase de preexposición al EC, no hayasociación ECEI en esa fase y el valor de V no varía, siempre es 0,

por lo que no debería afecta r al aprendizaje de la poste rior fase decondicionamiento.

Durante la fase de preexposición al EC

AV = ap(A, V)= ap(0 0)= 0

Entonces, en el prim er ensayo de condicionamien to tras la preex- posición, según este modelo,

AV = ap(X V)= ap(l 0)= ap

Sin embargo, los datos muestran que, el aprendizaje de dichocondicionamiento se ve retrasado por la previa preexposición al EC,no comportándose como el modelo predice.




3. Bloqueo

Aunque el diseño experimental utilizado en el efecto de bloqueo(ver Tabla 3.7) suele tener como resultado una menor RC como

respuesta al EC bloqueado (EC2) durante la segunda fase del entre-namiento, algunas veces se da el efecto contrario. A este efecto se lellama aumentación o contrabloqueo (Batsell, Paschall, Gleasony Batson, 2001; Batsell y Batson, 1999; Batson y Batsell, 2000). Laaumentación consiste en un aumento de la RC ante el EC (EC2) pre-sentado en compuesto con EC,.

Al contrario que con el bloqueo, el modelo RescorlaWagner no puede dar una explicación satisfactoria al fenómeno del contrablo -queo. Como hemos visto en la explicación del bloqueo, este modelo

predice que la aparición de EC2no produce ninguna sorp resa en losensayos de compuesto ya que el El era predicho con efectividad porotro EC (EC^, y por lo tanto no se aprende nada sobre la relaciónEC2EI y la RC ante EC2es mínima.

4. Extinción de la excitación condicionada

El modelo RescorlaWagner explica la extinción como un desaprendizaje , pero esta explicación no es correcta . Fenómenos cómola recuperación espontánea, la renovación o la reinstauración,vistos en el capítulo anterior, muestran que la extinción no es undesaprendizaje ni lo contrario a la adquisición, sino un aprendizajedistinto.

Aunque aquí sólo hemos nombrado algunos de ellos, este modelotampoco explica otros fenómenos relevantes, como el precondicio-namiento sensorial, la habituación o la irrelevancia aprendida (parauna explicación más detallada ver Miller y cois., 1995).

2.3.2. La importancia del contexto

Los estudios sobre contingencia y las teorías más relevantes, empe-zando por RescorlaWagner, han puesto de relieve la importancia delcontexto en la manifestación de la RC (Balsam y Tomie, 1985; Bouton y Nelson, 1998).


137




En concreto, este modelo resalta el hecho de que el EC y el El no se pre-sentan de forma aislada a otros estímulos durante el condicionamiento, sinoque lo hacen dentro de un contexto específico (por ejemplo, una caja de Skinner). Los estímulos propios del contexto en el que se realiza el entrenamiento(olores, colores, formas...) son claves que el animal aprende junto con el EC.De hecho, se podría considerar que las claves contextúales son entrenadas encompuesto con el EC, sirviendo de ECs de mayor duración, y, por lo tanto,

produciendo efectos similares al bloqueo o el ensombrecimiento . De igualforma, cuando el El se presenta en ausencia del EC, también lo hace dentrode un contexto con diferentes claves, quedando asociado al mismo.

Teniendo en cuenta la presencia constante de estímulos del contextoque condicionan la relación entre el EC y el El, los tipos de contingencias

descritos en el apartado 2.1 pueden describirse en relación a dichos estí-mulos del contexto.

Conforme a la presencia o ausencia del EC en un ensayo de condicio-namiento dentro de un contexto, podrían ocurrir dos tipos de ensayos dis-tintos. Los ensayos de condicionamiento ECEI, cuando el EC (junto conel contexto) van seguidos del El y los momentos entre ensayos de condi-cionamiento, en los que en espera del inicio del siguiente ensayo sólo están

presentes las claves del contexto y el EI. Cuando la pro porción de veces enlas que el EC, junto con el contexto, van acompañados del El es mayor que

en las que sólo lo está el contexto, se dará una contingencia positiva ECEI.Por el contrario, si la probabilidad de aparición del El en presencia sólo delcontexto (sin el EC) es mayor, la contingencia que percibiremos entre ECy El será negativa. Por último, si la proporción de veces en las que el compuesto EC+contexto va acompañado del El y en las que sólo el contexto está presente cuando el El lo está es similar, la contingencia perc ib ida será nula.

2.3.3. Hipótesis del comparador

La importancia de los estímulos del contexto se pone también de relieveen teorías como la del comparador (Denniston, Savastano y Miller, 2001;Miller y Matzel, 1988,1989). Esta hipótesis propone que la respuesta condi-cionada no sólo depende de la asociación entre el EC y el El sino tambiéndel resto de asociaciones presentes en ese mismo momento que puedanestablecerse entre las claves del contexto y el propio EI.

138



M e c a n i s m o s a s o c i a t i v o s y t e o r í a s d e l c o n o c i m ie n t o c l á s i c o

El sujeto experimental expuesto a un ensayo de condicionamientoaprende dos cosas: que el EC y el El están asociados, y que las claves delcontexto y el El también lo están. La comparación entre ambos tipos deasociaciones será determinante para el nivel de respuesta al EC. La fuerza

asociativa de las asociaciones creadas entre el contexto y el El condiciona-rán la manifestación de la respuesta. Esto es, si la fuerza asociativa de laasociación ECEI es mayor que aquella que presentan la asociación entrelas distintas claves del contexto y el El, la RC tendrá lugar (contingencia positiva).

Sin embargo, si la asociación entre el EC y el El es más débil que laasociación entre otras claves del contexto y el El, el animal no mostrará laRC condicionada esperada ante el EC. Esto se debe a que es más probable

que el animal perciba como mayor la posibilidad de que el El ocurra en presencia del contexto y no del EC (contingencia negativa). Es decir, si elvalor excitatorio de las claves del contexto es mayor que la del propio EC, sedará una RC inhibitoria ante dicho EC. Un ejemplo de un efecto que tienelugar de esta forma es el de la inhibición condicionada (Friedman, Blaisdell, Escobar y Miller, 1998; Kasprow, Schachtman y Miller, 1987; Miller,Barnet y Grahame, 1992).

De la misma forma, si la asociación entre el EC y el El es comparableen fuerza a las formadas entre el contexto y el El, la contingencia será nula

y de nuevo la RC frente al EC no tendrá lugar.

comparador

Figura 3.10. Estructura asociativa del la hipótesis del comparador

13 9




La hipótesis del comparador asume que el animal puede aprender trestipos de asociaciones durante el condicionamiento (ver figura 3.10): la pri-mera de ellas es la que se da entre el EC y el El (1), la segunda la que seda entre el propio EC y las claves del contexto (2); y la tercera, la que se da

entre las claves del contexto y el El (3).Cuando se presenta el EC, éste activa dos tipos de representaciones del

EL directas e indirectas. El El se activa de forma directa tras la aparicióndel EC (1) pero también de forma indirecta por las asociaciones creadascon el contexto y entre el contexto y el EC (2 y 3). Será entonces la compara ció n entre las asociaciones directas e indirecta s la que determin e laintensidad de la RC y su carácter excitatorio o inhibitorio.

Esta teoría tiene dos premisas a destacar. La primera de ellas es que

según este modelo no existen las asociaciones inhibitorias. Sólo permite laformación de asociaciones excitatorias con el El (ya sea del EC o del con-texto). Por eso afirma que la manifestación final de la RC (como inhibitoriao excitatoria) depende de la fuerza relativa de la asociación excitatoriaentre el EC y el El (1) con respecto a las asociaciones excitatorias entre elmismo contexto y dicho El (2 y 3).

La segunda premisa fundamental de este modelo es que la comparaciónentre las asociaciones excitatorias que se forman duran te el condicionam ien-to determina la manifestación de la RC, pero no el aprendizaje. El animal

hace la comparación entre las distintas fuerzas asociativas una vez que haterminado el entrenamiento. Por esto mismo, el modelo predice que si se daun cambio en la fuerza asociativa del contexto después del aprendizaje, estocambiará la forma en la que se responde al EC. Por ejemplo, si extinguimosla relación contextoEI, la RC frente al EC aumentará (Blaisdell, Gunthery Miller, 1999; Colé, Oberling y Miller, 1999; Matzel, Brown y Miller, 1987;Miller, Barnet y Grahame, 1992). De igual forma afirma que las diferenciasen la RC se manifestarán como diferencias en la ejecución. En este sentido,explica efectos como el bloqueo como un fallo en la ejecución y no en el

aprendizaje, como haría el modelo RescorlaWagner (Blaisdell y cois., 1999).

2.3.4. Modelos atencionales

TEORÍA DE MACKINTOSH

Efectos como el del bloqueo son, como hemos visto, explicados por elmodelo RescorlaWagner desde el punto de la falta de sorpresividad del EI.

14 0




Sin embargo, investigaciones posteriores han dado lugar a explicacionesdiferentes de este y otros fenómenos y a teorías completas del condiciona-miento, basadas no en la ausencia de sorpresividad sino en el papel de laatención en el aprendizaje.

Mackintosh y Turne r (1971), llevaron a cabo un experimento de bloqueocuyas conclusiones aportaban explicaciones alternativas a las dadas por elmodelo RescorlaWagner a dicho fenómeno.

Estos autores presentaron a dos grupos, experimental y control (véaseTabla 3.9), un sonido seguido de una descarga eléctrica en una prim era fasede condicionamiento. Durante la fase 2, se llevó a cabo el bloqueo, presen-tando en el grupo experimental un compuesto de dicho sonido con un estí-mulo luminoso que no había sido presentado con anterioridad, seguido el

compuesto de una descarga. A diferencia de en el diseño básico de Kamin,Mackintosh y Turner (1971) expusieron a los sujetos de ambos grupos auna tercera fase con presentaciones del compuesto sonidoluz seguidos deuna descarga de mayor duración que en las fases anteriores.

Tabla 3.9. Diseño experimental de Mackintosh y Turner (1971)

Fase 1 Fase 2 Fase 3 Prueba

Gr.Experimental

Sonido Descarga

Sonido + Luz Descarga

Sonido + Luz Descarga Larga

¿Luz?

Gr. ControlSonido Descarga

Sonido + Luz Descarga Larga

¿Luz?

Mientras que desde la teoría de RescorlaWagner las predicciones de estediseño experimental hubiesen predicho ausencia de diferencias de aprendi-zaje entre los dos grupos durante la segunda fase, los resultados del experi-mento mostraron otra realidad. El grupo control aprende durante la fase 3que la intensidad de la descarga aumenta cuando la luz está presente. Encambio, los animales del grupo experimental aprenden durante la fase 2 quela luz es redundante, que no es necesaria para predecir la posterio r apariciónde la descarga, y, por lo tanto , dejan de prestarle atención , lo que hace queno aprendan nada sobre dicho EC durante la fase 3 del experimento.

Esto es, mientras que el modelo RescorlaWagner explica el efecto de bloqueo como una consecuencia de la falta de so rpresiv idad del El, la teoríade Mackintosh m ues tra que dicho efecto se debe al hecho de que los an im a-

141




les ignoran los estímulos predictores redundantes. Es decir, efectos como el bloqueo se deben a la falta de atención a ciertos es tímulos .

La teoría de Mackintosh (Mackintosh, 1975) tiene como base la idea de

que la atención que se presta a un EC depende de lo efectivo que sea dichoEC prediciendo la aparición del EI. Cuanto mejor predictor sea el EC delEl, mayor atención le prestaremos. La atención prestada a dicho EC tam-

bién depende, como hemos visto en el caso del bloqueo, del resto de los ECs presentes: si nuestro EC no es mejor predictor del El que los demás ECs presentes, le presta remos menos o ninguna atención.

De forma similar a la fórmula utilizada para el cálculo de la fuerzaasociativa por RescorlaWagner, Mackintosh (1975) afirma que la atenciónaumenta en los ensayos en los que el EC es un buen predictor del El y dis-

minuye en aquellos que no lo es tanto.Esta teoría atencional puede dar explicación a algunos efectos para

los que el modelo de RescorlaWagner no es capaz ajustarse al comporta-miento real mostrado por los sujetos experimentales, como es el caso de lainhib ición latente. Mackintosh explica este efecto basándose en la falta deatención al EC irrelevante durante la fase de preexposición: si el EC no pre-dice la aparición del El dejamos de prestarle atención, po r lo que cuando sílo haga, nuestro aprendizaje de la asociación ECEI será más lento que sino hubiésemos sido preexpuestos a dicho estímulo.

TEORÍA DE PEARCE Y HALL

Mientras que Mackintosh (1975) afirma que es la falta de atención a losestímulos irrelevantes lo que condiciona el aprendizaje, otras teorías atencionales, como la de Pearce y Hall (1980) afirman prácticam ente lo con tra-rio. Estos autores sugieren que en un contexto de aprendizaje no debemosmalgastar recursos prestando atención a estímulos que conocemos bien

pero, sin embargo, sí debemos prestar atención a aquellos que todavía no

controlamos con seguridad.

Según esta teoría, prestaremos cada vez menos atención a un EC en lamedida en que con cada ensayo de condicionamiento se convierta en mejor

predictor del EI. Si el El tras el EC no resulta sorp rendente, presta re mosmenos atención a dicho EC en el siguiente ensayo. Por el contrario, si dichoEl resulta sorprendente, nuestra atención aumentará.

142




Al igual que Mackintosh, Pearce Hall aportaron datos empíricos queapoyaron su teoría (Kaye y Pearce, 1984; Wilson, Boumphrey y Pearce, 1992).

2.3.5. Otras teorías

Numero sas son las teorías que tratan de explicar el condic io namiento pavloviano desde dis tintos puntos de vista, además de las comentadas hastaahora.

Una de las más completas debido a su perspectiva integradora y su ex- plicación de diversos efectos del aprendizaje es el modelo SOP (standardoperating procedures; Wagner, 1981) y sus versiones posteriores (Wagner,

2003; Wagner y Brandon, 1989; 2001).El modelo SOP extiende la teoría RescorlaWagner teniendo en cuenta

marcos de referencia como la relación entre la mem oria a corto y largo pla-zo y el aprendizaje. Wagner (1981) sugiere que un estímulo sorprendentetiene un mejor procesamiento en nuestra memoria a corto plazo y por lotanto m ayor probabilidad de m antenerse en nuestra m emoria a largo plazo.Dentro de nuestro sistema de procesamiento de la información un estímuloresulta sorprendente si no está presente en nuestra memoria a corto plazo.

Según esta teoría, al igual que para el modelo de RescorlaWagner, elaprendizaje depende de que el El sea sorprendente, pero, en este caso, lasorpresa se ve reducida si el estímulo ya está activado en nuestra memoriaa corto plazo cuando se presenta físicamente.

El modelo SOP represe nta el cond icionam iento utilizando nodos y redesneuronales, herramientas propias del conexionismo (McClelland y Rumelhart, 1985). Wagner (1981) asum e que el condicionamien to da luga r a unaasociación entre la representación del EC y la del El (ver Figura 3.11).

La representación de dichos estímulos se denomina nodo. Las asocia-ciones entre nodos se conocen como conexiones. Según este modelo, losnodos que representan el EC y el El se activan cuando los estímulos realeslo hacen. Esta activación ocurre a dos niveles distintos de intensidad. Cuan-do el EC o el El están presentes físicamente, sus nodos pasan inicialmentea un estado llamado Al. Al se define como un estado en el que el nivel deactivación es alto y la atención que se está prestando al estímulo también

143




Figura 3.11. Representación de los nodos de memoria de posibles ECs (luz, tono, ruido,contexto) y sus conexiones con el EL

lo es. Un nodo sólo puede mantenerse en el estado Al durante un breveintervalo de tiempo. Pronto decae al segundo estado existente, A2, en elque hay un menor nivel de activación, relacionado con una atención más

periférica y m enos focalizada . El nodo puede permanecer en este estado unlargo periodo de tiempo h asta volver a un estado de inactivación.

Una vez explicado el funcionamiento de la activación de las represen-taciones o nodos del EC y el El, este modelo describe la asociación que seforma entre ellos durante el aprendizaje. La asociación entre dos nodos, loscorrespondientes al EC y El, sólo tendrá lugar si ambos están activados, esdecir, en el estado Al, ya que ambos deben coincidir en la mem oria a corto

plazo.

La coincidencia de ambos nodos en el estado Al ensayo tras ensayohace que la asociación entre ambos sea cada vez más fuerte. Una vez queambos nodos están asociados, la activación del nodo que representa al EC

tendrá como consecuencia la activación del nodo del El, pero no en sumáximo nivel, sino en el estado A2 (el nodo del El se activaría en Al sólocon la presencia real de dicho El).

14 4




R e s u m e n

Las variables que influyen en el condicionamiento pavloviano son diversase importantes. Quizá la más importante de todas sea las características de los

estímulos involucrados en dicho condicionamiento. Como hemos visto, la in-tensidad, especia lmente de los EIs, favorece el aprendizaje, al igual que lo hacela novedad o la saliencia de los mismos.

Las características de los estímulos no sólo son relevantes para el condi-cionamiento en general sino que condicionan la aparición de ciertos efectos ofenómenos ampliamente estudiados desde la Psicología del Aprendizaje, comola inhibición latente, el precondicionamiento sensorial y algunos otros.

Los datos aportados sobre la influencia de las variables en el aprendizaje

durante estos últimos años de investigación permiten facilitar el fin último detoda área de conocimiento: la búsqueda de una teoría general que expliquecómo aprendemos. Aunque, a día de hoy no podemos hablar de una teoríageneral del aprendizaje, en este capítulo hemos resumido algunas de las másrelevantes. El estudio de las mismas aporta una visión integradora de cómo losanimales y los hum anos aprendem os en situaciones específicas.

145




T é r m i n o s d e s t a c a d o s

Bloqueo: Efecto de interferencia que se produce sobre el aprendizaje de unaasociación ECEI debido a un aprendizaje previo.

Condicionamiento de orden superior: Tipo de procedimiento en el que seutiliza un estímulo previamente condicionado para condicionar un nuevoestímulo.

Contingencia: Relación probabilística entre el EC y el El

Contracondicionamiento: Tipo de procedimiento que se utiliza para variaro invertir la respuesta condicionada anterior utilizando un El distinto alutilizado previamente

Ensombrecimiento: Efecto de interferencia que se produce sobre el apren-dizaje de la relación entre un EC y un El debido a la saliencia de otro EC presen te en el condic ionamiento.

Precondicionamiento sensorial: Procedimiento que se utiliza para asociardos estímulos biológicamente débiles.

Preexposición al EC o inhibición latente: Interferencia sobre el aprendizajede una asociación debida a la preexposición del EC implicado en la misma

Saliencia: Perceptibilidad de un estímulo para un animal o especie concretos.

146



T e m a 4

PRINCIPIOS BÁSICOSDEL CONDICIONAMIENTO OPERANTE


1. Antecedentes históricos ...................................................................... 159

1.1. Thorndike y la Ley del Efecto ....................................................... 1601.2. El análisis experimental del com por tamiento de Skinner ...... 163

2. Definición de cond icionamiento operante .................................... 165

2.1. La contingencia de tres términos ................................................. 166

2.1.1. El estímulo discriminativo .................................................. 167

2.1.2. La respuesta ........................................................................... 168

2.1.3. El reforzador .......................................................................... 169

2.1.3.1. Reforzamiento condicionado ............................... 169

2.2. Aclaraciones ...................................................................................... 171

2.2.1. Reforzador-reforzamiento .................................................... 171

2.2.2. Respuesta discreta-operante libre ....................................... 171

2.2.3. Topografía-función ............................................................... 172

2.2.4. Instancia de respuesta y clase de respuesta

(unidad conductual) ............................................................. 174

2.2.5. Interacciones clásicas y operantes en el control de

la conducta ............................................................................ 174

3. Procedimientos básicos del condicionamiento operante ........ 177

3.1. Procedimientos destinados a aumentar conductas:Reforzamiento positivo, escape y evitación .............................. 179

3.2. Procedimientos destinados a disminuir conductas:castigo y entrenamiento de omisión ........................................... 181

3.3. La extinción en el reforzamiento positivo .................................. 183

155



4. Fenómenos del condicionamiento operante ................................ 189

4.1. La conducta supersticiosa .............................................................. 189

4.2. La deriva instintiva y el concepto de relevancia o pertinencia

en el condicionamiento instrumental .......................................... 1924.3. Los cambios en la cantidad y la calidad de la recompensa:

el fenómeno de contraste conductual .......................................... 193

4.4. La controlabil idad de las consecuencias aversivas y

el efecto de indefensión aprendida .............................................. 195

4.5. Los efectos de la demora del reforzador en el condicionamiento

instrumental: el procedimiento de marcado ............................... 1974.6. Devaluación del re forzador ............................................................ 200

Referen cias .................................................................................................... 206


156



P r i n c i p io s b á s i c o s d e l c o n d i c i o n a m i e n t o o p e r a n t e


Condicionamiento clásico o pavloviano: Tipo de aprendizaje mediante elcual se establecen en los organismos asociaciones entre estímulos condi-cionados (ECs) y estímulos incondicionados (EIs). El condicionamientoclásico ocurre cuando un estímulo neutro (EC) adquiere la capacidad de

provocar una respuesta debido al empare jamiento repetido con otro estí-mulo que la producía (El).

Conducta elicitada: Conducta que es provocada por estímulos específicos delentorno. Este tipo de conductas pueden ser innatas o aprendidas comosucede en el condicionamiento clásico.

Contigüidad: Proximidad en la ocurrencia espaciotemporal de dos eventos.

Los eventos son contiguos si ocurren de forma cercana en el tiempo y enel espacio.

Contingencia: Probabilidad de ocurrencia de un suceso en función de la apa-rición de otro.

Estímulo condicionado: Es un estímulo inicialmente neutro que adquierela capacidad de provocar una respuesta condicionada como resultado deldesarrollo de una asociación con otro estímulo.

Estímulo neutro: Estímulo que no provoca respuestas incondicionadas o con-dicionadas específicas. En determinados casos puede producir respuestasno específicas, como una respuesta de orientación.

15 7




O b j e t i v o s

• Conocer los estudios que sirvieron de punto de par tida pa ra la formulacióndel condicionamiento operante y su consideración actual.

• Aprender a distinguir entre procedimientos de ensayo discreto y de operantelibre.

• Comprender los principios del condicionamiento operante así como sus prin-cipales procedimientos.

• Conocer las distintas variables que afectan a este tipo de aprendizaje.

• Explicar y compren der algunos de los fenómenos de condic ionamiento ope-rante más distintivos.

158



En los capítulos anteriores hemos aprendido cómo distintos estímulos provocan dete rm inadas respuestas de form a refleja y cómo, mediante elcondicionamiento clásico, ciertos estímulos que en principio no ejercíanningún efecto sobre la conducta (ECs), mediante su emparejamiento conestímulos incondicionados (EIs) que producen respuestas incondicionadas(RIs) term inaban evocando una respuesta muy parecida (RC). En estos casos

estábamos hablando de respuestas que son elicitadas, es decir, evocadas porestos estímulos. Sin embargo, m uchas de las conductas que observamos dia-riamente como hablar, conduc ir o trabaja r no ocurren de forma automáticaante la presentación de un estímulo. Este tipo de conductas, más que evo-cadas son emitidas, es decir, en estos casos, la persona o el animal presentauna respuesta que en el pasado estuvo relacionada con un acontecimientoambiental y, de esta forma, consigue o evita que un evento ocurra. Cuandouna rata recibe una bolita de comida al presionar una palanca, cuando anuestro perro le hacemos una caricia o le damos un pedacito de pienso des-

pués de traernos una pelota, o cuando hacemos un trabajo y nos pagan porello, es más probable que esas conductas se vuelvan a repetir. Sin embargo,si una rata recibe una descarga al presionar la palanca es probable que novuelva a hacerlo. Del mismo modo, si a final de mes no recibimos el salario por nuestro trabajo es probable que acabemos abandonando ese trabajo. Lainvestigación en condicionamiento operante se ha encargado de estudiar los principios que pueden predecir cómo se p roducen este tipo de respues tas queno son evocadas por estímulos. Por tanto, en el presente capítulo se trataráde explicar en qué consiste el condicionam iento instrumental u operante, las

variables que intervienen en su desarrollo, así como las relaciones entre ellas.

1. ANTECEDENTES HISTÓRICOS

Para comprender los orígenes de la psicología del aprendizaje en gene-ral, y del condicionamiento operan te en particular, es preciso tene r presen -

15 9



tes las condiciones h istóricas que lo hicieron posible. Como ya planteamosen el primer capítulo (Introducción), una de las principales influencias para el análisis experimenta l de la conducta desde el punto de vista delcondicionamiento operante es la teoría de la evolución de Darwin. Desdeeste punto de vista, los dos postulados principales de su teoría (variacióny selección), en cuanto a la manifestación de las características heredadasen los organismos, podrían aplicarse también al comportamiento, ya quedel mismo modo éste es variable. En su obra The Behavior of Organisms (Skinner, 1938) es donde plantea Skinner este tipo de mecanismo seleccionador en relación con la conducta. Los acontecimientos ambientalesfuncionarían en este caso como elementos seleccionadores equivalentes alos propuestos por Darwin, es decir, entre la variabilidad de las conductasexisten respuestas que predom inan en determ inadas situaciones y m om en-

tos concretos. En el caso del condicionamiento operante, el reforzadoractuaría como elemento seleccionador de las respuestas más apropiadas enuna determinada situación. Así, los procesos de reforzamiento hacen más probable la aparición de una conducta en un tipo particular de circuns-tancias a la vez que hacen menos probable su aparición en otro tipo decircunstancias.

1.1. Thorndike y la Ley del Efecto

El abordaje científico del condicionamiento instrumental comienzacon los trabajos de Thorndike. Las aportaciones de Edward Lee Thorndike(18741949) a la psicología del aprendiza je tienen que ver tanto con su acer-camiento teórico como metodológico al estudio de la investigación animal.Es considerado como el primer científico que estudió la conducta operante,aunque él lo llamó aprendizaje por ensayo y error (Thorndike, 1898). El conductismo de Watson centró su atención en los reflejos condicionados foca-lizando el análisis en los eventos que preceden a la respuesta, aproxima-

ción conocida como paradigma ER. Sin embargo, el interés de Thorndikese centró en cómo los aciertos y fracasos afectaban a la conducta de losorganismos. Para este autor, el aprendizaje ocurre porque se fortalecen lasconexiones que se forman entre los estímulos y las respuestas cuando danlugar a un estado de satisfacción para el animal. Esta aproximación fuedenom inada por él mismo como conexionismo y estaría también e ncua dra-da dentro de lo que se conoce como paradigma ER.


16 0




En sus experimentos más conocidos, Thorndike utilizó gatos comosujetos. Colocaba los animales en diferentes «cajas problema», artilugiosque consistían en una especie de jaula de la que los animales podían saliractivando algún tipo de resorte desde su interior (Figura 4.1). Cuando elgato accionaba dicho mecanismo la puerta de la caja se abría y, al salir, elinvestigador le entregaba cierta cantidad de comida.

Figura 4.1. Caja Problema utilizada po r Thorndike en sus experimentos.

La primera vez que los animales eran introducidos en la caja problematardaba n un tiempo considerable en d escubrir y poner en m archa el meca-nismo que abría la puerta y salir de la caja. En esos primeros intentos, elsujeto se movía por la caja de forma ap arentemente azarosa e iba exploran-do distintos puntos, hasta que en un determinado momento por casualidadactivaba el mecanismo de apertura. Según transcurrían los ensayos en losque el sujeto repetía la tarea, el tiempo que empleaba en accionar el meca-

nismo y, por tanto, el tiempo que tardaba en salir de la caja era muchomenor. Como vemos, la medida que Thorndike utilizó para la evaluaciónde la ejecución del aprendizaje era la latencia de escape, definida como eltiempo que pasa desde que comienza el ensayo hasta que el sujeto consiguesalir de la caja y recibir el reforzador programado. Según sus observacio-nes, la latencia de escape disminuía de forma muy notable a lo largo delos ensayos. La figura 4.2 muestra los resultados de un experimento típico:

161



como se puede observar en la figura, a lo largo de los ensayos el animal t ar -daba menos tiempo en accionar el mecanismo y salir de la caja problema.

Figura 4.2. En la figura semuestran los resultadosobtenidos en un animal tipoutilizado por Thorndikeen sus experimentos. Eleje de abscisas representael número de ensayos y eleje de ordenadas el tiempoque tardaban (latencia) losanimales en descubrir elmecanismo que abría la caja

problema. Se puede ver con

claridad cómo el animal enlos primeros ensayos empleamás tiempo que en losensayos sucesivos. (Adaptadode Thorndike, 1898).

A partir de los resultados obtenidos mediante este procedimiento,Thorndike estableció que la entrega de comida fortalecía la conexión entrela situación (en este caso los estímulos situados en el entorno de la caja) yla respuesta del animal, lo denominó Ley del Efecto:

«De las muchas respuestas dadas en la misma situación, las que vayanacompañadas o inmediatamente seguidas de satisfacción para el animal, enigualdad de condiciones, se conectarán más firmemente con la situación; demanera que cuando ésta vuelva a presentarse, volverán a presentarse congran probabilidad»

E d w a r d L. T h o r n d i k e , 1911 (pág. 244)

De este modo, Thorndike da una explicación sencilla a este tipo deaprendizajes. Cuando en una determinada situación una conducta vaseguida de algo agradable para el animal, al volver de nuevo a esa mismasituación será más probable que la conducta se vuelva a repetir. Así, desa-rrolló un sistema de aprendizaje basado en una concepción hedonista: lasconductas cuyo resultado fuese algo placentero serían fortalecidas y lasconductas cuyo resultado fuese algo desagradable serían eliminadas.


162

<u03oG<L>■M03Hl

150C / 5OT33W)<L>V)& 100cSoC / 5O)

50

01 10

Ensayos20



1.2. El análisis experim ental del comportam iento de Skinner

Burrhus Frederic Skinner (19041990) ha sido, si no el investigador másimportante, el principal responsable del aumento del interés en relación conla problemática del reforzamiento. Además de realizar una extensa investi-gación sobre los principales fundamentos del condicionamiento operante, sutrabajo académico dio lugar a la formación de un gran número de investiga-dores que siguieron desarrollando de forma muy intensa estos principios. EnThe Behavior o f Organisms (1938) desarrolla la idea de que los reflejos podríanser estudiados como conducta más que como un reflejo del sistema nervioso ode la mente: es aquí donde ya Skinner distingue entre el condicionamiento delos reflejos de Pavlov y el tipo de aprendizaje que había propuesto Thorndike,lo que le llevó a formular que la conducta se regula tanto por el condiciona-miento de los reflejos o condicionamiento respondiente como por el operante.A su vez, mientras Thorndike trataba de explicar su aprendizaje por ensayo yerror mediante asociaciones de «naturaleza interna», Skinner se centró en lasrelaciones funcionales entre la conducta y sus consecuencias. Para él, tantoel condicionamiento operante como el respondiente debían sólo prestar a ten-ción al estudio de las relaciones entre los eventos observables y la conducta.

Para describir los procedimientos que dan lugar al reforzamiento deconductas utilizó los términos condicionamiento operante y condiciona

miento instrumental. El término operante refleja la capacidad que tiene elindividuo para operar sobre su ambiente, mientras que el término instru-mental tiene en cuenta el hecho de que la conducta del sujeto es el instru-mento para obtener el reforzador. La innovación técnica más importanteque introdujo Skinner con respecto a Thorndike fue utilizar en sus experi-mentos una respuesta que el sujeto podía ejecutar repetidamente sin inter-vención del experimentador. En el caso de los experimentos con ratas estarespuesta fue la presión de palanca (Figura 4.3), mientras que en los experi-mentos con palomas utilizó el picoteo del animal sobre una tecla. Este tipo

de procedimientos experimentales son conocidos como de operante libre para distinguirlos de los de ensayo discreto que uti lizaba Thorndike en sustrabajos. En ellos, la respuesta puede ocurrir en cualquier momento y deforma repetida mientas el sujeto permanezca en la caja de condicionamien-to. La variable dependiente medida y analizada en este modelo es la tasa derespuesta o número de respuestas emitidas por unidad de tiempo, en lugarde la latencia, u tilizada por Thorndike como m edida del aprendizaje.


163




Rejilla Bolita de comida o "pellet"

Figura 4.3. Caja de Skinner.

Dispensador de comida

Caja de SkinnerEstímulos luminosos

Antecedentes históricos (Resumen)

Para entender las leyes y procedimientos del condicionamiento operante hayque tener en cuenta la influencia de autores como Thorndike, así como de lateoría de la evolución de Darwin en la obra de Skinner. Mediante sus experi-mentos Thorndike enunció su conocida Ley del efecto que señala que cuandoen una de terminada situación una conducta va seguida de algo agradable parael animal, al volver de nuevo a esa misma situación será más probable que laconduc ta se vuelva a repetir. Skinner, es considerado por muchos como el auto rmás relevante en el estudio del condicionamiento operante. Para Skinner, eltérmino operante refleja la capacidad que tiene el individuo para operar sobresu ambiente, mientras que el término instrumental tiene en cuenta el hecho de

que la conducta del sujeto es el instrumento para obtener el reforzador. Ademásde sus teorías, este autor desarrolló la caja de Skinner que posibilita el registrode forma continua del comportamiento del animal sin necesidad de interven-ción por parte del experimentador. La variable dependien te medida y analizadasiguiendo este modelo es la tasa de respuesta o número de respuestas emitidas

por un idad de tiempo, en lugar de la latencia, ut ilizada por Thorndike comomedida del aprendizaje.

164



2. DEFINICIÓN DE CONDICIONAMIENTO OPERANTE

Las leyes del condicionamiento clásico establecidas por Pavlov utilizaban como base los reflejos. Sin embargo, para muchas de las conductasque realizan los organismos complejos no es posible identificar un estím u-lo evocador. Es muy fácil especificar el estímulo que produce la salivaciónen el perro, pero es mucho más difícil detallar cuál es el estímulo queinicia la conducta de tocar el piano o incluso el de otras conductas mássimples como que una rata presione una palanca para obtener comida.La conducta que ocurrirá en el futuro está determinada principalmente por las consecuencias de la conducta pasada y las conductas operantesestán más relacionadas con lo que sucede después de que ocurran que conestímulos que las provoquen, es decir, son más bien el resultado de las

consecuencias que han tenido en el pasado. Por tanto, estas conductas noson elicitadas sino que son emitidas. Por todo esto, fueron necesarios otrotipo de principios pa ra explicar el desarrollo y ma nten imiento de este tipode comportamientos.

Por condicionamiento operante entendemos el proceso que da lugara que la probabilidad de una respuesta se vea modificada por sus conse-cuencias, es decir, por los efectos que tiene el ambiente sobre ella. Veamosesto con el ejemplo más común: un investigador coloca una rata en unacaja de Skinner en la que dispone de una palanca que está conectada a undispensador de comida. Para este animal el entorno de la caja de Skinnercon sus dispositivos será las circunstancias o el ambiente . Si la rata, cuandoestá explorando la caja por casualidad presiona la palanca, ésta activaráel comedero y se liberará una bolita de comida. La liberación de la bolitade comida aumenta la probabilidad de que el animal accione de nuevo la palanca para conseguir una nueva boli ta de comida. Como vemos, el con-dicionamiento operante dispone al sujeto en unas circunstancias en lasque alguna de sus conductas da lugar a la aparición de un evento; comoconsecuencia de la manifestación de este evento, se produce en el sujeto, ennuestro caso la rata, un cambio en la probabilidad de la emisión de dicharespuesta. El término «operante» se utiliza para caracterizar este tipo decondicionamiento porque, y a diferencia del «condicionamiento clásico», elsujeto interviene u «opera» en el medio, lo modifica a la vez que este modifi-ca el organismo. En estos casos si el resultado de dicho comportamiento es beneficioso para el anim al la conducta se fortalecerá, siendo más probable


165



que se emita de nuevo en circunstancias parecidas, sin embargo, si el resul-tado de la conducta es perjudicial, dicha conducta tenderá a desaparecerdel repertorio de conductas del sujeto. Así, podemos decir de forma generalque con el condicionamiento operante, los organismos aprenden a obtenerconsecuencias favorables y a eliminar consecuencias desfavorables delambiente. Este tipo de condicionamiento es tan poderoso que los sujetos nosólo aprenden a responder ante una nueva circunstancia con una respuestaque formaba parte de su repertorio anterior, sino que además puede darlugar a la aparición de respuestas nuevas.

2.1. La contingencia de tres términos

Para ad entrarnos en el estudio del condicio-namiento operante es necesario conocer unaserie de conceptos y términos que nos permi-tan establecer los procedimientos utilizados enestos estudios, así como poder asimilar poste-riormente las teorías surgidas a partir de estasinvestigaciones.

En el condicionamiento operante se suele

mantener que existe una contingencia entre larespuesta y el reforzador, es decir, la consecuen-cia está relacionada con la presentación de larespuesta. Sin embargo, la conducta operante puede ponerse bajo el control de los es tímulosantecedentes y, la descripción de la conductaoperante requiere habitualmente de tres térmi-nos elementales y sus interrelaciones funciona-les. Estos tres términos fundamentales son el

estímulo discriminativo, la respuesta y la consecuencia. De este modo la contingencia se redefine como: en presencia de un estímulo espe-cífico, el reforzador se presentará si y solo si larespuesta operante sucede. La contingencia detres términos constituye la unidad fundamentalde análisis en el estudio de la conducta operante.


Ejemplo

Estamos situados delan-te de una máquinaexpendedora de bebidas.Una luz encendida allado del botón que accio-na la entrega de la bebi-da señala que la bebidaestá disponible. Cuandola luz está encendida, siintroducimos la moneda

y apretamos el botón lamáquina nos entregarála bebida seleccionada.Sin embargo, si intro-ducimos la moneda y

pulsamos el bo tón conla luz apagada no podre-mos obtener la bebida.Bajo estas condicionesaprendemos que sólo

podremos obtener la

bebida deseada despuésde introducir la moneda pulsando el bo tón si laluz está encendida. Eneste caso decimos que laluz actúa como estímulodiscriminativo.

166



2.1.1. El estímulo discriminativo

La conducta no se compone siempre de

respuestas discretas sino que, como señalamosal establecer la contingencia de tres términos,la deberíamos considerar como la ejecuciónque ocurre después de un estímulo que en unmomento determinado tiene como resultadouna consecuencia específica. Esto nos viene aseñalar que los estímulos antecedentes tam biéntienen una gran importancia en el condicio-namiento operante. Sin embargo, las clavescontextúales juegan un papel bastante diferenteque en el condicionamiento clásico. Estos estí-mulos, en el caso del condicionamiento ope ran-te, reciben el nombre de estímulos discriminativos (Eds). En el condicionamiento operanteestos eventos no provocan la aparición de larespuesta sino que señalan la ocasión para quesi la conducta se presenta sea seguida por unaconsecuencia, es decir, un estímulo, en prin-cipio neutro, puede indicar que una respuesta

puede llevar a la aparición de la consecuencia ,es decir, indica si el reforzador está disponibley, por tanto, informa al sujeto de cuándo ha deresponder. El reforzamiento diferencial implicareforzar una operante en una situación pero noen otra, pero aunque la probabilidad de emitiruna operante en presencia de un Ed puede sermuy alta, esto significa que ese estímulo ejerceun control sobre esa respuesta, pero no que el

Ed provoque la respuesta.

Las consecuencias de las respuestas ope-rantes establecen el control que ejercen losestímulos discriminativos. Cuando un Ed es seguido de una respuesta cuyaconsecuencia es apetitiva esa respuesta se ve reforzada y ello hace que la probabil idad de que la operante ocurra aumente si en una ocasión posterior


167

Ejemplo

Una respuesta puedeestar controlada por un

Ed y un EA. Pensemosen una máquina dispen-sadora de bebidas en laque introducimos unamoneda para comprarun refresco. Una luzverde nos indica que elrefresco que queremosseleccionar está dispo-nible y una luz roja nosindica que está agotado.La respuesta operanteen este caso es apretarel botón de selección dela bebida. Como es fácilimaginar, la probabili-dad de que pulsemos el

bo tón para ob tener la bebida con la luz verdeencendida será muchomás alta que la proba-

bilidad de que pulsemosese mismo botón si laluz roja está encendida.En este caso la luz verdeactúa como un Ed por-que señala la disponibi-lidad del reforzador enel caso de que se emitala respuesta operante yla luz roja como un EA

porque señala la ausen-

cia del reforzador en elcaso de que la operanteocurra.



dicho estímulo está presente. Cuando una operante no es seguida de unaconsecuencia reforzante, el estímulo que precede la respuesta se conocecomo estímulo delta (EA). En presencia de un EA la probabilidad de emi-tir la operante disminuye. El término control por el estímulo se refiere acómo los estímulos que preceden una conducta pueden controlar la ocu-rrencia de esa conducta.

2.1.2. La respuesta

En el caso del condicionamiento instrumental, la respuesta operantese define por los efectos que provoca en el ambiente. Cuando una respues-ta produce el mismo efecto que otra respuesta estaremos hablando de la

misma operante. La operante se define por su función y no por su forma otopografía, es decir, las respuestas que producen los mismos efectos sobreel ambiente son ejemplos de la misma operante. En el caso de la presiónde palanca que ejercen las ratas para conseguir comida en una caja deSkinner, los animales pueden presionar la palanca con el morro o con lacola, las dos respuestas producen los mismos efectos (que se libere una

bo li ta de comida) y, por ello, son ejemplos de una misma operante . Comoseñaló Skinner:

«El término enfatiza el hecho de que la conducta opera sobre el ambien-te para generar consecuencias. Las consecuencias definen las propiedadesen función de las cuales las respuestas se consideran similares. El términose usará como adjetivo (conducta operante) y como sustantivo que designala conducta definida por una consecuencia dada»

S k i n n e r , 1953 (p. 65)

Cuando hablamos de la conducta, ésta puede ser muy compleja y adop-

tar distintas formas (topografía) teniendo la misma función. Un ejemplo puede ser ponernos un gorro para no tener frío en la cabeza. El gorro noslo podemos poner con el brazo izquierdo o el brazo derecho, desde delantede la cabeza o desde atrás y todas estas conductas formarían parte de lamisma clase de respuesta. Cuando hablamos de clase de respuesta nosestamos refiriendo a cualquier forma de ejecutar una conducta con unafunción similar, en nuestro ejemplo evitar tener frío en la cabeza. Estas


168



respuestas pueden ser físicamente parecidas pero no siempre tiene que serasí. Un ejemplo de ello es cuando pedimos verbalmente que alguien hagaalgo o cuando lo hacemos nosotros. Ambas conductas fo rmarían parte de lamisma clase de respuesta aunque la forma o topografía de estas respuestases muy diferente.

2.1.3. El reforzador

Para el condicionamiento instrumental, el término reforzador debe darcabida a la gran variedad de estímulos y eventos que poseen la capacidadde reforzamiento de una conducta. De este modo el reforzador no puededefinirse simplemente según sus características físicas sino más bien en

función de los efectos que éste tiene sobre la conducta. Según esta defini-ción funcional, un reforzador es cualquier suceso o evento que al hacersecontingente con una respuesta cambia la probabilidad de aparición de esarespuesta en el futuro. Sobre esta cuestión veremos una discusión másespecífica en capítulos posteriores.

2.1.3.1. Reforzamiento condicionado

Es importante tener en cuenta en relación con el análisis de la conductahumana que muy frecuentemente no es controlada por reforzadores prima-rios como puede ser la comida, sino por eventos cuyos efectos dependen de lahistoria de reforzamiento. Los elogios o cumplidos que nos hacen, las críticaso juicios que hacen sobre nuestro comportamiento o, el dinero, son conse-cuencias que pueden fortalecer o debilitar la ocurrencia de una conducta.Este tipo de eventos adquieren los efectos que producen debido a las expe-riencias que la gente ha tenido con ellos a lo largo de sus vidas y ello hace quela misma consecuencia pueda tener efectos distintos dependiendo de la expe-

riencia personal del sujeto. Un ejemplo de ello son las recompensas moneta-rias, para unas personas el dinero puede ser muy importante pero para otraslo es menos, aunque en las sociedades occidentales sea bastante importante

para casi todos, ya que la comida y la comodidad en este caso dependen deél. Ello me hace recordar una película de Woody Alien en la que uno de los personajes le decía a otro «yo no canto por dinero, canto por placer» y el otro personaje al momento le con testaba «pero el dinero da mucho placer».


169



Como venimos señalando, un reforzador puede ser definido como unevento cuya entrega aumenta la frecuencia de una respuesta con la que escontingente. El componente crítico es la influencia en la tasa de respuesta,no lo que el estímulo o evento es en realidad. En el caso del condiciona-miento operante, de forma similar al condicionamiento clásico de segundoorden se puede producir el fenómeno del reforzamiento condicionado, también llamado reforzamiento secundario. En este caso, un estímulo oevento que originalmente no es reforzante, como puede ser una luz o unsonido, puede adquirir capacidad de reforzamiento mediante la asociaciónrepetida con otro que era previamente reforzante. Hablamos, entonces, dereforzamiento condicionado cuando una conducta se fortalece debido asucesos que tienen un efecto que depende de la historia de reforzamientode ese sujeto. El aspecto central aquí implica una correspondencia entre

un evento arbitrario y un reforzador que es efectivo en el momento actual.Cuando este evento arbitrario es capaz de aumentar la frecuencia o la tasade una respuesta, a este tipo de reforzamiento lo denominamos reforza-miento secundario o reforzamiento condicionado.

Cuando estos procedimientos para el estudio del reforzamiento condi-cionado se llevan a cabo en el laboratorio los resultados encontrados en losexperimentos son en muchos casos contradictorios. Uno de los problemasmás habituales es que cuando entran en juego los procesos de extinción, los

reforzadores condicionados pueden perder su efectividad en poco tiempo ymantener su capacidad reforzadora durante pocas respuestas (ver Kellehery Gollub, 1962; Myers, 1958). Sin embargo, otros investigadores han demos-trado que el reforzamiento condicionado que proporciona la luz situada

junto al comedero de la caja de Skinner es efectivo para mantener el picoteoincluso en situaciones experimentales en los que los animales tienen que

picotear una tecla hasta 300 veces para que la luz se encienda (Alferink,Crossman y Cheney, 1973). Aunque hasta el momento la investigación delaboratorio no ha arrojado resultados del todo concluyentes en cuanto a

la duración del reforzamiento condicionado, la experiencia con el refor-zamiento condicionado en la vida diaria sugiere que eventos de este tipo pueden re fo rzar gran cantidad de conductas sin extinguirse. La conductade los animales está con formada por secuencias de conducta complejas queson mantenidas en muchos casos por reforzamiento condicionado y, esto es bastante evidente en la especie humana, en la que mult itud de conductas seman tienen día a día como consecuencia del reforzamiento condicionado.


170



2.2. Aclaraciones

2.2.1. Reforzador-reforzamiento

En cuanto a la distinción entre reforzador y reforzamiento, debemostener clara la diferencia entre el evento (el reforzador) y el procedimientoo proceso (reforzamiento). Es importante aclarar que el reforzamiento

produce incre mentos en la conducta y los re fo rzadores son los eventosque hacen que el reforzamiento produzca esos efectos. Cuando el procedi-miento disminuye la conducta se denomina castigo y los eventos utilizadoscuando la conducta se presenta son de naturaleza aversiva. En la lenguainglesa existe el término punisher para referirse a estos eventos cuya tra-ducción al español sería «castigador», aunque este termino no se suele uti-

lizar en los manuales de Psicología del Aprendizaje editados en castellano.En el contexto del control aversivo, utilizar el término reforzador negativo puede ser confuso, si no incorrecto , para referi rse a eventos aversivos. Lautilización del término consecuencia es menos confusa, por lo que en estoscasos debería utilizarse el concepto consecuencia apetitiva (reforzador) yconsecuencia aversiva o punitiva (castigo).

2.2.2. Respuesta discreta-operante libre

Algunos de los procedimientos utilizados en los estudios sobre con-dicionamiento operante en la actualidad son similares a los empleados

por Thorndike en sus experimentos. En estos experimentos los ensayoscomienzan en el momento en el que el sujeto es dispuesto en el aparato yéste puede únicamen te emitir, y el investigador registrar, una respuesta encada ensayo. En estos procedimientos, denominados de ensayo discreto, lavariable dependiente suele ser la latencia de respuesta y el experimentadortiene que intervenir para ubicar al animal en el aparato al final y al comien-zo de cada ensayo. Por ejemplo, en un laberinto en T como el mostrado enla figura 4.4, el expe rime ntador coloca la rata en el brazo de salida y recogeal animal en el momento en que obtiene el reforzador en el brazo en el quehaya sido dispuesto.

Los procedimientos de ensayo discreto requieren mucho trabajo por parte del experim entador y consumen gran cantidad de tiempo, además, enun día solo se pueden llevar a cabo un pequeño número de ensayos. Como


171




Figura 4.4. Laberinto en T.

ya señalamos anteriormente, una de las principales innovaciones introdu-

cidas por Skinner en la investigación del aprendizaje fue implementar la posibil idad de que el sujeto pueda emiti r la respuesta de fo rm a repetida sinla intervención del investigador utilizando una caja de Skinner típica. Deforma tradicional en este tipo de investigación se utiliza la tasa de presiónde palanca o tasa de respuesta como variable dependiente para la medidadel aprendizaje. Estos procedimientos se conocen como procedimientos deoperante libre y, a diferencia de los de ensayo discreto anteriormente des-critos, los sujetos pueden emitir la respuesta de forma constante sin que elinvestigador tenga que manipular al sujeto entre ensayo y ensayo.

2.2.3. Topografía-función

La conducta se puede clasificar en términos estructurales o funcionales.Desde el punto de vista estructural, el análisis de la conducta pone el puntode mira en la topografía o forma de la respuesta y, así, cuando hablamosde la topografía nos estamos refiriendo a las propiedades o característicasfísicas de una respuesta, entendiendo ésta no como un movimiento discreto

de un músculo sino como una secuencia de movimientos que ocurren enel tiempo. Un ejemplo de ello serían los movimientos que realizamos conel brazo para empujar una puerta: podemos hacerlo con un movimientodel codo, lo podemos hacer con la mano o incluso darle una patada con la

pierna, además estos movimientos los podemos hacer más deprisa o másdespacio. En este caso, la respuesta «empujar la puerta» vemos que puedetener diferentes formas. Desde la óptica del condicionamiento operante la

172



topografía de respuesta está relacionada con las contingencias de reforza-miento, es decir, las consecuencias de una respuesta pueden modificar suforma. Por ejemplo, es menos probable que empujemos una puerta con la pie rna en una si tuación socialm ente comprometida y más probable que lohagamos con la mano, o que si tenemos prisa la empujemos más deprisaque si no la tenemos, o si queremos evitar hacer ruido. Por estos motivos,en términos generales, la topografía es una función de las contingencias dereforzamiento.

Sin embargo, cuando hablamos de la función nos referimos a las rela-ciones de la respue sta con los estímulos an tecedente s y las consecuenciasde la misma. Desde esta aproximación, la conduc ta es la ejecución de unarespuesta que sigue a un estímulo específico y que tiene como resultado

algún tipo de consecuencia. De esta forma, dos respuestas con la mismatopografía pueden tener una función diferente y dos respuestas con dis-tinta topografía pueden tener la misma función. Siguiendo el ejemploanterior, podemos empujar una puerta con la mano o la podemos empu-

jar con el codo y en ambos caso la función de la respuesta es «empuja rla puerta».

El control que ejerce un reforzador sobre una conducta operante puedeestar limitado por la topografía de la respuesta. Por ejemplo, la comidacomo reforzador ejerce poco control en la conducta de lavado de la cara,

rascado del cuerpo o el marcado de territorio en los hamsters, mientras quesobre cavar, escarbar y alzarse sobre las patas traseras ejerce un controlmuy preciso (Shettleworth, 1975). En otros casos, las relaciones funciona-les entre diferentes topografías de respuesta son similares entre ellas y seobservan diferencias cuantitativas más que cualitativas. En las palomas,a la hora de ingerir líquidos o sólidos, la topografía de los movimientosde la mandíbula es bastante característica y estereotipada: cuando beben,su topografía se caracteriza por tasas (de 4 a 7 aperturas por segundo)y ape rturas del pico con valores relativamente constantes (de 1 a 3 mm)

(Klein, LaMon y Zeigler, 1983). Sin embargo, cuando comen, los picoteosse producen, de forma general, sobre tres por segundo, y las aperturas son proporc ionales al tamaño del objeto ingerido (Bermejo, Alian, Houben,Deich y Zeigler, 1989). Estas cuestiones nos ponen también de relieve laslimitaciones que puede im poner la biología al condicionam iento de algunasrespuestas, cuestión que veremos en mayor profundidad en los siguientesapartados.


173



2.2.4. Instancia de respuesta y clase de respuesta (unidad conductual)

Ya Skinner (1935) describió las relaciones conductuales como la corre-lación entre una clase de estímulo y una clase de respuesta . Desde esta pers - pectiva estamos entendiendo la conducta desde un punto de vista molar. Laconducta operante se define por las relaciones funcionales entre clases derespuestas y las consecuencias ambientales. Una clase de respuesta se refie-re a todas las formas en las que la ejecución de la respuesta puede llevar auna función similar. Sin embargo, una definición completa de la conductaoperante necesita diferenciar entre lo que es una clase de respuestas y loque son respuestas particulares o instancias de respuesta (punto de vistamolecular). Una instancia de respuesta es la unidad mínima de conductay se refiere a la ocurrencia particular y específica de una respuesta teniendo

en cuenta además su topografía. Así, podemos especificar «la rata presionóla palanca de la caja de condicionamiento con la pata delantera derechaa las 10:50 p.m.» señalando una instancia de respuesta o utilizar la clase«presionar la palanca» independiente del mom ento concreto en el que ocu-rrió la instancia y sin tener en cuenta la topografía.

2.2.5. Interacciones clásicas y operantes en el control de la conducta

Cuando se pone en marcha un procedimiento de condicionamientoclásico sólo se necesita identificar un estímulo (El) que provoque una res-

puesta, por lo general común a la especie a la que per tenece , y pre sentaral sujeto dicho estímulo emparejado con otro (EC), en principio neutro,que no provoque esa misma respuesta. Es decir, estaríamos ante un casode aprendizaje relativamente «pasivo», ya que el sujeto sólo necesita serexpuesto a los estímulos para que el aprendizaje ocurra. Sin embargo, parallevar a cabo un procedimiento de condicionam iento operante, es necesarioque el sujeto sea «activo», es decir, que emita algún tipo de respuesta. Para

poder re fo rzar o cast igar una conducta es necesario que la conducta ocurra,que se presente con un a cierta probabilidad , ya que en ausencia de ella no se podrá instaurar una contingencia sobre esa respuesta, es decir, no se podráestablecer una relación entre esa conducta y otro acontecimiento ambiental.Cuando la probabilidad de ocurrencia de una respuesta es baja, como porejemplo que una paloma picotee una tecla en una caja de Skinner si no lo hahecho previamente, podem os espe rar a que ocurra la respuesta po r casuali


174



dad para poder reforzarla, pero esto nos puedellevar mucho tiempo. Una de las solucionesexistentes para hacer au menta r la frecuencia deuna respuesta de baja ocurrencia y poder apli-car una contingencia instrumental sobre ella esmediante el automoldeamiento, un procedi-miento ya descrito en el Capítulo 2 en relacióncon el condicionamiento clásico. Esta técnicaconsiste en implem entar en un prime r mom entoun procedimiento de condicionamiento clásicoexcitatorio apetitivo emparejando un estímuloinicialmente neutro, como puede ser la ilumina-ción de una tecla, con la presentación de comi-

da. La comida en este caso actúa como un Elque provoca respuestas con diferente topografía en función de la especie, porejemplo en los roedores promueve la manipu lación de la comida con las patasdelanteras y en las palomas el picoteo. La presentación de la comida en elmomento en el que la tecla está iluminada le confiere a esta última pro-

piedades de EC y, por tanto, la capacidad de elicitar por sí misma una re s- puesta similar a la provocada por la comida. Una vez que la luz provoca esarespuesta podemos someterla a control operante haciendo que la comidasólo se presente si la paloma picotea la tecla. De esta forma la luz, que en

un principio funcionaba como un EC, se convierte en un estímulo discrimi-nativo (Ed) que correlaciona con la presentación del reforzador (comida)cuando el animal presiona la palanca (respuesta operante). Distinguir la RCde la respuesta operante no es tarea fácil, sin embargo, una vez finalizado el

procedimiento podríamos decir que empezó siendo una re spuesta condic io-nada clásicamente y terminó siendo una operante, aunque topográficamen-te las respuestas sean indiferenciables. Por estas razones, la iluminaciónde la tecla tiene una doble función: es un Ed en el sentido de que señalala ocasión para que la respuesta operante sea reforzada, y actúa como un

EC porque elicita una conducta condicionada clásicamente. Este ejemploilustra cómo ciertas respuestas inicialmente condicionadas clásicamente pueden poste riorm ente caer bajo control operante y, por tanto , dependerdel efecto que producen y del estado de privación del sujeto.

Una de las razones por las que se dan relaciones de interacción entreel condicionamiento clásico y el operante es porque los acontecimientos


175

Ejemplo

Si vamos caminando p orla calle antes de la hora

de comer y pasamos pordelante de una hamburguesería, el olor que saledel local podría actuarcomo un EC que pro-voque el que aumentenuiestra salivación, peroa la vez podría actuarcomo un Ed que señalala ocasión para entrar y

pedi r una hamburguesa .



LIOTECA

ambientales actúan sobre los sistemas neurofisiológicos de los organismosde forma global y no sobre un sistema concreto. Aunque analicemos deforma separada las respuestas condicionadas clásicamente de las respues-tas operantes, la influencia de estas contingencias tiene lugar sobre todoel organismo. Cuando la tasa de una respuesta aumenta por un procesode reforzamiento, el reforzador presentado es contiguo con cualquier otraactividad del individuo. Del mismo modo, cuando se presenta un estímulocondicionado o un estímulo incondicionado también puede estar ocurrien-do algún otro tipo de actividad distinta de la RC en ese momento y que

pueda ser re forzada. Podríamos argumentar que diferenciar entre el condi-cionamiento clásico y el operante es en parte artificial ya que ambos tiposde procesos estarían ocurriendo simultáneamente y que la interacción delorganismo con el ambiente es más complicada que las apreciaciones que

hacen estos dos modelos. Sin embargo, esta distinción ha sido eminente-mente práctica para el desarrollo de la investigación en aprendizaje, ade-más, neurobiológicamente se ha sugerido que ambos tipos de aprendizajes

podrían estar mediados por diferentes mecanismos a nivel celu lar (Baxtery Byrne, 2006; Lorenzetti, Baxter y Byrne, 2011), lo que nos señalaría quesi el cerebro procesa de forma distinta las asociaciones que se producen enambos tipos de aprendizaje, deberíamos considerarlos como fenómenosdistintos. Finalmente, es preciso señalar que la diferenciación neurobiológica de ambos fenómenos es todavía fuente de numerosas discusiones.

Definición de condicionamiento operante (Resumen)

Por condicionamiento operante entendemos el proceso que da lugar a quela probabilidad de una respuesta se vea modificada por sus consecuencias, esdecir, por los efectos que tiene el ambiente sobre ella. Si el resultado del com-

portamiento es beneficioso la conducta se fortalecerá, siendo más probable quese emita de nuevo en circunstancias parecidas, sin embargo, si el resultado dela conducta es perjudicial, dicha conducta tenderá a desaparecer del repertoriode conductas del sujeto. El término «operante» se utiliza para caracterizar este

tipo de condicionamiento porque, y a diferencia del «condicionamiento clási-co», el sujeto interviene u «opera» en el medio.

La contingencia de tres términos constituye la unidad fundamental deanálisis en el estudio de la conducta operante y está formada por el estímulo discriminativo, la respuesta y la consecuencia. De este modo, sería definidacomo: en presencia de un estímulo específico, el reforzador se presentará si ysólo si la respuesta operante sucede. Los estímulos antecedentes , en el caso del


176173/392



ambientales actúan sobre los sistemas neurofisiológicos de los organismosde forma global y no sobre un sistema concreto. Aunque analicemos deforma separada las respuestas condicionadas clásicamente de las respues-tas operantes, la influencia de estas contingencias tiene lugar sobre todoel organismo. Cuando la tasa de una respuesta aumenta por un procesode reforzamiento, el reforzador presentado es contiguo con cualquier otraactividad del individuo. Del mismo modo, cuando se presenta un estímulocondicionado o un estímulo incondicionado también puede estar ocurrien-do algún otro tipo de actividad distinta de la RC en ese momento y que

pueda ser re forzada. Podríamos argumentar que diferenciar entre el condi-cionamiento clásico y el operante es en parte artificial ya que ambos tiposde procesos estarían ocurriendo simultáneamente y que la interacción delorganismo con el ambiente es más complicada que las apreciaciones que

hacen estos dos modelos. Sin embargo, esta distinción ha sido eminente-mente práctica para el desarrollo de la investigación en aprendizaje, ade-más, neurobiológicamente se ha sugerido que ambos tipos de aprendizajes

podrían estar mediados por diferentes mecanismos a nivel celu lar (Baxtery Byrne, 2006; Lorenzetti, Baxter y Byrne, 2011), lo que nos señalaría quesi el cerebro procesa de forma distinta las asociaciones que se producen enambos tipos de aprendizaje, deberíamos considerarlos como fenómenosdistintos. Finalmente, es preciso señalar que la diferenciación neurobiológica de ambos fenómenos es todavía fuente de numerosas discusiones.

Definición de condicionamiento operante (Resumen)

Por condicionamiento operante entendemos el proceso que da lugar a quela probabilidad de una respuesta se vea modificada por sus consecuencias, esdecir, por los efectos que tiene el ambiente sobre ella. Si el resultado del com-

portamiento es beneficioso la conducta se fortalecerá, siendo más probable quese emita de nuevo en circunstancias parecidas, sin embargo, si el resultado dela conducta es perjudicial, dicha conducta tenderá a desaparecer del repertoriode conductas del sujeto. El término «operante» se utiliza para caracterizar este

tipo de condicionamiento porque, y a diferencia del «condicionamiento clási-co», el sujeto interviene u «opera» en el medio.

La contingencia de tres términos constituye la unidad fundamental deanálisis en el estudio de la conducta operante y está formada por el estímulo discriminativo, la respuesta y la consecuencia. De este modo, sería definidacomo: en presencia de un estímulo específico, el reforzador se presentará si ysólo si la respuesta operante sucede. Los estímulos antecedentes , en el caso del


176




condicionamiento operante, reciben el nombre de estímulos discriminativos(Eds) cuando señalan que una respuesta será seguida de una consecuenciareforzante y estímulos delta (EA) cuando en su presencia la probabilidad deaparición de la consecuencia es baja. El término control por el estímulo serefiere a cómo los estímulos que preceden una conducta pueden controlar laocurrencia de esa conducta.

Las respuestas pueden ser definidas por su topografía (forma) o su función.Una clase de respuesta denota cualquier forma de ejecutar una conducta conuna función similar.

Los reforzadores pueden ser naturales como la comida o el sexo, o de formasimilar al condicionamiento clásico de segundo orden se puede producir elfenómeno del reforzamiento condicionado o reforzamiento secundario.En este caso, un estímulo o evento que originalmente no es reforzante puede

adquirir capacidad de reforzamiento mediante la asociación repetida con otroque era previamente reforzante. El automoldeamiento, en el caso del con-dicionamiento operante, consiste en implementar en un primer momento un

proced imiento de cond ic ionamiento clásico excitatorio apetitivo empare jandoun estímulo inicialmente neutro, como puede ser la iluminación de una tecla,con la presentación de comida para producir en el animal un acercamiento ala respuesta operante buscada.

3. PROCEDIMIENTOS BASICOS DEL CONDICIONAMIENTOOPERANTE

Una dificultad importante para el estudio científico del comportamien totiene que ver con la familiaridad que tenemos con numerosos hechos acer-ca de nuestra conducta, la de los demás o la de otras especies. En muchosde estos casos las interpretaciones que se le dan a los hechos están basadasen opiniones preconcebidas y esto ha dado lugar a que se genere una granconfusión a la hora de establecer explicaciones y predicciones no sesgadassobre la conducta.

La conducta, además de ser dinámica y modificarse en el tiempo es elresultado de muchas variables interrelacionadas que pueden incluso noestar presentes en el mo me nto de su análisis. Los fenómenos conductualesque tienen un patrón temporal identificable bajo condiciones objetivamen-te especificadas y que son reproducibles en diferentes individuos puedenser descritos como procesos conductuales reproducibles (Zimmerman,

177



1963). La comprensión de estos procesos dependerá de la especificaciónexacta de las relaciones temporales entre los eventos que configuran esos procesos y de las condic iones bajo las cuales ocurren. Para entender conclaridad en qué se basan los procedimientos básicos de condicionamientooperante es conveniente tener muy claro el concepto de contingencia. Como ya se ha explicado en el Capítulo 3 (Mecanismos asociativos y teo-rías del condicionamiento clásico) una contingencia es una relación dedependencia funcional entre dos componentes de un condicionamiento,relación que se establece cuando uno de los componentes correlacionacon el otro. En el caso del condicionamiento operante estaremos hablandode una contingencia positiva cuando una respuesta es seguida de unaconsecuencia y de contingencia negativa cuando una respuesta eliminao previene la aparición de una consecuencia.

Dependiendo del tipo de contingencia (positiva o negativa) y de lanaturaleza de las consecuencias (apetitivas o aversivas) se pueden estable-cer cuatro procedimientos fundamentales de condicionamiento operante(Tabla 4.1). Entre estos cuatro tipos de procedimiento hay que diferenciarclaramente los encaminados a producir incrementos de conducta (reforza-miento positivo, escape y evitación) y los que pre tenden p roduc ir dism inu-ciones de conducta (castigo y entrenamiento de omisión).


Tabla 4.1. Procedimientos fundamentales de condicionamiento operante

Procedimiento Contingencia Consecuencia Resultado de conducta

Reforzamiento positivo(Entrenamiento derecompensa)

Positiva Apeti t ivaIncremento de la fuerza de larespuesta

Escape y evitación Negativa AversivaIncremento de la fuerza de larespuesta

Castigo Positiva Aversiva Disminución de la fuerza de larespuesta

Entrenamiento deomisión

Negativa Apeti tivaDisminución de la fuerza de larespuesta



3.1 Proced imientos destinad os a aumentar conductas:Reforzamiento p ositivo, escap e y evitación

Reforzamiento Positivo (entrenamiento de recompensa):

El reforzamiento positivo o entrenamiento de recompensa tienelugar en el momento en el que una consecuencia apetitiva se presentade forma contingente a una respuesta y esto tiene como resultado unaumento de la fuerza de la respuesta, es decir, la respuesta aumenta suintensidad, su frecuencia de aparición en un intervalo de tiempo (tasa derespuesta), etc. De esta forma, en el momento en que el sujeto emite larespuesta se presenta un evento apetitivo mientras que si la respuesta noes emitida no se presenta la consecuencia apetitiva. Estas consecuencias

apetitivas pueden consistir en reforzadores prim arios como son la comidao el placer sexual, o reforzadores secundarios como pueden ser los elo-gios, el dinero, etc...

En el caso del entrenamiento en recompensa, en muchos experimentoscon animales se utiliza como reforzado r la entrega de comida. Sin embargo, para que la comida tenga propiedades re forzantes el animal tiene que esta rmotivado para obtenerla. Una forma de hacerlo es privando al animal decomida y, así, la medida de esa motivación vendrá dada por el porcentaje de peso que ha perd ido el anim al con respecto a su peso ad libitum (comiendo

libremente). En este punto, el investigador asume, aunque todavía no losabe, que la comida puede actuar como reforzador. Hay que señalar quela reducción del peso del animal en un experimento típico suele ser menossevera de lo que parece, ya que para muchos procedim ientos un a reduccióndel 5% del peso puede ser suficiente. Tengamos en cuenta que ese mismoanimal en libertad tendría incluso un peso menor que la rata privada decomida que estamos manteniendo en las condiciones controladas del labo-ratorio. Es decir, cuando las ratas comen con libertad la comida que tienena su disposición, se suelen hacer obesas. Además, distintos estudios han

demostrado que la restricción de calorías aumenta la longevidad y mejo-ra la salud de los roedores (Masoro, 1992, 2005; Weindruch, 1989, 1996;Weindruch, Walford, Fligiel y Guthrie, 1986).

Otro problema que debemos tener en cuenta es que en el reportorionatural del animal exista la respuesta que pretendemos medir. En muchoscasos nuestra investigación necesita que el animal emita una respuesta


179



que no presenta o no suele presentar en su medio natural, por ejemplo,que presione una palanca situada en el interior de una caja de Skinner. Enestos casos el investigador en lugar de esperar a que el animal presente larespuesta «por casualidad» puede em plear el moldeamiento o método de aproximaciones sucesivas para conseguir establecer la respuesta . Este

procedim iento implica re fo rzar re spuestas o conductas que se vayan apro-ximando a la respuesta final exigida (presionar la palanca) y dejar de refor-zarlas, es decir extinguirlas, una vez conseguimos respuestas más parecidasa la respuesta objetivo. Para ello, en un prim er mom ento, entregaremos a larata una bolita de comida en el comedero de la caja simplemente por per-manecer en el lado de la caja donde se encuentra la palanca. Una vez hayaaumentado la probabilidad de esa conducta reforzaremos los acercamien-tos a la palanca y dejaremos de reforzar el que simplemente esté en ese lado

de la caja. Finalmente, sólo reforzaremos que el animal presione la palancadejando de reforzar cualquier otra conducta y así obtendremos finalmentela respuesta que nos interesaba que el animal emitiese. Una vez establecidala respuesta ya podemos u tilizar cualquier reforzador pa ra modificar la tasade respuesta del sujeto mediante el entrenamiento de recompensa.

Escape y Evitación

Cuando el resultado de una respuesta operante consiste en la elimi-

nación o detención de un evento de naturaleza aversiva y, a su vez, este procedim iento tiene como resultado un aumento en la fuerza de re spuestaestamos hablando del procedimiento de escape. Una persona se puede«escapar» de una sala de conferencias porque lo que están contando no leinteresa o le está aburriendo. Asimismo, cuando en un procedim iento simi-lar una respuesta impide que se presente un suceso de naturaleza aversivanos estamos refiriendo al procedimien to de evitación. Siguiendo el ejemplode la conferencia, podríamos pensar que si esa misma persona conociese

previamente al ponente podría «evitar» pre sentarse en la sala. En el labo-

ratorio es habitual que ambos procedimientos funcionen de manera conjunta y que en un princip io los anim ales aprendan una respuesta de escapey posteriormente una respuesta de evitación. Por ejemplo, si una rata enuna caja de Skinner puede presionar una palanca para evitar una pequeñadescarga en sus patas, en los primeros momentos el animal presionará la

pala nca para escapar de la descarga, es decir recibe la descarga y cuando presiona la palanca det iene la descarga, pero una vez que aprenda este


180



comportamiento la rata podrá presionar continuamente la palanca paraevitar la descarga. Como se señala en la tabla 4.1, en estos casos, la contin-gencia entre la respuesta y la consecuencia es negativa y la consecuenciaque sigue la respuesta es de carácter aversivo. Este procedimiento es, enmuchas ocasiones, confundido con el castigo, pero en todo caso y comohemos visto a partir de la tabla implica condiciones completamente dife-rentes a las que definen el castigo. El escape y la evitación son conocidoscomo procedimientos de reforzamiento negativo dadas las característicasde la contingencia establecida. Tanto en un caso como en el otro, una con-tingencia negativa (eliminación de un suceso) da lugar al fortalecimiento oincremento de la intensidad o de la tasa de una respuesta.

3.2 Proced imientos destinad os a disminuir conductas: castigo y entrenamiento de omisión

El castigo o castigo positivo es el procedimiento que tiene como resul-tado una disminución en la fuerza de la respuesta cuando se aplica unaconsecuencia aversiva contingente a la respuesta. Es decir, si un sujetoemite la respuesta ope rante, se presenta la consecuencia aversiva, mientrasque si la respuesta no ocurre, no se presenta la consecuencia aversiva. Enel análisis funcional de la conducta, el castigo se define por su función y

esto implica que cuando el castigo no tiene efectos en la conducta se con-sidera que éste no ha ocurrido. Un ejemplo de castigo es infligir un dañofísico cuando un sujeto presenta una conducta inadecuada; las burlas ohumillaciones también constituirían una forma de castigo. En el laborato-rio lo más habitual es utilizar una pequeña descarga eléctrica en las patasdel animal cuando presenta la conducta objetivo, que suele ser la presiónde una palanca en el caso de las ratas y el picoteo de una tecla cuando seutilizan palomas como sujetos. Tenemos que señalar aquí que para podercastigar una respuesta antes ha tenido que ser reforzada, es decir, si pre-

tendemos castigar la presión de una palanca, para poder observar los efec-tos del castigo previamente debemos hacer que la respuesta de presión de pala nca ocurra con cie rta probabilidad y para ello debemos llevar a caboanteriormente un entrenamiento de recompensa de la presión de la palan-ca. De esta forma el castigo consistiría en la disminución de una respuesta previamente reforzada debido a la im posición de una contingencia de tipoaversivo sobre dicha respuesta.


181



El entrenamiento de omisión o castigo negativo es el procedimientode condicionamiento operante que tiene como resultado una disminución

en la fuerza de la respuesta cuan do se elimina o previene una consecuenciaapetitiva de forma contingente a la respuesta. Esto quiere decir que si unsujeto emite la respuesta operante, su respuesta tendrá como consecuenciala no presentación de un evento apetitivo que se presentaría en circunstan-cias similares si no se produjese dicha respuesta. De este modo, el castigonegativo implica no entregar una recompensa cuando se presenta una con-ducta no deseada. Un ejemplo clásico sería apagar la televisión cuando unniño está tirando cosas en casa. Los eventos o circunstancias eliminadasen el caso del castigo negativo se asume que son eventos reforzantes (ver

la televisión, hablar con los compañeros en clase, comer caramelos o laatención obtenida), ¿qué opina el lector del rechazo sexual hacia la parejacuando ha manifestado conductas no deseadas hacia el otro? En este casoestaríamos hablando también de castigo negativo.

Efectos colaterales de los procedimientos aversivos

El control aversivo es un concepto que por lo general se refiere a los

procedim ientos de condicionamiento de escape, evitación y castigo. Existenrazones éticas muy claras en contra de la utilización de contingencias aver-sivas para promover cambios en la conducta. Además de las razones éticas,los efectos colaterales de este tipo de procedimientos también desaconsejansu uso. Ya el mism o Skinner desaconsejaba de forma insistente la utiliza-ción de los procedimientos aversivos para producir cambios conductuales(Skinner, 1953, 1971). En su libro Ciencia y conducta humana, en el capí-tulo XII dedicado al castigo, comienza con un epígrafe titulado Una técnica cuestionable, donde señala: «El castigo es la técnica más comúnmente utili zada en la vida moderna. El patrón es familiar: si un hombre no se comporta como deseas, golpéalo; si un niño se porta mal, dale un cachete; si la gente de un país se comporta mal, bombardéala».

Para él, los procedimientos aversivos no son una forma fiable de hacerque disminuyan las conductas. En primer lugar porque la estimulaciónaversiva es posible que tenga a su vez efectos emocionales que, aunqueen un primer momento eliminen o disminuyan la conducta indeseable no


Entrenamiento de omisión o castigo negativo

182



impiden que en el futuro vuelvan a ocurrir una vez que la activación emo-cional se haya disipado. En segundo lugar, la estimulación aversiva puededar lugar a que se asocie con otros estímulos presentes en esa situación yque puedan dar lugar a que se inhiban las conductas deseables. Un niño puede uti lizar est ra tegias para evitar el castigo y manifestar las mismasconductas en entornos donde no estén presentes las contingencias aversi-vas. Finalmente, las personas y los animales cuando son castigados asocianel castigo con quien lo ejecuta más que con la conducta indeseada y, esto

puede dar lugar a que, en el futuro, evite y rechace a quien lo cast iga enlugar de cambiar su comportamiento.

3.3. La extinción en el reforzamiento positivo

La extinción en el condicionamiento operante es el procedimientomediante el cual una respuesta que previamente se reforzaba se deja dereforzar, es decir, se deja de presentar la consecuencia que se presentabaanteriormente cuando la respuesta operante era emitida. Además de enten-der la extinción como un procedimiento, también tenemos que considerarque la extinción es el proceso que da lugar a una disminución de la frecuen-cia o la intensidad de la respuesta causada po r la ausencia del reforzadory a una disminución gradual de su ejecución. Los efectos de la extinción

sobre los procedimientos aversivos se explicarán más adelante en el capítu-lo dedicado al control aversivo.

Como hemos señalado, el resultado del procedimiento de extinción es unadisminución de la intensidad o la tasa de respuesta, aun así, tenemos quetener en cuenta que la conducta no se elimina de forma absoluta. Si despuésde programar cierto número de sesiones de extinción dejamos pasar ciertotiempo sin que el sujeto sea expuesto a nuevas sesiones observamos quese produce cierta recuperación de la respuesta, fenómeno conocido comorecuperación espontánea. Es decir, si una rata recibe entrenamiento de

recompensa para presionar una palanca y obtener una bolita de comida y, poster iormente, es sometida a un procedimiento de extinción en el que no se presenta la comida tras la emisión de la respuesta, la ra ta de jará de presionarla palanca. Pero, si dejamos pasar cierto tiempo desde la última sesión deextinción sin contacto con la contingencia entre la respuesta y la consecuen-cia prestablecida, y volvemos a introducir a la rata en la caja de condiciona-miento operante, es muy probable que la rata vuelva a presionar la palanca.


183



Además de la disminuc ión de la tasa de respuesta, la extinción tiene otrosefectos sobre la conducta. Uno de estos efectos es conocido como el «esta-llido de extinción». Este fenómeno suele ocurrir en los primeros momen-tos en los que dejamos de presentar el reforzador, y consiste en un aumentode la tasa de respuesta en un ensayo o sesión en el que se ha dejado de

presentar el re forz ador que anteriorm ente se presentaba. Posteriorm ente ,la tasa de respuesta comienza a disminuir de manera gradual. Otro efectoque ocurre cuando comienza un proced imiento de extinción es el aumento de la variabilidad de la respuesta. Una posible interpretación adaptativade este fenómeno tiene que ver con que esta variación conduc tual aum entalas oportunidades de que un organismo pueda reinstaurar el reforzamientoo entra r en contacto con otras posibles fuentes de reforzamiento.

En relación con estos efectos podríamos pensar en el ejemplo de un padre cuyo hijo no deja de interrumpir le tra tando de lla mar su atención.Si decide ignorar a su hijo con la esperanza de que desista de su actitud,muy probablemente al principio el niño aumentara su insistencia e inclu-so empezará a gritar. Sin embargo, si el padre se mantiene en su actituddurante un tiempo largo probablemente el niño deje de molestar. En estesentido es importante señalar que como consecuencia de la extinción eshabitual encontrase con un estado emocional que se suele denominar frus-tración, y que da lugar a que surjan respuestas emocionales incondicio-nadas como el aleteo en las palomas, el que las ratas muerdan la palancao la agresión en humanos. Solo tenemos que pensar lo que hacen muchas

personas cuando han introducido dinero en una máquina dispensadora de bebidas y esta no le entrega su pedido , lo mín imo que nos encontramos esque esta persona presione el botón muchas veces, golpee el aparato o inclu-so lo mueva violentamente.

Como hemos dicho, una de las respuestas emocionales que ocurrendurante la extinción es la agresión. En un trabajo ya clásico, se entrenaron palomas mediante un procedimiento en el que se alternaban pe ríodos de

reforzamiento con comida con períodos de extinción. Los investigadoresencontraron que las palomas atacaban a otra paloma atada e inactiva o aun muñeco con forma de paloma si eran introducidas en la caja durantelos períodos de extinción. Además, estos ataques se limitaron al principiode los períodos de extinción (Azrin, Hutchinson y Hake, 1966). De algunamanera este experimento ilustra las conductas agresivas que pueden apa-recer como consecuencia de la reacción emocional de frustración asociada


184



con los momentos iniciales de los procedimientos de extinción. Estos efec-tos relacionados con la extinción tienen bastante sentido en condicionesnaturales. Si una conducta anteriormente daba lugar a una consecuenciafavorable para el organismo y en el momento actual ya no la produce, esdecir, cuando algo funcionaba y ya no funciona, la selección natural parecehaber favorecido que los organismos repitan las conductas que funciona-ron en el pasado y que además el rango de respuestas ante esa situaciónaumente así como que se presenten con más fuerza.

En el laboratorio, cuando la extinción sigue su curso, las respuestasemocionales comienzan a desaparecer y la intensidad de la respuesta dis-minuye. Si el procedimiento es lo suficientemente largo la intensidad o latasa de la respuesta suele volver al nivel registrado antes de que la conduc ta

fuese reforzada. En muchas ocasiones esto no sucede en una sola sesióny se deben programar varias o incluso muchas sesiones para que la tasade respuesta baje hasta el nivel establecido durante la línea base. La tasade respuesta mostrada por los sujetos durante la sesiones de extinción puede considerarse como un índice de la resistencia a la extinción. Encontra de lo que cabría esperar, generalmente las respuestas operantes quehan sido reforzadas en pocas ocasiones se extinguen de forma lenta, sinembargo cuando una respuesta ha sido reforzada en múltiples ocasionesmuestra menor resistencia a la extinción, sobre todo cuando en la fase

de adquisición se ha utilizado un programa de reforzamiento continuo. Aeste fenómeno se le ha denominado efecto del sobreentrenamiento en la extinción (Ison, 1962; Senkowski, 1978; Tombaugh, 1967). Asimismo,la resistencia a la extinción aumenta de forma importante en el momentoen que se utiliza un programa de reforzamiento parcial o intermitente.Como veremos en el siguiente capítulo (Capítulo 5), en estos programas nose refuerzan todas las respuestas sino sólo algunas de ellas, por ejemplo,dar una porción de comida a una rata por presionar una palanca 50 veces.La extinción de este tipo de programas muestra mucha mayor resistencia

que si el reforzamiento utilizado durante la adquisición de la respuesta escontinuo, fenómeno conocido como efecto del reforzamiento parcial en laextinción. Distintos experimentos han demostrado que con igual númerode respuestas reforzadas durante la fase de adquisición, el reforzamientointermitente es más resistente a la extinción que el continuo (Falls, 1998).Esto podemos también observarlo en comportam ientos humanos en los quese ofrecen reforzadores esporádicos. Así, es bastante fácil de entender que


185



conductas como el llanto de los niños, que unas veces son reforzadas y enotros casos no, son muy difíciles de erradicar. El efecto del reforzamiento parcial se ha tratado de explicar como el resultado de dos procesos básicoscomo son el reforzamiento y la discriminación (Nevin, 1988). Si tenemosen cuenta que el reforzamiento aumenta la resistencia al cambio, es decir, amayor tasa de reforzamiento m ayor resistencia al cambio, los programas dereforzamiento continuo serían más resistentes al cambio que los programasde reforzamiento interm itente. Sin embargo, como hemos visto, la extinciónocurre más rápido con programas de reforzamiento continuo. Esta contra-dicción podría ser debida a que la discrim inación entre el reforzamiento y laextinción es más fácil y rápida si el programa es de reforzamiento continuoque si es intermitente. Es decir, es más fácil discriminar la diferencia entreun programa con una tasa estable y alta de reforzamiento de un programa

en el que el reforzamiento no existe (extinción), que entre un programa detasa baja e intermitente de reforzamiento y la extinción. Otro factor que

podría esta r operando es la generalización de la situación de re forzamientointermitente a la de extinción, dando esto también lugar a una m ayor resis-tencia al cambio en los programas de reforzamiento intermitente. Por tanto,los factores de discriminación y generalización anularían el efecto produci-do por la mayor tasa de reforzamiento de los programas de reforzamientocontinuo, mos trando u na m ayor resistencia al cambio los animales que hantenido reforzamiento intermitente durante la fase de adquisición. Otra posi-

ble explicación de la mayor resistencia a la extinción en los programas dereforzamiento intermitente con respecto a los programas de reforzamientocontinuo podría ser el contacto con las contingencias. Pensemos en una rataque recibe una bolita de comida por presionar una palanca 50 veces. Esteanimal tendría que emitir al menos 50 respuestas para percibir el cambioentre el reforzamiento y la extinción, sin embargo un animal que reciba una

porc ión de comida por cada re spuesta toma contacto con la con tingencia deextinción de forma inmediata. Así, el animal bajo reforzamiento continuocuando pasa a la extinción y ha emitido 10 respuestas ha experimentado la

contingencia de extinción esas 10 veces, sin embargo la rata bajo reforza-miento intermitente tendría que p resionar 500 veces la palanca para experi-me ntar las mismas contingencias de extinción.

La teoría de la frustración (A. Amsel, 1962; Abram Amsel, 1992) tratade explicar la persistencia de la respuesta duran te la extinción como resul-tado del aprendizaje de algo paradójico, esto es, continuar respondiendo


186



cuando se espera no ser reforzado o ser frustrado. Esta teoría asume queel reforzamiento parcial da lugar a que el resultado del aprendizaje seaesperar la ausencia de reforzamiento. Sin embargo, no hay nada duran te laexperiencia con reforzamiento continuo que motive a los sujetos a emitir larespuesta duran te la extinción.

Otras variables que influyen en la persistencia de la respuesta durante laextinción son la magnitud del reforzador y la inmediatez de la recom-pensa empleadas durante la fase de adquisición. En general, cuando lamagnitud de la recompensa durante la adquisición es alta y se administrade forma continua durante los ensayos de adquisición, la resistencia a laextinción disminuye. Esto no ocurre así, sin embargo, cuando las recompensas grandes se administran in term itentemente, tal y com o señalábamos

anteriormente, como consecuencia del efecto del reforzamiento parcial.Así, la resistencia a la extinción será baja cuando las recompensas grandesson administradas de forma continua, pero será alta cuando las recompen-sas grandes se administran de forma intermitente. En cuanto a la inmedia-tez de la recompensa parece claramente demostrado que cuando la demoraen la presentación del reforzador es baja, es decir, pasa poco tiempo entrela emisión de la respuesta y la obtención del reforzador, la resistencia a laextinción es mayor. Esto tiene una gran importancia en conductas adictivascomo el juego patológico, donde se ha observado que los juegos de azar

en los que se obtienen recompensas inmediatas, como son las máquinastragaperras, existe un potencial adictivo mayor que los juegos en los que sereciben los premios de forma demorada (Choliz, 2010).

Finalmente, y como ya hemos señalado, los procedimientos de extin-ción hacen que con el tiempo la conducta operante disminuya. Esto hahecho pensar que esta disminución de la respuesta podría ser debida a la pérdida de memoria o al olvido. En relación con esto es muy importanteseñalar que la disminución de la respuesta que ocurre como resultado de laextinción es muy diferente a lo que sucede como consecuencia del olvido.

La extinción es un procedimiento en el que una respuesta anteriormentereforzada ya no produce reforzamiento pero la posibilidad de emitir la respuesta sigue disponible . Sin embargo, en el caso del olvido la disminuciónde la respuesta ocurre simplemente debido al paso del tiempo y la posibili-dad de emitir la respuesta no está presente. Otro punto importante a teneren cuenta es que la extinción no revierte lo ocurrido durante la adquisiciónsino que implica un aprendizaje nuevo, que de alguna ma nera se superpone


187



a lo aprendido anteriormente. Además de la recuperación espontánea exis-ten otros tres fenómenos que dan cuenta de que la extinción no es debidaal olvido ni a que haya un total desaprendizaje de la conducta adquirida:la renovación, la restauración y el restablecimiento. La renovación en elcondicionamiento operante consiste en la recuperación de la respuestaextinguida en un contexto diferente al que se llevó a cabo el procedimientode extinción (Bouton, Todd, Vurbic y Winterbauer, 2011). De modo similar,se puede producir un a restauración de la conducta propia de la extinciónvolviendo a situar a los sujetos en el contexto original de la extinción.Finalmente, el restablecimiento es un proced imiento en el que se puede vercómo las respuestas extinguidas vuelven a aparecer. En este caso, despuésde que una respuesta instrumental es extinguida, los sujetos son expuestosde forma no contingente al reforzado r empleado du rante la adquisición. El

resultado de la presentación es la reaparición de la respuesta previamenteextinguida sin que ésta dé lugar al reforzador. Estos fenómenos y proce-dimientos concuerdan con la idea de que la recuperación espontánea esdebida a la disminución del control que las claves contextúales tienen sobrela conducta con el paso del tiempo (Bouton, 1993) y pone de manifiestoque, de igual manera que en el condicionamiento clásico, la extinción en elcondicionamiento operante es específica del contexto en el que ha ocurrido.

Procedimientos del condicionamiento operante (Resumen)

Los procedimientos fundamentales de condicionamiento operante se handefinido en función del tipo de contingencia (positiva o negativa) y de la natu-raleza de las consecuencias (apetitivas o aversivas). De esta forma se puedenestablecer cuatro procedimientos fundamentales de condicionamiento operan-te que dan lugar a un aumento (reforzamiento positivo, escape y evitación) ouna disminución de la tasa de respuesta (castigo y entrenamiento de omisión).El reforzamiento positivo o entrenamiento de recompensa tiene lugar en elmomento en el que una consecuencia apetitiva se presenta de forma contingen-

te a una respuesta, y en el caso de los procedimientos de escape y evitación seestablece una contingencia negativa con un evento de naturaleza aversiva. Enel caso del castigo se establece una contingencia positiva con Lina consecuenciaaversiva mientras que en el entrenamiento de omisión la contingencia es nega-tiva y la consecuencia apetitiva.

La extinción es el proceso por que se produce la reducción de una respuesta previamente aprend id a que ocurre porque la respuesta ya no es seguida por el


188




reforzador, así como el procedimiento de no volver a reforzar una respuestainstrumental previamente reforzada, y no debe confundirse con el olvido queocurre por el mero paso del tiempo. La extinción da lugar a fenómenos como elestallido de la respuesta durante la extinción, así como al aumento de la varia-

bilidad en la respuesta, además de respuestas emocionales re lacionadas conla frustración. Se ha señalado a su vez como los programas de reforzamientointermitente son más resistentes a la extinción que los de reforzamiento conti-nuo, fenómeno conocido como efecto del reforzamiento parcial en la extinción.La renovación, la restauración y el restablecimiento de la respuesta ponen demanifiesto que durante la extinción no hay desaprendizaje y que es un fenóme-no que tiene poco que ver con el olvido.

4. FENOMENOS DEL CONDICIONAMIENTO OPERANTE

4.1. La conducta supersticiosa

La posibilidad de que una respuesta presentada sin motivo aparente sea segui-da de forma azarosa por un reforzador dalugar a que en ciertas ocasiones una con-ducta pueda ser reforzada accidental-

mente. En 1948 Skinner llevó a cabo unexperimento conocido a día de hoy como«el experimento de superstición» quegeneró un importante debate acerca del

papel de la contigüidad y la contingenciaen el reforzamiento (Skinner, 1948). Su experim ento demostró, al menos en

parte, las consecuencias que el re forzamiento accidenta l tiene en el procesode aprendizaje. En este experimento los sujetos eran palomas situadas encajas experimentales independientes. El procedimiento consistía simple-

mente en dispensar una pequeña cantidad de grano en los comederos delas cajas de condicionamiento cada 15 segundos, independientemente de loque hiciesen las palomas, y registrar su comportamiento. Lo que observóSkinner es que los animales presen taban ciertas pautas de compo rtamien toque parecían indicar que su conducta controlaba la entrega del reforzador.Antes de la entrega del reforzador cada paloma mostraba un tipo de comportamiento dist in tivo que repetía en los sucesivos ensayos. Es decir, los

189



animales actuaban como si su comportamiento estuviese relacionado conla entrega del reforzador, cuando en ningún caso era así. Skinner explicóeste comportamiento mediante la idea del reforzamiento accidental oadventicio, o dicho de otra forma, que si una respuesta ocurre cuando seentrega el reforzador esa conducta es reforzada. Si el primer reforzador se

presenta de fo rm a inmedia ta a cuando la palo ma alza su cabeza , la con-ducta «alzado de la cabeza» se reforzará y tendrá una mayor probabilidadde ocurrencia en el futuro. Además, este aumento de la probabilidad deocurrencia hace también más probable que la respuesta se presente en elmomento de la entrega del reforzador en los ensayos sucesivos y, de estemodo, la alta probabilidad de ocurrencia de esta respuesta en relación conotras conductas le confiere una alta probabilidad de ser reforzada en futu-ros ensayos.

La explicación dada por Skinner al «experimento de superstición» fue puesta en duda por investigaciones poste riores (S taddon y Simmelhag,1971). Staddon y Simmelhag replicaron el experimento de superstición deSkinner registrando el comportamiento de las palomas de forma muchomás minuciosa, lo que les llevó a extraer conclusiones muy diferentes. Losautores encontraron que las respuestas emitidas por los animales duranteel experimento pod ían ser agrupadas en dos categorías principales a las quellamaron conductas de ínterin y conductas terminales. Las conductas de

ínterin fueron definidas como aquellas actividades del animal que teníanlugar en el medio del intervalo, cuando faltaba todavía bastante tiempo para la aparición del re forzador. Este tipo de conductas incluían moversea lo largo de la pared frontal de la caja o dar vueltas sobre sí mismas. Lasconductas terminales las definieron como aquellas que ocurrían al finaldel intervalo y próximas en el tiempo a la aparición del reforzador. Entreestas actividades o respuestas incluyeron, por ejemplo, que la paloma pico-tease en el comedero o en sus proximidades. Los autores observaron queeste patró n de respuestas no variaba de forma significativa de unas palom as

a otras y por ello argumentaron que no es el reforzamiento accidental loque origina un aum ento en la frecuencia de las conductas de ínterin, sinoque estas conductas son simplemente respuestas que un sujeto emite deforma innata cuando la probabilidad de reforzamiento es baja. Por otrolado, la entrega de comida parecía sólo influir en las respuestas termi-nales, como el picoteo que ocurre de forma frecuente antes de la entregade comida, y su aparición no estaría relacionada con un reforzamiento


190



accidental. En consecuencia, podríamos decir que no todas las conductasque aparecen cuando se entregan reforzadores de forma periódica son elresultando de un emparejamiento aleatorio entre la respuesta y el refor-zador. Muchas de estas respuestas pueden ser conductas innatas con alta

probabilidad de aparición cuando el sujeto es tá «esperando» la aparicióndel siguiente reforzador. En resumen, podríamos pensar que determinadas«conductas supersticiosas» estarían explicadas por el reforzamiento acci-dental propuesto por Skinner, y otras por mecanismos que tendrían quever con conductas innatas relacionadas con la manera en que los organis-mos se relacionan con el paso del tiempo y la aparición de reforzadores enambientes naturales.

Como es bien sabido por todos, el comportamiento supersticioso tam-

bién ocurre en la especie humana. Las conductas supers tic iosas ocurrende forma frecuente en situaciones en las que no hay ningún tipo de controlsobre las consecuencias de las acciones, como pueden ser los juegos deazar. Las personas que juegan en las máquinas tragaperras desarrollanconductas estereotipadas antes de realizar una jugada, como introducirlas monedas de determinada manera, introducir un número de monedasdeterminado o tocar los botones o partes de la máquina en una secuencia part icula r. La conducta supers ticiosa también es habitual en los deport is-tas. Los comportamientos supersticiosos que muestran muchos deportistasde élite tienen, con frecuencia, su origen en algún tipo de éxito con el queesa conducta ha tenido relación en el pasado. Un ejemplo bastante cono-cido es el siguiente: cuando el jugador de baloncesto Michael Jordán ganósu primer título llevaba puestos unos pantalones cortos debajo de su uni-forme. A partir de ese momento llevó puestos pantalones cortos debajo desu uniforme durante gran parte de su carrera en la NBA. Existen ademásevidencias que dem uestra n que las personas que tienen una gran necesidadde control sobre los eventos es más probable que desarrollen conductassupersticiosas (Keinan, 2002).

Herrstein diferenció la forma en que se adquieren determ inadas supers-ticiones humanas estableciendo principios diferentes para cada una deellas (Herrstein, 1966). Por una parte las supersticiones idiosincráticasque estarían motivadas por la experiencia propia anterior con situacionesde reforzamiento y por otro lado las supersticiones sociales típicas que sehan mantenido a lo largo del tiempo (por ejemplo, creer que el número13 o romper un espejo trae mala suerte), que sugirió que eran un residuo


191



de contingencias previas de reforzamiento que ya no eran efectivas. Comoejemplo de estas últimas señaló la creencia popular de que da mala suerteencender tres cigarrillos con la misma cerilla. La explicación de esta con-ducta supersticiosa parece ser que proviene de la primera guerra mundialen la que durante gran parte de las batallas los combatientes permanecíanrefugiados en las trincheras. En esta situación era probable que cuantomás tiempo durase la cerilla encendida para encender el cigarrillo más

probable sería que un so ldado fuese abatido por un disparo del enemigo.En este ejemplo vemos cómo una contingencia de reforzamiento que teníauna gran relevancia en una determinada situación deja de tenerla en otrasy, aun así, se mantiene a lo largo de varias generaciones.

4.2. La deriva instintiva y el concepto de relevancia o pertinencia en el condicionamiento instrumental

¿Permite el condicionamiento instrumental condicionar de la mismaforma cualquier tipo de respuesta? La respuesta a esta pregunta pareceser que es no. Como hemos visto en el Capítulo 3, dedicado al condiciona-miento clásico, existen ECs que se condicionan con más facilidad cuandose presentan asociados a determinados EIs. De forma similar, en el condi-

cionamiento operante existen situa-

ciones en las que también se observanrelaciones de pertinencia o relevanciaentre respuestas y reforzadores, esdecir, hay respuestas que son máscomplicadas de condicionar cuandose utilizan ciertos tipos de reforza-dores. Thorndike fue el primero enseñalar la facilidad o dificultad paracondicionar determinadas respuestas

y propuso el término de pertinen-cia para explicar los problemas paraentrenar conductas como el rascado yel bostezo. El concepto de pertinencia

pone de relieve que algunas re spuestasse relacionarían de modo natural conel reforzador como consecuencia de la




historia evolutiva del animal, por lo que serían más fáciles de condicionarque otras dependiendo del reforzador que utilicemos.

Marión y Keller Breland fueron dos estudiantes de Skinner que poste-

riormente m ontaron u na em presa dedicada al entrenamiento de animales.Su trabajo consistía en condicionar a distintos animales para actos circen-ses, espectáculos, etc... Durante sus entrenamientos, observaron algunaslimitaciones del condicionamiento instrumental cuando trataban de refor-zar conductas utilizando comida como reforzador. En distintas ocasionessurgían conductas típicas de las especies que entrenaban que interferíancon las respuestas operantes pretendidas. Por ejemplo, cuando trataban deadiestrar a un ma pache para que depositase monedas en una hucha a ca m- bio de com ida, los anim ales mis teriosamente frotaban las monedas durante

segundos o incluso minutos sin llegar a depositar su m oneda en el contene-dor, además, la ejecución de la tarea empeorab a según el entrenam iento ibaavanzando. Los Breland dieron el nombre de deriva instintiva al desarrollode estas conductas como la de hozar en los cerdos y frotar monedas en losmapaches, respuestas naturales, aparentemente muy fuertes, relacionadascon la comida y que competían con las respuestas que requería el entrena-dor (Breland y Breland, 1961).


4.3. Los cambios en la cantidad y la calidad de la recompensa: el fenómeno de contraste condu ctual

El efecto de la recompensa en la conducta depende de la experiencia pasada con otros reforzadores. El contraste conductual es un fenómenomuy interesante en relación con la psicología de la motivación y se basa enel hecho de que la efectividad de un reforzado r para co ntrolar una conduc ta

puede verse modificada por la experiencia prev ia con el mismo re fo rzadorcuando éste es de una magnitud o calidad diferente. Es muy fácil darse

cuenta de lo contenta que se pone la gente cuando recibe un aumento desueldo, y del mismo modo, ocurre lo contrario cuando hay una bajada, n or-malmente nos enfadamos muchísimo. Sin embargo, esto no tiene que vercon el valor absoluto del reforzador. Planteemos la situación de forma dis-tinta, una persona gana por su trabajo 1400 euros al mes y otra gana 1600euros, si todo sigue así esas dos personas llevarán una vida más o menostranquila. De pronto, la primera de estas dos personas recibe un aumento

193

¿Seguimiento de signo?



de sueldo de 100 euros y la segunda un a ba jada de 100 euros. Lo que vemosaquí es que las dos personas finalmente reciben una cantidad de 1500euros, es decir, el mismo reforzador, que sin embargo los dos sujetos perci-

ben ahora de fo rm a muy diferente. Los efectos que tienen los cambios en laeficacia del reforzador debido a la experiencia previa con otros re forzadoresfueron descritos en prim er lugar por Crespi en 1942, de hecho, al fenómenose le dio en un primer momento el nombre de «efecto Crespi». Un estudiomás reciente de Mellgren ilustra de forma clara el fenómeno. En su experi-mento (Mellgren, 1972) utilizó cuatro grupos de ratas en un corredor rectoa las que midió la velocidad de sus carreras. Durante la primera fase tantoel grupo A como el grupo B recibieron 2 bolitas de comida en el momentoen que llegaron al final del corredor, mientras que los grupos C y D recibie-ron 22 bolitas de comida. En una segunda fase se reasignó la cantidad de

comida entre los grupos. De esta manera, el grupo A siguió recibiendo lamisma cantidad de comida (2 pellets o bolitas de comida) mientras que elgrupo B pasó a rec ibir 22; el grupo C siguió recibiendo 22 pellets, mientrasque el grupo D pasó a recibir únicamente 2 pellets de comida. El diseño delexperimento quedó establecido como se señala en la siguiente tabla:


Tabla 4.2. Esquema del experimento de Mellgren en el que se demuestran los fenó-menos de contraste conductual positivo y negativo

Grupo Fase 1 Fase 2 Resultado

Grupo A(PequeñoPequeño)

Recompensa Pequeña(2 Bolitas de comida)


Misma velocidad enlas carreras

Grupo B(PequeñoGrande)


Recompensa Grande(22 Bolitas de comida)

Aumento de la velocidaden las carreras

Grupo C(GrandeGrande)



Misma velocidad enlas carreras

Grupo D

(GrandePequeño)

Recompensa Grande

(22 Bolitas de comida)

Recompensa Pequeña

(2 Bolitas de comida)

Disminución de la

velocidad en las carreras

Los resultados del experimento mostraron que los grupos a los que nose les cambió la cantidad de comida durante la fase 2 mostraron la mismavelocidad en sus carreras a lo largo del corredor recto. Sin embargo, losanimales que durante la fase 2 del experimento recibieron una cantidad

194



de comida mayor mostraron un aumento en la velocidad de sus carrerasmientras que los animales que cambiaron de la recompensa grande a larecompensa pequeña mostraron una disminución significativa en la veloci-dad de sus carreras. De este modo, se pudo observar que los efectos de larecompensa dependen de la experiencia previa con otras recompensas. Lasratas que experimentaron una recompensa favorable en contraste con laque habían recibido anteriormente, corrieron más deprisa incluso que lasratas que tenían una recompensa grande durante las dos fases, fenómenoconocido como contraste condu ctual positivo. Sin embargo, las ratas querecibieron una recomp ensa desfavorable con respecto a la que habían obte -nido durante la primera fase del experimento, mostraron una disminuciónen la velocidad de sus carreras con respecto a los animales que siempreexperimentaron una recompensa pequeña, efecto denominado contraste

condu ctual negativo.

Experimentos recientes han demostrado que los fenómenos de contraste pueden depender a su vez del es tado afectivo previo (Mitchell, Marston, Nutty Robinson, 2012), es decir, el fenómeno de contraste puede mostrarse dediferente forma dependiendo de si el estado afectivo del animal es positivoo negativo. Así, se ha propuesto que la sensibilidad de un individuo hacia laganancia o pérdida de recompensas dependerá del estado emocional en el quese encuentre (Hajcak, McDonald y Simons, 2004; Wenzlaff y Grozier, 1988).


4.4. La controlabilidad de las consecuencias aversivas y el efecto de indefensión aprendida

Otro de los fenómenos interesantes relacionados con el condicionam ien-to operante es el efecto que tiene la controlabilidad de las consecuenciasaversivas de la propia conducta. Martin E. P. Seligman y sus colaboradoresdescubrieron que cuando los animales son sometidos a situaciones en las

que tienen poco o ningún control, desarrollan una reacción emocional enla que manifiestan un comportamiento pasivo ante dichas circunstanciaso circunstancias parecidas, y se piensa que esta reacción es similar a ladepresión humana (Seligman, 1975). Este efecto conductual, denomina-do indefensión aprendida, ha sido confirmado en distintas ocasiones, porvarios laboratorios y en diferentes especies, lo que indica lo robusto ygeneral que es el fenómeno (Peterson, 1993). En estos experimentos (véase

195



Tabla 4.3), en una primera fase conocida como fase de preexposición alentrenamiento escape/evitación, los investigadores asignaron grupos de perros a tres condic iones experimenta les: en la primera de ellas, el grupo decontrol escapable era sometido a un entrenamiento de escape/evitación enel que si el animal emitía la respuesta requerida podía detener o impedir la

presentación de una descarga . El segundo de los grupos, el grupo acoplado(grupo experimental) recibía las mismas descargas que el grupo anterior,

pero en este caso la conducta del anim al no tenía consecuencias sobre lasdescargas. Finalmente utilizaron, además, un segundo grupo control quesimplemente estaba confinado en la mism a situación que los demás grupos

pero no recibía tr atamiento. En una segunda fase del experimento , todoslos grupos de animales fueron sometidos a varios ensayos de entrenam ientoen escape/evitación. Lo que observaron los investigadores es que el grupo

que recibió las descargas inescapables durante la fase de preexposiciónmostró un aprendizaje de escape/evitación mucho más lento que los otrosdos grupos (Figura 4.5). Además, también demostraron que no existíandiferencias estadísticamente significativas entre los grupos de animalessometidos durante la fase de preexposición a las descargas escapables ylos que no recibieron las descargas durante esta fase. Los investigadoresconcluyeron que el entrenamiento anterio r con las descargas inescapables,generaba en los animales la expectativa de que su conducta no tenía ningúnefecto sobre las consecuencias aversivas que experimentaba, ya que apren-

dían que la aparición de las descargas era independiente de su conducta. Aesta explicación del fenómeno se la conoce como la hipótesis de la inde-fensión aprendida.


Tabla 4.3. Diseño triádico empleado en los estudios sobre el efecto de la infedensiónaprendida (Seligman y Maier, 1967)

Grupo Fase de preexposiciónFase de aprendizaje

escape / evitaciónResultado conductual

Escape Descargascontrolables

Señal descarga Aprendizaje rápido

AcopladoDescargas

incontrolablesSeñal descarga Aprendizaje lento

Control confinado Sin descargas Señal descarga Aprendizaje rápido

196




Latericia de escape media en losdiferentes grup os utilizados en el diseño triádico

(/)oT3CDU )<D(/)

50

40

30

20

10

0

QQQSSBOSSSS ■■■■■■■■■■■

wm

■ l i i n n n m n n n

Escape Control confinado Acoplado

Porcentaje de sujetos que no co nsigue n esca par en 9de cada 10 ensay os

100

SOSO-

TO60

50

40

30

2010

Escape Control confinado Acoplado

Figura 4.5. Resultados obtenidos en el experimento de Seligman y Maier utilizando eldiseño triádico en el que demostraron el efecto de indefensión aprendida. Los sujetos

que pertenecían al grupo acoplado tuvieron mayores latencias de escape y un porcentajemayor de ensayos de escapeevitación fallidos que los pertenec ientes a los grupos escape y

control confinado. Resultados adaptados de M. E. Seligman y Maier, 1967.

El propio trabajo de estos investigadores sugiere posibles medidas parareducir el efecto de la indefensión. Una posible manera de hacerlo podríaser forzando a los perros a cruzar la barrera durante un buen número deensayos, lo que tendría como consecuencia que posteriormente presen tasenla respuesta por sí mismos. Seligman sugirió que el mejor tratam iento parala indefensión es ubicar al sujeto en una situación en la que no fuese posiblefallar dado que ello generará de nuevo la expectativa de que la conductatoma control sobre las consecuencias.

Son también interesantes los estudios que demostraron que la inde-fensión aprendida se puede, de alguna manera, prevenir. Seligman llamó«inmunización» al proceso que se desarrolla cuando un sujeto tiene una

primera experiencia con descargas escapables que bloquea el desarrollo dela indefensión aprendida cuando se presentan descargas inescapables enuna fase poste rior (Williams y Lierle, 1986).

4.5. Los efecto s de la demora del reforzador en el condicionam iento

instrumental: el procedimiento de marcado

Es evidente que la entrega de una recompensa aumenta la probabilidadde que una respuesta vuelva a ocurrir y, por tanto, que vuelva a ser emitida.Pero, ¿cuál es el momento en el que tenemos que aplicar la recompensa paraque el reforzamiento de la respuesta ocurra? Uno de los fenómenos másfirmemente establecidos en la psicología del aprendizaje es la dificultad de

197



reforzar una respuesta cuando la entrega de la recompensa se demora en eltiempo. Es muy fácil reforzar una conducta cuando el reforzador se entregainmediatamente, pero la cosa es bien distinta cuando el mismo reforzadores entregado después de que pase un lapso importante de tiempo. La demo-ra del reforzamiento ocurre cuando existe un período de tiempo entre larespuesta que da lugar al reforzador y la entrega posterior del mismo. Enfunción de las circunstancias, la demora del reforzamiento puede disminuiro aumentar la conducta, o incluso no modificarla respecto al reforzamientono demorado. Además, el mismo valor de la demora puede tener diferentesefectos en función de otros parámetros, tanto de la misma demora como delas condiciones de mantenimiento del reforzamien to (Shahan y Lattal, 2005).Una cuestión muy importante que hay que tener en cuenta a la hora de estu-diar los efectos de la demora es obtener una línea base de respuesta estable a

parti r de la cual poder observar los efectos de la presentación demorada delreforzador. Cuando la línea base es estable y se impone una demora, norm al-mente ésta da lugar a una reducción de la respuesta, sin embargo, inclusoen estas condiciones no siempre eso es así, ya que en un primer momentoincluso puede ocurrir un aumento. En conclusión, los efectos de la demoradel reforzamiento deben analizarse desde una perspectiva en la que se con-sidere más como un proceso dinámico resultante de las acciones directas oindirectas de distintas variables en la conducta que de la influencia de unsimple parámetro estático del reforzamiento (Lattal, 2010).

La mayoría de las teorías asociativas del aprendizaje defienden que doseventos deben ser contiguos para que puedan ser asociados. Una formade evitar los efectos de la demora en la entrega del reforzador consiste enmarcar la respuesta haciendo que esta pueda diferenciarse de otros eventosque ocurren duran te el período de demora. La presentación de un estímulocontingente a la respuesta convierte esa respuesta en un evento significa-tivo. Los efectos del procedimiento de marcado (Lieberman, Mclntoshy Thomas, 1979) fueron inicialmente descritos utilizando un diseño expe-

rimental en el que los animales fueron asignados a dos grupos al azar: elgrupo marcado (experimental) y el grupo no marcado (control). Los anim a-les debían realizar una tarea como la que se muestra en la (figura 4.6) queconsistía en que si los animales pasaban por el brazo lateral negro recibíanuna bolita de comida en la caja meta. En el momento en que los animalesrealizaban la elección (pasar al brazo negro o al brazo blanco) los animalesdel grupo m arcado fueron cogidos por el experim entado r y trasladados a la


198




Figura 4.6 Esquema del instrumento utilizado para el procedimiento de marcado.

© No marcado Marcado

Bloques de 10 ensayos

Figura 4.7 Porcentaje derespuestas correctas enla primera elección en bloques de 10 ensayos pa racada grupo. Adaptado deLieberman, Mclntosh y

Thomas, 1979.

caja de demora, sin embargo, a los animales de grupo control se les abrióla puerta a la caja de demora y se les dejó pasar libremente. Tal como está planteado el diseño, los investigadores trataron a los dos grupos de form aidéntica, salvo en el momento en que los animales realizaban la elecciónde la respuesta. Como se muestra en la figura 4.7, los sujetos del grupomarcado mostraron un mayor número de elecciones correctas a lo largode los ensayos, llegando a un 90% en el último de los bloques, mientras

que el grupo control sólo mostró la ejecución correcta en un 50% de losensayos. La explicación que dieron los autores a estos resultados es que lamanipulación de los animales posterior a la respuesta de elección provocaun marcado de la respuesta de elección en la memoria de los sujetos y queesto hace más probable recuperar esta respuesta cuando los sujetos reci-

ben la recompensa después de la demora . Otra posible explicación es queel marcado pudiese estar operando a modo de reforzador secundario, sin

199



embargo, esto no sería así desde el momento en que el estímulo se presentótanto tras la elecciones correctas como tras las incorrectas, por lo que sifuese debido al reforzamiento secundario deberían aumentar ambas respuestas, las correctas y las incorrectas.

4.6. Devaluación del reforzador

Una forma de demostrar que en el condicionamiento operante se apren-den asociaciones entre la respuesta y la consecuencia es utilizando el proce-dimiento de devaluac ión del reforzador. El procedimiento consiste en aso-ciar al reforzador que se está utilizando (comida, por ejemplo) un estímuloo evento de naturaleza contraria (en experimentos con animales, podría ser

una sustancia aversiva como el cloruro de litio). Una forma de llevar a caboeste procedimiento es utilizando una caja de condicionamiento operantecon dos palancas. En la primera fase del experimento, la presión de cual-quiera de las dos palancas da lugar a la obtención de una bolita de comida,que en el caso de que el animal presione la palanca A tiene sabor a naranjay en el caso de que presione la palanca B sabor a fresa. Esta p rimera fase dalugar a que los animales presionen indistintamente ambas palancas, si notienen preferencia previa por alguno de los sabores. En una segunda fase,las bolitas de comida de uno de los sabores, por ejemplo la del sabor a fresa,se emparejan fuera de la caja de condicionamiento con la sustancia aversi-va. Finalmente, en una tercera fase los animales vuelven a ser introducidosen la caja de condicionamiento operante para determinar la preferencia derespuesta. El efecto resultante de este procedimiento es una disminución dela respuesta operante en la palanca que da lugar a la entrega del reforzadorasociado a la sustancia aversiva (en nuestro caso la presión de palanca B,que entregaba bolitas de comida con sabor a fresa), aunque la respuesta enesta palanca no haya sido nunca contingente al estímulo aversivo.

En un experimento con ratas para demostrar el fenómeno de la deva-

luación del reforzador (Colwill y Rescorla, 1985), los animales disponíande dos formas diferentes de emitir una respuesta que daban lugar a dosreforzadores también distintos. Mediante la presión de una palanca obte-nían bolitas de comida y tirando de una cadena obtenían un a pequeña can-tidad de agua con azúcar. Posteriormente se les dispensó a los animales deforma no contingente, ya que la palanca y la cadena no estaban disponibles,las bolitas de comida y el agua con azúcar, y a la mitad de las ratas se les


200



inyectó una solución de cloruro de litio para producirles malestar. Cuandolos animales fueron dispuestos de nuevo en las cajas de condicionamiento,los investigadores observaron que las ratas que recibieron el cloruro delitio después de recibir la comida o el agua con azúcar presionaron muchomenos la palanca o tiraron menos de la cadena que los animales a los queno se les inyectó el cloruro de litio. Los resultados de este experimentosugieren que los animales aprenden acerca de las consecuencias de su con-ducta durante el condicionamiento operante.

Sin embargo, en determinadas ocasiones la ejecución de una respuestainstrumental puede llegar a automatizarse si se entrena o practica de formamasiva. En este sentido, algunos autores han diferenciado entre lo que seríala acción instrumental, relacionada con aquellas respuestas que son modi-

ficadas por el valor de sus consecuencias, de aquellas cuya ejecución nodepende del valor actual del reforzador a las que se les daría el nombre dehábitos (Dickinson y Balleine, 1993). Esta diferenciación se ha demostradode forma empírica mediante experimentos de laboratorio en los que se havisto que la extensión del entrenamiento puede hacer que una conducta seautomatice y que no sea controlada por el valor de las consecuencias toman-do forma de hábito rígido. En un estudio utilizando el procedimiento dedevaluación del reforzador se entrenaron dos grupos de ratas para presionaruna palanca utilizando bolitas de sacarosa como reforzador (Adams, 1982).

En uno de los grupos, el entrenamiento se limitó a 100 respuestas reforza-das y en el otro grupo, las ratas obtuvieron hasta 500 reforzadores. Tras esteentrenamiento los investigadores inyectaron cloruro de litio a la mitad de losanimales de cada grupo. En la fase de prueba se observó que la devaluacióndel reforzador sólo tuvo un efecto claro en los animales con entrenamientocorto, mostrando muy poco efecto de devaluación del reforzador los ani-males que recibieron un entrenamiento largo. Estos resultados indican quela práctica prolongada da lugar al establecimiento de una ejecución de laconducta mucho más rígida, menos deliberada y que dependería menos de

las consecuencias de la misma. Siguiendo este razonamiento, determinadasconductas compulsivas, como puede ser la búsqueda de drogas, dependeríande mecanismos de aprendizaje diferentes a los que intervienen durante laadquisición de la conducta (Zapata, Minney y Shippenberg, 2010). En estesentido, distintos autores han implicado los procesos de aprendizaje relacio-nados con la formación de hábitos en la transición entre el uso recreativo y eluso compulsivo de las drogas que caracteriza la adicción (Everitt et al., 2008).


201




En este apartado se han tratado algunos fenómenos relacionados con el

condicionamiento operante que por su interés o repercusión es importanteconocer. La conducta supersticiosa ocurre cuando un a respuesta es reforzada por la aparición aza rosa de un re fo rzador y fue explicada por Skinner m ediantela idea del reforzamiento accidental o adventicio. Esta explicación fue puestaen duda por investigaciones posteriores que señalaron que las respuestas delos animales podrían estar agrupadas en conductas de ínterin y conductasterminales dependiendo del intervalo temporal en el que sucediesen con res-

pecto a la entrega del reforzador. Otro in teresan te fenómeno es tudiado en esteapartado es el de la deriva instintiva que da lugar al concepto de relevancia o pertinencia en el condicionamiento instrumental, y señala que ciertas res-

puestas se re lacionarían de modo na tu ra l con de term inados reforzadores como

consecuencia de la historia evolutiva del animal, po r lo que es más fácil de con-dicionar unas respuestas que otras dependiendo del reforzador que utilicemos.

El efecto de la recompensa en la conducta depende de la experiencia pasa-da con otros reforzadores y el fenómeno de contraste conductual se basa enel hecho de que la efectividad de un reforzador para controlar una conducta

puede verse modificada por la experiencia previa con el mismo re forzadorcuando éste es de una magnitud o calidad diferente. El contraste conductual positivo se refiere al aumento de la respuesta debido a una recompensa favo-rable como resultado de la experiencia anterior con una recompensa menosfavorable y el contraste conductual negativo a la disminución de la respuesta

que tiene lugar cuando se presenta una recompensa desfavorable con respectoa una experiencia anterior con una consecuencia más favorable.

La indefensión aprendida es un fenómeno que tiene que ver con la percep-ción que tienen los sujetos sobre la controlabilidad de las consecuencias de la

prop ia conducta. El efecto de indefensión aprendida consiste en que cuandolos animales son sometidos a situaciones en las que tienen poco o ningún con-trol desarrollan una reacción emocional en la que manifiestan un comporta-miento pasivo ante dichas circunstancias o circunstancias parecidas.

Un factor muy importante que influye en el aprendizaje por condiciona-miento operante es el de la demora del reforzamiento. La demora del refor-

zamiento ocurre cuando existe un período de tiempo entre la respuesta que dalugar al reforzador y la entrega posterior del mismo. La demora en la entregadel reforzador dificulta el aprendizaje en los procedimientos de condiciona-miento instrumental y el procedimiento de marcado es una forma de evitarlos efectos de la demora en la entrega del reforzador. Este procedimiento con-siste en marcar la respuesta haciendo que ésta pueda diferenciarse de otroseventos que ocurren durante el período de demora.

Fenóm enos del condicionamiento operante (Resumen)

202




Finalmente, se ha visto como el procedimiento de devaluación del refor-zador consiste en asociar al reforzador que se está utilizando un estímulo oevento de naturaleza contraria. El efecto resultante de este procedimiento esuna disminución de la respuesta operante que ha sido reforzada con el reforza-dor devaluado, aunque esta respuesta nunca haya sido contingente al estímuloaversivo.

203





Castigo: Procedimiento de condicionamiento instrumental en el que se impo-ne una contingencia positiva con un evento de naturaleza aversiva. Este

procedimiento tiene como resultado la disminución de la probabilidad deemisión de dicha respuesta.

Castigo negativo o entrenamiento de omisión: Procedimiento de condicio-namiento operante en el cual se impone una contingencia negativa con unaconsecuencia de naturaleza apetitiva, dando lugar a una disminución de la

probab il idad de aparición de dicha respuesta

Clase de estímulos: Estímulos que varían en distintas características físicas pero que tienen el mismo efecto sobre la conducta.

Clase de respuestas: Cualquier forma de ejecución de una conducta que tieneuna función similar.

Conducta supersticiosa: Conducta que es reforzada por la aparición azarosade un reforzador. Fue explicada por Skinner mediante la idea del reforza-miento accidental o adventicio.

Contraste conductual negativo: Disminución de la respuesta que tiene lugarcuando se presenta u na recompensa desfavorable con respecto a una expe-riencia anterior con una consecuencia más favorable.

Contraste conductual positivo: Aumento de la respuesta debido a una recompensa favorable como resultado de la experiencia ante rior con una recompensa menos favorable.

Control por el estímulo: Término que se refiere a como los estímulos que preceden una co nduc ta pueden con trolar la ocurrencia de esa conducta.

Deriva instintiva: Tendencia de algunos animales a mostrar respuestas ins-tintivas que compiten con la respuesta requerida cuando son entrenados

mediante procedimientos de condicionamiento operante.Devaluación del reforzador: Procedimiento que consiste en asociar al refor-

zador que se está utilizando un estímulo o evento de naturaleza contraria.El efecto resultante de este procedimiento es una disminución de la res-

puesta operante que ha sido refo rzada con el reforzador devaluado, au nqueesta respuesta nunca haya sido contingente al estímulo aversivo.

204




Efecto de indefensión aprendida: Consiste en que cuando los animales sonsometidos a situaciones en las que tienen poco o ningún control desarrollanuna reacción emocional en la que manifiestan un comportamiento pasivoante dichas circunstancias o circunstancias parecidas.

Escape: Procedimiento de condicionamiento operante en el qiie la respuiestainstrumental detiene o elimina un evento o consecuencia de naturalezaaversiva y tiene como resultado un aumento de la tasa de respuesta.

Evitación: Procedimiento de condicionamiento operante en el que la respuestainstrumenta l previene la aparición de un evento o consecuencia de na tura -leza aversiva y tiene como resultado un aumento de la tasa de respuesta.

Extinción: Procedimiento mediante el cual una respuesta que previamente se

reforzaba se deja de reforzar, es decir, se deja de presentar la consecuenciaque se presentaba anteriormente cuando la respuesta operante era emitida.

Ley del Efecto: Principio de Aprendizaje enunciado por Thorndike «De lasmuchas respuestas dadas en la misma situación, las que vayan acompaña-das o inmediatamente seguidas de satisfacción para el animal, en igualdadde condiciones, se conectarán más firmemente con la situación; de maneraque cuando ésta vuelva a presentarse, volverán a presentarse con gran pro-

babilidad».

Procedimiento de marcado: Es una forma de evitar los efectos de la demoraen la entrega del reforzador. Este procedimiento consiste en marcar la res-

pues ta haciendo que ésta pueda diferenciarse de otros eventos que ocurrendurante el período de demora.

Reforzamiento positivo: También llamado entrenamiento de recompensa, esun procedimiento de condicionamiento instrumental en el que una conse-cuencia apetitiva se presenta de forma contingente a una respuesta y estotiene como resultado un aumento de la tasa de respuesta.

Reforzamiento secundario: Proceso por el que un estímulo o evento que

originalmente no es reforzante puede adquirir capacidad de reforzamientomediante la asociación repetida con otro que era previamente reforzante.

Tasa de respuesta: Número de respuestas emit idas por unidad de tiempo.

205



REFERENCIAS

Adams, C. D. (1982). Variations in the sensitivity of instrumental respondingto reinforcer devaluation. The Quarterly Journal of Experimental Psychology Section B, 34, 7798.

A l f e r i n k , L. A . ; C r o s s m a n , E. K. y C h e n e y , C . D . (1973). Control of responding by a condit ioned re inforcer in the presence of free food. Anim al Learning & Behavior, 1, 3840.

Amsel, A. (1962). Frustrative nonreward in partial reinforcement and discrimination learning: some recent history and a theoretical extensión. Psychol Rev, 69,306328.

— (1992). Frustration theory : an analysis o f dispositional learning and memoiy. Cambridge ; New York: Cambridge University Press.

Az r in , N . H . ; Hu tc h inson , R . R . y Ha ke , D . F . (1966). E x t i n c t i o n i n d u c e d a g g r e s

s ion . J Exp Anal Behav, 9, 191204.B a x t e r , D. A. y B y r n e , J. H. (2006). Feeding behavior of Aplysia: a model system

for comparing cellular mechanisms of classical and operant conditioning. Learn Mem, 13, 669680.

B e r m e j o , R.; A l l a n , R. W.; H o u b e n , A . D.; D e i c h , J. D. y Z e i g l e r , H. P. (1989).Prehensión in the pigeon. I. Descriptive analysis. Exp Brain Res, 75, 569576.

B o u t o n , M. E. (1993). Context, time, and memory retrieval in the interference paradigms of Pavlovian learning. Psychol Bull, 114, 8099.

B o u t o n , M. E.; T o d d , T. P.; V u r b i c , D . y W i n t e r b a u e r , N. E. (2011). Renewal afterthe extinction of free operant behavior. Learn Behav, 39, 5767.

B r e l a n d , K. y B r e l a n d , M. (1961). The misbehavior of organisms. American Psychologist, 16, 681684.

C o l w i l l , R . M . y R e s c o r l a , R . A . ( 1 9 8 5 ) . Postconditioning devaluation of a rein-forcer affects instrumental responding. Journal o f Experimental Psychology:

Anim al Behavior Processes, 11, 120132.

C r e s p i , L. P. (1942). Quantitative variation of incentive and performance in thewhite ral. American Journal o f Psychology, 55, 467517.

Ch ol iz , M. (2010) . Experimental analysis of the game in pathological gamblers: effectof the immediacy of the reward in slot machines. J Gamhl Stud , 26, 249256.

D i c k i n s o n , A. y B a l l e i n e , B . (1993). Actions and responses: The dual psychology of behaviour. en Eilan, N.; McCarthy, R. y Brewer, B. (eds.), SpatialRepresentaron. Oxford: Oxford University Press.

E v e r i t t , B. J.; B e l i n , D.; E c o n o m i d o u , D.; P e l l o u x , Y.; D a l l e y , J. W. y R o b b i n s , T. W.

( 2 0 0 8 ) . R e v i e w . N e u r a l m e c h a n i s m s u n d e r l y i n g t h e v u l n e r a b i l i t y t o d e v e l o p


206



compulsive drugseeking habits and addiction. Philos Trans R Soc Lond B Biol Sci, 363, 31253135.

Fa l l s , W. A . (1998) . Ex t inc t ion : A re v ie w o f the o ry a nd the e v ide nc e sugge s t ing

t h a t m e m o r i e s a r e n o t e r a s e d w i t h n o n r e i n f o r c e m e n t . Learning and behavior therapy, 205229.

H a j c a k , G.; M c D o n a l d , N. y S i m o n s , R. F. (2004). Errorrelated psychophysiologyand negative affect. Brain Cogn, 56, 189197.

H e r r s t e i n , E. J. (1966). Superstition: A corollary of the principies of operant conditioning. In W. K. Honig (Ed.), Operant behavior: areas o f research and application (pp. 3351). New York: AppletonCenturyCrofts.

I s o n , J. R. (1962). Experimental extinction as a function of number of reinforcements. Journal o f Experimental Psychology, 64, 314317.

K e i n a n , G. (2002). The effects of stress and desire for control on superstitious beha-

vior. Personality and Social Psychology Bulletin, 28, 102108.K e l l e h e r , R. T. y G o l l u b , L. R. (1962). A review of positive conditioned reinforce

ment. J Exp Anal Behav, 5, 543597.Klein, B. G., LaMon, B., & Zeigler, H. P. (1983). Drinking in the pigeon (Columba

livia): Topography and spatiotemporal organization. Journal of ComparativePsychology, 97, 178181.

L a t t a l , K. A. (2010). Delayed reinforcement of operant behavior. J Exp Anal Behav, 93, 129139.

L i e b e r m a n , D. A.; M c I n t o s h , D. C. y T h o m a s , G. V. (1979). Learning when reward

is delayed: a marking hypothesis. J Exp Psychol Anim Behav Process, 5, 224242.L o r e n z e t t i , F. D.; B a x t e r , D. A. y B y r n e , J. H. (2011). Classical conditioning ana

log enhanced acetylcholine responses but reduced excitability of an identifiedneuron. J Neurosci, 31, 1478914793.

M a s o r o , E. J. (1992). Retardation of aging processes by food restriction: an expe-rimental tool. Am J Clin Nutr , 55, 1250S1252S.

— (2005). Overview of caloric restriction and ageing. Mech Ageing Dev, 126, 913922.M e l l g r e n , R. L. (1972). Positive and negative contrast effects using delayed rein-

forcement. Learning and Motivation , 3, 185193.

M i t c h e l l , E. N . ; M a r s t o n , H. M .; N u t t , D. J. y R o b i n s o n , E. S. (2012). Evaluationof an operant successive negative contrast task as a method to study affectiveState in rodents. Behav Brain Res, 234, 155160.

M y e r s , J. L. (1958). Secondary reinforcement: a review of recent experimentat ion. Psychol Btill, 55, 284301.

N e v in , J. A. (1988). Behavioral momentum and the partial reinforcement effect. Psychological Bulletin, 103, 4456.


207



P e t e r s o n , C. (1993). Helpless behavior. Behav Res Ther, 31, 289295.S e l i g m a n , M. E. y M a i e r , S . F. (1967). Failure to escape traumatic shock. J Exp

Psychol, 74, 19.S e l i g m a n , M. E. P. (1975). Helplessness: on depression, development, and death. San

Francisco: W. H. Freeman.S e n k o w s k i , P. C. (1978). Variables affecting the overtraining extinction effect

in discretetrial lever pressing. Journal o f Experimental Psychology: Anim al Behavior Processes, 4, 131143.

S h a h a n , T. A. y L a t t a l , K. A. (2005). Unsignaled delay of reinforcement, relativetime, and resistance to change. J Exp Anal Behav, 83, 201219.

S h e t t l e w o r t h , S . J. (1975). Reinforcement and the organization of behavior ingolden hamsters: Hunger, environment, and food reinforcement. J Exp Psychol

Anim Behav Process, 104, 5687.

S k i n n e r , B. F. (1938). The behavior of organisms. New York: AppletonCenturyCrofts.

— (1948). Supers ti tion in the pigeon. Journal o f Experimental Psychology, 38, 168172.

— (1953). Science and hum an behavior. New York: Macmillan. — (1971). Beyond freedom and dignity ([ 1st ed.). New York: Knopf.S t a d d o n , J . E . y S i m m e l h a g , V . L . (1971). The «supersitition» experiment: A

reexamination of its implications for the principies of adaptive behavior. Psychological Review, 78, 343.

T h o r n d i k e , E. L. (1898). Animal intelligence: an experimental study of theassociative processes in animals. Psychological Review Monograph, 2 (Whole

N°.8). — (1911). Anim al intelligence : experimental studies. New York: The Macmillan

company.T o m b a u g h , T . N. (1967). The overtraining extinction effect with a discretetrial bar

press procedure. J Exp Psychol, 73, 632634.W e i n d r u c h , R. (1989). Dietary restriction, tumors, and aging in rodents. J Gerontol,

44, 6771.

— (1996). The re tard ation of aging by caloric restriction: studies in rodents and primates . Toxicol Pathol, 24, 742745.W e i n d r u c h , R.; W a l f o r d , R. L.; F l i g i e l , S. y G u t h r i e , D. (1986). The retardation of

aging in mice by dietary restriction: longevity, cáncer, immunity and lifetimeenergy intake. J Nutr, 116, 641654.

W e n z l a f f , R. M. y G r o z i e r , S. A. (1988). Depression and the magnification of fai-lure. J Abnorm Psychol, 97, 9093.


208




W i l l i a m s , J. y L i e r l e , D. (1986). Effects of stress controllability, immunization,and therapy on the subsequent defeat of colony intruders. Anim al Learning &

Behavior, 14, 305314.Z a p a t a , A.; M i n n e y , V. L. y S h i p p e n b e r g , T. S. (2010). Shift from GoalDirected to

Habitual Cocaine Seeking after Prolonged Experience in Rats. The Journal of Neuroscience, 30, 1545715463.

Z i m m e r m a n , D. W. (1963). Functional laws and reproducible processes in behavior. Psychological Record, 13, 163173.

209





T e m a 5

PROGRAMAS Y TEORÍASDEL REFORZAMIENTO

Ricardo Pellón Suárez de Puga

1. Programas de re forzam iento ............................................................. 217

1.1. Programas básicos de reforzamiento ......................................... 2171.1.1. Programas de razón frente a programas de intervalo:

funciones de retroalimentación .......................................... 2251.2. Programas de reforzamiento diferencial de tiempos entre

respuestas .......................................................................................... 230

1.2.1. Teoría del reforzamiento diferencial de los tiempos entre

respuestas ............................................................................... 231

1.3. Programas compuestos de reforzamiento ................................ 2331.3.1. Programas alternantes y secuenciales: el control por el estímulo y el reforzamiento condicionado ....................... 233

1.3.2. Programas simultáneos: programas concurrentes y programas combinados .................................................... 236

2. Conducta de elección ........................................................................... 238

2.1. La ley de igualación ........................................................................ 2392.2. Maximización: elección entre program as con currentes

de razón .............................................................................................. 2412.3. Igualación temporal ....................................................................... 2432.4. Ley generalizada de la igualación ............................................... 2442.5. Teorías de la igualación ................................................................ 251

2.6. Impulsividad y autocontrol: la eleccióncon comprom iso ...... 254

2.7. La noción de valor de los reforzadores ...................................... 257

2.8. La tasa de respuesta en relación a la ley de igualación ......... 259

211



3. La naturaleza de la asociación en el aprendizajeinstrum enta l ............................................................................................ 261

4. Reglas de ejecución operan te ............................................................ 266

4.1. Teoría de la probabil idad diferencial ......................................... 267

4.2. Teoría de la privación de respuesta ............................................ 270

Referencias .................................................................................................... 280


212



P r o g r a m a s y t e o r í a s d e l r e f o r z a m i e n t o

Castigo: Procedimiento del condicionamiento operante por el que las conse-cuencias de la conducta tienen como resultado la disminución de la proba-

bilidad de emisión de dicha conducta, bien sea a través de la presen tacióncontingente de consecuencias aversivas o de la retirada de consecuenciasde naturaleza apetitiva.

Conducta supersticiosa: Conducta quie es reforzada por la aparic ión aza ro-sa de un reforzador. Fue explicada por B. F. Skinner mediante la idea delre forzamiento accidental o adventicio. Otros autores la atribuyen a factoresfilogenéticos.

Conductismo: Término que hace referencia a la teoría psicológica por la que

se considera a la conducta como objeto de estudio en sí misma y que hatomado diferentes interpretaciones (conductismos) a lo largo de la historia,destacando la distinción clásica entre neoconductismo (como en C. L. Hull)y conductismo radical (B. F. Skinner), o la más actual entre conductismomolar y molecular.

Constructo hipotético: Entidad hipotética que se refiere a un concepto noobservacional pues por definición los constructos no se pueden demostrar,no son directamente manipulables y se infieren de la observación de laconducta.

Efectos de contraste: Disminuciones o aumentos de la respuesta debido ala experiencia anterior (o simultánea) con recompensas, respectivamente,más o menos favorables a la actualmente experimentada.

Estímulos discriminativos: Estímulos que han adquirido cierto grado decontrol sobre la emisión de la conducta en virtud de que en su presenciala conducta ha sido seguida de consecuencias reforzantes o castigadoras.

Reforzador: Evento ambiental (que puede ser un estímulo o la realización

de una actividad) que programado de forma contingente a una respuestaincrementa su probabilidad futura.

Reforzador (demora del): Manipulación experimental por la que se alterael intervalo temporal entre la emisión de la respuesta y la consecución delreforzador, resultando en una menor efectividad de los reforzadores cuantomás demorados (principio de contigüidad temporal).


213



Reforzador (magnitud del): Manipu lación experimental por la que se altera lacantidad de reforzador que se entrega como consecuencia de la respuesta,de manera que normalmente resultan preferidos los reforzadores que seanmás grandes.

Reforzamiento condicionado: Proceso por el que un estímulo o evento queoriginalmente no es reforzante puede adq uirir capacidad de reforzamientomediante la asociación repetida con otro que era previamente reforzante.

Reforzamiento positivo: También llamado entrenamiento de recompensa,es un procedimiento del condicionamiento operante por el que una conse-cuencia apetitiva se presenta de forma contingente a una respuesta y estotiene como resultado un aumento de la respuesta.

Respuesta operante: Acción que lleva apare jada u na consectiencia, que puedeser apetitiva o aversiva, y que se define por su función más que por su topo-grafía.

Tasa de reforzamiento: Número de reforzadores obtenidos por un idad detiempo.

Tasa de respuesta: Número de respuestas emit idas po r unidad de tiempo.

Variable interviniente o intermedia: Es una variable que no se refiere afactores de causa o efecto pero que modifica (interviene) en las relaciones

de otras variables, lo que aplicado a la teoría psicológica sería suponer laintervención de procesos no directamente observables pero que se puedenhacer operacionales con el fin de ser manipulados experimentalmente.


214




O b j e t i v o s

• Conocer los principales programas de reforzamiento, tanto básicos comocompuestos.

• Distinguir los programas de razón y de intervalo, teniendo en cuenta si sonfijos o variables.

• Conocer los patrones conductuales que generan los distintos programas dere forzamiento.

• Conocer los program as de reforzamiento diferencial de tasas de respues ta yla teoría del reforzamiento diferencial de los tiempos entre respuestas.

• Conocer los fundamentos de la ley de igualación, las variables que relaciona

y cómo predice la conducta en diferentes circunstancias de elección.

• Conocer los principales estudios sobre “autocontrol” y el uso de programasconcurrentes encadenados.

• Conocer las relaciones asociativas estímulorespuesta y estímuloconsecuencia como potencialmente responsables del aprendizaje instrumental.

• Conocer el principio de Premack y los principales conceptos relacionadoscon la regulación conductual, como el punto de bienestar y la distribuciónde la respuesta.

215





1. PROGRAMAS DE REFORZAMIENTO

Los program as de reforzamien to ha n sido una de las áreas de investiga-ción más activas del condicionamiento operante, donde se puede apreciarla relación funcional existente entre el estímulo discriminativo, la respuestaoperante y el reforzador (Ferster y Skinner, 1957). Constituyen, pues, uno

de los determinantes más importantes de la conducta y aquí explicaremossus principales características.

1.1. Programas básicos de reforzamiento

La forma en que se programan los reforzadores contingentemente conla emisión de una respuesta operante constituyen los programas de refor-zamiento. Cada uno de los programas de reforzamiento especifica una regla

que determina las condiciones en las que una respuesta puede ser reforza-da. Normalmente no se refuerzan todas las respuestas que emiten los suje-tos experimentales, tan sólo algunas de ellas lo son. La conducta producidaen circunstancias como ésta se dice que se ha aprendido bajo un programaintermitente de reforzamiento, y el reforzamiento intermitente o parciales, de hecho, lo que generalmente mantiene todo comportamiento condi-cionado de forma operante. Así, por ejemplo, no siempre que nos atraigauna persona tend remos éxito en nuestras proposiciones para establecer unarelación personal. El reforzamiento parcial, en comp aración con el refor-

zamiento continuo, produce un aprendizaje más duradero , que poste rio r-mente resulta más difícil de extinguir. La mayor resistencia a la extincióndespués del reforzamiento parcial ha sido motivo de un extenso trabajoexperimental (véase más información en el Capítulo 4), a la vez que se han

propuesto diferen tes hipótesis explicativas para el efecto del re fo rzamiento parc ia l en la ex tinción (como revisiones consultar Lewis, 1960; Robbins ,1971). El análisis experimental de los programas de reforzamiento, sin em-

217



bargo, se ha centrado principalmente en sus efectos sobre la adquisic ión, por lo que será en la adquis ic ión y no en la ext inción donde considera remoslos efectos diferenciales de los programas de reforzamiento (consultar lasrevisiones de Morse, 1966; Zeiler, 1977).

Se han investigado muy diferentes formas de pro gramar los reforzadoresde forma intermitente, habiéndose destacado que los programas principalesy más básicos de reforzamiento positivo intermiten te se pueden clasificar endos grandes bloques: programas de razón y programas de intervalo. En palabras de Ferster y Skinner (1957), autores de un texto clásico que compila unconjunto de experimentos sobre las diversas formas de programar la entregade los reforzadores: «Un program a de re forzamiento puede definirse sin refe-rencia a sus efectos sobre la conducta. De esta manera, una respuesta puede

ser reforzada en base al tiempo que ha transcurrido desde que se administróel reforzador precedente, o en base al número de respuestas que han sidoemitidas desde que se administró el anterior reforzador. Un programa dado

puede ser fijo o puede variar, ya sea al azar, ya sea de acuerdo con un plan.Estas dos posibilidades sumin istran cuatro programas básicos: intervalo fijo,intervalo variable, razón fija y razón variable. Pero otras posibilidades exis-ten, así como muchas combinaciones de tales programas» (p. 2).

Los programas de razón estipulan que se debe emitir un determinadonúmero de respuestas antes de que la última de ellas sea reforzada. Los

programas de intervalo establecen que debe pasar un determinado tiempo desde la consecución del re fo rzador anterior antes de que la re spuestarequerida sea de nuevo reforzada. El requisito del número de respuestasen los programas de razón, o del tiempo transcurrido en los programas deintervalo, es a partir de la ocurrencia del reforzador anterior (véase la citaanterior de Ferster y Skinner).

Los programas de razón y de intervalo pueden a su vez clasificarse en programas variab les y programas fijos, resultando de es ta combinación, ycomo se ha dicho antes, cuatro programas básicos de reforzamiento: razónfija, razón variable, intervalo fijo e intervalo variable.

En un programa de razón fija, el número de respuestas requerido paraque se administre el reforzador siempre es el mismo, de mane ra que consis-tentemente se tiene que dar el mismo número de respuestas para conseguircada reforzador. Los programas de razón fija se abrevian por la sigla RF seguida de un núm ero que indica el valor del núm ero de respuestas requeri


218



do, por ejemplo RF50. El programa RF1 es lo que anteriormente denomi-namos como reforzamiento continuo, al ser reforzada cada respuesta. Un programa de razón variable requiere un número de respuestas que varíade una ocasión a la siguiente de manera irregular alrededor de un número promedio de respuesta s por cada re forzador y se abrevian por la sigla RV, de manera que por ejemplo en un programa RV100 se conseguirá el re-forzador si en promed io se han emitido cien respuestas, en unas ocasionesmás y en otras menos, resultando 100 como valor medio.

Los programas de intervalo fijo son aquellos que, al mantener cons-tante el tiempo requerido para que se entregue el siguiente reforzador,reforzarán la primera respuesta que ocurra después de que haya transcu-rrido un tiempo siempre igual desde que se dispensó el anterior reforzador;

mien tras que los programas de intervalo variable son aquellos donde varíala cantidad de tiempo necesaria que deber transcu rrir entre un reforzadory el siguiente antes de que una respuesta sea reforzada, dando lugar a unvalor promedio de intervalo entre reforzadores. Los programas de interva-lo, como los de razón, se pueden abreviar con las siglas IF e IV, respectiva-mente, seguidas del valor numérico que indica la cantidad de tiempo quenecesariamente debe transcurrir, por ejemplo IF 60seg o IV 60seg.

Cada uno de estos cuatro programas básicos de reforzamiento produceuna ejecución conductual característica y diferente, que puede ser aprec ia-

da a simple vista examinando la forma cómo se distribuyen las respuestas alo largo del tiempo. Una forma de registrar las respuestas de manera auto-mática y continuada es con un registrador acu-mulativo. El registrador acumulativo consisteen un rollo de papel que, gracias a la acción deun pequeño motor, gira a velocidad constantea lo largo de un rodillo (hoy existen versionesinformáticas que han sustituido a estos viejosaparatos de registro). Sobre el papel se apoyan

dos plumillas que van dibujando determinadaslíneas a medida que éste avanza. Como se pue-de apreciar en la Figura 5.1., la primera plu-milla sirve para medir las respuestas del sujetoexperimental. Cuando se registra una respues-ta, la pluma se mueve verticalmente una deter-minada distancia desde su posición inicial. En


Ejemplo

Ejemplos cotidianosdel funcionamiento delos programas básicosde reforzamiento son eltrabajo a destajo (RF),los juegos de azar (RV),

el tiempo dedicado a es-tudiar en base a fechas

programad as de examen(IF) y el chequear repet i-damente el correo elec-trónico mientras se estáusando internet (IV).

219




la Figura 5.1. se ve cómo las respuestas se van acumulando a lo ancho del papel (el eje de ordenadas), siendo el largo del mismo (el eje de abscisas),el tiempo transcurrido. De esta forma se obtiene, acumulando, un registrodirecto de la conducta del sujeto experimental en función del tiempo. Enlos registros acumulativos resultantes se puede medir, por tanto, el númerode respuestas (veces que la pluma se mueve hacia arriba) y el número de

pausas (veces que la pluma no se mueve). También se puede medir el tiempo transcurrido entre una respuesta y la sigu iente (TER: tiempo entre respuestas) o el tiempo to ta l empleado en responder o en esta r sin responder,así como la perseverancia, índice que relaciona proporcionalmente ambos

periodos tempora les (t iempo empleado en esta r re spondiendo dividido porel tiempo que se ha estado sin responder). El resultado de registrar las respuesta s de esta manera es una curva acumulativa continua que refleja la

tasa de respuesta (el número de respuestas por unidad de tiempo) en cual-quier momento de un experimento de condicionamiento operante.

La capacidad del re-gistrador acumulativo, sinembargo, no se limita ex-clusivamente a registrar elnúm ero de respuestas. Pue-de, al mismo tiempo, dejarconstancia de la ocurrenciade otros sucesos ambien-tales. Los reforzadores sesuelen indicar mediante undesplazamiento descenden-te de la misma plumillautilizada para registrar lasrespuestas, resultando enuna pequeña marca diago-nal en el papel. Una segun-da plumilla, fija a lo largode la base del papel, seutiliza normalmente paraseñalar la presentación delos estímulos discriminati

Figura 5.1. Dibujo esquemático que representaun registrador acumulativo.

vos. En la Figura 5.1. tam

220

Plumilla marcadorade las respuestas Plumilla marcadora

de los estímulosdiscrimina ti vos

Respuestas

Reforzadores'------►

Rollo de papel



bién se pueden observar regis tros de los estímulos discriminativos y de losreforzadores.

La observación de la forma cómo se distribuyen las respuestas en un re-

gistro acumulativo permite una lectura fácil de la tasa de respuesta y de loscambios asociados a ella que ocurren en función del tiempo. Dado que el papel avanza a una velocidad constante , cuando se re sponde rápidamente(a una tasa alta de respuesta), el registro será muy inclinado. Si po r el con -trario, la tasa de respuesta fuera muy baja, el registro sería prácticamente plano; re sultando en un regis tro con una pendiente intermedia cuando latasa de respuesta sea de un valor medio. El registrador acumulativo, portanto, presenta ciertas ventajas con respecto a otras técnicas de medida.Se pueden medir las respuestas incluso cuando estas ocurren muy rápi-

damente y registrar estructuras complejas de comportamiento sin perderdetalles de cambios relativamente pequeños en la conducta. Los registrosacumulativos proporcionan una medición no contaminada de las respues-tas de los sujetos experimentales d urante periodos prolongados de tiempo,resultando que en cada uno de los program as de reforzamiento la ejecuciónconductual en los registros acumulativos es distintiva y peculiar. Aunque suuso como forma de informar de resultados experimentales ha disminuidoen estos últimos años, es muy útil en el trabajo diario del laboratorio porlas razones anteriormente señaladas.

En la Figura 5.2. se representan los registros acumulativos más caracte-rísticos de los programas de RF, RV, IF e IV.

Los programas de RV (panel b) proporcionan tasas de respuesta muyaltas y constantes, que a veces se aproximan a los límites de capacidadfísica de los organismos. Los programas de IV (panel d) también propor-cionan tasas constantes de respuesta, aunque comúnmente son de un valorinferior a las producidas por los programas de RV. Ambos programas, porconsiguiente, y de manera contra ria a los program as fijos, proporciona n uníndice de perseverancia muy elevado.

La ejecución en un programa de RF (panel a) se caracteriza inicialmente por una ta sa elevada de respuesta , que se mantiene desde la primera re s- puesta después de haber obtenido el re fo rzador hasta la siguien te respuestareforzada. Esta ejecución alta y estable de conducta se desarrolla rápida-mente cuando la razón es relativamente pequeña. Sin embargo, cuando larazón es mayor, por ejemplo RF50 como la representada en la Figura 5.2.,


221







reforzador es limitada en el tiempo: se puede estipular un tiempo limitado para conseguir el reforzador. Esta clase de restricción del tiempo que estádisponible la recompensa («esperando a que se dé la respuesta») se llamaduración limitada. Las restricciones por duración limitada se pueden apli-car tanto a los programas de intervalo fijo como a los de intervalo variable.

La duración de la pausa postreforzamiento que ocurre en los pro-gramas de RF se incrementa sistemáticamente a medida que aumenta elrequ isito de la razón (Felton y Lyon, 1966; Powell, 1968). De igual forma, laduración de la pausa postreforzamiento está directamente relacionada conla longitud del programa de IF, de manera que a mayor duración del inter-valo mayor será la pausa (p. ej., Zeiler y Powell, 1994). En los programasde razón, a medida que se aumenta el requisito del número de respuestas,

se aumenta también el intervalo entre reforzadores, dado que se tarda másen completar las respuestas necesarias para conseguir el reforzador. Killeen(1969) mostró que la duración de la pausa postreforzamiento en los pro-gramas de RF depende más de la frecuencia de reforzamiento (que vienedeterminada por el intervalo temporal entre los reforzadores) que del pro-

pio requis ito del programa en cuanto al número de re spuesta s a real izar.

En los programas de razón, la duración de la pausa está determinadamás por el programa que se va a completar que por el que ha ocurridoinmediatamente antes, como se ha comprobado en estudios donde se han

utilizado programas múltiples de RF (Barón y Herpolsheimer, 1999; Crossman, 1968). En dichos estudios se han utilizado dos programas de RF dediferente longitud, siendo el inicio de cada uno de ellos señalado por unaclave discriminativa distinta (un programa múltiple, como se verá másadelante). Los programa s se pueden disponer en cuatro series secuencialesdistintas en base a la longitud corta o larga de la razón. Así, las transicionesde uno a otro programa de RF pueden ser: cortacorta, largalarga, cortalarga, largacorta. Si el programa que va a ocurrir es el responsable de lalongitud de la pausa, se deben esperar pausas más largas en las secuencias

cortalarga y largalarga que en las secuencias cortacorta y largacorta, porcuanto el requisito del programa que se tiene que completar es mayor enlos primeros casos que en los segundos. Si el programa que ya ha ocurridofuera el responsable de la pausa subsiguiente, las pausas más largas de- berían ocurrir cuando el programa precedente hubiera sido una RF larga,como en las secuencias largalarga y largacorta. Los resultados parecencomprobar que la longitud de la pausa postreforzamiento está mejor pre


224



dicha por el programa de RF que va a ocurrir que por el que ya ha ocurrido,y esto puede ser debido a que las RF más largas increme ntan la separaciónentre las respuestas iniciales y el reforzador que ocurre al final de la seriede respuestas, de manera que es más contiguo con las últimas respuestasque con las primeras (Mazur, 1998). En los programas de intervalo, la pau-sa postreforzamiento tiende a ajustarse proporcional y rápidamente a loscambios en la frecuencia de reforzamiento (p. ej., Higa, Wynne y Staddon,1991; Lejeune, Ferrara, Simons y Wearden, 1997).

Aunque en principio pueda parecer paradójico, las variables de controlsobre la longitud de la pausa postreforzamiento no son tan diferentes enlos programas de intervalo y en los programas razón, y eso a pesar de queen los programas de razón el dejar de responder lleva a una pérdida efectiva

de reforzadores (cuanto más rápido se responda más reforzadores se ob-tendrán), siendo la frecuencia de reforzamiento y el program a que se acabade iniciar determinantes fundamentales. ¿Son en todos los aspectos los pro gramas de razón y de intervalo explicables por los mismos mecanismos?


1.1.1. Programas de razón frente a programas de intervalo: funciones de retroalimentación

Cuando se igualan las tasas y patrones de reforzamiento, la tasa de respuesta suele ser mayor en los programas de razón que en los de intervalo(Baum, 1993; Catania, Matthews, Silverman y Yohalem, 1977; Colé, 1994;Peele, Casey y Silberberg, 1984). Esto se ha investigado median te un proce -dimiento que asigna un valor de intervalo a un programa de reforzamientoen función de lo que hayan tardado los animales en com pletar previamenteun programa de razón (midiendo el tiempo que les haya llevado realizartodas las respuestas requeridas: véase posteriormente la descripción de

programa entrelazado en el Apartado 1.3.2.). De esta manera los programas

de intervalo y de razón se equiparan en cuanto al número de reforzadoresobtenidos y en cuanto a la distribución de los mismos. En la Figura 5.3. serepresentan registros típicos de programas de RV e IV acoplados de estamanera (las líneas discontinuas verticales indican el momento de ocurren-cia de los reforzadores, que como se puede ver coinciden en los dos pro-gramas) y, como se puede apreciar, el programa de RV generó una tasa derespuesta mucho más alta que el programa de IV.

225




Figura 5.3. Registros acumulativos de programas de razón variable e intervalo variableacoplados en cuanto a la frecuencia y patrón de reforzamiento (indicado por las marcas

diagonales en los registros y por las líneas verticales discontinuas que los relacionan).(Adaptado de Benjumea, S., Programas de reforzamiento y conducta de elección, en

Pineño, O., Vadillo, M.A., y Matute, H. Psicología del aprendizaje, Badajoz: Abecedario,2007).

En los programas de intervalo, la tasa de respuesta no influye directa-mente sobre la frecuencia de administración de los reforzadores (la tasade reforzamiento), mientras que la tasa de reforzamiento varía de maneradirecta con los cambios en la tasa de respuesta en los programas de razón(comparar las líneas verticales que interseccionan con el eje de abscisasen los paneles c y d de la Figura 5.2., con las líneas horizontales que inter-seccionan con el eje de ordenadas en los paneles a y b). Una explicaciónde estas diferencias es que los programas de intervalo (particularmente

IV) tienden a reforzar TER largos, porque el mero paso del tiempo llevaa un incremento en la probabilidad de reforzamiento. Dado que en los programas de IV se generan TER largos, éstos se re fo rzará n y llegarán a predominar, reduciendo as í la ta sa de respuesta (Anger, 1956; Colé, 1999).Los program as de razón (particularmente RV) no presentan la tendenc ia dereforzar diferencialmente un TER particular y, por tanto, no favorecen laocurrencia de TER largos. Es más, dada la tendencia a responder en ráfagas

226



de respuestas se hace más probable que el reforzador actúe sobre TER cor-tos. Baum (1989) ha denominado este tipo de explicación como molecular, porque un acontecim iento que puede ocurr ir en un dete rm inado momento ,en este caso el reforzamiento de un TER, es suficiente para producir unefecto. El mecanismo explicativo implicado sería las variaciones momentoa momento en la contigüidad respuestareforzador.

Una segunda forma de explicar las diferentes tasas de respuesta gene-radas por los programas de razón y de intervalo parte de que en los pro-gramas de RV existe una correlación directa entre la tasa de respuesta y latasa de reforzamiento (Baum, 1973; Rachlin, 1978). La tasa de respuestatenderá a aumentar para maximizar la tasa de reforzamiento. En los pro-gramas de IV, sin embargo, no existe virtualmente ninguna relación entre la

tasa de respuesta y la tasa de reforzamiento. Por mucho que se incremen tela tasa de respuesta, la tasa de reforzamiento sufrirá poca variación. Baum(1989) ha denominado este tipo de explicación como molar, porque lasvariables efectivas —la tasa de reforzamiento y su dependencia de la tasade respuesta— son fenómenos temporalmente extensos, haciendo énfasisen la correlación frente a la contigüidad. Las correlaciones entre la tasade respuesta y la tasa de reforzamiento han sido denominadas funcionesde retroalimentación (véase posteriormente el apartado sobre conducta deelección).

Las relaciones entre la conducta y el ambiente, como las establecidas por los progra mas de re forzamiento , se pueden describir, por tanto , entérminos de funciones de retroalimentación (Baum, 1973, 1992; Nevin yBaum, 1980). Una función de retroalimentación es una descripción dela forma en que actúa el ambiente, como la frecuencia de reforzamiento,la magnitud del reforzador, o la demora al reforzador, en función de algúnaspecto de la ejecución conductual. Las funciones de retroalimentación noasum en que la conducta esté bajo el control de una variable independiente,simplemente que la conducta afec tará a algún aspecto del ambiente. Los as-

pectos de la conducta y del re fo rzamiento son var iables dependientes, quese relacionan por funciones de retroalimentación, pero que no necesaria-mente tienen por qué mantener una relación causal (véase posteriormentela ley de igualación). En el condicionamiento operante, la obtención de losreforzadores programados depende de la emisión de la respuesta criterio,y así la tasa de reforzamiento obtenida es también una medida de una eje-cución eficiente.


227




La función de retroalimentación de la tasa de reforzamiento p ara la tasade respuesta en un programa de RF que requiera N respuestas por reforza-dor es R = B/N, donde R es la tasa de reforzamiento obtenido y B es la tasade respuesta emitida. El resultado de aplicar esta ecuación para diferentes

progra mas de RF se re presenta en el panel superior de la Figura 5.4. Latasa de reforzamiento que obtiene el sujeto es proporcional a la tasa de res-

puesta realizada , y la pro porcio nalidad es el requis ito de la razón . Cuantomás rápido se responda, mayor será la tasa de reforzamiento, y el númerode respuestas requeridas para producir incrementos en la tasa de reforza-miento debe aumentar conforme se incrementa el requisito de la razón.La misma ecuación puede aplicarse para los programas de RV. Dado quela ejecución en los programas de RF y RV es diferente, deben existir otras

3c

U OaC/)cuuo<3 NU OcuP4

RF10

RF50RF100

RF200200

3C• i H

6U oaV)<Ui<oa NU O<D

0 50 100 150

IV 30s

IV 60sIV 120s

IV 240s

200

RespLies tas por minuto

Figura 5.4. Funcionesde retroalimentación para varios prog ramasde RF (panel superior)e IV (panel inferior) quemuestran las tasas dereforzamiento obtenidasen relación con las tasasde respuesta emitidas.

228



variables controladoras, para las que también se pueden postular funcionesde retroalimentación.

Las funciones de retroalimentación que relacionan la tasa de respuestay la tasa de reforzamiento son más difíciles de calcular para los programasde intervalo. Por ejemplo, en los programas de IV (y también en los de IF)la forma de la función es hiperbólica, como las representadas en el panelinferior de la Figura 5.4. Los cambios en la tasa de respuesta a tasas bajasde respuesta afectarán mucho a las tasas de reforzamiento, pero cuando lastasas de respuesta sean altas, los cambios en la tasa de respuesta tendrán

poco efecto sobre la tasa de reforzamiento . Cuanto más corto es el progra-ma de IV existe un mayor margen para que pequeños incrementos en lastasas bajas de respuesta produzcan incrementos sustanciales en la tasa de

reforzamiento. Las funciones se aplanan a partir de una tasa de respuesta, porque por mucho que se responda la ta sa máxim a de re fo rzamiento no puede aum entar más que el valor especificado por el programa de intervalo.

El que en los programas de intervalo existan áreas aplanadas en lasfunciones de retroalimentación indica que el control diferencial de la con-ducta es bastante débil, las contingencias de reforzamiento no empujan laconducta en ninguna dirección. Esta es la diferencia fundamental entrelos programas de intervalo y los programas de razón, como se vio con

anterioridad. Si la tasa de reforzamiento tiene una función de retroalimen-tación plana, o relativamente plana, con la conducta, el punto en el quelas variables dependiente e independiente llegan a la semiestabilidad es bastante impredecib le en base al conocim iento del va lor actual de la tasade reforzamiento. Es por esta razón que los programas de intervalo generanuna mayor variabilidad entre sujetos en la tasa de respuesta, es decir, seencontra rán más diferencias individuales en la tasa de respuesta entre unosanimales y otros bajo programas de intervalo que de razón.

El ejemplo paradigmático de una función de retroalimentación plana

es el experimento de superstición (véase el Capítulo 4), donde no hay con-tingencia programada entre la ocurrencia o no de la respuesta y la presen-tación del reforzador, ni por supuesto entre la tasa de respuesta y la tasade reforzamiento. Sin entrenamiento explícito, los animales desarrollanconductas de carácter innato que son específicas de la especie (Skinner,1948; Staddon y Simmelhag, 1971), que pueden considerarse resultado dela operación de historias conductuales remotas.


229




Ejemplo

Ejemplo de progra-ma RDA sería contes-

tar un cuestionario contiempo límite para ca-da pregunta, de maneraque si no se respondiesea una pregunta en eltiempo especificado sesaltaría a la siguiente,forzándose a responderantes de que venza eltiempo estipulado. Enlos partidos de tenis,hay un tiempo máximo

para poder efec tuar elsaque sin ser penaliza-do, esta limitación detiempo también defineuna contingencia RDA.El ser impacientes conla preparación de la co-mida en el horno o enla sartén puede hacer

que retirarla antes detiempo lleve a que setenga que volver a ini-ciar la acción de calen-tar la vitrocerámica o elhorno, lo que retrasaríasu preparación final. Es-ta contingencia sería deRDB. Ejemplos de pro-gramas RDB se puedenencontrar también en

la coordinación de los pasos de baile o de losinstrumentos musicales,cualquier aceleración enla conducta lleva a unresultado no reforzado(sino castigado).

1.2. Programas de reforzamiento diferen-cial de tiempos entre respuestas

Hemos visto en el apartado anterior que en ladiferente ejecución en los programas de razón eintervalo puede estar implicado el reforzamien-to diferencial de los TER. Para probar que elreforzamiento diferencial de los TER es posiblese diseñaron programas de reforzamiento espe-cíficos a tal fin, reforzando específicamente TERcortos y TER largos. El diseño básico de estos programas es elegir un tiempo determ inadoy reforzar únicamente los TER que sean máslargos que ese tiempo, lo que viene a definir los programas de Reforzamiento Diferencial de tasas Bajas de respuesta (RDB), o los TERmás cortos que el tiempo elegido, lo que vienea definir los programas de Reforzamiento Di-ferencial de tasas Altas de respuesta (RDA).

Los programas RDB se diferencian de los programas de IF en que, en los programas RDB

sólo se refuerza la respuesta si ha transcurri-do un tiempo especificado desde la anteriorrespuesta (un TER), mientras que en los pro-gramas de IF la respuesta es reforzada si hatranscurrido un tiempo determinado desde elante rior reforzador. Ello implica que en los pro-gramas RDB se añade una contingencia de cas-tigo para las respuestas que ocurren con ante-rioridad al tiempo especificado por el programa.

De esta forma, cualquier respuesta prematurareinicia el intervalo de tiempo especificado porel programa RDB. La única manera de obtenerel reforzador es, por tanto, refrenar la respuesta

por un tiempo y em itir la una vez transcurr idodicho intervalo temporal. Esta pequeña mo-dificación resulta en una ejecución operante

230



radicalmente diferente de la que se obtiene bajo un programa de IF. Nóteseque la contingencia añadida para las respuestas que ocurren antes de trans-currir el tiempo especificado debe ser considerada como un procedimientode castigo, por cuanto la consecuencia de la respuesta es la presentación deun tiempofuera de reforzamiento positivo, pero para la obtención del refor-zador sigue siendo necesario emitir la respuesta criterio (en el procedimientode entrenamiento de omisión, como se vio en el Capítulo 4, el reforzador se

presenta cont ingente con la no ocurrencia de la respuesta criterio).

El reforzador también se puede hacer contingente con la respuesta siesta ocurre antes de que haya transcurrido un tiempo determinado, lo quedefine el programa RDA. Aquí se refuerzan específicamente TER cortos,frente al reforzamiento diferencial de TER largos que ocurría en los progra-

mas RDB. En concreto, en un pro grama RDA se obtend rá el reforzado r si seresponde antes de que transcurra un tiempo especificado, y las respuestasque ocurran después de ese intervalo temporal simplemente reinician elintervalo (son diferencialmente castigadas). Es por ello que con este tipode programa de reforzamiento se obtienen tasas altas de respuesta. Laejecución en los programas RDA es más fácil que en los programas RDB,ya que es dificultoso el entrenamiento de reforzar específicamente una respuesta pero que no se haga de forma repetida. Esta dificultad para espera ra dar la respuesta en los programas RDB se puede deber a la inducción de

respuestas por el reforzamiento espaciado (Killeen y Pellón, 2013) y/o a ladegradación del valor del reforzador por encontrarse precisamente demo-rado desde la emisión de la respuesta criterio (ver Mazur, 2001).

1.2.1. Teoría del reforzamiento diferencial de los tiempos entre respuestas

Como se ha visto, los reforzadores no sólo refuerzan ejecutar Lina deter-

minada respuesta, refuerzan también el hacerlo a un determinado ritmo, conun determinado espaciamiento entre respuestas. La teoría del reforzamientodiferencial de los TER se basa en ese hecho para afirmar, como ya hemosvisto anteriormente, que en todos los programas de condicionamien to ope-rante se refuerzan específicamente TER de una duración determinada. Deacuerdo con esta teoría, en cada uno de los programas de reforzamiento sedebería reforzar el TER que ocurre precisamente antes de la administración


231



del reforzador, siendo este TER el tiempo que transcurre entre la penúltimarespuesta emitida en un intervalo entre reforzadores y la última respuestaque es la que directamente va seguida del reforzador. Los programas RDB yRDA están específicamente diseñados para reforzar, respectivamente, TERde duración larga y de duración corta. Sin embargo, en los programas dereforzamiento operante el sujeto experimental puede normalmente respon-der libremente en los periodos entre reforzadores, pero de suyo el patrón yla tasa de respues ta se ajustan al tipo de prog rama de reforzamiento que estáen funcionamiento. Así, se ha visto que dependiendo de si los reforzadoresse adm inistran de acuerdo a programas de razón o intervalo, cambiaba laejecución de los sujetos experimentales, de la mism a m anera que la ejecuciónde los sujetos también depende de si estos programas son fijos o variables.Los programas RV e IV consiguen una tasa de respuesta muy constante, esto

es, sin pausas postreforzamiento, con lo que la duración de los TER es muyhomogénea y es fácil a tribuir dicha ejecución al reforzamiento diferencial delos TER de una durac ión de terminada (más largos en los programas de inter-valo que en los de razón). Como apoyo a esta propuesta, Peele y cois. (1984)demostraron que la ejecución en los programas de IV y RV fue muy similarcuando la longitud de los TER reforzados en los dos programas se igualó através de un procedimiento de acoplamiento como el descrito anteriormente para las tasas de reforzamiento (Apartado 1.1.1.).

La ejecución en los programas de RF e IF, sin embargo, no es tan homo-génea como en los programas variables y normalmente se obtienen acusadas

pausas postreforzamiento. De acuerdo con la aplicación es tric ta de la teoríadel reforzamiento diferencial de los TER, los TER reforzados en los progra-mas de RF e IF deberían ser siempre muy cortos, puesto que los reforzadoresse presentan al final cuando los sujetos están respondiendo a una tasa alta.Si el mecanismo implícito en determinar la ejecución en los programas decondicionamiento operante fuera exclusivamente el reforzamiento diferen-cial de los TER, no se tendría por qué esperar que los sujetos dejaran deresponder inmediatamente después de haber conseguido el reforzador (la

pausa postreforzamiento), dado que este intervalo de tiempo no es otra cosaque un TER de muy larga duración, aquél que transcurre entre la respues-ta reforzada y la primera respuesta después del reforzador. Para solventaresta dificultad se han ideado diferentes alternativas que lo que hacen esconsiderar mecanismos adicionales que se combinen con el reforzamientodiferencial de los TER y así explicar tanto la constancia en los programas


232



variables como las variaciones en tasas de respuesta observadas en los pro-gramas fijos. Por ejemplo, se puede añadir un mecanismo de discriminacióntempora l para explicar que las pausas postreforzamiento que se obtienen enlos programas RF/IF obedecen a que los sujetos experimentales son capacesde discriminar con bastante eficacia el momento de entrega del reforzador(Lejeune, Richelle y Wearden, 2006) con lo que inmediatamente después deobtener cada reforzador la posibilidad de conseguir otro es altamente im probable. Aquí podrían considerarse teorías que basan su nivel explicativo enla competición entre respuestas, de manera que en unos momentos u otrosdel intervalo temporal entre reforzadores sucesivos se reforzarían respuestasdiferentes que explicarían los diferentes patrones de respuesta mostrados por los programas de reforzamiento (p. ej., Killeen y Pellón, 2013; Staddon,1977). Tanno y Silberberg (2012) han desarrollado recientemente un modelo

por el que el peso de cada TER cuenta en una función exponencial con respecto a la distanc ia a la ocurrencia del reforzador, de manera que los TERmás alejados pesarán (aportarán) menos que los más cercanos, lo que en suconjunto determinará la tasa de respuesta. Evidencia en favor de la mayorsensibilidad a los emparejamientos locales respuestareforzador frente a lasrelaciones globales entre la respuesta y el reforzamiento se puede encontraren Reed, Hildebrandt, DeJongh y Soh (2003) y en Tanno y Sakagami (2008).

1.3. Programas comp uestos de reforzamiento

Los programas compuestos resultan de la aplicación de dos o más pro-gramas básicos de reforzamiento y pueden dividirse en dos grandes bloques,aquellos donde la presentación de los programas componentes es secuencialy aquellos donde los componentes se presentan de forma simultánea. En lossiguientes apartados analizaremos estos dos tipos de programas.

1.3.1. Programas alternantes y secuenciales: el control por el estímulo y el reforzamiento condicionado

Los programas secuenciales son cuatro: programa mixto, programamúltiple, programa tándem y programa encadenado, siendo los dos prime-ros alternantes y los dos últimos estrictamente secuenciales. En la Tabla5.1. se esquem atiza n las diferencias entre ellos.


233




Tabla 5.1. Esquema que representa los programas compuestos alternantesy secuenciales

Sin Ed Con Ed

Alternantes Mixto MúltipleSecuenciales Tándem Encadenado

En un programa mixto se presentan dos o más programas básicosalternándose al azar. El cambio de uno a otro de los programas es inde-

pendie nte de la conducta del suje to en experimentación. Depende, sinembargo, de la duración de un tiempo establecido con anterioridad porel experimentador. Por ejemplo, si cada componente dura diez minutos,

durante los diez primeros m inutos estará en funcionamiento un prog ramade IF 60seg, de tal manera que se obtendrá un reforzador (p. ej., una bo-lita de comida) cada vez que se dé una respuesta (p. ej., presión de la pa-lanca) después de transcurridos 60 segundos desde el anterior reforzador.Durante los diez minutos siguientes estará en funcionamiento el segundo

pro gra ma, por ejemplo RF50, y as í durante ese tiempo se re forzará cadavez que el sujeto emita cincuenta respuestas consecutivas, para una vezfinalizados esos diez minutos volver a empezar el programa de IF 60segy así sucesivamente hasta un número de veces determinado previamente por el experimentador.

El programa múltiple es exactamente igual que el mixto con la diferen-cia de que cada componente se señala con una clave discriminativa distinta,

por ejemplo con una luz, con un sonido, o con cualquier otra es timulaciónambiental, y el sujeto es informado en todo momento de en qué parte del

programa múltiple se encuentra . Por ejemplo, el encendido de una luz puede indicar la presencia de un programa de IF 60seg, y cuando la luz seencuentre apagada el funcionamiento de un programa de RF50. Los pro-gramas múltiples han sido ampliamente utilizados en la investigación sobre

discriminación y generalización estimular en el condicionamiento operante(ver Honig y Urcuioli, 1981). Cuando, por ejemplo, un estímulo ambientalindique que las respuestas pueden ser reforzadas de acuerdo a un programade reforzamiento positivo y cuando un estímulo diferente señale la imposibi-lidad de conseguir reforzamiento positivo alguno, nos encontramos ante un programa múltiple donde se establece una discriminación entre un estímulodiscriminativo positivo (E+ o Ed) y un estímulo discriminativo negativo (E

234



o EA). El aprendizaje de una discriminación como la anterior consistiría enemitir respuestas en presencia del Ed y en omitirlas en presencia del EA, porlo que dicho programa múltiple permitiría estudiar el grado de control ejer-cido por los estímulos discriminativos sobre la respuesta instrumental. Laevaluación comportamental del control por los estímulos se efectúa en una prueba de generalización posterior al entrenamiento de discriminación. Elcontrol estimular se tratará con detalle en el Capítulo 6.

Un programa tándem consta al menos de dos programas simples quese presentan siempre en el mismo orden. Los sujetos experimentales debencompletar el primer programa para poder iniciar el segundo, al final delcual consiguen la administración del reforzador. A diferencia de los pro-gramas mixto/múltiple, en el programa tándem sólo es posible conseguir

el reforzador si se cumplen en sucesión los programas componentes, elcumplimiento del primero de ellos (y por extensión de todos los anterioresal último) sólo dará lugar a la posibilidad de realizar el siguiente, pero elreforzador sólo se conseguirá al termin ar de comple tar todos. Por ejemplo,un programa tándem IF 60seg RF50 se inicia con el programa de IF 60seg, de forma que la primera respuesta después de transcurridos 60 segun-dos da acceso al programa de RF50. Cuando se hayan emitido cincuentarespuestas se obtendrá el reforzador, lo que de nuevo puede permitir co-menzar el programa de IF 60seg y repetir el programa tándem durante un

determinado número de veces o durante un periodo fijo de tiempo que hasido determinado con anterioridad por el experimentador.

El programa encadenado es exactamente igual que el tándem, pero eneste caso cada uno de los dos programas simples está señalado de maneradiferente, de forma que el sujeto experimental conoce en qué componentedel programa se encuentra en cada momento. Habitualmente la termina-ción del primer programa se acompaña del encendido de una luz o de la presentación de un sonido, que perm anece en funcionamiento durante elsegundo programa hasta el momento de la consecución del reforzador. Por

ejemplo, en un programa encadenado IF 60seg RF50, la primera respuestauna vez transcurridos 60 segundos inicia el programa de RF50, al tiempoque provoca el encendido de una luz de la caja experimental, que perma-necerá encendida hasta que se complete la respuesta número cincuenta yse consiga el reforzador. Los programas encadenados se han utilizado paraestudiar el reforzamiento condicionado (ver la revisión de Gollub, 1977).El reforzamiento condicionado hace referencia al hecho de que algunos


235




estímulos adquieren capacidades reforzantes por su asociación con los re-forzadores primarios. Un cambio en el ambiente, como la presentación deuna luz, puede adquirir capacidades reforzantes de segundo orden por suemparejamiento con la comida. En los programas encadenados, el cambioen el ambiente producto de la finalización del primer programa adquiere

propiedades de re forzador por su asociación con el re forzador que se consi-gue al finalizar el segundo programa. Las propiedades reforzantes de estosestímulos se miden por su capacidad para encadenar respuestas, de maneraque los sujetos experimentales responden para conseguir dichos cambiosen el ambiente. Esta técnica del encadenamiento ha permitido estudiar enlos estímulos capacidades reforzantes de segundo orden, de tercer orden, eincluso de órdenes superiores (véase el Capítulo 4 para más detalles).

1.3.2. Programas simultáneos: programas concurrentes y programas combinados

Entre los programas compuestos simultáneos, los más importantes yconocidos son los programas concurrentes, que se caracterizan por dispo-ner simu ltáneam ente de al menos dos program as básicos de reforzamiento.Contrario a los programas secuenciales anteriormente expuestos, en los

programas concurrentes se puede cambiar de un programa a otro sin que

normalme nte haya sido necesario haber completado un tiempo o un n úm e-ro de respuestas en cada uno de los programas. Los sujetos experimentales,en consecuencia, deben elegir entre responder a uno u otro de los progra-mas que componen el programa concurrente. Por ejemplo, en una caja decondicionamiento podemos disponer de dos palancas de respuesta, una ala derecha y otra a la izquierda. En la palanca de la derecha puede estar enfuncionamiento un programa de IV 60seg y en la palanca de la izquierdaun programa de IV 30seg. En circunstancias experimentales como ésta, semide el número de respuestas en cada una de las palancas y se calcula la

proporción por la que se dis tr ibuyen las respuesta s entre una y otra.

Otros programas compuestos simultáneos consisten en combinacionesde un programa de razón y otro de intervalo, y existen al menos tres combi-naciones que deben distinguirse. En un programa alternativo se refuerzauna respuesta cada vez que se cumple con el requisito del programa derazón o el del intervalo, existiendo así dos formas de conseguir el reforza

236



estímulos adquieren capacidades reforzantes por su asociación con los re-forzadores primarios. Un cambio en el ambiente, como la presentación deuna luz, puede adquirir capacidades reforzantes de segundo orden por suemparejamiento con la comida. En los programas encadenados, el cambioen el ambiente producto de la finalización del primer programa adquiere

propiedades de re forzador por su asociación con el re forzador que se consi-gue al finalizar el segundo programa. Las propiedades reforzantes de estosestímulos se miden por su capacidad para encadenar respuestas, de maneraque los sujetos experimentales responden para conseguir dichos cambiosen el ambiente. Esta técnica del encadenamiento ha permitido estudiar enlos estímulos capacidades reforzantes de segundo orden, de tercer orden, eincluso de órdenes superiores (véase el Capítulo 4 para más detalles).


1.3.2. Programas simultáneos: programas concurrentes y programas combinados

Entre los programas compuestos simultáneos, los más importantes yconocidos son los programas concurrentes, que se caracterizan por dispo-ner simu ltáneam ente de al menos dos program as básicos de reforzamiento.Contrario a los programas secuenciales anteriormente expuestos, en los

programas concurrentes se puede cambiar de un programa a otro sin que

normalme nte haya sido necesario haber completado un tiempo o un n úm e-ro de respuestas en cada uno de los programas. Los sujetos experimentales,en consecuencia, deben elegir entre responder a uno u otro de los progra-mas que componen el programa concurrente. Por ejemplo, en una caja decondicionamiento podemos disponer de dos palancas de respuesta, una ala derecha y otra a la izquierda. En la palanca de la derecha puede estar enfuncionamiento un programa de IV 60seg y en la palanca de la izquierdaun programa de IV 30seg. En circunstancias experimentales como ésta, semide el número de respuestas en cada una de las palancas y se calcula la

proporción por la que se dist ribuyen las re spuesta s entre una y otra.

Otros programas compuestos simultáneos consisten en combinacionesde un programa de razón y otro de intervalo, y existen al menos tres combi-naciones que deben distinguirse. En un programa alternativo se refuerzauna respuesta cada vez que se cumple con el requisito del programa derazón o el del intervalo, existiendo así dos formas de conseguir el reforza

236



dor. En un programa conjuntivo se refuerza una respuesta cada vez quese cumple al mismo tiempo con el requisito de la razón y del intervalo. Porúltimo, en un programa entrelazado la respuesta que se refuerza viene de-terminada por dos programas, pero la disposición de uno de ellos se altera

por el desarrollo del otro. En este últ im o tipo de programa, una posibil idades que cierta suma de respuestas y de tiempo (p. ej., 10 respuestas, ó 6 res-

puesta s en 4 segundos, ó 3 respuesta s en 7 segundos, ó 10 segundos) debedarse antes de que la respuesta sea reforzada, o bien (como se ha visto conanterioridad) que algún valor recogido en un progra ma de razón determinelas características de un program a de intervalo.

Programas de reforzamiento (Resumen)

Los programas básicos de reforzamiento se construyen en base al requisitode haber realizado un número de respuestas o al de emitir la respuesta criteriodespués de pasado un tiempo, de manera que el cumplimiento del criterio espe-cificado lleva a la obtención del reforzador. Si se pide un nú mero de respuestas

por re forzador se tr ata de un programa de razón, que puede ser un númerofijo o puede variar para dar un valor promedio. Si se exige que haya pasadoun tiempo desde el reforzador anterior se trata de un programa de interva-lo, pu diendo ser el tiempo siempre el mismo o pudiendo va riar en to rno a unvalor medio. Estos requerimientos definen los programas de razón fija (RF),

razón variable (RV), intervalo fijo (IF) e intervalo variable (IV). Cuando alrequisito del tiempo desde el reforzador previo se le añade el requerimiento deque pase un determinado tiempo entre respuestas, se consigue una tasa bajade respuesta correspondiendo con el programa de reforzamiento diferencial de tasas bajas de respuesta (RDB). Igualmente se puede reforzar que seresponda antes de que haya pasado un tiempo determinado, constituyendo el

prog rama de reforzamiento diferencial de tasas altas de respuesta (RDA).

La ejecución en los programas de reforzamiento se puede explicar a nivelgeneral por funciones de retroalimentación que relacionan la conducta con elreforzador (aproximación molar) o a través de mecanismos específicos como

el reforzamiento diferencial de los tiempos entre respuestas (aproximación molecular).

Los programas básicos se pueden combinar para dar como resultado los programas compuestos. Los más utilizados han sido los programas mixto ymúltiple para el estudio del control estimular, los programas tándem y enca-denado para la investigación sobre re forzamiento condicionado, y los progra-mas concurrentes para el estudio de la conducta de elección.


237



2. CONDUCTA DE ELECCIÓN

Volviendo a los programas concurrentes, la elección o preferencia entrelas alternativas de respuesta se calcula por la tasa relativa de respuesta y serepresenta por el cociente:

Ra Ra +Rb

donde Ra y Rb representan, respectivamente, la tasa de respuesta en la al-ternativa a y la tasa de respuesta en la alternativa b.

El procedimiento de los programas concurrentes presenta ventajas

con respecto a procedimientos utilizados con anterioridad para medir laelección en el sentido de que se miden las preferencias de los sujetos pordos fuentes alternativas de reforzamiento pero para cuya consecuciónse requieren respuestas operantes semejantes (por ejemplo, presionar la

palanca a ó presionar la palanca b). Con anterioridad a los programasconcurrentes, muchos investigadores utilizaron procedimientos que se

podrían definir como de premios concurrentes (véase posteriormente elApartado 4) donde normalmente se daba a elegir a los sujetos entre dosactividades diferentes, como por ejemplo correr y beber, y se medía eltiempo que dichos sujetos experimentales empleaban en cada una de estasdos actividades conductuales. En base a los resultados que se obtenían, seinferían las preferencias relativas de los sujetos. Este procedimiento paramedir la elección no es el más adecuado en muchas circunstancias puesla elección entre premios concurrentes presenta la dificultad de compararentre sí dos actividades conductuales que implican respuestas consumatonas distintas. En los programas concurrentes, los sujetos ya no eligendirectamente entre diferentes premios, sino que eligen entre distintas al-ternativas que requieren una respuesta operante idéntica pero que puedenllevar a premios diferentes. Este procedimiento, frente a la elección entre premios concurrentes, se puede denominar de elección entre respuestas instrumentales concurrentes, y específicamente es el utilizado en los pro -gramas concurrentes de reforzamiento (para revisiones, consultar Davisony McCarthy, 1988; Williams, 1988).


238



2.1. La ley de igualación

El primero que utilizó los programas concurrentes de reforzamientocon la finalidad de estudiar la elección fue Herrnstein (1961), quien habíasido estudiante de doctorado de B. F. Skinner. Herrnstein utilizó un pro-grama concurrente donde las alternativas diferían en la tasa o frecuenciade reforzamiento, con cada alternativa proporcionando reforzamiento deacuerdo a un programa independiente de IV. Herrnstein observó que losanimales (palomas) distribuían sus respuestas en función de la frecuenciade reforzamiento en cada una de las alternativas y postuló lo que a partirde entonces se ha venido a conocer como ley de igualación. La ley de igua-lación afirma que la tasa relativa de respuesta entre dos alternativas derespuestas concurrentes es igual a la tasa (frecuencia) relativa de reforza-

miento asociada con cada una de dichas alternativas de respuesta, y quedóexpresada matem áticamente por la Ecuación 5.1 :

Ra _ Fa Ra +Rb Fa + Fb

donde Ra y Rb representan las tasas de respuesta en las alternativas a y b; y Fa y Fb representan la tasa (frecuencia) de reforzamiento asociada a lasalternativas a y b respectivamente.

En la Figura 5.5 se representan los principales resultados encontrados por Herrnstein (1961) referidos a tres palomas (números 055, 231 y 641)y que relacionan la tasa relativa de respuesta en el eje de ordenadas conla tasa relativa de reforzamiento en el eje de abscisas (aquí referido a por-centaje de respuestas y reforzadores en la tecla A). La ley de igualaciónestablece una equiparación entre la distribución de las tasas de respuestaen las alternativas a y b y la distribución de las tasas de reforzamiento endichas alternativas de respuesta. En los casos extremos, y si el total de

reforzadores se obtuviese en la alternativa a, también se darían el total derespuestas en dicha alternativa (sería el caso del vértice superior derecho dela Figura 5.5). Si, por el contrario, el total de reforzadores se obtuviese en laalternativa b, sería en la alternativa b donde se darían todas las respuestas(vértice inferior izquierdo de la Figura 5.5). Si los reforzadores se distribu-yesen al 50% entre las dos alternativas, la ley de igualación establece que lasrespuestas se distribuirían por igual entre las dos alternativas. Esta relación


239




% de reforzadores en la Tecla A

Figura 5.5. Frecuencia relativa de respuesta a la Tecla A en función de la frecuencia

relativa de reforzamiento a dicha tecla para tres palomas (con DPC de 1,5 seg véase poster iormente).

lineal entre la tasa relativa de respuesta y la tasa relativa de reforzamientoviene representada por la línea diagonal que divide el área de la figura endos partes iguales. Lo que Herrnstein encontró es que variando la frecuen-cia de reforzamiento asociada a las alternativas de respuesta por mediode la utilización de distintos programas de IV, los animales se ajustaban

bastante bien a esa re lación lineal, de manera que si en la alternativa a se

ofrecía una mayor frecuencia de reforzamiento que en la alternativa b, losanimales elegían más la alternativa a que la b y en proporción semejante ala tasa de reforzamiento obtenida en ambas alternativas, y al contrario si laalternativa a ofrecía una menor frecuencia de reforzamiento que la altern a-tiva b. El comportamien to de elección de las tres palomas de Herrnstein se puede ver en la Figura 5.5 y se puede comprobar el cumplim iento bastanteajustado a las predicciones de la ley de igualación.

240



Además de igualar la tasa relativa de respuesta con la tasa relativa dereforzamiento, como demostró Herrnstein, se ha observado que los anima-les igualan la tasa relativa de respuesta con otros parámetros que definenal reforzador, como pueden ser la magn itud del reforzador o su inmediatez(Catania, 1963; Landon, Davison y Elliffe, 2003). De esta manera se puedeextender la formulación de la ley de igualación para incluir todos estos

parámetros de re fo rzamiento (Logue, Rodríguez, PeñaCorreal y Mauro,1984), siguiendo la Ecuación 5.2:

Ra Fa Ma 1/ Da _______ = ______ _________ X ___________ Ra +Rb Fa + Fb Ma + Mb 1/ Da +1 / Db

donde Ra y Rb se corresponden con las tasas de respuesta en las alternati-vas a y b) Fa y Fb con las tasas de re forzam iento en las alternativas a y b\

Ma y Mb con las magnitudes de reforzamiento de las alternativas a y b; y Da y Db con las demoras al reforzado r en las alternativas a y b. Nótese queen el caso de la demora del reforzador los valores se corresponden con lainversa del valor de la demora, pues los reforzadores son más preferidoscuanto más inmediatos (menos demorados).

La Ecuación 5.2 establece que todos los factores de reforzamiento in-fluyen de forma igual en la elección, y en concreto de forma multiplicativa,

de manera que cualquiera de esos factores (frecuencia, magnitud, demora) puede reducir la elección por una alternativa de respuesta aunque los otrosfactores sean altamente favorables.

Lo esencial de la ley de igualación es que establece una igualdad entrela tasa relativa de respuesta y la tasa relativa de reforzamiento (o cantidadrelativa de reforzamiento, o demora relativa al reforzador), de manera quela proporción entre las respuestas emitidas en las alternativas debe ser iguala la proporción de los reforzadores obtenidos en dichas alternativas. En laley de igualación no se equiparan tasas absolutas de respuesta y de refor-

zamiento, exclusivamente tasas relativas de respuesta y de reforzamiento.

2.2. Maximización: elección entre programas concurrentes de razón

El intento de generalizar la ley de igualación a situaciones diferentesque la originalmente descrita por Herrnstein, ha llevado a los investiga-


241



dores a variar el tipo de programa de reforzamiento asociado a las alter-nativas de respuesta. Como se ha dicho, Herrnstein varió la frecuencia dereforzamiento dotando de diferentes valores a los programas de IV. Otrosinvestigadores han evaluado la elección cuando las diferentes alternativasconsistían en programas de razón. Cuando se tiene que elegir entre dosalternativas de respuesta que proporcionan reforzadores de acuerdo a

pro gramas de razón diferentes (un pro grama concurrente RFRF o unoRVRV), los sujetos tienden a elegir la alternativa de respuesta que tieneuna razón más baja, describiéndose dicho resultado como maximización. La maximización es un comportamiento adaptativo pues no tiene muchaventaja dedicar esfuerzo a responder en una alternativa menos favorable aexpensas de perder oportunidad de reforzamiento en la más ventajosa (es-to no sucedía en los programas concurrentes de intervalo pues probando

de vez en cuando en la alternativa menos favorable se podían recoger losreforzadores disponibles por ha ber superado el tiempo estipulado en el pro-grama, sin perder realmente reforzadores en la alternativa más ventajosa).La maximización, que implica elegir en exclusiva la alternativa más favo-rable, no contradice, sin embargo, la ley de igualación. Es más, es el únicocomportamiento que en una situación de programa concurrente de razóncumple con la ley de igualación. Po r ejemplo, en u n program a con currenteRV10 RV20, si se responde exclusivamente al programa de RV10 (estoes, se maximiza) se obtendrán todos los reforzadores conforme a dicho

programa. De esta forma, la ta sa de re spuesta en la alternativa de RV10será igual a la tasa total de respuesta en las dos alternativas (no se dan res-

puesta s en la alternativa RV20), y la ta sa relativa de respuesta será igual a1. De igual forma sucede con la tasa de reforzamiento en RV10, la tasa dereforzamiento total y la tasa relativa de reforzamiento serán nec esariam en-te 1. Como se puede apreciar la tasa relativa de respuesta es igual a la tasarelativa de reforzamiento, tal como estipula la ley de igualación. Se puedecomprobar que cualquier otra distribución de las respuestas en los progra-mas concurrentes de razón se alejaría de la formulación de la igualación.

Se han utilizado tam bién com binaciones de program as de intervalo con pro gra mas de razón, de manera que por ejemplo uno de los componentesfuese un programa de RV y el otro un programa de IV. En circunstanciascomo ésta, lo óptimo sería que los animales se dedicasen a responder casien exclusiva en el programa de razón, probando esporádicamente en elde intervalo para recoger los reforzadores que estuviesen allí disponibles


242



por el mero paso del tiempo. Aunque en general se prefiere re sponder a laalternativa del programa de razón, la preferencia no es tan marcada como podría pensarse de haber habido una explotación óptima de los recursos, perd iendo más reforzadores de los necesarios por una dedicación ex tra al progra ma de intervalo (ver Herrnstein y Heym an, 1979). Este re su ltado tie-ne importantes implicaciones teóricas, como se verá más adelante.

2.3. Igualación temporal

Otra observación adicional es también im portan te po r sus implicacionesteóricas. Se ha dem ostrado experimentalmente que los organismos no sóloigualan la tasa relativa de respuesta con la tasa relativa de reforzamiento,

sino que al mismo tiempo igualan el tiempo de estancia en las alternativasde respuesta con la tasa relativa de reforzamiento en dichas alternativas derespuesta. Para ello se ha utilizado una variante de programa concurren-te, ideada por Findley (1958). Consiste en presentar en una única tecla derespuesta los dos programas de IV en sucesión, cada uno señalado por unaclave discriminativa distinta, como en un p rogram a múltiple. Sin embargo,los sujetos pueden camb iar de progra ma de reforzamiento resp ondiendo enuna segunda tecla, denominada de cambio. La gran ventaja del programaconcurrente de Findley es que separa la respuesta de cambio de la respues-

ta instrumental. Esta separación permite que se pueda comparar entrediversas respuestas instrumentales, e incluso permite que algunas de ellas puedan eliminarse. Por ejemplo, Brownste in y Pliskoff (1968) emplearonun programa concurrente tipo Findley para estudiar las preferencias delas palomas entre varias fuentes de reforzamiento sin emplear respuestasinstrumentales. Los picotazos en la tecla de cambio modificaban el colorde la otra tecla, pero los animales no tenían que picotearla para obtenerlos reforzadores. Los reforzadores se administraron independientementede la conducta de los sujetos a tasas diferentes dependiendo del color de

la tecla. Lo único que podía hacer el animal era picotear la tecla de cambio para activar uno u otro programa de administra ción de la comida. Un primer picotazo tornaba la tecla de un color y activaba un pro grama dereforzamiento, u n segundo picotazo cambiaba el color de la tecla y activaba el otro pro grama de refo rzamiento , y así sucesivam ente. La medida de pre fe rencia en este es tudio fue el tiempo de permanencia en los programasde reforzamiento, asumiéndose que una mayor permanencia reflejaría una


243



mayor preferencia. Al igual que la igualación de respuestas, la igualación temporal es un hallazgo muy corriente en los experim entos de elección. Es posible encontrar igualación tempora l con procedim ientos concurrentesnormales, así como con procedimientos concurrentes tipo Findley dondesea necesaria la respuesta instrumen tal, donde la respuesta instrum ental nosea necesaria (como en el trabajo de Brownstein y Pliskoff), e incluso dondela respuesta instrumental sea necesaria para un programa pero no para elotro. La igualación temporal se puede formalizar (Baum y Rachlin, 1969)siguiendo la Ecuación 5.3 :

Ta _ Fa Ta +Tb~ Fa + Fb

siendo Ta y Tb los tiempos de permanencia en las alternativas a y b; y Fa y Fb las tasas de reforzamiento de dichas alternativas de respuesta.

2.4. Ley generalizada de la igualación

Al comienzo del Apartado 2 se ha hecho referencia a dos formas de medirla elección, los premios concurrentes y las respuestas instrumentales concu-rrentes, y también se ha hecho referencia a las limitaciones que presentaba

el primero de estos métodos. El procedimiento de las respuestas instrumen-tales concurrentes supera las dificultades impuestas por el procedimientode los premios concurrentes, pero, sin embargo, hay que considerar algunasinfluencias no deseables que intervienen en la elección de los sujetos entrerespuestas instrumentales concurrentes. En primer lugar, cuando se tieneque elegir entre dos o más alternativas de respuesta se suele producir untipo de comportamiento denominado de alternancia, caracterizado por elcambio intermitente de una alternativa de respuesta a otra sin que guarderelación con los reforzadores asociados a cada una de dichas alternativas de

respuesta. En las situaciones de la vida en libertad, los animales tienden acambiar el lugar donde consiguen sus alimentos, y la alternancia es en estesentido un comportamiento reminiscente de esta tendencia natural de losanimales. Además, en algunos programas de reforzamiento, principalmentelos programas de intervalo, el animal puede ser reforzado por la primerarespuesta que da después de pasar de una alternativa a otra. Este reforza-miento «accidental» puede fortalecer aún más el comportamiento natural


244



de alternancia. Dado que en las situaciones de elección en los laboratoriosde psicología del aprendizaje interesa que el comportamiento de elección seguíe simplemente por las consecuencias de reforzamiento en las diferentesalternativas de respuesta (y no por otras variables que podrían ser tambiénimportantes pero no relevantes al caso), se tiene que controlar la influenciaextraña que se introduce con este comportamiento alternante de los anima-les experimentales. Para ello los investigadores añaden la limitación de queno se refuerce la respuesta de cambio de alternativa por un tiempo. Este

procedim iento se denomina demora por el cambio (DPC), y consiste enintroducir un periodo temporal breve, de aproximadamente 2 ó 3 segundos,después de la primera respuesta a una de las alternativas para que puedaentrar en funcionamiento el programa de reforzamiento asociado a dichaalternativa de respuesta. En otras palabras, si los sujetos experimentales

pers is ten en su comportamie nto de alternancia , y se ha introducido la con-tingencia de DPC, no podrían obtener ningún reforzador en ninguna de lasalternativas de respuesta. La consecuencia normal de haber introducidola contingencia de DPC es que los sujetos enfrentados con una situaciónde elección abandonan su comportamiento de alternancia y realizan laelección en base exclusivamente a las contingencias de reforzamiento aso-ciadas con cada una de las alternativas de respuesta. Además de prevenir elreforzamiento inmediato de la conducta de alternancia, la DPC garantiza laindependencia de los operandos de respuesta.

Existen muchas otras fuentes potenciales de influencias no deseablesen los experimentos de elección, y genéricamente estas influencias se handenominado sesgos. Los sesgos pueden ser de muchos tipos, pero los másfrecuentes en los experimentos de elección realizados en los laboratorios deconducta anima l pueden ser, además de la conducta de alternanc ia descritaanteriormente, la disposición espacial de las alternativas de respuesta (iz-quierda frente a derecha), el color y la iluminación de dichas alternativas,o la fuerza requerida para responder en cada una de las alternativas. En

un programa concurrente de reforzamiento se requiere que las alternativasde reforzamiento difieran exclusivamente en base a las características dereforzamiento, y que todos los demás factores permanezcan iguales. Comoesto no es siempre posible, Baum (1974) ideó un método para corregir lainfluencia de los sesgos, por definición fuentes de influencia desconocida.Partió de la idea conceptual de que los sesgos influyen en la elección deforma idéntica a los factores de reforzamiento (frecuencia, magnitud, de


245



mora), y formuló la ley generalizada de la igualación (véase posteriormentela Ecuación 5.5 para una formalización más ajustada de la ley). Para el casode la frecuencia de reforzamiento (pero podría hacerse para cualquier otrofactor de reforzamiento, o para todos juntos), la tasa relativa de respuestase iguala a un factor multiplicativo de la tasa relativa de reforzamiento y delos sesgos relativos, y se puede expresar matemáticamente como se sigue por la Ecuación 5.4 :

Ra _ Fa Sa

Ra +Rb Fa + Fb Sa + Sb

donde Ra y R¿, son las tasas de respuesta en las alternativas a y b respecti-

vamente; Fa y F¡y son las frecuencias (tasas) de reforzamiento en las alter-nativas a y b respectivamente; y Sa y S¿, son los sesgos en las alternativas a y b respectivamente.

El método de Baum (1974) para corregir los sesgos consiste en tres pasos.En primer lugar, se deben equiparar los factores de reforzamiento entre lasalternativas de respuesta. Por ejemplo, la frecuencia, m agnitud y demora delreforzado r deben ser iguales. En segundo lugar, se deben medir las preferen-cias relativas de los sujetos. Si los sujetos distribuyen las respuestas de formaigual entre las alternativas de respuesta, entonces no hay influencia de sesgos.

Si, por el contrario, existe una desviación hacia una preferencia mayor poruna de las alternativas, dicha elección indicaría la contribución de los sesgos,que se puede determinar cuantitativamente po r el valor de la tasa relativa derespuesta. En tercer lugar, una vez conocido el valor de los sesgos relativos,se deben variar los factores de reforzamiento asociados con las alternativasde respuesta. Por ejemplo, se puede prog ram ar el doble de reforzamien to enuna de las alternativas y comprobar si los sujetos eligen dicha alternativa eldoble del valor de los sesgos relativos (hay que recordar que, según Baum, lossesgos influyen de forma multiplicativa). Si esto es así, a medida que se vayan

variando los factores de reforzamiento entre las alternativas de respuesta sedebería observar una desviación paralela a la igualación en la dirección delsesgo. Como la desviación produc ida po r el sesgo es constante a cua lquier va-lor relativo del reforzamiento, se puede corregir dicho valor en los resultadosobtenidos. Gráficamente quedaría como en la Figura 5.6, donde se ve que elvalor de los sesgos relativos se multiplica por cada valor de la tasa relativa dereforzamiento corrigiéndose el resultado sobre el eje de las abscisas.


246



Ya se ha visto que hay sesgos de respuesta que pueden incidir en laelección y que conviene corregir cuando no evitar (por imposible), aun asíse parte de la situación ideal de que los animales (y nosotros) somos capaces de hacer cálculos exactos sobre las cualidades de los re forzadores yelegir proporcionalmente en consecuencia. Es considerar que el cálculo es puramente matemático, como si el cerebro, o las re laciones conducta con-secuencia, reflejasen una suerte de computación exacta. No es de extrañarque ajustes tan exactos como los predichos por la ley de igualación de Herr-nstein en realidad no se cumplan (McDowell, 2005) y que las estimacionesen cuanto a las ventajas de reforzamiento de las alternativas de respuestaconduzcan a errores de estimación que es lo genuinamente psicológico. Yase ha visto con anterioridad (Capítulo 4) que la estimación del valor de unreforzador depende mucho de la experiencia previa o simultánea con otros

reforzadores, de manera que el valor no es algo que provenga exclusiva


Fa/Fb (escala log)

Figura 5.6. Ejemplo de corrección de sesgo en la igualación. Los círculos negros señalanlos datos antes de corregir los sesgos. Los círculos blancos señalan lo que sucede cuando

cada valor de la abscisa se multiplica por el sesgo. Nótese la escala logarítmica de los ejes.

247



mente de unos rasgos estrictamente objetivos sino que pueden ser relació-nales, en comparación con otras alternativas o con experiencias previas. Enel caso de los programas concurrentes sucede exactamente lo mismo. Es posible que la valoración de una de las alternativas de re spuesta dependa nosólo de su valor objetivo, sino del valor que se ofrece en la otra alternativa.Y esto es así, habiéndose demostrado repetidamente. A veces la alternativade respuesta es sobrevalorada (si la otra alternativa es significativamente

peor) y a veces es in fravalorada (si la otra alternativa es manif ie stamentemejor). Y este cálculo del valor de los reforzadores es la generalidad, lejosde la excepción. Existe sobreigualación cuando la mejor alternativa es va-lorada p or enc ima de la preferencia establecida por la igualación perfecta;existe infraigualación cuando la mejor alternativa es valorada por debajode la preferencia establecida por la igualación perfecta. Es más común

encontrar infraigualación que sobreigualación (Baum, 1974), debido prin-cipalmente a la tendencia a cambiar de alternativa cuando se ha obtenidoreforzamiento en una de ellas (el comportamiento de alternancia descritoanteriormente), lo que disminuye el ajuste perfecto a la igualación.

Cuando se habla de sobreigualación y de infraigualación, siempre sehace referencia a la tasa de respuesta en la alternativa más favorable (conmayor frecuencia de reforzamiento) en el contexto de las predicciones dela ley de igualación. Ello implica que las dos alternativas de respuesta no

son iguales, siempre tiene que haber una más favorable. En estas circuns-tancias, la ley de igualación hace unas predicciones cuantitativas sobre las prefe rencias relativas de los sujetos basadas en la frecuencia relativa dereforzamiento. Por ejemplo, dado un programa concurrente IV 30seg IV60seg, los organismos siguiendo la igualación responderán el doble al pro-gram a IV 30seg (porque ofrece el doble de frecuencia de re forzamiento).Si la relación de igualación se desviara hacia valores superiores al doble,tendríamos un ejemplo de sobreigualación. Si, por el contrario, la relaciónde igualación fuera menor del doble, sería un caso de infraigualación (asu-

miendo que el numerador en la ley de la igualación fuera el programa másfavorable). Si entre dos alternativas igualmente favorables, los animaleseligen más una que la otra, entonces esa aparente desviación de la ley deigualación puede ser debida a sesgos de respuesta (véase más arriba), perono podría concluirse que fuera un caso de sobreigualación o de infraigua-lación. Por otra parte, los sesgos también pueden intervenir en facilitar lasobreigualación y la infraigualación.


248



En la Figura 5.7 se dibujan curvas hipotéticas de sobreigualación (curvade puntos) e infraigualación (curva de guiones), junto con la relación linealde la igualación perfecta. Dado que los ejes son proporciones de respuestay de reforzamiento entre las alternativas a y b, se debe en tender que el valorde 1 se corresponde con la situación en que ambas alternativas de respuestaofrezcan el mism o reforzam iento. En este caso, y si no hubiera sesgos, lasrespuestas se deberían distribuir por igual entre las dos alternativas. Cuan-do la proporción de reforzamiento ( Fa/Fb) sea mayor que 1, la alternativaa ofrecerá un mejor reforzamiento que la alternativa b. En este caso, siexistiese sobreigualación se debería elegir la alternativa a proporcional-mente más de lo que se predice por la igualación perfecta. La proporciónde respuestas ( Ra/Rb) debería estar por encima de la igualación (curva de puntos en la parte derecha de la figura). Por el contrario, si existiese in frai-

gualación se debería elegir la alternativa a proporcionalmente menos de loque se predice por la igualación perfecta. Aquí la desviación de la iguala-ción debería estar por debajo de la igualación (curva de guiones en la partederecha de la figura).


Fa/Fb

Figura 5.7. La diagonal representa la igualación, la curva a puntos la sobreigualación y lacurva a guiones la infraigualación. Nótese la escala logarítmica de los ejes.

249




Lo más complejo es quizás entender la parte izquierda de la Figura 5.7,el caso en el que los valores de las tasas relativas de respuesta y de refor-zamiento sean menores que 1. Lo más importante es darse cuenta que sila proporción de reforzamiento ( Fa/Fb) es menor que 1, el programa b esmejor que el a (el deno min ador tiene que ser mayor que el numerador). Laigualación predice que aquí b se debe elegir proporcionalmente más que a. Si existiese sobreigualación, dicha preferencia por b debería exagerarse enrelación a lo predicho por la igualación perfecta. Al aumentar la propor-ción de respuestas en b sobre las de a, la tasa relativa de respuesta ( Ra/Rb)debería disminuir. Eso es justamente lo que se representa por la curva de

puntos en la parte izquie rda de la figura. En el caso de in fraigualación, porel contrario, el programa más favorable b se debería elegir en una propor-ción menor que la predicha por la igualación perfecta. La curva en este caso

sería como la de los guiones en la parte izquierda de la figura, desviada porencima de la igualación.

Si volvemos la vista por un momento a los resultados originales deHerrnstein (1961) representados en la Figura 5.5, ninguna de la palomasrealmente se ajustó a la igualación perfecta, notándose que la paloma 231(y quizás la 645) mostró sobreigualación y la paloma 055 infraigualación.

Baum (1974, 1979) amplió la ley de igualación de Herrnste in para incorporar las desviaciones por sobre igualación o infraigualación, además de la

influencia multiplicativa de los sesgos en la elección (como en la Ecuación5.4), resultando en la Ecuación 5.5:

Ra 7 —r = k x Rb

Fa

Jby

siendo k la constante que representa los sesgos relativos (una constante cal-culada po r el método explicado más arriba) y 5 un exponente que representala sensibilidad hacia los program as de reforzamiento. Cuando k y s sean igual

a 1, la ecuación se reduce a la de Herrnstein (con el cambio de que en losdenominadores no se consideran el total de respuestas y de reforzamiento,sólo la tasa de respuesta y de reforzamiento de la alternativa b). Los valoresde 5 inferiores a lse corresponderían con la infraigulación, los valores de 5superiores a 1 con la sobreigualación. La sobreigualación sería más frecuen-te cuando se utilice una contingencia de DPC relativamente larga o cuandoresulte muy costoso el cambio de una a otra alternativa de respuesta (p. ej.,

250



Aparicio, 2001); en otras circunstancias resulta más frecuente obtener infrai-gualación. En el caso extremo en que 5 sea igual a 0, las tasas de respuestaen las alternativas a y b serán siempre las mismas independientemente delas tasas de reforzamiento que acompañen dichas alternativas de respuesta,reflejando una completa insensibilidad a las contingencias de reforzamien-to. Esto podría ocurrir cuando los sujetos obtuviesen todos los reforzadoresrespondiendo simplemente a las dos alternativas de respuesta en estrictaalternancia, o de acuerdo a cualquier otro patrón de comportamiento quefuese independiente de los valores de los programas de re forzamiento. Enrelación con el cómputo de las tasas relativas de respuesta y de reforzamientoen base al total o sólo en relación a la otra alternativa de respuesta, la lógicade la igualación no cambia pero se ha visto que mantener la proporción deconducta y de reforzamiento sólo de una alternativa sobre la otra (como en

la ley generalizada de la igualación) se ajusta mejor a los resultados experi-mentales. Las Figuras 5.6 y 5.7 ya reflejaban este cambio.

2.5 Teorías de la igualación

Las ecuaciones de igualación vistas hasta ahora se refieren a relacionesentre variables de comportamiento, a cómo diferentes aspectos de la con-ducta se relacionan entre sí, estableciendo relaciones muy precisas entreaspectos del registro de la conducta como la tasa de respuesta y aspectosde los reforzadores que dependen de la propia ejecución operante, como

puede ser la tasa de re forzamiento . Ambas medic iones son reflejo de laejecución operante, donde se requiere la emisión de una respuesta parti-cular para la obtención del reforzador, pero los reforzadores no se puedenobtener sin una respuesta previa. Por tanto, las diferentes versiones de laley de igualación lo que establecen son relaciones (correlaciones, si se quie-re) entre al menos dos medidas de la conducta, que como tal son variablesdependientes de la ejecución operante. La forma en que dos aspectos de laconducta se relacionan constituye una explicación meramente descriptiva,no presupone ninguna explicación mecanicista. La forma en que los an im a-les llegan a la igualación puede ser variada y explicada, por tanto, a travésde diferentes mecanismos.

Al igual que con los programas básicos de reforzamiento, en la igualaciónhay dos enfoques principales, la aproximación molecular y la aproximaciónde corte más molar, que tienen que explicar cómo se distribuyen las respues


251



tas entre las alternativas disponibles así como el momento en que se produceel cambio de una a otra alternativa. La aproximación teórica molecular afir-ma que el cambio de una alternativa de respuesta a otra se realiza en el mo-mento en que la probabilidad momentánea de reforzamiento sea mayor en laotra alternat iva (Shimp, 1966). Basa su análisis en el cálculo de las probabil i-dades relativas de reforzamiento en cada momento, de aquí que se denominemolecular. Por ejemplo, si los sujetos tienen que elegir entre dos programasde intervalo variable, IV 60seg e IV 45seg, en un primer momento elegiránel programa de IV 45seg porque es el que ofrece una mayor probabilidad deser reforzado, pero cuando se obtenga aquí el reforzamiento cambiarán al

programa de IV 60seg porque la probabilidad de conseguir el reforzador se-rá entonces mayor en ese programa (tendrían que esperar por término medio15 seg, mientras que en el programa de IV 45seg tendrían que esperar por

término medio 45 seg al haberse iniciado de nuevo el intervalo). Distribuyen-do las respuestas de esta manera, y si al final se sumasen todas, se vería quese respondería más al programa de IV 45seg que al de IV 60seg y en una

proporc ión semejan te a la es tablecida por la ley de igualación.

La aproximación molar, de forma contraria a la teoría molecular, afir-ma que los animales distribuyen sus respuestas de acuerdo a un cálculoglobal de las tasas relativas de reforzamiento entre las dos alternativas derespuesta, eligiendo más aquella alternativa que proporciona una mayortasa de reforzamiento (Rachlin, Battalio, Kagel y Green, 1981). A través deun cálculo general, los animales ajustan proporcionalmente sus respuestasentre los reforzadores disponibles en las diferentes alternativas, cumplien-do la ley de igualación.

Aunque las predicciones de la teoría molecular, y el mecanismo propuesto, parecen demasiado precisas, ju sto en su precis ión está la virtud, enel sentido de ser comprobable, y lo que se ha visto es que en general estemecanismo explica bastante bien la distribución de respuestas en progra-mas concurrentes de intervalo, donde los animales podrían responder de

muchas maneras pero lo hacen de forma muy aproximada a como predicela teoría. Además, la aproximación molar tiene problemas para explicarresultados como los comentados sobre la no preferencia casi exclusiva porel programa de razón cuando se presenta un programa concurrente RVIV(Apartado 2.2). Tam bién ten dría m ás dificultad que la aproximación m ole-cular para explicar por qué los animales en general prefieren reforzadoresvariables a fijos cuando en ambos se ofrezca un promedio igual de tasa de


252



reforzamiento (p. ej., McSweeney, Kowal y Murphy, 2003). Para la apro-ximación molecular, en la administración de reforzadores variables se au-menta la probabilidad de que haya una mayor contigüidad entre la respues -ta y la consecución del reforzador. A favor de esta idea estaría el resultadode que habiendo una mayor preferencia por los reforzadores variados, sinembargo no existe tal preferencia por responder de forma variada frente arepetitiva si se mantienen los reforzadores fijos (AbreuRodrigues, Lattal,Dos Santos y Matos, 2005).

Una tercera teoría, denominada del mejoramiento, puede considerarseuna síntesis de las aproximaciones molecular y molar. Según esta idea, losorganismos eligen entre dos fuentes de premio de manera que se igualenlas tasas locales de reforzamiento, respondiendo a la alternativa que en

un momento dado presenta una mejor tasa local de reforzamiento (Herr-nstein y Vaughan, 1990). La mejora se establece en términos de tasa localde reforzamiento, más que en términos de probabilidad momentánea dereforzamiento (como hacía la aproximación molecular). Así, los resultadostienen un alcance a más largo plazo que la teoría molecular, pero no serefiere a tasas globales de reforzamiento, como ocurre con la teoría molar.Intrínseco a la teoría del mejoramiento es la igualación temporal, puestoque los sujetos al elegir más la alternativa que proporcione un mejor re-forzamiento, darán una mayor tasa de respuesta, obtendrán una mayor

tasa de reforzamiento y permanecerán más tiempo en dicha alternativa derespuesta. Como resultado de todo ello las tasas locales de respuesta y dereforzamiento (el número de respuestas o de reforzadores por tiempo deestancia en la alternativa) serán iguales o muy parecidas entre las diferentesalternativas de respuesta, por cuanto se responderá menos a la alternativamenos favorable, se obtendrán menos reforzadores en ella, pero tambiénse le dedicará menos tiempo. Las tasas locales de respuesta y de reforza-miento, por tanto, serán iguales en las diferentes alternativas de respuesta,siendo esa la consecuencia de elegir en cada momento la alternativa que

proporcione la mejor tasa local de re fo rzamiento . La teoría de la mejo ra sederiva perfectamente de la igualación: teniendo en cuenta el tiempo empleado en responder a cada alternativa (como veíamos ante rio rmente enrelación con la igualación temporal Ecuación 5.3.), se puede derivar concierta lógica (y matemáticamente) que los animales al igualar están real-mente equiparando las tasas locales de respuesta y de reforzamiento entrelas alternativas de respuesta (Baum y Rachlin, 1969).


253



2.6. Impulsividad y autocontrol: la elección con compromiso

En cuanto a la medida de la elección, existe un último procedimientoexperimental que introduce ventajas sobre el procedimiento de las res-

puesta s in strumentale s concurrentes, que es el hasta ahora referido parael estudio de la elección. Este procedimiento se denomina cadenas concu-rrentes de respuesta, y con él no se mide la elección entre premios de for-ma directa, ni tampoco se mide directamente la elección entre respuestasinstrumentales concurrentes, sino que se mide la elección entre diferentesfuentes de premio.

En la Figura 5.8. se representa un e squema de un programa concurrentesimple (como los tratados hasta ahora en este capítulo) y otro de un progra-

ma concurrente encadenado. En el program a concurrente simple (arriba) seda a elegir a los animales entre dos alternativas de respuesta (en este caso,rojo frente a verde), cada un a aco mpañada de un program a de reforzamien-to (comida) particular. El programa concurrente encadenado (abajo), con-trario al simple, se compone como mínimo de dos pasos, un eslabón inicialdonde el sujeto tiene que elegir entre dos alternativas de respuesta idénticas(blanco frente a blanco), y un eslabón terminal donde se proporcionan losreforzadores por responder en la alternativa de respuesta elegida durante eleslabón inicial. Si se hubiese elegido la alternativa de la izquierda, la teclacentral se iluminaría de rojo y se acompañaría de un programa de reforza-miento particular; si se hubiese elegido la alternativa de la derecha, la teclacentral se iluminaría de verde y se acompañaría de otro programa de refor-zamiento. Una vez transcurrido un tiempo predeterminado en el eslabónterminal, se vuelve a presen tar el eslabón inicial hasta que el sujeto elija otravez una de las alternativas de respuesta y se vuelva a pasar al eslabón termi-nal. Este procedimiento para medir la elección permite, entre otras cosas,que los sujetos sean más consecuentes al decidir sus respuestas de elecciónen comparación con los otros procedimientos experimentales de eleccióndiscutidos anteriormente. Este procedimiento también permite separar elaprendizaje de responder para conseguir el reforzador en los eslabonesterminales, del aprendizaje de elección en el eslabón inicial. Es, por tanto,un procedimiento más limpio para medir la elección, descontaminada delos propios efectos del reforzamiento sobre la tasa de respuesta (que se po-drían confundir con respuestas de elección). Al ser sometidos a programasconcurrentes encadenados, los sujetos experimentales normalmen te igualan


254




la tasa relativa de respuesta en los eslabones terminales con la tasa relativade reforzamiento en dichos eslabones terminales (el resultado normal de laigualación), pero también igualan la tasa relativa de respuesta en el eslabóninicial con la tasa relativa de reforzamiento en los eslabones terminales. Los programas concurrentes encadenados se asemejan más a las elecciones en lavida cotidiana, donde o ptar por una alternativa te compromete por un tiempo hasta poder cambiar de opción y donde normalmente no se puede estarcambiando caprichosamente de alternativa en cada momento. Por ejemplo,al inicio de un curso académico un estudiante decide matricularse de uncierto número de asignaturas, para darse cuenta inmediatamente de quela elección de alguna de ellas mejor la hubiese dejado para otro momento

PROGRAMA CONCURRENTE SIMPLE

Comida Comida

PROGRAMA CONCURRENTE ENCADENADO

Eslabón inicial

Eslabón terminal

Reforzamiento

Figura 5.8. Diagrama esquemático de procedimientos típicos de programa concurrentesimple y programa concurrente encadenado. Consultar el texto para explicación.

255




la tasa relativa de respuesta en los eslabones terminales con la tasa relativade reforzamiento en dichos eslabones terminales (el resultado normal de laigualación), pero también igualan la tasa relativa de respuesta en el eslabóninicial con la tasa relativa de reforzamiento en los eslabones terminales. Los programas concurrentes encadenados se asemejan más a las elecciones en lavida cotidiana, donde o ptar por una alternativa te compromete por un tiempo hasta poder cambia r de opción y donde norm almente no se puede estarcambiando caprichosamente de alternativa en cada momento. Por ejemplo,al inicio de un curso académico un estudiante decide matricularse de uncierto número de asignaturas, para darse cuenta inmediatamente de quela elección de alguna de ellas mejor la hubiese dejado para otro momento

PROGRAMA CONCURRENTE SIMPLE

Comida Comida

PROGRAMA CONCURRENTE ENCADENADO

Eslabón inicial

Eslabón terminal

Reforzamiento

Figura 5.8. Diagrama esquemático de procedimientos típicos de programa concurrentesimple y programa concurrente encadenado. Consultar el texto para explicación.

255



(Psicología del Aprendizaje, por ejemplo), pero el cambio de matrícula deasignatura no puede realizarse siempre, sólo cuando se habilite su dispo-nibilidad, mientras tanto se ha adquirido un compromiso de permanencia.Igual se puede aplicar para elecciones de ir a ver una película u otra en unasala multicines, o elegir un plato de un menú en lugar de otro.

Rachlin y Green (1972) realizaron un trabajo seminal que ilustra perfec-tamente las implicaciones diferenciales de utilizar un programa concurren-te simple o uno encadenado cuando dieron a elegir a sus animales entreuna opción que implicaba una recompensa pequeña inmediata y otra queimplicaba una recompensa mayor demorada. Cuando la elección era direc-ta, como en el caso del programa concurrente simple, se prefería la opciónque llevaba al premio pequeño inmediato aún cuando dicha opción no fue-

se la más ventajosa en términos de obtención del máximo reforzamiento.La situación estaba diseñada para que por esperar al premio mayor en laotra opción de respuesta se conseguía a la larga un mejor reforzamiento.Era como si la inmediatez del reforzador influyese más en la elección quela magnitud. Cuando utilizaron un programa concurrente encadenado eintrodujeron un tiempo constante de espera para poder acceder a la opor-tunidad de que las respuestas fuesen reforzadas (por la introducción deleslabón inicial de elección), las preferencias cambiaron y ahora los ani-males opta ron más por la alternativa que llevaba al reforzador mayor peromás demorado. Al introducir una pequeña demora entre la elección y larespuesta reforzada, la fuerza de la inmediatez del reforzador se debilitó yla elección se guió más por la magnitud del reforzador. La preferencia poruna recompensa pequeña inmediata se denomina impulsividad; la prefe-rencia por una recompensa m ayor demorada se denomina autocontrol. Eltrabajo de Rachlin y Green muestra que demorar un poco la entrega delreforzador pequeño hace que su fuerza se debilite y se prefiera esperar (yaque hay que esperar) a uno de mayor magnitud.

Estudios como estos de autocontrol mu estran que en realidad los pesos

relativos de los diferentes factores que definen a los reforzadores no influ-yen de la misma manera en la elección, y que por tanto la Ecuación 5.2 noes del todo correcta. La idea expresada en la ecuación sigue siendo válida(como se ha visto a lo largo de todo este apartado) pero no que cada unode los factores tenga que influir de la misma forma en la distribución de lasrespuestas entre las alternativas de elección, no al menos en el caso de lamagnitud y de la demora al reforzador.


256




Una forma de explicar los resultados de los estudios de autocontrol através de la ley de igualac ión es acep tar un a extensión de la ley genera lizadade la igualación (Ecuación 5.5) que incorpore los parámetros de frecuencia(inmediatez) y magnitud del reforzador como se detalla en la Ecuación 5.6 (Elliffe, Davison y Landon, 2008):

Ra

~Rb= k x

/ 7, \ S f

V

Fa

~Fbx

y V Mb

donde los exponentes de la sensibilidad (5) a las características de los refor-zadores se hacen diferentes par a la frecuencia (s/) y para la magnitud (sm).

Cording, McLean y Grace (2011) encontraron que haciendo que las es-

timaciones de sm fuesen menores (un valor numérico más pequeño) quelas de s f se podían explicar muchos de los estudios que han mostrado quela proporción de la magnitud del reforzador en realidad controla menos ladistribución de conducta que la proporción de frecuencia de reforzamiento.

2.7. La noción de valor de los reforzadores

Una aproximación complementaria a la de la ley de igualación es inte-grar los distintos factores de reforzamiento bajo el concepto de valor de la alternativa, y esto se ha investigado de forma bastante sistemática conlos parámetros de la magnitud y la demora del reforzador (como en losestudios de autocontrol comentados en el apartado anterior, pero tambiéncon programas no concurrentes). El valor de una alternativa de respuestaaum entará con la mag nitud del reforzador y disminuirá con la demora pa rala entrega del reforzador. M atemáticamen te el valor del reforzador vendrádeterminado, en este caso, por el cociente magnitud/demora.

Este análisis simple nos permite p redecir algunos fenómenos in teresan -tes, algunos de ellos relativamente complejos en apariencia. Imaginemosuna situación donde se ofrece un programa concurrente de IV 30seg IV20seg, pero el reforzador es el doble en el primer componente. En estasituación, los sujetos elegirán la alternativa de mayor premio más demo-rado, esto es, mostrarán un comportamiento «autocontrolado». Esto es así porque el valor de la alternativa IV 30seg es 2/30 = 0,07 (dos reforzadores

257



cada 30 seg por término medio), mientras que el valor de la alternativa IV20seg es 1/20 = 0,05 (un reforzador cada 20 seg por término medio).

Tomemos otro ejemplo, un progra ma conc urren te IV 40seg IV 15seg,

con el doble de cantidad de reforzador en el primer componente. En estecaso, los animales elegirán más la opción de IV 15seg (1/15 = 0,07) quela opción de IV 40seg (2/40 = 0,05). Esto representaría un caso de «im- pu lsividad».

Aunque los casos anteriores se han puesto como ejemplos de autocon-trol e impulsividad, la verdad es que no son del todo correctos. En cual-quiera de las dos situaciones, siempre había una alternativa que ofrecíauna mejor frecuencia de reforzamiento, lo que es plenamente acorde conla ley de igualación. Para entender mejor cómo funciona el autocontrol esnecesario partir de una situación donde los animales elijan la alternativaque les ofrezca un premio menor más inmediato (como en el trabajo deRachlin y Green comentado en el apartado anterior). Por ejemplo, en un

programa concurrente IV 5seg IV 10seg que suminis tre 1,5 veces máscantidad de reforzador en el segundo componente, los sujetos elegiráncon más probabilidad el programa IV 5seg (1/5 = 0,2) que el programa IV10seg (1,5/10 = 0,15). Si se añadiera un retraso constante a la entrega delas dos recompensas, como en los programas concurrentes encadenados,se podrían invertir las preferencias. Por ejemplo, añadiendo un intervalo

temporal de 20 seg a las dos alternativas, el valor de la alternativa IV 5segsería 1/25 = 0,04, y el valor de la alternativa IV 10seg sería 1,5/30 = 0,05.Añadir un retraso constante a la entrega de los dos reforzadores vuelve uncomportamiento «impulsivo» en «autocontrolado», y esto es precisamentelo que demostraron Rachlin y Green (1972).

Mazur (1984) ha propuesto que el cambio de un comportamiento impulsivo a uno auto controla do se puede explicar mediante una función hi- perbólica que podría expresarse como sigue {Ecuación 5.7):

Va= Ma1+ kDa

donde Va sería el valor de un reforzador a que tuviese una ma gnitud Ma yuna dem ora Da \ k sería una constante que represe nta la tasa de descuentode la demora para cada individuo particular en una situación dada (una


258



tasa que indica hasta qué punto son apreciados los reforzadores demora-dos). El valor del reforzador sería mayor a medida que su magnitud fuesemayor y la demora para su obtención menor, pero la relación no seríalineal sino hiperbólica (Mazur, 2001). Por ejemplo, para una magnituddada, el valor del reforzador aumentaría en una proporción creciente amedida que sea menor la demora. En el caso de reforzamiento inmediato,el valor del reforzador vendría exclusivamente determinado por su magni-tud. Aplicando esta ecuación se puede com proba r que cuando un reforza-dor grande y otro pequeño son demorados, aunque el primero lo sea másque el segundo, el valor del reforzad or grande será supe rior al del pequeño(autocontrol). El valor del reforzador pequeño será mayor que el del gran-de, por el contrario, cuando la espera para el primero sea relativamente pequeña (impulsiv idad).

El valor aversivo de un castigo también cambia mediante una funciónhiperbólica semejante a la de la recompensa y expresada en la Ecuación 5.7(véase Dinsmoor, 1998). Como en el caso del reforzamiento, en la determi-nación del valor aversivo relativo de dos castigos de intensidad y demorasdiferentes, tiende a incidir más la diferencia entre sus intensidades que en-tre sus demoras si se trata de castigos muy diferidos (aquí se «preferiría» elcastigo pequeño), pero tiende a incidir más la diferencia entre sus demorasque entre sus intensidades cuando el menos intenso es relativamente inme-

diato (aquí se «preferiría» el castigo grande). En el Capítulo 7 se trataránestos y otros aspectos relacionados con el castigo.

2.8. La tasa de respuesta en relación a la ley de igualación

Herrnstein (1970) amplió la ley de igualación al considerar que cual-quier situación implica necesariamente una elección, incluso cuando sólose ofrezca una alternativa de respuesta, como en los programas básicos de

re forzamiento. En este caso, los animales deben elegir entre responder y nohacerlo. Mejor dicho, los animales están confrontados entre responder dela manera específica que requiere el experimentador (por ejemplo, presio-na r una palanca o picar una tecla) y realizar otras actividades (asearse, d arvueltas, picotear el suelo, oler agujeros de la cámara experimental). Los su-

je tos recib ir ían reforzadores explícitos, programados por la ocurrencia de larespuesta operante explícita, pero también recompensas implícitas por las


259




otras actividades que pueden realizar. Por tanto, tiene que considerarse queel reforzamiento total de la situación comprende los reforzadores progra-mados y los reforzadores no explícitamente programados. Matemáticame n-te se puede describir esta conducta de elección como en la Ecuación 5.8:

Ra Fa

Ra +Ro Fa + Fo

donde Ra represen ta la tasa de respuesta operante específica del programa, R0 la tasa de las otras actividades del animal, Fa la frecuencia de reforza-miento explícito programado, y F0 la frecuencia de reforzamiento intrínse-co de las otras actividades.

Es más, Herrnstein (1970) teorizó que la tasa total de conducta {Ra + Ro) debería ser una constante pues, en general, se debe aceptar la idea deque los organismos siempre están haciendo algo, que siempre están desa-rrollando alguna actividad (aunque sea descansar). Por tanto, la suma dela tasa de respuesta criterio más la de cualquier otra actividad debe sersiempre igual. Si la tasa de respuesta criterio bajase, necesariamente quieredecir que los animales estarían dedicándose a otras actividades; si subiese,las otras actividades disminuirían. Es decir, la adquisición de una respuesta particular implica una redistribución de re spuestas entre las alternativas

disponibles. Si se representa la constante del total de la tasa de respuesta por el parámetro k (Ra +Ro =k), despejando Ra en la Ecuación 5.8 queda-ría como sigue (. Ecuación 5.9):

/ 7 _ N Ra = k x

Fa

v Fa + Fo j

lo que significa que la tasa absoluta de una conducta (Ra) está en funciónde la tasa relativa de reforzamiento de esa conducta en relación con otras.

Una forma de aumentar la tasa de la respuesta sería aumentar la tasa dereforzamiento asociada a esa conducta (haciendo que Fa fuese mayor), yotra sería disminuir la tasa de reforzamiento alternativo (haciendo que Fo disminuyese). Esta ecuación es a menudo referida como la cuantificaciónde la ley del efecto de Thorndike (de Villiers, 1977) en la medida en queespecifica cuantitativamente cómo las consecuencias afectan a la conducta,y transforma una ley de igualación puramente descriptiva en una teoría.

260




Conducta de elección (Resumen)

La elección en programas concurrentes de reforzamiento ha sido por lo ge-

neral bien descrita a través de la ley de igualación, que en virtud del desarrollode la investigación es generalmente aceptada en su formulación denominadaley generalizada de la igualación. Según esta formulación, la distribución dela conducta entre dos alternativas de respuesta se iguala a la distribución delreforzamiento obtenido en dichas alternativas, con la consideración de que enla elección pueden intervenir sesgos de respuesta (tendencias de respuesta nodebidas a reforzamiento) y una sensibilidad diferencial a los parámetros dereforzamiento de las alternativas de respuesta.

La ley generalizada de la igualación se cumple con diferentes mediciones de la conducta (tasa de respuesta, tiempo de permanencia en las alternativasde respuesta) y con diferentes características de los reforzadores (programasconcurrentes de intervalo o de razón, diferentes frecuencias de reforzamiento,o diferentes magnitudes y demoras al reforzador), habiendo sido necesariomodificar un poco la formulación original de la ley para poder incorporar losresultados experimentales más relevantes.

La ley de igualación es una descripción de la relación que se establece entreaspectos de la conducta y de los reforzadores, estableciendo como mucho unacorrelación entre aspectos de ejecución de la conducta operante. Para explicarcómo se obtiene la igualación se han propuesto teorías molares y molecula-res, así como un mecanismo de mejoramiento que podría considerarse sínte-sis de ambas aproximaciones.

Con base en la ley de igualación se ha desarrollado una teoría que explicaque la tasa de respuesta está determinada po r el reforzamiento que acompañala realización de una conducta en particular así como por los reforzadores al-ternativos que se pudiesen obtener por realizar otras conductas, partiendo de laidea de que los organismos siempre están haciendo algo (están comportándosede manera continua).

3. LA NATURALEZA DE LA ASOCIACION EN EL APRENDIZAJE INSTRUMENTAL

Siguiendo a Skinner (1938) y a Hull (1943), la formulación de la ley deigualación y de la teoría de la igualación por Herrnstein se basaron en elconstructo de fuerza de la respuesta. Este constructo es probablementemejor entendido como variable interviniente y no realmente como un cons

261



tructo hipotético (MacCorquodale y Meehl, 1948), en el sentido de que responde a un conjunto de cantidades empír icamente medibles de conducta(preferentemente la tasa de respuesta, pero no sólo) (véase Conocimientos

previos para aclaración de la distinción entre variable interviniente y constructo hipotético).

¿Cómo se desarrolla la fuerza de la respuesta? La respuesta tradicionala esta pregunta ha sido (y quizás continúa siendo la más extendida) denaturaleza asociativa, y en concreto a partir de la formación de asociacio-nes entre los estímulos y las respuestas. Éste fue el planteamiento de E. L.Thornd ike en la formulación de la ley del efecto, y por eso se considera quela ley del efecto propuesta por Thorndike es de naturaleza teórica. Sin embargo, es C. L. Hull quién mejo r repre senta la teoría de que el aprendizaje

es fruto de la formación de asociaciones estímulorespuesta (ER). Segúneste punto de vista, los estímulos ambientales elicitan respuestas, y su aso-ciación se ve estam pada por la ocurrencia del reforzador. En el futuro, antela presentación de tales estímulos será más probable la ocurrencia de lasrespuestas que han sido reforzadas.

E. L. Thorndike (18741949) comenzó a trabajar experimentalmentecon animales dentro del ambiente darwinista de finales del siglo XIX (véaseel Capítulo 1). Para sus experimentos, y como se vio en el Capítulo 4, cons-truyó unas ingeniosas cajasproblema que, aunque de rudim entario diseño,

le permitieron estudiar experim entalmen te la conducta de los animales. E s-tas cajas se encontraban cerradas con una puerta que el animal podía abriraccionando un pestillo. Sus sujetos experimentales, generalmente gatos,estaban hambrientos cuando se colocaban en el interior de la caja. La co-mida se situaba en un recipiente a la vista de los animales, aunque lejos desu alcance. El modo de obtener la comida era el problema que tenían queresolver los gatos de Thorndike. Tras varios intentos infructuosos, los ani-males conseguían «por casualidad» accionar el pestillo para abrir la puertay así acceder a la comida. En in tentos sucesivos la rapidez con que los gatos

conseguían abrir la puerta de la caja iba disminuyendo progresivamente,hasta el punto de que nada más introducirlos en la caja eran capaces desalir casi inmediatamente. Estos resultados experimentales constituyeronen parte la tesis doctoral de Thorndike, que presen tó en 1898, obten iendo el primer grado de docto r en la histo ria de la ps icología del aprendizaje , apro-ximadamente un año después de que Pavlov hubiera iniciado sus estudiossobre los reflejos condicionados (Boakes, 1984).


262



Thorndike formuló las leyes necesarias para explicar el aprendizaje, en-tre las que destaca la «ley del efecto» y que quedó enu nciada de la siguientemanera: «De las varias respuestas que se dan en la misma situación, aque-llas que van acompañadas o estrechamente seguidas de satisfacción parael animal, siendo constantes otras condiciones, tenderán a conectarse másfirmemente con la situación, de modo que, cuando ésta se repita, tales res-

puesta s tendrán mayor pro babil idad de volver a ocurrir; aquel las que vanacompañadas o estrechamente seguidas de malestar para el animal, siendoconstantes otras condiciones, verán debilitadas sus conexiones con tal si-tuación, de modo que, cuando ésta se repita, tales respuestas tendrán me-nor probabilidad de ocurrir. Cuanto mayor sea la satisfacción o el malestar,mayor será el fortalecimiento o debilitamiento del vínculo» (Thorndike,1911, p. 244). Aunque la formulación de la ley del efecto ya se trató en el

Capítulo 4, aquí es importante considerarla de nuevo po r sus repercusionesteóricas. La ley del efecto en realidad es Lina ley teórica, que postula que lafuerza de la asociación ER (o percepción de la situación e impulso motor,en el lenguaje de Thorndike) no depende de los principios asociacionistasclásicos que explicaban el condicionamiento pavloviano, más bien dichasasociaciones dependen de la propia consecuencia de la acción. Como sedijo en el Capítulo 1, el pensamiento de Thorndike fue que el efecto de unaacción actúa retroactivamente para sellar la asociación que conduce a talefecto. La ley del efecto reemplazó a comienzos del siglo XX el antiguo prin -

cipio de SpencerBain, según el cual cualquier acción espontánea que fueraseguida de sentimientos subjetivos de placer o de disminución del dolor eramás probable que volviera a ocurrir. El trabajo de Thorndike inauguró asíla investigación experimental en condicionamiento instrumental.

Durante los años treinta y cuarenta del siglo XX, la investigación encondicionamiento y aprendizaje animal gozó de un auge extraordinario.La influencia de Pavlov y de Thorndike fue decisiva para que en los Esta-dos Unidos de América un grupo relativamente amplio de investigadores

centraran su interés y sus discusiones en torno a la naturaleza asociativadel aprendizaje. Fueron tiempos donde la formulación de teorías del apren-dizaje pretendía dar una explicación coherente de la conducta animal y

humana en general, y de esta época es necesario destacar a tres grandesinvestigadores: Edwin R. Guthrie (18861959), Clark L. Hull (18841952)y Edw ard C. Tolman (18861959). Véase el Capítulo 1 para una prime raconsideración de sus contribuciones.


263



Edwin R. Guthrie es quizás el con tinuador más directo del pensamientode Watson. Guthrie (p. ej. 1935) opinaba que la función del reforzador en elaprend izaje es facilitar la formación de una asociación entre el estímulo y larespuesta , por lo que a este autor se le suele identificar con el esquema ER.La contribución de Guthrie, sin embargo, no es exclusivamente teórica.Guthrie fue quien primero distinguió entre actos y movimientos, a rgum en-tando que todo comportamiento está formado de movimientos muscularesdiscretos. Guthrie y Horton (1946) realizaron una serie de experimentoscon gatos utilizando cajasproblema semejantes a las empleadas con an-terioridad por Thorndike. Los gatos podían escapar de la caja accionandouna palanca colocada en su interior, resultando que la mayoría de los ani-males ejecutaban la conducta sin grandes dificultades. Guthrie y Horton(1946) fotografiaron la ejecución de sus gatos y comprobaron que todos

ellos escapaban de la cajaproblema pero que cada uno lo hacía de maneramuy diferente. Algunos accionaban la palanca con una de sus patas delan-teras, otros la accionaban con el hocico. Según Guthrie el acto de escaparde la cajaproblema se podía efectuar con movimientos diferentes, y, en suexperimento con Horton, cada gato había aprendido una cosa diferente silos movimientos para escapar de la caja eran también distintos.

Clark L. Hull (1943) utilizó, como Guthrie, los principios de la asocia-ción ER para explicar el comp ortam iento aprendido. El papel del refuerzo

para Hull es, sin embargo, algo diferente que el oto rgado por Guthrie. Laconsecución del reforzador, según Hull, refuerza la formación de una aso-ciación ER debido a una reducción del impulso, introduciendo así el con-cepto de motivación en la teoría del aprendizaje. Para que los animales eje-cuten una acción determinada es imprescindible que tengan una necesidad biológica, que queda re ducida por la consecución del refo rzador y que enconsecuencia produce un incremento en la fuerza de la asociación entre elestímulo y la respuesta. Hull (1943) desarrolló la primera teoría formal so-

bre la fo rm ación de los hábitos, convir tiéndose as í en el más clásico de los

psicólogos hipotéticodeductivos del aprendizaje y en el mejor exponentede la corriente de pensamiento conocida como neoconductismo. Posterior-mente Hull (1952) introdujo el concepto de incentivo para poder explicarresultados como los de los efectos de contraste que no se podían explicarúnicamente en base a la noción de impulso (véase el Capítulo 4). La con-secución del reforzador, según Hull, reduce las necesidades del organismo(impulso) al tiempo que incita a la acción (incentivo), distinguiendo estos


264





sujetos experimentales recorren un laberinto pero no se les recompensa po rhacerlo. Una vez finalizada esta fase del experimento, se vuelve a situar alos animales en el laberinto y se refuerza con comida la respuesta correcta.En circunstancias como ésta se comprueba que los animales experimenta-les aprenden a efectuar la respuesta correcta más rápidamente que otrosanimales de control que no habían tenido la oportunidad de recorrer el la-

berinto en primera instancia . Se dice entonces que los anim ales experimen-tales hab ían ap rendido ya a recorre r el laberinto antes de empezar a recibirel premio, pero que no ejecutaban la respuesta porque faltaba el reforzador.El reforzador o recompensa, de acuerdo con Tolman, no es necesario parael aprendizaje, pero es imprescindible para que posteriormente se ejecute larespuesta aprendida. Esta carac terística de los reforzadores es diferente dela propuesta por las teorías ER del aprendizaje. En este caso, el reforzador

estampa la conexión entre el estímulo y la respuesta, pero la ejecución dela respuesta es provocada po r la mera presentación del estímulo ambientalantecedente. A pesar de esta diferencia esencial entre los planteamientos deTolman y Hull, ambos autores coincidirían en señalar que el aprendizaje yla ejecución son aspectos separables (recuérdese la ecuación de Hull dondeel aprendizaje el hábito es sólo uno de los factores que determinan laejecución, pero no es la ejecución misma).

Seguramente los mecanismos asociativos ER y EE puedan estar ambos im plicados en el aprendizaje in strumental, siendo el mecanismo ERmás específico en cuanto que establece formas precisas para producir lasrespuestas, y no sólo la adquisición de la asociación. A través del meca-nismo ER se pueden entender por qué determinadas respuestas son másadecuadas a determinados estímulos antecedentes y en función de las con-secuencias que hayan seguido a las respuestas con anterioridad, un meca-nismo que establece reglas de ejecución y no sólo de aprendizaje.

4. REGLAS DE EJECUCIÓN OPERANTE

Para explicar el desarrollo de la fuerza de la respuesta no todas las solu-ciones han sido de tipo asociativo, de hecho hay un grupo de psicólogos quehan propuesto que la asociación realmente no es la única solución posible(ni quizás la solución) y han propuesto aproximaciones conductuales queson herederas del planteamiento conceptual de B. F. Skinner (p. ej., Skin


266



ner, 1950). B. F. Skinner propuso que en el condicionamiento operante losreforzadores seleccionan las respuestas, no otorgando un papel necesarioa la formación de ningún tipo de asociación concreta, ni ER, ni EE. El papel que otorgó a los est ím ulos ambienta le s fue el de señalizadores aldisponer la oportunidad de que las respuestas se vieran recompensadas,sirviendo los estímulos ambientales antecedentes como modu ladores de lasrelaciones entre las respuestas y los reforzadores (en términos asociativoscomo m odulado res de un a asociación respuestareforzador), pero no se lesotorga ningún papel elicitador como es característico de posiciones m ás reflexológicas. En la base de esta concepción se encuentra la distinción entreestímulo condicionado, como en el condicionamiento clásico, y estímulodiscriminativo, como en el condicionamiento operante.

4.1. Teoría de la probabilidad diferencial

Premack (1965) señaló que las respuestas que acompañan a los estímu-los reforzadores son actividades altam ente probables, mien tras que las acti-vidades instrume ntales son menos probables. La razón de que una respues-ta se convierta en reforzadora viene determinada por su probabilidad deocurrencia en la línea de base: «Dadas dos respuestas en un procedimientode condicionamiento instrumental, la respuesta más probable reforzará

a la menos probable y la respuesta menos probable no reforzará a la más probable» (Premack, 1959, 1965).

El principio del reforzamiento de Premack puede considerarse undesarrollo de la idea de que los reforzadores no tienen características in-trínsecas en sí mismos sino que derivan su efecto de las disposiciones expe-rimentales en forma de relaciones de contingencia y que cualquier evento,sea un estímulo o una respuesta, potencialmente puede convertirse en un re -forzador eficaz. El principio de Premack tiene dos supuestos fundamentales

para que una actividad pueda convertirse en un reforzador. Primero, dichaactividad debe ser preferida en la línea de base, y segundo, la probabilidadde ocurrencia de la actividad preferida debe restringirse y ocurrir de formacontingente con la realización de una actividad menos preferida, fruto delo cual la actividad menos preferida se convierte en instrumental. Comoresultado de la operación de reforzamiento, la actividad reforzadora ocurrea menor probabilidad que en condiciones de libre acceso y la actividad ins


267



trumental aumenta su probabilidad de ocurrencia. Esto es de hecho lo quenormalmente ocurre en los experimentos de condicionamiento operante. Enuna situación típica, animales que tienen un cierto nivel de hambre debenaccionar un operando de respuesta para conseguir una pequeña cantidad decomida. En condiciones de acceso ilimitado a la comida y de disponibilidadcontinuada del manipulando, los animales que tienen hambre dedicarán lamayor parte del tiempo a com er y muy de vez en cuando pueden presionaruna palanca o picar una tecla iluminada. Para que la operación de reforza-miento pueda tener lugar, hay que restringir el acceso a la comida y hacerlocontingente con la emisión de la respuesta instrum ental (la de meno r proba -

bilidad de ocurrencia en la línea de base), que en consecuencia aumentarásu frecuencia de aparición o su probabilidad de ocurrencia. De lo anteriortambién se concluye que las actividades con una menor probabilidad de

ocurrencia en las situaciones de libre acceso nunca podrán reforzar a lasactividades con una mayor probabilidad de ocurrencia.

Premack y sus colaboradores llevaron a cabo muchos experimentos para comprobar su teoría . En uno de los experimentos, Premack (1962)alteró las probabilidades de las respuestas cambiando las condiciones de

privación. En un estudio, las ratas fueron pr ivadas de agua, pero no de laoportunidad de correr por una rueda de actividad. En esas circunstancias

beber era más probable que correr, y la oportunidad de beber pudo re forzar

el correr por la rueda. En un segundo estudio, las ratas no fueron privadasde agua, y así, en esas circunstancias, correr era más probable que beber.Correr podía utilizarse para reforzar la bebida. Así pues, correr y beber

podían usarse indistin ta mente como respuesta s re fo rzadoras e instrumen-tales, dependiendo del estado de privación de agua del animal.

En un experimento con niños, tras una línea de base donde se midieronlas preferencias individuales por comer golosinas o jugar a las maquinitasdel millón, se realizaron dos fases en las que cada actividad se hizo con-tingente a la otra. Los niños que preferían comer golosinas, aumentaron

su tasa de jugar a las maquinitas para conseguir dulces, mientras que losniños que preferían jugar con las maquinitas no incrementaron su tasa de jugar por el hecho de que es ta actividad fuera seguida de comer dulces.Cuando las contingencias se invirtieron haciendo dependiente el jugar alas maquinitas de haber comido una cantidad de dulces, sólo los niños que prefirieron aquella ac tividad en la línea de base aumentaron su consumo degolosinas (Premack, 1965).


268



Premack complementó el principio del reforzamiento con otro para-lelo sobre el castigo. En esta ocasión, Premack argumentó que la activi-dad de más baja probabilidad puede castigar a la de mayor probabilidadsiempre y cuando se aumente su probabilidad de ocurrencia y sucedacontingentemente con la actividad más preferida, que como resultado dedicha operación disminuirá su frecuencia de aparición en relación consu ocurrencia en la línea de base. De aquí también se desprende que lasactividades más preferidas n unca pod rán castigar a las actividades menos

pre fe ridas.

La posición teórica de Premack es plenamente conductual y se derivade la tradición skinneriana, cuyo eje central es la ley empírica del efecto enoposición a la ley teórica del efecto defendida por Thorndike. Traslada el

problema del re fo rzamiento a un plano diferente que el resto de las teoríasconsideradas en el apartado anterior. Esta forma de concepción teóricasiempre estará limitada po r no saber la razón última de por qué los sujetos

prefieren una actividad más que otra en la prueba de libre elección, perola contestación a esta pregunta puede que resulte innecesaria para la psi-cología del aprendizaje, siendo la respuesta de corte más bien biológico yno necesariamente incompatible con concepciones como la defendida porPremack.

La teoría de la probabilidad diferencial es simple a la vez que compleja.

Por un lado es simple y tiene un gran poder predictivo. Para predecir si unaconducta reforzará a otra, simplem ente basta con medir sus probabilidades bajo una condic ión de línea de base, donde las dos conductas estén libre -mente disponibles en ausenc ia de limitación alguna. Evaluadas después enun programa de reforzamiento, una actividad reforzará a la otra si, y solosi, ésta era más probable que la otra en la situación de línea de base. Noimporta si la conducta provoca placer, reduce una necesidad, provoca unaactivación fisiológica, o simplemente es característica de la especie, lo úni-co importan te es que sea más probable que la otra conducta en condiciones

de libre acceso.Por otro lado, es compleja en cuanto a la medida de la probabilidad de

la respuesta. Una posible medida es la frecuencia con la que ocurre dicharespuesta. Esa medida es buena siempre que comparemos respuestas pare-cidas, por ejemplo las presiones a dos palancas (véanse los programas con-currentes), pero ¿cómo comparar las frecuencias de actividades tan distin


269



tas como hace r un crucigram a o comer? ¿cuál es la unidad conductual, da run bocado o tomarse la ración entera?, ¿resolver una palabra del crucigra-ma o el crucigrama entero? Para solventar este problema, Premack sugirióque la probabilidad de la respuesta debía de considerarse en una dimensióntemporal, de forma tal que pudiera definirse como el tiempo dedicado a unaactividad particular sobre el tiempo total. El periodo de observación en lalínea de base es, por consiguiente, crucial para valorar la probabilidad delas respuestas que oc urran sólo periódicamente. Por ejemplo, aun que en undía dedicamos mucho tiempo a comer, la actividad de comer no se distri- buye uniformemente a lo largo del día. Es altamente probable a unas horasdeterminadas. Dado que las probabilidades de las respuestas varían con eltiempo, Prem ack sugirió que la medida de la respuesta más aprop iada es la probabilidad momentánea.

4.2. Teoría de la privación de respuesta

En la mayoría de los procedimientos de condicionamiento operante,la probabilidad momentánea de la respuesta reforzadora se mantiene aun nivel alto. Esto se consigue restringiendo la oportunidad de realizar larespuesta reforzadora. Es decir, la respuesta reforzadora tiene que ser más probable que la instrumental y esta r rest ring ida. Premack form uló el refo r-

zamiento en función de las probabilidades relativas de las respuestas ins-trumentales y reforzadoras. Sin embargo, el propio Premack se dio cuentade que no basta con la probabilidad diferencial, la eficacia del reforzadordepende de que estén limitadas las posibilidades de ejecutar esa respuesta.

Eisenberger, Karpm an y Trattne r (1967) propusieron u na hipótesis másradical, consistente en que los programas de reforzamiento incrementaránla frecuencia de ocurrenc ia de la respuesta operan te po r encima de su líneade base si, y sólo si, dichos programas privan al individuo de realizar larespuesta reforzadora.

La direccionalidad en el principio del reforzamiento propuesta po r Pre-mack es cuestionada por la hipótesis de privación de respuesta (Allison,1989; Timberlake y Allison, 1974). Según esta propuesta, para que unaactividad pueda funcionar como un reforzador eficaz sólo es necesariorestringir la realización de dicha actividad en relación con su ocurrenciaen el punto de bienestar (o línea de base con acceso ilimitado a todas las


270




actividades), pero no es necesario que dicha actividad tenga que ser más pre ferida que la que se va a convert ir en ac tividad in strumenta l. Como se puede comprobar, esta hipótesis es todavía más relativa que la de Premacksobre el concepto de reforzador, y de hecho en su formulación elude refe-rirse a algo así como el reforzador para poder explicar el proceso de condi-cionamiento. Puede esquematizarse así: I/R > Oi/Or, siendo I = RespuestaInstrumental, R = Respuesta Reforzadora, Oi = Conducta Observada en lalínea de base (la que luego será instrumental), Or = Conducta Observada enla línea de base (la que luego será reforzadora). Refleja que la proporciónentre una actividad instrumental y una reforzadora debe ser mayor que la proporción observada entre es tas dos act ividades en el punto de bienestar.

Imaginem os una situación donde a un a rata se le permite el libre acceso

a dos actividades, beber de una botella y correr por un a rueda, y que se ob-tienen los resultados representados en la Figura 5.9. El punto de bienestares dar 400 lametones y realizar 200 giros en la rueda. Beber resultaría unaactividad preferida sobre correr. Ahora se restringe la oportunidad de bebery se hace con tingente a la ocurrencia previa de una cierta actividad de girar

y)oGO

J2oooÍ"Ho

o

oCG

be be r (R Fl )

500

Correr (número de giros en una rueda)

600

Figura 5.9. Situaciónexperimental dondeel animal tiene accesoa las actividades decorrer y beber, cuandoambas actividades estándisponibles libremente,o cuando se restringe elcorrer o el beber.

Se restringe c orrer (RF4)

271



la rueda, conforme a lo estipulado por el principio de Premack. Correr seríala respuesta instrumental y beber la respuesta contingente o reforzadora,y el resultado de dicha operación de reforzamiento sería la línea A de lafigura. En concreto, se representa un programa de reforzamiento de RF1,donde cada giro en la rueda de actividad va seguido de la emisión de unlametón a la botella con agua. Como se puede apreciar, la contingencia no pasa por el punto de bienestar, y lo que la teoría pre tende determinar escómo se ajustará n los animales a la contingencia (que se debe acepta r comosupervivencial) aceptando las limitaciones impuestas po r el medio. El argu -mento puede ser el siguiente. Para inten tar restablecer su punto óptimo (de

bienestar) , el anim al debe ejecuta r la respuesta instrumental designada porencima del nivel que existía cuando la respuesta era irrelevante para obte-ner el reforzador. La frecuencia de la respuesta o su tasa se estabilizará en

el punto en que el coste de incrementos mayores en la respuesta sobrepaseel beneficio de obtener el reforzador lo más cerca posible del nivel alcan-zado en la línea de base. Este punto es como el representado sobre la líneaA porque es el que minimiza la distancia al punto de bienestar cumplien-do con la contingencia de reforzamiento (Staddon, 1979). Como se puedeapreciar, en este punto la actividad instrumental ha aumentado en probabi-lidad de ocurrencia, al tiempo que la actividad contingente ha disminuidosu probabilidad, en relación con el punto de bienestar, de acuerdo tambiéncon el principio de Premack.

La situación crítica que diferencia la hipótesis de privación de la respuesta del princip io de Premack es cuando, en la Figura 5.7, lo que se res-tringe es la actividad de correr, en principio de menor probabilidad que lade beber. En este caso, el animal tiene que dar un determinado número delametones para tener acceso a la rueda de actividad, lo que en el ejemplo serepresenta por la línea B y se corresponde a un programa de RF4. Segúnla hipótesis de privación de la respues ta este tipo de contingencia es posibley los datos experimentales parecen confirm ar esta predicción (p. ej., Allison

y Timberlake, 1975), por otro lado contraria a uno de los supuestos del princip io de Premack (véase anteriorm ente ). Los anim ales distrib uirán suscom portamientos de acuerdo al punto representado sobre la línea B porquees el que minim iza la distancia al punto de bienestar, de man era que la acti-vidad instrumental (beber, la que era en principio más probable) aumenta,y la actividad contingente (correr) disminuye, su frecuencia de ocurrenciaen relación a la línea de base.


272




Si los argumentos presentados han quedado lo suficientemente claros,no debe ser difícil determinar a simple vista qué actividad es instrumentaly cuál contingente en figuras como la aquí representada. Observando el punto de bie nestar y los ejes cartesianos, se puede establecer la regla de quela contingencia que se desvía en dirección opuesta a uno de los ejes desdeel punto de bienestar, la actividad representada en dicho eje se restringe y

por lo tanto const ituye la ac tividad reforzadora .

La hipótesis de privación de respuesta ha sido aplicada a muchas si-tuaciones de condicionamiento operante, resultando en predicciones rela-tivamente novedosas y contraintuitivas. Tomemos por caso la frecuenciade reforzamiento, considerada anteriormente en relación con la ley deigualación. De acuerdo con lo allí tratado, a una mayor frecuencia de refor-

zamiento se debe esperar una mayor tasa de respuesta. En otras palabras,cuanto más largo sea el intervalo entre reforzadores, la tasa de respuestadeberá ser menor. Esta función lineal negativa se desprende de forma lógicade la idea de igualación, pero también se ha obtenido con la utilización de

pro gra mas básicos de re fo rzamiento (Catania y Reynolds, 1968). La hipóte-sis de privación de respuesta, sin embargo, predice que la tasa de respuestay la tasa de reforzamiento deben relacionarse en forma de Uinvertida y no

100

o 90

ShOaC/D

■«—>(/)O3a</)oShca<r oZ ja

</)oo

c/)£

80

70

60

50

40

30

20 -

10

0

Tasa de reforzamiento (reforzadores por minuto)

Figura 5.10. Hipotéticasrelaciones lineales o

bi tónicas entre la tasade respuesta y la tasa dereforzamiento.

273



de manera lineal. Específicamente, a medida que disminuya la frecuenciade reforzamiento, la tasa de respuesta instrumental debe aumentar, para posteriormente dismin uir a intervalos entre re forzadores aún mayores . LaFigura 5.10 ilustra como resultaría cada una de estas dos funciones.

El argumento que se sigue por la hipótesis de privación de respuesta para predecir que la función debe ser bitónica es que a medida que el re-querimiento del programa sea mayor (una longitud mayor del programa derazón o de intervalo), el número de respuestas debe aum en tar inicialmente porque el beneficio de obtener el refo rzador compensa el coste de respon-der más frecuentemente. Sin embargo, si el requisito del programa au-mentara demasiado, el coste de responder en exceso no compensaría másla baja frecuencia de reforzamiento obtenido. Timberlake y Peden (1987)

obtuvieron funciones bitónicas para los programas de IV y RF (véase, tam- bién, Felton y Lyon, 1966).

Veamos cómo funciona la idea gráficamente par a los programas de RF.La Figura 5.11 ilustra una situación experimental típica en los laboratoriosde psicología del aprendizaje, aunque el ejemplo sea totalmente arbitrarioy cumpla un propósito meramente didáctico. Una rata que tiene hambretiene a su disposición comida y una palanca de respuestas, en condicionesde libre acceso consu mirá más bolitas de comida que presionará la palanca.Supongamos que el punto de bienestar se corresponde con la ingesta de

100 bolitas de comida y la realización de 10 presiones de palanca. Si intro-dujéramos ahora un programa de RF1 por la que cada presión de palancafuera seguida de la administración de una bola de comida, la contingenciasería como la de la línea A de la figura. Se puede calcular, como se hizoanteriormente, la distancia mínima al punto de bienestar, y así se puede

predecir hasta dónde se puede forzar la respuesta instrumental de la ratade acuerdo a esa contingencia de reforzamiento. Si se alargarse el requisitode la razón, se debería reducir la frecuencia de reforzamiento, al tardarsemás en completar el programa. Esto es lo que ocurre en las otras dos si-

tuaciones representadas en la figura. Un programa de RF5 (línea B) alejala contingencia del punto de bienestar, pero todavía existe algún punto enla contingencia donde la distancia es significativamente menor al puntode bienestar. Esto hace que el animal tenga que efectuar más presionesde palanca para acercarse lo más posible a su óptimo conductual. Cuandola frecuencia de reforzamiento disminuya más todavía y el requisito del programa se alargue en exceso, la distancia mínim a desde la contingencia


274



al punto de bienestar será grande, y, lo que es más importante, no existiráningún área de la contingencia que sea significativamente mejor que otra.Esta es la situación que se puede producir en el ejemplo con un programade RF25 (línea C).

Un aspecto interesante que se deriva del análisis anterior es que la ob-tención de una función lineal o bitónica puede depender de la longitud de lasesión experimental, puesto que las contingencias se separan más a medidaque se aumente el número de reforzadores administrados (véase la Figura5.11). Cuando las sesiones experimentales sean relativamente cortas, co-mo en la mayoría de los experimentos, la función que relaciona la tasa derespuesta con la tasa de reforzamiento debería tender hacia la linealidad,lo que reconcilia esta posición teórica con los resultados generalmente

encontrados en investigaciones previas como las comentadas en apartadosanteriores de este capítulo.


Nú mero de bolitas de comi da

Figura 5.11. Punto de bienestar y restricciones impuestas por diferentes programas derazón fija, según la hipótesis de la privación de respuesta.

275




Para explicar por qué se realizan (fortalecen) las respuestas a través del

proceso de reforzamiento ha habido dos aproximaciones generales, que sonhistóricas y que continúan en la actualidad. Por una parte, se ha pensado quelos reforzadores participan de alguna manera en la formación de asociacionesentre los estímulos y las respuestas, bien sea directamente a través de asocia-ciones ER o a través de asociaciones entre estímulos (asociaciones EE). Co-mo alternativa a la postura asociacionista se ha desarrollado la aproximaciónque considera que el reforzamiento actúa sobre la conducta a través de un pro-ceso seleccionista, de manera que se selecciona respuestas concretas porque enel pasado resultaron ventajosas. Ejemplos de este tipo de aproximación son lateoría de la probabilidad diferencial, más conocida como principio del refor-zamiento de Premack, y la teoría de la privación de respuesta, que tienen

en común la defensa de que una actividad va a funcionar como un reforzadoreficaz si está restringida con respecto al óptimo al que se desarrollaría dichaactividad en situaciones de no limitaciones ambientales.

Teorías del aprendizaje (Resumen )

276





Asociaciones ER vs. EE: Para explicar la adquisición de fuerza de una respues ta tradicionalmente se ha pensado que se forman asociaciones entrelos estímulos y las respuestas. Este tipo de explicación no se adecúa atodos los resultados experimentales, habiendo sido necesario postular lacoocurrencia de asociaciones estímuloestímulo. La explicación ER hasido importante para establecer reglas de aprendizaje, pero también paradeterminar reglas de ejecución de lo ya aprendido.

Autocontrol (frente a impulsividad): Elección de un reforzador grande de-morado frente a la elección más natural de reforzadores pequeños inme-diatos (impulsividad). El peso de la inmediatez de la recompensa influye

normalmente más en la conducta que la magnitud del reforzador (siguien-do el principio de contigüidad temporal), una forma de contrarestarlo esdemorar aunque sea brevemente el reforzador pequeño, resultando en queesperar un poco más para un premio mayor se vuelve más atractivo. El va-lor de los reforzadores basado en las características de magnitud y demorase puede cuantificar siguiendo un modelo hiperbólico.

Funciones de retroalimentación: Son descripciones de las posibles relacionesexistentes entre aspectos ambientales relacionados con la ocurrencia del re-forzador (por ejemplo, su frecuencia de ocurrencia) y aspectos de ejecución

conductual (como puede ser, por ejemplo, la frecuencia de ocurrencia de larespuesta). Por lo general en los programas de razón se encuentran funcio-nes lineales, mientras que en los programas de intervalo se encuentran fun-ciones hiperbólicas. Las funciones de retroalimentación se correspondencon una explicación molar de las relaciones del ambiente con la conducta.

Ley de igualación: Es una relación matemática que establece una equipara-ción entre la tasa relativa de respuesta entre las alternativas existentes en un

pro grama con currente y la tasa relativa de re forzamiento que acom paña laelección de dichas a lternativas de respuesta. La conducta de elección predicha por la ley de igualación se ha visto influida por factores como los sesgosde respuesta y la sensibilidad a las consecuencias de reforzamiento, lo queha llevado a su reformulación matemática dando lugar a la ley generalizadade la igualación.

Mejoramiento: Teoría propuesta para explicar la elección en programas con-currentes de reforzamiento y basada en la idea de que siempre se respon-

277



derá para mejorar la tasa local de reforzamiento, dando como resultadola igualación al equipararse las tasas locales de reforzamiento fruto deque a las alternativas de respuesta se les darán respuestas, se obtendránreforzadores y se les dedicará un tiempo que estarán en proporción al re-

forzamiento disponible en dichas opciones de respuiesta. El mejoramientoes una alternativa teórica que tiene elementos molares y moleculares deexplicación de la conducta.

Programas básicos de reforzamiento: Son reglas que determinan cómo sereforzarán las respuestas, destacando cuatro programas fundamentales:razón fija, razón variable, intervalo fijo e intervalo variable. La diferenciaentre ellos se basa en el criterio de si se reforzará la respuesta que completaun número determ inado de respuestas o la respuesta dada después de haber

pasado un tiempo especificado, criter io que tanto en un caso como en otro puede ser fijo o puede variar de una ocasión a la siguiente. Los programasde razón mantienen por lo general tasas de respuesta más altas que los deintervalo, y los programas fijos, a diferencia de los variables, generan pau-sas postreforzamiento.

Programas compuestos secuenciales de reforzamiento: Hace referencia ala presentación en sucesión de al menos dos programas básicos de reforza-miento, destacando los programas mixto, múltiple, tándem y encadenado,cuya diferencia radica en cómo se pasa de uno a otro de los programas

componentes y si existe señal discriminativa para los mismos.

Programas concurrentes y conducta de elección: Se refieren a la disposi-ción de dos o más programas básicos de reforzamiento de forma simultá-nea, de manera que para obtener el reforzador se tiene que elegir a cuálde ellos responder. La forma en que se programan las contingencias dereforzamiento en las alternativas de respuesta determina la forma en quese elegirá entre ellas.

Programas (y teoría) de reforzamiento diferencial de tiempos entre res-

puestas: Se puede reforzar específicamente que se separen las respuestasentre sí por un tiempo mínimo (un programa de reforzamiento diferencialde tasas bajas de respuesta) o por un tiempo máximo (un programa de re-forzamiento diferencial de tasas altas de respuesta), lo que genera respecti-vamente responder lenta o rápidamente. Este reforzamiento diferencial delos tiempos entre respuestas se piensa que está involucrado en la ejecuciónde todos los programas de reforzamiento aunque específicamente no se


278




hubiesen programado así, y responde a un tipo de explicación característi-co de una aproximación teórica molecular (frente a la explicación de tipomolar).

Sensibilidad al reforzador: Estimación de cuanto una característica de re-forzamiento influye en su efecto, de manera que no todas las variables quedefinen a los reforzadores (como su frecuencia o magnitud) contribuyen lomismo a determinar el valor de los mismos, ni tienen el mismo valor paratodos los individuos. Estimar la influencia relativa de una característicade reforzamiento en relación a otras, y con referencia a cada sujeto, esimportante para poder determinar las preferencias en pruebas de eleccióncomo las de los programas concurrentes. Un parámetro de sensibilidad esincorporado a la ley generalizada de la igualación para poder explicar por

qué en ocasiones la mejor alternativa es preferida por encima de lo queobjetivamente vale (sobreigualación) y en muchas otras es preferida pordebajo de lo que vale (infraigualación).

Teoría de la privación de respuesta: Propuesta teórica que matiza el principio del reforzamiento de Premack al po stula r que lo único necesario paraque una actividad pueda funcionar como reforzadora es restringir su ocu-rrencia con respecto a su óptimo (ahora denominado punto de bienestar),

pero que no es necesario establecer ninguna je ra rq uía de preferencias parasaber si las actividades instrumental y reforzadora son diferencialmente

preferidas.

Teoría de la probabilidad diferencial: También conocida como principio dePremack, y por la que se propone que para que una actividad pueda fun-cionar como reforzadora debe ser preferida sobre la actividad que se quierereforzar y hacerla posible sólo de forma contingente a la realización previade la conducta instrumental, para lo cual habrá que restringir su ocurrenciaen relación a los niveles óptimos de preferencia (pues si no estuviese res-tringida dicha actividad no podría funcionar como reforzadora).

279



REFERENCIAS

A b r e u -R o d r i g u e s , J.; L a t t a l , K.A.; Dos S a n t o s , C.V. y M a t o s , R. A. (2005). Variation, repetition, and choice. Journal o f the Experimental Analysis o f Behavior,

83, 147168.A l l i s o n , J. (1989). The nature of reinforcement. En S.B. Klein y R.R. Mowrer

(Eds.), Contemporary Learning theories: Instrumental conditioning and the im- pact o f biological cons traints on learning (pp. 1339). Hillsdale, NJ: Erlbaum.

A l l i s o n , J. y T i m b e r l a k e , W. (1975). Response deprivation and instrumental perfor-mance in the controlledamount paradigm. Learning and Motivation, 6, 122142.

An g e r , D. (1956). The dependence of interresponse times upon the relative rein-forcement of different interresponse times. Journal o f Experimental Psychology, 52, 145161.

A p a r i c i o , C. F. (2001). Overmatching in rats: The barrier choice paradigm. Journal o f the Experimental Analysis o f Behavior, 75, 93106.

B a r ó n , A. y H e r p o l s h e i m e r , L. R. (1999). Averaging effects in the study of fixedratioresponse patterns. Journal o f the Experimental Analysis o f Behavior, 71, 145153.

B a u m , W. M. (1973). The correlationbased law of effect. Journal o f the Exper imen

tal Analysis o f Behavior, 20, 137153. — (1974). On two types of deviation from the matching law: Bias and un derm at

ching. Journal o f the Experimental Analysis o f Behavior, 22, 231242. — (1979) . Matching, undermatching, and overmatching in studies of choice. Jour

nal o f the Experimental Analysis o f Behavior, 32, 269281. — (1989). Quanti tative prediction and molar descript ion of the environment. The

Behavior Analyst, 12, 167176. — (1992). In search of the feedback function for variableinterval schedules. Jour

nal o f the Experimenta l Analysis o f Behavior, 57, 365375. — (1993) . Performances on ratio and interval schedules: Data and theory. Journal

o f the Experimental Analysis o f Behavior, 59, 245264.

B a u m , W. M. y R a c h l i n , H. C. (1969). Choice as time allocation. Journal o f the Ex perimental Analysis o f Behavior, 12, 861874.

B l o d g e t t , H. C. (1929). The effect of the introduction of reward upon the maze per-formance of rats. JJniversity o f California Publications in Psychology, 4, 113134.

B o a k e s , R. A. (1984). From Darwin to behaviourism. Cambridge: Cambridge University Press, (traducido por Edi torial Alianza)

B r o w n s t e in , A. J. y P l i s k o f f , S. S. (1968). Some effects of relative reinforcementrate and chageover delay in responseindependent concurrent schedules ofreinforcement. Journal o f the Experimental Analysis o f Behavior, 11, 683688.


280



Ca t a n i a , A. C. (1963) Concurrent performances: A baseline for the study of reinfor-cement magnitude. Journal o f the Experimental Analysis o f Behavior, 6, 299300.

Ca t a n i a , A. C.; M a t t h e w s , T. J.; S i l v e r m a n , P. J. y Y o h a l e m , R. (1977). Yoked variableratio and variableinterval responding in pigeons. Journal o f the Experi

mental Analysis o f Behavior, 28, 155161.Ca t a n i a , A. C. y R e y n o l d s , G. S. (1968). A quantitative analysis of the responding

maintained by interval schedules of reinforcement. Journal o f the Experimental Analysis o f Behavior, 11, 327383.

Co l é , M. R. (1994). Responserate differences in variableinterval and variableratio schedules: An oíd problem revisited. Journal o f the Experimental Analysis o f

Behavior, 61, 441451. — (1999). Molar and molecular control in variableinterval and variableratio

schedules. Journal o f the Experimental Analysis o f Behavior , 71, 319328.Co r d i n g , J. R.; M c L e a n , A. P. y G r a c e , R. C. (2011). Testing the linearity and inde

pendence assumptions of the generalized match ing law for reinforce r magnitu-de: A residual metaanalysis. Behavioural Processes, 87, 6470.

C r o s s m a n , E. K. (1968). Pause relationships in múltiple and chained fixedratioschedules. Journal o f the Experimental Analysis o f Behavior, 11,117126.

D a v i s o n , M. y M c C a r t h y , D. (1988). The Matching Law: A research review. Hillsdale, NJ: Erlbaum.

D e V i l l i e r s , P. A. (1977). Choice in concurrent schedules and a quantitative formulation of the law of effect. En W.K. Honig y J.E.R. S taddon (Eds.), Handbook o f

operant behavior (pp. 233287). Englewood Cliffs, NJ: PrenticeHall (traducido por Editorial Trillas).

D i n s m o o r , J. A. (1998). Punishment. En W. O’Donohue (Ed.), Learning and behavior therapy (pp. 188204). Boston, MA: Allyn and Bacon.

E l l i f f e , D.; D a v i s o n , M. y L a n d o n , J. (2008). Relative reinforcer rates and m agni tu-des do not control concurrent choice independently. Journal o f the Experimen

tal Analysis o f Behavior, 90, 169185.E i s e n b e r g e r , R.; K a r p m a n , M. y T r a t t n e r , J. (1967). What is the necessary and

sufficient condition for reinforcement in the contingency situation? Journal o f

Exper imental Psychology, 74, 342350.F e l t o n , M. y L y o n , D. O. (1966). The postreinforcement pause. Journal o f the Ex

perimental Analysis o f Behavior, 9, 131134.F e r s t e r , C. B. y S k i n n e r , B. F. (1957). Schedules of reinforcement. New York:

AppletonCenturyCrofts.F i n d l e y , J. D. (1958). Preference and switching un der concu rren t scheduling. Jour

nal o f the Experimenta l Analysis o f Behavior, 1, 123144.


281



G o l l u b , L. R. (1977). Conditioned reinforcement: Schedule effects. En W.K.Honigy J.E.R.Staddon (Eds.), Handbook o f operant behavior (pp. 288312). EnglewoodCliffs, NJ: PrenticeHall (traducido por Editorial Trillas).

G u t h r i e , E. R. (1935). The psychology o f learning. New York: Harper.G u t h r i e , E. R. y H o r t o n , G. P. (1946). Cats in a puzzle box. New York: Rinehart.H e r r n s t e i n , R. J. (1961). Relative and absolute strength of response as a function

of frequeney of reinforcement. Journal o f the Experimental Analysis o f Behavior, 4, 267274.

— (1970). On the law of effect. Journal o f the Experimental Analysis o f Behavior, 13, 243266.

H e r r n s t e i n , R. J. y H e y m a n , G. M. (1979). Is matching compatible with reinforce-ment maximization on concurrent variable interval, variable ratio? Journal o f the Experimenta l Analysis o f Behavior, 31, 209223.

H e r r n s t e i n , R. J. y V a u g h a n , W. (1980). Melioration and behavioral allocation. EnJ.E.R. Staddon (Ed.), Lim its to action (pp. 143176). New York: Academic Press.

H i g a , J. J.; W y n n e , C. D. L. y S t a d d o n , J. E. R. (1991). Dynamics of time discrimination. Journal o f Experimental Psychology: Animal Behavior Processes, 17, 281291.

H o n i g , W. K. y U r c u i o l i , P. J. (1981). The legacy of Guttman and Kalish (1956):25 years of research on stimulus generalization. Journal o f the Experimental

Analysis o f Behavior, 36, 405445.H u l l , C. L. (1943). Principies o f behavior. New York, NY: AppletonCenturyCrofts.

(traducido al español por Editorial Debate)

— (1952). A behavior system: An introduction to behavior theoiy concerning the individual organism. New Haven, CT: Yale University Press.

K i l l e e n , P. R. (1969). Reinforcement frequeney and contingency as factors infixedratio behavior. Journal o f the Experimental Analysis o f Behavior, 12, 391395.

K i l l e e n , P. R. y P e l l ó n , R. (2013). Adjunctive behaviors are operants. Learning and Behavior, 41, 124.

L a n d o n , J.; D a v i s o n , M. y E l l i f f e , D. (2003). Concurrent schedules: Reinforcermagni tude effects. Journal o f the Experimental Analysis o f Behavior, 79, 351365.

L e j e u n e , H.; F e r r a r a , A.; S i m o n s , F. y W e a r d e n , J. H. (1997). Adjusting to changes

in the time of reinforcement: Peakinterval transitions in rats. Journal o f Experimental Psychology: Animal Behavior Processes, 23, 211231.

L e j e u n e , H.; R i c h e l l e , M. y W e a r d e n , J. H. (2006). About Skinner and time: Behavioranalytic contributions to research on animal timing. Journal o f the Experi

menta l Analysis o f Behavior, 85, 125142.L e w i s , D. J. (1960). Pardal reinforcement: A selective review of the literature since

1950. Psychological Bulletin, 57, 128.


282



L o g u e , A. W.; R o d r í g u e z , M. L.; P e ñ a -Co r r e a l , T. E. y M a u r o , B. E. (1984). Choi-ce in a self.control paradigm: Quantification of experiencebased differences.

Journal o f the Experimental Analysis o f Behavior, 41, 5367.M a c C o r q u o d a l e , K. y M e e h l , P. E. (1948). On a distinction between hypothetical

constructs and intervening variables. Psychological Review, 55, 95107.M a z u r , J. E. (1984). Test of an equivalence rule for fixed and variable reinforcer

delays. Journal o f Experimental Psychology: Anim al Behavior Processes, 10, 426436.

M a z u r , J. E. (1998). Learning and Behavior (4th Edition). Upper Sadle River, NJ:PrenticeHall.

M a z u r , J. E. (2001). Hyperbolic valué addition and general models of animal choi-ce. Psychological Review, 108, 96112.

M c D o w e l l , J . J . ( 2 0 0 5 ) . O n t h e c l a s s i c a n d m o d e r n t h e o r i e s o f m a t c h i n g . Journal

o f the Experimental Analysis o f Behavior, 84, 111127.M c S w e e n e y , F. K.; K o w a l , B. P. y M u r p h y , E. S. (2003). The effect of rate of

reinforcement and time in session on preference for variability. Learning and Behavior, 31, 225241.

M o r s e , W. H. (1966). Intermittent reinforcement. En W.K. Honig (Ed.), Operant behavior: Areas of research and application (pp. 52108). New York: AppletonCenturyCrofts (traducido por Editorial Trillas).

N e v i n , J. A. y B a u m , W. M. (1980). Feedback functions for variableinterval reinfor-cement. Journal o f the Experimental Analysis o f Behavior, 34, 207217.

P e e l e , D. B.; Ca s e y , J. y S i l b e r b e r g , A. (1984). Primacy of interresponsetimereinforcement in accounting for rate differences under variableratio and va-riableinterval schedules. Journal o f Exper imental Psychology: Anim al Behavior

Processes, 10, 149167.P o w e l l , R. W. (1968). The effect of small sequential changes in fixedratio size

upon the postreinforcement pause. Journal o f the Experimental Analysis o f Behavior, 11, 589593.

P r e m a c k , D. (1959). Toward empirical behavior laws: I. Positive reinforcement. Psychological Review, 66, 219233.

— (1962). Reversibility of the re in forcement relation. Science, 136, 255257. — (1965). Reinforcement theory. En D. Levine (Ed.), Nebraska symposiu m on motivation Vol. XIII (pp. 123180). Lincoln: University of Nebraska Press.

R a c h l i n , H . ( 1 9 7 8 ). A m o l a r t h e o r y o f r e i n f o r c e m e n t s c h e d u l e s . Journal o f the Ex

perimental Analysis o f Behavior , 30, 345360.R a c h l i n , H.; B a t t a l i o , R.; K a g e l , J. y G r e e n , L. (1981). Maximization theory in

behavioral psychology. Behavioral and Brain Sciences, 4, 371417.


283






Z e i l e r , M. D. (1977). Schedules of reinforcement: The controlling variables. EnW.K. Honig y J.E.R. Staddon (Eds.), Handbook o f operant behavior (pp. 201 232). Englewood Cliffs, NJ: PrenticeHall. (traducido por Editorial Trillas)

Z e i l e r , M. D. y P o w e l l , D. G. (1994). Temporal control of fixedinterval schedules. Journal o f the Experimental Analysis o f Behavior, 61, 19.

285





T e m a 6

CONTROL DE LA CONDUCTAPOR ESTÍMULO


1. Control pavloviano y control operante .......................................... 292

2. Generalización y discriminación ...................................................... 295

3. Medición del control por el estímulo: los gradientes degeneralización ......................................................................................... 298

4. Control condicional .............................................................................. 303

4.1. Modulación ....................................................................................... 304

4.2. Discriminación condicional .......................................................... 305

5. Factores que afectan al control por el estím ulo ......................... 309

5.1. Relacionados con los estímulos .................................................... 310

5.1.1. Capacidad sensorial .............................................................. 310

5.1.2. Facilidad relativa de condicionamiento de los elementos

de un compuesto .................................................................. 310

5.1.3. Modalidad sensorial .............................................................. 311

5.1.4. Discriminabilidad .................................................................. 312

5.1.5. Intensidad de los estímulos discriminativos .................... 312

5.1.6. Aprendizaje del rasgo positivo ............................................. 3135.2. Relacionados con la respuesta ...................................................... 313

5.2.1. Relación respuesta-reforzador ............................................. 313

5.2.3. Respuesta de observación a la muestra ............................ 314

5.2.2. Respuesta diferencial ............................................................ 315

5.3. Relacionados con la experiencia previa ...................................... 315

5.3.1. Disposiciones de aprendizaje .............................................. 315

287



5.3.2. Efecto del sobreaprendizaje en la inversión ..................... 3175.3.3. Experiencia de reforzamiento no diferencial .................... 317

5.4. Relacionados con el entrenamiento discriminativo ................. 319

5.4.1. Tipos de entrenamientos discriminativos ......................... 319

5.4.2. Eficacia relativa de los elementos del estímulo como

señales para el reforzamiento .............................................. 321

5.4.3. Tipo de reforzamiento .......................................................... 322

5.4.4. Consecuencia diferencial ...................................................... 322

5.4.5. Duración del intervalo entre ensayos ................................ 323

5.4.6. Grado de entrenamiento ...................................................... 324

5.4.7. Entrenamiento en discriminación «sin errores» ............. 324

5.4.8. Intervalo entrenamiento-prueba ......................................... 325

6. Interacciones excitatorias-inhib itorias .......................................... 325

6.1. Desplazamiento del Máximo ........................................................ 3266.2. Efecto de Tendencia Central ........................................................ 329

7. Otras teor ías sobre la generalización .............................................. 331

7.1. Hipó tesis inversa : Blough ............................................................ 3327.2. Teoría atencional: Shutherland y Mackintosh ...................... 3337.3. Respuest a Múlt iple: Sta ddon ...................................................... 334

Referencias .................................................................................................... 338


288



C o n t r o l d e l a c o n d u c t a p o r e s t í m u l o

Conducta de elección. Se considera que un individiio ha tomado una deci-sión o ha elegido una opción cuando emite una respuesta en una situación

en la que existían más de una alternativa de respuesta disponible. Aunque podría considerarse que cualqu ier conducta es una elección (responder vs.no responder) este fenómeno suele estudiarse mediante la aplicación de

programas de reforzamiento concurrentes .

Contingencia y Acontingencia. Podría equipararse a la correlación o la covariación entre dos eventos. Es decir, cuándo la aparición de un evento estárelacionada con la presencia o aparición de un evento anterior. La relaciónde contingencia puede ser directa (positiva), cuando la aparic ión del eventoB es muy probable tras la aparición del evento A, o inversa (negativa) cuan-do tras el evento A es poco probable que aparezca B. Si no existe ningunade estas dos relaciones entre A y B, es decir, tras A existe aproximadamenteun 50% de que aparezca B, se considera que la contingencia es nula, noexiste, o que la relación es de Acontingencia. Es importante señalar que larelación de contingencia no implica causalidad, A no tiene porqué producirB para que correlacionen.

Extinción y Castigo. Las dos maneras más usuales de disminuir la probabili-dad futura de una operante que está siendo sometida a reforzamiento son

la aplicación o bien de Castigo o bien de Extinción. En un procedimientode Castigo positivo, o castigo simplemente, la emisión de la respuesta tienecomo consecuencia la aparición de un evento aversivo. En el Castigo nega-tivo, o entrenamiento de Omisión, la consecuencia tras la respuesta es lano presentación de un reforzador cuya probabilidad de aparición era alta.En ambos se establece algún tipo de contingencia (positiva o negativa) conla consecuencia. Sin embargo, la aplicación de Extinción a una respuestareforzada positivamente implica romper la contingencia que manteníanla respuesta y el reforzador, es decir, que cuando se emita la conducta noaparezca el reforzador.

Reforzamiento positivo y Reforzamiento negativo. En una contingenciaoperante, aquellos procedimientos que producen un aumento de la pro-

babilidad futura de que la conducta se em ita (en un contexto similar) sedenominan Reforzamiento. Si el procedimiento consiste en hacer contin-gente positiva la aparición de un reforzador con la emisión de la respuestase considera un Reforzamiento Positivo, o simplemente re forzamiento. Si


289




en el procedimiento la contingencia que mantienen la respuesta y la con-secuencia es negativa, y la consecuencia es de naturaleza aversiva, ya seaescapando de ella o evitando su aparición, se denomina Reforzamiento

Negativo o ent renamiento de Escape/Evitación.

O b j e t i v o s

• Abordar el concepto de «control por el estímulo» como la identificación de lacausa del comportamiento observado.

• Diferenciar entre los fenómenos de discriminación y generalización como polos opuestos (y complementarios) de un mismo continuo, así como cono-cer las diferentes técnicas para determinar en qué puno del continuo seencuentra el comportamiento de un individuo.

• Distinguir entre un tratamiento funcional de los eventos y un tratamientotopográfico.

• Saber interpre tar un gradiente de generalización, identificando si se trata deun control excitatorio o inhibitorio y el grado de generalización mostrado.

• Diferenciar entre los elementos y características del control simple por elestímulo y el control condicional.

• Conocer los factores de los que depende la adquisición de la conducta discriminativa, es decir, de que un evento adquiera control sobre la conducta.

• Comprender de qué depende el resultado de la interacción entre los diferen-tes gradientes de generalización (excitatorio e inhibitorio) cuando se realizaun entrenamiento de discriminación intradimensional.

290



El objeto de estudio de la psicología es la conducta, toda la conducta: la pública y la privada, la refleja y la operante , la consciente y la inconscien-te. El objetivo de la psicología científica es establecer relaciones causalesentre los eventos antecedentes a una conducta y la aparición de la misma,no hay que olvidar que la causa siempre antecede al efecto. Identificar estetipo de relaciones entre eventos es lo que nos permite predecir y controlar

nuestro objeto de estudio; predecir en función de nuestra informaciónsobre las causas, y controlar en función de nuestra capacidad para mani-

pularlas.

La explicación de un evento (B), por tanto, consistiría en determinar larelación causal que mantiene con otro evento anterior (A). Una vez cono-cida esta relación causal, podría considerarse que la aparición de B estácon trolada p or la aparic ión de A, o lo que es lo mismo, que B es función deA, razón por la que también se les denomina a estas conexiones «relacionesfuncionales». Por supuesto, estamos simplificando enormemente la reali-dad. El comportamiento de un individuo (nuestra variable dependiente)rara vez está determinado por un único factor (variable independiente),

pero la comple jidad es la inte racción de elementos más simples, y analizarconsiste justo en eso: en distinguir y separar las partes de un todo paraconocer sus elementos. Así que vamos a analizar.

Volviendo al título del capítulo, cuando usamos la expresión «control dela conducta por el estímulo» nos referimos a la explicación de un com porta -miento por la aparición de algún evento anterior. Este evento causal (ante-

cedente) puede ser una imagen, un sonido, la conducta de otro, o inclusonuestra propia conducta. Cualquiera de estos ejemplos estaría funcionandocomo un estímulo de control siempre que fuese la causa del comportam ien-to en cuestión. Sin embargo, existen importantes diferencias en el control

por el estímulo en función del tipo de respuesta que estamos analizando:refleja u operante (o instrumental). Por esta razón ded icaremos la primera parte del capítulo a dis tinguir es tas dos modalidades.

291



El control por el estímulo implica ajuste al ambiente. Los estímulosante los que es adaptativo desplegar según qué reflejo pueden cambiar deun contexto a otro. Las consecuencias que le siguen a la emisión de unamism a respuesta (topográficamente hablando) son diferentes en función delas circunstancias. C omportarse de la mism a forma ante cualquier estímulo puede ser perjudicia l para el individuo, pe ro también puede serlo que cadaconfiguración estimular requiera de un condicionamiento específico paraque adquie ra control sobre la conducta, sobre todo teniendo en cuenta queexisten infinitas posibilidades de configuraciones estimulares. El bienestar,y en ocasiones la supervivencia, del organismo depende de su capacidad para adaptarse a las exigencias del ambiente y el con trol por los est ímulos juega un papel fu ndamenta l en esa adaptación.

En este sentido, consideramos que un organismo está generalizandocuando variaciones del estímulo que ha adquirido cierto control sobre suconducta siguen manteniendo dicho control, mientras que estaría discri-minando si esas variaciones implican la pérdida de control. Generalizary discriminar son los polos opuestos de un continuo, generalizamos máscuando discriminamos menos y a la inversa. Situarse en una posición uotra de ese continuo no implica por sí mismo un mejor ajuste, depende,como siempre, de las exigencias del ambiente. Dedicaremos el segundoapartado del capítulo a desarrollar estos conceptos y el tercero a describirlos procedim ientos a través de los cuáles se identifica la posición del indivi-duo en el mencionado continuo.

El cuarto apartado abo rdará las principales teorías que explican el fenó-meno de la generalización. Los siguientes se destinarán a describir fenóme-nos más complejos, como el control por estímulos compuestos, el controlcondicional y otros fenómenos de relevancia. Así como las variables quedeterminan que un sujeto generalice o discrimine respecto a los estímulosde control. El último ap artado se dedicará a repa sar las principales teoríasque se han propuesto para explicar el fenómeno de la generalización/dis-

criminación.

1. CONTROL PAVLOVIANO Y CONTROL OPERANTE

El control por el estímulo pavloviano es más fácil de abordar. Hemosvisto en capítulos anteriores como las especies han evolucionado desa


292







do en discriminativos negativos para la misma conducta porque hanestado presentes d uran te la extinción de la misma.

5) De la mism a forma que el control de un EC puede extinguirse, el con-

trol de un discriminativo puede desaparecer si la conducta deja demantener la contingencia con la consecuencia que mantenía durantela adquisición.

Este nuevo elemento explicativo que hemos incluido conlleva unasnotables implicaciones en el análisis del comportamiento. Si bien la con-tingencia mínima pavloviana es de dos términos (EIRI o ECRC), la ope-rante consta de tres términos. De la misma forma que no puede entenderseuna respuesta refleja sin el estímulo que la desencadena, el análisis de larespuesta operante debe tener en cuenta a los discriminativos que la con-

trolan. Como veremos, ésta es la contingencia mínima pero no la única,la cantidad y complejidad de los estímulos de control pueden (y de hecho,suelen hacerlo) aumentar extraordinariamente.

2. GENERALIZACIÓN Y DISCRIMINACIÓN

Desde una perspectiva funcional, un estímulo puede ser cualquier even-to siempre y cuando su presencia produzca alguna reacción en el sujeto, es

decir, cumpla la función de estímulo para esesujeto. No es una definición circular, en un an á-lisis funcional cada evento se etiqueta según el

papel que re presenta respecto a otros eventos.

Desde una perspectiva topográfica o estruc-tural (basada en las propiedades físicas delevento) un estímulo puede ser exteroceptivosi proviene del medio externo al organismo(como el sonido de un claxon o el olor de un

cocido), o interoceptivo si proviene del mediointerno (como el latido de nuestro corazón, elmalestar gástrico o como un paisaje imaginadoo una palabra pensada). Otra posible distinciónson los denomina dos estímulos propioceptivos,que son aquellos generados por la posición yel movimiento del cuerpo. Y una última distin-


Ejemplo

Si ante la pregun-ta (evento 1) «¿Quéhora es?» respondemos(evento 2) «las cuatroy media», el evento 1es una operante para elsujeto que la emite peroun discriminativo para

nosotros, de la mismaforma que el evento 2es una respuesta paranosotros pero un discri-minativo positivo parala emisión de la respues-ta «gracias» por parte dela otra persona.

295





da por su valor adaptativo, ya que nos permite comportarnos de maneraefectiva ante estímulos «nuevos».

Pero no siempre es adaptativo responder de la misma forma ante estí-

mulos diferentes (generalizar), en ocasiones pequeñas diferencias entreestímulos pueden significar consecuencias completamente diferentes parala misma topografía de conducta. El botón de encendido/apagado de unordenador puede parecerse mucho al de reinicio, la llave de nuestro coche

puede ser casi igual que la de nuestra casa, nuestro padre puede parecersemucho a nuestro tío, pero a la conducta de pulsar, meter la llave o decir papá va a seguirle una consecuencia muy diferente en función del estímuloque esté presente. La discriminación consiste en responder de m anera dife-rente ante estímulos diferentes, y, al contrario que la generalización, esta

capacidad requiere de entrenamiento. A este entren amie nto se le denominacondicionamiento discriminativo o reforzamiento diferencial, y al com por-tamiento resultante conducta discriminativa o respuesta diferencial.

Aunque más adelante se detallarán los diferentes tipos de entrenamien-to discriminativo, de una forma simple, y como ejemplo, podríam os describi rlos de la siguien te manera :

a) Control pavloviano. Presentamos de forma contingente positivaun sonido (EC1) y una descarga (El), mientras que hacemos queuna luz (EC2) mantenga una contingencia nula con la descarga.Consideraríamos que existe control por el estímulo si la respuestacondicionada excitatoria aversiva sólo es elicitada en presencia delEC1 y no del EC2, es decir, si el sujeto discrimina entre el EC1 y elEC2. Si la respuesta condicionada se emite ante los dos estímuloso no se emite ante ninguno concluiríamos que no existe tal control.

b) Control operante. Hacemos que el reforzamiento positivo de unaconducta correlacione positivamente con la presencia de una luz roja(El) y negativamente con una luz verde (E2). Si el sujeto emite esa

respuesta concreta (R) con una tasa mayor (o más frecuentemente,o de forma más intensa) en presencia del El que en presencia delE2 consideraremos a la luz roja como un discriminativo positivo

para esa conducta y a la luz verde como un discriminativo negativo(o delta). De esta forma, la ejecución del sujeto es una prueba deque discrimina entre ambos estímulos, es decir, que su conducta seencuentra bajo el control de éstos.


297



Antes de pasar al siguiente apartado, vamos a señalar algunos aspectosimportantes respecto a la dicotomía generalización/discriminación, algu-nas ya esbozadas anteriormente:

1) El control por el estímulo es un continuo en cuyos extremos seencuentran la generalización y la discriminación, en posicionesopuestas. Esto significa que cuando un sujeto está demostrando unaalta generalización también podría etiquetarse como una baja discri-minación, y a la inversa. De la misma forma, se considera que existemayor control por el estímulo cuánto mayor es la discriminacióndemostrada, mientras que si el sujeto exhibe un alto grado de gene-ralización se estima que el control por el estímulo es bajo.

2) La generalización no es más adaptativa que la discriminación ni

al contrario. La generalización de un estímulo va descendiendo amedida que el sujeto es expuesto a reforzamiento diferencial antevariaciones de dicho estímulo. Que generalizar o discriminar sea másadaptativo va a depender de las exigencias del ambiente. Distinguir(discriminar) entre 30 tonalidades de blanco puede ser muy adapta-tivo en Groenlandia (para no pisar un oso polar, por ejemplo), perono mucho si vives en Egipto. No obstante, en términos generales,cuánto mayor es nuestra discriminación entre los estímulos más finoes nuestro ajuste al medio, ya que emitimos respuestas diferenciales

ante pequeñas variaciones del contexto.3) La generalización y la discriminación se pueden producir con todos

los estímulos que ejercen control sobre la conducta, incluido losestímulos discriminativos. Los estímulos discriminativos (a pesarde su nombre) están sujetos también a la generalización. Cualquiermodalidad de paso de cebra, por ejemplo, puede ejercer el mismocontrol sobre nuestra conducta de cruzar la calle que la que ejerce lamodalidad concreta con la que se ha condicionado dicha respuesta,

por supuesto, este control va a depender de cuánto se parecen.

3. MEDICIÓN DEL CONTROL POR EL ESTÍMULO:LOS GRADIENTES DE GENERALIZACIÓN

El fenómeno de la generalización de estímulos ya fue observado porPavlov en sus experimentos. El propio autor describe el fenómeno como un


298



proceso neurológico primario (Pavlov, 1927) en el que la activación de cier-tas áreas cerebrales, provocada por la presencia del EC, se extiende a áreas próximas asociadas a otros estímulos similares. Esta aproximación al fenó-meno como un proceso primario es compartida (aunque matizada) por otrosautores como Hull (1943), aunque no es la única teoría explicativa. Lashleyy Wade (1946), por ejemplo, conciben la generalización como un fallo en ladiscriminación. Para estos autores, las pruebas de generalización (en la quese presentan estímulos «nuevos») producen confusión en los individuos, dema nera que guían su respues ta en función del parecido con el E+ entrenado.

A lo largo del capítulo se desarrolla rán a lgunas de las principales teorías(especialmente en el último apartado) pero, independientemente de a cuálnos acojamos, el hecho es que el control que un estímulo no entrenado

(estímulo de prueba o generalizado) ejerce sobre una conducta es directa-mente proporcional a su semejanza con el estímulo que adquirió ese con-trol durante un proceso de condicionamiento (E+ o E original o criterio).

Podemos comprobar esta relación a través de varios métodos o proce-dimientos (Tabla 1):

1) Est ímulo único. Consiste en entrenar varios grupos de sujetos para queun estímulo adquiera cierto control (convirtiéndolo en un E+ o en unE) y después exponer a cada grupo a un estímulo de prueba diferente,en cuanto a su parecido con el estímulo original. Comparando la res-

puesta entre los grupos ante el es tímulo de prueba se observar ía quecuanto mayor es el parecido de éste con el estímulo original mayor esla fuerza (probabilidad, tasa, intensidad, etc.) de la respuesta.

2) Estímulos múltiples. Tras entrenar el estímulo criterio se presenta ju nto a otros est ím ulos diferentes, uno cada vez, y en ex tinción (sinque aparezca la consecuencia típica de la fase de adquisición). Semediría la fuerza de la respuesta ante todas las combinaciones entreel estímulo original y los estímulos de prueba en cada sujeto. Fuerzaque, teóricamente, debería decrecer en función de lo distinto que seael estímulo de prueba que se presenta junto al original.

3) Generalización mantenida. El último de los métodos que vamos aver consiste en alternar ensayos reforzados con el estímulo criteriocon ensayos en los que se presenta algún estímulo de prueba enextinción. De esta forma, el sujeto tiene experiencia con todos losestímulos de prueba generalizados varias veces y en orden aleatorio.


299




Tabla 1. Resumen de los métodos para la medición del control por el estímuloen Condicionamiento Clásico

Método Entrenamiento Prueba

Estímulo único ECEI El / E2 / E3 /...Estímulos múltiples ECEI EC+E1, EC+E2, EC+E3, ...

Generalización mantenidaECEI, EC+E1, ECEI, EC+E2,

ECEI, EC+E3, ...

El uso de un método u otro conlleva ventajas y desventajas. En los procedimientos de Estímulos Múltiples y de Generalización Mantenida lossujetos son expuestos a todas las combinaciones estímulos originalprueba

o estímulos de prueba seleccionados por el experimentador. El orden enel que éstos son presentados puede alterar la fuerza de la respuesta. La presentación repetida y aleato ria de dichos estímulos (o compuestos), eincluso el contrabalanceo del orden en el que aparecen, es una forma decontrolar ese efecto. El procedimiento de Generalización Mantenida, ade-más, a segura el control del estímulo original ya que el sujeto sigue teniendoexperiencias reforzadas con él, pero alternar ensayos reforzados con el E+con ensayos en extinción con los estímulos de prueba puede favorecer ladiscriminación del estímulo original, provocando que los resultados m ues-

tren una menor generalización.Los procedimientos de

Estímulo Único, sin embar-go, aunque son más costo-sos, ya que al realizar com-

paraciones entre gruposrequieren de más tiempo yrecursos, evitan la posibleinfluencia en la respuesta

de la experiencia con variosestímulos de prueba. Sinembargo, como cualquierestudio de grupo, el controlde variables individuales es 1 ̂ . , v ., A. ,Fi gu ra! . Gradiente de generalización dondemenor que en los estudios de e\ £?+ entrenado era de 580 nanómetros (nm).caso único. Adaptado de Guttman y Kalish (1956).

300



Independientemente del método que se utilice, el fenómeno es suficien-temente robusto para mostrar una relación sistemática entre el parecido delos estímulos de prueba (o estímulos generalizados) con el estímulo originaly la cantidad de control que ejercen sobre la conducta. La representacióngráfica de este decremento en la fuerza de la respuesta en función del aleja-miento, en cuanto a parecido con el estímulo criterio, es lo que se denomi-na un gradiente de generalización.

Antes de describir los diferentes tipos de gradientes de generalización esnecesario aclarar que el control por el estímulo no se limita a que en pre-sencia de cierto evento aparezca una determ inada respuesta. Los estímulosdiscriminativos negativos (Estímulos Delta, Ed, o E) también ejercencontrol sobre la conducta, ya que en su presencia esa respuesta es muy

improbable, podríamos decir que controla su «noaparición» o la apariciónde otras respuestas diferentes. De la misma forma, los estímulos condicio-nados inhibitorios también ejercen control sobre la respuesta, aunque éstano pueda medirse directamente (lo que suele denominarse como «silencioconductual»).

La exposición a estímulos generalizados semejantes a discriminativos positivos o ECs excitatorios generan gradientes, como el de la Figura 1, conforma de U invertida, en los que la mayor cantidad de respuesta se observaen los valores cercanos al E+ original y van decreciendo según se alejan deél, tanto si disminuye comosi aum enta el valor del rasgo.A este tipo de gradientes seles denomina excitatorios.

No obstante , si los est í-mulos de prueba se parecena discriminativos negativos oa ECs inhibitorios el tipo de

gradientes es muy diferente.Un experimento prototípicofue el realizado po r Weismany Palmer, en 1969, en el queusaron la técnica de sumación como medida indirectadel control de los estímulos


301

Figura 2. Gradiente de generalización delestímulo mostrado por los sujetos del estudio

de Weisman y Palmer (1956).



delta (en temas anteriores hemos visto el uso de esta técnica para medir lacapacidad elicitadora de ECs inhibitorios). Los autores entrenaron comoE+ una tecla verde y como E una tecla verde con una línea vertical blanca,después presentaron en la prueba de generalización la tecla verde cruzada

por líneas con diferente inclinación cada vez (de 30° a +30°). En la Figura2 puede verse cómo el número de respuestas registrado va aumentando amedida que el estímulo de prueba presentado se diferencia más del E ori-ginal. El gradiente inhibitorio, al contrario que el excitatorio, tiene formade U y suele ser menos inclinado.

La forma del gradiente no sólo nos informa de la naturaleza del estím u-lo de control original (E+ o E), sino también, en función de la pendientedel gradiente, del grado de generalización/discriminación que demu estra el

sujeto. En términos generales, cuánto m ás plana es la pendiente que formamás generalización se ha producido (menos discriminación) y cuando másinclinado menos generalización (más discriminación). La explicación es


1001

G. Inhibitorio - alta

generalización

1uu

^0

nU “ ¡ r i i i i30 20 10 0 10 20 30

Figura 3. Ejemplos de gradientes de generalización con baja y alta discriminación.

302



sencilla: un alto grado de respuestas diferenciales (mucha discriminacióny poca generalización) implica que la mayoría de las respuestas se dan deforma exclusiva ante el estímulo de control original o ante los que se pare-cen mucho, de manera que los cambios sutiles presentes en los estímulosde prueba son suficientes para que no controlen la respuesta objetivo. Dela misma forma, si el sujeto sigue respondiendo aunque los estímulos pre-sentados difieran mucho del discriminativo (o EC) original obtendremosun gradiente plano. En la Figura 3 se muestran dos ejemplos de gradientes propios de una alta discriminación y otros dos propios de una alta genera -lización, uno excitatorio y otro inhibitorio.

La utilidad de los gradientes de generalización es múltiple, no sólo nos perm ite confirm ar la existencia o no de re spuestas diferenciales sino tam -

bién determinar cuánto tiene que modificarse el ambiente para producir uncambio en la conducta del individuo. La forma que adquiere un gradientede generalización, es decir, el grado de generalización o discriminación deun estímulo, está determ inada p or diversos factores relacionados tanto conel propio estímulo como con la experiencia previa o con el tipo de entrena-miento de discriminación. Al final del capítulo se detallarán los más rele-vantes de estos factores.

4. CONTROL CONDICIONAL

Hasta ahora hemos abordado el análisis del control por el estímulo ensingular, es decir, de cómo un solo evento causa determinada conducta.Los discriminativos positivos aum enta n la probabilidad de cierta respuestamientras que los negativos la reducen, y los estímulos condicionados elicitan reflejos, ya sean de naturaleza excitatoria o inhibitoria. Estas situacio-nes en las que el control del ambiente es tan simple son fáciles de replicaren un laboratorio pero no son tan habituales en contextos fuera del mismo.Las causas que determinan qtie realicemos una conducta u otra son fre-cuentemente complejas, es decir, dependen de más de una variable (sincontar factores motivacionales, de historia de aprendizaje o genéticos) y, loque lo hace aún más complejo, de la interacción de esas variables entre sí.

Cuando el control que ejercen ciertos estímulos sobre nuestra conduc taestá matizado, o depende de la presencia de otros eventos consideramosque estamos ante un caso de control condicional. Es importante señalar


303



que estos eventos no afectan directamente a la conducta sino que lo hacena través de los estímulos de control simple (modificando su función), dehecho, su presencia en solitario no ejerce ningún control específico sobreel comportamiento.

El control condicional implica la adición de un nuevo término a la con-tingencia mínima. Así una contingencia pavloviana simple requiere de unevento diferente al EC y al El, denominado modulador, para convertirse enuna contingencia de control condicional, pasando de dos términos a tres.En el condicionamiento operante, que requiere de una contingencia míni-ma de tres términos (EdREr), el nuevo evento de control, denominadoEstímulo Condicional, aumentaría el número de elementos de la contin-gencia a cuatro.

En este apartado analizaremos ambos casos, tan to el control condicional pavloviano (Modulación) como el operante (Discr iminación Condicional).

4.1. Modulación

El estudio del control condicional en el condicionamiento clásico esrelativamente reciente, teniendo en cuenta la extensa tradición de la quegoza la investigación de la conduc ta refleja y la fecha en la que se realizaronlos primeros estudios sobre control condicional operante. Los pioneros eneste campo fueron Robert Rescorla y Peter Holland, que em pezaron a estu-diar el fenómeno casi simultáneamente y de forma paralela a mediados dela década de los 80 (Rescorla, 1985; Holland, 1985). Tal vez por esta razónexiste cierta duplicidad en los términos utilizados para referirse al estí-mulo de control condicional, ya que Holland lo denominó «Establecedorde la ocasión» y Rescorla «Facilitador», y desde entonces se han utilizadoambos de manera indistinta, existiendo trabajos posteriores que usan tantouno como otro. Actualmente, de hecho, puede utilizarse tanto el término

«Modulación» como «Establecimiento de la ocasión» (Ocassion Setting ) o«Facilitación» para referirse al control condicional pavloviano.

En una situación de modulación la contingencia que mantienen el ECy el El depende de la aparición de un estímulo anterior. Por ejemplo, sitras presentarse una luz la aparición de un sonido va seguida de comida, pero en ausencia de la luz el mismo sonido no va seguido de comida, la luz


304



terminará modulando la función del sonido como estímulo condicionadoexcitatorio apetitivo. Esquem áticamente:

Luz sonido (EC) comida (El) // no luz sonido (EC) no comida (El)

Luz no sonido (EC) no comida (El) // no luz no sonido (EC) comida (El)

En este hipotético experimento (similar al realizado por Fetsko,Stebbins, Gallagher y Colwill, 2005) podemos observar dos cuestionesimportantes:

a) La contingencia ECEI es positiva tras la presen tación de la luz (luzECEI, luzno ECno El), pero es negativa cuando no ha aparecido(no luzECno El, no luzno ECEI). En términos de control de la

respuesta, tras la presentación de la luz el EC elicita una respuestacondicionada excitatoria apetitiva, mientras que en ausencia de éstala respuesta elicitada por el mismo EC es inhibitoria apetitiva.

a) La luz (el modulador) no mantiene ninguna relación de contingen-cia con la aparición del El, ni negativa ni positiva. Si ignoramos,solo con objetivos didácticos, el EC de los cuatro ensayos anterioresvemos que luzEI, no luzno El, luzno El, no luzEI. Es decir, que laaparición de la luz predice la presentación de la comida con un 50%de probabilidad y su no presentación con un 50% también. En otras

palabras, no lo predice en absoluto, ya que mantie nen una relaciónde acontingencia o de correlación nula.

Los estímulos que adquieren propiedades moduladoras no elicitan porsí mismos respuestas excitatorias ni inhibitorias sino que modifican lafunción de los EC con los que se han asociado. De hecho, la presentaciónrepetida en solitario de un modulador no provoca su extinción, en otras palabras, el efecto de un modulador no se pierde por su exposición fre-cuente siempre que no se quiebre la conexión que mantuvo con la relación

ECEI durante la fase de adquisición (Rescorla, 1986).

4.2. Discriminación condicional

Aunque no fue el primero en estudiar discriminaciones condicionales,se considera a Lashley como uno de los pioneros en definir este fenómeno,


305






dicional 2 convierte al El en un discriminativonegativo y al E2 en un discriminativo positivo.Como puede notarse, la presencia de un estí-mulo condicional u otro determina la funcióndel estímulo discriminativo y, por tanto, sucontrol sobre la conducta. De forma análoga ala modulación, el estímulo condicional por sísolo no controla ninguna respuesta sino la inte-racción entre el condic ional y el discriminativo.

Las discriminaciones condicionales tienenuna historia extensa en Psicología experimental(García, 2002). Desde su sistematización por

Skinner (1950), su uso se ha estandarizado,ampliado y adaptado a multitud de especiesy situaciones experimentales. A pesar de laenorme diversidad que podemos encontrar enlos estudios de discriminación condicional, lamayoría de ellos son modificaciones de un pro-cedimiento paradigmático con estímulos visua-les y palomas como sujetos, que es el procedi-miento de tres teclas. En dicho procedimiento,el estímulo condicional es presentado en la teclacentral de una cámara operante, y los estímulosdiscriminativos aparecen en las teclas laterales,equidistantes de la tecla central y también delcomedero donde se dispensa el reforzador.

Las medidas típicas de ejecución en unadiscriminación condicional son la velocidad deadquisición (número de ensayos o sesiones hastaun determinado criterio de aprendizaje) y la

precisión (porcentaje de ensayos con respuestacorrecta). Otra medida que también se relacionacon la precisión es la latencia. La manipulaciónde diversas variables puede facilitar o dificultarla ejecución de los sujetos expuestos al aprendi-zaje de discriminaciones condicionales. Por logeneral estas variables afectan simultáneamente

Ejemplo

Aunque pueda pa-recer un concepto com-

plicado, estamos conti-nuamente expuestos aeste tipo de relacionesde control. Podríamosconsiderar que el inte-rruptor de la luz es undiscriminativo positivo

para la conducta de pul-sarlo pero, en realidad,su función depende deotros eventos, como que

la luz esté ya encendida oque haya luz natural. En

presencia de la luz (EC1)el interruptor (Edl) cum-

ple funciones de discri-minativo negativo para laconducta de pulsar, en

presencia de oscuridad(EC2) sus funciones sonde discriminativo positi-vo. La conducta verbal,además, aumenta enor-memente las situacionesde control condicional alas que tenemos que ajus-tarnos. Siguiendo el mis-mo ejemplo, en presenciade «enciende la luz» elinterruptor se convierteen discriminativo positi-vo para pulsar, mientras

que en presencia de «no pulses el in terruptor»funciona como estímulodelta, por supuesto, enlas condiciones motivacionalmente adecuadasy con el entrenamientocomo oyente necesario.

307




a la velocidad de adquisición del aprendizaje y también al nivel asintóticoque los sujetos llegan a alcanzar. Algunos de los parámetros más relevantesdel aprendizaje de las discriminaciones condicionales se describirán en elapartado sobre los factores que afectan al control por el estímulo.

Hemos visto que en las discriminaciones condicionales la presencia de unestímulo condicional u otro modifica la función del estímulo discriminativo(como positivo o negativo). Esta relación de control estimular puede seguirextendiéndose añadiendo un nuevo estímulo que, en este caso, cambie lafunción del estímulo condicional, que, a su vez, modifica la del discrimina-tivo (Bush, Sidman y De Rose, 1989). A este nuevo estímulo de la cadena decontrol estimular se le suele denominar de «segundo orden» (Fujita, 1983),«selectores» (Ribes y López, 1985) o «informativos» (Harzem y Miles, 1978).

En un procedimiento típico de discriminación condicional de segun-do orden (Figura 4) se presenta un estímulo complejo «informativo» queejemplifica el criterio de igualación que debe cumplirse al seleccionar unestímulo de comparación respecto al estímulo de muestra.

Comparación correcta por

«semejanza»

Comparación correcta por «diferencia»

Comparación correcta por«identidad»

Estímulo de muestra

Estímulo de segundo ordenEjemplifica la relación de identidad

física (misma forma y codlor)

Figura 4. Ejemplo de discriminación condicional de segundo orden.

308



El criterio de igualación que determina el estímulo de segundo orden puede ser de igualdad (cuando se muestran dos est ímulos físicamenteidénticos), de semejanza (cuando los elementos que forman el estímulode «segundo orden» comparten ciertos rasgos pero difieren en otros); o dediferencia (cuando no comparten ningún rasgo significativo).

Este tipo de procedimientos presenta una serie de importantes dife-rencias respecto a las discriminaciones condicionales de primer orden, enlas que el sujeto puede discriminar el criterio de respuesta (en ausencia deinstrucciones explícitas) sólo a través del reforzamiento explícito. SegúnRibes, Cepeda, Hickman, Moreno, y Peñalosa (1992), en un a igualac ión a lamuestra de segundo orden es necesario que el sujeto sea capaz de describirverbalmente la relación entre los estímulos de «segundo orden», ya que en

caso contrario su presencia podría interferir: a) la presentación visual ganaen complejidad al habe r una mayor cantidad de estímulos presentes, b) losestímulos de «segundo orden» pueden ser incluidos como parte del arreglode comparación de primer orden.

La importancia de las contingencias ope rantes de cinco términos para elanálisis de ciertas conductas complejas se desarrollará en el capítulo sobreAprendizaje y Cognición.

5. FACTORES QUE AFECTAN AL CONTROL POR EL ESTÍMULO

En términos globales, cuánto más se diferencien dos situaciones mássencillo es distinguirlas y cuánto más se diferencien los elementos que lascomponen mayor será la diferencia global. Siguiendo esta lógica, y ciñéndonos a una contingencia operante, si exponemos a un sujeto a un entre-namiento del tipo: E1R1C1 / E2R2C2, cuánto más se diferencien El deE2, R1 de R2, y C1 de C2, mayor será la diferencia global entre am bas con-tingencias y más fácil será distinguirlas, o lo que es lo mismo, discriminar

entre ellas.

Hacer más distintivos los eventos de control (los estímulos que señalandiferentes contingencias de reforzamiento), requerir respuestas diferencia-les o aplicar consecuencias distintas, son métodos que aumentan la velo-cidad de adquisición de la discriminación. La mayor parte de las variablesque vamos a ver en este apartado pueden entenderse bajo esta norma,


309





miento cuando se condicionan a la vez, determinando cuál de ellos adquie-re control sobre la conducta refleja y cuál no. Este mismo fenómeno puedeafectar al condicionamiento operante, si un estímulo discriminativo estáconstituido por dos componentes, la adquisición del control por parte delcomponente menos saliente puede ser impedida por la presencia de uncomponente más eficaz. El fenómeno del ensom brecimiento indica que losestímulos pueden competir por adquirir el control sobre la conducta, demanera que los más intensos o destacables dificultan el condicionamientode los estímulos más débiles.

5.1.3. Modalidad sensorial

Los estímulos que más extensamente se ha utilizado en los trabajossobre discriminación con animales no humanos han sido los visuales, ymás particularm ente, teclas iluminadas de distintos colores o con líneas endistintas orientaciones (Cárter y Werner, 1978; Mackay, 1991). Sin embar-go, la variedad de estímulos utilizados con éxito en estos estudios con diver-sas especies ha sido muy extensa.

Además de estímulos visuales fijos se han utilizado también soni-dos (Hashiya y Kojima, 2001), imágenes en movimiento (Morimura y

Matzuzawa, 2001), así como objetos tridimensionales com unes (Tomonagay Fushimi, 2002). También se pueden encontrar estudios en los que losestímulos utilizados son olores (Peña, Pitts y Galizio, 2006), acciones del

propio sujeto (Beninger, Kendall y Vanderwolf, 1974) o incluso es tímulosinteroceptivos (Lubinski y Thom pson, 1987).

Pero, como decíamos, los estímulos visuales han sido los más comunesen los experimentos de discriminación con palomas. El sistema visual deestas aves las hace especialmente apropiadas para discriminar este tipode estímulos, debido probablemente a las intensas presiones selectivas a

las que se ha visto sometido para tareas como la navegación, el forrajeo yla elección de pareja sexual. Los estudios con esta especie han permitidodeterminar que ciertas características de las imágenes son más efectivasque otras en el entrenamiento en discriminación. Por ejemplo, Whyte yBoren (1976) enc ontraro n que la precisión de sus sujetos era m ayor cuandolos estímulos de muestra utilizados eran colores que cuando eran figurasgeométricas.


311



5.1.4. Discriminabilidad

Intuitivamente, la discriminabilidad entre dos estímulos hace referenciaa lo fácil o difícil que resulta distinguir uno del otro, aunque, operativa-mente podríamos definirlo como el cambio en la estimulación necesaria

para producir un cambio en el comportamiento . La discriminabilidad delos estímulos ha recibido mucha atención en la literatura sobre aprendizajeanimal desde sus inicios (Lashley y Wade, 1946; Guttman y Kalish, 1956), yde forma sistemática se ha encontrado que cuanto mayores son las diferen-cias en las características físicas de los estímulos, más sencilla es la tareade discriminarlos (White, Pipe y McLean, 1985).

Pero, aún en las situaciones más simples, referirnos exclusivamente a

las características físicas del estímulo no nos garantiza una medida fiablede la discriminabilidad (ver Honig y Urcuioli, 1981, para una revisión). Almargen de las consideraciones puramente psicofísicas implicadas en la

percepción de los est ímulos (H amil ton y Coleman, 1933), existen toda unaserie de influencias ambientales en la discriminabilidad. Por ejemplo, facto-res inherentes a las situaciones experimentales, como la simple exposicióna los estímulos, influyen tanto en la discriminabilidad como en la asociabilidad de éstos y en la respuesta de observación que producen. Todos estosefectos se mezclan de forma difícilmente distinguible en la mayoría de las

situaciones, por lo que, aunque pueda determinarse a priori (atendiendo a parámetros puramente físicos) la discriminabilidad entre dos estímulos es,en muchas ocasiones, un índice que sólo puede averiguarse a posteriori.

5.1.5. Intensidad de los estímulos discriminativos

En términos generales, la intensidad de los estímulos discriminativosentrenados afecta de m anera muy aguda a los gradientes de generalización,

haciéndolos menos simétricos y desplazando el máximo de respuesta anteun valor diferente al E+ original (Mackintosh, 1974). Aunque esto podríaatribuirse a un efecto «energizador» de la conducta (por el nivel de inten-sidad), se han observado las mismas propiedades cuando el E+ era débily el E intenso (Pierrel y Sherman, 1960; Zielinski y Jakubowska, 1977).De hecho, la mayoría de los gradientes generados por estímulos de pruebaintensos suelen respon der a una función monotónica, en lugar de una curva


312



con un m áximo de respuesta. Esta función es creciente cuando el E+ es másintenso que el E, y decreciente en el caso inverso.

5.1.6. Aprendizaje del rasgo positivo

Experimentos como los de Hearst y Wolff (1989) con pa lomas pusieron demanifiesto que cuando el elemento predictivo único que distingue al E+ delE forma parte físicamente de la presentación del E+, los sujetos aprendencon mayor facilidad que cuando el rasgo distintivo forma parte de la presen-tación del E. En su estudio los autores entrenaron a un grupo de palomas

para picotear una tecla verde con un cuadrado blanco superpuesto a cambiode comida (E+) y a no hacerlo cuando la tecla era sólo verde (E), mientrasque el picoteo de otro grupo de palomas fue reforzado con comida cuandola tecla era sólo verde (E+) y no cuando estuvo superpuesta con el cuad rado blanco (E). Se encontró que el aprendizaje de disc riminación fue mejor enlos animales para los que el rasgo distintivo (el cuadrado blanco) estuvo enel E+. A este fenómeno se le denomina aprendizaje del rasgo positivo.

5.2. Relacionados con la respuesta

5.2.1. Relación respuesta-reforzador

Otro factor que puede determinar cuál de los diversos componentesde un estímulo discriminativo adquiere un control sobre la conducta es lanaturaleza de la respuesta requerida para obtener el reforzador. La impor-tancia de la respuesta para el control por el estímulo está ilustrada en elexperimento de Dobrezcka, Szwejkowska y Konorski (1966). Dichos inves-tigadores entrenaron a unos perros en una discriminación izquierdaderecha o actuarno actua r (grupos 1 y 2, respectivamente) mediante estímulos

auditivos que diferían tanto en su posición (detrás o delante de los sujetos)como en su naturaleza (el sonido de un zumbador o de un metrónomo).Durante el transcurso de la prueba, la posición de los dos sonidos fue inter-cambiada. Los resultados mostraron que la respuesta diferencial izquierdaderecha era principalmente controlada por la posición de los sonidos,mientras que la respuesta diferencial actuarno actuar era controlada prin-cipalmente por la naturaleza de los sonidos. Es decir, el aprendizaje de dis-


313



criminación izquierdaderecha fue más fácil si los sonidos se presentabanen diferentes localizaciones espaciales que si se utilizaban diferentes tiposde sonido, mientras que el aprendizaje de actuarno actuar era más fácilcon diferentes tipos de sonido que con sonidos presentados en diferentes

posiciones. Por tanto , es más probable que las respuesta s que están dife-renciadas por la localización (derechaizquierda) queden bajo el control dela distinta posición de los estímulos discriminativos, y que las respuestasque estén diferenciadas por su naturaleza quedan bajo el control del tipode estímulo.


5.2.2. Respuesta de observación a la muestra

Se ha documentado en numerosos estudio que el establecer comorequisito una respuesta de observación a la muestra (Wyckoff, 1952) faci-lita en gran medida el aprendizaje de las discriminaciones condicionales(Eckerman, Lanson y Cumming, 1968). Se considera un requisito de obser-vación a la muestra c uando se refuerza alguna conducta del sujeto orienta -da al estímulo condicional. El ejemplo más común es retener la apariciónde los estímulos de comparación hasta que el sujeto toca la muestra.

Otro efecto importante del requerimiento de respuestas a la muestra es

que parece influir en el nivel asintótico de la discriminación. Eckerman ycois. (1968) comp robaron que después de la adquisición de una discrim ina-ción en la que se requería picar a la muestra, el porcentaje de aciertos bajóentre un 10 y un 25% cuando se eliminó este requisito.

Además, añadir requisitos adicionales de razón fija hace más eficienteeste método. Sacks, Kamil y Mack (1972) estudiaron sistemáticamente laadquisición de la discriminación condicional con 1, 10, 20 y 40 respuestasa la muestra, observando que el grupo de una respuesta necesitó de másdel doble de sesiones para adquirir la discriminación que el grupo de 40

respuestas.

Por otra parte, también se ha encontrado que cuando la propia con-ducta es el elemento de muestra a discriminar, el número de respuestas

puede facil itar la adquis ición del aprendizaje . En un procedim iento de dis-criminación condicional de la propia conducta con palomas como sujetos(García y Benjumea, 2006) los animales a los que se les impidió la respuesta

314



de observación a la muestra mediante un RDO (reforzamiento diferencialde otras respuestas) necesitaron entre 1200 y 6000 ensayos para alcanzar elcriterio de aprendizaje mientras que en el grupo en el que se pedían cincorespuestas a la muestra se necesitó como promedio unos 500 ensayos paraalcanzar el mismo criterio de aprendizaje.

5.2.3. Respuesta diferencial

La última variable que vamos a analizar relacionada con la respuestaes la posibilidad de que los sujetos realicen respuestas diferentes ante cadaestímulo de control, bien como requisito del propio entrenamiento (Cártery Werner, 1978; Urcuioli y Honig, 1980, por ejemplo) o bien requiriendo

una respuesta de observación que permita el surgimiento «espontáneo» (enel sentido de «no exigido») de conductas diferenciales (Sacks y cois., 1972).Por ejemplo, en un experimento de Cohén, Looney, Brady y Aucella (1976)se encontró que el aprendizaje de la discriminación condicional era másrápido cuando se requería un p rograma diferente para cada mu estra (RF 16y RDB 3) que cuando a am bas se aplicaba el mism o program a de RF o RDB(Razón Fija y Reforzamiento Diferencial de Tasas Bajas, respectivamente).

Se ha constatado también que estas respuestas diferenciales pue-den aparecer aunque las contingencias del experimento no lo requieran(Cumming y Berryman, 1965), e incluso aunque se castigue explícitamente(García y Benjumea, 2006).

5.3. Re lacionad os con la expe riencia previa

La historia del sujeto, en cuanto a su experiencia con el reforzamientodiferencial, influye no sólo en la velocidad con la que adquiere nuevas dis-criminaciones, sino también en el grado de generalización que muestra en

discriminaciones ya adquiridas. Veamos algunos de estos fenómenos.

5.3.1. Disposiciones de aprendizaje

Harlow (1949) realizó un estudio con monos a los que sometía a problemas de discriminación de objetos mediante un aparato que permitía


315



recompensar la elección correcta y ocultar los objetos ante la incorrecta. Se pre senta ron 312 problemas, oscilando el número de ensayos entre 6 y 50.Los resultados mostraron que en las primeras discriminaciones el apren-dizaje fue lento, pero a medida que los animales experimentaban con unmayor número de problemas, la tasa de aprendizaje aumentaba, de mane-ra que en los problemas 257 al 312 los animales respondieron de formacorrecta en el segundo ensayo casi el 97% de las veces.

Lawrence (1963) entrenó a un grupo de ratas en una tarea de discri-minación, una vez superado el criterio de éxito las expuso a un nuevoentrenamiento discriminativo pero de mayor dificultad que el anterior. Losresultados mostraron una velocidad de aprendizaje mucho mayor en lossujetos de este grupo al compararlos con los de otro grupo que no tuvieron

la primera experiencia. El experimento fue interpretado p or el autor en tér-minos de atención. Según Lawrence, el primer entrenamiento, al ser mássencillo, permitió a los sujetos atender mejor a la dimensión relevante delestímulo y fue esta reacción de atención la que facilitó después la discrimi-nación más difícil.

No obstante , este argumento ha sido discutido y re fu tado experimen-talmente. Seraganian (1979), por ejemplo, entrenó a un grupo de palomas para que discriminasen entre diferentes colores para poste riorm ente entre -narlas para que lo hicieran entre inclinación de líneas, de forma similar al

estudio de Lawrence pero cambiando la naturaleza del estímulo de control.Sus datos tamb ién mostraro n una mejora debida a la fase de entrena mien to

previa que no podía explicarse por una mayor atención a la dim ensión delestímulo pertinente en la primera discriminación. El auto r defiende que loque mejora es la capacidad general del sujeto para resolver problemas dediscriminación, no sólo el hecho de atender a un rasgo concreto.

Los resultados de estos experimentos nos permiten concluir, por tanto,que la experiencia con cualquier problema de discriminación, indepe ndien-temente de qué dimensión se utilice o de su dificultad, favorece las habi-lidades generales de resolución de problemas que ayudan al organismo aafronta r un prob lema difícil posteriormente. No obstante, existen matices aesta regla general, como por ejemplo el tipo de cambio dimensional.

En términos generales, la generalización de la discriminación apren-dida a otra discriminación «nueva» puede ocurrir entre problemas en losque se altera la misma dimensión del estímulo (cambio intradimensional)


316



o cuando se utiliza un nuevo problema de discriminación que implica unadimensión estimular distinta (cambio extradimensional o interdimensio-nal). Por ejemplo, en la tarea 1 se refuerza por respo nder ante un color rojoy se extingue ante el color verde, mientras que en una tarea 2 posterior serefuerza por responder ante el color azul y se extingue la respuesta anteel amarillo. Estaríamos ante un caso de cambio intradimensional, perosi la tarea 2 tuviese como estímulos de control dos sonidos de diferentefrecuencia el cambio sería interdimensional. Normalmente, los cambiosintradimensionales se aprenden con mayor facilidad que los cambios in ter-dimensionales (Mackintosh, 1964).

5.3.2. Efecto del sobreaprendizaje en la inversión

Un efecto peculiar de la experiencia en la adquisición de nuevas dis-criminaciones fue el descrito por Mackintosh (1969). Este autor entrenóa dos grupos de ratas para realizar una discriminación con el mismo cri-terio de eficacia (escoger entre una caja blanca y otra negra para recibiralimento), pero a uno de ellos les expuso a 100 ensayos adicionales deentrenamiento en esa misma discriminación. Tras esto entrenó a los dosgrupos en la discriminación inversa, es decir, la caja con comida era ahorala contraria que en la fase anterior. El autor encontró que el grupo que

había recibido entrenam iento extra aprendió la discriminación inversa enmenos tiempo que el otro grupo. A este fenómeno se le denomina «efectodel sobreaprendizaje en la inversión», y es un hallazgo en cierta medidacontraintuitivo, ya que podría pensarse que el entrenamiento extra forta-lecería la discriminación de manera que aprender lo contrario requeriríade más ensayos.

5.3.3. Experiencia de reforzamiento no diferencial

Pero la facilitación no es la única forma en la que nuestra experienciaanterio r con discriminaciones puede influir en aprendizajes futuros. Waller(1973) reforzó con comida a cuatro grupos de ratas por recorrer un calle-

jón, variando la pintura del callejón (gris o a rayas) y la probabilidad dereforzamiento (50% o 100%) siguiendo un diseño 2x2 como el mostrado enla Tabla 2.


317




Tabla 2. Adaptación del diseño experimental del estudio de Waller (1973)

Pintura

Gris

A rayas

Probabilidad de reforzamiento

Grupo 1

Grupo 3

Grupo 2

Grupo 4

En la segunda fase del estudio todos los sujetos fueron reforzados dife-rencialmente (el 100% de las veces) por elegir recorrer un corredor pintadocon líneas inclinadas 45° a la derecha (E+) o con líneas inclinadas 45° a laizquierda (E). Se midió como variable dependiente el número de ensayosnecesarios para elegir el E+, en otras palabras, la velocidad de adquisición

de la discriminación. Los resultados no mostraron diferencias significativasentre los grupos 1 y 2, aquellos que hab ían tenido experiencia con el calle-

jón gris. Sin embargo, el grupo 4 requir ió de muchos más ensayos que elgrupo 3 para aprender la discriminación.

Waller consideró estos resultados como un apoyo directo de la teoríaatencional de la discriminación (el último apartado del capítulo abordarámás detalladamente esta teoría), argumentando que la experiencia con unreforzamiento débil (50%) frente a las rayas había provocado que estossujetos desatendieran la dimensión pertinente del estímulo en la fase 2.

Pero la experiencia con reforzamiento no diferencial puede afectarincluso a aprendizajes anteriores con estímulos diferentes. En un estudiode Honig (1974) se entrenó a palomas para discriminar entre una líneanegra horizontal y otra vertical (Fase 1). Para la segunda fase se dividieronlos sujetos en dos grupos. A uno de los grupos se le reforzó diferencia lmente por re sponder ante una luz azul com o E+, mientra s se extinguió la re spues-ta frente a una luz verde como E. El otro grupo fue reforzado con una

probabil idad de 0,5 independientemente del est ím ulo ante el que respon-

diesen, es decir, no se les aplicó reforzamiento diferencial. La siguiente faseconsistió en una prueba de generalización de la discriminación adquirida por ambos grupos en la Fase 1. Se pre sentaro n en la evaluación 8 est ímulosverticales de diferente inclinación. Los resultados mostraron un grado degeneralización mayor en el grupo que había sido expuesto a la fase 2 sinentrenamiento discriminativo. Es decir, la fase de exposición a contingen-cias de reforzamiento no diferencial afectó a una disc riminación aprendida

318



con anterioridad, reduciendo su nivel, aunque los eventos involucrados noestaban relacionados (líneas frente a colores).

Honig también interpretó los resultados en términos de factores aten

cionales. Según el autor, el reforzamiento diferencial en la Fase 2 mantuvola atención de los sujetos que fueron expuestos a él. En otras palabras, losentrenamientos discriminativos potencian la atención, reduciendo de estaforma la generalización.

5.4. Relacionados con el entrenam iento discriminativo.

5.4.1. Tipos de entrenamientos discriminativos.

Hasta ahora hemos descrito las contingencias a través de la cuales seadquieren respuestas diferenciales sin especificar la forma en la que se presentan los diferentes estímulos de control. Si tenemos que diseñar lamanera en la que vamos a entrenar una discriminación simple lo primeroque debemos decidir es si los estímulos de control (al menos un estímulodiscriminativo positivo y uno negativo) van a aparecer juntos en cada e nsa-yo o por separado, es decir, solo uno de los dos en cada ensayo.

Cuando el discriminativo positivo y el negativo aparecen juntos, esdecir, a la vez en cada ensayo (aunque su posición cambie), se considera aesa discriminación como un entrenamiento simultáneo. La conducta diri-gida al estímulo discriminativo positivo (picar o pulsar la tecla en la queaparece el estímulo, por ejemplo) sería contingente con el reforzamiento,mientras que la dirigida al estímulo delta sería sometida a extinción ocastigo. El resultado de este tipo de procedimientos es que, con suficienteentrenamiento, los sujetos terminan respondiendo exclusivamente sobre elestímulo discriminativo positivo.

En el entrenamiento sucesivo no aparecen los estímulos antecedentesal mismo tiempo, sino que en determinados momentos está presente unoy en otras ocasiones se presenta el otro. Este entrenamiento se denomina

procedimiento de discriminación de respuesta / no respuesta (o «gono go»),ya que el sujeto acaba respondiendo en los ensayos en los que está presenteel estímulo discriminativo y no haciéndolo en los que está presente el estí-mulo delta.


319



En líneas generales, la adquisición de discriminaciones simples son máslentas cuando el procedimiento es sucesivo que cuando es simultáneo.

En los casos anteriores se establecía una situación con dos condicio-

nes: una reforzada y otra no reforzada. Esto no tiene porqué ser siempreasí, pudiendo usarse dos condiciones y ambas reforzadas, pero de distintamanera cada una de ellas. Un ejemplo de discriminación simultánea entre

pro gramas de re fo rzamiento es el programa concurrente, en el que el sujetoestá expuesto a dos programas simultáneamente. Por ejemplo, programasconcurrentes de intervalo variable como IV 30” IV 60”, donde la primerarespuesta transcurrido el tiempo medio especificado en cada programa esreforzada. El caso de la discriminación entre programas de reforzamientoen el que se utiliza una aproximación sucesiva se denom ina programa múl

tiple, y en él los diferentes programas componentes se presentan de formasecuencial en el tiempo y con un estímulo discriminativo diferente paracada uno de ellos. De esta manera se desarrollan respuestas diferenciales ados (o más) estímulos siempre que cada estímulo señale un program a dife-rente de reforzamiento. Por ejemplo, con el estímulo discriminativo rojofuncionaría un p rograma de razón variable y con el estímulo discriminativoverde un programa de intervalo fijo. Como se ve, puede existir respuestadiferencial sin que se tengan que producir respuestas ante un estímulo yausencia de respuestas ante otro diferente.

En los primeros estudios sobre discriminaciones condicionales losestímulos de muestra permanecían a la vista de los sujetos durante todo eltiempo que duraba el ensayo. Por ejemplo, en el experimento de Lashley(1938) la muestra y la comparación se presentaban en una mism a cartulina,en la que el fondo hacía como estímulo de muestra y la forma como estí-mulo de comparación. Esta modalidad en la que el estímulo condicional yel/los discriminativo/s se encuentran presentes a la vez se denomina discri-minación condicional simultánea.

Más recientemente, han sido muy comunes los experimentos en los quelos estímulos de muestra y de comparación no están presentes nunca deforma simultánea, sino que media un intervalo de tiempo entre la desapa-rición del estímulo de muestra y la aparición del estímulo de comparación(Cárter y Werner, 1978). Esta manipu lación da lugar a las discriminacionescondicionales demoradas. Un caso particular dentro de este último grupoes la discriminación condicional de demora cero, donde los estímulos de


320



comparación son presentados inmediatamente después del apagado delestímulo de muestra.

La introducción de una demora entre la presentación del estímulo de

muestra y los estímulos de comparación afecta muy significativamente atodos los índices de ejecución en discriminaciones condicionales. Aunqueexisten diferencias entre especies en la duración m áxima de la demora que pueden tolerar, en general se puede afirmar que los aumentos en la demoraconllevan decrementos en la ejecución (Mackay, 1991).

Según afirman Cumming y Berryman (1965), el simple hecho de eliminarla muestra en el momento en que aparecen las comparaciones (procedimien-to de demora cero) aumenta el número de ensayos necesarios para aprenderla discriminación con respecto a una discriminación condicional simultánea.

5.4.2. Eficacia relativa de los elementos del estímulo como señales para el reforzamiento

Wagner, Logan, Haberlandt y Price (1968) llevaron a cabo un experi-mento en el que fueron condicionados dos grupos de ratas con un proce-dimiento de ensayo discreto. Los sujetos fueron reforzados el 50% de losensayos por presionar una palanca en presencia de un estímulo compuestoque consistía en una luz y un sonido de dos posibles. Para un prim er grupola luz en compuesto con cualquiera de los dos sonidos era reforzada siem-

pre el 50% de los ensayos (Luz+Tonol —> Reforzado 50%; Luz+Tono2 —>Reforzado 50%); para un segundo grupo la luz en compuesto con uno delos sonidos era reforzada siempre, pero en combinación con el otro soni-do nun ca era reforzada (Luz+Tonol —» Reforzado 100%; Luz+Tono2 —»Reforzado 0%). Como se puede observar, con relación a los dos tonos, laluz predecía mejor el re forzamiento para el grupo 1 que para el grupo 2.En el primer grupo, los sonidos no añadían ninguna información a la ya

proporcio nada por la luz. Consecuentemente , los sujetos re spondieron mása la luz en el grupo 1 que en el grupo 2. En el grupo 2, por el contrario, re s-

pondieron más al tono 1 que a ningún otro es tímulo, reflejando que dichoestímulo era el mejor pred ictor del reforzamiento subsiguiente.

Los resultados sugieren que los estímulos discriminativos tienen un poderoso efecto sobre la conducta no sólo porque están empare jados con


321



el reforzador, sino porque señalan la forma o el momento en que se va a producir el re forzamiento . Del mismo modo, si un estímulo es un mejo r predictor de la disponib il idad del re fo rzamiento que otro, es más probableque adquiera el control de la conducta operante.

5.4.3. Tipo de reforzamiento

El control por el estímulo depende no sólo de la eficacia relativa delestímulo como señal para el reforzamiento, sino también de la natu-raleza del reforzador utilizado. Ciertos tipos de estímulos tienen más probabilidad de ejerc er un control sobre la conducta con reforzamiento posi tivo que con reforzamiento negativo (entrenam iento de evitación/

escape).

En un experimento de Foree y LoLordo (1973), la respuesta de apretarun pedal en palomas fue reforzada en presencia de un estímulo compuestoque consistía en un sonido y una luz roja. Con un reforzamiento de comida,la luz consiguió mucho más control sobre la conducta que el sonido. Conun reforzamiento de evitación de una descarga eléctrica, el sonido consi-guió más control sobre la conducta que la luz.

Estos hallazgos indican que el control por el estímulo sobre la conduc-

ta instrumental está en parte determinado por el tipo de reforzamientoque se utilice. Los estímulos visuales parece que tienen más probabilidadde adquirir un control sobre la conducta reforzada positivamente que lasclaves auditivas; y las claves auditivas es más probable que adquieran uncontrol de la conducta negativamente reforzada que las claves visuales, almenos cuando se usan palomas como sujetos experimentales.

5.4.4. Consecuencia diferencial

En tareas de discriminación simple, Peterson, Wheeler y Amstrong(1978) con palomas, y Fedorchack y Bolles (1987) con ratas, demostraronque si se usan consecuencias diferenciales para cada combinación entre elestímulo discriminativo y la respuesta se mejoraba la discriminación. Así,si ante el estímulo El el sujeto tenía que emitir la respuesta RI para recibirla consecuencia C1 (comida, por ejemplo), y ante el estímulo E2 tenía que


322



emitir la respuesta R2 para recibir la consecuencia C2 (agua, por ejemplo),la velocidad del aprendizaje será mucho mayor que si se hubiera usado unsólo tipo de reforzador.

En cuanto a las discriminaciones condicionales, aunque la mayoría delos trabajos que utilizan este tipo de procedimientos lo hacen aplicando elmismo reforzador en todos los casos, algunos estudios han encontrado unefecto facilitador del uso de distintos tipos de reforzadores en función de lacomparación correcta. Trapold (1970) encontró este efecto usando comidao sacarosa en función de la comparación correcta, Carlson y Wielkiewicz(1976) usando diferente número de pellets, DeLong y Wasserman (1981)con diferentes probabilidades de reforzamiento, y Maki, Overmier, Délosy Gutmann (1995) con reforzadores primarios frente a la posibilidad

de avanzar al siguiente ensayo. Todos estos autores coinciden en que elreforzamiento diferencial favorece la adquisición de la discriminacióncondicional.

5.4.5. Duración del intervalo entre ensayos

El lapso de tiempo programado entre la finalización de un ensayo y la presentación del siguiente ejerce ta mbién un efecto importante en la adqui-sición de la discriminación. Holt y Shafer (1973) comprobaron los nivelesde adquisición de una discriminación condicional en palomas usando in ter-valos entre ensayos de cinco duraciones diferentes (0, 5, 15, 25 y 60 segun-dos). Sus resultados mostraron que el grupo de palomas con un intervalode 0 segundos entre ensayos mostraban una ejecución a niveles de azar,mientras que los grupos con 25 y 60 segundos exhibían los mejores desem- peños en la tarea. No obstante , una vez que la discriminación condic iona lha sido adquirida, parece que la duración del intervalo ejerce poco efectosobre la precisión, excepto cuando el intervalo se elimina por completo. Dehecho, los autores comentan que incluso los sujetos que habían alcanzadoun nivel estable de ejecución reducían su nivel de aciertos al esperado porazar cuando se les introducía en preparaciones con 0 segundos de intervaloentre ensayos.

Este mismo efecto se ha encontrado con diferentes especies como del-fines (Hermán y Gordon, 1974), monos (Jarrard y Moise, 1971), y ratas(Roberts, 1974).


323



5.4.6. Grado de entrenamiento

La relación entre la extensión del reforzamiento diferencial (número deensayos de entrenamiento, tasa de reforzamiento, etc.) y el grado de genera-

lización se ha adelantado varias veces a lo largo del capítulo. Cuanto m ayores el entrenamiento para la adqLiisición de la discriminación más acusadoes el gradiente formado en la prueba de generalización, es decir, menorgeneralización se observa.

Este principio se ilustra perfectamente en estudios como el de Hearts yKoresko (1968). En este trabajo se reforzó a las palomas por responder auna tecla cruzada por una línea vertical (E+). Se midió la respuesta de lossujetos ante seis estímulos parecidos al E+ (en los que se varió la inclina-ción de la línea) en cuatro momentos diferentes (dividiendo a los sujetosen cuatro grupos): tras 2, 4, 7 y 14 sesiones. Los resultados mostraron cla-ramente que el gradiente de generalización se iba haciendo pau latinam entemás acusado en función del número de sesiones de entrenamiento al quehabía sido expuesto cada grupo.

5.4.7. Entrenamiento en discriminación «sin errores»

Desarrollado por Terrace (1963), este procedimiento minimiza las res-

puesta s al E, reduciendo tanto el número de errores cometidos por el su je-to como las reacciones emocionales asociadas a la aplicación de extinción ocastigo (efectos que se desarrollarán en el tema 7 sobre el Control Aversivo).En su experimento Terrace reforzó a palomas por responder a una luz roja(E+) que se aplicó durante todo el experimento con la misma intensidad yduración. El E (una luz verde), sin embargo, se presentaba a una intensi-dad tan baja y durante tan poco tiempo que no permitía responder a él. Alo largo del procedimiento se fue aumentando la intensidad y la duracióndel E hasta equipararse a la que había tenido desde el principio el E+. Losresultados mostraron que, si los cambios en el E son suficientemente gra-duales, los sujetos pueden adquirir la discriminación simple sin cometerningún error, es decir, sin responder al E.

Este tipo de procedimientos permiten op timiza r la adquisición de la dis-criminación, demostrando su utilidad en la enseñanza a sujetos con nece-sidades educativas especiales, como niños autistas, por ejemplo (Koegel yKoegel, 1988).


324



Este mismo principio puede seguirse en el entrenamiento de discrimi-naciones condicionales. Por ejemplo, puede presentarse la muestra y lacomparación correcta con un nivel de intensidad mayor que la compara-ción incorrecta, para ir aumentando la intensidad de esta última progresi-vamente. O, en lugar de manipular la intensidad (como el brillo, por ejemplo) puede variarse el tamaño (Mcllvave y Dube, 1992).

5.4.8. Intervalo entrenamiento-prueba

Thomas, Windell, Bakke, Kreye, Kimose y Aposhyan (1985) reforzaronla respuesta de un grupo de palomas ante una tecla cruzada por una línea blanca vertical (un procedim iento que ya hemos visto en otros traba jos) . En

la prueba de generalización se presentaron el E+ y otros seis estímulos enlos que se modificó la inclinación de la línea (de 15 a 90 grados). Esta prueba se aplicó un minuto , un día, y una semana después del entrenamiento.Los resultados mostraron que el gradiente se iba haciendo cada vez más plano según el tiempo entre el entrenamiento y la prueba era mayor.

Podría afirmarse, por tanto, que el paso del tiempo aumenta la genera-lización, es decir, que los estímulos diferentes al E+ ejercen mayor controlcuanto más lejana se encuentra la finalización del entrenamiento.

6. INTERACCIONES EXCITATORIASINHIBITORIAS

Cuando abordamos el efecto de la experiencia previa en la adquisiciónde nuevas discriminaciones introdujimos el concepto de cambio intradimensional e interdimensional, refiriéndonos a posibles diferencias entrelos estímulos en cuanto al valor dentro del mismo rasgo (manteniéndoseel resto constante) o de la existencia de diferentes rasgos, respectivamente.Pero estas diferencias también pueden distinguirse dentro de la mismadiscriminación. De esta forma, se consideraría a una discriminación comointradimensional si ambos estímulos discriminativos (tanto el positivocomo el negativo) son idénticos en todo excepto en el valor de uno de susrasgos. Por ejemplo, dos objetos del mismo tamaño, forma, posición, etc.,que sólo se diferencian en el color.

La adquisición de discriminaciones intradimensionales da lugar enlas pruebas de generalización a dos interesantes fenómenos que vamos a


325



describir en este apartado: el desplazamiento del máximo y el efecto detendencia central.

6.1. Desplazamiento del Máximo

Este fenómeno fue observado por primera vez por Hanson en 1959. Ensu experimento entrenó a tres grupos de palomas a discriminar entre dossonidos que sólo se diferenciaban en su longitud de onda. Se distribuyeronlos sujetos en cinco grupos, en todos se reforzó por responder ante el soni-do de 550 nm. (que funcionó como E+), sin embargo, el sonido en cuya presencia se ext inguía la re spuesta (el E) varió en función de la condición.Tras el entrenamien to se comprobó la respuesta de los sujetos ante diferen-

tes estímulos de prueba que iban de 480 a los 600 nm.

La Tabla 3 muestra los diferentes valores de los estímulos utilizados enel entrenamiento y el valor aproximado del estímulo de prueba en el quese observó el máximo de respuestas (de media). Como se indica, los únicossujetos que no recibieron un entrenamiento en discriminación fueron los

pertenecientes al grupo 5, que sólo fueron expuestos al sonido de 550 nm.y no se les aplicó extinción en ningún momento.


Tabla 3. Resumen de los resultados del estudio de Hanson (1959)

Grupo E+ (nm) E (nm) Máximo de respuestas ante el E (nm) de

1 550 555 530

2 550 560 538

3 550 570 540

4 550 590 542

5 550 ---------- 550

Los resultados muestran como el único grupo que demostró el máximode respuestas ante el E+ original fue aquel que no había sido sometido aextinción frente a otro sonido con diferente longitud de onda. En el resto degrupos se produce un alejamiento del valor en el que se observa el máximode respuestas respecto al E+ original, en el sentido opuesto al valor del E,y más amplio cuánto más cercano está el valor del E al del E+.

326




A este fenómeno se le denomina Desplazamiento del Máximo y ha sidoreplicado en diferentes ocasiones (Honig y Stewart, 1993, por ejemplo), pero ¿cómo puede explicarse? Spence (1936, 1937) sugirió una in te resanteteoría.

Según este autor, el entrenamiento en discriminación incide tanto enel discriminativo positivo como en el negativo (tanto en el EC excitatoriocomo en el inhibitorio) y, por tanto, ambos estímulos adquieren un controldel comportamiento que puede generalizarse a otros estímulos semejan-tes. Cuando la discriminación ha sido intradimensional, las diferenciasentre los estímulos se limitan al valor en una sola dimensión (dentro deun continuo), de manera que los estímulos de prueba mantienen parecidotanto con el E+ como con el E. Spence destaca que todos los estímulos, los

condicionados y los generalizados, tienen un efecto tanto excitatorio comoinhibitorio, de manera que el efecto (la conducta provocada) podría enten-derse como la suma algebraica de ambas tendencias.

LO LO LO LO LO LO LON CO O ) O (NI (^)

LO l f) LO l í)

Figura 5. Datos hipotéticos de la interacción entre los gradientes excitatorios e inhibitoriosen tres ejemplos: 510 nm. (E+) y 495 nm. (E), izquierda y derecha; y 530 nm. (E+) y 485

nm. (E), centro. En gris los gradientes excitatorios e inhibitorios, en negro el gradiente neto.

¿Cómo se calcularía entonces? Vamos a centramos en los datos

representados en la gráfica de la izquierda de la Figura 5. Hay que tener encuenta que:

a) Se han tomado los valores hipotéticos de respuesta que se observa-rían si el E+ y el E hubiesen adquirido su función de manera independiente , es decir, com o si no se hubiese entrenado una discrimi-nación intradimensional.

327

mLOcoLO



b) El gradiente sólo está mostra ndo la fuerza excitatoria de cadaestímulo de prueba presentado, pero para rea lizar la suma algebraicade tendencias es necesario con templar también la fuerza inhibitoria.Para ello tomaremos como valor de referencia el máximo de res-

puesta s observado en cada gradiente (9 en el gradiente exci tatorioy 5 en el inhibitorio). Si, por ejemplo, ante 530 nm. se observasen 4unidades de respuesta en el gradiente excitatorio, ésta sería su fuerzaexcitatoria en ese gradiente, mientras que su fuerza inhibitoria sería5 (94).

La Tabla 4 muestra cómo se calcularían los valores del gradiente frutode la interacción entre el E+ y el E siguiendo estos principios.


Tabla 4. Ejemplo del cálculo de la suma algebraica de tendencias

G. Excitatorio (R) G. Inhibitorio (R)urupo

Exc. Inh. Exc. Inh.suma /ugeoraica

500 8,3 0,7 1,3 3,7 (8,3 + 1 ,3 ) (0 ,7 + 3,7) = 5,2

505 8,7 0,3 1,7 3,3 (8,7+ 1 ,7)(0 ,3+ 3,3) = 6,8

510 9,0 0 2,0 3,0 (9 + 2) (0 + 3) = 8

515 8,7 0,3 2,5 2,5 (8,7+ 2 , 5 ) ( 0 , 3+ 2,5) = 8,4

520 8,3 0,7 3,0 2,0 (8,3 + 3) (0,7 + 2) = 8,6

Los resultados hipotéticos mostrados en la Figura 5 nos aportan infor-mación sobre las características que presenta este fenómeno, algunas yacomentadas:

— El desplazamiento del máxim o se produce en el sentido del E al E+.En nuestro ejemplo, si el E es 495 nm. y el E+ 510 nm., de existir undesplazamiento del máximo tendría que ser ante un estímulo con unvalor superior a 510 nm.

— El desplazamiento del máxim o es mayor cuanto más cercanos seencuentran los valores del E+ y el E. Esto puede comprobarse com-

parando el gradiente neto de la gráfica de la izquie rda con el de lagráfica central, en la que apenas se observa desplazamiento. Estacaracterística se ha replicado con una amplia variedad de estímulosy especies: Hearst (1968) usando la inclinación de líneas con palo

328



mas, Barón (1973) usando tonos con humanos, Ohinata (1978) condiferentes longitudes de ondas con peces, Cheng, Spetch y Johnson(1997) con localizaciones espaciales y palomas, por ejemplo.

— Cuanto mayor es la disc riminación mostrada por el individuo de losE+ y E menor es el efecto de desplazamiento producido por la inte-racción en tre ambos. La gráfica de la derecha tiene los valores del E+y E idénticos a la gráfica de la izquierda, sin embargo, no se observadesplazamiento del máximo.

— Aunque el fenómeno se denomine «Desplazamiento del máximo»,al menos teóricamente, también se produce un desplazamiento del«mínimo». Además, este valor dependería de las mismas variablesque el valor en el que se observa el máximo de respuesta, excepto

porque su desplazamiento se produciría en el sentido del E+ al E.

— Cuanto mayor es la inte racción (más proximidad entre E+ y e - y/o gradientes más planos) menor es el valor absoluto de conductaobservada.

A pesar de la robustez del fenómeno, existen características tanto delentrenamiento como de la prueba o de los propios estímulos utilizados(ver Purtle, 1973, o Mackintosh, 1974) que determinan su aparición. Porejemplo, se ha comprobado que el entrenamiento en discriminación «sin

errores» no produce desplazamiento del máximo en la prueba de generali-zación (Terrace, 1964). Y, por otra parte, Crawford, Steele y Malone (1980)y Cheng y cois. (1997) encontraron que si la fase de evaluación es suficien-temente larga tampoco se observa este desplazamiento.

Pero, probablem ente, uno de las variables que modula n el Desplazamientodel Máximo que más interés ha despertado es la que vamos a describiren el siguiente apartado , el Efecto de Tendencia Central o de Nivel deAdaptación.

6.2. Efecto de Tendencia Central

Hasta ahora hemos visto pruebas de generalización en las que se presen-taban estímulos generalizados con valores tanto superiores como inferioresa los E+ y/o E entrenados. Esta distribución más o menos simétrica de


329



los estímulos de prueba da lugar a curvas normales cuyo valor intermedioes el E+ o E original, siempre que no se produzca un desplazamiento delmáximo. Pero ¿qué aspecto presentaría el gradiente de generalización si losestímulos de prueba presentados no se distribuyeran de esa manera?

Thomas y Jones (1962) respondieron a esta pregun ta m ediante un expe-rimento con humanos como sujetos. En su estudio se presentó una luzverde (525 nm.) durante un minuto y se advirtió a los participantes que larecordaran para poder identificarla después. En la fase de evaluación lossujetos fueron distribuidos en tres grupos que diferían en los estímulos de

prueba presentados: todos por debajo del E+, todos por encima del E+, uordenados de manera simétrica. Los sujetos tenían que determinar cuál deellos era el mismo que el color mostrado al principio pulsando una tecla.

Los resultados se resumen en la Tabla 5.


Tabla 5. Resumen de los resultados por Thomas y Jones (1962)

Grupos Estímulos de prueba (nm) Máximo de respuesta en

Inferiores al E+ (525 nm) 485,495, 505,515, 525 515 nm

Superiores al E+ (525 nm) 525, 535, 545, 555, 565 535 nm

Simétrico 505, 515, 525, 535, 545 525 nm

Es importante recordar que el E+ (el estímulo que se presentó al principio y que se pedía identificar) era el mismo para los tres grupos y que todostuvieron la oportunidad de señalarlo. Sin embargo, esto sólo se observó enel grupo con la distribución simétrica, en los dos grupos restantes el máxi-mo de respuestas se desplazó en el sentido del E+ original hacia el valormedio de los estímulos presentados. Este fenómeno es el conocido comoEfecto de Tendencia Central y es uno de los mayores apoyos empíricos delenfoque relacional. Este enfoque defiende que la respuesta generalizada nose basaría en respuestas a las características físicas absolutas de los estí-mulos, sino a sus referencias relativas en función de los estímulos con losque tiene experiencia.

¿Podría afectar la distribución de los estímulos de prueba a la inte-racción entre el E+ y el E en una discriminación intradimensional? Pararesponder a esta pregunta Thomas y su equipo (Thomas, Mood, Morrisony Wiertelak, 1991) realizaron un experimento, también con humanos, en el

330



que consiguieron modificar el sentido del desplazamiento del máximo. Ensu estudio se utilizaron 11 intensidades de luz blanca clasificadas en ordencreciente del 1 al 11. Se entrenó a 40 estudian tes universita rios a discrimi-nar entre dos de esas intensidades. En un grupo se reforzó responder antela intensidad de grado 2 (E+) y se castigó la respuesta ante la de grado 4(E). En el otro grupo el E+ fue el estímulo 4 y el E el estímulo 2. La fasede prueba consistió en la exposición a seis series en las que se presentabande manera aleatoria todos los estímulos, los once.

En ambos grupos se encontró un desplazamiento del máximo respectoal valor del E+ entrenado muy cercano a 6, la media de los valores de losestímulos de prueba. Para el grupo en el que el E+ fue el grado 2 de inten-sidad el máximo de respuesta se observó ante el estímulo 5, mientras que

para el grupo en el que el E+ fue 4 se desplazó al est ím ulo 7. Pero lo másdestacable es que el desplazamiento en el primer grupo se produjo en elsentido del E+ (2) al E (4).

¿Invalidan estos resultados el fenómeno del desplazamiento del máxi-mo? No necesariamente. El Efecto de Tendencia Central, en primer lugar,es un fenómeno que hasta ahora sólo se ha comprobado con sujetos huma-nos, en el resto de especies (palomas y ratas, principalmente) se sigue repli-cando de manera consistente el Desplazamiento del Máximo. En segundolugar, no todas las investigaciones con humanos obtienen resultados cohe-

rentes con él. En algunos casos, como cuando se usan procedimientos dereconocimiento de caras, no se observan esta respuesta relacional (Spetch,Cheng y Clifford, 2004; por ejemplo). La naturaleza, alcance y característi-cas de este fenómeno es un debate abierto todavía.


7. OTRAS TEORIAS SOBRE LA GENERALIZACION

¿Por qué razón estímulos que nunca han participado en una contingen-

cia de aprendizaje pueden ejercer control sobre la conduc ta de un individuo?

Las primeras hipótesis explicativas a esta pregunta se fundamentaronen considerar la generalización como un proceso primario y no como elefecto o el subproducto de otro proceso diferente. En esta línea destacanlas propuestas tanto de Pavlov (1927) como de Hull (1943), ya introducidascon anterioridad.

331



Pavlov basó su explicación en el concepto de irradiación, semejante alefecto de onda al tirar un objeto al agua. Según el autor, cada estímulo produce excitación en una zona concre ta del córtex cerebral, de maneraque estímulos parecidos pueden activar zonas físicamente adyacentes. Estoimplicaba (y era coherente con lo observado en los experimentos) que lairradiación de la excitación se volvía más débil a medida que aumentaba ladistancia al centro de excitación correspondiente al E+ original.

Hull, por otra parte, defendió que el cerebro no percibía los estímuloscomo algo único, con un solo valor por dimensión, sino que cada rasgo eraregistrado con una horquilla de valores. Es decir, que cuando un estímuloadqu iere control sobre c ierta conducta , ese control no es exclusivo del valorde las dimensiones con las que se ha presentado, sino que es compartido

por valores cercanos. De esta manera , al condic ionarse regiones de valoresy no valores concretos, cuántos más valores com partan el estímulo de prue - ba con las regiones condic ionadas con el E+ original mayor será el controlque ejercerá.

A lo largo del capítulo hemos descrito otros desarrollos teóricos que,de alguna forma, complementan y amplían esta manera de concebir elfenómeno, como las teorías de Spence o el enfoque relacional de Thomas yJones. Sin embargo, existen otras aproximaciones a este problema que noentienden la generalización como un proceso primario. En este apartado

vamos a abordar dos de ellas: las que consideran la generalización comoun fallo en la discriminación (la denominada hipótesis inversa y la teoríaatencional), y las que critican el concepto de inhibición (la teoría de la res-

puesta múltiple).

7.1. Hipótesis inversa: Blough

Siguiendo el planteamiento, ya comentado, de Lashley y Wade (1946),

esta hipótesis mantiene que la generalización se debe a que los sujetos no pueden discrimin ar entre los est ím ulos de prueba a los que son expuestos.En otras palabras, la capacidad de los sujetos para discrim inar ciertos estí-mulos determina si mostrarán o no generalización.

Esta hipótesis fue puesta a prueba por Blough en 1972. En su experi-mento entrenó a palomas para que discriminasen una longitud de onda


332



concreta (color) como E+. El valor del estímulo discriminativo variaba enfunción del grupo e iba desde 480 nm. a 645 nm. Después, en la prueba degeneralización, comprobó los gradientes que se formaban en cada grupoexponiéndoles a valores cercanos al E+ entrenado, tanto inferiores comosuperiores. Los resultados mostraron que el gradiente más pronunciado seobservaba en los valores cercanos a 600 nm., mientras que se iban volvien-do más planos (menos discriminación, más generalización) según los estí-mulos de prueba del grupo se alejaban de 600 nm., tanto por debajo dentrodel espectro como p or arriba.

La autora concluyó que la visión de las palomas es especialmente sen-sible a variaciones en ese punto del espectro, es decir, que son capacesde distinguir mejor ciertos colores que otros. Y que, por tanto, esa mejor

capacidad para discriminar en un rango cercano a los 600 nm. minimizóla generalización.

7.2. Teoría atencional: Shutherland y Mackintosh

Esta teoría matiza la propuesta de Lashley y Wade, ya que consideraque el fallo en la discriminación (responsable de que se produzca generali-zación) se debe a la falta de atención hacia el rasgo pertinente del estímulodiscriminativo, del que correlaciona con el reforzamiento.

La teoría atencional de la discriminación fue formulada por Sutherlandy Mackintosh (1971). Estos autores distinguen dos procesos:

1. El cerebro recibe y procesa la inform ación sensorial a través de an a-lizadores específicos que representan cada dimensión del estímulo por separado (color, brillo, tamaño, etc.). Al inicio del entrenamien-to, antes del reforzamiento diferencial, la fuerza de cada analizadordependería de la saliencia de la dimensión. El reforzamiento afectaríaa la fuerza de los analizadores activos, de manera que la dimensiónmás saliente, a la que estamos prestando atención, se condicionaríamás que el resto.

2. Se desarrolla un vínculo entre una respuesta específica y un analiza-dor. Por ejemplo, el reforzamiento establecería una unión entre ele-gir la tecla roja en lugar de la verde y el analizador correspondienteal color.


333



A lo largo del capítulo se han descrito tanto experimentos que apoyanesta teoría (Lawrence, 1963, Waller, 1973, y Honig, 1974), como otros queapu ntan en la dirección contra ria (Seraganian, 1979).

7.3. Respuesta Múltiple: Staddon

En un experimento de psicología la variable dependiente es la conduc-ta del sujeto, pero no cualquier conducta sino la que se ha definido comoconducta objetivo para ese experimento concreto. Las características de lasespecies que suelen utilizarse para la investigación en laboratorio y las necesi-dades técnicas para el registro riguroso de esa conducta, entre otras variables,suelen del imitar los eventos que son objeto de observación y análisis por parte

de los investigadores. En los estudios sobre generalización, por ejemplo, serefuerza diferencialmente una respuesta concreta (picar en una tecla, presio-nar una palanca, recorrer un corredor, etc.) y después se miden ciertos pará-metros de esa respuesta (frecuencia, latencia, intensidad, etc.) ante estímulosdiferentes a los utilizados durante el entrenamiento. De esta manera, la ocu-rrencia de la respuesta objetivo ante estímulos parecidos al E+ se considerafruto de las propiedades excitatorias de los estímulos generalizados, mientrasque su ausencia (o decremento) efecto de sus propiedades inhibitorias. Estoha limitado los análisis teóricos a una sola conducta: la conducta objetivo.

La teoría de Respuesta Múltiple de Staddon (1983) propone romper conesta concepción incluyendo dentro del análisis del fenómeno el resto deconductas que despliega el sujeto, además de la respuesta objetivo. Staddondiferencia entre dos categorías de conducta: las terminales y las de ínterin.Las primeras estarían controladas por la presencia del E+ y fortalecidas porla aparición del reforzador, y las segundas serían aquellas que aparecen enausencia del E+ (o presencia del E) y que son reforzadas por otro tipo deeventos diferentes al reforzador progra mad o p or el experimentador.

Esto representa un enorme cambio respecto al resto de teorías que hemosvisto en el capítulo, ya que se reemplaza el concepto de inhibición por el decompetición. Las respuestas terminales quedarían bajo el control excitatoriode los E+ mientras que las conductas de ínterin estarían controladas por losE. De esta manera, ambas tendencias excitatorias se generalizarían a todoel conjunto de estímulos de prueba presentados durante la evaluación, y elresultado de esta competencia formaría los diferentes gradientes.


334




R e s u m e n

La causa siempre antecede al efecto. Si el objeto de estudio de la Psicologíaes el comportamiento, la explicación de dicho objeto debe explicitar la causa

del mismo. Ese evento causal puede ser la presencia de una persona, unfenómeno meteorológico, un sonido, una frase, sensaciones provenientes denuestro cuerpo, nuestro propio comportamiento, etc. No obstante, su trata-miento respecto a la conducta que pretendemos explicar será de Estímulo,en cuanto a que funciona como un evento que produce una reacción. En estecapítulo se ha revisado cómo éstos eventos adquieren su capacidad causal, enotras palabras, cómo el comportamiento cae bajo su control. A medida que unestímulo adquiere dicho control los individuos dejan de comportarse de esamisma manera en presencia de otros estímulos diferentes, dejan de generalizar

y empiezan a discriminar. Este nivel de discriminación puede representarsemediante gradientes de generalización, que también nos informan sobre siese control, respecto a la conducta a explicar, es excitatorio o inhibitorio. Elcontrol, además, puede ser simple (E+ y E) o condicional, pero las variablesde las que dependen son comunes y están relacionadas principalmente con lodiferente que sean los elementos que forman cada contingencia y con otrosfactores relacionados con la historia del sujeto y el tipo de entrenamiento. Endefinitiva, aunque en los estudios experimentales se intenta reducir la cantidadde variables relevantes al mínimo para poder establecer relaciones causales con

cierta seguridad, el control que ejerce el entorno sobre nuestro comportamien-to depende de la interacción de una amplísima gama de factores, puede seraltamente complejo (ver Discriminaciones Condicionales de Segundo Orden)e incluso depender de la interacción de los estímulos de control, dando lugara fenómenos aparentemente paradójicos como el Desplazamiento del Máximoo el Efecto de Tendencia Central.Conducta de elección. Se considera que unindividuo ha tomado una decisión o ha elegido una opción cuando emite unarespuesta en una situación

335





Desplazamiento del máximo: efecto de interacción entre el control excitatorioe inhibitorio presente en cada estímulo de prueba cuando el entrenamiento

de discriminación ha sido intradimensional. El resultado es que el máximode respuestas no se observa en presencia del E+ original sino ante otroestímulo cuyo valor en la dimensión pertinente se aleja del E+ en direcciónopuesta al E.

Discriminar y Generalizar: se considera que un individuo está discriminandoentre dos eventos cuando su respuesta es diferente en función de cuál delos dos esté presente. Un estímulo demuestra un elevado control sobre unaconducta cuándo sólo aparece en su presencia y no ante cualquier otro estí-mulo, aunque se parezca. Se considera entonces que el sujeto discriminamuy bien ese estímulo. Genera lizar sería lo contrario, es decir, comportarsede la misma manera ante estímulos diferentes, lo que se consideraría uníndice de un bajo control por el estímulo.

Efecto de tendencia central: desplazamiento del máximo de respuestas respecto al E+ original como efecto de la distribución respecto a éste de losestímulos generalizados presentados. Se observa que el sujeto responde enmayor proporción ante un valor diferente al E+ original que se acerca alvalor medio de los estímulos de prueba a los que se le expone.

Gradiente de generalización: es la representación gráfica del control de unestímulo sobre determinada conducta. Se forma a partir de la respuesta delsujeto ante estímulos que difieren del original sólo en el valor de uno de susrasgos, frecuentemente comprendiendo valores tanto superiores como infe-riores. La forma del gradiente aporta información tanto de la naturaleza delcontrol, excitatorio (U invertida) o inhibitorio (U); como de su nivel, altageneralización (plano) o baja (acusado).

336




E r r o r e s c o m u n e s

Estímulo discriminativo vs. Discriminar / Generalizar: Discriminar o gene-ralizar son dos formas de describir el grado en el que ciertos estímulos

antecedentes ejercen control sobre determinadas conductas. Un eventoejercerá mayor control sobre una conducta cuanta menos generalizaciónse observe, es decir, si esa conducta sólo aparece ante ese estímulo y noante otros (aunqiie se parezcan mucho) el sujeto está demostrando queuna elevada conducta discriminativa. No obstante, a todos los estímulosque ejercen cierto control directo (no condicional) sobre alguna operantese les denomina discriminativos (Ed), independientemente de que ese con-trol sea escaso o muy alto. Por tanto, los estímulos discriminativos puedendiscriminarse de la misma forma que pueden generalizarse, en función de

multitud de variables comentadas en este capítulo.

¿Qué muestran los gradientes de generalización?: Los gradientes de gene-ralización se forman a partir de la respuesta observada ante estímulosde prueba que guardan un parecido decreciente con el E+ o el E en unadimensión (manteniéndose el resto de rasgos constantes). La forma de estegradiente (plano o puntiagudo) nos informa sobre el grado de control queejerce el E+ o el E sobre determinada conducta. Por tanto, nos permitedeterminar tanto el nivel de discriminación como de generalización.

Estímulo Condicional vs. Estímulo Condicionado: Se denominan EstímulosCondicionaDOS a aquellos eventos que han adquirido alguna propiedadelicitadora por su emparejamiento con otro estímulo que ya poseía esacaracterística, ya sea un Estímulo Incondicionado (El) u otro EstimuloCondicionado (EC). Los estímulos CondicionaLES, sin embargo, son even-tos cuyo control sobre la conducta es operante, no Respondiente (Clásicoo Pavloviano). Son aquellos eventos que modifican la función positiva onegativa de los estímulos discriminativos, es decir, los eventos que añadenun término más a la contingencia operante mínima de tres términos, con-

virtiéndola en condicional.

337



REFERENCIAS

B a r ó n , A. (1973). Postdiscrimination gradients of human subjects on a tone continuum. Journal o f Experimental Psychology, 101, 337342.

B e n i n g e r , R. J.; K e n d a l l , S. B. y V a n d e r w o l f , C. H. (1974). The ability of rats todiscrimínate their own behaviours. Canadian Journal o f Psychology/Revue can- adienne de psychologie, 28, 7991.

B l o u g h , P. M. (1972). Wavelength generalization and discrimination in the pigeon. At tention, Perception and Psychophysics , 12, 342348.

B u s h , K. M.; S i d m a n , M. y D e R o s e , T . (1989) . Con te x tua l c on t ro l o f e m e rg e n t e qu iv

a l e nc e re l a t ions . Journal o f the Experimental Analysis o f Behavior, 51, 2945.

Ca r l s o n , J. G. y W i e l k i e w c z , R. M. (1976). Mediators of the effects of magnitudeof reinforcement. Learning and Motivation , 7, 184196.

Cá r t e r , D. E. y W e r n e r , T. J. (1978). Complex learning and information processing by pigeons: a critical analysis. Journal o f the Experimental Analysis o f Behavior, 29, 565601.

Ch e n g , K.; S p e t c h , M. L. y J o h n s o n , M. (1997). Spatial peak shift and generaliza-tion in pigeons. Journal o f Experimental Psychology: Anim al Behavior Processes, 23, 469481.

Co h é n , L. R.; L o o n e y , T. A.; B r a d y , J. H. y Au c e l l a , A. F. (1976). Differential sam ple response schedules in the acquisit ion of conditional discriminat ions by pigeons. Journal o f the Experimental Analysis o f Behavior , 26, 301314.

C r a w f o r d , L. L.; S t e e l e , K. M. y M a l o n e , J. C. (1980). Gradient form and sequential effects during generalization testing in extinction. Anim al Learning and

Behavior, 8, 245252.Cu m m i n g , W. W. y B e r r y m a n , R. (1965). The complex discriminated operant:

studies of matchingtosample and related problems. En D. I. Mostofsky (Ed.),Stimulus generalization (pp. 284330). Stanford: Stanford University Press.

D e L o n g , R. R. y W a s s e r m a n , E. A. (1981). Effects of differential reinforcementexpectancies on successive matchingtosample performance in pigeons.

Journal o f Experimental Psychology: Anim al Behavioral Processes, 7, 394412.

D o b r e z c k a , C.; S z w e j k o w s k a , G. y K o n o r s k i , J. (1966). Qualitative versus directional cuies in two forms of differentiation. Science, 153, 8789.

F e d o r c h a c k , P. M. y B o l l e s , R. C. (1987). Hunger enhances the expression ofcaloriebut not tastemediated conditioned flavor preferences. Journal o f

Experimental Psychology: Anim al Behavior Processes, 13, 7379.F e t s k o , L. A.; S t e b b in s , H. E.; Ga l l a g h e r , K. K. y Co l w i l l , R. M. (2005). Acquisition and

extinction of facilitation in the C57BL/6J mouse. Learning and Behavior, 33, 479500.


338



F o r e e , D. D. y L o L o r d o , V. M. (1973). Attention in the pigeon: The differentialeffects of foodgetting vs. shockavoidance procedures. Journal o f Comparative and Physiological Psychology, 85, 551558.

F u j i t a , K. (1983). Acquisition and transfer of higherorder conditional discrimination

performance in the japanese monkey. Japanese Psychological Research, 25, 18.G a r c í a , A. (2002). A n t e c e d e n te s h i s t ó r ic o s d e l u s o d e d i s c r im i n a c i o n e s c o n d i c i o n a -

l e s e n e l e s tud io de l a s ime t r í a . Revista de Historia de la Psicología, 23, 123130.G a r c í a , A. y B e n j u m e a , S. (2006). The emergence of symmetry in a conditional

discrimination task using different responses as proprioceptive samples in pigeons. Journal o f the Experimental Analysis o f Behavior, 86, 6580.

G u t t m a n , N. y K a l i s h , H. I. (1956). Discriminability and stimulus generalization. Journal o f Experimental Psychology, 51, 7988.

H a m i l t o n , W. F. y C o l e m a n , T. B. (1933). Trichromatic visión in the pigeon as illus

trated by the spectral discrimination curve. Journal o f Comparative Psychology, 15, 183191.

H a n s o n , H . E . ( 1 9 5 9 ) . E f f e c t s o f d i s c r i m i n a t i o n t r a i n i n g o n s t i m u l u s g e n e r a l i z a -

t ion . Journal o f Experimental Psychology, 58, 321334.

H a r l o w , H. F. (1949). The formation of learning sets. Psychological Review, 56,5165.

H a r z e m , P. y M i l e s , T. R. (1978). Conceptual issues in psychology. Londres: Wiley.H a s h i y a , K. y K o j i m a , S. (2001). Acquisition of auditoryvisual intermodal match

ingtosample by a chimpanzee (Pan troglodytes): Comparison with visualvisu-

al intramodal matching. Anim al Cognition, 4, 231239.H e a r s t , E. (1968). Discrimination training as the summation of excitation and

inhibition. Science, 162, 13031306.H e a r t s , E. y K o r e s k o , M. B. (1968) . Stimulus generalization and amount of

prior training on variableinterval reinforcement. Journal o f Comparative and Physiological Psychology, 66, 133138.

H e a r s t , E. y W o lf f , W. T. (1989) . Ad d i t iona l ve r sus de le t ion a s a s igna l . Anim al Learning & Behavior, 17, 120133.

H e r m á n , L. M. y G o r d o n , J. A. (1974). Auiditory delayed matching in the bottlenose

dolphin. Journal o f the Experimental Analysis o f Behavior, 21, 1926.H o l l a n d , P. C. (1985). The nature of conditioned inhibition in serial and simul

taneous feature negative discrimination. En R. R. Miller y N. E. Spear (Eds.), Information processing in animals: Conditioned inhibition. Hillsdale, NJ:Erlbaum.

H o l t , G. L. y S h a f e r , J. N. (1973). Function of intertrial interval in matchingtosample. Journal o f the Experimental Analysis o f Behavior, 19, 181186.


339



H o n i g , W . K. ( 19 7 4 ). E f f e c ts o f e x t r a d i m e n s i o n a l d i s c r i m i n a t i o n t r a i n i n g u p o n p r e

v i o u s l y a c q u i r e d s t i m u l u s c o n t r o l . Learning and Motivation, 5, 15.

H o n i g , W. K. y S t e w a r t , K. E. (1993). Relative numerosity as a dimensión of stim-ulus control: The peak shift. Anim al Learning and Behavior, 21, 346354.

H o n i g , W. K. y U r c u i o l i , P. J. (1981). The legacy of Guttman and Kalish (1956):25 years of research on stimulus generalization. Journal o f the Experimental

Analysis o f Behavior, 36, 405445.H u l l , C. L. (1943). Principies o f behavior. New York: AppletonCenturyCrofts.J a r r a r d , L. E. y M o i s e , S. L. (1971). Shortterm memory in the monkey. En L. E.

Jarrard (Ed.), Cognitive processes o f non-huma n primates (pp. 124). New York:Academic Press.

K o e g e l , R. L. y K o e g e l , L. K. (1988). Generalized responsivity and pivotal behaviors. En R. H. Horner, G. Dunlap, y R. L. Koegel (Eds.), Generalization and

maintenance: Life-style changes in applied settings. Baltimore, MD: Paul H.Brookes Publishing Co.

L a s h l e y , K. S. (1938). Conditional reactions in the rat. Journal o f Psychology: Interdisciplinary and Applied, 6, 311324.

L a s h l e y , K. S. y W a d e , M. (1946). The Pavlovian theory of generalization. Psychological Review, 53, 7287.

L a w r e n c e , D. H. (1963). The nature of a stimulus: Some relationships betweenlearning and perception. En S. Koch (Ed.), Psychology: A study o f a Science, Vol.5 (pp. 179212). New York: McGrawHill.

L u b i n s k i , D. y T h o m p s o n , T. (1987). An animal model of of the interpersonalcommunication of interoceptive (prívate) states. Journal o f the Experimental

Analysis o f Behavior, 48, 115.M a c k a y , H. A. (1991). Conditional stimulus control. En I. H. Iversen y K. A. Lattal

(Eds.), Experimental analysis o f behavior, Parts 1 & 2. (pp. 301350). New York, NY US: Elsevier Science.

M a c k i n t o s h , N. J. (1964). Overtraining and transfer within and between dimensions in the rat. The Quarterly Journal o f Experimental Psychology, 16, 250256.

— (1969). Furth er analysis of the overtraining reversal effect. Journal of Comparative

and Physiological Psychology, 67, 118. — (1974). The psychology o f animal learning. London: Academic Press.M a k i , P.; O v e r m i e r , B.; D é l o s , S. y G u t m a n n , J. (1995). Expectancies as fac

tors influencing conditional discrimination performance of children. The Psychological Record, 45, 4571.

M c I l v a n e , W. J. y D u b e , W. V. (1992). Stimulus control shaping and stimulus con-trol topographies. The Behavior Analyst, 15, 8994.


340



M o r i m u r a , N. y M a t s u z a w a , T. (2001). Memory of movies by chimpanzees (Pantroglodytes). Journal o f Comparative Psychology, 115, 152158.

O h i n a t a , S. (1978). Postdiscrimination shift of the goldfish (Carassius auratus) on avisual wavelength continuum. Annual o f Anim al Psychology, 28, 113122.

P a v l o v , I. P. (1927). Condi tioned reflexes. Londres: Oxford University Press.P e ñ a , T.; P i t t s , R. C. y G a l i z io , M. (2006). Identity matchingtosample with olfacto

ry stimuli in rats. Journal o f the Experimental Analysis o f Behavior, 85, 203221.P e t e r s o n , G. B.; W h e e l e r , R.L. y A r m s t r o n g , G. D. (1978). Expectancies as

mediators in the differentialreward conditional discrimination performance. Learning and Motiva tion, 6, 279285.

P i e r r e l , R. y S h e r m a n , J. G. (1960). Generalization of auditory intensity followingdiscrimination training. Journal o f the Experimental Analysis o f Behavior, 3,313322.

P u r t l e , R. B. (1973). P e a k shift: A reviexv. Psychological Bulletin, 408421.R e s c o r l a , R. A. (1985). Conditioned inhibition and facilitation. En R. R. Miller y

N. E. Spear (Eds.), In formation processing in animals: Conditioned inhibi tion . Hillsdale, NJ: Erlbaum.

R e s c o r l a , R. A. (1986). Extinction of facilitation. Journa l o f Experimenta l Psychology: Anim al Behavior Processes, 12, 1624.

R i b e s , E. (1990). Psicología General. México: Trillas.R i b e s , E. y L ó p e z , F. (1985). Teoría de la conducta: Un análisis de campo y paramé-

trico. México: Trillas.

R i b e s , E. y T o r r e s , C. J. (2001). Un estudio comparativo de los entrenamientosde primer y segundo orden en igualación a la muestra. Revista Mexicana de

Análisis de la Conducta, 27, 385401.R i b e s , E.; Ca b r e r a , F. y B a r r e r a , J. A. (1997). La emergencia de descripciones en

una discriminación condicional de segundo orden: su relación con el tipo deentrenamiento y la ubicación temporal de las pruebas de transferencia. Acta Comportamentalia , 5, 165197.

R i b e s , E.; C e p e d a , M. L.; H i c k m a n , H.; M o r e n o , D. y P e ñ a l o s a , E. (1992). Effects ofvisual demonstration, verbal instructions, and prompted verbal descriptions of

the performance of human subjects in conditional discrimination. The Analysis o f Verbal Behavior, 10, 2336.

R o b e r t s , W. A. (1974). Spaced repetition facilitates shortterm retention in the rat. Journal o f Comparative and Physiological Psychology, 86, 164171.

S a c k s , R. A.; K a m i l , A. C. y M a c k , R. (1972). The effects of fixedratio samplerequirements on matching to sample in the pigeon. Psychonomic Science, 26,291293.


341



S e r a g a n i a n , P. (1979). Extra dimensional transfer in the easytohard effect. Learning and Motivation, 10, 3957.

S k i n n e r , B. F. (1938) . La Conducta de los Organismos. Barcelona: Fontanella,1975.

— (1950). Are theories of learning necessary? Psychological Review, 57, 193216.S p e n c e , K. W . (1936). The nature of discrimination learning in animals. Psychological

Review, 43, 427449. — (1937). The differential response of animals to st imuli wi thin a single dimen-

sión. Psychological Review, 44, 430444.S p e t c h , M. L.; Ch e n g , K. y C l i f f o r d , C. W. G. (2004). Peak shift but not range

effects in recognition of faces. Learning and Motiva tion, 35, 221241.S t a d d o n , J. (1983). Adaptative behavior and learning. Cambridge: Cambridge

University Press.S u t h e r l a n d , N. S. y M a c k i n t o s h , N. J. (1971). Mechanisms o f anim al discrimina

tion learning. NY: Academic Press.T e r r a c e , H. S. (1963). Discrimination learning with and without «errors». Journal

o f the Experimental Analysis o f Behavior, 6, 127. — (1964). Wavelength genera liza tion after disc riminat ion training with and with-

out errors. Science, 144, 7880.T h o m a s , D. R. y J o n e s , C. G. (1962). Stimulus generalization as a function of the

frame of reference. Journal o f Experimental Psychology, 64, 7780.T h o m a s , D. R.; M o o d , K.; M o r r i s o n , S. y W i e r t e l a k , E. (1991). Peak shift revisited:

A test of alternative interpretations . Journal o f Experimental Psychology: Anim al Behavior Processes, 17, 130140.

T h o m a s , D. R.; W i n d e l l , B. T.; B a k k e , I.; K r e y e , J.; K i m o s e , E. y A p o s h y a n , H.(1985). Longterm memory in pigeons: I. The role of discrimination problemdifficulty assessed by reacquisition measures . II. The role of stimulus modalityassessed by generalization slope. Learning and Motivation, 16, 464477.

T o m o n a g a , M. y F u s h i m i , T. (2002). Conditional discrimination using 3dimensional objects by a chimpanzee (Pan troglodytes): Tests for derived stimulusrelations. Japanese Journal o f Psychology, 73, 111120.

T r a p o l d , M. A. (1970). Are expectancies based upon different positive reinforcingevents discriminably different? Learning and Motiva tion, 1, 129140.U r c u i o l i , P. J. y H o n i g , W. K. (1980). Control of choice in conditional discrimina

tions by samplespecific behaviors. Journal o f Experimental Psychology: Animal Behavior Processes, 6, 251277.

V a r e l a J. y Q u i n t a n a C. (1995). Transferencia del comportamiento inteligente. Revista Mexicana de Análisis de la Conducta, 21, 4766.


342




W a g n e r , A. R.; L o g a n , F. A.; H a b e r l a n d t , K. y P r i c e , T. (1968). Stimulus selection inanimal discrimination learning. Journal o f Experimental Psychology, 76, 171180.

W a l l e r , T. G. (1973). Effect of consistency of reward during runaway training onsubsequent discrimination performance in rats. Journal o f Comparative and

Physiological Psychology, 83, 120123.W e i s m a n , R. G. y P a l m e r , J. A. (1969). Factors influencing inhibitory stimulus con-

trol: Discrimination training and prior nondifferential reinforcement. Journal o f the Experimental Analysis o f Behavior, 12, 229237.

W h i t e , K. G.; P i p e , M. E. y M c L e a n , A. P. (1985). A note on the measurementof stimulus discriminability in conditional discriminations. Bulletin o f the

Psychonomic Society, 23, 153155.W h y t e , A. A. y B o r e n , J. J. (1976). Discriminability of stimuli in matching to sam

ple. Bulletin o f the Psychonomic Society, 7, 468470.W y c k o f f , L. B., J r . (1952). The role of observing responses in d iscrimination learn-

ing. Part I. Psychological Review, 59, 431442.Z i e l i n s k i , K. y J a k u b o w s k a , E. (1977). Auditory intensity generalization after CER

differentiation training. Acta Neurobiologiae Exper imenta lis, 37, 191205.

343





T e m a 7

CONTROL AVERSIVOEN EL CONDICIONAMIENTO OPERANTE


1. Estimulación aversiva en el cond icionam iento operante ....... 351

1.1. Procedimientos de condicionam ientooperante ....................... 3511.2. Castigo, escape y evitación ........................................................... 3531.3. Procedimientos de condicionam iento operante y estados

emocionales ....................................................................................... 355

2. Conducta de ev itac ión .......................................................................... 358

2.1. Procedimientos de evitación ........................................................ 359

2.1.1. Evitación discriminada ....................................................... 359

2.1.2. Evitación no discriminada deoperantelibre de Sidman 362

2.1.3. La evitación de descarga aleatoria de Herrnstein-Hineline .............................................................. 364

2.2. Variables que afectan al reforzam iento negativo .................... 365

3. Castigo ....................................................................................................... 366

3.1. Variables que afec tan al castigo .................................................. 3673.2. La eficacia relativa del castigo pa ra sup rim ir laconducta ..... 3723.3. Fenómenos paradójicos en el castigo ........................................ 375

3.3.1. La conducta masoquista ...................................................... 3763.3.2. Círculo vicioso ...................................................................... 376

3.4. Otras estrategias de supresión de la conducta ........................ 3773.4.1. Entrenamiento de omisión .................................................. 3773.4.2. Modificación de la fuerza de conductas alternativas ..... 3783.4.3. Extinción ................................................................................ 3803.4.4. Modificaciones motivacionales .......................................... 380

345





C o n t r o l a v e r s i v o e n e l c o n d i c i o n a m i e n t o o p e r a n t e


Ed+ y Ed. Son estímulos discriminativos (Ed) aquellos que han adquiridocierto control sobre la emisión de determinada conducta debido a que su

presencia ha correlac ionado con su refuerzo (Ed+) o con su castigo/extin-ción (Ed).

Elicitar y Emitir. La conducta que es provocada de una manera refleja por unevento antecedente se considera elicitada, ya sea de manera innata (RI) oaprendida (RC). La conducta emitida (operante o instrumental) depende delas consecuencias que le han seguido en el pasado.

Ensayos discretos y Operante libre. Se considera que un estudio está utili-zando ensayos discretos cuando sólo se permite que la respuesta aparezca

una vez por ensayo. De esta manera el experimentador puede controlar elmomento y la frecuencia de emisión de la operante. El uso de un métodode operante libre implica que el sujeto pueda repetir la respuesta sin res-tricciones a lo largo de la sesión, sin que el experimentador intervenga alfinalizar cada ensayo.

Filogenia y Ontogenia. La filogénesis del comp ortam iento se refiere a los cambios producidos en el repertor io conduc tual inna to de una especie debidoa procesos de selección natural. La ontogénesis del comportamiento, sinembargo, alude a los cambios en el repertorio conductual de un individuogenerados por su experiencia.

ISI e ITI. Se define como intervalo entre estímulos (inter stimulus interval, ISI)al tiempo que transcurre entre la aparición de un determinado estímulo(frecuentemente un EC) y la aparición de otro (frecuentemente un El). Elintervalo entre ensayos (inter trial interval, ITI) es el tiempo que transcurredesde la finalización de un ensayo (al cerrarse el comedero, por ejemplo) yel comienzo del siguiente. Suele ser más largo que el ISI.

Topografía y Función. La topografía de una respuesta es el conjunto de sus propiedades físicas, tales como la velocidad con la que se emite, dirección,músculos que intervienen, etc. Su función depende del papel que juega enrelación con los eventos que le anteceden y/o le siguen.

347



O b j e t i v o s

• Distinguir la estructura y los efectos sobre la conducta que muestran losdiferentes procedimientos de condicionamiento en los que la estimulaciónaversiva está involucrada.

• Conocer los tipos de procedimientos y las variables de las que depende laeficacia del en trena miento de escape/evitación y de castigo.

• Valorar el efecto del uso del castigo, su eficacia para suprimir un comporta-miento y las alternativas disponibles.

• Comprender cómo afecta a nuestras elecciones la presencia de estimulaciónaversiva y su interacción con otras variables (como la demora).


348



El miedo y el dolor existen, y su presencia afecta a nuestra manera deactuar. Y sólo esto debería de ser una razón suficiente para motivar su es-tudio desde un nivel de análisis psicológico.

La forma en la que un individuo reacciona ante un peligro, como unevento nocivo o un predador, es determinante para que continúe vivo. En el

estudio de la conduc ta defensiva se ha abordado tradicionalm ente este con-cepto (el de reacción defensiva) desde dos perspectivas diferentes. M ientrasque Pavlov (1927) lo utilizó para referirse a las reacciones que los animalesdem ostraban an te ciertos estímulos dañinos, como el parpa deo del ojo antela presencia de elementos extraños (reflejo parpebral) o el vómito ante unalimento tóxico. Cannon (1929) consideraba como principales ejemplos deconductas defensivas la lucha o la huida, destacando el papel de la respues-ta cardiovascular.

De hecho, son éstas, las reacciones fisiológicas, la manera más gene-ralizada de prepararse ante una amenaza. Aumentar la tasa cardíaca o larespiración es una eficaz estrategia para proveer de recursos energéticosal organismo (facilitando la respuesta de agresión o huida), reducir la tasa puede hacer al sujeto más difícil de detectar por el predador (contr ibuyen-do al efecto de la inmovilización).

Entre las respuestas que pueden ser inducidas parcial o totalmente porla estimulación aversiva, la huida, la inmovilización y la agresión son lasmás frecuentes. No obstante, las presiones de supervivencia son muy dife-

rentes entre las distintas especies por lo que es razonable pensar que cadaespecie haya desarrollado una serie de respuestas específicas que se ponenen marcha ante las amenazas. Las ratas, po r ejemplo, suelen responde r antelas amenazas huyendo o permaneciend o paralizadas, pero en otras especiesse han observado reacciones como la tigmotaxia (pegarse a las paredes, co-mún en conejos, por ejemplo), acercarse a zonas oscuras o el enterramiento(muy frecuente en el hámster). Cuál de estos comportamientos (general o

349



específico) aparece en presencia del estímuloaversivo depende tanto de variables del propioestímulo (como la duración o la intensidad)como de la especie, de la historia del individuo

pero, sobre todo, del contexto en el que ocurre.Se ha comprobado que si la situación en la quese presenta la amenaza dispone de alguna sali-da la reacción más probable es la huida, mien-tras que si no la tiene es la parálisis (Blanchard,1997). El enterramiento no aparece si no hayarena, la agresión tampoco si no hay oponente,y la parálisis es menos probable si el sujeto nose encuentra cerca de una pared.

La variedad, por tanto, de estímulos aversivos es amplia pero, desde un punto de vistafuncional, podemos definirlos como aquellosque elicitan algún reflejo defensivo como losdescritos anteriormente (huida, parálisis, agre-sión, vómito, rechazo, alejamiento, retirada,etc.). Pero esta no es la única manera en la quela estimulación aversiva afecta a nuestra con-ducta. Si cruzamos un paso de cebra cuandoel semáforo para peatones está en rojo y un

automóvil pasa de improvisto cerca de nosotros haciendo sonar su claxonno sólo nos paralizamos (respues ta refleja) sino que las posibilidades de quevolvamos a cruzar en rojo (respuesta operante) en el futuro se reducen. Enlos ambientes más salvajes (menos civilizados) la probabilidad de apariciónde estímulos aversivos es mayor aún y, por tanto, es altamente adaptativoque el sujeto disponga de mecanismos de aprendizaje que reduzcan su ex- posición a éstos. Desde un punto de vista operante (y, de nuevo, funcional) ,consideraremos como estímulos aversivos aquellos que los organismosevitan o de los que escapan.

Los sonidos intensos, el olor a descomposición, la luz brillante, el dañofísico, son ejemplos de eventos que funcionan como estímulos aversivosde manera innata (en nuestra especie, al menos). En una contingenciaclásica se definirían como estímulos incondicionados aversivos (EI), enuna contingencia operante como consecuencias aversivas primarias. Tanto


350

Ejemplo

El color negro de laropa de nuestra profeso-

ra de piano puede corre-lacionar con su manerade reaccionar ante nues-tros errores: un golpecito con la batuta en losdedos. Que nuestra tasacardíaca se eleve antela mera presencia delcolor negro (como de siuna amenaza se tratase)

puede ser adaptat ivo, pero sólo para nosotros(ni todas las profesorasvan de negro ni todasusan ese método edu-cativo) y ni en todas lasocasiones (no todos losque visten de negro son

profesores) ni durantetoda nuestra vida (algu-na vez abandonaremos

sus clases).



reaccionar alejándose de ellos como evitar (o escapar de) las situaciones enlas que aparecen tienen un alto valor adaptativo. Pero no todas las presio-nes de supervivencia están tan generalizadas a lo largo del tiempo y de losdiferentes contextos. Puede que cierto evento correlacione con la presenc iade un El en según qué ambientes pero no en otros, o durante un tiempodeterminado y no en todas las ocasiones.

Este tipo de eventos se consideran estímulos aversivos secundarios, es-tímulos condicionados excitatorios aversivos en las contingencias pavlovianas, y consecuencias aversivas secundarias en las contingencias operantes.Son estímulos que han adquirido su función a lo largo de la ontogenia delindividuo a través de mecanismos de condicionamiento clásico, y su efectoestá sujeto a otros fenómenos de aprendizaje como la extinción o el con

tracondicionamien to, p or ejemplo.En este capítulo vamos a centrarnos en el efecto de la estimulación

aversiva (primaria o secundaria) en la conducta operante, por lo que abor-daremos los procedimientos de reforzamiento negativo y castigo. Además,se reflexionará sobre algunos aspectos relacionados con la supresión de laconducta operante, como ciertos efectos paradójicos o métodos alternati-vos al castigo, así como en la influencia de la estimulación aversiva en laconducta de elección. No obstante, antes se hace necesario repasar algunosconceptos básicos sobre el condicionamiento operante y su relación con la

estimulación aversiva.

1. ESTIMULACIÓN AVERSIVA EN EL CONDICIONAMIENTOOPERANTE

1.1. Procedimientos de condicionamiento operante

Como ya hemos visto, los procedimien tos de condicionam iento operante(o instrumental) pueden clasificarse en función de diferentes propiedades.La primera, y más evidente, propiedad a tener en cuenta es su efecto sobrela conducta. Cuando el procedimiento tiene como resultado un aumentode la probabilidad de emisión de la conducta se denomina reforzamiento,mientras que cuando reduce su probabilidad se denomina castigo.

Esta primera clasificación puede aumentarse atendiendo a propiedadesde tipo estructural, como son la relación de contingencia entre la respues-


351



ta y la consecuencia, y la naturaleza de dicha consecuencia (apetitiva oaversiva). Cuando la correlación (contingencia) respuestaconsecuencia esdirecta se le añade el término «positivo» mientras que cuando es inversa sele añade «negativo». Recordamos, de esta forma, los cuatro tipos de proce-dimientos:

— Entrenamiento de recompensa (o Refo rzamiento positivo): la respuesta y la consecuencia mantie nen una contingencia positiva, y lanaturaleza de la consecuencia es positiva (por ejemplo: El apetitivo,EC excitatorio apetitivo o EC inhibitorio aversivo). Es decir, la con-secuencia es la aparición de un reforzador tras la emisión de la res-

puesta. Tiene com o efecto un aumento de la probabilidad de emisiónde la conducta.

— Entrenamiento de evitación /escape (o Refo rzamiento negativo): con-tingencia respuestaconsecuencia negativa y naturaleza negativa dela consecuencia (por ejemplo: El aversivo, EC excitatorio aversivoo EC inhibitorio apetitivo). Por tanto, la consecuencia es la no apa-rición o retirada de una consecuencia aversiva tras la emisión de larespuesta. También tiene como efecto un aumento de la probabili-dad de emisión de la conducta.

— Castigo (o Castigo positivo): contingencia re spuesta consecuencia positiva y naturaleza negativa de la consecuencia. Es decir, la con-secuencia es la presentación de una consecuencia aversiva tras laemisión de la respuesta. Reduce la probabilidad de emisión de laoperante.

— Entrenamiento de omis ión (o Castigo nega-tivo): contingencia respuestaconsecuencianegativa y naturaleza positiva de la conse-cuencia. Es decir, la consecuencia es la noaparición o retirada de un reforzador tras la

emisión de la operante. Reduce su probabi-lidad de emisión en el futuro.

Esta distinción entre los diferentes proce-dimientos de condicionamiento operante nosiempre es tan sencilla en nuestro ambiente na


Ejemplo

Pedir perdón mien-tras nos están repren-diendo algún compor-tamiento anterior (y

terminar con la repri-menda) o salir a fumarcuando el trabajo nosagobia (o aburre), sonejemplos en los que se daun alto componente decontingencia de escape.

352



tural. Si, por ejemplo, en una calurosa tarde de julio encendemos el aparatode aire acondicionado, ¿estaríamos ante u n caso de reforzamiento negativo(el sujeto escapa del calor como estímulo aversivo) o positivo (reforzado

por la aparición del frío)? El calor desaparece con el frío, un gesto de en-fado con una sonrisa, la privación con la saciedad, etc. Hineline (1984),reflexionando sobre esta cuestión, defendió que no existía tal simetría entreel reforzamiento positivo y el negativo. Cuando un evento requiere de laemisión de una respuesta para su desaparición, ésta debe producirse en su

presencia . Sin em bargo, las re spuestas re forzadas posit ivamente tienen queemitirse necesariamente antes de la aparición del refuerzo. Catania (1973)tampoco considera tan difícil distinguir estos procedimientos en el labora-torio: si la respuesta tiene como consecuencia la retirada (o aplazamiento)de un estímulo y la tasa de respuesta aumenta, estamos ante un caso de

reforzamiento negativo.

Como el objetivo de este capítulo es abordar los efectos de la estimula-ción aversiva en la conducta operante y las variables de las que depende, enel siguiente apartado nos centraremos en la distinción (y en la relación quemantienen) entre el reforzamiento negativo y el castigo positivo.

1.2. Castigo, escape y evitación

Antes de describir los procedimientos más relevantes del reforzamientonegativo puede ser de utilidad recordar la distinción entre sus dos varian-tes: el entrenamiento de evitación y el de escape.

En un entrenamiento de escape la consecuencia aversiva está presentey no desaparece h asta la emisión de la conduc ta operante. La operante, portanto, es reforzada por la supresión del evento aversivo que estaba en curso.

Las preparaciones experimentales (de laboratorio) de escape incluyen

tanto respuestas locomotrices mediante las cuales el sujeto se desplazafuera del lugar donde se halla el estímulo aversivo, como respuestas mani pulativas que interrumpen la emis ión del es tímulo. Genera lmente la técnicade desplazamiento consiste en pasar de un compartimento a otro, en unacaja doble (o lanzadera), o correr a lo largo de un corredor entre una cajade salida y otra de meta. En el caso de la caja doble se electrifica el suelode uno de los com partimentos , y en el caso del laberinto recto, la salida y el


353



corredor, pero no la meta. Las respuestas de escape en la técnica manipulativa suelen consistir en accionar una palanca o picar una tecla.


Figura 1. Dibujo esquemático de una clásica caja lanzade ra o caja doble.

En un entrenamiento de evitación, sin embargo, el sujeto es expuestoa la presentación periódica de alguna consecuencia aversiva y la emisiónde la operante impide o retrasa su aparición. A diferencia de la anterior, laoperante no se emite mientras el estímulo aversivo se encuentra presentesino antes de que haya aparecido. Llamamos por teléfono para avisar deque llegaremos tarde a una cita o lavábamos los platos antes de que llegue

nuestro compañero de piso para evitar o reducir la consiguiente reprimen-da, estas conductas están muy influenciadas por contingencias anterioresde evitación. Existen diferentes variantes del procedimiento de evitación,en el siguiente apartado (punto 2, Conducta de evitación) describiremos lasmás relevantes.

Respecto al castigo, todos los procedimientos tienen el efecto de reducirla conducta a la que se aplica. Sin embargo, en el entrenamiento de omi-sión la conducta del sujeto no mantiene ninguna relación con la apariciónde estimulación aversiva. Por esta razón, siempre que se aluda al castigoen este capítulo es para referirse al castigo positivo, es decir, a los procedi-mientos en los que la emisión de la conducta vaya seguida de la apariciónde un estímulo aversivo.

Aunque parezca evidente, para poder aplicar un procedimiento de cas-tigo a una conducta es necesario que ésta se emita con cierto grado de pro-

babil idad, lo que determina su estudio en el labora torio. La mayoría de las

354



preparaciones experimentales empiezan conuna fase previa en la que se refuerza la emisiónde alguna conducta (presionar una palanca o picar una tecla, por ejemplo) para poder apli -carle castigo a la misma respuesta (a la vez quereforzamiento) en una fase posterior. El gradoen el que se ve suprimida dicha respuesta seconsidera un índice de la efectividad del casti-go. Como estímulos aversivos suelen utilizarseruidos fuertes o descargas, aunque la variedades muy amplia.

Como hemos visto, los procedimientos de

reforzamiento negativo y de castigo presentanciertas características en común pero también importantes diferencias. Me-diante el reforzamiento negativo aum entam os la probabilidad de la operan -te mientras que con el castigo la reducimos. Sin embargo, en ambos casosla conducta del sujeto es moldelada para reducir al máximo su exposicióna la estimulación aversiva, o lo que es lo mismo, mediante el aumento delos periodos de seguridad. Es por esta razón que en ciertos escritos se sue-le denominar «evitación activa» a la conducta reforzada negativamente y«evitación pasiva» a la castigada positivamente. Aquí no haremos uso de

estos términos.

1.3. Procedimientos de condicionamiento operante y estados emocionales

A lo largo de todo el manual hemos descrito fenómenos de aprendizajedistinguiéndolos como fruto del condicionamiento clásico (pavloviano) odel operante (instrumental). Sin embargo, el efecto elicitador de un EC (oun El) no desaparece cuando está funcionando como consecuencia en unacontingencia operante.

Por ejemplo, podemos reforzar una respuesta haciendo contingente suemisión con la aparición de un El apetitivo (o de un EC excitatorio ape-titivo). Si este procedimiento aumenta las probabilidades de emisión dedicha conducta podemos catalogarlo como un reforzamiento positivo (oentrenamiento de recompensa), y considerar que, por tanto, el El (o el EC)


355

Ejemplo

Si intentamos arre-glar una tubería rota y

anegamos la cocina (conla merecida reprimen-da de nuestra pareja),las posibilidades de quevolvamos a in tentar algo parecido se reducen. Siun niño se acerca a unenchufe y le regañamos

puede que consigamosque no vuelva a hacerlo.



ha funcionado como un reforzador. Pero la función que ha desempeñadoel El en este procedimiento no reemplaza ni su capacidad como elicitadorde respuestas incondicionadas ni su capacidad para condicionar otroseventos con los que m antenga una relación de contingencia y contigüidad.Si ante la orden «siéntate» reforzamos con comida la conducta de sentarsede nuestra mascota estamos convirtiendo la orden en un discriminativo po-sitivo para sentarse pero, además, el uso de la comida como consecuencia

provocará la salivación del sujeto y convert irá a los eventos antecedentes (la pro pia respuesta , la orden, y hasta a la persona que la emite) en est ímuloscondicionados excitatorios apetitivos. En definitiva, como observadores oanalistas podemos centrar nuestra atención en la función que desempe-ñan los eventos en el procedimiento de reforzamiento positivo, pero esosmismos eventos pueden (y de hecho lo hacen) estar cumpliendo otras fun-

ciones dentro de otro tipo de contingencias, como un condicionamientoclásico excitatorio apetitivo.


Tabla 1. Comparación de la función de ciertos eventos dentro de una contingencia pavloviana y dentro de una contingencia operante.

Ejemplo con perro

EventoPresencia del

entrenador

La orden «siéntate»

El perro se sienta

Comida Perro saliva

C. C. EC(exterocep.)

EC(exterocep.)

EC(propiocep.)

EC(exterocep.)

RI

C. 0. Ed Ed R Er

Pero, además de la RI específica (como la salivación provocada por lacomida), los estímulos elicitadores provocan en los sujetos estados emo-cionales, estados que pueden asociarse al resto de los eventos antecedentes(convirtiéndolos en ECs). Por regla general, suele considerarse que los El

apetitivos provocan alegría, mientras que los aversivos generan miedo. Elefecto emocional de los ECs excitatorios apetitivos suele etiquetarse como«esperanza», el de los excitatorios aversivos como «ansiedad», los inhibi-torios apetitivos generan estados etiquetados como «tristeza» y los inhi-

bitorios aversivos «alivio». Esta es la razón por la que la presencia de unentrenador que suele utilizar procedimientos de refuerzo positivo no sólofunciona como discriminativo para según qué conductas sino que además

356



elicita un estado emocional parecido a la alegría («esperanza» o «ilusión»).En otras palabras, los eventos presentes durante el refuerzo, incluidos losestímulos propioceptivos generados por nuestro comportamiento (que tam-

bién se convierten en ECs), nos hacen senti r bien, y por las mismas razones,no nos «gustan» los eventos presentes durante el castigo.


Tabla 2. Comparación de la función de ciertos eventos dentro de una contingencia pavloviana y dentro de una contingencia operante.

Ejemplo con humanos

EventoPresencia del

progenitor

El niño dice una palabrota

El progenitor reprende al niño

E1 niño se sobresalta

C. C.EC

(exterocep.)

EC

(propiocep.)

El

(exterocep.) RI

C. 0. EA R E r

Respecto a los procedimientos en los que vamos a centrarnos en estecapítulo, podríamos concluir que tanto los discriminativos positivos (pa-ra respuestas reforzadas negativamente) como las conductas de evitacióno escape generan estados de alivio en los sujetos, mientras que tanto los

estímulos delta (para respuestas castigadas) como las propias conductascastigadas producen estados de ansiedad. Pero, aún más importante, la presencia de un est ím ulo incondic ionado aversivo provoca miedo, y esta poderosa reacción es algo que hay que tener siempre en cuenta para pre de-cir el efecto del procedimiento que estamos usando.

El castigo (sobre todo el positivo) tiene efectos emocionales que inhi- ben la conducta apeti tiva y cualquie r operante en general. En un capítuloanterior hemos visto como el efecto paralizante producido por un estímu-lo excitatorio aversivo suele requerir de una medición indirecta para ser

identificado (a través de la razón de supresión). Estos efectos emocionales,sin embargo, no lo son todo en el castigo, ya que, si así fuera, la estimu-lación aversiva tendría los mismos efectos fuera o no contingente con lasrespuestas del sujeto. Se ha demostrado experimentalmente (Church, 1969)que, aunque la estimulación aversiva independiente de la respuesta pueda producir cie rta supresión de la conducta instrumenta l, se da una supresiónsignificativamente mayor de la conducta si la estimulación aversiva se pro-

357



duce por la ejecución de la respuesta in strumental. Se concluye, por tanto,que la estimulación aversiva producida por la respuesta es mucho más efi-caz para suprimir la conducta que la estimulación aversiva independientede la respuesta.

Existen diferentes teorías que intentan explicar el efecto en la conductade los procedimientos de castigo (algunas de ellas las veremos más ade-lante), pero en lo que concierne a este apartado es de especial relevanciala Teoría de la respuesta emocional condicionada. Esta teoría fue propuesta por Estes (1944) y se basa en las observaciones de Estes y Skinner(1941) del procedimiento de supresión condicionada. La idea básica es queun EC excitatorio aversivo provoca ciertas respuestas emocionales (comola paralización) por el hecho de estar emparejadas con una descarga. Esas

respuestas emocionales condicionadas son incompatibles con la respuestade presión de palanca (la rata no puede quedarse paralizada y al mismotiempo p resionar la palanca). Por tanto, la tasa de presión de la palanca sesuprime durante las presentaciones del EC. No obstante, a diferencia delexperimento de Supresión Condicionada, los procedimientos de castigo nosuelen incluir un EC explícito que señale la administración de la descarga.Estes sugirió que cumplen esta función los diversos estímulos (visuales,táctiles y propioceptivos) que el sujeto experimenta antes de dar la respues-ta castigada, como la visión de la palanca y/o de los discriminativos (luces,sonidos, etc.), la orientación del cuerpo o la postura antes de responder, etc.

2. CONDUCTA DE EVITACIÓN

Hasta aho ra hemos atendido los procedimientos de reforzamiento nega-tivo aborda ndo tanto la conducta de escape como la de evitación. No obstan-te, ésta última ha recibido mayor atención por parte de los investigadores,

principalm ente por dos razones: primero por el reto teórico que suponeexplicar la aparición y mantenimiento de una conducta que tiene comoconsecuencia la ausencia de un estímulo aversivo; segundo, porque amboscomportamientos pueden simplemente representar extremos de un continuoque sería el reforzam iento negativo (Hineline, 1977; Pierce y Cheney, 2008).

Aunque los primeros estudios sobre evitación se realizaron aproxima-damente hace 100 años, se necesitaron dos décadas más para reevaluar elfenómeno y analizarlo en un marco que no fuera exclusivo del condiciona


358



miento clásico. Siguiendo la línea de los trabajos de Pavlov, Bechterev (1913) llevó a caboun estudio con humanos en el que pretendíanasociar un estímulo neutro (futuro EC) a unadescarga (El). Los sujetos inicialmente levan-taban de forma refleja el dedo (RI) de la placametálica al recibir la descarga, pero después de

pocos ensayos empezaron a hacerlo (RC) tr as laaparición del estímulo designado como EC, norecibiendo la descarga programada. El experi-mento se consideró como un ejemplo de apren-dizaje asociativo hasta que algunos autores(Schlosberg, 1934; Brogden, Lipman y Culler,

1938) exploraron una característica del estudiode Bechterev que lo diferenciaba radicalmentede las preparaciones habituales de condicio-namiento clásico: que el El no aparezca si se

presenta la RC. Los procedim ientos usados en estos es tudios consist ían enreplicaciones del experimento original de Bechterev pero con animales nohumanos y, lo más importante, añadiendo un grupo control en el que el Else presentaba en todos los ensayos independientemente de la respuesta delsujeto. Los resultados m ostra ron que tanto la velocidad de adquisición como

el nivel de ejecución de la supuesta RC eran mucho mayores en el grupo experimenta l (en el que se podía evitar la descarga) que en el control. Esto de-mostró que estaban ante dos tipos de conductas diferentes y marcó el iniciode una línea de investigación (en el marco del condicionamiento operante)cuyos principales métodos y hallazgos se describirán a continuación.

2.1. Procedimientos de evitación

2.1.1. Evitación discriminadaLa evitación discriminada (o señalada) recibe este nombre debido a la

existencia de claves que señalan el acontecimiento aversivo, frecuentementeuna descarga. El prime r punto a tener en cuenta sobre la técnica de evitaciónseñalada es que utiliza ensayos discretos (con el consiguiente tiempo experi-mental e intervalo entre ensayos). Cada ensayo se inicia con la presentación


359

Ejemplo

Podemos encontrarejemplos de compor-

tamientos reforzados pr incipalmente a travésde este tipo de proce-dimientos cuando porejemplo buscamos unagasolinera si en nuestrocoche se activa el avisode «depósito en reserva»,o cuando cambiamos detema de conversación sinuestro interlocutor ha-ce algún gesto asociadoen el pasado con una

pelea/discusión.



de un evento neutro (que suele ser un tono o una luz) al que se le denomina«señal», aunque siguiendo una terminología operante la señal terminaráfuncionando como un discriminativo positivo. Los hechos que tienen lugardespués dependen de lo que haga el sujeto, existiendo dos posibilidades:

A) Si el sujeto no emite la respues ta requerida pa ra la evitación duran teel intervalo entre la señal y el El aversivo, se presenta el El programa-do y se mantiene hasta que la emite, después de lo cual tanto la señalcomo el El cesan. En este caso, la respuesta instrumental se conside-raría una forma de escape, ya que suprime la descarga eléctrica encurso. Y, por tanto, este tipo de ensayo se denomina ensayo de escape.

B) Si el sujeto emite la respuesta requerida, an tes de que se presente elEl aversivo, la señal cesa y se omite el El en ese ensayo. Este sí se

consideraría un ensayo de evitación con éxito.Durante los primeros estadios del entrenamiento, la mayoría de los

ensayos son ensayos de escape; mientras que con el desarrollo del entrena-miento empiezan a predominar los ensayos de evitación, y, por tanto, lasrespuestas de evitación.

Vemos, pues, que en un procedimiento de evitación discriminada, se ba-rajan tres elementos: la señal de aviso, la respuesta operante y la consecuen-cia aversiva. Es interesante estudiar las relaciones básicas de contingencia

que se producen entre ellos, así como la interdependencia de tales relaciones:a) Contingencia Respuesta-Señal de aviso. La emisión de la respuesta

operante conlleva la desaparición de la señal de aviso, lo que convier-te su relación en una contingencia de escape.

b) Contingencia Respuesta-Consecuencia. Aunque inicialmente se produ-ce una contingencia de escape (dar la respuesta implica hacer desapa-recer la descarga que está produciéndose), cuando el entrenamientoestá más avanzado la contingencia será de evitación (realizar a tiempola conducta aprop iada impide la llegada de la consecuencia aversiva).

c) Contingencia Señal de aviso-Consecuencia. La contingencia entreestos dos eventos ambientales también varía dependiendo (comohemos visto anteriormente) de la respuesta del sujeto. En los prime-ros momentos del procedimiento, antes de que el sujeto adquiera larespuesta de evitación, la señal de aviso y la consecuencia aversivaocurren conjuntam ente. Sin embargo, cuando el sujeto consigue evi


360



tar con su respuesta la descarga programada , hace que se rom pa estacontingencia, de manera que ahora aparece únicamente la señal deaviso, pero no la consecuencia. Esto implica que durante los ensayosde escape se produce un condicionamiento excitatorio aversivo entrela señal y la descarga, condicionamiento que se somete a extinciónen los ensayos de evitación, en los que la señal adquiere la función dediscriminativo positivo para la conducta de evitación.

Un efecto muy robusto que se ha encontrado en la adquisición de laconducta de evitación discriminada en situaciones de laboratorio es la ele-vada cantidad de ensayos que requiere. Mientras que las palomas y ratasadquie ren la conducta objetivo (picar en una tecla o presion ar una palanca, por ejemplo) en muy pocos ensayos cuando se aplica un pro cedim iento de

reforzamiento positivo, adqu irir la mism a respuesta como evitación de unadescarga es sensiblemente más lento (Solomon y Brush, 1956). Algunosautores (Meyer, Cho y Wessemann, 1960, por ejemplo) han explicado estadiferencia como el resultado de la interferencia de la conducta elicitada porla señal (la parálisis) en la emisión de la operante requerida. Sin embargo,otros autores apu ntan a que puede deberse a la especificidad de la conductade evitación/escape en función de la especie. Mientras que Macphail (1968)encontró que las palomas requerían aproximadamente de 120 ensayos pa-ra adquirir como respuesta de evitación de una descarga la carrera por un

corredor recto, Baum (1965) observó que las ratas sólo necesitaban dos otres ensayos si la respuesta requerida era saltar a una plataforma. Modaresi(1990) demostró que sólo elevando un poco la palanca operante y permi-tiendo saltar a la rata a u na p lataform a tras su respuesta, se reducía signifi-cativamente el número de ensayos necesarios para adquirir la conducta deevitación. En definitiva, todas estas investigaciones apuntan a que la elec-ción de la operante que se pretende reforza r determina el tiempo necesario para adquir ir la , cuánto más se asemeje a la respuesta elici tada específica dela especie mayor es la velocidad de aprendizaje.

Se han propuesto diferentes teorías para explicar el efecto que el entre-namiento de evitación discriminada tiene sobre los individuos. Aquí vamosa destacar la Teoría B ifactorial de Mowrer y la Hipótesis de Schoenfeld.

La primera y más influyente aproximación teórica al problema de laevitación discriminada fue propu esta p or Mow rer (1947) y estaba m otivada

por su preocupación acerca de la paradoja de que una conducta pudiera es-


361



tar reforzada por la ausencia de un evento. Su propuesta, denom inada Teo-ría Bifactorial, sostiene que en el aprendizaje de evitación están implicadosdos procesos interdependientes: el condicionamiento clásico de miedo alEC y el reforzamiento operante de la respuesta de evitación a través de lareducción del miedo. Este reforzamiento no es posible hasta que el miedose condiciona al EC. En definitiva, desde esta posición se explica la con-ducta de evitación en términos de escape del miedo condicionado, más queen términos de prevención de la descarga. Es decir, la operante se refuerza

por la reducción del «miedo» (o «ansiedad») generada por el EC (señal),y no por impedir la aparición del El (descarga). De esta forma, la TeoríaBifactorial predice una interacción constante entre los procesos clásico yoperante, con cambios cíclicos en las respuestas de evitación: 1) la señalse condiciona de forma excitatoria aversiva mientras el sujeto no emite la

respuesta de evitación (ya que aparece el El), 2) el sujeto emite la respuesta para escapar del miedo generado por el EC, im pidiendo la aparición del Ely provocando que la función del EC se extinga (al no aparecer el El), 3) unavez se extingue el EC deja de emit ir la respuesta, volviendo a presen tarse elEl (lo que nos lleva de nuevo al punto 1).

Sin embargo, el uso del miedo como una variable intermediaria en elaprendizaje de la evitación ha sido criticado por innecesario. Schoenfeld(1950) formuló otra teoría sobre la evitación discriminada en la que no

aparecía este concepto. Este autor propuso que la señal adquiere, por con-dicionamiento clásico, funciones de consecuencia aversiva secundaria ocondicionada. Los animales en la situación de evitación no pueden hu ir dela descarga porque no está presente; lo que emiten es una respuesta de escape refo rzada por la re tirada de la señal de aviso. Así, en realidad la evitaciónsería una situación de reforzamiento negativo secundario o condicionado.Aunque ambas teorías se basan en la interpretación de la conducta de evi-tación disc riminada como una form a de escape ante la señal, Schoenfeld noconsidera necesario aludir al efecto emocional en proceso.

2.1.2. Evitación no discriminada de operante libre de Sidman

En estos procedimientos la descarga se programa p ara que ocu rra perió-dicamente, sin aviso, (cada 10 segundos, por ejemplo). Se especifica comorespuesta de evitación una determinada conducta, y la aparición de esta


362



respuesta impide la administración durante u n período fijo (30 segundos, por ejemplo) de ladescarga programada. El resultado es que losindividuos aprenden a evitar las descargas auncuando no exista un estímulo de aviso.

En resumen, este procedimiento se constru-ye a partir de dos intervalos de tiempo:

— Intervalo EE, ErEr, o Reloj choquechoque: es el intervalo entre las descargas enausencia de una respuesta.

— Intervalo RE, REr, o Reloj re spues-

tachoque: que es el intervalo entre larespuesta y la descarga programada, esdecir, el período de seguridad.

El procedimiento, al contrario que en la evitación discriminada (querequiere de ensayos discretos), permite que las respuestas de evitación seden en cualquier momento, ya que, ocurran cuando ocurran, reinician elintervalo REI. Por esta razón se denomina a este tipo de evitación «deoperante libre». De la misma forma, los resultados obtenidos con el uso deestos procedimientos también presentan ciertas diferencias respecto a la

evitación discriminada:1. Implican generalmente períodos mucho más largos de entrenamien-

to que los experimentos de evitación discriminada.

2. Con frecuencia, aun después de un entrenamiento extenso, los ani-males no aprenden nunca a evitar todas las descargas.

3. Distintos sujetos a menudo se diferencian enormemente en la forma deresponder ante el mismo procedimiento de evitación de operante libre.

Entre las hipótesis explicativas del fenómeno de la evitación de operan-te libre vamos a destacar también dos. La primera de ellas es la Hipótesis Propioceptiva de Sidman (1953). Esta hipótesis sugiere que el papel de laseñal de aviso (no existente explícitamente en este tipo de procedimiento)lo ocupa la propia conducta del individuo. Todas las conductas que realizael sujeto en la situación experimental (excepto la respuesta instrumental)quedan asociadas a la aplicación de la descarga, con lo que en el futuro,


363

Ejemplo

Estamos controla-dos por procedimientos

de evitación de operan-te libre cuando guarda-mos periódicamente undocumento de texto enel que estamos traba-

jando (evitando perderlas modificaciones másrecientes por un fallo enel sistema), o cuando lla-mamos de vez en cuan-do a nuestra madre paraque no nos reproche quenunca lo hacemos.



cuando el sujeto las esté realizando, sufrirá una ansiedad comparable ala del sujeto al que, en un procedimiento de evitación discriminada, se le presentara la señal de aviso (luz, tono,...). La única manera que tendría deescapar de esa ansiedad es emitiendo la operante reforzada.

Una segunda posibilidad es la que propone Anger (1963) en su Hipóte-sis Interoceptivotemporal. Según este autor, en síntesis, sería el paso deltiempo (a través de la «interiorización» de los dos relojes, los dos intervalos)el que produciría la ansiedad que conduce al sujeto a responder.

De nuevo, ambas hipótesis se centran en el escape del EC excitatorioaversivo como explicación de la conducta de evitación, pero existe otrateoría que elude este concepto y señala al reforzamiento positivo comocausa de la respuesta observada, la Hipótesis de la Señal de Seguridad.

De acuerdo con esta teoría (Dinsmoor, 2001), los estímulos asociados a los periodos de seguridad provocados por la re spuesta de evitación (funda-mentalmente los que son resultado de la retroalimentación de desplazarsehacia una zona de la caja, saltar a una platafo rma o pulsar una palanca) seconvierten en estímulos condicionados inhibitorios aversivos por su contin-gencia negativa con la descarga. Por tanto, todos esos estímulos espacialesy propioceptivos que inevitablemente siguen a la respuesta de evitaciónacaban funcionando como un reforzador para ésta. Esta teoría ha recibi-do un considerable apoyo empírico. Por un lado, se ha comprobado que

aquellos estímulos que se han condicionado de forma inhibitoria aversivaa lo largo de un procedimiento de evitación funcionan de forma eficaz co-mo consecuencias apetitivas para otras conductas (Morris, 1975). Por otrolado, se ha demostrado que la inclusión de estímulos explícitos (como unaluz o un tono) que sigan a la emisión de la respuesta de evitación acelera suadquisición (Cándido, Maldonado y Vila, 1991, por ejemplo).

2.1.3. La evitación de descarga aleatoria de Herrnstein-Hineline

Puede mantenerse que la evitación de Sidman es realmente de tipodiscriminativo, ya que, aunque el experimentador no programe ningunaseñal de aviso, al presentar las descargas en intervalos temporales fijos losestímulos internos pueden adquirir esa función.

Un procedimiento más eficaz de evitación fue diseñado por RichardHerrnstein y Philip Hineline (1966). Los autores introdujeron a ratas en


364



una caja de Skinner que contaba con una palanca y dos máquinas dispen-sadoras de descargas (A y B) conectadas al suelo de rejilla metálica de lacaja (aunque sólo una a la vez). Las descargas de cada máquina eran in-tensas, breves y programadas en períodos de tiempo irregulares. La únicadiferencia entre ambas es que la máquina A las dispensaba según un ordenmás rápido que la B. En otras palabras, la frecuencia (número de choques

por unidad de tiempo) de las descargas producidas por A era mayor que las producidas por B. Al princip io se conectaba la maquina A, una presión dela palanca la desconectaba y conectaba la B, que se mantenía activa hastadispensar una descarga, entonces se volvía a conectar A. Es decir, en ausen-cia de respuesta de evitación operaba el programa de descargas frecuentesy ejecutar la operante tenía como consecuencia la suspensión de este pro-grama y la activación del de descargas poco frecuentes, que operaba hasta

la siguiente administración. Si no se volvía a ejecutar la respuesta, se poníaen funcionamiento el programa de descargas frecuentes.

La máquina A sería como un registro EE de Sidman, mientras que la Bsería como un registro RE, excepto que las descargas se dan a intervalos va-riables en ambos casos. En estas condiciones era posible que inmediatamen-te después de accionar la palanca, la máquina B produjese la descarga. Así, elapre tar la palanca no prevenía necesariamente del estímulo aversivo. Todo loque se podía hacer era cambiar las condiciones para decrecer la tasa total dedescargas (mantener una frecuencia baja de administración de descargas).

Los resultados obtenidos por estos autores mostraron un aumento de la probabilidad de emis ión de la presión de la p ala nca (conducta de evitación).

Herrnstein (1969) explicó el reforzamiento de la conducta de evitaciónno tanto como el resultado de omitir o retardar la presentación de la esti-mulación aversiva, sino como el debido a la reducción de su frecuencia to-tal o densidad, entendida ésta como u na contingencia mo lar negativa entrelas tasas de respuesta y de consecuencias aversivas.

2.2. Variables que afectan al reforzamiento negativo

En términos generales, cuanto mayor es la intensidad de la estimulaciónaversiva, mayor es la velocidad de adquisición de la conducta reforzada ne-gativamente. En el caso de la conducta de escape, la intensidad también de-


365



termina de la misma forma la rapidez con la que se emite. No obstante, hayque tener también en cuenta la familiaridad del sujeto con la estimulaciónaversiva. De la misma forma que la saciedad puede reducir la efectividad delreforzador, la habituación (en los El) y la extinción (en los EC) pueden tam- bién reducir la efectividad de las consecuencias aversivas, tanto para la ad-quisición de conductas (evitación/escape) como para su supresión (castigo).

Además de la intensidad de los estímulos aversivos, existen otros pará-metros que determinan el reforzamiento negativo, principalmente en los

procedim ientos de evitación libre y de descargas aleatorias .

En el procedimiento de evitación libre de Sidman la tasa de respuestasestá determinada por los intervalos EE y RE. Cuanto mayor es la fre-cuencia de las descargas en ausencia de respuestas (menor intervalo EE) y

mayores sean los períodos de seguridad (mayor intervalo RE), mayor serála probabilidad de que el animal a prenda la respuesta de evitación. Esta re-lación también se cumple teniendo en cuenta los valores relativos, es decir,además de su valor absoluto, el hecho de que el intervalo RE sea mayorque el EE también mejora la adquisición de la respuesta de evitación.

En la evitación de descarga aleatoria esta relación también se da, noobstante, hay que tener en cuenta que, dada la naturaleza del procedimien-to, la evitación no será nunca absoluta. Es más, algunas respuestas puedenir inmediatamente seguidas de descargas.

3. CASTIGO

Existen diferentes aproximaciones teóricas al estudio del castigo, aquívamos a centrarnos en tres. La primera empieza con el mismo Thorndike(1911). Este autor propuso que el reforzamiento positivo y el castigo impli-can procesos simétricamente opuestos, así como el reforzamiento positivofortalece la conducta, el castigo la debilita. Es decir, las consecuencias ne-gativas de una conducta debilitan la asociación entre dicha conducta y losestímulos presentes en la situación.

La segunda, ya comentada en un ap artado anterio r (1.3., Procedimientos de condicionamiento operante y estados emocionales), es la Teoría de la respuesta emocional condic ionada, propuesta de Estes (1944), así que no nosdetendremos de nuevo en ella.


366



La tercera y última aproximación que vamos a ver es la Teoría de las respuestas competitivas reforzadas negativamente (Dinsmoor, 1954).Esta teoría explica el castigo en términos de la adquisición de respuestasde evitación incompatibles con la respuesta castigada. La supresión dela conducta no se considera un reflejo del debilitamiento de la respuestacastigada, más bien, se explica en términos del fortalecimiento de aquellasrespuestas competitivas que evitan eficazmente la estimulación aversiva.

Independientemente de la explicación a la que uno se adhiera, los datosexperimentales recogidos (principalmente a partir de la década de 1960)han ayudado a definir los parámetros óptimos para el uso eficaz de este

procedim iento . En el siguien te apartado se destacan los más relevantes.


3.1. Variables que afectan al castigo

Recordemos que el procedimiento básicodel castigo positivo (llamado así por la con-tingencia positiva existente entre la conductay la consecuencia: si se da una, se da la otracon mayor probabilidad, y viceversa) consisteen presentar un estímulo aversivo contingente-

mente después de una respuesta específica. Elresultado esperable del procedimiento es la su- presión (reducción de su probabilidad de emi-sión) de la respuesta en cuestión. E igual que para re forzar una conducta ésta debe emitirse , para poder aplicar un procedim iento de castigosobre una determinada respuesta su apariciónen ausencia del castigo debe resultar probable.Esta es la visión más estándar del castigo, sin

embargo, de la misma forma que Premack(1959, 1962) demostró que el reforzamientono es absoluto sino relativo, más tarde exten-dió el mismo principio al castigo (Premack,1971). Más concretamente, si tras estableceruna jerarquía de preferencias, en función dela frecuencia en la ocurrencia de diferentes

Ejemplo

Podemos ver el efecto deestas variables de unamanera muy sencillautilizando la conductade conducir como ejem-

plo (es necesario enten-der la «multa» como

una forma de reforzadornegativo secundario, ECinhibitorio apetitivo):

Intensidad. Las infrac-ciones con más cuantíade multa suelen produ-cirse en menor gradoque las leves. Por ejem-

plo, aparc ar el coche en«zona azul» es más fre-

cuente que saltarse unsemáforo en rojo.

Inmedia tez. Las «mul-tas» impuestas poragentes de tráfico, máscercanas al momento dela infracción, suprimen

367



respuestas, hacemos contingente la emisión deuna conducta menos preferida con el acceso aotra más preferida, la primera es reforzada. Pe-ro si forzamos al sujeto a emitir una respuestatras la emisión de una más preferida, el efectoes el contrario: la que se emitió en primer lugarve reducida su probabilidad de emisión en elfuturo, es decir, es castigada.

No obstante, los estudios de laboratorio nor-malmente suelen ejercer un mayor control tantosobre la conducta que se va a suprimir comosobre la consecuencia punitiva. Así, como ya se

ha comentado con anterioridad, en lugar de apli-car castigo sobre alguna respuesta que el sujetoya emite con alguna probabilidad, los estudiossuelen comenzar con la adquisición de algunaoperante mediante reforzamiento positivo paraluego superponer una contingencia de castigo(que suele consistir en la presentación de al-gún estímulo aversivo, como una descarga). Lamayoría de la investigación sobre el castigo se

ha realizado siguiendo este esquema, lo que implica que: a) no parten de laconcepción relativista de Premack, b) los resultados son la suma del efecto delcastigo y del reforzamiento (ya que se aplican simultáneamente). A pesar deesto, los hallazgos encontrados ponen razonablemente de manifiesto las variables de las que depende la efectividad del castigo para suprimir la conducta.

A) Intensidad del estímulo aversivo. Al igual que ocurre con la magni-tud del reforzador en el entrenamiento de recompensa, cuanto másintensa sea la estimulación aversiva, más eficaz resultará para supri-mir las respuestas, de hecho, en las condiciones adecuadas, puede

hacerlo totalmente (Appel, 1961). Cuando esto pasa y la respuestase suprime por completo, puede darse un fenómeno paradójico: quela conducta reaparezca más tarde. Esto se debe a que tras la supre-sión repentina de la respuesta el sujeto deja de tener contacto conla consecuencia aversiva y, tras un tiempo, la emisión de la mismase realiza cuando la contingencia de castigo ya no está activa. Estareaparición de la respuesta suprimida (semejante a la Recupera


368

la conducta de una ma-nera más eficaz que lasnotificaciones que lle-gan meses después porcorreo postal. De hecho,si los radares enviasenlas notificaciones demanera instantánea porSMS, por ejemplo, lasinfracciones se reduci-rían más rápidamente yde manera más específi-ca. Este último aspectoes importante, ya que

en ocasiones, esta fal-ta de inmediatez lejosde reducir la probabili-dad de una conducta enconcreto (sobrepasar unlímite de velocidad, porejemplo) lo que generanes que la conducción seaansiógena.




ción Espontánea tras la Extinción) hahecho pensar a algunos autores, entreellos a Skinner (1953), que el castigono es un método eficaz para suprimir larespuesta, sin embargo, existen traba-

jos que demuestran lo contrario. Masserman (1946), por ejemplo, comprobócon gatos que las conductas suprimidascon castigo podían seguir sin aparecerincluso 20 meses después de aplicar el

procedim iento .

B) Inmediatez y demora del estímulo aver

sivo. Como en cualquier otro procedi-miento de condicionamiento (clásico uoperante), la alta contigüidad es un ele-mento favorecedor. Por tanto, el aumen-to del intervalo REr produce una menorsupresión de la conducta (Cohén, 1968).Algunos autores (Estes, 1944; Hunt y Brady, 1955), sin embargo, han encontradoque los resultados son muy parecidos

independientemente de si el castigo seaplica de manera demorada o inmedia-tamente tras la respuesta. Sin embargo,Azrin (1956) ha matizado estos datos.Según este autor, esto se debe a una ex-

posición a las contingencias demasiado breve. En uno de sus experimentos com- probó que si la sesión se extendía a unahora el efecto inicial de disrupción sobre

la operante generada por las reaccionesal estímulo aversivo (presen te tanto en elgrupo con demora como en el inmedia-to), se limitaba al castigo inmediato. Endefinitiva, que con el tiempo suficiente,el castigo demorado suprimía en menormedida la conducta.

Ejemplo

Graduación de la intensidad. El aumento progre-

sivo de la gravedad de lamulta por sobrepasar loslímites de alcohol pue-de haber contribuido acierta insensibilidad por

parte de los conducto-res a una pena que ac-tualmente es de enormeintensidad. Es probableque si se hubiese empe-zado por el nivel de in-

tensidad que se aplica eneste momento la supre-sión hubiese sido másgeneralizada y definitiva.

Experiencia previa. Aque-llos individuos que nohan sido expuesto du-rante bastante tiempo acastigo por conducir enmoto sin casco (por vivir

en una población muy pequeña, por ejemplo),tienen una historia de re-forzamiento tan extensa(aunque sea por refor-zamiento negativo al noevitar despeinarse) que

probablemente se mues-tren menos sensibles alas multas cuando cam-

bien de ambiente (al mu-

darse a una gran ciudad, por ejemplo).

Castigo discriminativo. Si solamente somosmultados al pasar pordeterminado radar o siestá presente un agente

369



C) Cambios graduales en la intensidad del estímulo aversivo. Un factor muy importantedel castigo es la forma en que se introducela consecuencia aversiva. Si, por ejemplo,se utiliza una descarga de alta intensidadcuando se comienza el procedimiento, laoperante se verá gravemente suprimida. Se

producirá mucha menos supresión de laconducta si se utiliza inicialmente un cas-tigo suave, y se va incrementando gradual-mente la intensidad de la descarga a lo largodel entrenamiento. Así, la exposición iniciala una suave estimulación aversiva que no

altera mucho la conducta reduce los efectosde un castigo intenso posterior (Azrin, Holzy Hake, 1963). Por el contrario, la exposi-ción inicial a una estimulación aversiva in-tensa aumenta los efectos supresores de uncastigo suave posterior (Miller, 1960).

D) Experiencia previa. Si la fase de re forza-miento previo fue muy larga y el volumen

de reforzamiento muy grande, los efectosdel castigo serán menores.

E) Efectos discriminativos del estímulo aversivo. Si la respuesta se castiga en presencia deun estímulo discriminativo, pero no cuandoel estímulo está ausente, a esto se le llamaCastigo Discriminativo (y al discriminativoestímulo delta o discriminativo negativo).Con una exposición continuada al discrimi-

nativo, los efectos supresores del castigo selimitan a la presencia de dicho estímulo.

F) Programa de castigo. Exactamente del mis-mo modo que el reforzamiento no tenía queadministrarse cada vez que se produjerala respuesta instrumental, el castigo puede


de tráfico (y nunca en suausencia), es muy pro-

bable que la infracciónsólo deje de cometersecuando está ese radar oagente delante.

Programa de castigo. Dejaremos de «sal-tarnos un STOP» másrápidamente si cada vezque lo hacemos somosmultados (RF1) que sisólo somos multados demedia una de cada cinco

veces (RV5). Refo rzamiento concurrente. Es más probable que las multas porexceso de velocidad ten-gan mayor efecto entreaquellos cuyo entornono admira ese tipo decomportamiento queentre aquellos que son

elogiados por correr conel vehículo.

Conducta alternativa reforzada. Las multas

por usar vehículos quecontaminan en excesoserían más eficaces si,

por ejemplo, se subven-cionase la compra devehículos ecológicos,

se hiciera más baratoy eficiente el trasporte público o se mejorase lainfraestructura para lacirculación de bicicletas.

Manipulaciones motivacionales. Más del 70% de

370



BLIOTECA

también administrarse intermitentemen-te. Así, el castigo puede suministrarsedespués de un número fijo de respuestas(Programa de Castigo de Razón Fija) ovariable (Programa de Castigo de RazónVariable), así como también puede pro-gramarse la aparición de la consecuen-cia aversiva tras la emisión de la primerarespuesta tras un intervalo de tiempo(Programa de Castigo de Intervalo, Fijoo Variable). En términos generales, los

progra mas de castigo continuos son másefectivos que los intermitentes (Zimmerman y Fester, 1963; Filby y

Apple, 1966).

G) Programa de reforzamiento compuesto. Toda técnica de castigo esuna técnica mixta, ya que castigar una conducta requiere que esaconducta haya sido reforzada o esté siendo reforzada a la vez. Así,

podemos encontrarnos estos tres casos:

— Castigo sobre líneasbase apetitivas: aquí actúan simultáneamen-te el castigo y el reforzam iento positivo sobre la misma respuesta.

— Castigo sobre líneasbase defensivas: concurren el castigo y elreforzamiento negativo (escape/evitación).

— Castigo sobre líneasbase de extinción: se castiga una respuestaque previamente ha sido reforzada, pero que en el momento deaplicar el castigo está siendo extinguida.

La eficacia del castigo se verá reduc ida por la eficacia relativadel procedimiento con el que esté compitiendo (en el caso del re-forzamiento positivo y negativo) o aumentada por la eficacia de

proceso de extinción de la misma conducta .

H) Existencia de una conducta alternativa reforzada. En muchos expe-rimentos, la respuesta castigada es también la única respuesta queel sujeto puede realizar para obtener un reforzamiento positivo. Ladisponibilidad de una fuente alternativa de reforzamiento aumentaenorm emente la supresión de las respuestas producida por el castigo(Hermán y Azrin, 1964).


los accidentes en tránsi-to al centro de trabajo(según datos del DGTdel 2012) se producendurante el trayecto deida. Es probable que laaplicación de multas

pa ra reducir las infrac-ciones tenga m enor efec-to cuando el sujeto estámuy motivado para lle-gar a tiempo al destino.

371368/392




progra mas de castigo continuos son másefectivos que los intermitentes (Zimmerman y Fester, 1963; Filby y

Apple, 1966).



— Castigo sobre líneasbase apetitivas: aquí actúan simultáneamen-te el castigo y el reforzam iento positivo sobre la misma respuesta.




proceso de extinción de la misma conducta .

H) Existencia de una conducta alternativa reforzada. En muchos expe-rimentos, la respuesta castigada es también la única respuesta queel sujeto puede realizar para obtener un reforzamiento positivo. Ladisponibilidad de una fuente alternativa de reforzamiento aumentaenorm emente la supresión de las respuestas producida por el castigo(Hermán y Azrin, 1964).


371






programas de castigo continuos son másefectivos que los intermitentes (Zimmerman y Fester, 1963; Filby y

Apple, 1966).



— Castigo sobre líneasbase apetitivas: aquí actúan simultáneamen-te el castigo y el reforzamiento positivo sobre la misma respuesta.




proceso de ex tinción de la misma conducta .

H) Existencia de una conducta alternativa reforzada. En muchos expe-rimentos, la respuesta castigada es también la única respuesta queel sujeto puede realizar para obtener un reforzamiento positivo. Ladisponibilidad de una fuente alternativa de reforzamiento aumentaenorm eme nte la supresión de las respuestas producida por el castigo(Hermán y Azrin, 1964).


371







cativos e incluso las reglas sociales están diseñadas prestando un especialcuidado a la ética, eficacia y proporcionalidad de los castigos programados.Sin embargo, su estudio no interesó de la misma forma a los investigadores,o, al menos, no desde el principio. Los primeros trabajos experimentalessobre el castigo (Thorndike, 1932; Skinner, 1938; Estes, 1944) concluyeronque su capacidad para modelar la conducta no sólo era muy reducida sinotambién poco estable en el tiempo. Tuvieron que pasar m ás de treinta añosdesde esas primeras afirmaciones para que otros trabajos experimentalesdefendieran lo contrario (Church, 1963; Solomon, 1964; Azrin y Holz, 1966,

por ejemplo). Desde entonces, la investigac ión sobre el castigo ha demos-trado que con los parámetros adecuados la conducta puede ser suprimidade manera absoluta y en muy pocos ensayos, pero también que si no secontrolan estos parámetros la supresión puede no ser total y/o reaparecer

la conducta en el futuro.

En definitiva, el uso del castigo conlleva ventajas y desventajas que hayque valorar antes de su puesta en práctica como técnica para la supresiónde la conducta. Por un lado, provoca una reducción de la conducta a cortoy largo plazo, pero, sobre todo, con un alto grado de inmediatez. Además,esta reducción demuestra una alta resistencia a un posterior recondi-cionamiento, en otras palabras, el recondicionamiento de una conductaeliminada mediante el castigo es mucho más lento y difícil que el condi-

cionamiento de esa misma conducta si no ha sido anteriormente castigada.Pero, por otro lado, genera una serie de efectos colaterales que pueden noser deseables, tales como ansiedad, agresión, neurosis o una redistribuciónno prevista de la conducta del sujeto (aumentando la tasa de ciertos com-

portamientos y bajando la de otros, que no han sido sometidos al castigo).Vamos a abordar algunos de estos efectos más detenidamente.

Como vimos al principio del capítulo, aquellos eventos que correlacio-nan con la presentación de estimulación aversiva pueden condicionarsede forma clásica, convirtiéndose en estímulos condicionados excitatorios

aversivos. En una contingencia operante los eventos antecedentes quemantienen una contingencia positiva con el castigo de una conducta seconvierten en estímulos discriminativos para esa conducta, pero tambiénen ECs excitatorios aversivos, cuyo efecto es elicitar un reflejo al que sueledenominarse ansiedad. Por tanto, cuando aplicamos algún procedimientode castigo, la intensidad del estímulo aversivo determina la efectividad del procedimiento pero también aumenta las probabil idades de que el contexto


373



ambiental en el que se está aplicando adquiera la capacidad de provocaransiedad en el sujeto. Este ambiente, susceptible de convertirse en ansiógeno, puede ser muy amplio y desconocido para el experimentador/educador/terapeuta, abarcando tanto al lugar dónde se está aplicando el castigo (o aelementos del mismo), como al propio agente que lo aplica, como a estímu-los propioceptivos o interoceptivos generados por el propio sujeto. A estacantidad y diversidad de eventos condicionables hay que añadir la posibi-lidad de que el efecto se extienda a otros estímulos que nunca estuvieron presentes, a través de fenómenos de generalización . El resultado es que conel uso extendido del castigo, sobre todo cuando se utilizan consecuencias demagnitudes elevadas, se corre un riesgo considerable de ampliar los estím u-los generadores de ansiedad para el sujeto, con el consiguiente desarrollode trastornos del comportamiento.

La presencia de eventos ansiógenos suele disminuir la tasa general derespuesta operante, provocando que ciertas conductas, que en ausencia deestos estímulos se emitirían con una alta probabilidad, no aparezcan. Elefecto del castigo, por tanto, no se limita a la disminución de la conduc-ta objetivo sino que puede afectar al comportamiento general del sujeto.Pero esta redistribución «no deseada» del comportamiento no se produceexclusivamente mediante la supresión del comportamiento sino tambiéncon el aumento de la tasa de otras conductas. Aunque se abordará más

adelante con más detalle, en términos generales, cuando un sujeto emiteuna conducta es porque dicha conducta ha sido sometida en el pasado(en un contexto parecido) a algún procedimiento de refuerzo. Cuando esterefuerzo ha sido positivo, que es el caso más frecuente, la probabilidad deemisión de esa conducta depende, entre otras variables, del nivel de sacie-dad o privación respecto al reforzador (comida, afecto, atención, dinero,etc.). Podemos, efectivamente, suprimir dicha conducta mediante castigo,

pero de esa fo rm a no alteramos una importante variab le causal: su mo-tivación (privación/saciedad). En estos casos es altamente probable que

aparezcan otras respuestas (ya existentes en el repertorio del sujeto o frutode la variación conductual) y que éstas sean reforzadas por la consecuenciaque reduce el estado de privación. Por ejemplo, podemos suprimir que unniño nos interrumpa (conducta reforzada por nuestra atención) mientrashablamos con otro adulto mediante castigo pero puede que se fortalezcanotras respuestas como agredir a su hermano pequeño o subirse a un lugar

pe ligroso (conductas que también están refo rzadas por nuestra atención).


374



El último de los «efectos colaterales» del castigo que vamos a co-mentar es la conducta agresiva que suele generar. Como hemos visto, la propia presentación de estim ulación aversiva (en función del contexto ,la intensidad, la especie, etc.) puede generar agresión como respuestarefleja, lo que suele denominarse como agresión elicitada. Cuando sesitúa a dos organismos juntos y se les aplica estimulación aversiva sue-len atacarse entre ellos, fenómeno que se ha encontrado en multitud deespecies (Ulrich y Azrin, 1962), incluida la humana (Azrin, Hutchinsony Hake, 1963). Pero ese tipo de agresión no es el único que puede darsecuando aplicamos procedimientos de castigo, la agresión también pue-de ser operante. Cuando la presencia de un organismo (el domador, eladiestrador, o el educador, p or ejemplo) correlaciona con la presentac iónde estimulación aversiva, la agresión dirigida hacia ese organismo puede

verse reforzada como conducta de escape/evitación si llega a suprimirdicha estimulación.

En el siguiente apartado veremos otros efectos «no deseados» que pue-den derivarse del uso del castigo.


3.3. Fenó men os paradójicos en el castigo

En ocasiones los organismos parecen ir buscando el castigo, o lo que eslo mismo (eliminando el carácter teleológico de la frase), la presentaciónde estímulos aversivos tras la emisión de la operante lejos de reducir su

probabilidad de emis ión la aumenta . Aunque, por motivos de parsimoniao simplemente didácticos, solemos centrarnos en pocas variables para expl icar un comportamiento, la realidad es mult ifacto rial y, sobre todo, no sedivide en ensayos. Hemos visto como la función elicitadora de los estímulostambién afecta a las contingencias operantes, pero, además, el condiciona-miento no tiene porqué empezar con la aparición del estímulo discrimina-

tivo en el que estamos centrando nuestra atención (como observadores) nitermina r con el reforzador que hemos program ado (como experimentadoro docente). Las relaciones de contingencia y contigüidad son mucho máslábiles y afectan a muchos más eventos de los que un análisis superficialsuele tener en cuenta. En este apartado vamos a analizar cómo una situa-ción en la que aparentemente se está castigando una conducta tiene unefecto comple tamen te diferente al esperado.

375



3.3.1. La conducta masoquista

El discriminativo negativo (o estímulo delta) asociado al castigo estámuy relacionado con algunas situaciones en las que éste no es eficaz para

suprim ir la conducta. La búsqueda del castigo puede aparec er en una situa-ción en la que el reforzamiento positivo sólo está disponible cuando se cas-tiga la operante. En tales circunstancias, el castigo puede convertirse en unaseñal, o estímulo discriminativo, para la disponibilidad del reforzamiento

positivo. Por ejemplo, un niño hace algo «malo», recibe una reprimenda yacto seguido se le dan muestras de cariño del progenitor arrepentido. Si la

privación de «cariño» es elevada, aunque se presente est im ulación aversivacontingentemente a la conducta el resultado es un aumento de la tasa, enlugar de una reducción.

Otra forma de adquirir esta conducta masoquista es mediante el con-tracondicionamiento de la consecuencia aversiva. Si condicionamos un

estímulo (un EC o un El) asociándolo a otrocon un efecto inverso pero más fuerte podemoscambiar el tipo de respuesta elicitada por dichoestímulo y, por tanto, su función cómo refor-zador o consecuencia aversiva. Por ejemplo,

podemos empezar empare jando descargas de poca in tensidad (El aversivo que puede funcio-nar como consecuencia aversiva) con muchacomida (El apetitivo de mayor intensidad), parair paulatinamente aumentando las descargasy disminuyendo la comida. De esta manera, ladescarga term inará adquiriendo propiedades deEC excitatorio apetitivo, lo que le convertirá enun reforzador para las conductas operantes, y su presentación contingente funcionará como re -forzamiento positivo en lugar de como castigo.

3.3.2. Círculo vicioso

En el caso de la conducta masoqu ista estabaimplicado el reforzamiento positivo, pero po-demos enc ontrar fenómenos muy parecidos en


Ejemplo

Un niño puede escaparde la reprimenda desu profesor corriendo.De esta manera, la re-

prim enda (que podr ía

considerarse de manerageneral como un reforza-dor negativo secundario)funciona como un Ed+

pa ra la conducta de co-rrer, ya que correlacionacon el reforzamiento ne-gativo de dicha conduc-ta. Esto puede derivaren que la reprimenda del

profesor pierda eficacia para funcionar como Er-en un procedimiento decastigo positivo. En defi-nitiva, que el «¡no corrasque es peor!» lejos dedetener al niño le animea correr más rápido.

376



conductas reforzadas negativamente (escape/evitación). Cuando se entrenauna conduc ta de escape (por ejemplo saltar al otro com partim ento de lacaja lanzadera) ante un evento aversivo (una descarga, por ejemplo), el propio evento adquiere funciones discriminativas positivas para esa conducta .Es decir, una vez se ha adquirido la conducta de escape, la presencia delestímulo aversivo aumenta las probabilidades de emisión de dicha conduc-ta. Esto implica que el uso de dicho estímulo como consecuencia aversiva

para esa conducta (en un procedim iento de castigo) no tendrá com o efectola supresión de la respuesta sino todo lo contrario. A este fenómeno, efectode utilizar un discriminativo positivo como consecuencia aversiva para lamisma conducta, se le denomina círculo vicioso.

3.4. Otras estrategias de supresión de la conducta

Aunque el presente manual tiene como objetivo abordar fenómenos bá-sicos, y otras asignaturas se encargarán de profundizar mucho más en latecnología que de ellos se desprende, nos gustaría aprovechar el final de estecapítulo para señalar algunos fenómenos relacionados con la supresión dela conducta ope rante que no requieren del uso del castigo, eludiendo de estaforma los posibles «efectos colaterales» descritos en los apartados anteriores.

3.4.1. Entrenamiento de omisión

El entrenamiento de omisión consiste en establecer una contingencianegativa entre una determinada respuesta y la administración de un refor-zador. En términos probabilísticos diríamos que la probabilidad de que se

presente un re forz ador es menor si el sujeto emite la re spuesta que si no laemite. Así, la forma que tiene el sujeto de conseguir el reforzador es omi-tiendo (no dando) la respuesta, ya que si la emite no se presenta el refor-zador que habría aparecido si no hubiera respondido. Este procedimiento,como ya sabemos, resulta en una disminución de la tasa de respuesta.

Al igual que podíamos establecer un paralelismo en tre los procedimientosde reforzamiento positivo y de castigo positivo: en ambos la contingenciaes positiva y en ambos podíamos utilizar programas de razón, de intervalo,etc. También podemos observar cierta similitud entre el Entrenamiento deOmisión y la Evitación de Sidman: en ambos el signo de la contingencia es


377




negativo y en ambos puede hablarse de intervalos consecuencia consecuen-cia (entre consecuencias) y respuestaconsecuencia. El intervalo consecuenciaconsecuencia (al que también nos hemos referido como EE) nos indicala frecuencia con la que se van a presenta r las consecuencias cuando el sujetono emite la respuesta. Por contra, el intervalo respuestaconsecuencia nosindica el tiempo que va a transcu rrir entre que el sujeto emite la respuesta yel retraso añadido en la presentación de la próxima consecuencia. En estos

procedim iento no se despliegan señales de aviso y la respuesta, se emita enel momento en que se emita, retrasa la aparición del reforzador.

Las variables que determinan la eficacia reductora del entrenamientode omisión, por tanto, también son muy parecidas a las que determinanla capacidad para instaurar una conducta mediante un entrenamiento de

evitación. Para que se produzca aprendizaje en los procedimientos de en-trenam iento de omisión, es decir, pa ra que desaparezca la respuesta con laque estamos trabajando, los intervalos de presentación de la consecuenciaen ausencia de respuestas (intervalos EE) deben ser de menor duraciónque los de entrega de la consecuencia tras la respuesta del sujeto (intervalosRE). Otro factor a tener en cuenta para una mayor eficacia del procedi-miento es el ajuste paramétrico en función de la ejecución. Con esto nosreferimos a que se debe empezar por valores pequeños del intervalo RE, para , paulatinamente y teniendo en cuenta la ejecución del sujeto, ir au-

mentado el criterio de pausa.El entrenamiento de omisión tiene como efecto inmediato sobre la tasa

de conducta un mantenimiento residual de la respuesta. Se sigue obser-vando durante un plazo de tiempo relativamente corto una tasa pequeñade respuestas motivadas por la presencia del propio reforzador. Cuandoal sujeto se le presenta el reforzador debido a que no ha dado la respuestacastigada negativamente (entrenamiento de omisión), el sujeto comienzade nuevo a responder. Sin embargo, esta tasa residual acaba por desapare-cer a largo plazo, dando lugar a la total eliminación de la conducta y a una

extrema resistencia al recondicionamiento.

3.4.2. Modificación de la fuerza de conductas alternativas

Cuando analizam os los fenómenos básicos de conducta solemos centra rnuestra atención en una sola respuesta objetivo, reforzamos pulsar una te

378



cía, desplazarnos a otra instancia de la caja o decir una palabra concreta.Pero desde un punto de vista estricto, cualquier comportamiento (por muy

básica o «simple» que sea la si tuación) es una conducta de elección: elegi-mos pulsar o no pulsar, movernos o quedarnos quietos, decir la palabra oquedarnos callados. Siempre estamos eligiendo, siempre hay alguna alter-nativa de comportamiento posible, incluso en las situaciones que solemosetiquetar como «forzadas».

Cuando estudiamos la conducta de elección lo hicimos analizando larespuesta de los sujetos expuestos a programas concurrentes, en los que elexperim entado r disponía de un mayor control de las variables que determi-naban cada programa (componente). Pero incluso un programa simple derazón fija puede interpretarse como un programa concurrente en el que la

respuesta de pulsar la tecla es reforzada positivamente por la presentaciónde comida, y la de no pulsar es reforzada negativamente por la evitacióndel «esfuerzo». Sabemos que el aumento de la razón (número de respuestasrequerido para la aparición del reforzador) tiene como efecto (evidente,

por otra parte) el aumento de la tasa de respuesta, pero que hay un límite a partir del cual el sujeto deja de re sponder, es decir, se suprim e la operante .Este hecho podría interpretarse como un aumento del reforzamiento nega-tivo de la conducta alternativa (no pulsar), ya que hemos incrementado elnivel de esfuerzo, el valor de la consecuencia aversiva del otro componente.

Este razonamiento puede extenderse a cualquier situación, permitién-donos la supresión (o, al menos, la reducción de la tasa) de una conductamediante la manipulación de variables relacionadas con su competitividadrespecto a otras respuestas disponibles. Recordando lo que vimos sobre lacondu cta de elección, podem os m anip ular desde el intervalo REr (demoradel reforzamiento) de las alternativas, variables relacionadas con la con-secuencia como la intensidad, la calidad o la cantidad. En definitiva, cual-quier modificación que convierta a la alternativa en más atractiva reducirála probabilidad de emisión de la conducta objetivo.

Otra forma de suprimir una determinada condticta relacionada con loanterior es fortaleciendo alguna respuesta cuya emisión sea incompatiblecon la anterior. Existen respuestas que son topográficamente contrarias,no se puede subir y bajar al mismo tiempo, hablar en un volumen bajo ygritando, correr e ir despacio. Si reforzamos una conduc ta (R l) que no pue -de emitirse a la vez que otra (R2) inevitablemente reduciremos la tasa de


379





cia de estímulos incondicionados, los estímulos condicionados causan losreflejos condicionados, y la emisión de las conductas operantes dependendel estado motivacional (grado de privación asociado con el reforzador),historia de reforzamiento y castigo del sujeto y de la estimulación presente(discriminativos positivos y negativos) en ese momento, todos eventos an-teriores a la propia emisión de la respuesta.

Que una determinada operante se emita a una tasa alta se debe, al me-nos, a la interacción de estas variables. Y, por tanto, la manipulación decada una de ellas por separado puede reducir por sí misma la fuerza (probabil idad de emisión) de dicha operante .

La motivación es un constructo que suele referirse, en términos gene-rales, a la fuerza de una determinada conducta. No obstante, sabemos que

esa «fuerza» depende de múltiples variables (las principales las hemos co-mentado más arriba). Consideramos que una persona está motivada a ir ala playa cuando las probabilidades de que lo haga son muy altas, tambiénsuele utilizarse al revés: «ir a la playa le motiva mucho» o «lleva tanto tiem-

po sin ir a la playa que seguro que tiene muchas ganas (está muy motivadoa ir)». La motivación suele operativizarse principalmente atendiendo o bienal grado de privación/saciedad respecto al reforzador, o bien al valor del propio reforzador. Evidentemente , en si tuaciones de re fo rzamiento negati-vo o de castigo, el concepto de motivación está relacionado casi exclusiva-

mente con el valor del estímulo aversivo (intensidad, grado de habituación,etc.).

Retomando el título del apartado, es posible suprimir una conductasin aplicar el castigo mediante la manipulación de variables relacionadascon la motivación. Como adelantábamos al principio, si una conducta seemite es porque ha sido reforzada y si conseguimos identificar el eventoresponsable de su mantenimiento podemos saciar al sujeto respecto a esereforzador, reduciendo así su emisión. Por ejemplo, si en una caja de Skin-ner reforzamos a una paloma con comida cada vez que pica una tecla roja,la tasa de respuesta de la paloma aumentará. Podemos reducir dicha tasasimplemente dejando acceso libre a la paloma a la comida, de forma quecuando la introduzcamos en la caja de Skinner esté saciada de comida.

Pero, ¿cómo saciamos a un sujeto cuan do el reforzador no es primario?Como ya sabemos, un reforzador puede etiquetarse como primario (El) osecundario (EC) en función de si sus propiedades reforzantes requieren o


381



no de aprendizaje por parte del sujeto. Si una conducta está siendo man-tenida por reforzamiento secundario podemos reducir su tasa de emisiónsaciando al sujeto respecto al reforzador primario del que depende el se-cundario. En otras palabras, una sobreexposición al El con el que se condi-cionó el EC reduce la capacidad reforzante del EC.

También podemos reducir la tasa de una operante mantenida con unreforzador primario devaluando dicho reforzador. El procedimiento esmuy sencillo, si asociamos de forma pavloviana un reforzador primario(El, comida, por ejemplo) con otro estímulo de signo contrario (aversivo),

provocaremos un descenso en la probabil idad de emis ión de las conductasreforzadas con dicho estímulo.

La capacidad reforzante de un reforzador secundario también puedeanula rse (y, por tanto, reducir la tasa de la respuesta en la que influye) a tra -vés de otros métodos: la extinción y el contracondicionamiento. El reforza-dor secundario, como cualquier otro EC, es susceptible de perder su capaci-dad elicitadora (y su capacidad reforzante) si se le presenta suficientementeal sujeto sin ir empare jado con el El (o EC, sin el condic ionamiento originalfue de segundo orden). De la misma forma, podemos cambiar el signo deun reforzador secundario sometiéndole a contracondicionamiento, de posi-tivo a negativo. Aunque este último caso implicaría la utilización de estimu-lación aversiva, tanto en el contracondicionamiento del reforzador comoen el posterior condicionamiento de la operante, ya que el procedimiento

pasaría de considera rse un re fo rzamiento positivo a un castigo.

La saciedad y la extinción del reforzador pueden resultar muy útilescon reforzadores secundarios «simples», sin embargo, muchas conductasson mantenidas con reforzadores secundarios generalizados, y en estoscasos dichos procedimientos no son igual de efectivos. Consideramos a unreforzador secundario como generalizado cuando se ha condicionado condiferentes reforzadores (primarios y/o secundarios). Dos de los ejemplos

más claros son el dinero y la atención (de otros individuos). El dinero esun estímulo emparejado con multitud de reforzadores primarios (comida,agua, etc.), secundarios (ropa, transporte, etc.) e incluso otros secundariosgeneralizados (seguridad, estatus, poder, etc.). La atención desde edadesmuy tempranas suele asociarse a la comida, el contacto, la protección, etc.El efecto de estos reforzadores generalizados sobre la conducta no dependede una única privación ni de su contingencia con un solo evento, lo que


382



les convierte en muy resistentes a la saciedad y a la extinción. En otras palabras, aunque de repente estemos comple tamente saciados de comida(o de poder, o de ropa) el dinero va a seguir estando relacionado con otroseventos reforzantes, aunque de pronto todo el transporte sea gratis (y se ex-tinga la relación que mantiene con el dinero) el dinero seguirá mantenien docierta contingencia con otros reforzadores. En definitiva, la sensibilidad ala saciedad y a la extinción de la conductas mantenidas por reforzadoressecundarios generalizados es prácticamente nula.

Una estrategia con la que sí podemos d isminuir la tasa de una operantesin la presentación de estimulación aversiva (independientemente de queel reforzador sea primario, secundario o generalizado) es con la reducciónde la intensidad del reforzador. Cuando se presentan reforzadores menos

intensos que los que se han utilizado en el pasado para mantener la mismaconducta, se produce un descenso de la tasa de respuesta, aunque esté sien-do sometida a reforzamiento positivo. Como se ha explicado en capítulosanteriores, a este fenómeno se le denom ina «contraste conduc tual negativo».

4. PROGRAMAS CONCURRENTES Y ESTIMULACIÓN AVERSIVA

Aunque el estudio del efecto de los diferentes programas sobre los pa-trones de conducta se ha centrado mayoritariamente en el reforzamiento positivo, hemos comentado en este capítulo algunos hallazgos respecto alos programas de castigo. En este apartado se describirán las principalescaracterísticas de la conducta generada por programas concurrentes (doso más programas simples diferentes disponibles a la vez) que involucranestimulación aversiva.

4.1. Conducta de elección

La investigación de laboratorio sobre la denominada conducta de elec-ción se ha llevado a cabo principalmente mediante el análisis del compor-tamiento de los sujetos ante programas de reforzamiento concurrentes.

Desde los primeros trabajos en esta línea (Herrnstein, 1961) se com- probó que la elección de los sujetos, medida como la local ización de susrespuestas en una u otra opción, eran función de la frecuencia relativa de


383



reforzamiento de cada una de las alternativas disponibles. Los resultadosde estos experimentos llevaron a definir la denominada Ley de Igualación(Herrnstein, 1970): (B,/B2) = (r,/r2), donde 1 se refiere a una de las al terna-tivas y 2 al sumatorio, B son las elecciones, y r el valor del reforzador (fre-cuencia, principalmente, aunque también puede ser magnitud o calidad).

Esta relación entre la frecuencia de reforzamiento positivo y la elecciónde los sujetos obtuvo inmediatamente un alto apoyo empírico (Catania,1963; Stubbs y Pliskoff, 1969; Schneider, 1973; por ejemplo), pero tambiénempezó a comprobarse la validez de dicha ley con otros tipos de procedi-mientos.

4.1.1. Elección y reforza miento negativo

Baum (1973) comprobó cómo se ajustaba la Ley de Igualación a la con-ducta controlada por escape, usando descargas como evento aversivo y eltiempo de estancia en una localización de la caja como conducta de elec-ción. El experimento consistió en refo rzar con 2' de tiempo fuera y la desac-tivación de una descarga de 7mA a 4 palomas por situarse en el punto A oen el B de la caja. Cada punto aplicaba el reforzamiento bajo un programaIV diferente que fue variándose: 0.5’8’, 0.5'4', l'2', 2’-2’, 4'2', 8'2', 81', 8’0.5'. El ajuste de la elección de los sujetos a la frecuencia de reforzamientode cada alternativa fue aumentando a lo largo del experimento, siendo losdatos de las últimas cuatro semanas los más útiles para comparar los re-sultados con los de experimentos anteriores con reforzamiento positivo. Secomprobó que la reducción de la tasa de refuerzo negativo funcionaba dela misma forma que la reducción de reforzamiento positivo. No obstante,esta conclusión sólo es apoyada por dos de las cuatro palomas, ya que elresto mostraron elecciones contrarias consideradas por los autores comoaberrantes.

Hutton, Gardner y Lewis (1978) entre naron a tres palomas a respondera dos teclas mediante reforzamiento positivo, para después man tene r esarespuesta en un prog ram a concurrente, primero sin y luego con periodos dedescarga. La fase experimental empezó con un programa concurrente IV1’IV1' de 1 minuto sin descarga como reforzador, y luego continuó a través de8 condiciones en las que se variaba la frecuencia de reforzamiento de cadaalternativa (0.33, 0.11, 0.33, 1.00, 3.00, 9.00, 3.00). Los resultados mostra-


384



ron un importante ajuste a la Ley de Igualación en función de la frecuenciarelativa de reforzamiento negativo de cada alternativa. Aunque este ajusteno fue perfecto, al igual que en ciertas preparaciones con reforzamiento positivo (Myers y Myers, 1977), ya que se observó cierta infraigualación, probablemente por la baja disc riminabil idad entre pequeñas diferencias enlas frecuencias.

La replicación de estos resultados con ratas conlleva una problemáticaañadida para conseguir que el sujeto emita alguna operante mientras esexpuesto a la descarga, ya que la respuesta típica de esta especie frente aeste tipo de estímulos es la parálisis. Logue y De Villiers (1978) empeza-ron su experimento entrenando a tres ratas para responder a dos palancasmediante varios programas de reforzamiento positivo concurrente IVIV.

Tras esto incluyeron la presentación de descargas durante el intervalo (enel programa de reforzamiento positivo) haciendo contingente el escape to-tal con la presión de la palanca (que antes no tiene efecto en ese periodo).Una vez consiguieron un comportamiento estable fueron reduciendo gra-dualm ente el tiempo de escape de 30’ a 15”. La fase experimental (a la quesólo llegaron 2 de las 3 ratas tras casi tres meses) consistió en exponer alos sujetos al mismo procedim iento variando el tiempo de escape para cadaalternativa: 60'60', 40'120’, 120'40', 210'35', 120'40', 60'60', 40’120', 35'210'. Los resultados mostraron un buen ajuste de las elecciones en función

de la frecuencia de escape.

4.1.2. Elección y castigo

El efecto del castigo en programas concurrentes no ha sido tan estudia-do como el del reforzamiento, aunque se han realizado algunos trabajosque indican que los sujetos son capaces de ajustar su elección a ciertascaracterísticas del castigo.

Holz (1968) comprobó que, aunque la tasa de respuesta general decrece(una vez se ha adquirido por reforzamiento positivo), la tasa relativa seajusta a la frecuencia relativa de castigo en cada alternativa.

Deluty (1976) llevó a cabo un experimento en el que ent renó a tres ratasa presionar la palanca mediante una consecución de programas concu-rrentes IRIR (Intervalo aleatorio, similar al IF pero con un grado de pro-


385





Cuando el procedimiento usado es de castigo, sin embargo, se hacenecesario un cambio en la consideración del papel de la demora. Se con-sideraría una respuesta impulsiva la elección del castigo con mayor valor(intensidad o duración) pero más demorado, mientras que elegir el castigomás leve e inmediato se consideraría un comportamiento autocontrolado(Mischel y Grusec, 1967). Deluty (1978), en un estudio pionero, evaluó laconducta de cuatro ratas expuestas a una situación de autocontrol queinvolucraba procedimientos de castigo. En el primer experimento man-tuvo constante la intensidad de la descarga (0.3 mA) y su duración (1.0”)

para ambas alternativas variando su demora de aparición: 30”30”, 30”40”,40”30”, 50”5”, 5”50”, 20”5”, 5”20”, 20”10”, y 10”20”. No se encontróajuste a la Ley de Igualación en ningún caso, los sujetos siempre eligieronla alternativa más demorada (impulsiva). En el segundo experimento, sin

embargo , se manipuló la durac ión de la descarga (1”1”, l ”2”, 2”1 ”, 0.5”2”, 2”0.5”, 0.5”3”, 3”0.5”, 2”3”, 3”2”), los sujetos eligieron de maneraconsistente las alternativas con menor duración de descarga, además, seobservó una considerable infraigualación. En el tercer y último experimen-to se manipuló tanto la demora como la duración de la descarga (estudiode autocontrol). La alterna tiva 1 ofrecía siempre 1” de descarga, mientrasque la 2 ofrecía 2”. Los sujetos fueron expuestos a las siguientes secuenciasde duración de demora:

A. 10”20”, 20”30”, 5”15”, 30”40”, 2”12”, 40”50”.

B. 10”20”, 20”40”, 5”10”, 30”60”.

Los resultados m ostraro n como la preferencia por la alternativa 1 (1” dedescarga) iba aumentando en función del aumento de la demora. Es decir,cuánto mayor era la demora mayor era el número de elecciones autocon-troladas.


387



R e s u m e n

Las presiones de supervivencia a las que se vio sometida nuestra especie provocaron que se seleccionasen de te rm inadas reacciones inna tas ante ciertos

eventos. Llorar antes estímulos novedosos es muy adaptativo ya que aumentalas posibilidades de alertar a tus progenitores si aparece un depredador, alejar-se de eventos que provocan dolor ayuda a mantener la integridad de nuestrocuerpo, etc. Pero no sólo se seleccionaron reacciones innatas (respuestas incondicionadas) sino también mecanismos para moldear nuestro comportamientode manera que reduzcamos al máximo nuestro contacto con estos estímulosaversivos. Aquellas conductas que tienen como consecuencia la aparición deun evento aversivo disminuyen su frecuencia de emisión, mien tras que aquellasque nos permiten escapar de él o evitar que aparezca aumentan.

La velocidad con la que aprendemos a dejar de emitir una conducta cas tiga-da o a emitir una que es reforzada negativamente depende de múltiples factorestales como la intensidad del estímuilo aversivo, la historia previa, la inmediatezde la consecuencia o la frecuencia con la que se da la contingencia, entre otras.

En el capítulo se señala, además, que los procedimientos de castigo positivono son ni la única ma nera de suprim ir una conducta ni necesariamente la másadecuada. El uso de estimulación aversiva no sólo puede generar reaccionesagresivas y/o ansiedad, sino conllevar efectos paradójicos como la conducta

masoquista o círculos viciosos. Se recomienda, por tanto, valorar otras opcio-nes como el uso del castigo negativo, la extinción, el refuerzo de conductasincompatibles o la manipulación de variables motivacionales.


388





E r r o r e s c o m u n e s

Castigo negativo y extinción. Tanto los procedimientos de castigo como losde extinción (de un comportamiento reforzado positivamente) tienen como

resultado un descenso de la frecuencia con la que aparece la conducta ala que se está aplicando. Distinguir el castigo positivo de la extinción no

parece difícil, mientras que el pr imero implica la aparic ión de un eventoaversivo tras la emisión de la respuesta, el segundo consiste en no presentarel reforzador positivo que antes seguía a la respuesta cuando ésta se emite.Esta relación (Rno Er+) es la que puede generar cierta confusión entre elcastigo negativo y la extinción, pero esto es porque este esquema resume pe-ro no describe completamente ambos procedimientos. Vamos a centrarnosen dos diferencias que pueden aclarar esta posible confusión:

a) Una conducta debe estar (o haber estado) siendo reforzada para quese emita con cierta frecuencia. La extinción detiene la aparición de laconsecuencia reforzante específica, el castigo negativo no. Es decir,

podemos ap lica r castigo negativo a cierta co nduc ta mient ras ésta siguesiendo reforzada (ya que el reforzador positivo que se omite puede serotro diferente).

b) El castigo negativo requiere del establecimiento de una contingencianegativa entre la emisión de la respuesta y a aparición de algún evento

apetitivo. Por tanto, la relación debe de describirse de la siguiente formaRno Er+/no REr+. Cuando extinguimos una conducta reforzada positi-vamente, el reforzador positivo no se presenta aunque el sujeto no emitala respuesta (Rno Er+ / no Rno Er+).


390





C o h é n , P. S. (1968). Punishment: The interactive effects of delay and intensity ofshock. Journal o f the Experimental Analysis o f Behavior, 11, 789799.

D e l u t y , M. Z. (1976). Choice and rate of punishment in concurrent schedules. Journal o f the Experimental Analysis o f Behavior, 25, 7582.

— 1978). Selfcontrol an d imptilsiveness involving aversive events. Journal o f Experimental Psychology: Animal Behavior Processes, 4, 250266.Green y Snyderman,1980

D i n s m o o r , J. A. (1952). A discrimination based on punishment. Quarterly Journal o f Experimental Psychology, 4, 2745.

D i n s m o o r , J. A. (1954). Punishment: I. The avoidance hypothesis. Psychological Review, 61, 3446.

D i n s m o o r , J. A. (2001). Stimuli inevitably generated by behavior that avoid electricshocks are inherently reinforcing. Journal o f the Experimental Analysis o f Beha

vior, 75, 311333.E s t e s , W. K. (1944). An experimental study of punishment. Psychological Mono-

graphs, 57, 140.E s t e s , W. K. y S k i n n e r B. F. (1941). Some quantitative properties of anxiety. Jour

nal o f Experimental Psychology, 29, 390400.F i l b y , Y. y A p p e l , J. B. (1966) Variableinterval punishment during variableinterval

reinforcement. Journal o f the Experimental Analysis o f Behavior, 9, 521527.H e r m á n , R . L . y A z r i n , N. H. (1964). Punishment b y noise in an alternative respon-

se situation. Journal o f the Experimental Analysis o f Behavior, 7, 185188.

H e r r n s t e i n , R. J. (1961). Relative and absolute strength of response as a functionof frequency of reinforcement. Journal o f the Experimental Analysis o f Behavior,

4, 267272. — (1969). Method and theory in the study of avoidance. Psychological Review, 76,

4969. — (1970). The law of effect. Journal o f the Experimental Analysis o f Behavior, 13,

243266.H e r r n s t e i n , R. J. y H i n e l i n e , P. N. (1966). Negative reinforcement as shockfre

quency reduction. Journal o f the Experimental Analysis o f Behavior, 9, 421430.

H i n e l i n e , P. N. (1977). Negative reinforcement and avoidance. En W . K . Honig y J.E. R. Staddon (Eds.), Handbook o f operant behavior (pp. 364414). Englewood,Cliffs, NJ: PrenticeHall.

— (1984). Aversive control: A separate domain? Journal o f the Experimental Analy

sis o f Behavior, 42, 495509.H o l z , W . C. ( 19 6 8 ). P u n i s h m e n t a n d t h e r a t e o f p o s i t iv e r e i n f o r c e m e n t . Journal o f

the Experimental Analysis o f Behavior, 11, 285292.


392



Hunt, H. F. y B r a d y , J. V. (1955). Some effects of punishment and intercurrentanxiety on a simple operant. Journal o f Comparative and Physiological Psycho

logy, 48, 305310.H u t t o n , L.; G a r d n e r , E. T. y L e w i s , P. (1978). Matching with a keypeck response

in concurrent negative reinforcement schedules. Journal o f the Experimental Analysis o f Behavior, 30, 225230.

I t o , M. y A s a k i , K. (1982). Choice behavior of rats in a concurrentchains schedule:Amount and delay of reinforcement. Journal o f the Experimental Analysis o f

Behavior, 37, 383392.L o g u e , A. W. y D e V i l l i e r s , P. A. (1978). Matching in concurent variableinterval

avoidance schedules. Journal o f the Experimental Analysis o f Behavior, 29, 61óó.Mischel y Grusec, 1967

M a c p h a i l , E. M . (1968). Avoidance responding in pigeons. Journal o f the Experi

mental Analysis o f Behavior, 11, 629632.M a s s e r m a n , J. H. (1946). Principies of dynamic psychiatry. Philadelphia: Saunders.M e y e r , D. R.; C h o , C. y W e s e m a n n , A. F. (1960). On problems of conditioning dis

criminated leverpress avoidance responses. Psychological Review, 67, 224228.M i l l e r , N. E. (1960). Learning resistance to pain and fear affects overlearning, ex

posure, and rewarded exposure in context. Journal o f Experimental Psychology, 60, 137145.

M o d a r e s i , H. A. (1990). The avoidance bar press problem: Effects of enhanced rein-forcement and an SSDRcongruent lever. Learning and Motivation, 21, 199220.

M o r r i s , R. G. M . (1975). Preconditioning of reinforcing properties to an exteroceptive feedback stimulus. Learning and Motivation, 12, 239260.

M o w r e r , O. H. (1947). On the dual nature of learning: A reinterpretation of «con-ditioning» and «problemsolving». Harvard Educa tiona l Review, 17, 102150.

M y e r s , D. L. y M y e r s , L. E . (1977). Undermatching: a reappraisal of performanceon concurrent variableinterval schedules of reinforcement. Journal o f the Ex

perimental Analysis o f Behavior, 27, 203214. N a v a r i c k , D. J. (1982). Negative reinforcement and choice in humans. Learning and

Motivation, 13, 361377.

N a v a r i c k , D. J. y F a n t i n o , E. (1975). Stochastic transitivity and the unidimensionalcontrol of choice. Learning and Motiva tion, 6, 179201. — (1976). Selfcontrol and general models of choice. Journal o f Exper imental Psy

chology: Animal Behavior Processes, 2, 7587.P a v l o v , I. (1927). Conditioned reflexes. Oxford: Oxford Univeristy Press.P i e r c e , W. D. y C h e n e y , C. D. (2008). Behavior Analysis and Learning. 4th ed. New

York: Psychology Press.


393



P r e m a c k , D. (1959). Toward empirical behavioral laws: 1. Positive reinforcement. Psychological Review, 66, 219233.

— (1962). Reversability of the re in forcem ent relation. Science, 136, 235237. — (1971). Catching up with com mon sense or two sides of a generalization: Rein-

forcement and punishment. En R. Glaser (Ed.), The nature o f reinforcement (pp.121150). New York: Academic Press.

R a c h l i n , H. y G r e e n , L. (1972). Commitment, choice and selfcontrol. Journal o f the Experimenta l Analysis o f Behavior, 17, 1522.

S c h l o s b e r g , H. (1934). Conditioned responses in the white rat. Journal o f Genetic Psychology, 45, 303335.

S c h o e n f e l d , W. N. (1950). An experimental approach to anxiety, escape and avoi-dance behavior. En P. H. Hoch y J. Zubin (Eds.), Anxiety (pp.7099). New York:Gruñe y Stratton.

S i d m a n , M. (1953). Two temporal parameters in the maintenance of avoidance behavior of the white rat. Journal o f Comparative and Physiological Psychology, 46, 253261.

S k i n n e r , B. F. (1938). The behavior o f organisms. New York: AppletonCenturyCrofts.S o l n i c k , J. V.; K a n n e n b e r g , C. H.; E c k e r m a n , D. A. y W a i l e r , M. B. (1980). An

experimental analysis of impulsivity and impulse control in humans. Learning and Motivation, 11, 6177.

S o l o m o n , R. L. (1964). Punishment. American Psychologist, 19, 239253.S o l o m o n , R. L. y B r u s h , E. S. (1956). Experimenta lly derived conceptions of anxie-

ty and aversión. En M. R . Jones (Ed.), Nebraska Symposium on Motivation (pp.212305). Lincoln: University of Nebraska Press.

S t u b b s , D. A. y P l i s k o f f , S. S. (1969). Concurrent responding with fixed relative rateof reinforcement. Journal o f the Experimental Analysis o f Behavior, 12, 887895.

T h o r n d i k e , E. L. (1911). Anim al inteligence: Experimental studies. New York: Macmillan.

— (1932). The fundamentáis of learning. New York: Teachers College, ColumbiaUniversity.

T u l l í s , C. y W a l t e r , G. (1968). Punished and unpunished responding in múltiple

variableinterval schedules. Journal o f the Experimental Analysis o f Behavior,11, 147152.

U l r i c h , R. E. y A z r i n , N. H. (1962). Reflexive fighting in response to aversive stimulation. Journal o f the Experimental Analysis o f Behavior, 5, 511520.

Z i m m e r m a n , J. y F e r s t e r , C. B. (1963). Intermittent punishment of S respondingin matchingtosample. Journal of the Experimental Analysis of Behavior, 6,349356.


394



Documents

242205558 Psicologia Del Aprendizaje 1 PDF