Retirar el premio (jackpot) sin frustración: la transición a refuerzo intermitente

En 30 segundos

Cuando el gato responde a una señal el 90 % de las veces en sesiones cortas, ha llegado el momento de bajar la frecuencia de snack. El error frecuente es retirarlo de golpe; el comportamiento se extingue en una o dos semanas y hay que reentrenar. La transición correcta es gradual: del refuerzo continuo (1:1, un snack por cada respuesta) a refuerzo fijo 1:2, después 1:3, después a refuerzo variable (la media es 1:3 pero el gato no sabe si la próxima respuesta cobra o no). El refuerzo variable produce el comportamiento más resistente a la extinción, según el principio operante descrito por Skinner en los años 50. El clicker sigue sonando siempre que hay respuesta correcta; lo que se reduce es el snack, no el marcador.

La señora que se llamaba Karen Pryor

En 1963, una bióloga marina llamada Karen Pryor empezó a entrenar delfines en el Sea Life Park de Hawái sin recurrir a coacción. Aplicó al delfín los principios del condicionamiento operante de B. F. Skinner: marcaba con un silbato (el equivalente al clicker en gato) el comportamiento exacto que quería y entregaba un arenque a continuación. El método funcionó tan bien que Pryor lo extrapoló a perros, caballos, gatos y, según escribió en Don't Shoot the Dog (1984, revisado 2002), también a hijos y a parejas. El libro vendió millones de ejemplares y abrió la puerta del adiestramiento positivo al gran público.

La aportación más interesante de Pryor no fue el clicker en sí (Skinner ya lo había descrito como "marcador secundario" en los años 50). Fue popularizar la idea de que un comportamiento se mantiene mejor con premios impredecibles que con premios garantizados. La intuición común dice lo contrario: "si quiero que el gato siempre se siente, debo premiarlo siempre". Resulta ser falso. El gato premiado siempre y de golpe sin premio deja de sentarse en pocos intentos. El gato premiado de forma variable sigue sentándose durante semanas aunque algunos intentos no cobren.

Este artículo es la mecánica de esa transición, aplicada al adiestramiento felino.

El principio operante en una página

Skinner clasificó los esquemas de refuerzo en cuatro grandes tipos según dos ejes:

Refuerzo continuo (CRF). Cada respuesta correcta recibe premio. Es la fase de aprendizaje. Construye la conducta rápido pero produce un comportamiento frágil: si el premio desaparece, la conducta se extingue rápido.
Refuerzo intermitente de razón fija (FR). Cada N respuestas correctas reciben premio (1 de cada 2, 1 de cada 3). Hace más resistente la conducta que el continuo.
Refuerzo intermitente de razón variable (VR). El premio llega después de un número variable de respuestas, con una media (1:3 de media: a veces a la segunda, a veces a la quinta, a veces a la primera). Produce el comportamiento más resistente a la extinción de todos los esquemas. Es el mismo principio que mantiene a un jugador echando monedas a una máquina tragaperras: no sabes cuándo va a tocar, pero sabes que tocará.
Refuerzo de intervalo (fijo o variable). El premio llega tras un periodo de tiempo, no tras un número de respuestas. Menos útil en adiestramiento, más utilizado en estudios de motivación.

Para mantener un comportamiento ya consolidado en gato, el objetivo es llegar al refuerzo variable. Por el camino se pasa por refuerzo fijo escalonado.

Cuándo empezar la transición

La regla práctica es la del 90 %: cuando el gato responde a la señal correctamente nueve de cada diez veces durante tres sesiones consecutivas, el comportamiento está consolidado y se puede iniciar la transición. Si responde seis de cada diez, la conducta aún no está estable; retirar premio en ese momento extingue lo poco que se ha construido.

Una manera fácil de medirlo: anotas en una libreta o en el móvil cada sesión las respuestas. Sesión de diez intentos de "sienta": el gato se sienta 9 veces, no se sienta 1 vez. Anotas "9/10". Tres sesiones seguidas de 9/10 o 10/10 son la señal de empezar a bajar.

La transición paso a paso, con "sienta" como ejemplo

Imagina que llevas tres semanas entrenando el "sienta" con clicker. Tu gato Lola responde a la señal verbal "sienta" 9 de cada 10 veces. Vas a transitar a refuerzo variable en cuatro semanas.

Semana 1: refuerzo fijo 1:2 (premio en una de cada dos respuestas)

Sesiones diarias de un minuto, diez intentos. Le dices "sienta". Lola se sienta. Clic. Snack. Le dices "sienta". Lola se sienta. Clic. Sin snack. Pequeño gesto verbal ("muy bien") y sigues. Le dices "sienta". Lola se sienta. Clic. Snack. Y así sucesivamente.

Importante: el clic siempre suena cuando hay respuesta correcta. El clic es el marcador, no es el premio. Lo que se reduce a la mitad es el snack que llega después. El gato sigue sabiendo que ha hecho bien (por el clic) aunque no llegue snack en ese intento concreto.

A los tres o cuatro días, el gato ya no muestra extrañeza cuando un clic no va seguido de snack. Sigue respondiendo a la señal con la misma tasa.

Semana 2: refuerzo fijo 1:3 (premio en una de cada tres respuestas)

Misma sesión, mismo formato. Ahora premias solo cada tres respuestas correctas. Clic-snack, clic-sin snack, clic-sin snack, clic-snack, clic-sin snack, clic-sin snack, clic-snack.

Si el gato falla más (baja a 7/10), retrocedes a 1:2 dos sesiones y vuelves a intentar. La curva no siempre es lineal.

Semana 3: refuerzo variable, media 1:3

Aquí está el cambio cualitativo. Ya no premias cada tres exacto. Premias de forma impredecible, con una media de uno de cada tres. Las series pueden ser: snack, sin, sin, snack, sin, snack, sin, sin, sin, snack. O: sin, snack, sin, sin, sin, sin, snack, sin, snack, sin. La media sigue siendo 1:3 pero el gato no puede predecir cuándo cobra.

Aquí entra lo que Pryor llamaba "expectativa de ganancia": el gato sigue respondiendo porque sabe que el snack puede venir en cualquier momento. La conducta se vuelve robusta.

Semana 4: refuerzo variable, media 1:5

Subes la media a uno de cada cinco. Sigue siendo variable. Las primeras sesiones pueden bajar la respuesta al 80 %; si baja del 70 %, retrocedes a 1:3 una semana. Si se mantiene en 80-90 %, sigues.

A partir de aquí, el comportamiento está consolidado en variable. Puedes subir hasta 1:10 con el tiempo, pero pasada una cierta dilución (más allá de 1:15 o 1:20 en gato) la conducta empieza a debilitarse. Lo realista es estabilizar entre 1:5 y 1:8 a largo plazo.

El jackpot, la otra cara de la moneda

El jackpot es lo contrario del refuerzo intermitente y se usa de forma puntual para reforzar especialmente bien un avance importante. Cuando el gato hace algo nuevo, dificilísimo o particularmente bien, no le das un snack: le das cinco o seis seguidos, lentos, mientras lo elogias. Es una "lluvia de premios" que marca en la memoria del gato que ese comportamiento concreto vale mucho.

Cuándo usarlo: la primera vez que el gato entra solo al transportín, la primera vez que se deja cortar una uña sin retirar la pata, la primera vez que se queda quieto en la báscula del veterinario. El jackpot se usa puntualmente, no en cada sesión. Si se abusa, deja de ser jackpot y se convierte en refuerzo continuo a alto coste.

Importante: el jackpot y el refuerzo intermitente no son contradictorios. Conviven en la misma fase del entrenamiento. El gato responde casi siempre con refuerzo variable, y cuando hace algo excepcional, jackpot. Esa combinación es la que mantienen los buenos entrenadores de delfines, perros de servicio y cualquier animal trabajando por refuerzo positivo a largo plazo.

Por qué se equivoca la mayoría

El error 1 es retirar el snack de golpe. "El gato ya sabe sentarse, ya no hace falta premiar". Resultado: a las dos semanas el gato deja de sentarse, porque ha aprendido que la señal ya no predice nada interesante. Reentrenar lleva tres veces más tiempo que entrenar la primera vez, según el principio descrito por Pryor como "fenómeno de la extinción aprendida".

El error 2 es retirar el clic, no el snack. Si dejas de clickear porque "ya no hace falta", pierdes el marcador y el gato deja de saber qué te ha gustado exactamente. El clic es gratuito y se mantiene de por vida. El snack es lo que se va reduciendo a frecuencia variable.

El error 3 es premiar sin patrón pero con la sensación de "ya cuando me apetece". No hay patrón estadístico, hay arbitrariedad pura. El gato detecta que el premio depende de tu estado de ánimo, no de su respuesta. La conducta se degrada. El refuerzo variable es planificado: media 1:3, distribución aleatoria pero con esa media respetada a lo largo de la sesión.

El error 4 es no llevar registro. Sin libreta o sin nota en el móvil, las dos primeras semanas se cree que el gato responde bien y luego no se da cuenta de que ha bajado al 70 %. El registro de respuestas correctas por sesión es la única manera de saber si se puede subir de fase o hay que retroceder.

El uso natural fuera de las sesiones

Una vez el comportamiento está en variable, se puede usar el gato fuera de las sesiones formales. "Sienta" cuando vas a servir la comida, "ven" cuando entras en casa. A veces va seguido de snack, a veces de caricia, a veces solo del clic verbal. Esa generalización es la que mantiene la conducta activa años, sin que dependa del clicker físico ni del bote de snacks.

Errores frecuentes específicos

Acelerar la transición. Saltar de 1:1 a 1:5 en una semana. El gato no procesa el salto. Bajada gradual, semana a semana.

Confundir intermitente con olvido. Premiar cuando te acuerdas, no cuando toca. Estructura mínima: planificar antes de la sesión cuántas respuestas vas a premiar y cuáles.

Premiar la respuesta más lenta. Si dudas entre premiar o no, premia la respuesta más rápida o más limpia. Premiar la respuesta lenta refuerza lentitud.

Mantener refuerzo continuo de por vida. Funciona, pero te hace dependiente del snack en el bolsillo siempre. El gato bien entrenado responde a la señal aunque no haya snack visible.

Retirar también el clicker. El clicker es el marcador, no es el premio. Se mantiene siempre que se le pide algo nuevo o se quiere reforzar un comportamiento ya conocido. Lo que se varía es el snack posterior.

Lo que verificar

El gato responde 9 de cada 10 veces a la señal antes de empezar la transición.
Registro escrito de respuestas correctas por sesión (10 intentos, anotación X/10).
Bajada por fases semanales: 1:1 → 1:2 fija → 1:3 fija → variable 1:3 → variable 1:5.
Clic mantenido en todas las respuestas correctas (es el marcador, no el premio).
Jackpot reservado para avances importantes, no para cada sesión.
Si la respuesta baja del 70 %, retroceder una fase, no avanzar a ciegas.
Generalización fuera de sesión formal a partir de la fase variable consolidada.

Este protocolo se aplica directamente al mantenimiento de la llamada por el nombre y al tolerar el corte de uñas, dos conductas que sin refuerzo intermitente se extinguen en pocos meses.