A Psicologia de B.F. Skinner: Modelo de Seleção pelas Consequências

O Reforçamento Positivo:

É importante ressaltar, que reforço, ao contrário do que pode pensar o senso comum, não é uma simples recompensa. Para B. F. Skinner, reforço, pode ser qualquer evento que aumenta a frequência de uma reação precedente.Um reforço pode ser uma recompensa tangível. Pode ser um elogio ou uma atenção. Ou pode ser uma atividade, como poder usar o carro depois que a louça estiver lavada, ou ter uma folga depois de uma hora de estudo.

Reforços Primários e Secundários:

Os reforços primários - como receber alimento ou ser aliviado de um choque elétrico - são intrinsecamente satisfatórios. Os reforços secundários são aprendidos. Se um rato numa caixa de Skinner aprende que uma luz sinaliza de maneira confiável que a comida está chegando, ele vai se empenhar em acender a luz. Dinheiro, boas notas, são exemplos de reforços secundários, cada um das quais está ligado a recompensas mais básicas.

Caixa de Skinner: Devido à sua preocupação com controles científicos estritos, Skinner realizou a maioria de suas experiências com animais inferiores, principalmente o Rato Branco e o Pombo. Desenvolveu o que se tornou conhecido por "Caixa de Skinner" como aparelho adequado para estudo animal. Tipicamente, um rato é colocado dentro de uma caixa fechada que contém apenas uma alavanca e um fornecedor de alimento. Quando o rato aperta a alavanca sob as condições estabelecidas pelo experimentador, uma bolinha de alimento cai na tigela de comida, recompensando assim o rato. Após o rato ter fornecido essa resposta o experimentador pode colocar o comportamento do rato sob o controle de uma variedade de condições de estímulo. Além disso, o comportamento pode ser gradualmente modificado ou modelado até aparecerem novas repostas que ordinariamente não fazem parte do repertório comportamental do rato. Êxito nesses esforços levou Skinner a acreditar que as leis de aprendizagem se aplicam a todos os organismos.

Reforços Imediatos e Retardados:

           Para ilustrar bem como funcionam esses dois tipos de reforços, pode-se usar como exemplo um experimento de moldagem em que se condiciona um rato a apertar uma barra. Antes de efetuar esse comportamento "desejado", o rato faminto se empenhará numa sequência de comportamentos "indesejados" - arranhar, farejar, andar de um lado para o outro. qualquer desses comportamentos que preceda imediatamente o reforço de comida tem mais probabilidade de ocorrer de novo. Se você retarda o reforço da pressão da barra por mais 30 segundos, permitindo que outros comportamentos interfiram e sejam recompensados, não ocorrerá praticamente qualquer aprendizagem de apertar a barra. Humanos, ao contrário de ratos, reagem a reforços bem mais retardados: o pagamento do salário no fim do mês, a nota no fim do semestre, o troféu no campeonato.

           Porém, reforços pequenos, mas imediatos, são às vezes mais atraentes do que reforços grandes, mas retardados. Fumantes, alcoólatras e outros usuários de drogas podem saber que seu prazer imediato é mais do que contrabalançado pelos futuros efeitos perniciosos, mas nem por isso abandonam seu vício.
Reforço Positivo, Reforço Negativo e Punição:

        Existem duas formas de reforço que são: o positivo e o negativo. Ambos têm como escopo ensinar e reforçar um determinado comportamento. O indivíduo aprende qual o comportamento desejável para alcançar determinado objetivo. Já a punição reforça qual o comportamento indesejável, ou seja, que não deve ser manifestado para evitá-la.

        No reforço positivo quando o comportamento desejado é alcançado um elemento de recompensa é adicionado. Para exemplificar o reforço positivo consideremos um experimento onde um rato é privado de comida. Quando este puxa determinada alavanca (comportamento desejado) é disponibilizado o alimento (elemento de recompensa). Com o passar do tempo o rato ao sentir fome irá puxar a alavanca para receber o alimento. Desta forma o indivíduo exposto ao reforço positivo aprende o comportamento adequado.

        Já no reforço negativo um elemento punitivo é adicionado ao ambiente e quando o comportamento desejado é alcançado este, é retirado. Para exemplificar temos novamente um experimento com um rato onde é colocada uma corrente elétrica ligada a sua gaiola. Esta corrente provoca um desconforto ao animal (elemento punitivo). Quando puxada uma alavanca (comportamento desejado) a corrente elétrica é desligada. Neste exemplo o choque elétrico é colocado como elemento punitivo que é eliminado ao conseguir o comportamento almejado. Após algum tempo o rato associa o ato de puxar a alavanca a extinção de seu desconforto e sempre que a corrente elétrica é ligada vai direto a alavanca. Como no reforço positivo, o negativo visa que o indivíduo aprenda o comportamento adequado a determinada situação.

        A punição é muitas vezes confundida com o reforço negativo pois o elemento punitivo encontra-se inserido neste. Porém, ao contrário do reforçamento negativo, o objetivo da punição é levar à extinção do comportamento, ou seja, com o passar do tempo, a probabilidade de ele ocorrer novamente diminui. O reforçamento negativo, passa a idéia de uma obrigação: um rato pode puxar uma alavanca (comportamento) para desligar uma corrente elétrica que o esteja infligindo um desconforto (reforço negativo). O reforçamento negativo, não é um evento punitivo: é a remoção de um evento punitivo. Ambos utilizam de estímulos aversivos.

         As punições podem ser de dois tipos: por adição (punição positiva), quando experiências aversivas são adicionadas, ou por subtração (punição negativa), quando facilitadores do comportamento são subtraídos. Ambas as técnicas levam a aquilo que chamamos de extinção.

        A punição pode acarretar uma série de problemas: esse tipo de estimulação aversiva, acarreta respostas do sistema nervoso, entendidas como ansiedade, depressão, baixa auto-estima. Além do mais, o comportamento punido não é esquecido, ele é suprimido. Pode ser que após a estimulação aversiva ter sido eliminada, o comportamento volte a ocorrer: a criança pode simplesmente aprender a não dizer palavrões em casa, mas continuar a usá-los em outros lugares.

        Ela também suprime o comportamento indesejado, mas não guia a pessoa para um comportamento mais desejável. A punição diz o que não fazer, o reforço diz o que fazer. Uma punição combinada com um reforçamento positivo de comportamentos desejáveis é mais eficiente.

            Em suma, a punição rápida e segura pode ser eficaz, e pode de vez em quando causar menos dor do que o comportamento autodestrutivo que suprime. Mas ele pode reaparecer, se for possível evitar a punição. Essa estimulação aversiva também pode provocar efeitos colaterais indesejáveis, como ansiedade e ensinar agressividade. Os psicólogos preferem dar mais ênfase ao reforço positivo do que à punição.

Programações de Reforço:

            Usando-se esquemas de reforço contínuo, a aprendizagem ocorre rapidamente, mas sem o reforço, a extinção ocorre rapidamente também. Na vida real, esquemas de reforço contínuo são raros.

            Nevin, em 1988, estudou que as reações às vezes são reforçadas, às vezes não. É o que se chama de reforço parcial. A aprendizagem demora mais, no começo, mas ela é mais "resistente" à extinção. Imagine um pombo que aprendeu a bicar uma tecla para obter comida. quando o pesquisador vai suspendendo gradativamente a entrega de alimento, até que ela ocorra só de maneira rara e imprevisível, os pombos podem bicar 150.000 vezes sem recompensa. Com o reforço parcial, a esperança flui eterna (esse é o princípio do "pombo supersticioso" de Skinner). è o que ocorre por exemplo, em jogadores compulsivos, que continuam a jogar, mesmo sem nunca ganharem.

Programações de Ritmo Fixo:

       Reforçam o comportamento depois de um determinado número de respostas. Empregados que trabalham em fábricas que recebem por produção, são reforçados de tal maneira. quando

Programações de Ritmo Variável:

                Reforçam a primeira resposta depois de uma quantidade imprevisível de respostas. É o que ocorre com os jogadores e pescadores. A dificuldade de se extinguir tais comportamentos é de que o reforço aumenta à medida que aumentam as respostas.

Programações de Intervalos Fixos:

                Reforça a primeira resposta depois de um período determinado. Como pessoas que verificam a caixa de correspondência quando a hora do carteiro passar se aproxima, os pombos bicam uma tecla com mais frequência à medida que fica mais próxima a hora esperada de recompensa, produzindo um padrão inconstante de "pára-começa".

Programações de Intervalo Variável:

        Reforça a primeira resposta depois de intervalos de tempo variáveis. Como o questionário imprevisível que reforça o estudo, as programações de intervalo variável tendem a eliciar respostas lentas e firmes. Caso os questionários tornem-se previsíveis, os estudantes começarão a seguir o padrão de pára-começa que caracteriza as programações de intervalo fixo (em outras palavras, estudarão apenas na véspera).

quinta-feira, 24 de março de 2011

Modelo de Seleção pelas Consequências

Nenhum comentário:

Postar um comentário