Методы обучения, дрессировки и модификации поведения
Методы обучения, дрессировки и модификации поведения
Д. Миллс (Daniel S. Mills)
Поведение развивается на протяжении всей жизни в результате взаимодействия генетических факторов и окружающей среды. Генотип в принципе неизменен, но существует возможность управлять раздражителями (совокупность которых и представляет окружающую среду) и тем самым изменять поведение индивида в пределах его генотипа. Подобное управление предполагает изменение либо внутренней среды субъекта (физиологическое вмешательство), либо внешней (вмешательство в окружающую среду).
• Обучение - это изменение поведенческого потенциала животного в результате опыта, приобретенного под воздействием окружающей среды.
• Дрессировка описывает методы, применяемые человеком для обучения животного в предсказуемом направлении.
Методы модификации поведения
Для модификации психических процессов животного (например, его восприятия окружающей среды), которые впоследствии повлияют на его поведение в конкретной ситуации, был заимствован ряд методик, применяемых в психотерапии человека. Их часто называют методами модификации поведения для того, чтобы отличать от методов дрессировки, которые обычно направлены на выработку послушания.
Оценка роли обучения в контроле поведенческих проблем_
Обучение не всегда является предпосылкой поведенческих изменений, поскольку ассоциации могут формироваться и без явных перемен в поведении, но обычно именно перемены в поведении позволяют установить, что обучение произошло. При наличии поведенческих проблем объективные параметры изменения поведения можно использовать для оценки того:
• как обучение сказалось на развитии проблемы;
• насколько эффективна поведенческая терапия.
Основные параметры изменения поведения приведены на фиг. 5.1.
Знание теории обучения и умение применять эти знания на практике крайне важны для диагностики и лечения поведенческих расстройств у животных-компаньонов. Например, при составлении анамнеза важно охарактеризовать нежелательное поведение, начиная с первых его проявлений, по каждому из параметров, приведенных на фиг.5.1, а затем оценить и причины произошедших изменений, потому что от этих оценок зависит выбор метода терапии.
• Если нежелательное поведение можно с уверенностью объяснить приобретенным стереотипом, то прогноз поведенческой терапии будет, как правило, положительным.
• Если приобретенный стереотип не объясняет всех аспектов изменения поведения, говорят о влиянии внутренних физиологических факторов. В этой ситуации для решения проблемы потребуется медикаментозное или хирургическое вмешательство.
Скрытое обучение
Тщательное изучение анамнеза позволяет выявить роль скрытого (латентного) обучения в возникновении проблемы. Во время скрытого обучения животное получает информацию, которая не вызывает немедленных перемен в поведении, но может повлиять на него в последующем.
Например, когда животное исследует нейтральную (без положительных или отрицательных стимулов) окружающую среду, оно знакомится с планировкой территории, что в дальнейшем поможет ему быстрее сориентироваться, где на этой территории его ждет вознаграждение, а где — наказание.
Подражание
Социальное обучение, или подражание, при котором животное учится, наблюдая за поведением другой особи в аналогичной ситуации, тоже рассматривают как форму скрытого обучения; оно является значимым фактором, влияющим на поведение кошек и собак, особенно в раннем возрасте (см. гл. 2 и 3). Приобретенный таким образом опыт сказывается на поведении животного в дальнейшем, что не противоречит основным законам процесса обучения.
Окружающая среда
Термином “обучение” обозначают целый ряд механизмов, посредством которых взаимодействие с окружающей средой приводит к долгосрочным изменениям поведения. Окружающая среда влияет на проявления любых поведенческих отклонений, но это не означает, что она является их первопричиной или ее изменение служит главным средством решения всех поведенческих проблем. Ветеринарный врач должен на основе индивидуального подхода оценивать роль различных факторов, способных повлиять на поведение, и принимать решение об использовании медицинского или этоло-гического вмешательства (см. гл. 7).
Связанные события Пример Два средовых раздражителя (например, в случаях, когда животное изучает расположение объектов) Кухня ассоциируется с откидной створкой для кошек, а откидная створка - с садом Две модели поведения Собака узнает, что, перепрыгнув через забор, сможет весь день гулять на воле Раздражитель и поведение Поводок предшествует прогулке. Возвращение хозяина домой предвещает кормление Поведение и раздражитель Попадание в закрытую коробку означает, что будет чистым кошачий туалет Фиг.5.2. Ассоциативное обучение: возможные взаимосвязиАссоциативное обучение (формирование условных рефлексов)
Термин “ассоциативное” используется для определения тех форм обучения, при которых субъект должен построить ассоциацию между двумя объектами или событиями (фиг. 5.2).
Совпадение во времени и взаимозависимость событий
Совпадение во времени и взаимозависимость— это главные факторы, определяющие формирование ассоциации между любыми двумя событиями.
• Совпадение во времени означает взаимосвязь между двумя событиями во времени и пространстве. Если события происходят одновременно или следуют непосредственно друг за другом, ассоциативная связь между ними устанавливается легче.
• Взаимозависимость - это предсказуемость такой взаимосвязи двух событий. Высоко предсказуемые ассоциации усваиваются легче.
Два новых события, совпадающие по времени, воспринимаются как взаимозависимые, хотя в принципе такая ассоциация устанавливается не всегда. Это можно проиллюстрировать следующим примером. Собака идет вдоль дороги, как вдруг раздается звук выстрела и в этот же момент появляется мотоцикл. От того, установится ли у животного взаимосвязь между этими событиями, зависит в будущем его поведение по отношению к мотоциклам.
• Если раньше собака не раз видела мотоцикл и встречи с ним не сопровождались подобным звуком, то взаимозависимость мотоцикла и звука выстрела будет для нее низкой. Поэтому в дальнейшем животное вряд ли станет избегать мотоциклов; иное наблюдается в случае, если собака встречается с мотоциклом впервые.
• Если выстрел прозвучал настолько громко, что животное сильно испугалось, скорее всего, сформируется ассоциация между звуком выстрела и совпадающим по времени событием, даже если они не следуют непосредственно друг за другом. Это может быть мотоцикл, проехавший 5 минутами позже, если встреча с ним произошла впервые.
Воспринимаемая значимость
Пример с мотоциклом можно далее расширить иллюстрацией другого важного фактора, определяющего усвоение новой реакции, — значимости этого поведения для субъекта. Возможно, в будущем собака будет обходить данное место, даже если раньше она много раз там проходила, потому что теперь у нее имеется негативный опыт (испуг), связанный с этим местом. Изменение поведения возникает как результат анализа “выгоды и риска”, следующего за опытом, и это справедливо для любого приобретенного опыта.
Модификация поведения сводится к такому управлению ситуацией, которое заставило бы животное в результате анализа приобретенного им опыта выбрать и в дальнейшем воспроизводить желательную модель поведения. Этого можно достигнуть двумя путями:
• снижением воспринимаемого животным риска, связанного с поощряемым поведением; или
• усилением неприятных ощущений от нежелательного поведения.
Очень часто хозяин старается главным образом не допустить нежелательное поведение животного вместо того, чтоб уделять основное внимание поощрению того поведения, которого он хочет добиться. Вероятно, он достиг бы своих целей намного быстрее, если бы в первую очередь обучил своего четвероногого друга правильно вести себя в той или иной ситуации.
Респондентное и оперантное поведение
При описании механизмов обучения, приводящих к формированию ассоциаций, обычно различают респондентное и оперантное поведение.
Респондентное поведение
Проявления респондентного поведения, по-видимому, связаны с некоторыми раздражителями (стимулами), вызывающими врожденный (безусловный) рефлекс типа слюноотделения в ответ на пищу. Животное может научиться ассоциировать новые раздражители с рефлекторными врожденными реакциями посредством процесса, который обычно называется “выработкой классического (Павловского) условного рефлекса”. При этом необходимо наличие двух раздражителей: индифферентного, который в дальнейшем становится условным, и безусловного.
• Раздражитель, вызывающий рефлекторную реакцию (безусловный ответ, БУО), называют безусловным раздражителем (БУР).
• Новый раздражитель, ассоциируемый с данным БУО, называют условным раздражителем (УР).
В результате формирования ассоциации условный раздражитель рано или поздно начинает вызывать условный ответ (УО), подобный безусловному, даже в отсутствии безусловного раздражителя. Пример, приведенный на фиг. 5.3, показывает, что взаимозависимость условного и безусловного раздражителей устанавливается быстрее, если первый (УР) предшествует второму (БУР), а прочная временная ассоциация формируется при тесной связи этих двух раздражителей во времени.
Посредством выработки классического условного рефлекса животное усваивает, что можно убежать при виде ветеринарного врача (условный раздражитель):
1. Первый визит:
Боль ?* Попытка убежать
(БУР) ^ (БУО)
Ветеринар + Боль ^ Попытка убежать
(УР) + (БУР) -> (БУО)
2. Повторные визиты:
Ветеринар ?* Попытка убежать (УР) (УО)
3. Возможна выработка оперантного условного рефлекса:
Попытка убежать Избавление от боли
(Оперантное поведение) * (Отрицательное
подкрепление)
4. Повышается вероятность закрепления подобного поведения (попыток убежать) в аналогичных ситуациях в будущем.
Фиг. 5.3. Пример взаимодействия между классическим и оперантным условными рефлексами, которое часто происходит в подобной ситуации
Быстрее всего обучение идет в том случае, если УР не только предшествует БУР (боли), но и совпадает с ним по времени. Если БУО (попытка убежать) успешна, выработка оперантного условного рефлекса (см. ниже) проходит эффективно, поскольку бегство обеспечивает отрицательное подкрепление посредством избавления от боли, что делает эту реакцию более вероятной в будущем. Далее выработка классического условного рефлекса может привести к тому, что животное будет улавливать признаки предстоящей поездки к ветеринарному врачу, которые сами по себе будут указывать на боль и приведут к поведению избегания еще до того, как животное увидит ветеринара. Хозяева часто рассказывают о подобном поведении своих питомцев (“Он, казалось, знал, что идет к вам”), но это может быть просто усвоенная ассоциация с корзиной, которой пользуются только для транспортировки животного в клинику.
Оперантное поведение
Данное поведение определяется теми последствиями, к которым оно привело во внешней среде (обучение методом проб и ошибок), и формируется посредством процесса, известного как выработка оперантного (Скиннеровс-кого) условного рефлекса. Ряд терминов, используемых в описании этой формы обучения, часто вызывают недоразумения. Эти термины представлены на фиг. 5.4.
• Оперантный условный рефлекс определяется как ответная реакция, приводящая к желательному эффекту и поэтому закрепляющаяся в виде рефлекса,
• Если вероятность формирования рефлекса в результате подкрепления повышается, такое подкрепление называют аппетентным, т.е. основанным на удовлетворении инстинктивных потребностей животного; если вероятность формирования рефлекса снижается под воздействием подкрепления, то говорят об аверсив-ном, т.е. основанном на формировании отвращения, подкреплении (Mackintosh, 1974). Это позволяет широко использовать термин “подкрепление”.
• В более узком смысле термин “подкрепление” относится только к аппетентному подкреплению, а для аверсивного подкрепления используется термин
“наказаниея.
• Такие характеристики подкрепления, как “положительное” и “отрицательное”, не отражают вероятность изменения поведения в результате подкрепления (т.е. положительное подкрепление не является синонимом аппетентного подкрепления, а отрицательное подкрепление - не синоним наказания); они описывают лишь сам акт подкрепления (Ueberman, 1993):
- положительное аппетентное подкрепление предусматривает получение чего-либо, например лакомства, или наличие других стимулов для закрепления поведенческой реакции (положительное действие);
- отрицательное аппетентное подкрепление предусматривает устранение чего-либо неприятного, например пугающего раздражителя, с тем, чтобы закрепить поведенческую реакцию (отрицательное действие).
• Термины “положительное” и “отрицательное” наказание могут использоваться для описания чего-либо, что уменьшает вероятность повторного проявления поведения в аналогичных обстоятельствах. Например:
- положительное наказание может предусматривать физическое наказание или устный выговор;
- отрицательное наказание может предусматривать лишение чего-либо приятного (прекращение игры, если животное перевозбуждается).
Фиг.5-4. Уточнение некоторых основных терминов
Подкрепление_
Очень часто неудачи в дрессировке объясняются разницей между предполагаемым и фактическим подкреплением. Подкрепление определяется тем, каков его результат, а не предполагаемой его функцией.
Чаще всего источником приобретенных поведенческих проблем является неумышленное подкрепление (на действие которого субъект, как правило, не обращает внимание). Например, если строго прикрикнуть на собаку, поскуливающую для привлечения внимания, это станет положительным подкреплением, усиливающим данное поведение, поскольку одного аспекта желанной цели (т.е. вербального внимания) животное достигает. Точно так же, если отпустить собаку, которая вырывается, чтобы избежать осмотра в ветеринарной клинике, это усилит данное поведение в результате отрицательного подкрепления.
Эмоции
Эмоции определяют как состояния, формируемые оперантными подкрепляющими раздражителями (Rolls, 1999). Для объяснения факторов, которые обусловливают характер поведенческих реакций, необходимо понимать взаимосвязь эмоций с конкретными механизмами подкрепления.
Положительное аппетентное подкрепление
При положительном подкреплении воздействие раздражителя увеличивает вероятность проявления аналогичной поведенческой реакции в дальнейшем. Эмоционально это связано с удовлетворением, полученным в ответ на целенаправленное поведение. В результате поведенческая реакция, сформированная при помощи положительного аппетентного подкрепления, будет зависеть от ситуации, в которой она закрепилась.
Типы поощрения
Обычно применяются четыре типа поощрения: пища, виды активности, обладание и социальное подкрепление. Следует учитывать потенциальную ценность каждого из них для конкретного животного.
• Пища (лакомство) — форма подкрепления, наиболее широко применяемая в традиционной дрессировке животных.
• Различные виды активности (например, прогулки или игры) используются для подкрепления более редких форм поведения. Животному позволяют заняться каким-либо контролируемым видом активности (например, грызть что-либо или играть), для чего дают ему соответствующую игрушку.
• Обладание само по себе может служить подкреплением, даже если животное, по всей видимости, не использует полюбившийся предмет (скажем, игрушку) в каких-либо иных целях. Обладание является, по-видимому, особенно эффективной формой подкрепления для многих пород охотничьих собак.
• Социальное подкрепление (внимание, одобрение) имеет место при самых разных видах активности, от совместной игры и физического контакта до устного подбадривания и зрительного контакта.
Набор подкрепляющих факторов можно установить, определив, какие лакомства, виды активности, игрушки, социальные взаимодействия и каких компаньонов предпочитает пациент. Затем оценивают их значимость для животного (если необходимо, путем испытания) для того, чтобы построить иерархию подкрепляющих факторов (от наиболее ценимых животным, до тех, которые оно ценит меньше всего). Эта иерархическая шкала вполне пригодна для использования в любой последующей программе дрессировки.
Использование положительного подкрепления
Чтобы успешно осуществлять положительное подкрепление в программе дрессировки, следует придерживаться ряда правил.
• Выбрать наиболее предпочтительную форму подкрепления.
• Установить правила, которым предстоит следовать.
• Проследить за тем, чтобы доступ к формам подкрепления, применяемым в дрессировке, в остальное время был ограничен.
• Проследить за тем, чтобы подкрепление происходило в нужное время и в нужном месте с учетом требуемого конечного результата.
• С самого начала выстроить ситуацию таким образом, чтобы свести риск неудачи к минимуму.
Выбор адекватного подкрепления. В силу своих природных особенностей животные формируют одни ассоциации легче, чем другие. Поэтому для каждой поведенческой реакции следует, по возможности, использовать биологически уместные формы подкрепления. Например, если на занятиях разрешить щенкам бегать и играть после того, как они выполнят команду “Ко мне!”, это позволит сочетать социальное вознаграждение (игру) с данной командой; в противном случае эта команда будет восприниматься как сигнал к прекращению активности, что само по себе может создать трудности.
Установление правил. Сюда относится четкое и конкретное определение того момента, когда должно проводиться подкрепление. Предположим, нужно отучить собаку от попыток привлечь к себе внимание. Следует сказать хозяину, чтобы он поощрял ее, когда она спокойно сидит у его ног. Тогда контролировать ход дрессировки будет легче, чем в тех случаях, когда владельца инструктируют в общих словах. Оговаривая конкретное время для поощрения животного, вы тем самым помогаете владельцу сконцентрироваться на выполнении каждого шага. Это особенно важно на ранних этапах выполнения программы. Для отслеживания прогресса рекомендуется специальная дрессировка (успех оценивают по способности животного спокойно лежать в течение определенного времени). Правила могут быть изменены по мере разрешения проблемы (т.е. увеличения продолжительности выдержки, что можно рассматривать как успех).
Ограничение доступа к подкрепляющим факторам. Если проследить за тем, чтобы доступ к факторам подкрепления, используемым в дрессировке, в остальное время был ограничен, можно предотвратить перенасыщение и тем самым продлить и усилить эффект выбранного способа подкрепления. По этой причине не следует предоставлять животным свободный доступ к их игрушкам или еде, используемым как средства подкрепления.
Время и место. Легче всего формируется ассоциация между непосредственно следующими друг за другом действиями; поэтому важно проследить, чтобы подкрепление происходило сразу же, как только достигнута желательная реакция, а животное не успело сделать ничего прежде, чем эта желательная реакция была подкреплена. Например, если отрабатывается команда “Сидеть!”, а для получения лакомства за ее выполнение животному приходиться вставать, то в действительности на команду “Сидеть!” закрепляется ответная реакция “Сидеть, встать!”. Трудно выбрать точный момент поощрения, и здесь может помочь вторичный подкрепляющий фактор, например прищелкивание языком (см. ниже, раздел о вспомогательных средствах дрессировки). Первоначально реакция на команду будет ассоциироваться с конкретным местом, поэтому владельцу следует дрессировать животное в разных местах, если он хочет, чтобы ответная реакция была генерализованной, а не ограниченной конкретным местом.
Сведение риска неудачи к минимуму. Первоначальную дрессировку следует проводить в отсутствие отвлекающих раздражителей, например дома поздно вечером. При обучении питомца выполнению команд (например, “Сидеть!” и “Лежать!”) ему показывают лакомство, чтобы вызвать у него побуждение проявить желательную реакцию. Кошек можно научить пользоваться столбиком для царапанья, если играть с ними, передвигая игрушку вверх по столбику. В дальнейшем, когда животное прикасается лапками к столбику, ему дают лакомство.
Отрицательное аппетентное подкрепление
Отрицательное подкрепление представляет собой процесс, посредством которого удаление раздражителя увеличивает вероятность проявления поведенческой реакции в дальнейшем.
Этот процесс связан с эмоциями (облегчением), вызванными успешным спасением от потенциально опасных ситуаций. Поэтому и природа поведенческих реакций, усваиваемых подобным образом, несколько иная, чем в случае положительного подкрепления. Здесь животное не может добиться желаемого другими путями, в силу чего ответные реакции закрепляются намного прочнее. Они вызывают в головном мозге такие же химические процессы, как при формировании психической зависимости, а потому выработать реакцию альтернативную той, которая была усвоена подобным образом, становится значительно труднее.
Следовательно, прогноз коррекции поведения животного, убегающего из сада, будет различным для случаев, когда эта реакция появилась в момент сильного испуга или когда животное обнаружило ту же лазейку, обследуя сад из чистого любопытства. Страдающие фобиями питомцы, которых обеспокоенные хозяева оберегают и лелеют, являются особенно трудными пациентами, потому что у этих животных вырабатывается постоянная потребность в подобном комфорте (см. гл. 15 и 18).
Наказание
Положительное наказание
Положительное наказание должно сформировать у животного отвращение к демонстрируемой им форме поведения, и для этого у него провоцируют эмоцию страха посредством аверсивного раздражителя. Страх, связанный с положительным наказанием, может привести к оборонительной агрессии, поэтому данный метод противопоказан в тех случаях, когда животное трусливо, страдает повышенной тревожностью или не имеет возможности убежать.
Наказание не обеспечивает подкрепления желательного поведения; не имеет смысла сосредоточиваться на наказании, чтобы обучить животное определенному поведению,— это неэффективно. Применение наказания сопряжено со многими трудностями, поэтому оно часто употребляется неправильно.
Чтобы наказание было эффективным, оно должно отвечать одному из следующих критериев:
• наказание должно быть настолько сильным, чтобы страх перед ним быстро подавлял будущие попытки воспроизвести данную поведенческую реакцию; или
• в случаях нежелательного поведения наказание должно применяться настолько часто, чтобы, в конечном счете, питомец понял, что цена наказания за данное поведение перевешивает любую потенциальную выгоду от него.
Если владелец наказывает животное (используя положительное наказание) за то, что питомец натворил и при нем и в его отсутствие, то он рискует сформировать отвращение не к данному поведению, а к самому себе (ведь хозяин — более надежный прогностический фактор наказания, чем данное поведение) и фактически способствует тому, чтобы данное поведение проявлялось именно в его отсутствие. Такие нежелательные поведенческие реакции с трудом поддаются коррекции, поскольку, проявляясь в то время, когда нет хозяина, они получают отрицательное подкрепление за счет отсутствия привычного наказания и связанных с ним негативных ощущений.
Отрицательное наказание
Отрицательное наказание предусматривает отмену приятного события (включая ожидаемое вознаграждение) в ответ на данное поведение. Отрицательное наказание часто используется для контроля таких моделей поведения, как чрезмерно шумная игра у собак и кошек, а также слишком сильное покусывание у щенков; хозяин объявляет тайм-аут, когда поведение животного становится недопустимым.
Фрустрация
Отрицательное наказание вызывает фрустрацию, которая может проявляться как усугубление поведенческой проблемы или как общая депрессия. Поэтому ухудшение ситуации вслед за исключением предполагаемого подкрепления служит индикатором правильной оценки источников подкрепления. Необходимо предупредить владельца о риске интенсификации нежелательного поведения, в противном случае он может неверно оценить этот момент и отказаться от выполнения программы.
Другим возможным последствием фрустрации является агрессия. Поэтому для коррекции поведения животных с агрессивными тенденциями или неспособностью справиться с фрустрацией следует применять этот метод с особой осторожностью.
Практические соображения
Отрицательное наказание не обязательно должно быть абсолютным (т.е. исключать все факторы подкрепления): оно может состоять в снижении предыдущего уровня подкрепления. Поэтому в тех случаях, когда у животного начала проявляться агрессивность, важно выяснить, связаны ли агрессивные эпизоды с изменением ожидаемого вознаграждения.
Поскольку отрицательное наказание, как и положительное, не обучает животное определенному целевому поведению, для повышения эффективности этого воздействия его следует сочетать с той или иной формой ап-петентного подкрепления. Например, в случае слишком оживленной игры это может быть возобновление игры сразу, как только животное успокоится.
Консультирование владельцев по применению наказания
Животные выбирают, что им делать, оценивая “за” и “против” для разных вариантов поведения в данный момент времени. Цель программ модификации поведения - добиться, чтобы по результатам такой оценки животное гарантированно выбирало приемлемое поведение.
Владелец, как правило, сосредоточивается на наказании за недостойное поведение, тогда как на деле гораздо эффективнее вознаграждать за хорошее поведение. В лучшем случае наказание оказывается неэффективным (поскольку поведение сохраняется), часто же проблема только усугубляется вследствие эмоциональных последствий наказания.
Исходя из этих соображений, а также потому, что эффективное применение наказания обычно сопряжено с большими трудностями, следует отговаривать владельцев от его использования. Если же наказание представляется необходимым, специалист должен хорошо знать факторы, позволяющие добиться максимальной его эффективности при минимальном риске причинения вреда пациенту (Mills, 1997).
Режимы подкрепления_
Определив, какие поведенческие реакции (если таковые вообще имеются) подлежат подкреплению, можно использовать режимы непрерывного, прерывистого и затухающего подкрепления.
Режимы непрерывного подкрепления
Непрерывное подкрепление предусматривает подкрепление каждой желательной поведенческой реакции. В режиме непрерывного подкрепления новые модели поведения усваиваются животным быстро, но если подкрепление прекращается, они вскоре утрачиваются (угасание условного рефлекса). Этот режим наиболее эффективен на первых этапах дрессировки.
Режимы прерывистого подкрепления
Прерывистое подкрепление предусматривает подкрепление желательной ответной реакции от случая к случаю. Оно может проводиться несколькими способами.
• Фиксированный режим, при котором точно определяются временные параметры подкрепления ответной реакции; при этом можно использовать:
- фиксированное соотношение (например, каждая шестая реакция);
- фиксированный интервал (первая ответная реакция, полученная после определенного промежутка времени);
- фиксированную продолжительность (после того, как животное воспроизводит желательную реакцию в течение определенного периода).
• Переменный режим, при котором время подкрепления реакции устанавливается произвольно.
• Дифференцированный режим, при котором время подкрепления реакции устанавливается по ее качественной характеристике.
В режиме прерывистого подкрепления независимо от степени проявления поведенческой реакции объем подкрепления, по определению, всегда меньше, чем в режиме непрерывного подкрепления. Следовательно, дрессировка может продолжаться дольше. На практике чаще используют либо переменный, либо дифференцированный режим, поскольку их легче применять для формирования четкого и стойкого изменения поведенческих реакций животного.
Режим прерывистого подкрепления для выработки требуемой поведенческой реакции
Если режим прерывистого подкрепления используют для того, чтобы выработать определенную модель поведения, то первоначально подкрепление производят часто, а затем, как только устанавливается стабильная ответная реакция, начинают применять все реже и реже. Так, на начальном этапе животное поощряют за исполнение любого действия, приближающегося к целевому поведению, а позднее только за наиболее четкое выполнение требований, с тем чтобы его поведение формировалось в заданном направлении. Этот процесс, называемый последовательным приближением, наиболее эффективен в тех случаях, когда в определенный отрезок времени работа ведется только с одним аспектом поведения. Например, если животное учат садиться по команде, то первоначально его вознаграждают каждый раз, когда оно выполняет команду (непрерывное подкрепление); как только ответная реакция становится стабильной, обычно переходят на дифференцированный режим, т.е. поощряют только те случаи, когда животное садится правильно и быстро.
Режим прерывистого подкрепления для подавления нежелательного поведения
Использование режимов прерывистого подкрепления позволяет также снизить частоту некоторых поведенческих проявлений или даже полностью устранить их. Это достигается путем дифференцированного подкрепления ослабленных проявлений проблемного поведения (ДПО), причем для успеха не требуется активного участия животного в программе дрессировки.
При ограниченном ДПО подкрепляется поведение, при котором частота или продолжительность нежелательных проявлений не превышают предварительно заданного уровня. Экспериментально установлено, что некоторые варианты метода позволяют устранять усвоенное нежелательное поведение быстрее, чем простым прекращением подкрепления (Zeiler, 1971).
Этот метод наиболее целесообразно применять на ранних этапах борьбы с чрезмерно громкими голосовыми сигналами животного, особенно если цель данного поведения — привлечь внимание хозяина. Успех зависит от характера голосовых сигналов, а также от того, насколько животное заинтересовано в получаемом от владельца вознаграждении.
• Первоначально вознаграждаются менее интенсивные проявления, благодаря чему животное быстро понимает, что предпочтительны более мягкие формы поведения.
• Затем требования становятся строже: поощряется еще более спокойное поведение.
• Даже после того, как реакции животного станут стабильно менее интенсивными, эту стратегию продолжают до тех пор, пока не достигнут допустимого уровня громкости, либо совсем перестают обращать на проблему внимание.
• В качестве альтернативы можно использовать раздельное ДПО, при котором подкрепляют реакции, разделенные определенным временным интервалом.
Одна из причин, почему эти методы очень полезны для коррекции некоторых типов поведения, направленного на привлечение внимания, состоит в том, что трудно ожидать от хозяина, чтобы он не обращал внимания на своего питомца каждый раз, когда тот пытается установить контакт,— ведь большинство живот-ных-компаньонов содержат именно ради радости общения с ними. Практичнее попросить владельца ограничивать свое внимание к животному и не проявлять его хотя бы в те минуты, когда животное оставляет его одного.
При использовании данных методов следует очень осторожно относиться к росту ожиданий животного, поэтому важно увеличивать объем вознаграждения лишь по мере улучшения поведения. Если же животное будет получать все большее вознаграждение при минимальном уровне требований к нему, успеха не будет. Исходя из этого, необходимо, чтобы клиент вел записи того, какой объем вознаграждения он использует каждый день.
Режимы затухающего подкрепления — разрушение ассоциации
Принцип затухания заключается в следующем: если после обычно подкрепляемой поведенческой реакции не давать аппетентного подкрепления, вероятность ее проявления будет снижаться. По существу это форма отрицательного наказания за сформированное поведение.
Как правило, подкрепление, приводящее к возникновению проблемы, бывает неумышленным. Например, доставив почту, почтальон уходит, а непосредственно перед его уходом собака случайно начинает лаять. Поведение собаки подкрепляется уходом почтальона, так как собака не знает, что почтальон все равно ушел бы, даже если бы она не среагировала подобным образом. В этом случае для разрушения ассоциации методом затухающего подкрепления необходимо, чтобы “подставной почтальон” пришел в дом и не уходил до тех пор, пока собака не успокоится. Если повторить это упражнение несколько раз, собака, в конце концов, поймет, что ее реакция никак не влияет на исход ситуации.
Ограничения по использованию затухающего подкрепления
Хотя метод затухающего подкрепления часто рекомендуется для устранения многих приобретенных нежелательных поведенческих реакций, существует ряд факторов, ограничивающих эффективность программ, построенных на основе простого отказа от подкрепления.
• Для некоторых форм поведения (например, самоподкрепляющихся) этот режим не подходит, даже если данному поведению способствует внешнее подкрепление. Так, кошек, царапающих мебель, нельзя отучить от этой привычки только тем, что владелец не перестанет обращать на них внимание, поскольку сам процесс царапанья обеспечивает аппетентное подкрепление. Точно так же лай, мотивированный игрой, не поддается затухающему подкреплению.
• Определенное поведение часто подкрепляется несколькими источниками, и, чтобы выполнение режима затухающего подкрепления было эффективным, необходимо выявить и устранить каждый из них. Самую большую опасность в этом отношении представляют доброхоты - посторонние и домочадцы, которых обычно не слишком интересует питомец (и поэтому они не желают как-то изменять свои привычки ради него). Другим источником подкрепления, особенно тех форм поведения, которые направлены на привлечение внимания, бывает слабость со стороны хозяина.
• Процесс затухающего подкрепления приводит к эмоциональной фрустрации, а это означает, что поведение ухудшается перед тем, как выправиться. Многие владельцы не способны справиться с этим и поэтому бросают выполнение программы.
Повышение эффективности режимов затухающего подкрепления
• Эффективность режимов затухающего подкрепления можно повысить, если объединить их с программами, включающими положительное подкрепление допустимого уровня других форм нежелательного поведения (см. выше раздел о дифференцированном подкреплении).
• Чем лучше контролируется окружение собаки, тем больше шансов на успех, поскольку устраняются непредвиденные источники подкрепления. Если днем хозяина не бывает дома, а у него есть дети, которые могут подкреплять нежелательные модели поведения животного, простой режим затухающего подкрепления часто оказывается бесполезным.
• Четкие рекомендации, данные клиенту, помогают обеспечить требуемую согласованность действий (см. выше, отрицательное наказание).
• Мотивацию владельца можно повысить, объяснив ему эффект фрустрации.
• Нежелательное поведение можно постепенно устранить, если сначала выявить одну из специфических ситуаций, в которых оно возникает, и рекомендовать хозяину в это время исключить подкрепление. После выполнения этих рекомендаций, можно перейти к выявлению следующей ситуации.
Игра-наблюдение. Можно рекомендовать клиентам простой и эффективный практический подход - проведение затухающего подкрепления превратить в семейную игру. Например, если собака пытается привлечь к себе внимание, владельцы должны игнорировать ее в это время, а также следить за тем, кто из членов семьи не выдержит и ошибется. Заметившему ошибку засчитывается одно очко. Тот, кто наберет к концу недели больше очков, получает приз, оплачиваемый тем, кто допустит наибольшее число ошибок. Это также поможет членам семьи проследить за возможными способами подкрепления.
Использование непрерывного подкрепления вначале
Затухающее подкрепление быстрее даст успешные результаты, если нежелательное поведение подкреплялось непрерывно, а не периодически; поведенческие реакции, получавшие прерывистое подкрепление, труднее устранить этим методом. Поэтому в некоторых ситуациях используется следующий прием: вначале непрерывно положительно подкрепляют нежелательное поведение, чтобы сделать его более стабильным, а в результате — легче затухающим. Только достигнув стабильной ответной реакции, прекращают любое подкрепление с тем, чтобы устранить данное поведение.
В частности, этот метод вполне применим в случае, если собака лает на звук дверного звонка. Однако лай не должен быть прелюдией к всплеску активности, которая подкрепляет лай независимо от того, какие меры принимает владелец.
Проблемы, возникающие при использовании режимов затухающего подкрепления
К проблемам, наблюдаемым при работе с программами затухающего подкрепления, относятся неумышленное игнорирование хорошего поведения и последствия фрустрации, которую вызывает у особи недостаточное подкрепление. Последнее, как отмечалось выше, может приводить к интенсификации нежелательного поведения (“взрыв затухания”) перед его спадом, нарастанию агрессии, а также к различным формам амбивалентного, смещённого, “вакуумного” и перенаправленного поведения; в результате животное выглядит беспокойным, тревожным, что заставляет волноваться хозяина.
Как и в случае любой приобретенной ответной реакции, эффект затухания может исчезнуть, если не будет периодически подкрепляться. Требуется, чтобы время от времени животное подвергалось воздействию пускового раздражителя. Например, хозяин успешно и сравнительно быстро с помощью затухающего подкрепления отучил собаку попрошайничать у праздничного стола. После этого хозяин уехал, отправив питомца в гостиницу для собак. Таким образом, собака какое-то время была лишена возможности попрошайничать. Когда собаку возвращают домой, нежелательное поведение может проявиться вновь (восстановиться) без какого-либо поощрения со стороны владельца. Восстановленные поведенческие реакции обычно бывают менее интенсивными и, как правило, устраняются легче.
Если использование затухающего подкрепления не дало результата, это может объясняться следующим:
• удаленный фактор не оказывал в действительности подкрепляющего воздействия;
• сохранялся какой-то источник прерывистого подкрепления нежелательной поведенческой реакции;
• не подкреплялось альтернативное, приемлемое поведение и тем самым не были созданы предпосылки для его формирования.
Неассоциативное обучение: привыкание_
Привыкание (габитуацию) принято рассматривать как форму неассоциативного обучения, поскольку оно обеспечивает устранение поведенческой реакции посредством повторяющегося воздействия раздражителя, а не за счет формирования ассоциации между двумя событиями (Chance, 1994). В процессе развития животное обычно подвергается воздействию различных не представляющих угрозы раздражителей, и это обусловливает не только определенную реакцию на тот или иной раздражитель, но также и общую реакцию на новый фактор. Животные, подвергавшиеся ограниченному воздействию раздражителей, чаще проявляют реакцию страха, что позднее может привести к возникновению многих поведенческих проблем (см. гл. 2 и 3). Поэтому процесс привыкания к разнообразию внешних воздействий имеет важнейшее значение в формировании у животного нормальных реакций на новые раздражители.
Привыкание используется также как метод лечения в случаях неадекватной реакции на нейтральный раздражитель. При этом животное подвергают воздействию данного раздражителя и позволяют ему проявлять ответную реакцию до тех пор, пока оно не успокоится. Затем процесс повторяют несколько раз, пока животное не перестанет обращать внимание на этот раздражитель.
Простое привыкание может использоваться для устранения реакций на анксиогенные (вызывающие тревогу) раздражители, но оно неэффективно, если раздражитель провоцирует явную реакцию страха: животное под влиянием страха стремится спастись бегством от раздражителя вместо того, чтоб постепенно привыкать к нему. В подобных ситуациях применим метод, известный как систематическая десенсибилизация (см. ниже).
Методы модификация поведения
Существует три основных метода модификации поведения, разработанных на основе теории обучения: систематическая десенситиза-ция, выработка противоположных рефлексов и погружение.
Систематическая десенситизация
Систематическая десенситизация позволяет повысить порог реагирования животного на данный объект или ситуацию. Она широко применяется для лечения страхов и фобий (см. гл. 17 и 18) и может использоваться при других формах повышенной возбудимости (например, в случаях возбуждения собаки при звуке дверного звонка или индуцированной поглаживанием агрессии кошек). Данный метод относительно прост для понимания, однако выполнение его встречает серьезные трудности, главным образом потому, что клиенты зачастую слишком торопятся. Поэтому необходимо давать клиентам четкие инструкции и желательно - информационные материалы (фиг. 5.5).
Описание проблемы:
Проблемная поведенческая реакция:
Желательная поведенческая реакция:
Упражнение на расслабление:
Пусковые факторы проблемного поведения:
• вызывают наиболее интенсивную форму поведения (оценивают по шкале: 1 - наиболее сильный, 2 - второй по силе и так далее)
• вызывают реакцию умеренной интенсивности (продолжают оценивать по той же шкале)
• вызывают допустимую, но все же нежелательную степень возбуждения
Составляющие раздражители (визуальный, звуковой, химический, физический):
Упражнение номер:
Стартовый критерий:
Раздражители и их комбинации:
Желательная поведенческая реакция:
Число устойчивых проявлений желательного поведения: Примечания:
Режим лечения:
Дата отчета о ходе лечения/ цель:
Фиг. 5.5. Программа систематической де-сенситизации. Карта предписаний
Этапы:
• Идентификация и классификация раздражителей.
• Обучение животного расслабляться по команде.
5 - Собаки и кошки
• Определение допустимых ответных реакций на раздражитель.
• Классификация элементов проблемной ситуации.
• Подкрепление обучения.
Классификация раздражителей
В ситуации, вызывающей нежелательную поведенческую реакцию, обычно удается выделить ряд составляющих типа раздражителей, действующих на органы чувств (визуальных, слуховых, химических), или ранжировать раздражители (такие, как: люди, место, объекты или другие животные) по уровню реакции на них. Все раздражители должны быть идентифицированы и классифицированы, начиная с наиболее сильных и заканчивая наиболее слабыми.
Расслабление на команде
Следует научить питомца расслабляться по команде, заставляя его, например, спокойно лечь у ног и затем нежно поглаживая. В некоторых случаях может потребоваться применение психотропных средств для облегчения процесса расслабления, особенно на ранних этапах.
Перед тем как начать десенситизационные упражнения, рекомендуется дать животному побегать и поиграть, поскольку движение помогает расслабиться. В некоторых случаях, если возбуждение приближается к недопустимому уровню, до и во время упражнений по десенситизации приходится применять отвлекающие стимулы; обычно используют отвлечение с помощью любимой игрушки или расслабляющего поглаживания по спине.
Идентификация реакций
Далее нужно определить, какие реакции на пусковой раздражитель считать допустимыми. К ним может относиться внимание к раздражителю, но никак не явная агрессия или попытка убежать.
Воспроизведение элементов ситуации
Животному, находящемуся в расслабленном состоянии, предъявляют элементы проблемной ситуации, начиная с самых слабых по действию. Команду расслабиться дают после каждого воздействия, чтобы выработать у животного ассоциацию данного раздражителя с расслаблением. Этот прием повторяют несколько раз в разных ситуациях до тех пор, пока животное станет стабильно реагировать на раздражитель не более чем поверхностным интересом.
В тот же период, но не одновременно, а в виде отдельных упражнений, проводимых по той же схеме, животному предъявляют другие проблемные раздражители того же уровня действия. Для определения момента, когда следует переходить к следующим по силе воздействия раздражителям или их комбинации, пользуются четкими правилами, одно из которых - наличие спокойной ответной реакции в пяти последовательных случаях.
Важно, чтобы процесс протекал не слишком быстро, и упражнения выполнялись в доступном для животного темпе. Большее число кратких сеансов скорее дадут нужный результат, чем меньшее число более продолжительных сеансов. В любом случае, прежде чем перейти на следующий уровень, необходимо добиться стабильной реакции.
Подкрепление