Предыдущая | Главная | Глава 10 | Следующая
Если мы рассматриваем игру,
описываемую платежной матрицей с размерностью 2´2, то ее решение находится весьма просто.
(Это соответствует случаю, когда в конфликте участвуют два противника, каждый
из которых имеет две стратегии своих действий).
Алгоритм нахождения решения игры
1. Необходимо проверить игру на наличие
решения в чистых стратегиях. Для этого необходимо установить, имеет ли
платежная матрица седловые точки. (См. алгоритм нахождения седловой точки
в параграфе 2). Если седловая точка
имеется, то на этом процесс нахождения решения заканчивается и оптимальными
стратегиями игроков будут те, которые пересекаются в седловой точке. А седловой
элемент матрицы в этом случае – цена игры. Если седловой точки матрицы не
оказалось, то надо искать решение игры в смешанных стратегиях.
2. Будем пояснять правила нахождения
решения на примере 10.6, описанном выше.
Начнем
с отыскания решения для первого игрока. Напомним, что платежная матрица в этой
игре была:
.
Первое, что
необходимо сделать, это вычесть из первого столбца второй и взять каждый элемент
полученного столбца по модулю:
-== = .
Затем
необходимо “перевернуть” столбец:
.
Полученные
элементы столбца и дадут нам относительные частоты стратегий первого игрока,
т.е. он должен применять свои стратегии с отношением 1: 3. Вероятность
применения первой стратегии. А второй - .
3. Оптимальная смешанная стратегия для
второго игрока находится аналогично, только вместо столбцов необходимо
оперировать со строками матрицы. Вычитаем из первой строки вторую и берем все
элементы по модулю числа:
Меняем
местами элементы полученной строки и в результате получаем относительные
частоты стратегий второго игрока 2 : 2. Т.е. он должен применять свои стратегии
в равном соотношении 2 : 2 или 1 : 1.
Вероятности
и первой, и второй стратегии второго игрока равны .
4. Теперь рассчитаем цену игры. Так как , то,
используя следствие из теоремы 4 и теорему 5, можно записать:
. Или ,
v = 1× + 3× = .
Если мы найдем значение сумм
, или , (10.11)
то окажется, что результат будет тот
же.
Действительно,
,
,
.
В играх с
матрицей 2´2, имеющих решение в смешанных
стратегиях, средний платеж, рассчитываемый по формулам (10.11), всегда будет
одинаков. Это обстоятельство может служить подтверждением правильности расчета
оптимальных смешанных стратегий.
Сформулируем решение игры с матрицей А 2´2 в общем виде.
А=.
Если седловой точки
матрицы нет, то ее решение находится в смешанных стратегиях. Первый игрок
должен применять свои стратегии с относительными частотами и , где
; .
Вероятности применения стратегий
первого игрока и равны:
,
.
получаем из равенства :
,
Второй игрок должен
использовать свои первую и вторую стратегии с соотношением :
; .
Вероятности первой и второй стратегии
и :
.
Заметим, что знаменатель во всех
формулах нахождения вероятностей одинаков и равен .
Цена игры определяется по формуле:
.
Если мы подставим в эту
формулы выражения для, , то после проведения простых алгебраических операций
получим:
.
Итак, решение игры в
смешанных стратегиях определяется следующими выражениями:
, , , ,
,
где . (10.12)
Применяя изложенное выше
правило, найдем оптимальную стратегию оперуполномоченного (пример 10.4).
Напомним, что платежная матрица игры составляла:
.
Вычитаем из первого
столбца второй и берем полученные результаты по модулю. Получим
.
Значит, оперативник
должен применять свои стратегии с частотами 2 : 4 или . Вероятность применения первой стратегии – идти на
задержание самому – равна . Вероятность применения второй стратегии – вызов группы
захвата – составляет в данном случае .
Вопрос об оптимальной
стратегии подозреваемого носит чисто академический характер. Тем не менее,
рассчитаем вероятности его стратегий для закрепления рассмотренного правила.
.
Таким образом, отношение
частот применения первый и второй стратегии подозреваемого 4 : 2 или . И набор вероятностей, составляющих оптимальную смешанную
стратегию,.
Цена этой игры составит: .
Сравним решение
примера 10.6 с решением еще двух простых игр, частично для практики, а частично
для того, чтобы продемонстрировать некоторые общие правила. Платежные матрицы
этих игр составляют:
, , .
Оказывается, что вероятности применения
стратегий игроками во всех этих играх одинаковы. Полный набор вероятностей для
первого игрока , а для второго . Почему же разные платежные матрицы игр приводят к
одинаковым смешанным стратегиям?
Если
внимательно проанализировать представленные матрицы, то можно заметить, что две
последние могут быть получены из первой. Элементы второй матрицы равны соответствующим
элементам первой, умноженным на 2:
.
Для получения третьей матрицы
необходимо к соответствующим элементам первой прибавить 1:
.
Эти игры иллюстрируют следующее общее правило: на способ ведения игры не оказывает влияния прибавление ко всем
платежам постоянной величины или умножение всех платежей на положительное
постоянное число.
Цена
же игры во всех трех случаях получается разной.
Для первой игры цена составляет . Для
второй игры цена равна . Цена третьей игры – .
Итак, в то время как способ ведения
игры не подвержен влиянию прибавления ко всем платежам постоянного числа или
умножения всех платежей на постоянное число, цена игры при этом изменяется. При
прибавлении постоянного числа ко всем платежам к цене игры добавляется это же число
(изменяется только степень несправедливости игры), а при умножении всех
платежей на постоянное число цена игры умножается на это же число (изменяются
только единицы измерения выигрышей).
Хорошая игра
против плохой
Теперь мы знаем относительно игры 2´2 почти все, за исключением того, что
случится, если один игрок (пусть для определенности это будет первый) играет,
пользуясь оптимальной стратегией, а другой (второй) — нет. При этом мы должны
различать два случая.
Первый случай. Если в игре
имеются седловые точки (т.е. оптимальными стратегиями являются чистые стратегии)
и второй игрок не применяет свою оптимальную чистую стратегию, то он будет
действовать с расточительной щедростью.
Второй случай. Если
оптимальными стратегиями являются смешанные стратегии, то независимо от того,
что делает первый игрок, «хорошая» игра его противника будет поддерживать все
время один и тот же средний платеж. Аналогично, если второй игрок
придерживается "правильной" смешанной стратегии, то результат будет в
любом случае одним и тем же, независимо от того, как играет первый. (Для игр с
большим числом стратегий, таких, как игры 2´3, данный вывод
не применим.)
Рассмотрим
еще несколько «живых» примеров с применением теории игр. Философия этих
примеров заключается в том, что почти все может оказаться простой игрой.
Пример 10.7. Угон автомашины
В
качестве выигрыша сотрудников ГИБДД в той или иной сложившейся ситуации будем
рассматривать вероятность задержания ими угонщиков. Если направления движения
исследуемой патрульной машины и преступников совпадут, то сотрудники ГИБДД задержат угонщиков и их выигрыш при
этом составит 1. Если сотрудники милиции выберут направление к развилке 2, а
угонщики – к развилке 1, то вероятность их задержания, а, следовательно, и
выигрыш составит (за счет
дополнительной машины ГИБДД). В прямо противоположной ситуации выигрыш будет
равен , так как количество направлений дальнейшего движения после
развилки три и на одном из них, неизвестном угонщикам, дежурит еще одна машина
ГИБДД.
Следовательно,
платежи в данной игре распределяются так:
Сотрудники ГИБДД |
|
Угонщики |
|
|
Направление 1 |
Направление 2 |
|
Направление 1 |
1 |
|
|
Направление 2 |
|
1 |
и платежная матрица игры будет
следующей:
.
Проверив
матрицу на наличие седловой точки, мы убедимся, что игра не разрешима в чистых
стратегиях. Необходимо решать задачу по приведенному выше алгоритму. Получим,
что сотрудникам ГИБДД необходимо применять свои стратегии в соотношении : или 4:3. Таким образом, оптимальная смешанная стратегия
определяется следующим набором вероятностей: . Исходя из этого соотношения вероятностей стратегий, нужно
определить направление движения, воспользовавшись жребием.
Цена игры в данном случае – средняя
вероятность задержания угонщиков – равна: .
Пример 10.8. Проявка пленки
При исследовании места преступления криминалист из
оперативной группы сделал несколько важных снимков, которые он должен был
срочно проявить и напечатать. При проявлении пленки он вспомнил, что использованный
им проявитель может быть, либо нормальный (для пленки), либо разведенный в два
раза (для фотографий). Криминалисту необходимо определить, сколько времени
проявлять пленку в имеющемся проявителе, так как от концентрации проявителя
зависит ее качество.
Возникшую
ситуацию можно рассматривать как игру: первый игрок — криминалист, второй —
природа.
У криминалиста
имеются две стратегии:
1. Проявлять пленку 15 минут в расчете
на нормальный проявитель.
2. Проявлять пленку 30 минут в расчете
на разведенный проявитель.
У второго
игрока также имеется две стратегии:
1. Проявитель
нормальный.
2. Проявитель
разведен в два раза.
Если
проявитель нормальный, то проявление в течение 15 минут дает наилучший
результат, который криминалист оценивает в 5 баллов (отлично).
Если
проявитель разведен для печатания фотографий, то проявление пленки в течение 15
минут дает слабый неконтрастный негатив. Однако из такого негатива все же можно
получить фотографии среднего качества: такое положение оценивается
криминалистом в 3 балла (удовлетворительно).
Если
проявитель разведен для печатания фотографий, т. е. он разбавлен в два раза по
сравнению с нормальным, то проявление пленки в течение 30 минут, учитывая закон
обратной пропорциональности, приведет все же к хорошему негативу. Такое
положение криминалист оценил в 4 балла (хорошо).
Если же проявитель нормальный, то проявление пленки в
течение 30 минут дает крупное зерно, вуаль, большую контрастность и т. д.
Снимки получатся очень плохими, и такое положение он оценил в 1 балл (очень
плохо). Таким образом, матрица выигрышей в баллах получилась в следующем виде:
.
Очевидно, полученная матрица не имеет
седловой точки, поэтому по формулам (12) получаем решение в виде оптимальных
смешанных стратегий X=, Y= соответственно для первого и второго игроков:
, , , , .
Если
бы такую ситуацию можно было повторять много раз, то, проявляя пленку в 60%
случаев по 15 минут и 40% случаев по 30 минут, криминалист получит снимки, качество
которых оценивается 3,4 балла. Однако для него важны именно эти снимки, и он не
может повторять ситуацию много раз для использования оптимальных смешанных
стратегий в вышеуказанном смысле. Поэтому он может использовать те части
времени, которые соответствуют его оптимальной смешанной стратегии, т. е. ему
необходимо проявлять пленку в течение следующего промежутка времени:
t = 15+30= 15 × 0,6 + 30 × 0,4 = 21 мин
и качество полученного негатива при
этом составит 3,4 балла.
Предыдущая | Главная | Глава 10 | Следующая