Дифференциальные игры преследования с неполной информацией

Автор работы: Пользователь скрыл имя, 28 Октября 2011 в 00:23, курсовая работа

Краткое описание

Теория дифференциальных игр – это новое математическое направление, возникшее всего лишь несколько лет назад. Она тесно связана с теорией оптимального синтеза, управлением случайными процессами; некоторые её аспекты переплетаются с такими классическими направлениями, как дискретные игры, дифференциальные уравнения, вариационное исчисление.

Содержание работы

Введение 4
Основные сведения из теории дифференциальных игр 6
Определение дифференциальной игры 6
Стратегии в дифференциальной игре 9
Виды выигрышей в дифференциальных играх 15
Дифференциальные игры с неполной информацией 17
Игры преследования с задержкой информации у игрока Р 17
Существование ситуаций равновесия в играх преследования 20
Игра преследования с фиксированной продолжительностью и задержкой информации у обоих игроков 24
Заключение 28
Список использованных источников

Содержимое работы - 1 файл

курсовая моя готовая.docx

— 186.32 Кб (Скачать файл)

  2.Дифференциальные  игры с неполной  информацией

    1. Игры преследования с задержкой информации у игрока Р.
 

  Игры  преследования с неполной информацией являются непосредственным обобщением игр преследования с полной информацией. Наиболее простым случаем неполной информации является такой, при котором игрок Р узнает фазовое состояние игрока Е с запаздыванием d>0, а игрок Е имеет полную информацию.

  Пусть задано некоторое число d>0, называемое задержкой информации. При 0td игрок P в каждый момент времени t знает свое состояние х(t), время t и состояние игрока Е в начальный момент уо. При dtТ игрок Р в каждый момент t знает свое состояние х(t), время t и состояние у(t—d) игрока Е в момент t—d. Игрок Е в каждый момент времени t знает свое состояние y(t), состояние противника x(t) и время t. Его выигрыш равен ρ(x(T), y(T)). Игра антагонистическая. Обозначим ее через Г(x0, y0, t).

  Кусочно-программные  чистые стратегии.

  Под кусочно-программной чистой стратегией v игрока Е будем понимать пару {τ, β}, где τ – разбиение отрезка времени [0,T] конечным числом точек 0= t1< …< ts=T и β – отображение, которое каждому состоянию x(tk), y(tk), tk     ставит в соответствие отрезок измеримого программного управления v(t) игрока Е при t[ tk, tk+1 ). Под кусочно-программной чистой стратегией u игрока P будем понимать пару {σ, α}, где σ – произвольное разбиение отрезка времени [0, T]  конечным числом точек 0= t1'< …< tk'=T и α – отображение, которое каждому состоянию x(tk'), y(tk'd), tk' при tk' >d ставит в соответствие отрезок измеримого программного управления u(t) игрока P при t[ tk', tk+1' ). При tk' d отображение α каждому состоянию x(tk'), y0, tk' ставит в соответствие отрезок измеримого управления u(t) игрока Р при t[ tk', tk+1' ).

  Игра  развивается в соответствии с уравнениями движения

              =f(x,u),          (2.1)

              =g(y,v),

при этом полагаем выполненными все условия, гарантирующие существование и  единственность решения системы (2.1) на отрезке [0, T] для любой пары измеримых программных управлений u(t), v(t).

  Таким образом, в любой ситуации ( u, v ) при заданных начальных условиях x0, y0 функция выигрыша определяется однозначно: К(x0,y0; u,v)= ρ(x(T), y(T)), где х(t), y(t) – решение системы (2.1) при начальных условиях x0, y0 в ситуации ( u, v ), а ρ – евклидово расстояние.

  Поскольку игра Г(x0, y0, T) не является игрой с полной информацией, то, вообще говоря,

  sup inf  К(x0,y0; u,v) inf sup К(x0,y0; u,v)    (2.2).

  Из  этого следует, что ситуация ε-равновесия в этой игре существует не для всех ε>0.

  Смешанные кусочно-программные  стратегии.

  Расширим  пространства стратегий игроков  Р и Е до так называемых смешанных  кусочно-программных стратегий поведения (СКПСП), которые предполагают возможность  случайного выбора управления на каждом шаге. Далее покажем, что для такого класса стратегий равенство (2.2) выполняется.

  Под СКПСП игрока Р будем понимать пару μ={τ, α}, где τ – произвольное разбиение отрезка времени [0, T] конечным числом точек 0= t1< …< ts=T и α – отображение, ставящее в соответствие состоянию x(tk), y(tk−d), tk при tk>d и состоянию x(tk), y0 tk при tk≤ d вероятностное распределение αk , сосредоточенное на конечном числе измеримых программных управлений u(t) при t[ tk, tk+1 ). Аналогично под СКПСП игрока Е будем понимать пару ν={σ, β}, где σ – произвольное разбиение отрезка времени [0, T] конечным числом точек 0= t1'< …< tk'=T и β – отображение, ставящее в соответствие состоянию x(tk'), y(tk'), tk' вероятностное распределение νk , сосредоточенное на конечном числе измеримых программных управлений v(t) при t[ tk', tk+1' ).

  Множества СКПСП игроков Р и Е будем обозначать соответственно через и .

  Каждая  пара СКПСП μ, ν при фиксированных начальных условиях  x0,y0 индуцирует распределение вероятностей на пространстве траекторий x(t), y(t), x(0)= x0, y(0)= y0, поэтому под выигрышем М(x0,y0, μ, ν ) в СКПСП будем понимать математическое ожидание выигрыша К(x0,y0; u,v) , усредненное по распределениям на пространствах траекторий, которые индуцируются СКПСП μ, ν.

  Определив пространства стратегий  , и выигрыш М, определили смешанное расширение  (x0,y0,T) игры Г(x0,y0,T) при начальных условиях x0, y0, T.

   Введем в рассмотрение следующую вспомогательную величину. Пусть СЕТ(у) – множество достижимости игрока Е. Обозначим через СЕТ(у) выпуклую оболочку множества СЕТ(у).

  Положим    γ(у,Т) = min  max  ρ(η′,η″).                        (2.3)

                                            η′ СЕТ(у)  η″ СЕТ(у)   

  Пусть    γ(у,Т) достигается в точках (, ), так что

                              min     max  ρ(η′,η″) =ρ(, ).              (2.4)

                                          η′СЕТ(у)  η″СЕТ(у)   

  Из  определения  следует, что это – центр минимальной сферы, содержащей множество СЕТ(у). Отсюда получаем, что точка единственна. В то же время существует по крайней мере две точки касания этого множества с минимальной содержащей его сферой, которые совпадают с точками .

  Пусть у(t) – некоторая траектория у(0)=у0 игрока Е при 0≤t≤T. Когда игрок Е перемещается вдоль у(t), величина γ(y(t), T- t) изменяется. Пусть (t) – траектория точки из (2.4), соответствующая траектории y(t).

   В дальнейшем будем анализировать  лишь случай, когда для всех траекторий y(t)  (t) СРТ(х). Назовем точку М центром преследования, если вней достигается 

    γ(М, l) = max    γ(y′,l).

                       y′ СЕТ – l (у)

   Таким образом,       γ(М, l) = max        .

                                                y′ СЕТ – l (у)  η′ СЕl(у)  η″ СЕl(у) 

   Рассмотрим вспомогательную одновременную игру преследования на выпуклой оболочке множества СЕТ(у). Игрок Р выбирает некоторую точку η′СЕТ(у) , а игрок Е - точку η″СЕТ(у). Выбор совершается одновременно, и игрок Р при выборе  η′ не знает выбора  η″ игрока Е, и наоборот. Игрок Е имеет выигрыш ρ(η′,η″). Обозначим значение этой игры через V(y, T), чтобы подчеркнуть зависимость значения игры от параметров y,T, определяющих множества стратегий СЕТ(у) и СЕТ(у) игроков Р и Е. Игру в нормальной форме записываем следующим образом:

   Г(у,Т) = ‹ СЕТ(у), СЕТ(у) , ρ(у′,у″)›.

   Множество стратегий  СЕТ(у) минимизирующего игрока Р выпукло, как выпукла оболочка множества СЕТ(у). Функция ρ(у′,у″) также выпукла по своим аргументам и непрерывна.

   Траектория уk*(t) называется условно-оптимальной, если у*(0)=у0, у*(Т –l)=М, y*(T)=yk(M) для некоторого k из k=1, …, n+1. Для каждого k может существовать несколько условно-оптимальных траекторий игрока Е. 
 

    1. Существование ситуаций равновесия в играх преследования
 

  Пусть в плоскости задан выпуклый многогранник S. Обозначим через S0; S1,...,Sm – стороны S(без вершин) и Sm+1,...,Sn – вершины S. В начальный момент времени «случай» выбирает местоположение x0S игрока Р и местоположение y0S игрока Е в соответствии с равномерным распределением в S. Тогда если в результате случайного хода x0(y0) принадлежит Sk , k=0, …, n, то игрок Р(Е) знает лишь, что он находится в Sk , но не знает, в какой именно точке этого множества. Далее игроки Р и Е перемещаются в S в соответствии с простым движением =αu, |u|=1,

           =βv, |v|=1.

из начальных  состояний х0S,y0S.

  Пусть в момент 0≤t≤T точка х(t)Sk и точка y(t)Sh. Тогда в этот момент времени игроки Р и Е знают лишь, что они находятся в Sk и Sh соответственно, однако не знают, в какой именно точке этих множеств. Игра продолжается некоторое фиксированное время Т. На траекториях x(t), y(t) при t[0,T] задан некоторый непрерывный функционал F(x0,y0; x(t), y(t)) и выигрыш игрока Е равен F(выигрыш игрока Р равен - F).

  Информационные  множества.

  Согласно  условиям игры игроки различают лишь множества Sk , k=0, …,n. Однако, находясь внутри Sk, они не различают позиций в этом множестве. Кроме того, игроки знают и множество S. Поэтому, находясь, например, на стороне Sk, игрок Р(Е) знает, какая это сторона, а следовательно, и то, с какой стороны от Sk находится многогранник S (выпуклый многогранник). Если игрок Р(Е) находится в вершине Sk, k=m+1, …, 2m, то он знает расположение многогранника S и инцидентные стороны , , примыкающие к вершине Sk. Если хS0, то игрок Р(Е) знает только то, что находится в S0. Поэтому мы определяем информационные множестваS(i) игрока Р(Е) следующим образом:

  S(0)=S0,

  S(k)=SkS0, k=1,… , m,

  S(k)=SkSo, k=m+1, …, 2m  (Рисунок 7)

    Здесь , - инцидентные к Sk стороны многогранника S.

   Определим допустимые управления в  каждом из S(k), k=0, …,n. При хS0 игрок Р(Е) может выбрать произвольное направление движения (оба игрока обладают простым движением)(Рисунок 8). При хS(k), k=1,… , m, следует иметь в виду, что находясь на стороне Sk, игрок Р должен выбирать направления внутрь S, а так как для всех хS(k) множества допустимых управлений должны совпадать (иначе игрок Р мог бы различать разные позиции в S(k)), то для всех хS(k) полагаем множество допустимых управлений, совпадающих с множеством допустимых управлений при хSk (Рисунок 9).

Информация о работе Дифференциальные игры преследования с неполной информацией