Автор работы: Пользователь скрыл имя, 28 Октября 2011 в 00:23, курсовая работа
Теория дифференциальных игр – это новое математическое направление, возникшее всего лишь несколько лет назад. Она тесно связана с теорией оптимального синтеза, управлением случайными процессами; некоторые её аспекты переплетаются с такими классическими направлениями, как дискретные игры, дифференциальные уравнения, вариационное исчисление.
Введение 4
Основные сведения из теории дифференциальных игр 6
Определение дифференциальной игры 6
Стратегии в дифференциальной игре 9
Виды выигрышей в дифференциальных играх 15
Дифференциальные игры с неполной информацией 17
Игры преследования с задержкой информации у игрока Р 17
Существование ситуаций равновесия в играх преследования 20
Игра преследования с фиксированной продолжительностью и задержкой информации у обоих игроков 24
Заключение 28
Список использованных источников
2.Дифференциальные игры с неполной информацией
Игры преследования с неполной информацией являются непосредственным обобщением игр преследования с полной информацией. Наиболее простым случаем неполной информации является такой, при котором игрок Р узнает фазовое состояние игрока Е с запаздыванием d>0, а игрок Е имеет полную информацию.
Пусть задано некоторое число d>0, называемое задержкой информации. При 0td игрок P в каждый момент времени t знает свое состояние х(t), время t и состояние игрока Е в начальный момент уо. При dtТ игрок Р в каждый момент t знает свое состояние х(t), время t и состояние у(t—d) игрока Е в момент t—d. Игрок Е в каждый момент времени t знает свое состояние y(t), состояние противника x(t) и время t. Его выигрыш равен ρ(x(T), y(T)). Игра антагонистическая. Обозначим ее через Г(x0, y0, t).
Кусочно-программные чистые стратегии.
Под кусочно-программной чистой стратегией v игрока Е будем понимать пару {τ, β}, где τ – разбиение отрезка времени [0,T] конечным числом точек 0= t1< …< ts=T и β – отображение, которое каждому состоянию x(tk), y(tk), tk ставит в соответствие отрезок измеримого программного управления v(t) игрока Е при t[ tk, tk+1 ). Под кусочно-программной чистой стратегией u игрока P будем понимать пару {σ, α}, где σ – произвольное разбиение отрезка времени [0, T] конечным числом точек 0= t1'< …< tk'=T и α – отображение, которое каждому состоянию x(tk'), y(tk'd), tk' при tk' >d ставит в соответствие отрезок измеримого программного управления u(t) игрока P при t[ tk', tk+1' ). При tk' d отображение α каждому состоянию x(tk'), y0, tk' ставит в соответствие отрезок измеримого управления u(t) игрока Р при t[ tk', tk+1' ).
Игра развивается в соответствии с уравнениями движения
=f(x,u),
=g(y,v),
при этом полагаем выполненными все условия, гарантирующие существование и единственность решения системы (2.1) на отрезке [0, T] для любой пары измеримых программных управлений u(t), v(t).
Таким образом, в любой ситуации ( u, v ) при заданных начальных условиях x0, y0 функция выигрыша определяется однозначно: К(x0,y0; u,v)= ρ(x(T), y(T)), где х(t), y(t) – решение системы (2.1) при начальных условиях x0, y0 в ситуации ( u, v ), а ρ – евклидово расстояние.
Поскольку игра Г(x0, y0, T) не является игрой с полной информацией, то, вообще говоря,
sup inf К(x0,y0; u,v) inf sup К(x0,y0; u,v) (2.2).
Из этого следует, что ситуация ε-равновесия в этой игре существует не для всех ε>0.
Смешанные кусочно-программные стратегии.
Расширим
пространства стратегий игроков
Р и Е до так называемых смешанных
кусочно-программных стратегий
Под СКПСП игрока Р будем понимать пару μ={τ, α}, где τ – произвольное разбиение отрезка времени [0, T] конечным числом точек 0= t1< …< ts=T и α – отображение, ставящее в соответствие состоянию x(tk), y(tk−d), tk при tk>d и состоянию x(tk), y0 tk при tk≤ d вероятностное распределение αk , сосредоточенное на конечном числе измеримых программных управлений u(t) при t[ tk, tk+1 ). Аналогично под СКПСП игрока Е будем понимать пару ν={σ, β}, где σ – произвольное разбиение отрезка времени [0, T] конечным числом точек 0= t1'< …< tk'=T и β – отображение, ставящее в соответствие состоянию x(tk'), y(tk'), tk' вероятностное распределение νk , сосредоточенное на конечном числе измеримых программных управлений v(t) при t[ tk', tk+1' ).
Множества СКПСП игроков Р и Е будем обозначать соответственно через и .
Каждая пара СКПСП μ, ν при фиксированных начальных условиях x0,y0 индуцирует распределение вероятностей на пространстве траекторий x(t), y(t), x(0)= x0, y(0)= y0, поэтому под выигрышем М(x0,y0, μ, ν ) в СКПСП будем понимать математическое ожидание выигрыша К(x0,y0; u,v) , усредненное по распределениям на пространствах траекторий, которые индуцируются СКПСП μ, ν.
Определив пространства стратегий , и выигрыш М, определили смешанное расширение (x0,y0,T) игры Г(x0,y0,T) при начальных условиях x0, y0, T.
Введем в рассмотрение следующую вспомогательную величину. Пусть СЕТ(у) – множество достижимости игрока Е. Обозначим через СЕТ(у) выпуклую оболочку множества СЕТ(у).
Положим γ(у,Т) = min max ρ(η′,η″). (2.3)
Пусть γ(у,Т) достигается в точках (, ), так что
min max ρ(η′,η″) =ρ(, ). (2.4)
η′СЕТ(у)
η″СЕТ(у)
Из определения следует, что это – центр минимальной сферы, содержащей множество СЕТ(у). Отсюда получаем, что точка единственна. В то же время существует по крайней мере две точки касания этого множества с минимальной содержащей его сферой, которые совпадают с точками .
Пусть у(t) – некоторая траектория у(0)=у0 игрока Е при 0≤t≤T. Когда игрок Е перемещается вдоль у(t), величина γ(y(t), T- t) изменяется. Пусть (t) – траектория точки из (2.4), соответствующая траектории y(t).
В дальнейшем будем анализировать лишь случай, когда для всех траекторий y(t) (t) СРТ(х). Назовем точку М центром преследования, если вней достигается
γ(М, l) = max γ(y′,l).
y′ СЕТ – l (у)
Таким образом, γ(М, l) = max .
Рассмотрим вспомогательную одновременную игру преследования на выпуклой оболочке множества СЕТ(у). Игрок Р выбирает некоторую точку η′СЕТ(у) , а игрок Е - точку η″СЕТ(у). Выбор совершается одновременно, и игрок Р при выборе η′ не знает выбора η″ игрока Е, и наоборот. Игрок Е имеет выигрыш ρ(η′,η″). Обозначим значение этой игры через V(y, T), чтобы подчеркнуть зависимость значения игры от параметров y,T, определяющих множества стратегий СЕТ(у) и СЕТ(у) игроков Р и Е. Игру в нормальной форме записываем следующим образом:
Г(у,Т) = ‹ СЕТ(у), СЕТ(у) , ρ(у′,у″)›.
Множество стратегий СЕТ(у) минимизирующего игрока Р выпукло, как выпукла оболочка множества СЕТ(у). Функция ρ(у′,у″) также выпукла по своим аргументам и непрерывна.
Траектория уk*(t) называется
условно-оптимальной, если у*(0)=у0,
у*(Т –l)=М, y*(T)=yk(M) для
некоторого k из k=1, …, n+1. Для каждого k может
существовать несколько условно-оптимальных
траекторий игрока Е.
Пусть в плоскости задан выпуклый многогранник S. Обозначим через S0; S1,...,Sm – стороны S(без вершин) и Sm+1,...,Sn – вершины S. В начальный момент времени «случай» выбирает местоположение x0S игрока Р и местоположение y0S игрока Е в соответствии с равномерным распределением в S. Тогда если в результате случайного хода x0(y0) принадлежит Sk , k=0, …, n, то игрок Р(Е) знает лишь, что он находится в Sk , но не знает, в какой именно точке этого множества. Далее игроки Р и Е перемещаются в S в соответствии с простым движением =αu, |u|=1,
=βv, |v|=1.
из начальных состояний х0S,y0S.
Пусть в момент 0≤t≤T точка х(t)Sk и точка y(t)Sh. Тогда в этот момент времени игроки Р и Е знают лишь, что они находятся в Sk и Sh соответственно, однако не знают, в какой именно точке этих множеств. Игра продолжается некоторое фиксированное время Т. На траекториях x(t), y(t) при t[0,T] задан некоторый непрерывный функционал F(x0,y0; x(t), y(t)) и выигрыш игрока Е равен F(выигрыш игрока Р равен - F).
Информационные множества.
Согласно условиям игры игроки различают лишь множества Sk , k=0, …,n. Однако, находясь внутри Sk, они не различают позиций в этом множестве. Кроме того, игроки знают и множество S. Поэтому, находясь, например, на стороне Sk, игрок Р(Е) знает, какая это сторона, а следовательно, и то, с какой стороны от Sk находится многогранник S (выпуклый многогранник). Если игрок Р(Е) находится в вершине Sk, k=m+1, …, 2m, то он знает расположение многогранника S и инцидентные стороны , , примыкающие к вершине Sk. Если хS0, то игрок Р(Е) знает только то, что находится в S0. Поэтому мы определяем информационные множестваS(i) игрока Р(Е) следующим образом:
S(0)=S0,
S(k)=SkS0, k=1,… , m,
S(k)=SkSo, k=m+1, …, 2m (Рисунок 7)
Здесь , - инцидентные к Sk стороны многогранника S.
Определим допустимые управления в каждом из S(k), k=0, …,n. При хS0 игрок Р(Е) может выбрать произвольное направление движения (оба игрока обладают простым движением)(Рисунок 8). При хS(k), k=1,… , m, следует иметь в виду, что находясь на стороне Sk, игрок Р должен выбирать направления внутрь S, а так как для всех хS(k) множества допустимых управлений должны совпадать (иначе игрок Р мог бы различать разные позиции в S(k)), то для всех хS(k) полагаем множество допустимых управлений, совпадающих с множеством допустимых управлений при хSk (Рисунок 9).
Информация о работе Дифференциальные игры преследования с неполной информацией