Дифференциальные игры преследования с неполной информацией

Автор работы: Пользователь скрыл имя, 28 Октября 2011 в 00:23, курсовая работа

Краткое описание

Теория дифференциальных игр – это новое математическое направление, возникшее всего лишь несколько лет назад. Она тесно связана с теорией оптимального синтеза, управлением случайными процессами; некоторые её аспекты переплетаются с такими классическими направлениями, как дискретные игры, дифференциальные уравнения, вариационное исчисление.

Содержание работы

Введение 4
Основные сведения из теории дифференциальных игр 6
Определение дифференциальной игры 6
Стратегии в дифференциальной игре 9
Виды выигрышей в дифференциальных играх 15
Дифференциальные игры с неполной информацией 17
Игры преследования с задержкой информации у игрока Р 17
Существование ситуаций равновесия в играх преследования 20
Игра преследования с фиксированной продолжительностью и задержкой информации у обоих игроков 24
Заключение 28
Список использованных источников

Содержимое работы - 1 файл

курсовая моя готовая.docx

— 186.32 Кб (Скачать файл)

  Стратегия параллельного сближения

   Пусть точка Е в момент времени t имеет скорость v(t)={v1(t),v2(t)}, ||v(t)||≤β<α. Обычно преследователю неизвестно, как дальше будет двигаться точка Е, однако, с точки зрения преследователя, часто наиболее вероятным является продолжением игроком Е движения со скоростью v(t)={ v1(t), v2(t)}. Для каждого такого движения существует, очевидно, единственное постоянное управление =(1, 2) игрока Р, которое гарантирует ему встречу с точкой Е за минимальное время. Это управление предписывает ему движение по лучу РВ, направленному в точку встречи, которое мы будем называть быстродействием в точку встречи (Рисунок 1).

   Параллельным  сближением (П-стратегией) называется способ преследования точкой Р точки Е, при котором управление игрока Р в каждый момент времени совпадает с управлением, гарантирующим ему    быстродействие в точку встречи.

  П-стратегию  можно определить как вектор-функцию

   (x1, y1, x2, y2,v)={1(x1, y1, x2, y2, v1,v2), 2(x1, y1, x2, y2,v1,v2)},   (1.3)

ставящую  в соответствие каждой паре точек  Р={ x1, y1}, Е={ x2, y2} и управлению v={v1,v2} управление точки Р, гарантирующее быстродействие в точку встречи В. Пусть игрок Е выбирает постоянное управление v(t)с={c1,c2}, т.е. перемещается по некоторой полупрямой [E0,) из точки E0. Тогда, как это следует из определения П-стратегии, траектория игрока Р, начинающего движение из точки Р0, также будет полупрямой [Р0,). Лучи [E0,) и [Р0,) пересекаются в точке В встречи игроков Р и Е. Точку, в которой находится игрок Р(Е) в момент времени t обозначим через z1(t)(z2(t)) (Рисунок 2) . Тогда отрезок [z1(t),z2(t)] при всех t[ 0, tр] (tр – время до встречи в точке В) параллелен отрезку Р0Е0. Таким образом, при использовании преследователем П-стратегии отрезок, соединяющий игроков Р и Е, в каждый момент времени до встречи параллелен отрезку Р0Е0, т.е. перемещается параллельно самому себе. Кроме того, из определения П-стратегии следует, что его длина убывает.

   Пусть Е начинает движение из начала координат и использует некоторое  управление v={v1,v2}. Выберем систему координат таким образом, чтобы Р в начальный момент времени находилась в точке z1(0)={0,α}. Поскольку при использовании П-стратегии отрезок [z1(t),z2(t)] остается параллелен отрезку [z1(0),z2(0)], то проекции скоростей игроков Р и Е на ось х равны между собой (u1= v1). Кроме того, величина скорости игрока Р при параллельном сближении равна α. Это приводит к следующей системе дифференциальных уравнений для определения траекторий игроков при параллельном сближении, когда убегающий использует управление v={v1,v2}, v1=v1(t, x1, y1, x2, y2), v2=v2(t, x1, y1, x2, y2) (Рисунок 3):

                      1= v1, х1(0)=0,

              1= - , y1(0)=α,

              2= v1, х2(0)=0,

              2= v2, y2(0)=0.

    Управление (1.3) можно найти и чисто  геометрическим способом по следующему  правилу:

  1. Построить множество всех точек А, для которых выполняется условие |PA| =|EA| α. При < α2 таким множеством является окружность Аполлония.
  2. Построить луч ЕС, выходящий из точки Е по направлению вектора v={v1,v2}. Точка пересечения луча ЕС и окружности Аполлония является, очевидно, точкой встречи В (Рисунок 4). Следовательно, вектор (1.3) направлен по лучу РВ и имеет длину α, т.е

= (x1, y1, x2, y2,v) =α∙ РВ/|РВ|.

   Оказывается, что при параллельном сближении множество точек встречи  всевозможных движениях убегающей  точки Е имеет интересную геометрическую структуру: оно заполняет круг Аполлония.

  Стратегии погонного преследования

  Пусть заданы точки Р={ x1, y1}- преследователь, Е={ x2, y2} – преследуемый, перемещающийся в плоскости с ограниченными по модулю скоростями, имея возможность в каждый момент времени изменить направление своего движения. Это означает, что движение точки Р описывается системой дифференциальных уравнений: 1= u1, 1= u2,   (1.4)

где u1, u2 удовлетворяют условию α2.  (1.5)

  Из (1.4), (1.5) следует, что точка Р движется на плоскости с ограниченной скоростью, не превосходящей числа α, и, выбирая  параметр u=( u1, u2), может управлять направлением своего движения. Такое движение называется простым движением.

  Будем предполагать, что точка Р преследует точку Е={ x2, y2}также совершающую простое движение в той же плоскости:

               2= v1, 2= v2,     (1.6)

где  v1,v2 удовлетворяют условию β2     (1.7)

  Движения  точек Р и Е определяются системой:

              1= u1(t, x1, y1, x2, y2),

               1= u2(t, x1, y1, x2, y2),            

              2= v1(t, x1, y1, x2, y2),

              2= v2(t, x1, y1, x2, y2).

   Целью преследователя Р в самом  простом случае является встреча  с точкой Е, целью Е является избежание  встречи («встреча» - совпадение местоположений Р и Е). Если максимальная скорость точки Р превосходит максимальную скорость точки Е (α>β), то существует множество способов движения Р, при которых он может осуществить встречу с Е. Очевидно, что при этом Р должен знать текущее местоположение убегающего Е. Одним из таких способов является стратегия погонного преследования.

  Говорят, что точка Р преследует точку  Е по погонной линии, если скорость точки Р в процессе преследования  всегда направлена по отрезку РЕ и  максимальна по величине (Рисунок 5). В этом случае для проекций скорости Р имеем следующие формулы:

   u1(t, x1, y1, x2, y2)=α  ,            

  u2(t, x1, y1, x2, y2)=α .

  Кривая  x1= x1(t), y1= y1(t), удовлетворяющая уравнениям (1.8) при управлении (1.9) и некотором фиксированном управлении точки Е, называется погонной линией.

  Пусть кусочно-программная стратегия игрока Р состоит из пары {Δ, uΔ}, где Δ- некоторое разбиение t0Δ=0< t1Δ<…< tnΔ<… отрезка времени [0,), не имеющее конечных точек сгущения; uΔ= uΔ(t, x1, y1, x2, y2)={u1Δ(t, x1, y1, x2, y2), u2Δ(t, x1, y1, x2, y2) } – любая вектор-функция на множестве R5={ t, x1, y1, x2, y2}, принимающая значение в круге (1.5). Аналогично кусочно-программная стратегия игрока Е состоит из пары {σ, vσ}, где σ - некоторое разбиение t0σ =0< t1σ <…< tnσ <… отрезка времени [0,), не имеющее конечных точек сгущения; vσ= vσ(t, x1, y1, x2, y2) - любая вектор-функция, принимающая значение в круге (1.7).

  Стратегией  погонного преследования называется стратегия: 

  Δ=  ,  (1.10) 

  где Δ – некоторое разбиение отрезка  [0,), а функции, стоящие в правой части (1.10), при х12, у12 можно доопределить произвольным образом.

  На  Рисунке 6 для различных Δ изображены траектории игрока Р, совершающего погонное преследование игрока Е, убегающего по прямой. Можно, очевидно, совершать погонное преследование игрока Е, движущегося

Рисунок 6

по произвольной траектории х2(t), у2(t), а не только по ломанной, как это имеет место при применении игроком Е кусочно-программной стратегии. 
 

  1.3.Виды  выигрышей в дифференциальных  играх 

  Каждая  ситуация S={x0,y0; u(.),v(.)} в кусочно-программных стратегиях однозначно определяет траектории x(t), y(t) игроков Р и Е. Степень предпочтительности этих траекторий будем оценивать посредством функции выигрыша К, которая каждой ситуации ставит в соответствие некоторое вещественное число – выигрыш игрока Е. Выигрыш игрока Р равен –К. Это означает, что игра антагонистическая, поскольку сумма выигрышей игроков Р и Е в каждой ситуации равна нулю. Рассмотрим игры с функцией выигрыша трех видов: интегральный, терминальный, смешанный.

  Интегральный  выигрыш. В Rn× Rn заданы некоторое многообразие S размерности m и непрерывная функция M(x,y) >0. Пусть в ситуации S={x0,y0; u(.),v(.)} tп - первый момент попадания траектории x(t), y(t) на S.

  Тогда  К(x0,y0; u(.),v(.))= ,

  где x(t), y(t) – траектории игроков Р и Е, соответствующей ситуации S.

  Терминальный  выигрыш. Заданы некоторое число Т>0 и непрерывная на {x,y} функция М(x,y). Выигрыш в каждой ситуации S={x0,y0; u(.),v(.)} определяется следующим образом: К(x0,y0; u(.),v(.))= М(x(T), y(T)),

где x(T)=x(t)|t=T, y(T)=y(t)|t=T. Здесь x(t), y(t) – траектории игроков Р и Е, соответствующие ситуации S.

  Смешанный выигрыш. Смешанный выигрыш определяется следующим образом:

    К(x0,y0; u(.),v(.))= + М(x(T), y(T))            (1.11).

  Интеграл  берется вдоль траектории, которую  х проходит в ε на протяжении партии; нижний предел интегрирования соответствует начальной точке в ε ; верхний предел есть время окончания игры – когда х достигает ε. Для каждой партии второе слагаемое в (1.11) есть значение функции М в терминальной точке, т.е. в точке, где х встречается с ε и игра оканчивается. Если первое слагаемое в (1.11) равно нулю, то игра имеет интегральный выигрыш; если второе слагаемое в (1.11) равно нулю, то игра имеет терминальный выигрыш. 
 
 
 
 
 
 
 
 
 
 
 
 

Информация о работе Дифференциальные игры преследования с неполной информацией