Автор работы: Пользователь скрыл имя, 28 Октября 2011 в 00:23, курсовая работа
Теория дифференциальных игр – это новое математическое направление, возникшее всего лишь несколько лет назад. Она тесно связана с теорией оптимального синтеза, управлением случайными процессами; некоторые её аспекты переплетаются с такими классическими направлениями, как дискретные игры, дифференциальные уравнения, вариационное исчисление.
Введение 4
Основные сведения из теории дифференциальных игр 6
Определение дифференциальной игры 6
Стратегии в дифференциальной игре 9
Виды выигрышей в дифференциальных играх 15
Дифференциальные игры с неполной информацией 17
Игры преследования с задержкой информации у игрока Р 17
Существование ситуаций равновесия в играх преследования 20
Игра преследования с фиксированной продолжительностью и задержкой информации у обоих игроков 24
Заключение 28
Список использованных источников
Стратегия параллельного сближения
Пусть точка Е в момент времени t имеет скорость v(t)={v1(t),v2(t)}, ||v(t)||≤β<α. Обычно преследователю неизвестно, как дальше будет двигаться точка Е, однако, с точки зрения преследователя, часто наиболее вероятным является продолжением игроком Е движения со скоростью v(t)={ v1(t), v2(t)}. Для каждого такого движения существует, очевидно, единственное постоянное управление =(1, 2) игрока Р, которое гарантирует ему встречу с точкой Е за минимальное время. Это управление предписывает ему движение по лучу РВ, направленному в точку встречи, которое мы будем называть быстродействием в точку встречи (Рисунок 1).
Параллельным сближением (П-стратегией) называется способ преследования точкой Р точки Е, при котором управление игрока Р в каждый момент времени совпадает с управлением, гарантирующим ему быстродействие в точку встречи.
П-стратегию можно определить как вектор-функцию
(x1, y1, x2, y2,v)={1(x1, y1, x2, y2, v1,v2), 2(x1, y1, x2, y2,v1,v2)}, (1.3)
ставящую в соответствие каждой паре точек Р={ x1, y1}, Е={ x2, y2} и управлению v={v1,v2} управление точки Р, гарантирующее быстродействие в точку встречи В. Пусть игрок Е выбирает постоянное управление v(t)с={c1,c2}, т.е. перемещается по некоторой полупрямой [E0,) из точки E0. Тогда, как это следует из определения П-стратегии, траектория игрока Р, начинающего движение из точки Р0, также будет полупрямой [Р0,). Лучи [E0,) и [Р0,) пересекаются в точке В встречи игроков Р и Е. Точку, в которой находится игрок Р(Е) в момент времени t обозначим через z1(t)(z2(t)) (Рисунок 2) . Тогда отрезок [z1(t),z2(t)] при всех t[ 0, tр] (tр – время до встречи в точке В) параллелен отрезку Р0Е0. Таким образом, при использовании преследователем П-стратегии отрезок, соединяющий игроков Р и Е, в каждый момент времени до встречи параллелен отрезку Р0Е0, т.е. перемещается параллельно самому себе. Кроме того, из определения П-стратегии следует, что его длина убывает.
Пусть Е начинает движение из начала координат и использует некоторое управление v={v1,v2}. Выберем систему координат таким образом, чтобы Р в начальный момент времени находилась в точке z1(0)={0,α}. Поскольку при использовании П-стратегии отрезок [z1(t),z2(t)] остается параллелен отрезку [z1(0),z2(0)], то проекции скоростей игроков Р и Е на ось х равны между собой (u1= v1). Кроме того, величина скорости игрока Р при параллельном сближении равна α. Это приводит к следующей системе дифференциальных уравнений для определения траекторий игроков при параллельном сближении, когда убегающий использует управление v={v1,v2}, v1=v1(t, x1, y1, x2, y2), v2=v2(t, x1, y1, x2, y2) (Рисунок 3):
1= v1, х1(0)=0,
1= - , y1(0)=α,
2= v1, х2(0)=0,
2= v2, y2(0)=0.
Управление (1.3) можно найти и чисто
геометрическим способом по
= (x1, y1, x2, y2,v) =α∙ РВ/|РВ|.
Оказывается, что при параллельном
сближении множество точек
Стратегии погонного преследования
Пусть заданы точки Р={ x1, y1}- преследователь, Е={ x2, y2} – преследуемый, перемещающийся в плоскости с ограниченными по модулю скоростями, имея возможность в каждый момент времени изменить направление своего движения. Это означает, что движение точки Р описывается системой дифференциальных уравнений: 1= u1, 1= u2, (1.4)
где u1, u2 удовлетворяют условию ≤ α2. (1.5)
Из (1.4), (1.5) следует, что точка Р движется на плоскости с ограниченной скоростью, не превосходящей числа α, и, выбирая параметр u=( u1, u2), может управлять направлением своего движения. Такое движение называется простым движением.
Будем предполагать, что точка Р преследует точку Е={ x2, y2}также совершающую простое движение в той же плоскости:
2= v1, 2= v2, (1.6)
где v1,v2 удовлетворяют условию ≤ β2 (1.7)
Движения точек Р и Е определяются системой:
1= u1(t, x1, y1, x2, y2),
1= u2(t, x1, y1, x2, y2),
2= v1(t, x1, y1, x2, y2),
2= v2(t, x1, y1, x2, y2).
Целью преследователя Р в самом
простом случае является встреча
с точкой Е, целью Е является избежание
встречи («встреча» - совпадение местоположений
Р и Е). Если максимальная скорость
точки Р превосходит
Говорят, что точка Р преследует точку Е по погонной линии, если скорость точки Р в процессе преследования всегда направлена по отрезку РЕ и максимальна по величине (Рисунок 5). В этом случае для проекций скорости Р имеем следующие формулы:
u1(t, x1, y1, x2, y2)=α ,
u2(t, x1, y1, x2, y2)=α .
Кривая x1= x1(t), y1= y1(t), удовлетворяющая уравнениям (1.8) при управлении (1.9) и некотором фиксированном управлении точки Е, называется погонной линией.
Пусть
кусочно-программная стратегия
Стратегией
погонного преследования
Δ= , (1.10)
где
Δ – некоторое разбиение
На Рисунке 6 для различных Δ изображены траектории игрока Р, совершающего погонное преследование игрока Е, убегающего по прямой. Можно, очевидно, совершать погонное преследование игрока Е, движущегося
Рисунок 6
по произвольной
траектории х2(t), у2(t), а не только
по ломанной, как это имеет место при применении
игроком Е кусочно-программной стратегии.
1.3.Виды
выигрышей в дифференциальных
играх
Каждая ситуация S={x0,y0; u(.),v(.)} в кусочно-программных стратегиях однозначно определяет траектории x(t), y(t) игроков Р и Е. Степень предпочтительности этих траекторий будем оценивать посредством функции выигрыша К, которая каждой ситуации ставит в соответствие некоторое вещественное число – выигрыш игрока Е. Выигрыш игрока Р равен –К. Это означает, что игра антагонистическая, поскольку сумма выигрышей игроков Р и Е в каждой ситуации равна нулю. Рассмотрим игры с функцией выигрыша трех видов: интегральный, терминальный, смешанный.
Интегральный выигрыш. В Rn× Rn заданы некоторое многообразие S размерности m и непрерывная функция M(x,y) >0. Пусть в ситуации S={x0,y0; u(.),v(.)} tп - первый момент попадания траектории x(t), y(t) на S.
Тогда К(x0,y0; u(.),v(.))= ,
где x(t), y(t) – траектории игроков Р и Е, соответствующей ситуации S.
Терминальный выигрыш. Заданы некоторое число Т>0 и непрерывная на {x,y} функция М(x,y). Выигрыш в каждой ситуации S={x0,y0; u(.),v(.)} определяется следующим образом: К(x0,y0; u(.),v(.))= М(x(T), y(T)),
где x(T)=x(t)|t=T, y(T)=y(t)|t=T. Здесь x(t), y(t) – траектории игроков Р и Е, соответствующие ситуации S.
Смешанный выигрыш. Смешанный выигрыш определяется следующим образом:
К(x0,y0; u(.),v(.))= + М(x(T), y(T)) (1.11).
Интеграл
берется вдоль траектории, которую
х проходит в ε на протяжении партии;
нижний предел интегрирования соответствует
начальной точке в ε ; верхний предел есть
время окончания игры – когда х достигает ε.
Для каждой партии второе слагаемое в
(1.11) есть значение функции М в терминальной
точке, т.е. в точке, где х встречается с ε и
игра оканчивается. Если первое слагаемое
в (1.11) равно нулю, то игра имеет интегральный
выигрыш; если второе слагаемое в (1.11) равно
нулю, то игра имеет терминальный выигрыш.
Информация о работе Дифференциальные игры преследования с неполной информацией