Дифференциальные игры преследования с неполной информацией

Автор работы: Пользователь скрыл имя, 28 Октября 2011 в 00:23, курсовая работа

Краткое описание

Теория дифференциальных игр – это новое математическое направление, возникшее всего лишь несколько лет назад. Она тесно связана с теорией оптимального синтеза, управлением случайными процессами; некоторые её аспекты переплетаются с такими классическими направлениями, как дискретные игры, дифференциальные уравнения, вариационное исчисление.

Содержание работы

Введение 4
Основные сведения из теории дифференциальных игр 6
Определение дифференциальной игры 6
Стратегии в дифференциальной игре 9
Виды выигрышей в дифференциальных играх 15
Дифференциальные игры с неполной информацией 17
Игры преследования с задержкой информации у игрока Р 17
Существование ситуаций равновесия в играх преследования 20
Игра преследования с фиксированной продолжительностью и задержкой информации у обоих игроков 24
Заключение 28
Список использованных источников

Содержимое работы - 1 файл

курсовая моя готовая.docx

— 186.32 Кб (Скачать файл)
 

  Содержание 

  Введение                                                                                                              4

  1. Основные сведения из теории дифференциальных игр                  6
    1. Определение дифференциальной игры                                             6
    2. Стратегии в дифференциальной игре                                                9
    3. Виды выигрышей в дифференциальных играх                               15
  2. Дифференциальные игры с неполной информацией                      17
    1. Игры преследования с задержкой информации у игрока Р           17
    2. Существование ситуаций равновесия в играх преследования      20
    3. Игра преследования с фиксированной продолжительностью и задержкой информации у обоих игроков                                                    24

  Заключение                                                                                                         28

  Список  использованных источников                                                               29

 

  

  Введение 

  Теория  дифференциальных игр – это новое  математическое направление, возникшее  всего лишь несколько лет назад. Она тесно связана с теорией  оптимального синтеза, управлением  случайными процессами; некоторые её аспекты переплетаются с такими классическими направлениями, как  дискретные игры, дифференциальные уравнения, вариационное исчисление.

  Предмет изучения в данной работе составляют конфликтные задачи об управлении объектами, которые описываются обыкновенными  дифференциальными уравнениями. Такие  задачи принято объединять термином дифференциальные игры.

  Одной из первых работ в области дифференциальных игр следует считать работу Г. Штейнгауза, опубликованную в 1925 г., в которой он впервые формулирует задачу преследования как дифференциальную игру преследования. После длительного времени в середине 50-х годов математики возобновили исследование дифференциальных игр. Разработанный ими метод построен на «основном» дифференциальном уравнении в частных производных первого порядка для функции значения игры, которое было, по-видимому, впервые получено Р. Айзексом.

  Среди работ этого периода следует  отметить работы В. Флеминга,  содержащие исследование вопросов сходимости значений дискретных игр к решению «основного»  уравнения, работы Л. Берковича, в которых  выведены необходимые и достаточные  условия существования ситуации равновесия в терминах характеристик  «основного» уравнения, и конечно  же, монографию Р. Айзекса, в которой  на многочисленных примерах рассматривается  весь метод нахождения решения, построенный  на использовании «основного» уравнения.

  Первые  отечественные работы по дифференциальным играм появились в середине 60-х  годов. В соответствии с целью игры и решением можно выделить следующие основные подходы к задаче преследования.

  Л.С. Понтрягин и его школа рассматривают  задачу преследования, решая ее за преследователя Р, и задачу убегания, решая ее за убегающего Е.

  Н.Н. Красовский и его школа оценивают  качество преследования по времени, прошедшему от момента начала процесса до момента l-встречи (l>0). В основу этого метода легло правило экстремального прицеливания, которое в ряде случаев дает ситуацию равновесия.

  Работа начинается с рассмотрения сведений из теории дифференциальных игр. Раскрывается определение дифференциальной игры, понятия некоторых видов стратегий. Рассматриваются три вида выигрыша в дифференциальных играх: интегральный, терминальный, смешанный. Этот материал составляет первую главу. Затем во второй главе рассматриваются дифференциальные игры с неполной информацией. Исследуются задачи в случае задержки информации о состоянии процесса у преследователя, а так же задачи с фиксированной продолжительностью и задержкой информации у обоих игроков. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  1.Основные  сведения из теории  дифференциальных  игр

  1.1Определение  дифференциальной  игры 

    концепцией. Само название «дифференциальные игры» предполагает, что в качестве основного подхода к задачам теории игр используются такие средства классического анализа, как дифференциальные уравнения. В основном так оно и есть. Однако мы предпочитаем представлять себе нашу теорию как такую, которая исследует игры, где противники принимают длинный ряд последовательных – дискретных или непрерывных – решений, которые так логически связаны друг с другом, что эта связь может послужить основой наглядной и поддающейся счету модели.

  Типичными примерами дифференциальных игр  являются сражения, воздушные бои, футбол, преследование судна торпедой. Если один из игроков выключается из игры, мы получаем обычную задачу максимизации.

  Решения игроков всегда заключаются в  выборе некоторых величин, называемых управлениями. Они в свою очередь определяют собой значения других величин – фазовых координат. Последние обладают свойством, что знание их значений в любой момент времени полностью определяет течение игры. В процессе игры фазовые координаты меняются.

  Развитие  игры характеризуется движением  точки (x,y) в ε. Игра заканчивается, если выполняются некоторые условия, и всегда можно сделать так, чтобы эти условия состояли в попадании точки (х,y) на некоторую поверхность, или (n - 1)-мерное многообразие, которую можно принять за часть границы пространства ε.

  По  окончании партии становится известной  численная величина, называемая платой. Целью одного игрока является ее максимизация, а другого – минимизация. Наилучшее значение платы, ее минимакс, будет называться ценой игры. Она равна плате при оптимальном действии обоих игроков. Если один из них станет действовать не оптимально, то его противник получит возможность достичь платы, более выгодной для него, чем цена.

  Чтобы получить общую картину, будем обозначать преследователя через Р, а преследуемого  – через Е. Пусть Р выбирает uU и Е выбирает vV как функции от x(y). Если эти функции достаточно просты, то после подстановки их в уравнения движения =f(x,u),=f(y,v) правые части последних становятся функциями от x(y). Тогда уравнения движения превращаются в систему обыкновенных дифференциальных уравнений. Их можно интегрировать, используя в качестве начальных условий значения (x0,y0) в момент начала игры. Решение определяется x,y как функции времени t и описывает развитие игры, соответствующее выбранным стратегиям. Теперь становится возможным подсчитать плату. Целью игроков является выбор таких стратегий u(х) и v(y), которые могли бы соответственно минимизировать и максимизировать выигрыш.

  Итак, местом действия является ε – область в n-мерном евклидовом пространстве и ее граница. Это граница состоит из кусков некоторых поверхностей (под поверхностями понимаются (n - 1)-мерные многообразия).

  Пусть xRn, yRn, uURk, vVRl, f(x,u), g(y,v) – вектор-функции размерности n, заданные на RnU и RnV соответственно. Рассмотрим две системы обыкновенных дифференциальных уравнений

              =f(x,u),          (1.1)

              =g(y,v)          (1.2)

  с начальными условиями x0,y0. Игрок Р(Е) начинает движение из фазового состояния x0(y0) и перемещается в фазовом пространстве Rn согласно (1.1) или (1.2), выбирая в каждый момент времени значение параметра uU(vV) в соответствии со своими целями и информацией, доступной в каждом текущем состоянии.

  Множество Р будем называть множеством стратегий  игрока I, а множество Е -  множеством стратегий игрока II. Элементы множеств Р и Е будем обозначать соответственно через u(.) и v(.). На декартовом произведении Р×Е задана вещественная функция К. Тройку Г=<Р, Е, К> будем называть антагонистической игрой в нормальной форме.

  Параметры uU, vV называются управлениями игроков Р и Е соответственно. Функции x(t), y(t), удовлетворяющие уравнениям (1.1), (1.2) и начальным условиям, называются траекториями движения игроков Р, Е.

  Цели  в дифференциальной игре определяются с помощью выигрыша, который может  различным образом зависеть от реализовавшихся  траекторий x(t), y(t). Игроки I и II одновременно выбирают элементы  u(.)Р и v(.)Е. После этого игрок II получает выигрыш, равный К( u(.), v(.) ), а игрок I – выигрыш, равный - К( u(.), v(.) ).

  Система S={x0,y0;u,v}, где uP, vE, называется ситуацией в дифференциальной игре. Каждой ситуации S единственным образом соответствует пара траекторий x(t), y(t) таких, что x(0)=x0, y(0)=y0, и при почти всех t[0,T], T>0 выполнены соотношения (t) = f(x(t), u(t)),(t) = f(y(t), v(t)).

  Любую траекторию x(t)(y(t)), соответствующую некоторой ситуации {x0,y0;u,v}, будем называть траекторией игрока Р(игрока Е).

  В итоге общий вид типичного  решения дифференциальной игры следующий: пространство игры ε разделено некоторым  числом сингулярных поверхностей на составляющие области. Внутри каждой области  решение может не существовать вовсе, но если оно существует, то удовлетворяет  определенным дифференциальным уравнениям с граничными условиями, выполняющимися на сингулярных поверхностях. Оптимальные  траектории – пути изображающей точки  x в ε при оптимальной игре обеих сторон, - если они в разумном смысле единственны, могут иметь острые углы, только если они пересекают сингулярные поверхности. Кроме того, может случиться, что некоторые области содержат сингулярные многообразия меньшей размерности, чем поверхности, или такие многообразия могут лежать на самих сингулярных поверхностях.

  1.2.Стратегии  в дифференциальной  игре 

  Существует  несколько разных подходов к определению  понятия стратегии в дифференциальной игре. Стратегия должна характеризовать поведение игрока во всех информационных состояниях, в которых он может оказаться в процессе игры.

  Синтезирующие стратегии

  В игре с предписанной продолжительностью Т информационное состояние каждого игрока определяется фазовыми векторами состояний x(t), y(t) в текущий момент t и временем t, прошедшим с момента начала игры. Поэтому рассматриваем стратегию игрока Р(Е) как вектор-функцию u(x,y,t) (v(x,y,t)) со значениями в множестве управлений U(V). Стратегии такого типа будем называть синтезирующими.

  Программные стратегии

  Если управления представляют функции, зависящие от времени: u=u(t), v=v(t), то их называют программными управлениями. А стратегии такого вида программными.

  Позиционные стратегии

  В случае полной информации стратегию  игрока Р(Е) стали бы рассматривать как вектор-функцию u(x,y,t) (v(x,y,t)), т.е. отождествлять стратегии игроков с синтезирующими управлениями. Стратегии такого типа будем называть позиционными.

  Кусочно-программные  стратегии

  В дифференциальной игре, игрокам которой  предоставляется возможность неоднозначного выбора управлений в каждом информационном состоянии, в качестве стратегий  выбираем кусочно-программные стратегии. Кусочно-программная стратегия u(.) игрока Р состоит из пары {σ, α}, где σ – некоторое разбиение 0≤ t0'≤ t1'≤ …≤ tn'≤ … отрезка времени [0,∞) точками tk' , не имеющими конечных точек сгущения; α – отображение, ставящее в соответствие каждой точке tk' и фазовым состояниям x(tk'), y(tk') некоторое измеримое программное управление u(t) при t[ tk', tk+1' ). Аналогично кусочно-программная стратегия v(.) игрока Е состоит из пары {τ, β}, где τ – некоторое разбиение 0≤ t0''≤ t1''≤ …≤ tn''≤ … отрезка времени [0,∞) точками tk'' , не имеющими конечных точек сгущения; β – отображение, ставящее в соответствие каждой точке tk'' и позициям x(tk''), y(tk'') некоторое измеримое программное управление v(t) при t[ tk'', tk+1'' ).

Информация о работе Дифференциальные игры преследования с неполной информацией