Одна схема управляемой цепи Маркова, уравнение Беллмана
Будем условно говорить о некоторой физической системе, шаг за шагом меняющей свое фазовое состояние.
Обозначим ε1, ε2, . ее возможные состояния и ξ(t) - ее состояние через t шагов.
Будем считать, что процесс эволюции системы, описываемый цепочкой
является случайным марковским процессом, причем вероятности рij перехода из состояния εi в соответствующие состояния εj зависят от некоторого управляющего параметра, так что, если система на каком-либо шаге находится в состоянии εi и в соответствии с этим наблюдатель выбирает определенное значение управляющего параметра d, то вероятности перехода на следующем шаге будут pij = pij(d).
Совокупность возможных значений управляющего параметра d обозначим D.
Предположим, что задача регулирования такого управляемого случайного процесса состоит в том, чтобы привести систему в определенное фазовое состояние или в одно из состояний определенного множества Е.
Поскольку течение процесса ξ(t) зависит не только от воли управляющего этим процессом оператора, но и от случая, привести систему в одно из фазовых состояний указанного множества Е, вообще говоря, можно лишь с некоторой вероятностью Р, зависящей от способа управления.
Предположим, что управляющий процессом оператор руководствуется следующей программой управления: для каждого состояния εi , куда система может прийти на некотором шаге n, предусматривается выбор соответствующего значения управляющего параметра d - для каждой пары εi и n свое значение d = d(εi , n).
Вся программа может быть описана функцией d = d(x, t) от х = ε1, ε2, . и t = 0, 1, . называемой решающей функцией. Если выбрана программа управления с решающей функцией d = d(x, t), то течение случайного процесса ξ(t) происходит таким образом, что при попадании на n-м шаге в состояние εi , на следующем шаге с вероятностями pij = pij(d), d = d(εi , n), осуществляется переход в соответствующие состояния εj, j = 1, 2.
Ясно, что вероятность того, что система будет приведена в одно из заданных состояний, зависит от выбора программы управления, от выбора решающей функции d = d(x, t):
P = P(d)
(Управление с решающей функцией d 0 = d 0 (х, t) называется оптимальным, если
где max берется по всем возможным управлениям, по всем возможным решающим функциям d = d(x, t).
Рассмотрим следующую задачу управления случайным процессом ξ(t): через заданное число шагов п с максимально возможной вероятностью привести систему в определенное множество фазовых состояний Е. В этом случае
Пусть P(k, i, d) есть вероятность того, что при попадании на k-м шаге в состояние εi система за оставшиеся n-k шагов будет приведена в одно из состояний заданного множества Е (при этом считается выбранным некоторое управление d = d(x, t)):
Имеет место следующее соотношение:
Оно является простым следствием формулы полной вероятности - на следующем шаге система с вероятностью pij (d), d = d(εi , k), переходит в одно из состояний εj, j = 1, 2. откуда приводится в множество Е с соответствующими вероятностями P(k+1, j, d).
В соотношении (11.9) при k = n-1 фигурирует вероятность
где суммирование идет по всем j, для которых εj входит в заданную совокупность Е. Очевидно, вероятность Р (n-1, i, d) зависит лишь от выбора одного-единственного значения управляющего параметра d(εi , n-1).
Определим d° как точку максимума функции
от параметра d, пробегающего множество D:
(здесь и в дальнейшем предполагается, что рассматриваемые функции от d достигают максимума). Ясно, что для каждой пары (εi , n-1) будет свое значение d 0 = d 0 (εi , n-1), i = 1, 2, .
При k = n-2 формула (11.9) дает следующее соотношение:
Здесь вероятности pij(d) зависят лишь от значений d = d (εi , n-2) решающей функции d = d(x, t), а вероятности Р(n-1, j, d) - лишь от исходных значений d = d(εj, n-1) этой функции.
Если "подправить" решающую функцию d = d(x, t), заменив исходные значения d(εj, n-1) на определенные ранее значения d 0 (εj, n-1), то от этого соответствующие вероятности Р (n-1, j, d) увеличатся до максимально возможных значений Р 0 (n-1, j), что приведет к увеличению вероятности Р (n-2, j, d) до значения
Зависимость от управляющей функции d = d(x, t) здесь проявляется лишь через зависимость переходных вероятностей pij(d) от управляющего параметра d = d(εi , n-2). Определим точку d 0 как точку максимума функции от параметра d, пробегающего множество D:
P 0 (n-2, i) = P(n-2, i, d 0 ) = P(n-2, i, d) (11.12)
Очевидно, для каждой пары (ε, n - 2) будет свое значение d = d (εi , n-2), i = 1, 2, .
Ясно, что если решающая функция d = d(x, t) при х = ε1, ε2, . и t = n-2, n-1 принимает определенные выше значения d 0 (x, t), то вероятности P(k, i, d) при k = n-2, n-1 и всех i = 1, 2, . принимают максимально возможные значения P0(k, i).
Отправляясь от решающей функции d = d(x, t) такой, что
d(x, t) = d 0 (x, t) (11.13)
при всех х = ε1, ε2, . и t = n-2, n-1, переходим затем к следующему соотношению:
и определяем точку d 0 = d 0 (εi, n-3) максимума вероятности P(n-3, i, d) как функции от параметра d. Затем, так же как и ранее, "подправляем" решающую функцию d = d(x,t), определяя при t = n-3 ее значения формулой (11.13) для всех х = ε1, ε2, .
Продолжая этот процесс, можно последовательно найти оптимальную решающую функцию d = d 0 (x, t), x = ε1, ε2, . t = 0, 1, . , при которой вероятность P(d) = P(0, i, d), отвечающая начальному положению ξ(0) = εi, достигает своего максимального значения. На k-м шаге этого последовательного процесса соответствующее значение d 0 = d 0 (εi , n-k) определяется как точка максимума функции
где Р0(k, i) суть максимально возможные значения рассматриваемых вероятностей Р (k, i, d); k = 0, 1, . , n; i = 1, 2, .
лежащее в основе описанного метода нахождения оптимальной решающей функции d 0 = d 0 (x, t), называется уравнением Беллмана.
Пример. Пусть имеются два возможных состояния ε1 и ε2, причем в зависимости от управляющего параметра d переходные вероятности могут непрерывно меняться в пределах α1 ≤p11(d) ≤β1, α2 ≤p21(d) ≤β2.
Как выглядит оптимальное управление, если требуется, чтобы в определенный момент (скажем, через два шага) система была в состоянии ε1?
Видно, что, отправляясь из состояния ε1 следует выбрать максимальной переходную вероятность р11, если β1≥β2 (положив p11 = β1),
И выбрать максимальной переходную вероятность р12 = 1-р11, если β1≤β2 (положив р11 = α1).
Аналогично выглядит оптимальное решение для начального состояния ε2.
Задача о наилучшем выборе. Рассмотрим процедуру выбора наилучшего предмета и отвечающий ей марковский случайный процесс с переходными вероятностями рij вида (см. стр. 76):
Выбор ξ(k)-го предмета можно интерпретировать как остановку соответствующего процесса
В каждом из состояний ε1, . , εm наблюдатель решает, остановить или продолжать процесс выбора.
Первому решению, принятому в состоянии εi , формально соответствуют переходные вероятности pij вида
а второму решению - переходные вероятности, указанные ранее.
Перед нами схема управляемого марковского процесса, переходные вероятности рij которого меняются в зависимости от решения наблюдателя.
Управляющий параметр d здесь принимает два значения, скажем 0, что означает остановку процесса в соответствующем состоянии, и 1, что означает принятие противоположного решения.
Зависимость переходных вероятностей pij = pij(d) указана выше.
Каждая процедура выбора описывается некоторой решающей функцией d = d(x), х = ε1, . , εm, которая предусматривает, в каком состоянии х следует продолжать процесс выбора, а в каком следует его прекратить и остановиться на последнем из осмотренных предметов.
Задача состоит в том, чтобы найти такую процедуру выбора, такую решающую функцию d = d(x), х = ε1, . , εm, чтобы вероятность выбрать абсолютно наилучший предмет была бы максимальной.
Эта вероятность есть
где i/m - вероятность того, что 1-й предмет будет наилучшим, pi - вероятность того, что процесс будет остановлен именно в состоянии εi , а суммирование происходит по всем тем состояниям εj, в которых, согласно решающей функции d = d(x), предписывается остановка процесса. Эта вероятность зависит от выбранной решающей функции d = d(x).
Для нахождения оптимальной решающей функции d 0 = d 0 (x) рассмотрим вероятности P(k, d) выбрать наилучший предмет при условии, что число осмотренных до него предметов не меньше k, т. е. при условии, что рассматриваемый процесс на некотором шаге будет в состоянии εk.
Согласно формуле полной вероятности
Очевидно, если процесс будет в состоянии εm, то m-й предмет и является наилучшим, так что оптимальным значением d = d 0 (εm) решающей функции d = d (х) является d 0 (εm) = 0, при котором P(m,d) = 1. Из соотношений (11.16), (11.17) получаем, что при k = m-1 вероятность наилучшего выбора при значении d(εm) = 1 есть
откуда видно, что оптимальным значением d = d 0 (εm-1) решающей функции d = d(x) является d 0 (εm-1) = 0. При этом есть максимально возможное значение вероятности Р(m-1, d), зависящей от решающей функции d = d (х).
Предположим, что при x = εk, . , εm оптимальные значения решающей функции d = d(x) все равны 0, что соответствует остановке процесса в состояниях εk, . , εm. Каково предшествующее оптимальное значение d 0 (εk-1)?
Очевидно, если процесс останавливается в любом из состояний x = εk, . , εm, то, как следует из соотношений (11.16), (11.17), вероятность наилучшего выбора при условии, что будет осмотрено не менее k-1 предметов, есть
откуда видно, что оптимальное значение d = d 0 (εk-1) решающей функции d = d(x) есть
Легко видеть, что оптимальная решающая функция d = d(x) имеет следующую структуру:
где m0 - некоторое число. При оптимальном выборе следует продолжать процесс осмотра до тех пор, пока не попадется предмет с номером k≤m0, наилучший среди всех ранее осмотренных предметов. На этом k-м по счету предмете и следует остановить свой выбор. Согласно (11.18) число m0 есть наибольшее натуральное число, для которого
Нетрудно установить, что при больших m это число m0 приблизительно равно m/e, e = 2,72.