В условиях отсутствия последействия и аддитивности целевой функции решение задачи динамического программирования базируется на принципе оптимальности Беллмана: Метод решения задачи (2.9.1), основанный на принципе оптимальности Беллмана, называется методом прогонки и представляет собой следующую двухэтапную процедуру.

1-й этап («обратная прогонка»). Рассмотрим последний, n-й шаг. Обозначим через W_n^*(S) максимальную эффективность управления x_n на последнем шаге при условии, что в начале шага система находилась в состоянии S_n-₁:

(2.9.4)

По сути, x_n^* – это условное оптимальное управление на n-м шаге:

(2.9.5)

Перебирая все возможные состояния S_n-₁ перед последним шагом, получаем все условные оптимальные уравнения на последнем шаге.

Рассмотрим произвольный k-й шаг. Из принципа оптимальности Беллмана следует

$W_{k}^{*} (S_{k - 1}) = \max_{x_{k}, x_{k + 1}, \dots, x_{n}} {f_{k} (S_{k - 1}, x_{k}) + \sum_{i = k + 1}^{n} f_{i} (S_{i - 1}, x_{i})} = \max_{x_{k}} {f_{k} (S_{k - 1}, x_{k}) + W_{k + 1}^{*} (S_{k})} =$ $= \max_{x_{k}} {f_{k} (S_{k - 1}, x_{k}) + W_{k + 1}^{*} (ϕ_{k} (S_{k - 1}, x_{k}))}, k = \bar{1, n} .$

(2.9.6)

Уравнения (2.9.6) называются рекуррентными уравнениями Беллмана и позволяют находить цепочки условных оптимальных шаговых управлений, от последнего $x_{n}$

и до самого первого $x_{1}$ :

$x_{n}^{*} (S_{n - 1}), x_{n - 1}^{*} (S_{n - 2}), \dots, x_{k}^{*} (S_{k - 1}), \dots, x_{1}^{*} (S_{0}) .$

(2.9.7)

принцип оптимальности Беллмана: «Каково бы ни было состояние системы перед очередным шагом, управление на этом шаге выбирается так, чтобы сумма эффективности данного шага и максимальной эффективности всех последующих шагов была бы максимально высокой».