最近、確率計画法についていろいろ調べてるけど、そこで確率的双対動的計画法(Stochastic Dual Dynamic Programming, SDDP)というのに行き着いた。 これは、多段階確率計画法を考えたときに動的計画法として考えることができて、それを解くのに双対性を使って状態費用関数を線形近似していこうというもの。元々考えてた確率計画法、強化学習の理論を支えてる動的計画法、そして最適化の双対理論がここで繋がって一つの形になるというのは、個人的にすごく面白い。
ただ、日本語の資料が全然なくて、今日は英語の資料をちょっと見てたりしてた。 具体的な例で試してみないと、ちょっと分からないかも・・・
でも、これがちゃんと理解できると、不確実性をもった最適化問題に関して考えることができるようになるので、かなり有益に思う。 頑張って読み解いてみたい。 (そしてできれば技術書典の新刊に・・・)
ではまた明日。