旅行時間の不確実性下における動的な最適経路選択手法

旅行時間の不確実性下における動的な最適経路選択手法
プロフィットエンジニアリング研究
5211F020-1 寺田起也
指導教員
大野髙裕
Dynamic Optimal Routing Strategy under Uncertainty of Travel Time
TERADA Tatsuya
1. はじめに
考慮することが可能となる.
近年,インターナビ(ホンダ)に代表されるフローティ
本研究では,道路ネットワーク上における多数のボト
ング・カー・システム (FCS) の実用化により,道路交通
ルネックの所要時間を原資産過程として仮定する.その
に関する情報量は大きくなっている.また,サーバとの
ため,有限差分法を始めとする後ろ向き帰納法によって
相互通信型カーナビの普及により,道路交通情報に対す
本問題を解くと計算量が指数関数的に増大する,次元の
る処理能力も向上している.
呪いが生ずる.そこで,実用的な計算速度を得るために,
カーナビによる経路選択には 2 つの基本要素がある.1
つは道路の旅行時間の把握及び予測であり,もう 1 つは
それらの情報を基にした経路選択である.カーナビで用
いられているアルゴリズムでは,経路探索時点でのリン
ク旅行時間を基にして確定的な旅行時間予測を行なって
おり,近視眼的に経路選択を行なっている.そのため,将
来発生する渋滞によって生じる遅延のリスクを事前に考
慮できていない.一方で実際のリンク旅行時間はそれぞ
れ確率的に変動しているため,経路選択の際にはその不
確実性を考慮した手法が必要である.
数値解法として最小二乗モンテカルロ (LSM) 法 [4] を用
いることとする.
2. 提案モデル
2.1. 旅行時間の時系列データ
ドライバーが時刻 t までに得られる旅行時間情報をフィ
ルトレーション Ft で定義する.ドライバーは時間間隔
∆t でリンク毎の旅行時間の情報を取得する.ここで,∆t
は VICS または FCS の情報更新の時間間隔である.
2.2. 道路ネットワーク
旅行時間予測と最適経路選択に関する従来研究は多く
道路ネットワーク G = {N , A, B} を考える.ここで,有
存在する.Yan et al. [1] では,旅行時間に時系列モデル
限集合 N はノードの集合であり,A, B ⊆ N ×N はそれぞ
を仮定し,その予測とともに不確実性の定量的な評価を
れノード間の道路 (有向リンク) の集合,ノード間のボトル
行なっている.一方,最適経路選択に関する従来研究とし
ネック(有向リンク)の集合である.ただし A ∩ B = ∅ で
ては,Q 学習アルゴリズムを用いた Mainali et al. [2] な
ある.特にノード n から n′ へ通行できる通常リンクもし
どがあるが,いずれも近視眼的な経路選択を行なってお
くはボトルネックを,それぞれ a(n, n′ ) ∈ A,b(n, n′ ) ∈ B
り,旅行時間の不確実性を事前に考慮できていない.す
と表現し,ノード間には複数のリンクは存在しないものと
なわち不確実性を考慮した旅行時間予測の手法は存在す
する.また,ノード間のリンクの長さを l(n, n′ ),そのリ
るものの,それを事前に考慮した経路選択に関する研究
ンクを通行する際の旅行速度を s(n, n′ ) とする.更にノー
はなされていない.
本研究では,旅行時間の不確実性を考慮した動的な経
路選択手法を提案する.ドライバーは,出発地から目的
ド n の直下ノードを D(n) ≡ {nd : a(n, nd )∪b(n, nd ) ̸= ∅}
と定義する.最後に,O, D ∈ N をそれぞれ出発,目的地
点とする.
地へ走行する際に,交差点において経路選択する意思決
本研究では,ボトルネックの待ち行列の長さについて
定のほかに,経路途中での U ターンの意思決定も有して
明示的に考慮しない point-queue を仮定する.ボトルネッ
いる.本研究では,これら 2 つの意思決定をそれぞれヨー
ク b(n, n′ ) の所要時間 τnn′ (t) は時々刻々と変動し,確率
ロピアン/アメリカン・オプションと見立てることにより,
過程に従がうとする.このとき,確率過程として次の 2
経路の価値評価及び最適な経路選択をリアルオプション・
つの場合を考える.
アプローチによって行なう.これにより前方の道路が混
1) 幾何ブラウン運動 (GBM)
雑した場合のリスクヘッジが可能となり,従来より期待
効用が高い経路選択が可能になると考えられる.また,ボ
トルネックの通過に要する所要時間が従がう確率過程が,
∆τnn′ (t)
= αnn′ ∆t + σnn′ ∆Zn,n′ (t).
τnn′ (t)
(1)
幾何ブラウン運動,GARCH モデル [3] の 2 つに従がう
ここで,αnn′ は期待成長率,σnn′ はボラティリティ ,
場合を考える.GARCH モデルを仮定することで,ボラ
∆Znn′ (t) は標準ブラウン運動の増分である.また多次
ティリティが逐次的に変動し,動的な交通状況の変化を
元ブラウン運動 Z(t) の相関行列を ȷ とする.
2) GARCH(1,1) モデル (GARCH)
Rnn′ (t)
=
=
START
ȷ
τnn′ (t) − τnn′ (t − ∆t)
τnn′ (t − ∆t)
µnn′ + ϵnn′ (t),
ln
ff
N i = D (0 < i < PN )
(2)
i=0
no
i < PN
yes
ϵnn′ (t) ∼ N (0, σnn′ (t)),
Calculate C N i D (i )
2
2
2
′ (t) = ωnn′ + αnn′ ϵnn′ (t − ∆t) + βnn′ σnn′ (t − ∆t).
σnn
i 䊹 i +1
yes
D( N i ) ˻2䌾 N i = O
no
Update N i
ここで,Rnn′ (t) は t 期における τnn′ (t) の対数増加率で
あり,µnn′ はその期待増加率,ϵnn′ (t) は t 期における残
Compare path values of intersection:
C j , D ( p ) > C j , D ( q ) 䋻 C j , D (q ) 䊹 C j , D ( p )
2
差である.また,σnn
′ (t) は εnn′ (t) が従がう正規分布の
no
分散であり,ωnn′ , αnn′ , βnn′ はそれぞれボラティリティ
䌔ࠉ
0 < i < PN , N i = O
yes
のパラメータである.
Calculate expected utilities of paths
Select the path with the highest expected utility
2.3. ドライバーの行動
出発地点 O から目的地点 D までの経路の集合を
END
P(O, D) とする.ここで OD 間の 1 つの経路を pi ∈
P(O, D) で特定する.また pi に含まれるノードの集合
図 1. 経路選択アルゴリズム
を N (pi ) ⊆ N で表わす.
次に,時刻 t においてドライバーがノード n にいると
の最適経路選択行動は次式で表わされる;
′
き,直下ノード n ∈ D(n) に到達するまでの期待旅行時
間を考える.ノード n と n′ の間が通常リンク a(n, n′ ) な
らば,その旅行時間は次のとおり表わされる;
VOD ≡
l(n, n )
.
s(n, n′ )
˛ ˜
ˆ
E0 U (COD ) ˛F0
s.t. (1) or (2), (3)–(5), COD =
X
Cnk n′ (tk )+Cu (tu ).
nk ∈Ni (pi )
′
Cnn′ (t) =
min
tu ,pi ∈P(O,D)
(3)
ここで,COD は出発地 O から目的地 D までの総旅行時
また,ノード n から n′ の間がボトルネック b(n, n′ ) なら
間であり,第 1 項は各リンク旅行時間の総和である.ま
ば,その期待旅行時間は次のとおり表わされる;
˛ –
»
˛
Cnn′ (t) = Et τnn′ (t) ˛˛Ft , s.t. (1) or (2).
た,tk はドライバーがノード nk に到着した時刻を表わ
し,n′ ∈ D(nk ) ∩ Ni (pi ) とする.最後に,U (·) を絶対的
(4)
リスク回避度一定の効用関数と同定する;
1
U (x) = − exp(−γx).
γ
ここで,Et (·) は時刻 t における期待値演算である.
またドライバーは,経路の途中での U ターンが可能で
ある.ある時点での経路の期待効用より U ターンをする
場合の期待効用が高いとき,ドライバーは U ターンを選
択する.ドライバーが U ターン可能であるのは通常リン
ク上だけであり,ボトルネック上では U ターンを選択で
きないものと仮定する.ドライバーがリンク a(n, n′ ) 上
で U ターンを選択する時刻を tu ,その地点を q と表わし,
U ターンに要する時間を Cp としよう.このときドライ
バーは追加的なコスト Cu (tu ) を支払うことで,ノード n
から異なるリンク a(n, n′′ ), n′′ ∈ D(n) を選択できる;
Cu (tu ) = 2
l(n, q)
+ Cp .
s(n, n′ )
(6)
ここで γ は相対的リスク回避係数である.
2.4. 解法
本研究では,LSM 法を用いてシミュレーション解を導
出する.まず,道路ネットワーク情報及び出発地 O,目
的地 D を入力する.次に入力された情報を基にして,直
下ノード D(n) の抽出及び OD 間でドライバーが取りう
る経路 P(O, D) の生成を行なう.このとき,1 度通った
ノードを通行禁止とする制約を与える.次に各ボトルネッ
クの所要時間のサンプルパスを生成する.
(5)
図 1 はその後の経路選択アルゴリズムを表わしている.
最初に経路 i について目的地 D から遡って期待旅行時間
ここで l(n, q) はノード n から U ターン地点 q までの距離
CNi D (i) を算出する.交差点ノードもしくは出発地 O ま
である.
で遡ったとき,次の経路 i + 1 の計算に移る.これを全経
ドライバーは出発地 O から目的地 D までの期待効用を
路について計算した後,交差点で合流する経路の価値を
最大にするように経路を選択する.すなわちドライバー
比較する.この処理を全経路が出発地 O に遡るまで繰り
Bottleneck
Normal link
6.0
2.0
O 0
12.0
2.0
Place m
表 2. その他の基本パラメータ
l (1, q) = 1.0
1
12.0
τ23 2.00 τ56 2.00 ρ 0.00 s 1.00 γ 0.01 Cp 0.10
2
6
3
4
5
7 D
2.0
2.0
図 2. 数値実験に用いる道路ネットワーク
表 1. GBM 及び GARCH のパラメータ
type
parameter
GBM
GARCH
表 3. 本手法と従来手法の比較
Routing Scheme
Exp. U. Exp. T.
Dijcstra Method
Mainali et al. [4]
−119.81 18.052
−119.56 17.865
Our Model(GBM, No-Uturns) −119.37 17.705
Our Model(GBM, Uturn)
−119.36 17.704
Our Model(GARCH, Uturn) −119.32 17.660
α23
σ23
1.14 × 10−3
8.32 × 10−2
α56
σ56
2.05 × 10−3
8.99 × 10−2
µ23
4.806 × 10−2
µ56
1.245 × 10−2
表 3 は,本手法と従来手法との比較である.本手法で
ω23
α23
4.806 × 10−3
4.315 × 10−2
ω56
α56
6.627 × 10−2
2.158 × 10−1
は,従来手法と比べて期待効用が増加し,期待旅行時間
β23 9.104 × 10−1 β56 2.448 × 10−2
σ23 (0) 1.049 × 10−1 σ56 (0) 1.251 × 10−1
ε23 (0) 1.049 × 10−1 ε56 (0) 1.251 × 10−1
3.2. 結果
が減少している.これはノード 1 での経路選択を確定せ
ずにオプションとして評価することで,リスクヘッジが可
能になるためと考えられる.また,U ターンを考慮する
ことで期待効用の更なる増加が見られる.これは U ター
ンを考慮することで,経路前方が混雑した場合のリスク
ヘッジが可能になるためと考えられる.更に,GBM でな
返す.最後に各経路の期待効用を算出し,期待効用が最
く GARCH を適用することで期待効用は更に増加する.
大である経路を選択する.ここで,P N は取りうる経路
これは,ボラティリティの変動を考慮することで,その
の数である.
大きさが逐次的に更新されるためと考えられる.
以降では,ボトルネックの所要時間に幾何ブラウン運
3. 数値実験
動を仮定する場合の分析を行なう.図 3(a) はノード 1 に
3.1. 準備
まず,数値実験で用いる道路ネットワークを図 2 の
Braess ネットワークとする.また,数値計算上の制約と
して以下の 2 つの条件を与える.1 つ目は U ターンを “
現在地点から直近の交差点ノード ni = {nk : D(nk ) ≥ 2}
まで戻り,異なるリンクから経路選択すること” と定義す
ること,2 つ目は,ドライバーは目的地に到着するまでに
U ターンを 1 回のみ選択可能と仮定することである.
次に,数値実験に用いる基本パラメータを定める1 .表
1 はそれぞれ幾何ブラウン運動と GARCH(1,1) モデルの
パラメータである.リンクの長さについては図 2 を,そ
の他のパラメータについては表 2 を参照されたい.最後
に,LSM 法におけるサンプルパスの生成数は 50,000 回と
し,最小二乗近似に用いる近似関数は次式とする;
おける経路選択閾値を示している.ボトルネックの所要時
間が一定値を上回ると,ドライバーはノード 7 を選択す
る.これは,ボトルネックの所要時間の増加により,ノー
ド 2 経由の経路の旅行時間が増加するためと考えられる.
また,図 3(b) は地点 m における U ターン閾値を示して
いる.ボトルネックの所要時間が一定以上増加すると,ド
ライバーは U ターンを選択する.これは,このままノー
ド 2 へ進む場合の旅行時間が非常に増加すると考え,リ
スクヘッジをするためと考えられる.
図 4 は各ボラティリティがドライバーの期待効用に与
える影響を示している.各ボラティリティが大きくなる
ほど,ドライバーの期待効用が高くなっている.これは
リスクヘッジの効果が大きくなることで,経路選択のオ
プション価値,すなわち旅行時間の削減時間が増大する
2
2
F (x, y) = ψ0 + ψ1 x + ψ2 y + ψ3 x + ψ4 y + ψ5 xy.
ためと考えられる.これは,ボラティリティが大きくな
るとオプション価値も増加するという一般的な金融オプ
ここで ψi は各基底関数の係数である.
1 ボトルネックのパラメータは,都内/片側
1 車線/都道の近接す
る 2 地点の車両速度の時系列データを基にして推定する.不等間隔
データを区間 ∆t = 30(秒) に分割,区間の値を区間内で最後に観測
された値とする.生成した等間隔データを基に,最尤法を用いて確
率過程のパラメータ推定を行なう.
ションの性質と一致している.また,ボラティリティσ23
の増大より σ56 の増大のほうがドライバーの期待効用を
より増加させている.これはボトルネック b(5, 6) の方が
b(2, 3) と比べて,出発地 O より遠い位置にあることから,
その所要時間が大きく変化しやすいためと考えられる.こ
Node 7
4
2
Node 1
0
0
2
4
6
8
Travel Time of Bottleneck τ23
(a)
8
-118
6
Expected Utility
6
Travel Time of Bottleneck τ56
Travel Time of Bottleneck τ56
8
U-turn
4
2
Continuation
0
0
2
4
6
-119
-119.5
8
Travel Time of Bottleneck τ23
(b)
図 3. ノード 1 における経路選択閾値 (a) 及び地点 m にお
ける U ターン閾値 (b)
-120
-1
-0.5
0
0.5
1
Correlation Coefficent ρ
図 5. 相関係数 ρ が期待効用に与える影響
-117
-118.7
-117.5
Expected Utility
Expected Utility
-118.5
-118
σ 23 = 0.2
σ 23 = 0.3
σ 23 = 0.4
-118.5
-119
0.1
0.2
0.3
0.4
U-turn available
-118.9
-119
-119.5
0
No U-turns
-118.8
0
0.5
Volatility of Bottleneck σ 56
0.5
1
1.5
2
U-turn Penalty C p
図 4. 各ボラティリティが期待効用に与える影響
図 6. U ターンのペナルティCp が期待効用に与える影響
れも,満期が長いほどオプション価値も大きくなるとい
スクヘッジが可能となったためと考えられる.また,不確
う一般的な金融オプションの性質と一致している.
実性が大きい道路ネットワークの方がオプション価値が
図 5 はボトルネック間の相関係数がドライバーの期待
増加し,従来手法からの改善効果が大きいことが分かっ
効用に与える影響を示している.相関係数が大きくなる
た.つまり道路ネットワークにおける不確実性が大きい
ほど,ドライバーの期待効用は高くなっていることが分
ほど,本手法の有用性は高いと考えられる.
かる.相関係数が負のとき,ボトルネックの所要時間 τ23 ,
今後の課題として一般的なネットワークへの拡張が考
τ56 は同符号方向に変化しやすく,その変化の総和も増大
えられる.そのためには,大規模な旅行時間の時系列デー
しやすい.一方で,相関係数が正のとき,τ23 ,τ56 は異
タを用いたデータ解析が必要になると考えられる.
符号方向に変化しやすいため,変化の総和は減少しやす
参考文献
い.以上により,相関係数が増大するほど,所要時間の
変化量は大きくなりやすく,ノード 1 における経路選択
のオプション価値(削減時間)は増加すると考えられる.
図 6 は U ターンのペナルティCp がドライバーの期待
効用に与える影響を示している.なお,ここでは影響を
分かりやすくするため,σ23 = σ56 = 0.2 に固定して数値
実験を行なう.U ターンのペナルティが増加なるにつれ
て,期待効用は低くなっている.これは,ペナルティが
増加することで U ターンのオプション価値が減少するた
めと考えられる.またペナルティがある程度増加すると,
U ターンを選択するメリットがなくなり,U ターンを考
慮しない場合の期待効用に収束すると考えられる.
4. おわりに
[1] Yang, M., Liu, Y. and You, Z.:“The Reliability of
Travel Time Forecasting,” IEEE Transactions on Intelligent Transportation Systems, Vol.11, pp.162–171
(2010)
[2] Mainali, M. K., Shimada, K., Mabu, S. and Hirasawa,
K.:“Optimal Route Based on Dynamic Programming
for Road Networks,” Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol.12,
No.6 , pp.546–553 (2008)
[3] Bollerslev, T.: “Generalized Autoregressive Conditional Heteroskedasticity,” Journal of Econometrics,
Vol.31, No.3, pp.307–327 (1986)
[4] Longstaff, F. A., Schwartz, E. S.: “Valuing Ameri-
本手法により従来の手法と比べて期待効用の高い経路
can Options by Simulation: A Simple Least-Squares
選択が可能となった.これは旅行時間の不確実性を考慮し
Approach,” The Review of Financial Studies, Vol.14,
経路選択と U ターンのオプションを保持することで,リ
No.1, pp.113–147 (2001)