水文統計あれこれ まえがき 水文量を統計処理するアイディアは、第二次

水文統計あれこれ
まえがき
水文量を統計処理するアイディアは、第二次大戦後に米国よりもたらされたものです。わが国では、
昭和 20 年代後半から昭和 30 年代前半にかけて、このデータ処理方法の適用性と実用化のための技術開
発が精力的に実施されています。当時は、戦時中に中断された事業の再開あるいは戦後の国土復興計画
において、それまでの既往最大を基準とする方法から、データサイズの小さい資料から生起頻度の小さ
い計画値を合理的に求める方法が特に必要となった背景があります。戦時中の技術資料を土台とする土
木学会水理公式集昭和 32 年改訂版には水文統計に関する記述は全くありませんが、昭和 38 年増補改訂
版には水文量のひん度(1.3.5)の項が新設され、水文量の分布、リターンピリオド(確率年)以下多
くの記述があります。
対数正規分布については、石原・高瀬の常数推定法(石原藤次郎・高瀬信忠・対数正規分布とその積
率による解法
土木学会論文集 47 号
その本邦河川への適用
睦
昭和 32 年)、岩井の常数推定法(岩井重久
統計水理研究 2 巻 3 号
計画洪水量に関する順序統計学的考察
昭和 24 年
確率洪水推定法と
等)、順序確率法による常数推定法(角屋
農業土木研究 21 巻 4 号
昭和 29 年
等)が収録されてい
ます。また、確率水文量の推定の方法やデータの棄却検定についても記述があります。
対数正規分布以外については、極値分布の記述があります。また、この公式集には計算例が詳細に示
され、実用を強く意識した構成となっています。グンベルの名著「極値統計学」の日本語訳(訳者
河
田龍夫、岩井重久、加瀬滋男)が広川書店より出版されたのが昭和 38 年のことです。
しかし、他方、水文量を統計処理することについては、その前提条件となるデータ個々の独立性やラ
ンダム性についての疑念が当初よりあり、現在も引き続き統計処理の成立を疑う人が数多くいることも
事実です。
昨今のように、地球温暖化等の地球規模の気候変動が顕著になってくると、データのサンプリングの
基準や水文統計それ自体についても再考する必要が生じます。水文統計の適用は限定的になるかもしれ
ません。ただし、実用上は尺度としての確率水文量の優位性が認められ、計画等の多方面において便利
に使用されていることは周知のことです。
現在の水文統計の手法は、昭和 30 年代にほぼ既成していますが、当時一般に使用できる演算器は手
動もしくは電動の計算器にすぎませんから、パソコンが普及し自由に使用できる環境では、新たな手法
の開発も可能となっています。事実、平成以後においても土木学会において水文統計の新しい手法や知
見に関する論文が発表されています。
ここでは、あまり深く言及することなく実用している確率量について、パソコンを利用して基本的な
シミュレーションを行うことにより、周知の事実を再認識することを考えています。また、水文統計で
得られる確率量の不確実さを実感することも目的の一つです。
内容は、正規分布の近似式(1)
、プロッティング・ポジション公式の適用性(2)、確率量の生起特性
(3)と特定期間内の生起回数(4)と 3 母数正規分布の常数推定法とその性状(5)となっています。
(1)正規分布の近似式
正規分布では、次の関係式が成立します。
1
2π
P( u) =
∞
∫u
⎛ t2
exp ⎜⎜ −
⎜⎝
2
⎞⎟
⎟⎟ dt
⎠⎟
ここに、 u は正規変量、 P( u)は u を超える値の生起する確率(超過確率)です。
演算ソフトに両者の関係を表す標準関数がない場合には、これを求める近似式が必要になります。近
似式としては、Hastings の式が知られていますが、ここでは Williums の式を基本式とし、さらに精度を
高めることを試みています。なお、数値積分は Newton, Cotes の方法を用いています。
Williums の式は、次のように表されます。
u=±
π
2
y
あるいは、 y = ±
2
π
u
ここに、 y は確率 P( u)の関数として次式で与えられます。
y = − log { 4P( 1 − P )}
Williums の式を基本とする近似式は、次のように表されます。
(1) y から u を求める近似式
u=
π
2
y { 1 + Fa( y) Fb( y)} sgn { 0.5 − P( u)}
Fa( y) = ( ( ( a( 4) y + a( 3) ) y + a( 2) ) y + a(1) ) y
Fb( y) = ( ( ( b( 4) y + b( 3) ) y + b( 2) ) y + b( 1) ) y + 10000
(2) u から y , P( u)を求める近似式
y=
2
π
u { 1 + Ga( u) Gb( u)}
Ga( u) = ( ( ( a( 4) u + a( 3) ) u + a( 2) ) u + a( 1) ) u
Gb( u) = ( ( ( b( 4) u + b( 3) ) u + b( 2) ) u + b( 1) ) u + 10000
P( u) =
1
2
{ 1 − sgn( u) 1 − exp( − y ) }
2
近似式の係数 a( k), b( k)( k = 1, , 4)
Fa( y)
Fb( y)
Ga( u)
Gb( u)
(1)
0.2331
-4371.5249
-0.0789
-2647.1911
(2)
116.2401
2334.9765
-74.6509
1378.7108
(3)
-46.9700
-380.0112
18.9377
-147.1785
(4)
18.6514
148.7478
-6.4573
57.0236
近似式の適用範囲は、 u の値に対して-6 から 6 までです。近似式の算定誤差は、 u については 10-6 の
オーダー、 P( u)については%表示として 10-6~10-10 のオーダーとなります。
プログラムでは、近似式の係数の算出過程ならびに誤差の様相について知ることができます。なお、近
似式の係数は分母の定数項を 10,000 とし、いずれも小数点以下 4 桁で求めていることに注意してくだ
さい。
(2)プロッティング・ポジション
プロッティング・ポジションとは、順序統計量の生起確率を表す指標と考えることができます。大き
い順に整理された順序統計量では、プロッティング・ポジションは超過確率 P を表します。
k 番目の順序統計量に対するプロッティング・ポジション P( k)は、次式で表されます。
P( k) =
k − A0
n + B0
ここに、 n はデータサイズ、 A0 , B0 は定数です。この定数は、中央値においては P( k) = 0.5 となる条
件より 2 A0 + B0 = 1 の関係を満たす必要があります。提案された算定式は、いずれもこの条件を満た
しています。提案された主な算定式を列挙すれば次のとおりです。
(1)Weibull
( A0 = 0 )
(2)Chegodayev (0.3)
(3)Turkey
(1/3)
(4)Blom
(3/8)
(5)Cunnane
(2/5)
(6)Gringorten
(0.44)
(7)Hazen
(1/2)
ここでは、各種の確率事象から得られた順序統計量に対するプロッティング・ポジション算定式の適
合性をシミュレーションの方法で検討します。
プロッティング・ポジションの算定式としては、次式を用います。
P( j , k) =
1
k − A0( j )
−
2
n + B0( j )
ここに、 A0( j ) = 0.025 j ( j = 0~ 20), B0( j ) = 1 − 2 A0( j )
正規変量表示では、 P( j , k) より変換して求めます。
U( j , k) = F { P( j , k)}
これに対する確率事象は、0~1 に一様に分布する乱数 R を用いて
p=
1
− R,
2
u = F( p)
とし、与えられたデータサイズ n に対して n 個の p および u を求め順序統計量 p( k), u( k) を求めます。
適合性を判定するために用いる差 e( k) は、次のとおりです。
⎧⎪ P( j , k) − p( k)
⎪⎪
⎪⎪ P( j , k) − E[ p( k) ]
⎪⎪
⎪ P( j , k) − M[ p( k) ]
e( k) = ⎪⎨
⎪⎪ U( j , k) − u( k)
⎪⎪
⎪⎪ U( j , k) − E[ u( k) ]
⎪⎪
⎪⎩ U( j , k) − M[ u( k)]
ここに、 E[ y( k)] =
1
m
m
∑ y( k, i) ,
M[ y( k)] = y( k, mm) とします。
i= 1
E[ ]は m 組の平均値を意味し、 M[ ]は m 組のメディアンであることを意味します。シミュレーショ
ンでは、 m = 99 , mm = 50 としています。なお、適合性の判定には、両端の順位のみを用いることと
し、 k = 1 ~ 5 および n − 4 ~ n を対象としています。ただし、 k = n − 4 ~ n については、 k = 1 ~ 5 に
換算して取り扱っています。
適合性の判定に用いるパラメータは、( 1 ) [ e( k)] 、( 2 ) [ e( k) w( k) ] 、( 3 )[( e( k))2 ] および( 4 )
[( e( k))2 w( k)]の 4 種とします。パラメータ中の w( k) は重みで w( k) = k としています。
パラメータ(1)および(2)については絶対値の小さい方から、(3)および(4)については値の小
さい方から 20, 19, ・・・と点数をつけています。総合点は、( 2)× 4 + (1)× 3 + ( 4)× 2 + ( 3)として求めて
います。シミュレーションは 10 万回行っていますが、この結果より、
(1)Weibull: p( k), E[ p( k)], E[ u( k)]
(2)Chegodayev,Turkey: M[ p( k)], M[ u( k)]
(3)Blom,Cunnane: u( k)
がよい適合性を示しています。
データサイズ n を与えてシミュレーションを行い確かめてください。
(3)リターンピリオド Trp
リターンピリオド Trp とは、その超過確率 P の逆数 Trp = 1 P のことです。リターンピリオド Trp を超
える確率事象(リターンピリオドが Trp より大きい確率事象)が k 回目に生起する確率 P( k)は、 k − 1 回
は Trp を超える事象が生起せず、 k 回目にのみ生起する確率ですから、次式で表されます。
P( k) = t( 1 − t )k−1
ここに、 t = 1 Trp です。
これより、 k = 1 から無限大までの P( k)の総和は、1 になりますから、この P( k)は確率密度関数として
取り扱うことができます。
k の 1 次モーメントおよび 2 次モーメントは、それぞれ次のように得られます。
m
∑ kP( k) =
k= 1
m
∑ k 2 P( k) =
k= 1
1
t
{ 1 − ( mt + 1)(1 − t)m }
1
t2
{ 2 − t − ( mt + 1)2(1 − t)m − (1 − t)m+1 }
これより、 k の期待値 E[ ]および標準偏差 D[ ] は、それぞれ次のように得られます。
E[ k] =
D[ k] =
1
= Trp
t
∞
∑ k 2 P( k) − ( E[ k])
k= 1
2
=
1
t
1 − t = Trp 1 − 1 Trp
k の中央値(メディアン) M[ ]としては、ここでは次式を満たす解( m + h)と近似します。
m
∑ P( k) + hP( m + 1) = 0.5
k= 1
M[ k] = m + h = fi x { log 0.5 log ( 1 − t )} +
1
t
{ 1 − 0.5 (1 − t)m }
= f i x { log 0.5 log ( 1 − 1 Trp )} + Trp { 1 − 0.5 ( 1 − 1 Trp )m
}
ただし、 m = fi x { log 0.5 log ( 1 − 1 Trp )} ≈ fi x(0.693Trp )
となります。
ここでは、このリターンピリオド Trp について、シミュレーションにより確かめます。
なお、理論値の項に示される最大および最小値は、参考値にすぎません。
(4)期間 d における発生回数の分布
リターンピリオド Trp を超える確率事象が期間 d において k 回( k = 0 , , d )生起する確率は、次式で
表されます。
P( k) = d C k( 1 − t )d− k t k
k = 0, ,d
ここに、 t = 1 Trp です。
d
この確率 P( k)についても ∑ P( k) = 1 が成立します。
k= 0
ここでは、期間 d とリターンピリオド Trp がともに小さい場合と、ともに大きい場合の 2 つの事例につ
いて考えることとします。
ともに小さい場合とは、ダム施工時に直面する仮排水路の容量計画の問題が該当します。仮排水路の
通水能力を小さく(リターンピリオド Trp を小さく)すれば、それだけ仮排水路に要する費用を軽減で
きますが、施工中のダムの堤体を越流する危険が増大することになります。したがって、越流によって
生ずると予想される被害額と建設に要する費用とを勘案して、設備の規模を判定することになります。
一方、ともに大きい場合とは河道整備計画を計画規模との関係がこれに該当します。河道整備計画に
おいて計画規模の水準を与えるリターンピリオド Trp を策定しますと今後何十年に何回の割合でこれを
超える事象が発生し、被害が生ずるかを予測することが可能となります。河道整備計画の策定では、生
ずることが予測される被害の状況を含めて処理することが要点となります。
ここでは、この両者について理論値とシミュレーションによって得られる分布とを比較します。
(5)3 母数対数正規分布
3 母数対数正規分布とは、変量を x 、母数を a, b, x 0 とし、正規変量を u として次の関係式が成立する
分布のことです。
u=
1
x+b
log
a
x0 + b
ここに、 a は標準偏差、 log ( x 0 + b)は母平均で、 b は定数です。
データサイズを n とすれば log ( x 0 + b)および a は次式で推定できます。
log ( x 0 + b) =
1
n
n
∑ log ( x( k) + b)
k= 1
2
2
⎪⎧ n
a = ⎪⎨ ∑ ( log ( x( k) + b) ) − n ( log ( x 0 + b))
⎪⎩⎪ k= 1
⎪⎫⎪
⎬ ( n − 1)
⎪⎭⎪
しかし、定数 b が未知量ですから、この演算を直ちに行うことはできません。3 母数対数正規分布では
定数 b をまず推定する必要があります。
プロッティング・ポジションでは、 u( k)とこれと対をなす u( n + 1 − k) とでは、
u( k) + u( n + 1 − k) = 0 が成立しますから、次の関係式を導くことができます。
log ( x( k) + b ) + log ( x( n + 1 − k) + b ) − 2 log ( x 0 + b) = 0
これを整理すれば、次式が得られます。
b=
x 02 − x( k)⋅ x( n + 1 − k)
x( k) + x( n + 1 − k) − 2x 0
水理公式集例題集では、k = 1 とし、x 0 については x( k)の中央値 x m で近似できるものとして b を次のよ
うに導いています。
b=
x m2 − x(1) x( n)
x( 1) + x( n) − 2x m
ここでは、上式で得られる b の値を岩井法による値と呼ぶこととします。
前述の b の算定式を b( k)とし、次のように表すこととします。
b( k) = Fa( k) Fb( k)
Fa( k) = x 02 − x( k)⋅ x( n + 1 − k)
Fb( k) = x( k) + x( n + 1 − k) − 2 x 0
ここに、 Fa( k) および Fb( k) は、それぞれ次のように表すことができます。
Fa( k) = ( x 0 + b) b ⋅ f( au( k))
Fb( k) = ( x 0 + b) f( au( k))
ここに、 f( au( k)) = exp( au( k)) + exp( − au( k)) − 2 です。
exp( y)は、 exp( y) = 1 + y + y 2 2 ! + y 3 3 ! + " と展開できますから、 f( au( k)) については次の近
似が成立します。
f( au( k) ) = a 2( a( k))2
したがって、 Fa( k) = a 2( x 0 + b) b( u( k))2
Fb( k) = a 2( x 0 + b)( u( k))2
として、最小 2 乗法により( u( k))2 の係数を求めれば、次の結果を得ることができます。
a 2( x 0 + b) b = ⎡⎢⎣ Fa( k) ( u( k))2 ⎤⎦⎥ ⎡⎣⎢ ( u( k))4 ⎤⎦⎥
a 2( x 0 + b) = ⎡⎣⎢ Fb( k)( u( k) )2 ⎤⎥⎦ ⎡⎢⎣ ( u( k) )4 ⎤⎦⎥
したがって、この方法では、常数 b は次のように得られます。
b = ⎡⎢⎣ Fa( k) ( u( k))2 ⎤⎥⎦ ⎡⎢⎣ Fb( k)( u( k))2 ⎤⎥⎦
ここに、 [
mn
] は ∑ で、 x 0 としては中央値 x m を用いることとします。 mn としては、 mn = 5 , 10 お
k= 1
よび f i x( n 2 ) とした場合について求めていますが、ここではこの方法を修正岩井法と呼ぶこととしま
す。
これに対して f( au( k)) としては原式をそのまま用い、 a および log ( x 0 + b)については最初に示す定義
式を用いて 3 式すべてを満たすように求める方法を INA 筑波方式と呼ぶこととします。なお、 mn とし
ては mn = f ix( n 2 ) を用い、繰り返し演算を行えば 3 式すべてを満たす常数を容易に求めることがで
きます。
(5-1)は、公表されているデータに対し、上述の方法を適用した事例です。用いているデータは、
(1)藤田睦博・神田徹:新体系土木工学 26「水文学」
(2)水理公式集例題集 土木学会
(3)温井ダム工事誌
(4)中村慶一:土木技術者のための統計解析 山海堂
(5)岩井重久・石黒政義:応用水文統計学 森北出版
に記載されたデータです。
前述の b0 推定法(岩井法,修正岩井法,INA 筑波方式)を適用して得られた結果が示されます。なお、
各文献にはそれぞれ推奨する推定法と適用結果についての記述がありますから、今回の推定結果をこれ
らと比較することが可能です。なお、この事例から明らかなように INA 筑波方式のすべてを満たす推定
法が適用可能と判断されることから以下の(5-2)
(5-3)では、この推定法のみを採用することとします。
(5-2)同一の母集団から指定されたデータサイズ n のデータを無作為に抽出し、母数を推定し確率量
を求める一連の作業をシミュレーションにより検討します。このシミュレーションの目的は、母集団が
同一であっても得られる確率量は極めて大きいバラツキを示すことを実感することにあります。
(5-3)同一の母集団からデータを無作為に抽出し、母数を推定して得られた確率量が指定された精度
内に収まるデータサイズ n を求めるシミュレーションです。
以上のシミュレーションより明らかなように 3 母数対数正規分布の適用に際しては、データサイズ n
の大小にかかわらず母数の推定精度上の問題が残りますから、これを確かめるための作業を平行して行
う必要があります。
確かめるための作業としては、近傍類似点のデータの統計処理を同時に行うあるいは他の分布を適用
してみる等が一般的です。たとえ、データが分布形状によく適合する場合であっても母集団に一致する
とは限らないことに注意が必要です。