Untitled

目次
第1章
序論
1.1
研究背景
3
1.2
研究目的
4
第2章
ニューラルネットワーク
2.1 ニューラルネットワークとは
5
2.2 ニューラルネットワークのモデル
6
2.3 誤差逆伝播法
7
2.4 重み更新抑制係数
12
第 3 章 ARX モデルとニューラルネットワークを併用した非線形同定と制御
3.1 ARX モデル
14
3.2 ARX モデルとニューラルネットワークを併用した非線形同定
16
3.3 粘弾性材料試験機
19
3.4 粘弾性材料試験機の非線形特性
24
3.5 粘弾性材料試験機の ARX モデルによる同定
26
3.6 粘弾性材料試験機のニューラルネットと ARX モデルを併用した非線形同定 30
3.7 ニューロコントローラによる非線形制御
33
第4章 参照モデルと学習理論に基づいた位置制御法
4.1 参照モデルと学習理論に基づく位置制御法
35
4.2 シミュレーション
36
4.3 フィードバック誤差学習法との違い
37
4.4 外乱オブザーバへの応用について
39
4.5 実験結果
41
4.6 学習係数の影響について
48
4.7 参照モデルと学習理論に基づく位置制御法の AIC による評価
51
4.8 RBF ネットワークへの発展
54
第5章
外乱オブザーバ付き参照モデルと学習理論に基づく位置制御法
5.1 外乱オブザーバ付き参照モデルと学習理論に基づく位置制御法
59
5.2 シミュレーション結果
60
1
第6章
まとめ
6.1
まとめ
64
6.2
今後の課題
64
参考文献
66
発表論文
68
謝辞
69
2
第1章
序論
1.1 研究背景
自然界のありとあらゆる制御対象となるものは、必ず非線形特性を有していると考えら
れる。非線形特性としては、リンク機構や重力などの連続な非線形の式で表されるものや、
摩擦などの不連続な式で表されるものがある。
そのような非線形特性に対して制御の分野では、非線形同定や非線形制御という分野が
ある。この非線形同定や非線形制御という分野では、いずれも最終的にはよりよい制御性
能が要求されている。具体的には、非線形特性を含む精度のよい同定モデルの導出や非線
形システムに対する制御方法の確立となる。
一 方 で 、 学 習 理 論 の 一 つ で あ る ニ ュ ー ラ ル ネ ッ ト ワ ー ク は 1943 年 に マ ッ カ ロ
(W.Mc.Culloh)とピッツ(W.Pitts)が提案した非常に簡単な神経回路モデルがその研究のは
じめとされ、その後、1960 年代頃にローゼンブラット(Rosenblatt)や甘利、福島らによっ
て研究が進められるが、1969 年にミンスキー(Minsky)の「Perceptron」でパーセプトロンの
能力の限界が証明され、ニューラルネットワークの研究は沈滞する。しかし、1986 年、ポ
ップフィールド(J.J.Hopfield)の相互結合型ネットワークやラムルハルト(D.E.Rumelhart)
の誤差逆伝播法などによって、再び研究が盛んになり、現在では制御の分野でも利用され
ている。また、制御の分野で利用されることが多くなった理由として、ニューラルネット
ワークの関数近似能力が挙げられる。
以上のことから、ニューラルネットワーク(以下、NN)を用いた非線形同定や非線形制御
が 1970 年代頃から研究をしはじめられ、アウターループや上位の制御系で用いられること
が多くなったといえる。例えば、フィードバック誤差逆学習方式によるNN制御、NNを
用いた非線形システムに対するモデル規範型適応制御やNNを用いたセルフチューニング
レギュレータが提案されている。
しかし、既存のニューラルネットワークを用いた構造、たとえばフィードバック誤差学
習方式等では対応しきれない制御問題もある。
従って、ニューラルネットワークを用いた制御系では、ニューラルネットワークを導入
する位置や方法等を検討することによるその制御系の構造的な工夫をする必要が生じてく
ると考えられる。
3
1.2 研究の目的
本研究では、先ほど述べたように学習理論であるニューラルネットワーク等を用いた制
御系では構造的な工夫をする必要があり、そしてその構造的工夫をすることによってニュ
ーラルネットワーク等を用いた制御系を多用途に展開できると考えられるので、そのため
に以下の三つの課題を考える。
第一に、学習理論を用いた新しい同定と制御構造を提案する。
第二に、その学習理論を用いた新しい同定と制御構造をシミュレーションで検証し、そ
の有効性を考える。
第三に、シミュレーションで有効だとわかったら、その学習理論を用いた新しい同定と
制御構造の利用方法を考える。
そして、今回はこの上記の課題を二つの同定と制御系に対して検討する。その二つの同
定と制御の検討構造は、
「ニューラルネットワークと ARX モデルを併用した非線形同定と
制御」
、「参照モデルと学習理論を用いた位置制御法」についてである。以下、簡単に二つの
同定と制御系について概説する。
まず「ニューラルネットワークと ARX モデルを併用した非線形同定と制御」では、ニュ
ーラルネットワークと ARX モデルを併用した非線形同定法で制御対象の非線形特性をニュ
ーラルネットワークが学習して同定し、その他の線形部分を ARX モデルが同定するという
ものを考える。さらに、この同定法を制御に応用できないかということでこの同定結果を
用いた制御法を検討する。
次に、
「参照モデルと学習理論を用いた位置制御法」は、実際の制御系は外乱やプラント
自体の非線性特性によって出力が乱れるが、その乱れを参照モデルとニューラルネットワ
ークで補償しようというものである。さらに発展として参照モデルに外乱オブザーバを導
入することを検討する。
以上、二つの学習理論であるニューラルネットワーク等を用いた非線形同定と制御法に
ついて、その構造で実際に同定、制御が可能かどうか、実際にそれらの同定、制御法を用
いた際にどのようなメリットやデメリットがあるのかを考えることが目的となる。
4
第2章
2.1
学習理論
ニューラルネットワークについて
図 1 は生物の情報処理を司る脳を構成するニューロンである。ニューラルネットワーク
は、図 1 のような脳神経系における情報処理の方式を人工的・工学的に模したもので、並
列分散的で自己学習的な能力をもつシステムのことである。このような情報処理のアイデ
ィアをニューラルコンピューティングあるいはニューロコンピューティングと呼んでいる。
ニューラルコンピューティングの原理は非線形特性をもつニューロン素子を多数結合し
た人工ニューラルネットワークを用いて並列分散的に計算をおこなえることにある。ニュ
ーロコンピューティングではニューラルネットワークの結合状態や構造およびダイナミク
スを、学習と呼ばれる機能に基づき問題の解を与える情報構造のシステムに適応変化させ
ることが重要な手法となっている。それはニューラルネットワークに高速並列処理や分散
的な情報処理、学習能力、汎化能力など多数の重要かつ興味深い性質を持たせている。以
上のような性質によって、脳神経回路網を人工的・工学的に模した非線形特性をもつ並列
分散処理的なシステムであるニューラルネットワークはパターン認識や制御システムなど
へ応用されている。
そのニューラルネットワークのモデルについて次に簡単に説明すると、脳神経系は多数
のニューロン素子が興奮性と抑制性のシナプス結合で密に結合したネットワークとしてモ
デル化できる。ノードにあたるニューロン素子はその一つ一つが入力情報を別の出力に変
換する写像とみられると考えられる。また、ニューラルネットのアークにあたるシナプス
結合の情報伝達効率は、ネットワークの入出力情報の変化に伴って変化し得るような可塑
的に変化する構造が脳神経系の基本的な特徴と考えられる。一般にこのような特徴をもっ
たネットワークをニューラルネットと呼んでいる。
図 1:ニューロン
5
そして、人工ニューラルネットでは情報伝達効率を単に結合重み係数と呼んでいる。また、
ニューラルネットの状態は、各ニューロンでの入出力関係の計算や各シナプスの結合の伝
達効率(結合重み係数)の変化の計算は、並列分散処理的に高速に行われる。
それから、ニューラルネットワークの学習についても簡単に説明する。学習とはシステ
ムが環境からの入力に応じて自身の構造を作り変えていくことである。記憶も学習の一種
であり、何らかのきっかけが与えられると、過去の入力を再現できるようにシステムが構
造を変化させる過程である。また、環境に適応するシステムはその環境においてよりよい
動作の仕方を学習しているとみなすことができる。
学習の指針として、ある入力に対してニューラルネットが出力すべき出力が外部から与
えられる場合、これを教師信号と呼ぶ。学習はつぎのように分類できる。
(1) 教師なし学習(入力信号の性質のみに基づく学習)
(2) 教師あり学習(望ましい出力が外部から教えられる学習)
ニューラルネットでは、処理ユニットの状態や結合の情報伝達効率(つまり結合係数)
を変化させることによって入出力関係を変えることができる。これをニューラルネットに
おける学習と呼んでいる。入力に対してニューラルネットが出力すべき所望の出力が、教
師信号として外部から与えられる場合、ニューラルネットの出力を教師信号に近づけるよ
うな学習を教師あり学習と呼ぶ。ニューラルネットの教師あり学習の代表例には、パーセ
プトロンの Hebb の法則[12]や、多層ニューラルネットワークの誤差逆伝播法[8]による学習
がある。
2.2
ニューラルネットワークのモデル
ここでは、今回用いたニューラルネットワークのモデルについて述べる。ニューラルネ
ットワークのモデルにはいくつかある。主に、連続か離散か、確定的か確率的かでその構
成は違ってくる。また、近年ではリカレントニューラルネットワークや RBF ネットワーク
なども研究されている。今回、用いたニューラルネットワークのモデルは基本的なものを
用いた。その内部構成は図 2.1 のようになっている。
図 2.1:ニューラルネットワークの内部構成
6
図 2.2:非線形関数
図 2.1 をみるとわかるが、ニューラルネットワークは入力層、中間層、出力層の三相から
なっており、内部に線形部分と非線形部分を内蔵している。このことから図 2.2 のような非
線形関数を近似することが可能である。
ちなみに、その線形な部分と非線形な部分の数式は以下のようになっている。
線形な部分
入力-状態方程式(結合方程式):
n
z   wi xi   , i  1,, n z
…(1)
i 1
非線形な部分
非線形変換関数:
1, z  0のとき
y   ( z)  
…(2)
0, z  0のとき
2.3
誤差逆伝播法
ここでは、ニューラルネットワークの学習方法の一つである誤差逆伝播法について説明
する。
一般に、ニューラルネットワークの学習では順方向の流れとして、入力ベクトルを入力
し、中間層へ前向きに伝播させ、出力層から出力ベクトルを得る。ここで、注意として入
力ベクトルと出力ベクトルがスカラもあり得ることを述べておく。そして、学習では、あ
る入力ベクトルに対して望ましい出力ベクトルが与えられる場合を教師あり学習というが、
この望ましい出力ベクトルは教師信号といい、この入出力ベクトルのペアをパターンとよ
ぶことにすると、ある入力に対してネットワークから望ましい出力が得られた場合は学習
しないが、それ以外の場合は、出力された結果と教師信号との差を減らすようにネットワ
ークの結合の重み係数を調整する。このようにしてニューラルネットワークはネットワー
クの学習を実現させている。
7
ここで、Rumelhart 等によって提案され、広く普及した誤差逆伝播法 (Error Back
Propag ation):略して BP 法について述べる。
次のような二乗誤差関数を考える
Ep 
1
2
 (t
joutput
pj
 y pj ) 2
…(3)
t pj は出力層素子 j のパターン p での教師信号、 y pj はそのときの実際の出力である。
出力 y pj はその時は重み係数  pj で決定されるので、各重み係数の軸で張られる空間内で、
E p を高さと考えればこの二乗誤差は誤差曲面となる。任意の状態からこの誤差曲面の極
小値(最小値とは限らない)に到達させるには、最急降下法より、重み係数  pj を
 p  ji  
E p
…(4)
 ji
のように変化させればよい( :学習係数は 0 に近い正の定数)。誤差信号  pj を
 pj  
とすれば( u pj 
E p
u pj
…(5)
n

i 1
ji
yi )、合成関数の微分公式より
 pj  
E p
u pj

E p y pj
y pj u ji
…(6)
となり、  pj は誤差の出力について微分と、出力の入力総和についての微分の積に分解でき
る。ここで、ニューラルネットワークの構造を確認すると、あるニューロン j において、他
のニューロン i からの出力 y i (i=1,…,n)に対応する重み係数  ji をかけた値の総和を u j とす
る
n
u pj    ji yi
…(7)
i 1
ニューロン出力 y j は、入力の総和 u j に単調増加関数  を施したもので表す。
8
y j  (u j   i )
…(8)
ここで、関数  として、ステップ関数を用いると McCulloch-Pitts のモデルとなるが、関
数  として、シグモイド関数
 (u ) 
1
1  e u
…(9)
を用いると、この関数は微分可能なので解析的に問題を解くことが可能になる。今回は、
ここに tanh 関数を用いている。
さて、話をもどすと、上の 2 つの式より  pj の 2 番目の微分は
y pj
  ' (u pj )
u pj
…(10)
となる。しかし、一つ目の微分には場合分けがいる。
出力層の素子の場合、 E p より
E p
y pj
 (t pj  y pj )
…(11)
だから、
 pj  
E p
u pj
E p y pj

…(12)
y pj u ji
に代入すると出力層に関しての
 pj  (t pj  y pj )  ' (u pj )
…(13)
が得られる。
それ以外の場合、ふたたび合成関数の微分を用いて
E p u pk
 u
k
pk
y pk

k

k
E p
u pk
E p
u pk

y pk
9
ki
i
 kj
   pk kj
k

…(14)
y pi
となり、この場合の  pj は
 pj   ' (u pj )  pk kj
…(15)
k
と計算できる。ここで、 k はこの素子の出力を受けている全素子を示す。
全てのパターンについての二乗誤差の総和
Enet 
E
p
p patterns
…(16)
に対して
E p
E net

 ji
p  ji
…(17)
であるから、全パターンでの一度ずつの重み係数の変化の総和は、Enet  ji に比例する。
よって、以下は E net を使用する。
実際の学習では、初めにネットワークに与えられた入力ベクトルが前向きに伝播、出力
結果が得られる。得られた結果と教師信号との差から、
 pj  (t pj  y pj )  ' (u pj )
…(18)
を用いて、誤差信号  pj を計算し、
 p  ji  
E p
 ji
…(19)
により、出力層の素子への重み係数の変更量が決定される。中間層の素子では、その素子
が出力を送っている一つ後ろの層の素子の式
 pj   ' (u pj )  pk kj
…(20)
k
より誤差信号  pj を求めることができる。これを再帰的に繰り返すことにより各素子の結合
の重み係数を更新することができる。この演算はネットワークを後ろ向きに伝播するので、
提案された学習方法は誤差逆伝播法と呼ばれている。
誤差逆伝播法では、全ての重み係数を同じ値にして学習を開始した場合、全ての重み係
数が同じように変化してしまう。このとき、中間層の全ての素子が同じような振舞いをし、
非対称なベクトルを持つパターンの学習はできない。これを避けるため、それぞれの重み
係数の初期値は小さい乱数で与える。
10
図 3 誤差逆伝播法のイメージ図
以上のことを図 3 を用いて、図的に説明すると、簡単にいえば誤差逆伝播法は評価関数
E
1
2
ty
2
…(21)
を極小にするような重み w を求めるアルゴリズムであるから、図 3 でランダムに重みの初
期位置を決めて始まり、
下の図 4 のアルゴリズムを繰り返すことで最適な重みを決定する。
図 4 のアルゴリズムを簡単に説明すると、ニューラルネットワークを順方向で計算した後、
その出力yと教師信号 t を比較し、その誤差を逆方向にニューラルネットワークに流し、出
力誤差に対応するそれぞれの入力誤差 du(=Δdu)の値を用いて重み w を更新するものであ
る。
図 4 誤差逆伝播法のアルゴリズム
11
そして、学習の終了は重みの更新式からわかるが、Δdu=0 のとき
w(n  1)  w(n)
…(22)
となるから、今の重みの値と次の計算して出てくる重みが同じになるから重みに変化がな
くなり、学習が終了したことがわかる。
2.4
重み変更抑制係数
ニューラルネットワークの問題として過学習がある。過学習は重みが収束する値の近傍
で振動し、発散していくことが問題だと考えられる。つまり、重みの変化が収束値近傍で
大きくなると重み自体も大きくなり、その後、収束値近傍に戻ろうと大きくまた変化する
が、収束できず、その繰り返しで値がどんどん大きくなり発散してしまうと考えられる。
そこで、重みの変化を抑制すれば発散せずに収束する場合が増えると考えられる。そこ
で、以下のことを考える。
ニューラルネットの出力と教師信号の差を最小化する二乗誤差関数にペナルティ関数
C d eca y を追加し、新たなコスト関数を導入する。こうすることで、重みの変化を考慮したニ
ューラルネットワークの構造変化が起こると考えられる。
さて、ペナルティ関数とコスト関数は以下のようになる。
C decay (W ) 
1
  i2
2 i
Ctotal  Enet  Cdecay
…(23)
…(24)
このとき、
 p  ji  
E p
 ji
…(25)
より
w ji (t )  
E net
(t )  w ji (t )
w ji
…(26)
だから、更新式は
w ji (t  1)  (1   ) w ji (t )  
Enet
(t )
w ji
…(27)
となり、 は重み係数の過度な変更(学習したい入出力データに対する過学習)を抑制する係
数となる。そこで、  は重み変更抑制係数(Weight Decay)といえる。
したがって、従来の二乗誤差の評価関数による重みの変化は学習中に重みがどんな値を
12
とったとしてもよかったが、このコスト関数では二乗誤差が小さくなることと重みの変化
ができるだけ小さくなる両方を考慮した学習となる。
13
第3章 ニューラルネットワークと
ARX モデルを併用した非線形同定と制御
3.1
ARX モデル
まず、ARX モデルについて説明する。ARX モデルは式誤差モデルの一つである。式誤差
モデルとは、差分方程式
y(k )  a1 y(k  1)    ana y(k  na )
 b1u(k  1)    bnbu(k  nb )  e(k )
…(28)
で表されるものである。ただし、 u は入力、 y は出力、 a 、 b はパラメータである。また、
e(k ) は外乱項で、差分方程式に直接、誤差として入っている。この式誤差モデルにおいて、
ARX モデルは外乱項 e(k ) を白色雑音 w(k ) と仮定したものである。すなわち、
y(k )  a1 y(k  1)    ana y(k  na )
 b1u(k  1)    bnbu(k  nb )  w(k ) …(29)
と表される。
ここで、ARX モデルの離散時間 LTI システムの一般的な表現とその 1 段予測誤差につい
て述べる。
まず、離散時間 LTI システムとしては一般的に
y(k )  G(q)u(k )  H (q)w(k ) …(30)
と表される。ここで、u (k ) は入力、 y (k ) は出力、G(q) は伝達関数、 H (q) は雑音モデル、
w(k ) は白色雑音である。また、離散時間 LTI システムの 1 段予測誤差は、上式で定義した
離散時間 LTI モデルにおいて、時刻 (k  1) までに測定された入出力データに基づいた出力
y(k ) の 1 段予測誤差 yˆ (k |  ) として
yˆ (k |  )  [1  H  q (q, )] y(k )  H  q (q, )G(q, )u(k )
…(31)
と与えられる。ただし、  はモデルを記述するパラメータから構成されるベクトルである。
以上のことから、ARX モデルの離散時間 LTI システムは、パラメータベクトルを
  [a1 ,, ana , b1 ,, bnb ] …(32)
とし、データベクトル(回帰ベクトル)を
 (k )  [ y(k  1),, y(k  na ), u(k  1),, u(k  nb )]T
と定義すれば、ARX モデルの出力 y (k ) は
y(k )   T  (k )  w(k ) …(34)
となり、次式で定義される既約なシフトオペレータ q
14
…(33)
q 1u(k )  u(k  1) …(35)
を用いた二つの多項式
A(q)  1  a1q 1    ana q  na
B(q)  b1q 1    bnb q  nb
…(36)
…(37)
を用いて
A(q) y(k )  B(q)u(k )  w(k ) …(38)
と書き直された後、伝達関数 G(q) と雑音モデル H (q) を
G (q) 
B(q)
1
, H (q) 
A(q)
A(q)
…(39)
とおくことで、ARX モデルの離散時間 LTI システムは
y (k ) 
B( q )
1
u (k ) 
w(k )
A(q)
A(q)
…(40)
とかけ、 (na  nb) 個のパラメータを表現したパラメトリックモデルとなる。
さらに、ARX モデルの 1 段予測誤差は

y(k |  )  [1  A(q)] y(k )  B(q)u(k )   T  (k )
…(41)
と表され、この式からわかるように ARX モデルでは 1 段予測誤差は  に関して線形な関係
式となる。このことから ARX モデルは線形回帰モデルといわれ、ARX モデルは線形なモ
デルといえる。
また、図 5 に ARX モデルのブロック線図を示しておく。
図 5:ARX モデルのブロック線図
15
3.2
ニューラルネットワークと
ARX モデルを併用した非線形同定
ニューラルネットワークと ARX モデルを併用した非線形同定について説明する。このモ
デルはニューラルネットワークによる制御対象の順モデル同定を基にしている。ニューラ
ルネットワークによる制御対象の順モデル同定とは、制御対象と同一の入力信号を受け、
その出力が制御対象の出力と同一になるように、ニューラルネットワークがその内部構造
を変化させていく同定法である。このモデル図は図 6 のようになっている。
この構造では、先程述べたように対象とするシステムと同一の入出力特性を表現するよ
うにニューラルネットワークが学習する。そのために、ニューラルネットワークは誤差逆

伝播法で、評価関数 E をニューラルネットの出力を y 、実際の制御対象の出力を y とした
ときに
E
1
2
y y
2
…(42)
として、この評価関数 E を極小にするように学習していく。すなわち、評価関数 E が 0 に

近い値になるように学習していくので、ニューラルネットの出力 y と実際の制御対象の出
力 y が同じ値になっていくことになる。そして、このニューラルネットワークによる制御
対象の順モデル同定は制御対象が非線形な特性を有しているときもニューラルネットワー
クが任意の非線形関数の近似が可能であることからその場合には特に用いられていること
が多い。
さて、ここで本題のニューラルネットワークと ARX モデルを併用した非線形同定につい
ての説明に戻る。そこで、先程述べた ARX モデルの特徴を再確認すると、ARX モデルの 1
段予測誤差は

y(k |  )  [1  A(q)] y(k )  B(q)u(k )   T  (k )
…(43)
と表されることから、ARX モデルは上記のように  に関して線形な関係式となり、ARX モ
デルは線形なモデルであるといえる。
図 6:ニューラルネットワークによる制御対象の順モデル同定のモデル図
16
図 7:ニューラルネットワークと ARX モデルを併用した非線形同定のブロック図
以上の「ニューラルネットワークによる制御対象の順モデル同定」と「ARX モデルが線
形なモデルであること」をあわせて考えると、これらを制御対象にブロック線図で並列に
加えることによって、ARX モデルが制御対象の線形な部分を同定し、ニューラルネットワ
ークが制御対象の非線形な部分を同定することで、制御対象の非線形な部分も含めた同定
を高速にできると考えられる。図7にそのブロック線図を示す。
さて、以上のことからニューラルネットワークと ARX モデルを併用した非線形同定は
Model として ARX モデルを用いて非線形な制御対象の線形な部分を同定し、ニューラルネ
ットワークは非線形な制御対象の非線形な部分を同定する方法となる。さらに、先に述べ
たニューラルネットワークによる制御対象の順モデル同定と比べると、ARX モデルの同定
する線形な部分がニューラルネットワークで学習する必要がない分、ニューラルネットワ
ークと ARX モデルを併用した非線形同定のほうが高速に同定できるといえる。また、非線
形な部分のみをニューラルネットワークが学習するので、その重みに非線形特性の情報が
蓄積されると考えられる。このことから重みと物理現象の関係が明らかになり、原因とな
る物理現象ごとに重みを対応させることができるのならば、このモデルの利用用途は広が
ると考えられる。しかし、現状ではそれが実現していないために、ノイズまで同定してし
まうと考えられる。
さて、ここで、そのシミュレーション結果を示す。シミュレーション条件は表 1 のよう
に設定した。
表 1:シミュレーション条件
制御対象(モデル)
5
s5
サンプリング時間
0.005[s]
sin 波
入力
入力 sin 波の高調波
非線形特性もしくは外乱
学習係数
α=0.08 β=0.000001
重みの数
40
17
2
output
model+nn
model
1.5
1
出力
0.5
0
-0.5
-1
-1.5
-2
0
2
4
6
8
10
時間[s]
図 8:ニューラルネットワークと ARX モデルを併用した非線形同定のシミュレーション結果
ここで、ニューラルネットワークの学習係数や重みの数は試行錯誤を繰り返すことで今
回は決定した。また、入力で sin 波を用いたのは応用で粘弾性材料試験機を用いることを考
慮したためである。非線形特性及び外乱も同様に考えて設定した。さて、シミュレーショ
ン結果が図 8 のようになる。図 8 の結果からわかることは、実際の出力の青線の実践が線
形モデルの同定の出力の緑線の破線よりも線形モデルとニューラルネットワークを併用し
た同定の出力の赤線の鎖線によりフィッティングしているので、線形モデルのみで同定す
るより線形モデルとニューラルネットワークを併用した同定の方がより精度よく同定して
いると考えられる。
一方で、このニューラルネットワークと ARX モデルを併用した非線形同定では、ニュー
ラルネットワークには制御対象の非線形特性のみを同定していて欲しいから、ニューラル
ネットワークの出力とシミュレーションで非線形特性もしくは外乱として仮定した入力
sin 波の高調波が一致していて欲しい。つまり、ニューラルネットワークによって非線形制
御対象の非線形特性が推定できるはずである。その結果を示した図が図 9 になる。
図 9:非線形特性の推定
18
さて、図 9 の結果をみると、ニューラルネットワークの出力とシミュレーションで非線
形特性もしくは外乱として仮定した入力 sin 波の高調波が一致していることから非線形特
性を推定していることがわかる。
3.3
粘弾性材料試験機
さて、先程まで説明していたニューラルネットワークと ARX モデルを併用した非線形同
定を粘弾性材料試験機に適用する。そこで、ここでは適用する粘弾性材料試験機について
説明する。説明する手順として、この粘弾性材料試験機の特徴の一つであるアクチュエー
タについて説明した後に、装置全体の構成について述べたい。
3.3.1 粘弾性材料試験機のアクチュエータについて
粘弾性材料試験機では、動的な力の精密な印加計測のために入力波形を任意の波形の力
が正確に発生でき、かつ摩擦力を生じにくい動力源が必要である。そこで、リニア駆動可
能な動力源としてシャフトモータをこの粘弾性材料試験機は使用している。このモータは、
永久磁石を内蔵したシャフトと三相から成るムービングコイルを内蔵したスライダで構成
している。図 10 にシャフトモータの構造を図 11 に動作原理である三相の誘起電圧の波形を
示す。
図 10:シャフトモータの構造
19
図 11:三相誘起電圧
図 10 と図 11 からわかるように、シャフト部は円柱形の高性能マグネットが並べられてい
て、外周はステンレスで覆われており、スライダには位相を 120°ずらしたコイルが内蔵さ
れている。これに電流を流すとコイルは磁界から力を受け、推力を発生する。
したがって、主な特長としては、N極同士、S極同士を接合してあるため強力な磁束が
360°全方向にむだなく発生しているため効率が高く、短いコイル長で大きな推力が得られ
る。また、シャフトとスライダ間にはエアギャップがあり、非接触での駆動が可能なため
バックラッシは存在しないと考えられる。さらに、摩擦が生じないため、騒音、粉塵、熱
膨張による誤差が発生せずメンテナンスフリーである。それから、外周部に鉄ではなくス
テンレスを使用しているので、シャフト―スライダ間に吸着力が生じないためコギングが
なく、高い位置決め分解能を実現している。
そして、
今回用いたシャフトモータはシャフト径 16 mm、可動ストローク 100 mm である。
図 12 にモータの外観を、表にシャフトモータの主な仕様を示す。
図 12:シャフトモータ外観
20
表 2 シャフトモータ仕様
最大推力
6,000 [N]
最長ストローク
3 [m]
最高速度
6.3 [m/sec]
最低速度
8 [μm/sec]
最大加速度
20 [G]
速度むら
0.05%
最高分解能
0.14 [nm]
使用環境
真空 10-5 [Pa]・水中可
粘弾性材料試験装置に組み込んだ場合
定格推力
10 [N]
加速(最大)推力
39 [N]
定格電流
0.6 [A]
最大電圧
10 [V]
ストローク
100 [mm]
スライダ質量
150.0 [g]
以上のことから、このシャフトモータを用いることで、可動子が固定子と非接触で駆動
するため、摩擦力が発生しない。このことは、ニューラルネットワークと ARX モデルを併
用した非線形同定を行う上で、ノイズまで同定してしまうこの方法のデメリットを抑制す
る働きがあると考えられる。
3.3.2 粘弾性材料試験機の装置全体の構成について
次に粘弾性材料試験機の構成について述べる。この粘弾性材料試験機では、リニアモー
タを用いた動的材料試験機の開発を目的としているため、可動質量部の支持には、空気圧
による浮上の代わりにボールベアリングにより摩擦を抑制したガイドレールを用いている。
ここで、試験機の全体的なシステム構成図を図 13 に、実際の試験機の外観を図 14 に示す。
21
図 13:試験装置のシステム構成
図 14:試験装置外観
さて、以下では装置の主な構成を説明する。以下に示すように、シャフトモータの可動
子を固定した上面プレートがリニアガイドに支持され、モータの側壁上を低摩擦力でスラ
イドできるようになっている。そして、このプレートに接続されているシャフトが粘弾性
材料に力Fref を印加する。また、粘弾性材料の他端にも同様にシャフトが接続されており、
このシャフトから可動質量に材料からの出力Fmaterial を伝える。それから、可動質量はスラ
イドガイドのレール上で一軸方向に低摩擦でスライドできるようになっており、可動質量
にはアルミ合金(体積:10.0×15.0×11.2=1680 [cm3])を使用し、その質量は 4502.4g(密度:
2.68 g/cm3)である。
モータを支持する上面プレートの片側面にはリニアエンコーダのリードヘッドが取り付
けられ、モータの側壁面上にリニアスケールを張り付けることにより、モータの変位が検
22
出可能となる。また上面プレートのもう一方の側面にはリミットセンサの遮光板が取り付
けられ、同側壁面に駆動範囲を制限するマイクロフォトセンサを設置することにより、シ
ャフトモータの可動範囲の制限を行っている。フォトセンサに上面プレートの遮光板が入
ると、サーボアンプに接続された駆動禁止回路が通電し、モータへの指令リミット値が 0
となり、モータを強制的に駆動禁止とする構成となっている。
また、シャフトモータとリニアエンコーダのケーブルは、モータのスライド運動の際、
装置全体へ摩擦等の外力的影響を及ぼす可能性があるので、ケーブルキャリアに収納する
ことにより、外力を極力及ぼすことなくスライドさせるよう設計されている。
以上が今回作成した試験機の構成である。
図 15:試験装置の主要構成1
図 16:試験装置の主要構成 2
23
以上のことから、装置全体の構成にしてもニューラルネットワークと ARX モデルを併用
した非線形同定を行う上で、ノイズまで同定してしまうデメリットを抑制するように、摩
擦の影響を小さくなるように構成されている。
3.4
粘弾性材料試験機の非線形特性
今回用いた粘弾性材料試験機は粘弾性材料に起因する非線形特性を有している。そのこ
とを確認するために、入力信号を正弦波としてオープンループで粘弾性材料を加振し、応
答としてシャフトモータの変位を計測して、その特性を解析することにより材料の非線形
性を検証した。そのときの実験条件を表 3 に示す。
また、入力は周波数 10 Hz、振幅 1 N の正弦波を印加すると、出力はセンサから得られる
可動質量の位置であるが、これを2回微分し力信号とした。そして、サンプリング時間は 5
ms で行った。実験のブロック図を図 17 に示す。
さて、
実験の結果の入出力信号の一部を図 18 に示す。出力波形は入力波形と比較すると、
位相の遅れだけでなく波形そのものの形状が単一周波数の正弦波と異なり、高調波が見ら
れ、強い非線形性を示す特性が確認できる。
表 3:実験条件
入力信号
正弦波信号
入力指令
力指令
出力
位置 [mm]
周波数
10 [Hz]
振幅
1 [V]
推力
3.9 [N]
データ数
10 周期分
サンプリング周波数
500[Hz]
サンプリング時間
5 [ms]
図 17:正弦波加振実験ブロック図
24
図 18:正弦波加振実験の入出力信号
そして、この非線形特性を詳しく解析するために出力信号を FFT 解析することにより、パ
ワースペクトルを求めた。本実験でのサンプリング周波数は 500 Hz であるから、標本化定
理より、その 2 分の 1 である 250 Hz を境に、高周波側に折り返し雑音が生じるので、250 Hz
以下の周波数における解析結果を考察する。この FFT 解析結果を以下に示す。印加周波数
10 Hz において最も大きなゲインが現れているのが確認できる。これは、システムが 1 自由
度のばねマスシステムのように振舞っているためである。また、ピークは以後 10 Hz 毎に表
れており、相対的に奇数次の要素が大きいことがわかる。これは粘弾性材料の非線形な特
性により起因するものであり、対象の弾性変形によるものではないことがわかる。
図 19:出力波形の FFT 解析結果
25
表 4:正弦波加振実験の出力波形の FFT 解析結果
Frequency [Hz]
10
20
30
40
50
60
70
80
90
100
Magnitude
362.7
15.2
125.0
6.3
48.6
1.9
14.0
2.4
1.1
0.2
Phase [deg]
338
298
337
37
138
247
272
7
72
10
また、各ピークでのパワースペクトルの強度と位相を表4に示す。
ここで、本実験で高調波成分として大きなゲインが現れたのは 70 Hz までであることを配
慮し、上記の図、表とも 100 Hz までの成分を表示していることを述べておく。
さて、以上のことから、この粘弾性材料試験機は粘弾性材料に起因する非線形特性を有
していることが確認でき、ニューラルネットワークと ARX モデルを併用した非線形同定を
この材料試験機に適用した際に、このような粘弾性材料に起因する非線形特性をニューラ
ルネットワークの出力から確認できれば、ニューラルネットワークと ARX モデルを併用し
た非線形同定の有効性が確認できる。
3.5
粘弾性材料試験機の ARX モデルによる同定
さて、ここでは粘弾性材料試験機にニューラルネットワークと ARX モデルを併用した非
線形同定を適用したいので、粘弾性材料試験機を ARX モデルで同定する。はじめに同定用
の入出力データについて説明する。
まず、同定入力についてである。同定入力は同定精度に大きく影響するため、その選定
作業は慎重に行わなければならない。同定入力を選定する場合、その周波数特性と振幅特
性を考慮しなければならないため、入力信号は対象のもつすべてのモードを励起しなけれ
ばならない。つまり、入力信号が多数の周波数成分を含んでいる必要がある。その多数の
周波数成分を含む入力信号の理想的なものが白色雑音である。しかし、一般的には理想的
な白色雑音は物理的に実現が不可能である(無限大のパワーをもつ信号を生成することは
できない)ので、実際には有限な次元をもつ信号を利用する。今回は矩形波を利用する。
ここで、矩形波のフーリエ級数展開が
4

1
 2k  1 sin(2k  1)t

…(44)
k 0
と表されるが、このことから矩形波はすべての周波数を含んではいないが、非常に多くの
奇数の周波数成分は有していると考えられるため、PE 性を満たし、同定に用いることは可
能であると考えられる。
また、
諸事情により今回用いる入出力データは図 20 の装置構成でそのデータを取得した。
26
図 20:装置構成
この装置構成でよいところは入出力のデータが同期しているところである。また、今回、
同定のために入出力データを取ったが、指令値として±1V で 1 周期が 0.25s でそのデータ
を取得した。その結果が図 21 である。
さて、図 21 の入出力データを用いて同定するが、同定する方法はクロスヴァリエーショ
ンを用いた。さらに、同定するにあたり同定用データの入出力コヒーレンスも調べた。そ
の結果が図 22 である。
7
6
5
出力
4
input
output
3
2
1
0
-1
-2
0
1
2
3
4
5
時間[s]
6
7
図 21:同定に用いる入出力データ
27
8
9
図 22:同定用データの入出力コヒーレンス
この入出力コヒーレンスは 1 に近いほど、その同定結果に信頼性があるといえる。この結
果は、矩形波のフーリエ級数展開からも考えられるように、入出力コヒーレンスが高いと
ころと低いところが交互に表れているが、全体的には入出力コヒーレンスが 1 に近いとこ
ろが使いたい制御帯域に均等に分布しているので、ある程度の同定結果の信頼性があると
考えられる。
さて、実際にクロスヴァリエーションで同定した 30 次の連続系の結果のゲイン特性と位
相特性のボード図が図 23 のようになった。
図 23: 30 次の連続系の同定結果
28
図 24:グラミアン
ここで、30 次では制御に用いる際、計算量が大きくなる等のデメリットがあるため、平衡
実現による低次元化を行う。モデルの平衡実現による低次元化はグラミアンを用いておこ
なう。ここで、グラミアンとはその大きさで状態がシステム応答にどれだけ寄与するかの
尺度を示しているものである。視覚的にわかりやすくするため、グラフ化すると図 24 のよ
うになる。
さて、このグラミアンの中の小さい要素の状態を削除することにより低次元化が図れる
ので、図 24 をみると 4 次の項以降の値が小さいため、4 次以降の要素を削除し 3 次に低次
元化を行った。その結果、得られた同定モデルの伝達関数は
P( s ) 
0.0188s 3  10.7912s 2  42.9380s  269.7094
s 3  6.04585s 2  106.2782s  145.0307
…(45)
となり、そのボード図は図 25 のようになる。この低次元化したモデルのボード図は低次元
化する前の 30 次のボード図に形が似ているので妥当性があると考えられる。
図 25:低次元化したモデルの伝達関数
29
1.5
arx
output
1
出力
0.5
0
-0.5
-1
-1.5
0
1
2
3
4
5
6
7
8
9
時間[s]
図 26:出力比較図
そこで、同一入力をモデルとプラントに入力した場合の出力を比較する。図 26 からもわか
るように、同一入力に対するモデルの出力とプラントからの出力がほとんど一致している
ので、同定できていると考えられる。
3.6
粘弾性材料試験機のニューラルネットワークと
ARX モデルを併用した非線形同定
さて、ここまでニューラルネットワークと ARX モデルを併用した非線形同定と粘弾性材
料試験機について述べてきたが、それは粘弾性材料試験機の粘弾性材料による非線形特性
が 10Hz の sin 波を入力したときに、高周波として確認されているため、このニューラルネ
ットワークと ARX モデルを併用した非線形同定を粘弾性材料試験機に適用したときに、ニ
ューラルネットワークの出力からそのような高周波が確認できれば、このニューラルネッ
トワークと ARX モデルを併用した非線形同定の有効性が確認できるからである。
そこで、ここでは粘弾性材料試験機にニューラルネットワークと ARX モデルを併用した
非線形同定をオフラインで適用して、その有効性を確認する。
まず、用いるブロック線図は図 27 である。また、同定に用いる入出力データは 10Hz の
sin 波の入出力データで図 28 である。
30
図 27:ニューラルネットワークと ARX モデルを併用した非線形同定のブロック線図
1
input
output
0.8
0.6
入力と出力
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
0
0.2
0.4
0.6
0.8
1
時間[s]
図 28:10Hz の sin 波の入出力データ
また、用いる ARX モデルは前の節で説明した
P( s ) 
0.0188s 3  10.7912s 2  42.9380s  269.7094
s 3  6.04585s 2  106.2782s  145.0307
…(46)
を用いた。
さて、同定した結果が図 29 である。
0.3
0.2
Output
0.1
0
-0.1
ARX
output
ARX+NN
-0.2
0
0.2
0.4
0.6
0.8
1
時間[s]
図 29:ニューラルネットワークと ARX モデルを併用した非線形同定による結果
31
図 29 をみると、ARX モデルのみの出力の赤の鎖線よりもニューラルネットワークと ARX
モデルを併用した青の実線の方が実際の出力の緑の破線に近いことがわかる。つまり、ARX
モデルのみで同定するよりもニューラルネットワークと ARX モデルを併用して同定するほ
うが精度よく同定していることがわかる。
また、この結果を FFT 解析してみると、ARX モデルのみの結果の FFT 解析結果は図 30
となり、基本周波数 10Hz は出力しているが、その高調波は出力しているようにみえない。
つまり、線形なモデルあることがわかる。
一方で、ニューラルネットワークと ARX モデルを併用して同定するほうでは、ニューラ
ルネットワークの出力を FFT 解析すると図 31 となり、粘弾性材料試験機の粘弾性材料に
よる非線形特性による高調波成分を学習し、出力していることがわかる。したがって、ニ
ューラルネットワークと ARX モデルを併用した非線形同定は、ARX モデルで制御対象の
線形な部分を制御対象の非線形な部分をニューラルネットワークが学習し、同定している
ことが確認できた。つまり、ニューラルネットワークと ARX モデルを併用した非線形同定
は有効性があることがわかった。
(/bf Periodogram/yhat)
1
Power
0.8
0.6
0.4
0.2
0
-10
0
10
20
30
40
Frequency (Hz)
50
60
70
図 30:ARX モデルのみの結果の FFT 解析結果
(/bf Periodogram/Noutdata)
0.45
0.4
0.35
0.3
Power
0.25
0.2
0.15
0.1
0.05
0
0
10
20
30
40
50
Frequency (Hz)
60
70
80
図 31:ニューラルネットワークの出力の FFT 解析
32
3.7
ニューロコントローラによる非線形制御
先で提案したニューラルネットワークと ARX モデルを併用した非線形同定に対して、さ
らにその構造を制御に使えないのかということでこの制御系を考えた。そのブロック線図
は図 32 のようになる。
まず、model と plant とニューラルネット 2 で構成される部分は先に提案したニューラ
ルネットワークと ARX モデルを併用した非線形同定をする部分である。そしてニューラル
ネットワーク 1 で自動的にコントローラを生成する。なぜ自動的にニューラルネットワー
ク 1 がコントローラを生成するのかというと、同定出力と入力 u が同じになるようにニュ
ーラルネットワークがその構造を変化させ、制御対象へ制御入力を出すからである。
この構造の特徴としては、制御対象をモデルとニューラルネットワーク 2 で精度良く同
定できればできるほど、よいコントローラをニューラルネットワーク 1 で生成できること
が挙げられる。一方で、ニューラルネットワークを 2 つ利用するが、その 2 つの役割であ
る同定とコントローラ生成は関連があり、その調整するパラメータを決定することが難し
い。
図 32:ニューラルネットワークと ARX モデルを併用した非線形制御
表 5:シミュレーション条件
制御対象
5
s5
0.005 [s]
サンプリング時間
sin 波
入力
入力 sin 波の高周波
外乱及び非線形特性
学習係数(NN1)
α= 0.08 β= 0.000001
学習係数(NN2)
α= 0.002 β= 0.00005
重みの数(NN1)
40
重みの数(NN2)
20
33
2
without control
reference
with control
1.5
1
出力
0.5
0
-0.5
-1
-1.5
-2
0
2
4
6
8
10
時間[s]
図 33:ニューラルネットワークと ARX モデルを併用した非線形制御のシミュレーション結果
さて、この構造で実際に制御が出来るのかを確かめるために、シミュレーション条件を
表 5 のようにして、シミュレーションをしてみた。そして、シミュレーションした結果が
図 33 となった。図 33 をみると、制御していない結果の赤線の破線に対して、制御した結
果の緑線の実践が参照値の青線の鎖線に近いことから外乱もしくは非線形特性を抑制し、
目標値に追従していることがわかる。
34
第4章 参照モデルと学習理論に
基づく位置制御法
4.1
参照モデルと学習理論に基づく位置制御法
参照モデルと学習理論に基づく位置制御法について説明したい。この参照モデルと学習
理論に基づく位置制御法のブロック線図は図 34 のようになる。ここで、学習理論としては
ニューラルネットワークを用いている。
まず参照モデルについて説明する。今回は、外乱や非線形特性が含まれていないコント
ローラと制御対象からなるフィードバックの制御系を参照モデルとする。
この参照モデルの参照制御入力 us と外乱が入っている実際の制御系の制御入力 u が同じ
になるようにニューラルネットワークから出力が出される。そうすると、制御入力 u と参
照制御入力 us が同一になってくるので、実際の制御系の出力 y と参照モデルの参照出力 ys
も同一になってくると考えられる。つまり、外乱もしくは非線形特性 dと逆位相の出力が
ニューラルネットワークから出されると考えられる。
このことについてニューラルネットワークの構造から考えると、ニューラルネットワー
クの学習に誤差逆伝播法を用いるが、その評価関数 E は
E
1
u  us
2
2
…(47)
となり、この評価関数 E が極小になるようにニューラルネットワークは内部構造を変化さ
せる。つまり、評価関数 E が 0 に近くなっていくので、実際の制御入力 u と参照モデルの
参照制御入力 us が一致してくると考えられる。
uN
+
r
e
-
C
uc
+
NN
+
u
P
+
y
d
+
-
es
+
-
C
us
Pn
ys
Reference Model
図 34:参照モデルと学習理論に基づく位置制御法のブロック線図
35
また、実際の制御入力 u と参照モデルの参照制御入力 us が一致していないのは外乱もしく
は非線形特性dが実際の制御系にあるからであるが、フィードフォワードではニューラル
ネットワークの出力による実際の制御入力 u への影響はないので、うまくこの構造で動く
かはわからない。しかし、今回はフィードバック構造を用いているので、ニューラルネッ
トワークの出力が実際の制御入力 u に影響を与えている。つまり、ニューラルネットワー
クの評価関数 E が制御入力 u の関数なので影響をうけ、その値を極小値に変えていくと考
えられる。したがって、ニューラルネットワークの出力が外乱もしくは非線形特性の抑制
に影響すると考えられる。
4.2
シミュレーション
先程示した参照モデルと学習理論に基づいた位置制御法のシミュレーションを行った。
シミュレーションの対象としては本研究室にある精密ステージの伝達関数を用いた。シミ
ュレーション条件は表 1 のようにした。
表 6:シミュレーション条件
制御対象
1365
s( s  215)
指令
±1[mm]
コントローラ
10s  1
0.5s
外乱
-5[V]
サンプリング時間
0.5 [ms]
学習係数
α=0.0012
β=1×10-5
,s
Output y y
1
y with NN (1)
ys (2)
y without NN (3)
0.5
0
-0.5
-1
9
9.1
9.2
9.3
Time[s]
36
9.4
9.5
Control Input u,us
50
u with NN (1)
us (2)
u without NN(3)
0
-50
9
9.1
9.2
9.3
9.4
9.5
Time [s]
図 35:参照モデルと学習理論に基づく位置制御法のシミュレーション結果
このとき、ニューラルネットワークの学習係数と重みの数はシミュレーションを繰り返
して、試行錯誤で今回は決定した。指令値としては±1[mm]を繰り返すステップ信号を用
いた。外乱も繰り返し入力されるステップ外乱を用いている。
さて、そのシミュレーション結果をみる。青線は今回提案した参照モデルと学習理論に
基づく位置制御法の出力と制御入力のシミュレーション結果である。赤線は参照モデルの
出力と制御入力のシミュレーション結果である。さらに、緑線はニューラルネットワーク
を利用していない PID 制御の結果である。赤丸のところをみると外乱を抑制していること
がみてとれる。そして、青丸から応答が改善していることもみてとれる。
以上の結果から参照モデルと学習理論に基づく位置制御法は外乱の影響を改善すること
と参照モデルの制御入力 us に uc に近づくので制御入力飽和問題を改善することがわかる。
4.3
フィードバック誤差学習法との違い
さて、ここで今回、提案する参照モデルとニューラルネットワークを用いた制御系とフ
ィードバック誤差学習法との違いについて記しておく。
まず、フィードバック誤差学習法について述べる。フィードバック誤差学習法のブロッ
ク線図は図 36 のようになる。
図 36:フィードバック誤差学習法のブロック線図
37
フィードバック誤差学習法は偏差 e  r  y に基づくコントローラの出力 u をニューラル
ネットワークの学習に利用している。すなわち、フィードバックコントローラが偏差 e を 0
になるように動作させ出力 y が参照 r に近づけるための機構であるから、フィードバックコ
ントローラの出力 u は目標値 r に対応した出力 y、つまり r と y が同一の値が出力されるよ
うな教師信号として扱える。なぜなら、プラントに入る入力 x とニューラルネットワーク
の出力 NNout の誤差 u  x  NNout であるからである。すなわち、フィードバックコント
ローラの出力 u は r=y となるように働く目標値指向性を持つ教師信号を表していると考え
られる。それと同時に、制御入力 u が 0 へ近づくと、ニューラルネットワークの出力 NNout
と実際の制御対象への入力xが一致して、ニューラルネットワークには制御対象 P の逆シ
ステム P-1 が構築されると考えられる。なぜなら、図 37 のようなブロック線図が出来るか
らである。
この逆システムが完全にできるとしたら、ニューラルネットワークは非常に精度のよい
フィードフォワードコントローラになる。また、このフィードバック誤差学習法の制御系
の制御入力部分に外乱もしくは非線形特性が入った場合、その外乱もしくは非線形特性ま
で制御入力と一緒に学習し、逆システムを構築すると考えられる。つまり、ニューラルネ
ットワークからは制御入力と外乱もしくは非線形特性を補償する出力が出されると考えら
れる。
さて、ここで本題の参照モデルとニューラルネットワークを用いた制御系とフィードバ
ック誤差学習法との違いについて述べる。
先程、フィードバック誤差学習法の制御系は外乱もしくは非線形特性が入った場合、ニ
ューラルネットワークからは制御入力と外乱もしくは非線形特性を補償する出力が出され
ると述べたが、提案した参照モデルとニューラルネットワークを用いた制御系はニューラ
ルネットワークの評価関数 E として
E
1
u  us
2
2
…(48)
を使うことからコントローラからの出力 u は保たれつつ、ニューラルネットワークからは
外乱もしくは非線形特性を補償する出力が出されていると考えることができる。つまり、
まとめると、フィードバック誤差学習法ではニューラルネットワークの出力は最終的に制
御入力と外乱(非線形特性)をまとめて出すが、提案した参照モデルとニューラルネットワー
クを用いた制御系はニューラルネットワークの出力から外乱(非線形特性)のみを出すと考
えられる。
図 37:逆システムの構築
38
4.4
外乱オブザーバへの応用
次に、参照モデルとニューラルネットワークを用いた制御系の応用方法として外乱オブ
ザーバの置き換えを考えたい。
そこで、まず外乱オブザーバについて説明する。外乱オブザーバは制御入力と出力情報
を用いて制御対象にかかる外力を推定し、それをフィードバックすることで外乱補償を行
うものである。
外乱オブザーバのブロック線図を図 38 に示す。ここで外乱を d、入力を iref,、制御対象
の伝達関数を P(s)、そのモデル Pn(s)、出力を y とすると
d  iref  Pn1 y
…(49)
となるため、入力と制御対象の逆特性から外乱 d が計算で求められる。しかし、制御対象
に積分特性を含んでいる場合、位置の微分が必要となるため、その実現は難しく、また、
仮に可能であったとしても、高周波でハイゲインとなるため、観測ノイズの影響を非常に
受けやすくなる。そこで、次式に示したように d に低域通過フィルタを通して得られる出
力 dˆ を推定値とする。また、n は F×Pn-1 がプロパーになるように決定する。
dˆ  Fd  d 
1
d
( i s  1) n
…(50)
これを図示したのが、図 38 の(b)である。この点線で囲まれた部分は、制御対象への入力
及び出力から外乱を推定するため、外乱オブザーバ(disturbance observer)と呼ばれている。
このとき、外乱オブザーバの極は上式のローパスフィルタの極に相当するため、フィルタ
の時定数を出来るだけ小さくすることで遅れの尐ない推定値を得ることができる。しかし、
実際にあまり小さくしすぎると、観測ノイズや制御対象のモデル化誤差などの影響を受け、
正しい推定が行えなくなるため、その決定にトレードオフは避けられない。また、場合に
よっては、図 38 の(b)の等価ブロック図として図 38 の(c)を用いる。
d
iref +
iref +
y
P
+

d
(a)
Pn-1
d
d
y
P
+

Pn-1
iref
+
Pn
Fd
y
P
+

Fd×Pn-1
dˆ
(b)
図 38:外乱オブザーバのブロック図
39
dˆ
(c)
以上が外乱オブザーバの特徴であるが、外乱オブザーバには問題点もある。外乱オブザ
ーバの問題として、低周波領域においてのみ正常に働き、高周波の外乱やモデリング誤差
は制御動作を変動させてしまい、閉ループ安定性でさえも破壊してしまうかもしれないと
いうことがある。そのことは、コントローラを基にした外乱オブザーバは過大なモデリン
グ誤差をもつシステムに用いるべきではないと理論的に述べているものもあるくらいであ
る。
つまり、外乱オブザーバは、制御対象と参照モデルが一致していて、制御帯域が広い時
は非常に有効な外乱を抑制する制御方式であるが、そうではない場合は以下の二つ点など
で問題点を抱えているといえる。
第一に、制御対象が強い非線形特性や摩擦の影響等を含んでいる場合、制御対象と参照
モデルが一致せず、すなわちモデリング誤差が大きい時には制御しきれないことがある。
第二に、制御帯域が狭いとき、参照プラントの逆モデルにかかるローパスフィルタの時
定数をあまり小さくできず、外乱補償しきれないことである。
これらの問題は制御帯域が広く、ローパスフィルタの時定数が限りなく 0 に近づけると
すれば改善されるが、実際にはハードウェアや仕様等により制限されるため、時定数を限
りなく 0 に近づけることは難しいといえる。つまり、非線形特性があるときや時定数が小
さくできない時に問題が発生する。
さて、ここで、図 39 で提案した参照モデルとニューラルネットワークを用いた制御系に
ついてもう一度みてみると、
図 39:参照モデルとニューラルネットワークを用いた制御系
40
図 40:時定数を考慮したシミュレーション結果
となり、ニューラルネットワークが外乱もしくは非線形特性を抑制することは先に述べた
とおりである。そして、この構造ならば時定数を考えなくても良いという点が挙げられる。
そこで、時定数を考慮した矩形波のシミュレーション結果の図 40 をみる。この図 40 か
らわかることは時定数が大きい外乱オブザーバによる制御したオレンジの線の結果よりニ
ューラルネットワークを用いて制御した青線の結果がよいことは一目瞭然であるが、時定
数がサンプリング時間とほぼ同様の小さい時の結果の赤線とも同様程度の結果をニューラ
ルネットワークを用いて制御した結果の青線がだしていることからこの参照モデルとニュ
ーラルネットワークを用いた制御系が外乱オブザーバの代替として期待できることがわか
る。
4.5
実験結果
4.5.1 実験結果について
次世代 EB 露光への応用を目的に、熊本テクノロジー社は超精密ステージ駆動用アクチュ
エータ SPIDER(Syncronous PIezoelectricDevice drivER)を新たに開発した。非共振型超音
波モータは従来の超音波モータとは異なり、共振特性を使用しないため、任意の位置でア
クチュエータを止めることが可能である。また電磁力を用いないため磁気ノイズ特性に優
れている為将来的に EB が転写用光源として用いられるようになった際、有効となる。
本研究に用いた実験装置の構成図を図 41 に示す。ホスト PC から送られた入力指令は PCI
スロットに装着したパラレル IO カードを利用して、サーボインターフェスユニット(モー
ションコントローラ)
、アンプを通して SPIDER に送信される。ここのアンプにおいて入力
41
指令電圧は 130/10 倍(以下 13 倍)されて送られる。また、エンコーダ及びリミットセン
サよりステージの位置情報ストロークリミット情報が読み込まれ、ホスト PC に送られる。
ホスト PC には OS として Windows98 を搭載した PC を用い、VisualC++により実行プログ
ラムを作成している。I/F カードには Interface Corporation 製 16/16bitI/O PCI ボード
PCI-2735 を使用している。圧電素子を使用しているアクチュエータを含むステージシステ
ムは熊本テクノロジー、太平洋セメント社らの共同研究により開発された。
ステージシステムの写真を図 42 に、アクチュエータ拡大図を図 43 に示す。位置を測定
するためにリニアエンコーダがステージ稼動部の下面に取り付けてある。リニアエンコー
ダはミツトヨ製で計測分解能は電気分割ユニットのスイッチ切り替えにより、最小 10nm
となっている。制御入力となる圧電素子への最大印加電圧は±130V である。駆動周波数は
1kHz~60kHz まで設定変更が可能であり、ステージストロークは 4 インチウェハ対応の約
100mm となっている。ステージの仕様を表 3.1 に示し、また圧電素子の性能表を表 3.2 に
示す。また、圧電素子の静的な発生力は最大伸縮素子発生力 660N(4脚同時)となる。予
圧力が 50N、摺動面の摩擦力が 15N であることから足の運動に十分な駆動力が得られてい
る。また、ガイドプレートの平均表面粗さが約 0.2μm であることから、伸縮方向に 39V
のオフセット電圧を印加することで表面粗さの影響を軽減している。
ここで電磁モータと比較した際の SPIDER の特徴を列記する。
1.
超音波振動を利用した摩擦駆動のモータである
2.
対象物を直接駆動できるため小型化できる
3.
位置決め応答などの制御性能が良い
4.
電磁ノイズを発生しない(磁気の影響なし)
5.
超小型、薄型、軽量、構造が単純である
このような特徴から、SPIDER は、超小型化可能、制御特性良好、電磁ノイズがない、と
いう電磁モータが不得意な用途への応用例が今後ますます増えると思われる。
operator
Motion controller
with servo system
PC
position
signal
limit
signal
control input
SPIDER
Limit
sensor
Guide
Plate
Stage
Scale
Linear
guide
Linear encoder
図 41:ハードウェア構成図
42
Stage
Slide
plate
SPIDER
図 42:精密ステージ
preload mechanism
20mm
piezoelectric actuator
図 43:アクチュエータ部拡大図
表 7:ステージの仕様
可動部質量
1kg
駆動周波数設定
1~60kHz
最大推力
13N
最大印加電圧
±130V
ストローク
100mm
位置分解能
100nm
43
表 8:アクチュエータ(SPIDER)の仕様
材質
PB(Zr,Ti)O3
密度
7.8×103kg/m3
伸縮率
660×10-12m/V
剪断率
1010×10-12m/V
積層枚数
4(伸縮)×4(剪断)
ここで、SPIDER 駆動ステージの動作原理を示す。
本研究で用いているステージ駆動用のアクチュエータ(SPIDER)は圧電素子の積層化に
よって構成されている。この圧電素子に関しては二つの効果を得ることができる。一つは
素子の変形によって電圧の発生する圧電効果, もう一つが電圧を印加することにより素子
が変形する逆圧電効果である。本アクチュエータではこの逆圧電効果を利用している。圧
電素子に分極と同じ方向の電圧を印加すると縦に伸び横に縮む。また, 分極と異なる方向
の電圧を印加すると, 縦に伸び横に縮む。この二つの動作を組み合わせることでステージ
を送り出すというものである。
実際に圧電素子を利用して作られる SPIDER の 1 脚を図 44 に示す。SPIDER の 1 脚は
圧電素子 8 層から構成されており, 脚を伸縮方向に変形させるための圧電素子と, 脚を剪断
方向(横方向)に変形させるための圧電素子がそれぞれ 4 層づつとなっている。ステージ
の送り手順をより分かりやすく示したものが図 45 である。図中の番号はそれぞれ以下の動
作に対応している。ここで対となっている 1 方の脚を A 脚, 他方を B 脚とすると, 以下の
ような動作を繰り返すことで足先が円軌道を描く。すなわち, SPIDER を固定し, ステージ
を接触させればステージ送りが可能となるという原理になっている。
1.
B 脚の剪断部がステージの送り方向に変形(ステージ移動)
。A 脚はステージに接
していない状態で B 脚と逆向きに変形する。
2.
A 脚の伸縮部が伸びステージと接触。
3.
B 脚の伸縮部が縮んでステージから離れる。
4.
A 脚の剪断部がステージの送り方向に変形(ステージ移動)
。B 脚の剪断部はステ
ージに非接触状態のまま A と逆方向に変形。
5.
B 脚の伸縮部が伸びステージと接触。
6.
A 脚の伸縮部が縮んでステージから離れる。
44
GND配線
ベース電極
伸縮変形配線
剪断変形配線
摩擦材料
図 44:圧電素子の拡大図
A
A
B
A
1
B
B
6
A
2
B
5
3
A
4
B
A
B
図 45:足先の動作
この一連の動作を行うにあたり, 印加電圧には正弦波状の電圧を用いている。伸縮部と剪
断部の位相差を 90°, A 脚と B 脚の位相差を 180°とすることで人間の歩行のようなスムー
ズなステージ送りを実現している。また, 実際の SPIDER では A・B 脚一対を 4 組とする計 8
脚によりステージの送りを行っている。
45
4.5.2 摩擦特性
本節では、先に示した超精密ステージに摩擦が影響して起こるスティックスリップ現象
について述べる。また、超精密捨て^字に摩擦力を考慮したモデルについて示す。
2.1
スティックスリップ現象
スティックスリップ現象とは、摩擦の速度負勾配特性の影響によって精密ステージの位
置が目標値近傍で振動する現象である。ここで図においてステージにおける摩擦の速度負
勾配特性を示す。
スティックスリップ現象の発生プロセスは以下の通りである。
1. 摩擦の影響によりステージが目標値に到達せずに静止する。
2. 積分(I)制御器の積分動作により、制御入力が徐々に増大する。
3. 制御入力が静止摩擦力を上回るとステージは動き出すが、動作に伴い動摩擦が減尐し、
必要以上の力が印加され目標値を越えてしまう。
4. この動作が正方向、負方向に繰り返されることでステージの位置が目標値近傍で振動す
る。
実際に SPIDER 駆動精密ステージを用い PID 制御(制御帯域 50Hz、サンプリング時間
0.5ms、計測分解能 100nm)により位置決め制御実験を行った時のスティックスリップ現象
発生時の制御入力及び位置出力波形を図に示す。この時、低速度では、速度が増加するに
ともなって摩擦力が減尐している。これをストライベック効果という。この効果の影響で
スティックスリップ現象が生じてします。このため、非線形摩擦を補償することが求めら
Friction uf [V]
れる。
80
Viscous friction
60
Static friction
40
20 Coulomb
friction
0
16
-20
-40
-60
13
1
0
-80
-40 -30 -20 -10 0 10 20 30 40
Steady-state velocity v [mm/s]
図 46:摩擦特性
46
Control input [V] Position [mm]
0.012
0.010
0.008
0.006
0.004
0.002
0
20
10
0
-10
-20
0
: reference
: position
1.0
2.0
3.0
Time [s]
4.0
5.0
図 47:スティックスリップ現象
4.5.3 実験結果
参照モデルと学習理論に基づく位置制御法を SPIDER 駆動ステージに適用した。実験条件
は以下のようにした。さらに、実験した結果を示す。
表 9:シミュレーション条件
目標値
Ts
コントローラ
外乱
0.5[ms]
0.111s  24.3s  100
s(0.0265s  1)
-5[V]
学習係数
α=0.0012
2
β=1×10-5
0.5
y with NN
y without NN
0.4
0.3
Output y, ys [mm]
±0.2[mm]
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
42
42.5
43
Time [s]
図 48:実験結果
47
43.5
44
先の図をみると、赤線が参照モデルと学習理論を用いた制御法を用いた出力結果で、緑線
が PID 制御の出力結果である。赤線と緑線を比較すると、静止摩擦や周期外乱を抑制して
いることがわかる。つまり、シミュレーション結果と実験結果がよく一致していることが
わかる。
4.6
学習係数の影響について
ニューラルネットワークの学習係数αとシグモイド関数に用いられるλの制御性能への
影響を検討した。ここで、学習係数とはニューラルネットワークの学習方法の一つである
誤差逆伝播法で重み更新時に用いられる
w(n  1)  w(n)  
E
w
・・・(51)
の式のαのことである。αが大きいと学習が速くなるが、重みの更新刻みが大きくなるの
で収束せず発散することがある。また逆に、αが小さいと学習スピードが遅くなり、いつ
までも学習効果が見られないことがある。また、シグモイド関数に用いられるλはニュー
ラルネットワークの構造式で用いられる
z  tanh(u)
・・・(52)
のλである。このλは閾値の反応具合を示している。つまり、線形入力の大きさに応じて
徐々に反応するのか、いっきに反応するのかを決める係数である。
用いた制御系は参照モデルと学習理論に基づく位置制御法である。まずはαを固定して
λを変えるシミュレーションを示す。以下がそのシミュレーション条件である。以下の条
件でλを 0.2、0.5、0.7、1.0 と変えた時のシミュレーション結果が次の図である。
表 10:λを変えるシミュレーション条件
制御対象
コントローラ
外乱
P( s ) 
1365
s( s  215)
Ts
0.5 [ms]
10s  1
0.5s
目標値
±1 [mm]
学習係数
α=0.0003
C ( s) 
±5V
48
1.5
ram1.0
ram0.7
ram0.5
ram0.2
1
output
0.5
0
-0.5
-1
-1.5
0
200
400
600
800
1000
Data number
Input
50
ram1.0
ram0.7
ram0.5
ram0.2
0
-50
0
200
400
600
Data number
800
1000
図 49: λを変えるシミュレーション結果
以上の結果をみるとλが大きいほど、学習が遅いが振動せず安定していることがわかる。
一方、λを固定してαを変動した場合のシミュレーション結果を示す。シミュレーショ
ン条件は以下である。以下のシミュレーション条件でαを 0.00001、0.0003、0.00045 と変
えてシミュレーションした結果が次の図である。
表 11:αを変えるシミュレーション条件
制御対象
コントローラ
外乱
P( s ) 
1365
s( s  215)
Ts
0.5 [ms]
10s  1
0.5s
目標値
±1 [mm]
λ
0.5
C ( s) 
±5V
49
1.5
0.00045
0.00030
0.00001
1
output
0.5
0
-0.5
-1
-1.5
0
200
400
600
Data number
input
50
800
1000
0.00045
0.00030
0.00001
0
-50
0
200
400
600
Data number
800
1000
図 50: αを変えるシミュレーション結果
以上の結果をみると、αが大きいほど学習が速く振動する結果となった。
以上の結果を考慮すると、αやλを試行錯誤的に調整して発散しないようにできるだけ
速く学習が収束するようにする。
50
4.7
参照モデルと学習理論に基づいた位置制御法の
AIC による評価
4.7.1 AIC の理論
パラメータの数が多ければ多いほど、観測データに対してモデル式をスムーズにフィッ
テングさせられる。しかし、パラメータとは元々未知なものであって、値が推定されてい
るだけである。たまたま、あるパラメータの組み合わせで、観測値と推定値が良く合った
とする。しかし、別のパラメータの組み合わせで観測値と推定値がもっと良く合うかもし
れない。パラメータの数が多くなればなるほど、このような可能性が増加する。したがっ
て、パラメータの数は尐ないほど、良い推定モデルであるといえる。
このように数学モデル式に含まれるパラメータの数が大きくなるとモデル式の信頼性が
低下する。したがって、システムの観測データに対するモデルの適合性を論じる場合には、
パラメータの数の影響を考慮できるモデル評価規準が必要である。この条件を満足する評
価規準が AIC である。
標本値に対する対数尤度が大きくなるほど標本値は数学モデルによる値(平均値)に近い
と判定できる。すなわち、モデルの適合度を調べるには標本値に対する対数尤度の大きさ
を評価すれば良いことがわかる。ここで、観測値と言わずに標本値と呼んだのは観測誤差
の影響を除く必要があり、観測値から観測誤差を取り除いた標本値の分布が解析の対象だ
からである。
今、観測値が n 個あり、それに対する数学モデル式による推定値を fi とする。そのとき、
次 式 に 示 す よ う に 、 推 定 値 fi に シ ス テ ム ノ イ ズ ws が 加 わ っ た も の が 真 の 状 態 量
xi(i=1,2・・・,n)である。さらに、それに観測ノイズ wo を加えたものが観測値 yi という関係に
ある。
xi  f i  ws
・・・(53)
yi  xi  wo
・・・(54)
システムノイズ ws とはシステムの現象そのものが持つばらつきであり、観測ノイズ wo
とは観測誤差に起因するばらつきである。
真の状態量 xi は解析モデル式による推定値 fi の周りに分布しており、その分布が正規分
布であるとすれば、その確率密度関数は次式で表される。
p
 1

1
 exp 
( xi  f i ) 2  ・・・(55)
2VS
 2Vs

51
ここに、Vs はシステムノイズ ws の分散である。データは n 個あるので、モデル式に関す
る対数尤度 Ls は n 個の状態量に関する確率密度関数である上式の積の対数を取って、次式
で表すことができる。

1
Ls  ln 
 2Vs


n

1
 exp 



 2Vs


2 
(
x

f
)


i
i
i 1

n
n
1 
n
2
3nVo   ( f i  yi )   ln( 2Vs )
2Vs 
i 1
 2
・・・(56)
ここに、Vo は観測ノイズの分散である。
上式が Vs について最大となるのは Ls / Vs  0 のときである。そこで、上式を用いて、
Ls / Vs  0 と置き、その式を Vs について解くと
Vs 
n
1

3
nV

( f i  yi ) 2  ・・・(57)


O
n
i 1

となる。さらに式()を式()へ代入すると
n
n n  2 

Ls    ln  3nVO   ( f i  yi ) 2  ・・・(58)
2 2  n 
i 1

となる。この式がモデル式の最大対数尤度である。
すなわち、式()の値が大きいほどモデルの適合度が高いと評価できる。しかし、これだけ
ではまだパラメータ数の影響が考慮されていない。そこで、式()にパラメータ数の影響項を
加えた次式がモデル式の適合性評価に最適な式である。
AIC  2Ls  2 pn
・・・(59)
ここに、pn はパラメータ数である。上式は AIC(赤池情報量規準:Akaike’s information
criterion)と呼ばれ、モデルの適合性評価に広く用いられている。
AIC が小さいほど良いモデル式である。観測データが与えられた場合、いくつかのモデ
ル式を想定して AIC を求め、最小の AIC を与えるものを最良のモデルを判定することがで
きる。
観測誤差分散と AIC の関係を調べたものによると、観測誤差の大きさにより最良モデル
が逆転することがあることがわかる。つまり、観測誤差がモデル式の適合性評価に大きく
影響することが AIC を通して、改めて確認できる。
AIC は 1 次式や 3 次式のような多項式モデルの優劣判定だけでなく、各種の関数形のモ
デルの優劣判定に、広く用いられている。例えば、ARMA モデルの次数 k の最適値の評価
に利用できる。また、ニューラルネットワークの最適なニューロン数や解析法の優劣判定
にも用いることが出来る。
52
4.7.2 ニューラルネットワークの評価
さて、ここでニューラルネットワークを評価するために AIC を用いることを考える。そ
のために、AIC をニューラルネットワークのパラメータを用いたものに変える。以下にそ
の式を示す。
AIC  T * P * log( E * 2)  2 * K
・・・(60)
ここで、Tは学習データ数、Pは出力層ユニット数、Kは調整可能なパラメータ数(結合係
数の数と閾値の数)または中間層ユニット数、Eは平均二乗誤差、log は自然対数とする。そ
して、この式の第一項はモデル一致度を表し、第二項は重みの数を表している。つまり、
モデルと実際の出力の誤差ができるだけ小さく、パラメータの数の尐ないものがいいモデ
ルであるとし、選択する。
実際に以下のように参照モデルと学習理論に基づく位置制御法に AIC を組み込み、シミ
ュレーションをした。シミュレーションでは重みの数を 5、15、100、5000 に変えてみた。
さらに、シミュレーション時間の結果も示す。
AIC
NN
ー
r
+
ー
C
y
P
+
d
+
ー
+
ー
C
ys
Pn
図 51:AIC の導入
-1.2 x 10
5
0.5
x 10
5
5000
100
15
5
0
-1.3
-0.5
AIC
AIC
-1.4
-1.5
-1.5
-1.6
-1.7
5
-1
-2
15
重みの数
100
5000
-2.5
9000
9200
9400
9600
9800
Data Number
図 52:AIC の比較(Data Nunber 8200 時)と AIC のシミュレーション結果
53
10000
表 12:シミュレーション時間の結果
重みの数
計算時間 [s]
5
15
100
5000
11.2190
14.8280
16.5940
17.7500
今回の結果は出力yが収束しているものを用いている。AIC は小さいほうがいいモデルで
あることを示す。
結果をみると、
重みの数が 5 や 15 の AIC の結果が重みの数が 100 や 5000
の AIC の結果より小さいので、中間層の重みの数が 5 や 15 のモデルがより参照モデルの
結果に実際の制御対象に近くなっていることを表している。さらに、計算時間を中間層の
重みの数が 5、15、100、5000 で比べると、重みの数が 5 のときが一番小さくなっており、
位置制御においてコンピュータ演算処理の負担を減らすことができると考える。しかし、
今回は重みの数 15 のモデルは重みに対する AIC が最小な点ではないが、外乱やモデル化誤
差、非線形特性が不明な制御対象に適用する場合、学習できる重みの数に余裕を持たすた
めに 15 を選択した。
4.8
RBF への発展
4.8.1 RBF とは
RBF(radial basis function)ネットワークは、非線形関数を円形の等高線を持つ基底関数
で展開する方法であり、関数近似に利用されるが、パターン識別法として利用することも
可能である。まず、M.J.D.Powell や C.A.Michelli により、与えられたデータ間をつなぐ保
管法として研究が行われた。D.S.Broomhead と D.Lowe はデータ点から尐数の点をランダ
ムで選び、その点の位置にユニット配置を行い、次に教師データに基づき重みを求める構
成法を提案した。RBF ネットワークは、階層型ニューラルネットワークと比較して、いく
つかの優れた点が指摘されている。それは、ネットワークの一部分だけを学習することが
可能なこと、ユニットの配置に関するパラメータと重みのパラメータを別々の手法で学習
可能であり、後者だけの問題ととらえれば簡単な線形式の最小 2 乗問題に帰着されること
などである。しかし、一般に RBF ネットワークではより多くのユニットが必要とされる。
RBF ネットワークは正規化理論(regularization theory)と関連して、汎化性の問題について
も盛んに研究が行われている。
54
4.8.2 ネットワークモデル
RBF ネットワークを図示する。 x  R は入力ベクトルで、このベクトルはそのまま各ユ
n
ニットへの入力となる。各ユニットではあらかじめ定義されている ci  R (i=1,・・・,M)との
n
差が求められ、そのユークリッドノルム x  ci が計算される。各ユニットは x  ci を引数


とする単調減尐関数  x  ci を出力し、それに重み ai を掛けたものを加え合わせた
f ( x)   ai  x  ci
M

・・・(61)
i 1
をネットワーク出力とする。”radical”(放射状)の語はが   が x に関して ci を中心とした同
心円状の等高線をもつ関数値を出力することに由来している。具体的な関数形としては

r2 

2 
  
 (r )  exp  
 (r ) 
1
r
2
c

1
2 2
  0, r  0 ・・・(62)
c  0, r  0
・・・(63)
などがよく用いられている。これらの関数はいずれも正の r に関して単調減尐し、また有限
の r で 0 とならず、台(support)は無限に広がっている。これらの関数は、任意の x に対し
てすべての   が 0 でない値を持つため入力された x に近い ci と ai のみを学習するような
局所的な学習が困難であるが、逆にどんな x に対してもすべてのユニットが非 0 の値を出
力するため、数値計算的な問題は尐ない。
4.8.3 勾配に基づく学習
RBF ネットワークにおいても、階層型ニューラルネットワークにおける誤差逆伝播法同様、
2 乗誤差の勾配に基づき、学習の必要なパラメータを変化させることが可能である。ここで
は、表のモデルに基づき 2 乗誤差の勾配を導出する。勾配の各要素は
55
1
 y(k )  y(k )2
2
 x(k )  ci 2 

zi (k )  exp 
2





E (k ) 
m

y (k )   ai zi (k )
i 1
図 53:RBF ネットワーク
表 13: RBF ネットワーク
評価関数
E (k ) 
RBF モデル
1
 y(k )  y(k )2
2

 x ( k )  ci
z i (k )  exp 
2


モデル出力
2





m

y ( k )   ai z i ( k )
i 1
となる。
x(k )  ci
E (k )
 2 y(k )  yˆ (k )  ai zi (k )

3
i
x(k )  ci
E (k )
 2ai zi (k )
( y (k )  yˆ (k ))
ci
2
E (k )

 ( y (k )  y (k )) zi (k )
ai
2
・・・(64)
・・・(65)
・・・(66)
データの量が学習を行う回数(N 個)に比較して尐ない場合には、次のようにデータを繰り返
し使用して学習を行う。
E ( j )

E ( j )
ci (k  1)  ci (k )  
ci
 (k  1)   (k )  
56
 j  ((k  1) mod N )  1
・・・(68)
・・・(67)
ai (k  1)  ai (k )  
E ( j )
ai
・・・(69)
4.8.4 .参照モデルと学習理論に基づく位置制御法への適用
先の参照モデルと学習理論に基づく位置制御法ではニューラルネットワークを用いてい
るが、ここではニューラルネットワークを RBF ネットワークに置き換えた場合を示す。以
下の図は用いた制御系である。また、この制御系をシミュレーションしたのでその結果を
以下に示す。そのシミュレーション条件は以下のように設定した。さらに、出力と入力の
結果を示す。
図 54:RBF ネットワークを用いた提案手法
表 14:シミュレーション条件
制御対象
1365
s( s  215)
PID コントローラ
0.00037013s 2  0.0842229s  1
s(2.5284e  005s  0.0079433)
サンプリング時間
0.0005 [s]
指令
±0.2 [mm]
外乱
-2 [V]
57
0.3
Output
0.2
0.1
0
with RBF
without RBF
-0.1
-0.2
9
10
11
12
Time[s]
13
6
14
15
with RBF
without RBF
4
Input
2
0
-2
-4
-6
10
11
12
Time [s]
13
14
図 55: RBF ネットワークの結果
結果をみると、外乱を抑制して結果が収束していることがわかる。これによりニューラル
ネットワークと同様の結果を得られたと考えられる。
58
第5章 外乱オブザーバ付き
参照モデルと学習理論に基づく位置制御法
5.1 外乱オブザーバ付き参照モデルと学習理論に基づく位置制御法
参照モデルと学習理論に基づく位置制御法に外乱オブザーバを導入することで、既知の
外乱と未知の外乱を分離して制御することを考えた。学習理論としてはニューラルネット
ワークを利用している。ここで、外乱オブザーバ付き参照モデルと学習理論に基づく位置
制御法(D-R-NN)のブロック線図を以下に示す。
外乱オブザーバを導入する際に問題点としてはニューラルネットワークが補償する外乱
と外乱オブザーバが補償する外乱を完全に分離する必要がある。なぜならば、以下に説明
する状態を回避するためである。仮に外乱オブザーバとニューラルネットワークが補償す
る外乱が区別されてないとすると、ニューラルネットワークが補償した制御入力を外乱オ
ブザーバが誤って外乱と捕らえてしまい過剰な制御入力を制御対象に与えることになる。
すると、今度はニューラルネットワークが外乱オブザーバから過剰に加えられた補償量を
外乱とみなしてしまいニューラルネットワークも過剰な補償量を与えることになる。これ
が繰り返されることで制御入力が過剰になり、発散してしまうことになる。
以上のことが起こらないために参照モデルに外乱オブザーバの推定値を組み込むことで、
この現象を回避することを実現している。
NN
ー
r
+
ー
C
+
d1 P
n
d2
NNで補償
D.Oで補償
ー
+
+
ー
ー
Pn-1F
ー
+
y
P
+
++
C
Pn
外乱オブザーバ
ys
Reference Model
図 56: 外乱オブザーバ付き参照モデルと学習理論に基づく位置制御法(D-R-NN)の
ブロック線
59
また、この制御構造は外乱オブザーバで既知の外乱を補償し、ニューラルネットワーク
で未知の外乱を補償する構造になっている。ここで、図のd1 は外乱オブザーバに推定され
る外乱を表している。それから、d2 は外乱オブザーバで推定されない外乱を表している。
実際にd2 としては外乱オブザーバで推定できない高域の外乱や量子化誤差を想定して、時
間経過とともに学習的に補償する。
5.2 シミュレーション結果
本節では、外乱オブザーバ付き参照モデルと学習理論に基づく位置制御法のシミュレー
ション結果を示す。シミュレーション条件を以下に示す。
表 15:シミュレーション条件
1365
s( s  215)
Ts
0.5 [ms]
10s  1
0.5s
目標値
±1 [mm]
1
(0.0005s  1) 2
学習係数
P( s ) 
制御対象
C ( s) 
コントローラ
F ( s) 
フィルタ
α=0.0003
β=0.00001
目標値には、1 ステップ 0.5 [s]として±1 [mm]を繰り返すステップ信号を用いた。外乱
も繰り返すステップ信号を用いた。
d2 (Unknown)
+5V
0V
-5V
d1 (Known)
Tracking Error [mm]
0.5
0.0
-0.5
Before
learning
Before learning
学 習前
Learning
process
Learning学
process
習経過
After learning
After
learning
学 習後
0.0
0.1
0.2
0.3
0.4
0.5
Time [s]
(a) ニューラルネットワークだけで補償した結果
60
d2 (Unknown)
+5V
0V
-5V
d1 (Known)
Tracking Error [mm]
0.5
0.0
-0.5
0.0
Before
learning
Before learning
Learning
process
Learning process
After
Afterlearning
learning
0.1
0.2
0.3
Time [s]
0.4
0.5
(b) 外乱オブザーバ付き参照モデルと学習理論に基づく位置制御法の結果
図 57:シミュレーション結果
今回は比較対象として参照モデルと学習理論に基づいた制御法の結果を用いる。つまり、
ニューラルネットワークだけで補償した結果を示した。
上図のシミュレーション結果はトラッキングエラーを表している。それぞれの図の上に
はシミュレーションで印加した外乱を示した。外乱オブザーバ付き参照モデルと学習理論
に基づいた位置制御法の結果を見ると、外乱オブザーバとニューラルネットワークによっ
て外乱が抑制されることがわかる。さらに、上図の(a)では参照モデルと学習理論を用いた
位置制御法を用いるのでニューラルネットワークだけで既知と未知の外乱を補償し、追従
誤差や振動が見られる。一方、上図の(b)では外乱オブザーバ付き参照モデルと学習理論に
基づいた位置制御法を用いるため、既知外乱 d1 を外乱オブザーバが補償し、未知外乱 d2 を
ニューラルネットワークが補償するので、追従誤差や振動が上図の(a)のニューラルネット
ワークだけで補償したときよりも抑制していることがわかる。
また、未知外乱と既知外乱を同時に印加した場合も検証した。そのシミュレーション結
果を示す。
61
1.01
[mm]
Error
error
0.5
未知外乱( 100%)
d1
入力外乱
00
-0.5
-0.5
学習前
学習経過
学習後
-1.0
-1
00
100
0.05
200
300
0.10
0.15
Data
number
Time[s]
400
0.20
500
0.25
(a)ニューラルネットワークだけで補償した結果
1.01
error
[mm]
Error
d1
未知外乱( 50%)
既知外乱( 50%)
入力外乱
0.5
0.5
00
学習前
学習経過
学習後
-0.5
-0.5
-1.0
-1
00
100
0.05
200
300
0.10
0.15
Data
number
Time[s]
400
0.20
500
0.25
(b) 外乱オブザーバ付き参照モデルと学習理論に基づく位置制御法の結果
図 58:シミュレーション結果
表 16:最大誤差の比較
最大誤差
(a)
(b)
-0.89
-0.41
シミュレーション条件は未知外乱と既知外乱を別々に印加したときと同じである。シミュ
レーション結果をみる。表 16 の外乱印加後の最大誤差比較から上図の(a)の参照モデルと学
習理論に基づく位置制御法を用いたニューラルネットワークだけで補償した結果は外乱の
抑制効果が外乱オブザーバ付き参照モデルと学習理論に基づいた位置制御法の(b)の結果に
比べて外乱補償の面で劣っている。さらに、(a)と(b)を比べてわかることは(a)ではニューラ
ルネットワークだけで外乱を補償しようとするので応答が振動的になっているのに対し、
(b)ではニューラルネットワークと外乱オブザーバが分担して外乱を抑制しようとするので
偏差や振動が抑えられた応答結果になっている。
62
NN
ー
r
+
ー
C
+
P
y
既知の外乱を d1+d2
規範モデルに考慮
+
ー
未知の外乱
+
ー
C
+
Pn
ys
d1
図 59:学習により適応させたい補償を選択可能に
結論としては、この外乱オブザーバ付き参照モデルと学習理論に基づいた位置制御法は
未知外乱と既知外乱を別々に補償できる。
さて、次に発展的な話題を述べたい。この外乱オブザーバ付き参照モデルと学習理論に
基づく位置制御法の制御構造は外乱オブザーバで推定できる既知の外乱とニューラルネッ
トワークが補償する未知の外乱を分けて補償することができる。しかし、この構造は多重
化することで外乱を選択して補償することができると考えている。
このベースとなる考えは参照モデルと学習理論に基づく位置制御法で上の図のように参
照モデルに既知外乱を組み込むことでニューラルネットワークがその既知外乱を学習しな
くなることに起因する。つまり、既知外乱 d1 だけでなく他のわかっている外乱を参照モデ
ルに導入することをしていくことで参照モデルと学習理論に基づく位置制御法のニューラ
ルネットワークに学習させたい外乱の種類を選択することが可能になると考えられる。例
えば、今回は既知外乱を推定するのに外乱オブザーバを用いたが他に外乱を推定できる機
構があるのならばその機構を併用することでより精密な制御が可能になると考えている。
63
第6章
6.1
まとめ
まとめ
本研究では、学習理論であるニューラルネットワークや RBF を用いた同定や制御系の構
造的な工夫をすることによって、ニューラルネットワークを用いた同定や制御を多用途へ
の展開を考えた。そのために、以下の三つの目標を目的とした。
第一に、学習理論を用いた新しい同定と制御構造を提案すること、第二に、その学習理
論を用いた新しい同定と制御構造をシミュレーションで検証し、その有効性を考えること、
第三に、シミュレーションで有効だとわかったら、その学習理論であるニューラルネット
ワーク等を用いた新しい同定と制御構造の利用方法を考えることである。
そして、その三つの目標に対して、二つの構造を検討した。
第一に、ニューラルネットワークと ARX モデルを併用した非線形同定法では、シミュレ
ーションで非線形同定ができることを確認し、その手法を粘弾性材料試験機に適用して、
ニューラルネットワークと ARX モデルを併用した非線形同定法が実機に対しても有効であ
ることを確認した。さらに、この手法で得たモデルを利用した制御系をシミュレーション
を用いてその有効性を示した。
第二に、学習理論であるニューラルネットワーク等と参照モデルを用いた制御系につい
ては、新しい構造を提案し、シミュレーションで有効性を確認した後、外乱オブザーバへ
の応用や精密ステージに対しての適用を示した。さらに、参照モデルに外乱オブザーバを
導入することで既知外乱と未知外乱を分けて補償できることをシミュレーションで確認す
ることが出来た。
以上、二つの同定や制御の検討構造に対して、シミュレーションでその有効性を確認で
き、その利用方法や実機での検証ができたため、学習理論であるニューラルネットワーク
や RBF を用いた制御系の多用途展開のために新たな構造を提案できたと考える。
6.2
今後の課題
今後の課題としては、まず、今回提案した系では、ニューラルネットワークの重みに何
かしかの物理的意味があると考えられるので、その物理的意味を特定し新たな利用用途の
検討することで、ニューラルネットワークを用いた制御系の多用途展開に貢献できると考
えられる。次に、発展させた提案手法を実機への導入が挙げられる。また、ニューラルネ
ットワークを用いた制御系のほとんどでいえることだが、より安定して利用するために、
64
ニューラルネットワークのアルゴリズムをより発散しないような、より高速に収束するよ
うな、よりメモリを消費しないようなアルゴリズムに改善していくこと等が挙げられる。
さらに、参照モデルと学習理論に基づく位置制御法を参照モデルを IMC にしたものを検討
したり、多入力多出力に拡張できるとよいと考えている。
65
参考文献
[1] 渡辺 桂吾:ニューラルネットワーク計算知能、森北出版株式会社(2006)
[2] 熊沢 逸夫:学習とニューラルネットワーク、森北出版株式会社(1998)
[3] 志水 清孝:ニューラルネットと制御、コロナ社(2002)
[4] 熊谷 英樹、大石 潔:MATLAB と実験でわかるはじめての自動制御、日刊工業新聞社
(2008)
[5] 樋口 龍雄:自動制御理論、森北出版株式会社(1989)
[6] 小郷 寛、美多 勉:システム制御理論入門、実教出版株式会社(1979)
[7] 森 泰親:演習で学ぶ現代制御理論、森北出版株式会社(2003)
[8] 天野 耀鴻:やさしいシステム制御工学、森北出版株式会社(2008)
[9] 青木 立、西堀 俊幸:ディジタル制御、コロナ社(2005)
[10] 小林 一行:図解ロボット技術入門シリーズ ロボットモデリング-MATLAB によるシ
ミュレーションと開発-、オーム社(2007)
[11] 細江 繁夫:システムと制御、オーム社(1997)
[12] 足立 修一:制御のためのシステム同定、東京電機大学出版局(1996)
[13] 川人 光男:脳の計算理論、産業図書(1996)
[14] C.M.ビショップ:パターン認識と機械学習 上、シュプリンガー・ジャパン株式会社
(2007)
[15] 甘利 俊一:Information&Computing=75 ニューラルネットの新展開、サイエンス社
(1993)
[16] 谷川 智彦、高橋 和彦、山田 孝行:規範モデルを用いるニューラルネットワークコン
トローラに関する一考察、日本機械学会論文集(C 編)69 巻 677 号(2003) No.02-0593
[17] 小川 忠:運動パターンの視覚情報に基づく学習・予測・認識-リカレントニューラル
ネットワークを用いた実験的検証-、平成 9 年度奈良先端科学技術大学院大学修士論文
(1998)
[18] 高橋 宏明:リニアモータを用いた粘弾性材料の動的試験装置開発、平成 19 年度群馬
大学卒業論文 (2008)
[19] 金田 寛典:複雑系負荷を有する材料試験機の力制御系の開発、平成 20 年度群馬大学
大学院修士論文 (2009)
[20] 木暮 雅之:外乱オブザーバに基づく内部モデル制御の適応化とその産業応用、平成 19
年度群馬大学大学院修士論文 (2008)
[21] 小沼 美穂:可変忘却要素を用いた精密ステージに対する内部モデル制御の適応化手法、
平成 20 年度群馬大学卒業論文(2009)
[22] 岩井 善太、水本 郁郎、大塚 弘文:単純適応制御 SAC、森北出版株式会社(2008)
66
[23]涌井 伸二・橋本 誠司・高梨 宏之・中村 幸紀:現場で役立つ制御工学の基本、コロナ社
(2011)
[24]美口純一、呉漢生、水上孝一:ニューラルネットを用いたモデル規範型適応制御の一構
成、計測自動制御学会論文集 Vol.33, No.6, 477/482 (1997)
67
発表論文
[1]
齋藤,中嶋,橋本:
「参照モデルと学習理論に基づいた一制御法」,平成22年度電気
学会産業応用部門大会講演論文集,Y-76,2010
[2] S. Hashimoto, H. Saitou and K. Nakajima: "A High Precision Control Based on
Learning Algorithm with Reference Model and Disturbance Observer", 2nd Int.
Symposium on Mechanical Science and Technology (ISMST2011), X1993,
Guangzhou, China (Dec. 2011)
68
謝辞
最後に、本論文をまとめるにあたり、多くの方にお世話になったことをこの場を借りて
感謝いたします。
まず、本研究を進めるにあたり、多大なるご指導、ご鞭撻を頂きました橋本誠司准教授、
中嶋健治氏に深く感謝いたします。また、主査、副査としてご指導頂きました石川赴夫教
授、高橋俊樹教授に厚く御礼を申し上げます。さらに、本研究において多くの有益な御助
言を頂いた橋本研究室の皆さんに深く感謝いたします。
69