非決定論的な帰納推論 y=f(x,ε)

■y=f(ε) と y=f(x) と y=f(x,ε)

y=f(x,ε)についても、基本的にな考え方は、y=f(x)のときと同じである。
全データと「unknown」が重み(0~1)で参加したファジィ集合が、推測結果となる。
y=f(ε):全データの重みを1と仮定した場合
y=f(x):「Δx=0のときΔy=0」という情報が与えられていて、「unknown」の重みが減る場合
y=f(x,ε):「unknown」の重み=1
「Δx=0のときΔy=0」かどうかも、情報で与えられるのではなく、自分で帰納推論するのがy=f(x,ε)である。

■バイアスとバリアンスのバランスの評価基準

「unknown」には、2種類の起因がある。
1つ目は、予測対象の「unknown」=100%である。
もう一つは、各データについてのバイアス比率である。
推論の良し悪しは、以下のように考えられる。
1. 「unknown」=100%は、最も悪い推論である。
2. 「unknown」比率がが大きいよりは、小さい方が良い推論である。
3. 少数のデータが重みを持つように絞り込まれていると、良い推論である。
4.「(1-unknown) * 推論後の分散 + unknown * 推論前の分散」が小さいほど良い推論だと定義する。
「unknown」の比率以外については、平均エントロピーなどの方法で評価することは可能。
エントロピーは、「同じ」とみなすものでグループ分けする計算方法である。
例えば、「犬」を犬種ごとに分けるかどうかでエントロピーは変わってしまう。
また、離散値の場合は、「同じ」と「異なる」が、僅かな誤差の影響を受けてしまう。
そのため、すべてのデータについて、それぞれ異なるとするべきである。

■ある1つの仮説についての帰納推論の手順

1. 着目する説明変数を決める。【仮説の立案】
説明変数は複数であっても良い。
2. 予測対象を含む全てのデータが、どれだけの重みでファジィ集合に参加するか決める。【重みの初期値】
重みの初期値は、たの事例を参考に、メタ推論等で適当に決めてよい。
3. ファジィ集合に参加する全てのデータについて、参加者として妥当である確率(バイアス)を計算する。
【連続性バイアス】【対称性バイアス】【分散バイアス】【偶然性バイアス】など、他にもあれば計算。
4. 全てのバイアスを考慮して推測結果を計算する。
5. 2.へ戻り、推測結果の「unknown」を最小化するように重みを決める【重みの最適化】。

■連続性バイアス

例として苺のサイズから、甘いか酸っぱいか予測する。
データ;(20mm,酸っぱい),(30mm,酸っぱい),(31mm,甘い),(32mm,予測対象「unknown」),(40mm,甘い)
ここで、サイズを、31mm未満と、31mm以上の2グループに分けてみる。
31mm未満のもの:0/2 が甘い
31mm以上のもの:(2~3)/3 が甘い
このとき、30mmの酸っぱい苺を避けるように、恣意的に境界線を決めたと疑われる。
これを「連続性バイアス」とする。
偶然かもしれないので、恣意的であったかどうかは判断が難しい。
しかし、31mmと32mmでは、僅かしかサイズに差がないため、同じグループに属する方が自然である。
グループをはっきり分けずに、ファジィ集合へ参加する重みを決めた方が良い。
説明変数が近ければ、重みも近くなるようにすれば、バイアスは発生しない。
それは、境界線付近以外でも満たすべきである。
予測対象の重みは1、境界線では0となる。
ある地点の重みは、「予測対象との距離」と「境界線との距離」の比率から決めることができる。
必ずしも、リニアに重みを決める必要はない。
分散に相当する位置を決めておいて、正規分布で重みを決めても良い。
重みの付け方が悪いデータには、ペナルティとして、連続性バイアス「unknown」の付与が必要になる。
バイアスのない最適な重みに対して、重みが過剰な分だけ「unknown」を付与する。
計算が困難な場合を除いて、重みを減らすことで、バイアスを減らした方が良い。

■対称性バイアス

苺の甘さを予測する例を考える。
予測対象の苺のサイズは、32mmだとする。
「0~30mm」を小サイズ、「30~60mm」を大サイズと分けて、サイズと甘さの関係を調べた。
しかし、予測対象の苺のサイズは「大サイズ」の中でも、かなり小さい例である。
集合の説明変数の平均値が、予測対象の説明変数と差があることを「対称性バイアス」とする。
上側と下側の範囲の広さを同じにしただけでは、バイアスはなくならない。
例えば、ある時刻に起こる現象を予測したいとする。
その時刻の1時間前から1時間後までのデータから、推測したとする。
対象時刻を対称的に決めたが、過去のデータしか持っていないため、偏ってしまっている。
時刻の場合のように、必ずしも「対称性バイアス」が発生しないようにデータを採用することはできない。
集合の説明変数の平均値と予測対象の説明変数との差に応じて、「unknown」を付与する。
まず、「平均値の差」の半分のところで、集合を2つに分割する。
L=分割していない集合と全体のワッサースタイン距離
L1=分割した近い方の集合と全体のワッサースタイン距離
L2=分割した遠い方の集合と全体のワッサースタイン距離
「平均unknown」=|L2-L1|/L
個々の説明変数の距離に比例するように「平均unknown」をメンバーに割り振る。
計算方法は、この方法に限定されない。
2分割ではなく、さらに細かく分割しても良い。
一切に、目的変数の情報が無くても、説明変数の差が大きいほど、バイアスが大きくなると推測できる。
また、大きな「unknown」が付与されるなら、集合が小さくなるように、仮説を立て直した方が良い。

■分散性バイアス

データ1つについて、説明変数が予測対象から遠いほど、目的変数も遠くなると推測する。
分布としては、説明変数の平均値が予測対象と等しければ、ズレは相殺されていると考えられる。
ただし、それが成り立つのは、説明変数と目的変数の関係がリニアな場合である。
つまり、説明変数の平均値が等しくても、分散×非線形性が大きいほど、ズレは大きくなる。
それを「分散性バイアス」とする。
説明変数の分散に応じて、「unknown」を付与する。
「偏差」と「平均値の差」は同じ単位をもつ。
さまざまな非線形の線を想定して、およその二者の関係は見積れる。
「偏差」によるバイアスは、「平均値の差」によるバイアスの半分程度になる。
「偏差」が近い方と遠い方に、集合を2分割して、「平均値の差」の場合と同様の計算をしてもよい。
また、大きな「unknown」が付与されるなら、集合が小さくなるように、仮説を立て直した方が良い。

■偶然性バイアス

無作為抽出された標本でも、偶然に目的変数が偏ることで、関係があるように見えるのを「偶然性バイアス」とする。
ファジィ集合と全体集合の目的変数のワッサースタイン距離を計算する。
同数の標本の無作為抽出で偶然に上記の距離以上になる確率を求める。
偶然起こる確率の分だけ、「unknown」を付与する。
ただしこれは、1回の無作為抽出と比較することで、偶然性を検証する場合である。
100回の無作為抽出で最もレアなケースが、挙げられている可能性が危惧されるなら、そのケースと比較しなければならない。