座標変換を伴う推論

■座標変換による推論

例えば、「y(=x) VS x」のグラフを、「y'(=y-x=0) VS x」に変換した場合を考える。
座標変換後に、平均値を求める。
残差を元の座標に戻す。
元の座標でも残差が減るため、有効な推論である。
説明変数が近いものに絞り込む必要はなかった。
残差が減るほど有効な推論だと考えられる。
絞り込みを行う場合は、必ずしも残差が小さい方が良い推論とは限らなかった。
絞り込みでは、標本を絞り込んでいる。
一方、座標変換では、目的変数を絞り込んでいる。
座標変換そのものは表現を変えるだけで、推論はしていない。
座標変換の仕方に、「正しい、または、間違っている」といった、バイアスは存在しない。
「どの標本と近いか?」という問題ではなく、ただ目的変数が問われるなら、目的変数の絞り込みは有効である。
「標本の絞り込み」と「目的変数の絞り込み」のバランスを考える必要がある。
座標変換しても、標本の重みは変わらない。
座標変換してから、標本の絞り込みを行えば、2つを両立できる。
しかし、y'(=y-x=0)の例では、座標変換すると一定値になり、絞り込む余地がなくなってしまう。
座標変換は、全体ではなく、一部分がy=xとなっている場合でも有効である。
そのため、座標変換後に絞り込まれた標本の状態で、推論の良し悪しを評価するべきである。
座標変換後に絞り込まれた標本の分散で、評価できないか考える。
まず、座標変換したものとしていないもので個別に、「unknown」が最小になるように絞り込みを行う。
結果、「unknown」と「分散」が得られる。
分散が0になる推論があれば、最も優先されるべきである。
「unknown」が、100%のものは最も優先度が低く、0%のものは最も優先度が低い。
ゆえに、「(1-unknown)/分散」が大きいほど優先度が高そうである。
標本単位で考えてみる。
標本それぞれが、「unknown」と「残差」を持つ。
しかし「(1-unknown)/残差」が大きいほど優先度が高いとはいえない。
それだと、平均値付近の標本が無条件で採用されてしまう。
標本それぞれに、同じ「分散」を持たせる。
標本の「(1-unknown) / 分散」が大きいほど優先度が高そうである。
上式は、「(1-unknown) * 分散 + unknown * ∞」が小さいほど良いというのと同じである。
基本的には、分散を小さくするのが目的だが、「unknown」部分の分散は∞と解釈できる。
∞ではなく、座標変換前の全体集合の分散とした方が正確である。
「(1-unknown) * 推論後の分散 + unknown * 推論前の分散」の最小化が狙いといえそうである。

■座標変換を伴う推論の統合

標本それぞれは、推論ごとに、「unknown」「重み」「元の座標における絞り込んだ標本の分散」「元の座標における予測対象の目的変数」の3つの値が得られる。
座標変換なしだと予測対象は標本と同じとしか主張しなかった。
座標変換があると「元の座標における予測対象の目的変数」を主張する。
「元の座標における絞り込んだ標本の分散」は、すべての標本について同じ値である。
「(1-unknown) * 元の座標における絞り込んだ標本の分散 + unknown * 推論前の全体集合の分散」を指標とする。
複数の推論について、指標が最小のものだけを保持する。
初めに、予測対象起因「unknown」だけをファジィ集合に入れる。
指標が小さい標本から順に、ファジィ集合へ追加する。
集合の確率分布の「unknown」が下がらなくなったら追加を打ち切る。
集合の「元の座標における予測対象の目的変数」の確率分布が推論結果である。
注意が必要なのは、最も良い推論結果だけを採用する場合、採用されない推論結果は無価値でなければならない。
そのために、採用されなかった推論が持つ有用な情報を含む推論が採用されなければならない。
しかしながら、あらゆる仮定の推論を行えば、その心配はない。

■複数の目的変数にまたがる目的

例:色差のR値、G値、B値のユークリッド距離の差が最低になるように、色を予測したい。
それぞれ個別に予測することは可能だが、もっと良い方法はないだろうか。
これまで述べてきた推論は、「距離」さえ分かれば計算可能である。
この「距離」というのは、目指すべき最良の回答との距離である。
明示的ではない場合もあるが、問題一つに対して、一つの「距離」が指示される。
「距離」の要素(R,G,B)をそれぞれ最適化するより、「距離」を最適化した方が良い。
「RGB色」から「HSV色」に変換して考えると、うまく予測できる場合がある。
そのような場合は、要素それぞれの最適化ではうまくいかない。

■異なる繰り返し単位の推論の統合

一定の間隔での規則性などが、「繰り返し単位」である。
例:x=10のときの、y=?を予測
データ:101010101?
推論1:y=1:5/10, y=0:4/10, y=unknown:1/10 であると推論
推論2:y=0:4/5, y=unknown:1/5 であると推論
推論3:y=0:4/5, y=unknown:1/5 であると推論
推論2は、xが偶数のとき y=0 と推論する。
推論2は、xが奇数のデータを無視している。
推論3は、「10」という数列が繰り返していると推論する。
推論3は、厳密には、x=10のときのyを予測しているのではない。
「10」という数列が現れると予測している。
その結果から演繹的に、y=0と推論している。
演繹によって、予測対象を同じにすれば、推論は統合できる。
推論2でノータッチの奇数データは、「unknown」=100%とすればよい。