バイアスの計算

すべてのバイアスの分類

すべてのバイアスは、次の3つの分類で網羅できる。
(1)【必然性バイアス】抽出された標本と予測対象とのバイアス
(2)【選択性バイアス】抽出基準通りに標本が抽出選択されないバイアス
(3)【偶然性バイアス】偶然または未知の説明変数のバイアス
例として、苺の甘さを予測する場合を考える。
予測対象の苺と比べて、抽出した苺の平均的なサイズが大きいような状態が(1)。
外観が全く同じなのに、抽出したものと、していないものがある状態が(2)。
外観が全く同じなのに、甘さの偏った苺が抽出された状態が(3)。
(1)だけでは、抽出されなかった標本の情報が考慮されない。
(1)と(2)の両方を考慮すれば、既知の全ての情報が考慮される。
(1)と(2)は、予測しようとすることに対する、既知の説明変数の寄与の部分だけが考慮される。
(3)は、偶然や未知の説明変数の寄与が考慮される。
(1)(2)(3)を考慮すれば、予測対象の説明に必要なすべてが考慮される。
バイアスに漏れがないかだけでなく、重複していないかも考慮が必要である。
(2)で、「苺であること」という基準で抽出したのに、抽出されなかった苺があったとする。
それは、他の何らかの説明変数による選別を行ったと解釈できる。
つまり、抽出する基準が、当初の「苺であること」から変化してしまっている。
「計画」の抽出基準に対しては、正しく抽出が行われなかった。
「実績」の抽出基準に対しては、正しく抽出が行われたといえる。
「実績」の抽出基準で考えれば、(2)のバイアスはなくなり、(1)に集約される。

抽出基準の逆算

「ある一定の説明変数」で、目的変数を説明できる標本に「重み」が付与される。
他者の推論の信憑性を検証する場合、「ある一定の説明変数」で「重み」が付与されているか検証が必要である。
「重み」を説明できる、「ある一定の説明変数」を特定する。
既知の説明変数だけで説明できない場合は、新たな説明変数を仮定する。
新たな説明変数には、うまく説明できる値を自由に割り当てる。
予測対象標本だけは、新たな説明変数の値を自由に決めてはならず、「unknown」値となる。
その「unknown」には、帰納推論で、推測値の確率分布を割り当ててもよい。
予測対象標本の重みもまた、仮定した重み付け基準で算定し直す。
例えば、予測対象標本の重みが0.9の場合、帰納推論の結果が90%、「unknown」が10%となる。
予測対象の標本集合の一員としてのふさわしさ(バイアス)は、重みとして表現される。
複数の仮説を組み合わせたような場合でも、仮説は「重みの分布」だけで表される。
「重みの分布」から、抽出基準を逆算して、「予測対象の重み」を計算する方法は、複数通りある。
「予測対象の重み」が最大化するものを選べばよい。
「選択性バイアス」は、「予測対象の重み」として表現されている。

必然性バイアスの計算

予測対象標本と抽出された標本集合との間の説明変数の偏りが、必然性バイアスである。
抽出基準として使用した説明変数に限らず、すべての説明変数が対象である。
例えば、「時刻」については無作為に抽出したとしても、結果的に過去に偏る。
ただし、説明変数が偏っていても、目的変数と相関性がなければ、バイアスはないため無視できる。
残差の大きさで、すべての説明変数を考慮したときの関係性の強さが分かる。
まず、目的変数を他の変数で予測する式の仮説を立てる。
標本それぞれについて、予測と実測の差が、その標本のバイアスである。
重みで加重平均すると、分布全体のバイアスになる。
「unknown」以外で計算したものに、重みの合計÷(重みの合計 -「unknown」の重み)を掛ければよい。
必然性バイアスは、目標変数と同じ単位になる。

偶然性バイアスの計算

ある説明変数で目標変数がうまく説明出来ていたとしても、説明変数が偶然偏っていただけかもしれない。
1000個の説明変数から、最も良いものを選んだ場合、すべてランダムな変数であっても、規則的だと誤解する。
与えられる「重みの分布」情報のみから、どのくらいのランダムな影響を含むのか推測しなければならない。
「重みの分布」をランダムに選んだ場合と比較すればよい。
均等分布を基準とした、目的変数のワッサースタイン距離が大きい分布ほど、よりランダムから遠いと考えられる。
全ての組み合わせの「重み分布」のワッサースタイン距離を計算する。
その、どこに位置するかの割合で、偶然性が分かる。
偶然性バイアスは、0~1の値となる。

全てのバイアスの合算

「偶然性バイアス」の分は「unknown」とみなして、「必然性バイアス」を計算すればよい。
「予測対象の重み(選択性バイアス)」も、標本の方へ乗せることができる。
全てのバイアスの合算値は、目的変数と同じ単位になる。
全てのバイアスの合算値には、「unknown」は含まれない。
全てのバイアスの合算値が最も小さくなるのが、最適な推論である。