バイアス

■「偏り」の解釈

偏りと分散のバランスを考える。
的をイメージすると、中心からズレたところに矢が集まっているのが偏りである。
ここで、目的が3パターン考えられる。
目的の例1:的の中心に当たれば1点、中心以外なら0点
目的の例2:的のどこかに当たれば、どこでも1点
目的の例3:的の中心近いほど高い点が得られる。
目的の例1では、偏りが僅かでもあれば、分散が小さいほど中心に当たる確率は減ってしまう。
偏りは小さいほど良いが、分散は必ずしも小さいほど良いとはいえない。
目的の例1~3は、得点設定が異なるだけで、高得点を狙っていると考えれば同じである。
単純に考えて、得点の期待値が高くなるのが、良い狙い方だと考えられる。
しかしそれは、矢がどこを中心に、どれだけの分散で当たるかという真の確率を知っている場合である。
もし射手が、やや左に偏るだろうという推測をした場合、射手はやや右へ狙いを修正する。
射手は、偏りがなくなっただろうという状態で矢を射る。
しかし実際には、偏りがある。
射手の「偏りがなくなった」という推測は間違っていたといえる。
「偏り」は方向性が分かっていれば、狙いをズラせば、修正できる。
つまり、修正しきれずに残る「偏り」は、方向性が分からない。
ただし、ズレる方向性は分からいが、ズレ易い射ち方とズレ難い射ち方があると、射手は認識できる。
狙った通りの結果になったかの指標として、「選択エントロピー」を使うことができる。
実際に起こった結果を観測して、予想では起こる確率が低い事象であったほど、選択エントロピーは大きい。
100%未来予測できていれば、選択エントロピーは0である。
選択エントロピーをできるだけ減らすのが、目指すべき推論の方向性である。
しかし、未来に起こる結果を見てからでないと、選択エントロピーは分からない。
一般的に、単に「エントロピー」というと、「平均エントロピー」を指す。
平均エントロピーとは、予測した確率分布通りの結果が起こったとしたときの、選択エントロピーの期待値である。
平均エントロピーをできるだけ減らすことは、目指すべき推論の方向性とはいえない。
それがいえるのは、実際の確率分布が、予測通りの確率分布であった場合だけである。
バイアスの掛かった確率分布を、そのまま真としてはいけない。
バイアスの掛かり具合を表現する方法を考える。
バイアスによるズレ型には、方向性がない。
バイアスが最大限に掛かれば、「unknown」=100%といえるだろう。
バイアスの大小は、「unknown」の比率で表現できる。
すると、バイアスの大きい推測結果は、「unknown」の比率が大きいはずである。
「unknown」は、予測対象に割り当てられる値であり、それ以外のデータが増えると相対的に比率が下がる。
それは、データの数、すなわち「分散」に関係した「unknown」である。
それとは別に、「偏り」に関係する「unknown」が、何らかの方法で追加されなければならない。
推測結果の確率分布は、データ+推測対象「unknown」の集合の分布として表される。
したがって、バイアスを表す「unknown」もまた、集合のメンバーが個々に持っていると考えられる。
推測対象「unknown」以外のデータも、「unknown」を含んでいるといえる。
例として、明日、太陽が東から帰納推論する場合を考える。
とあるデータのバイアスによる「unknwon」が50%だったとしよう。
それは、50%の確率で、太陽ではないものを見間違えた不確かなデータと解釈できる。
ここで、「帰納推論における品質と量と確証性」で考えたことと比較してみる。
バイアスによる「unknown」は、品質による「unknown」と同じだとわかる。
バイアスとはデータの品質と同じ意味であり、同じ確率分布を持つかを表している。
逆に言えば、確率分布が異なるのに同じだとみなしてしまうことが、バイアスであり、品質の低下ともいえる。

■「偏り」の考え方

帰納推論の計算をするためには、使用するデータの「偏り」の情報が必要である。
未来を予測する場合で、実際にどれだけ「偏り」があったかは、実際に「結果」を観測しないと分からない。
「結果」は、未来のことなので確実な推測はできない。
同様に、「偏り」も確実な推測はできない。
したがって、「偏り」もまた、帰納推論で計算しなければならない。
「偏り」を帰納推論するための「偏り」もまた、帰納推論しなければならない。
再帰的に帰納推論が必要になるが、どこかで有効な情報がなくなり「unknown」になるので、無限に計算が必要になることはない。
例えば、明日、太陽が東から昇るか帰納推論する場合を考える。
昨日見た「太陽のようなもの」が、本当に東から昇ったのかは、別の問題として考えれば良い。
「偏り」がどれだけあるかは、「確率分布」にどれだけ差があるかに言い換えることができる。
バイアス起因の「unknown」が小さい方ことは、データの品質が良いことに相当する。
苺の例では、「品種が同じもの」「産地が同じもの」と次第にデータを絞り込むことができる。
より絞り込むほど、品質は良化する。
ある特徴量について、同じものは、異なるものよりも、品種が良いと考えられるからである。
その特徴量を考慮する前から比べて、特徴量が同じものは品質が上がり、異なるものは品質が下がる。
ただし、まだ大小関係しかいえていない。
「品種が同じもの」「産地が同じもの」の両方を満たす苺はなかったとする。
「品種が同じもの」と「産地が同じもの」のどちらの品質が良いのか考えなければならない。
既存のデータから推測する必要がある。
例えば、「産地が同じもの」「産地が異なるもの」の苺の甘さを比較するとする。
甘さに統計的に差が無ければ、産地は甘さと関係ないといえる。
ただし、統計的に差があったとしても、偶然かもしれない。
一方で、先に述べたように、統計によらない方法でも、大小関係だけはいうことができる。
また、統計的に差があるかどうかと、確率分布に差が大きいかどうかは無関係である。
確率分布がほとんど変化しないなら、絞り込んでも効果がほとんどない。

■確率分布の距離(ワッサースタイン距離)

確率分布にどれだけ差があるかは、ワッサースタイン距離を用いる。
最適輸送理論で、ワッサースタイン計量と呼ばれる方法である。
2つの確率分布の要素同士を、距離の合計が最小になるようにマッチングする。
この方法は、要素同士の距離さえ決められれば、どのような尺度でも使用できる。
名義尺度の場合に、一律同じ距離離れているとすることも、似たものには近い距離を設定することもできる。
例えば、「白猫」と「黒猫」の距離は、「白猫」と「犬」より近いとすることができる。
全ての名義を座標系に並べられる必要はなく、2つの名義に対しての距離さえ分かれば良い。
距離を使うことで、一致するかどうかは考えなくて良くなる。
一致するかどうかで、分布の差を測ろうとするのは、細分化の度合いで結果が変わってしまう。
すなわち、カルバック・ライブラー距離のような方法は使えない。
また、「unknown」は、どんな相手とマッチングしても距離が0になる。
最小の距離を求めようとしてるからである。

■試行回数で起こる偶然によるバイアスの例

例として、薬の効果を検定を考える。
ある薬が、プラセボ薬との比較で、99%の優位水準で効果ありと判断されたとする。
1%の偶然の場合を除いては、効果ありと判断するのが普通だろう。
しかし、その薬が、100種類の試薬を試したうちの、もっと良いものだとしたらどうだろうか。
効果のない薬でも、100種類試せば、偶然1つくらいは、99%の優位水準で効果ありと判断されるだろう。
このような場合は、その薬で追加で試験すれば、誤りの確率を減らすことができるだろう。
追加の試験を行えない場合は、この結果をどう解釈すればよいだろうか。
この場合は、99%効果があるとはいえないとはいって、情報として全く価値がないわけではない。
その薬は、残りの99種類の薬よりも効果がある確率が高いとだけは、いうことができる。
別の例として、株価の変動を予測する場合を考える。
上がる株を知りたいため、株価の上昇が起こるための条件を、さまざまな方法で探索したとしよう。
一方で、株価の下落が起こるために条件は、ほとんど探索しなかったとする。
すると、ほんとんどの株が、下落する条件より上昇する条件に一致するという推測してしまうだろう。
規則性を探し出す試行回数で、偶然が起こる可能性を配慮しなければ、バイアスを排除できない。
別の例で、最適化問題で、現在の解の候補の周辺のみを探索したため局所解になってしまうのも、同様のバイアスです。

■回避しなくてよい回避不能なバイアスの例

客観的に誤った答えを出しているように見えるが、推論としては妥当な場合がある。
例として、苺が甘いか酸っぱいか予測する場合を考える。
AとBの二つの籠の内、Aの籠の最も底に入っている苺が甘いか予測するとする。
予測対象1つを残して全て味見したら、Aの籠の苺は全て甘く、Bの籠の苺は全て酸っぱかったとしよう。
当然、Aの籠の底の苺も、甘いと予測するだろう。
しかし、同様の予測を何度も行っても、高確率で外れてしまうことがある。
第三者の悪意によって、Aの籠の最も底の苺だけ、酸っぱい苺にされている場合である。
それを知らなければ、甘いと予測するが正解である。
与えらている情報の中で推測すればよい。
ただし、このような例は、自分で自分を騙すこともできてしまう。
脳内で、都合の良いように苺をグループ分けして、推論することもできてしまう。
自分で気が付かずに、自分を騙してしまったとしても、それは回避すべきバイアスである。
与えらている情報の中で、できるだけ、バイアスを回避するようしなければならない。