情報

■推測対象範囲の最小化

一般的な「帰納推論」は、「一般化」を目的とする場合が多い。
太陽の例では、全ての日について、太陽が東から昇ると示すのを目的とする。
全ての日というのには、5兆年後も含まれる。
しかし、明日太陽が東から昇るか知りたいのに、5兆年後に太陽が東から昇ることを示す必要があるだろうか。
時間が離れているほど、地理的な変化が起こる可能性が増すため、データの「質」は下がる。
5兆年に太陽が東から昇ると示すのは難しいだろう。
可能なら、「明日」だけでよいので、太陽が東から昇ると示したい。
例1:「明日、太陽が東から昇る」
例2:「明日、太陽が東から昇る」AND「5兆年後、太陽が東から昇る」
例2は、例1とそれ以上の主張をするので、例1の主張の方が容易である。
「一般化」は、抽出された標本の性質から、母集団全体の性質を推測することと解釈できる。
一般化までは目指さず、次回に抽出する標本の性質を推測する方法を考える。
それには、母集団ではなく、必要最小限の集団を定義してやればよい。
必要最小限の集団には、予測に使用する標本と、予測対象の未知の標本「unknown」だけが含まれていれば良い。
その最小限集団は、標本の集団に、「unknown」が1つ加わっただけのものになる。
一般的に、無作為抽出される標本の確率分布は、母集団の分布と一致する。
最小限集団の場合も、同様に考えられる。
最小限集団の分布が、予測対象の確率分布になる。
最小限集団の分布を求めたいですが、特に何もする必要はない。
最小限集団の分布には、「unknown」が含まれるが、別の値に変換せずに、そのまま保持するべきである。
使える標本がなければ、「unknown」=100%になりますが、それが最も正確な答えである。
勝手に、一様分布や最大エントロピー分布にするべきではない。
この計算法で、データの個数は整数である必要はない。
例えば、過去の0.3日分の気温から、次の1.2日分の気温を予測しても良い。
予測対象の範囲が、無限小であってもよい。
データの個数は、「繰り返し単位」でなければならない。
この最小限集団へは、50%だけ参加するということも可能である。
0~1の間で、各データに重みを付けることができる。
ここまでは、データの品質を考慮していない。
各データの重みとして、データの品質を表現できる。

■「分岐情報」と「スルー情報」と「無効情報」

情報量を計算すると∞になる場合がある。
例えば、二つの棒の長さを実測して比較したいとする。
分解能が∞の理想的な測定器具を使用すると仮定する。
有効桁数は∞なので、情報量は∞である。
二つの棒の長さは5000兆桁まで同じで、5000兆1桁で差があるかもしれない。
有効に使われる可能性があるので、無効な情報ではない。
情報が有効かどうかは、使われ方に左右される。
例:ある棒の長さが1m以上なら、0.000001m単位でその長さを答えよ
例:x=1.114514; if(x>=1){return x}
プログラムの分岐に必要な情報は、整数部分のみだった。
しかし、小数点以下の情報もまた、返答が必要なので、いらない情報ではない。
そこで、分岐に使われる情報を「分岐情報」とする。
分岐には使われないが、回答に必要な情報を「スルー情報」とする。
問題を解く場合に、「スルー情報」の情報量には意味がない。
「スルー情報」の情報量が∞であっても、計算理論に悪影響はない。
例えば、巡回セールスマン問題で、都市名を順に回答することを求められていたとする。
都市名が長くて、5000兆文字だったとする。
都市名の情報量は「スルー情報量」として無視しないと、計算複雑性理論は狂ってしまう。
また、計算に使われたとしても、プログラムが分岐しなければ「スルー情報」である。
計算に全く使われないのは、「無効情報」として、「スルー情報」と区別する。
二つの棒の長さの比を計算するだけなら、長さの情報はスルー情報である。
四則演算をしても、それは情報の表現の仕方を変えただけで、本質的な情報そのものは変化しない。
1÷3が、3.33333333となって桁数が増えても、情報量が増えたわけでない。
また、条件分岐以外の計算は、アルゴリズムを最適化すると無くすことができる。
入力された情報に対して、回答するべき答えの辞書を作っておけばよい。
辞書から探すために、2を底として、入力情報の対数の回数だけ分岐すればよい。

■「スルー情報」による二段階推論

連続値の情報量(エントロピー)は、離散値の場合のようには計算できない。
連続値を無限小に分割された離散値だと考えると∞になってしまう。
しかし、無限に分割された、連続量の情報が、すべて有効に使われると思えない。
ものすごく細かく分割した部分の情報量は、「スルー情報」になると予想できる。
例えば、連続的な確率分布があったとする。
その確率分布は、有限個のデータから予測したデータとする。
例えば正規分布かもしれない。
しかし、「ノンパラメトリック手法」といって、分布を仮定せず、データの順序だけ考慮する手法がある。
その方法では、順序以外の情報は、無視する。
つまり、データの順序は「分岐情報」である。
各データの間がどれだけ離れているかは、「スルー情報」である。
データが100個ある場合、-∞から+∞の範囲を100分割して、推測対象がどの区間にある確率が高いかは「ノンパラメトリック手法」で推測できる。
ただ、「ノンパラメトリック手法」は順位しか考慮しないので、予測能力が劣るとされている。
そこで、「ノンパラメトリック手法」で推測した後、二段階目の推測を行う。
「スルー情報」としていた情報を用いて、区間内のどの辺りなのかを、さらに絞り込めばよい。
「ノンパラメトリック手法」と「パラメトリック手法」の良いとこどりをすることができる。