帰納

■帰納推論における品質と量と確証性

一般的な「帰納」の例を考える。
1:昨日も、一昨日も、太陽は東から昇った 【前提条件】
2:全ての日で、太陽は東から昇るだろう【帰納による一般化】
3:したがって、明日、太陽は東から昇る 【演繹】
2→3:必ず成り立つので、演繹である。
1→2:明日の、太陽が昇るかどうかの情報が増えてしまっているため、帰納である。
「帰納」は、「枚挙的帰納」「類推」に分けられるという考え方もある。
「枚挙的帰納」は、昨日、一昨日と、太陽を観測した数が多いほど、確証が増すという考え方である。
ここで、もし昨日見たものが、「太陽のようなもの」で、必ずしも太陽だったという確証がない場合はどうだろうか。
昨日見たものが「太陽」に近かったほど、確証が増すと考えられる。それが「類推」である。
推測するためのデータの量が多いほど、確証が増すのが「枚挙的帰納」である。
推測するためのデータの品質が良いほど、確証が増すのが「類推」である。
「質」と「量」は分けて考えることはできない。
「質は悪いけど、量は多い」と「質は良いけど、量は少ない」で、どちらの確証性が良いか考えなければならない。
「量」が増えるほど、確証性は増す。
「質」が高いほど、確証性は増す。「質」は0~100%で表すとする。
「質」=0% は、推測対象と全く無関係な標本と考える。
「質」=100% は、推測対象と同じ母集団から抽出された標本と考える。
「質」=100%の標本を、無限に集めれは、確証性は100%に漸近する。
「質」=50%の標本を、無限に集めれば、確証性は50%に漸近する。
これは、太陽か疑わしいものが東から昇るのをいくら沢山観測しても、太陽が東から昇るというには限界があるということである。
n個の標本の「質」と「量」から、確証性は次式で求まる。
確証性 = (n個の「質」の和)/(n+1)
「unknown」の比 = (1-確証性)
考え方として、まずは推測対象として「unknown」というデータが1個あるとする。
そこに、「太陽が東から昇る」=100% というデータを1個ずつ追加していく。
1個だけ追加したとき、「太陽が東から昇る」=50%、「unknown」=50% になる。
2個追加すると、「太陽が東から昇る」=2/3、「unknown」=1/3 になる。
無限に追加すれば、「太陽が東から昇る」=100%に近づく。
質が50%のデータは、「太陽が東から昇る」=50%、「unknown」=50% というデータを1個ずつ追加していく。
1個だけ追加したとき、「太陽が東から昇る」=25%、「unknown」=25+50% になる。
2個追加すると、「太陽が東から昇る」=0.5*2/3、「unknown」=(0.5*2+1)/3 になる。
無限に追加すれば、「太陽が東から昇る」=50%に近づく。
この計算式は、比較的品質が悪いデータなら、使用しない方が良いと示している。
「太陽」のデータが十分あれば、「太陽のようなもの」のデータは無視した方が良い。
品質が高いものから順に、データを追加していき、確証性が上がらなくなるところで打ち切れば良い。

■推測対象範囲の最小化

一般的な「帰納推論」は、「一般化」を目的とする場合が多い。
太陽の例では、全ての日について、太陽が東から昇ると示すのを目的とする。
全ての日というのには、5兆年後も含まれる。
しかし、明日太陽が東から昇るか知りたいのに、5兆年後に太陽が東から昇ることを示す必要があるだろうか。
時間が離れているほど、地理的な変化が起こる可能性が増すため、データの「質」は下がる。
5兆年に太陽が東から昇ると示すのは難しいだろう。
可能なら、「明日」だけでよいので、太陽が東から昇ると示したい。
例1:「明日、太陽が東から昇る」
例2:「明日、太陽が東から昇る」AND「5兆年後、太陽が東から昇る」
例2は、例1とそれ以上の主張をするので、例1の主張の方が容易である。
「一般化」は、抽出された標本の性質から、母集団全体の性質を推測することと解釈できる。
一般化までは目指さず、次回に抽出する標本の性質を推測する方法を考える。
それには、母集団ではなく、必要最小限の集団を定義してやればよい。
必要最小限の集団には、予測に使用する標本と、予測対象の未知の標本「unknown」だけが含まれていれば良い。
その最小限集団は、標本の集団に、「unknown」が1つ加わっただけのものになる。
一般的に、無作為抽出される標本の確率分布は、母集団の分布と一致する。
最小限集団の場合も、同様に考えられる。
最小限集団の分布が、予測対象の確率分布になる。
最小限集団の分布を求めたいですが、特に何もする必要はない。
最小限集団の分布には、「unknown」が含まれるが、別の値に変換せずに、そのまま保持するべきである。
使える標本がなければ、「unknown」=100%になりますが、それが最も正確な答えである。
勝手に、一様分布や最大エントロピー分布にするべきではない。
この計算法で、データの個数は整数である必要はない。
例えば、過去の0.3日分の気温から、次の1.2日分の気温を予測しても良い。
予測対象の範囲が、無限小であってもよい。
データの個数は、「繰り返し単位」でなければならない。
この最小限集団へは、50%だけ参加するということも可能である。
0~1の間で、各データに重みを付けることができる。
ここまでは、データの品質を考慮していない。
各データの重みとして、データの品質を表現できる。

■説明変数と情報の最小分割単位での表現

例:苺の色や大きさや重量や品種名から、甘さを推測したい。
目的変数は、甘さであり、説明変数は、色や大きさや重量や品種名である。
ここまでは、「甘さ」したデータがない場合の推論を議論してきた。
これからは、説明変数も考慮する。
まずは、ある1つの苺が特定の色や甘さの情報とどう関連付けされているのか考える。
情報というのは、内容が同じでも別の表現の仕方が可能である。
例:「00001111」と「0000」「1111」「前者の後に後者が続く」
上記の2つは、同じ情報を示している。
最も情報を細かく分割した場合を考える。
例:「1ビット目が0」「2ビット目が0」「3ビット目が0」「4ビット目が0」・・・
このように分割できる。
「0」と表現している部分は、省略されているが、何を示しているか説明するための単位が必要である。
例として、動画情報の場合を考えてみる。
(1 [mm縦]) and (1 [mm横]) and ( 1 [sec] ) → 1 [R]
(1 [mm縦]) and (1 [mm横]) and ( 1 [sec] ) → 1 [G]
(1 [mm縦]) and (1 [mm横]) and ( 1 [sec] ) → 1 [B]
このように、A→Bという形で、情報の最小分割単位は表される。
Aは、複数の数値と単位のセットである。
Bは、1つの数値と単位のセットである。
このような一種の選言標準形を、情報の標準形とする。
Aが一致するかどうかによって、複数の情報は結び付けられる。
数値の単位は、さまざまな情報を含んでいそうだが、一致するかどうかの情報しか必要ない。
数値の単位は、他の単位の区別するためのユニーク値でよい。(例えば、重複しないようにランダムに決めた長いビット列)。
数値の単位の意味や関係性は、複数の方法の組み合わせで表現される。
例:1[qwerty]=1[asdfgh], 1[qwerty]=1000[zxcvbn]
数値の単位名が意味を持っている必要はなく、[qwerty]は、[zxcvbn]の1000倍の単位だと分かる。
数値の値の部分は、2進数で1ビットずつでも良いし、実数としても良い。
値の部分は、単位の部分を変えれば、同じ内容のまま表現を変えることが可能である。
例えば、全ての値を、0~1の実数というように共通化できる。
標準形:0~1(値),ユニーク値(単位) and 0~1(値),ユニーク値(単位) and … → 0~1(値),ユニーク値(単位)
どんな情報でも、「0~1」と「ユニーク値」で表現ができる。
脳では、「0~1」は神経細胞の1つの状態、「ユニーク値」はどの神経細胞なのかに、対応しているかもしれない。

■帰納問題の演繹問題への還元

一般的に、推論で情報が増えるものを「帰納」、増えないものを「演繹」と区別する。
ここでは、情報を増やす操作を「帰納推論」、情報が増減しない操作を「演繹推論」とする。
また、情報が存在しないことについて尋ねる問題を「帰納問題」とする。
例えば、明日、太陽が東から昇るか推測するのは、「帰納問題」である。
一見、「帰納問題」の答えは、「帰納推論」でしか求められないように感じるが、そうではない。
ただし、わからないことについて「わからない」と答えるのは、正解だという立場をとる。
未来に起こることを聞かれても、何も断言しなければ、情報は増えない。
ただし、質問に対して、黙って何も答えないのと、「わからない」と答えるのでは違う。
わからないことは、「わからない」と断言しなければならない。
そのために、「unknown」という状態を導入する。
「unknown」を使えば、「帰納推論」で情報を増やさずに、「帰納問題」に答えられる。
ただし、情報が増えるのを防ぐだけでは「演繹推論」にはならず、情報が減るのも防がなければならない。
部分的に未来を推測できる情報が与えられているのに、「unknown」=100%と答えるのは、情報が減ってしまっている。
このとき、どう答えるのを正解にするのか、「帰納の公理」としてルールを決めておけばよい。
そうすれば、全ての帰納問題は、演繹問題へ還元(帰着)できる。
記号処理などで演繹問題を解くのは、古来からコンピューターが最も得意とすることである。

■繰り返し単位

枚挙的帰納では、観測の数が増すほど、確証性が増す。
その「数」の数え方を、「繰り返し単位」として取り決める。
例として、数列の予測を考える。
予測対象は「?」と表記する。
例1: 111111111?
「1」が9個、「?」が1個なので、「1」=90%、「unknwon」=10%と推測される。
例2: 123451234?
9個のデータが「12345」を繰り返すという規則に従っている。
だからといって、「5」=90%、「unknown」=10%と推測するのは誤りである。
「12345」という繰り返しは、過去に1回しか現れていないので、「12345」「1234?」と分けて考えるのが正しい。
「5」=50%、「unknown」=50%と推測される。
「1234?」の部分は、部分的にしか「12345」を満たしていないため、個数は0個とみなす。
例1の場合は、「1」「1」「1」「1」「1」「1」「1」「1」「1」「?」と分けて考えたといえる。
例2の、後半の5つだけ見ると「1」「2」「3」「4」「?」で、1ずつ増加している。
「1→2」「2→3」「3→4」「4→?」で、4回中、3回が、1増加している。
「5」=75%、「unknown」=25%と推測できる。
別の例として、苺が甘いか予測する。
例:「赤い苺:甘い」「赤い苺:甘い」「赤い苺:甘い」「大きい苺:甘い」「大きい苺:?」
ここで、次のような仮説を立てることができる。
仮説:「赤い」または「大きい」苺は甘い。
この仮説に、5個中4個は従っているため、「甘い」=80%、「unknown」=20%。
この推測は間違っている。
大きい苺が甘いというデータは、過去に1つしかないため、「甘い」=50%、「unknown」=50%が正しい。
「赤い」データをいくら観測しても、仮説の「大きい」の部分の確証は増さない。
これは、哲学における「グルーのパラドックス」と同様であり、人間でも誤認し易い。
数列の場合と同様に、仮説を部分的にしか満たさないデータは、0個とみなされる。
仮説に「or」が含まれる場合は、それぞれの正しさを個別に評価しなければならない。

■帰納問題の形式的一般解法

1. 問題として、推測したい値が何かという情報を受け取る。
推測したい値には、「unknown」という値を割り当てる。
2. 問題に使用しても、使用しなくても良い、すべての情報を受け取る。
3. 一つのファジィ集合を仮定する。
そのファジィ集合には、1.は重み1で、2.は重み0~1で、参加する。
4. そのファジィ集合には、同じ繰り返し単位の形で参加しなければならない。
繰り返し単位が、データの個数となる。
5. 重みを調節する。
6. ファジィ集合の分布が、推論結果の確率分布となる。
~おわり
ここで、5.の重み調節で、どんな説明変数を考慮して、どんなデータを採用するか決めている。
最適解があるとすると、重みが最適値であることになる。
推測には、さまざまな方法が考えられるので、何が適したものなのか決める必要がある。
例えば、Aという方法で推論した結果と、Bという方法で推論した結果があったとする。
ここで、何が最適なのかまではいえなくて良いのが、AとBのどちらが優れているは判断できる必要がある。
どんな推論よりも優れているものが、最適解となる。
BよりAが優れていたからといって、単純にAが最適解とはいえない。
AとBを組み合わせたCという推論も行って、AとCでどちらが優れているか判断しなければならない。
質問回答に制限時間があるなら、その時点で最も優れた結果を回答すればよい。
どちらの推論の方が優れているかさえルールを決められれば良いが、大きく2つ決めることがる。
・「帰納の公理」を決める。これに従っていなければ、比較するまでもなく不適な推論結果である。
・「帰納の公理」に従って、できるだけ良い推論をしようとした結果の、良し悪しの判断基準を決める。
今後は、説明変数ありの場合で、できるだけ簡単な例から考えて、これらを決めていく。
説明変数なしの場合は、重みを1と仮定した結果なので、上の方法だけで計算することができる。

■エントロピーとバイアスとバリアンス

推測結果の良し悪しの判断に、エントロピーが使えるか考える。
回答可能な選択肢から、正解の候補を絞り込まむのに従って、エントロピーは減少する。
選択肢が1つに絞られると、平均エントロピーは、0になる。
正解を知っているので、正解を知らされても、受け取る選択エントロピーは0だからである。
また、「unknown」=100%というのは、最も劣った推測結果であり、エントロピーは最大である。
「unknown」の比率が、エントロピーに大きく影響するが、それ以外の部分も影響する。
例として、株価の変動を3者が推論した例を考える。
Aさん:「上がる」=100%
Bさん:「下がる」=100%
Cさん:「上がる」=50%、「下がる」=50%
Cさんの出した答えは、何も推測できないのと同じ答えである。
AさんとBさんの結果は、Cさんよりエントロピーが小さいが、より優れた結果といえるだろうか。
AさんとBさんは、自信を持ってい強い主張をしているが、二人の主張は矛盾している。
少なくてもどちらかはバイアスが掛かった状態で、真の答えとはズレた主張をしている。
つまり、100%という主張のため分散は小さいが、偏りは大きい。
実際には、AさんとBさんのどちらかは正解かもしれない。
株価は、完全にランダムに動いており、Cさんが正解かもしれない。
%が大きいだけで、優れた推論だと判断するのは間違いである。
また、エントロピーも同様に、分散だけを考慮して、偏りは考慮していない。
エントロピーの大小だけで、推論の良し悪しを判断するのは間違いである。
確率で良し悪しの判断をするのが間違いなら、期待値で判断するのも間違いである。
AIに、報酬を設定して、報酬の期待値が最大になるように学習させればよいという考え方は、不十分である。
バイアスとバリアンスのバランスを最適にする仕組みが必要である。