完全品質の帰納推論 y=f(ε)

■完全品質0点非重複数値の帰納推論

最も単純な帰納推論の例を考える。
例1.次回のコイントスの結果を答えよ。過去の結果の情報はない。
コインが表でも裏でもない状態になるかもしれないので、「不明」が正しい。
例2.次回のコイントスの結果を答えよ。コインは表または裏の状態しかないとする。
「コインの表または裏」が正しい。
過去のコイントスの情報が0点しかないが、可能な値の情報によって「不明」よりも答えを絞り込めている。
「表」が50%、「裏」が50%は誤りである。
なぜなら、それは、例3の答えでだからである。一様分布だと知っているのと知らないのでは、持っている情報が異なる。
例3.次回のコイントスの結果を答えよ。コインは表または裏の状態しかないとする。表と裏で一様分布だとする。
推論に「無差別の原理」を使うのは誤りである。正しい使い方を次に示す。
例4.次回のコイントスの結果を答えよ。コインは表または裏の状態しかないとする。表が出る確率を数値で答えなければならない。
「問題を解く」とは、正解の回答を特定することであって、質問者へどう返答するかは無関係だと定義した。
回答者の頭では「表または裏」という正解を理解していれば、やむおえず「50%」と誤った回答をしたとしても、問題は解けている。
例5.Xの値を答えよ。
例5は、もっとも単純な帰納推論の例の1つである。
答えを確率分布で表すとすると、「不明」=100%である。
「不明」という状態があるといっているだけで、ここでは「帰納の公理」を必要としていない。
何も情報がなければ「不明」だが、数値が取れる範囲の情報があれば、それが推測結果になる。
例えば、完全な「不明」ではなく、「全ての実数のどれか」に絞り込まれる。

■完全品質1点非重複数値の帰納推論

帰納推論に使える情報が、1点だけ与えられた場合を考える。この1点の情報を、この帰納推論に使っても問題ないという意味で、「完全品質」だとする。
例1.数字が書かれたクジを引く。前回は「5」だった、次回のクジの数字を答えよ。
過去の1回中1回、すなわち100%が「5」だという理由で、このクジは100%「5」だというのは乱暴すぎる。
標本分散は0だが、不偏分散は∞である。
だからといって「不明」としてしまうと、「5」という情報が全く活用されないことになってしまう。
直観的には、全てのクジに同じ番号「5」が書かれている可能性も考えられる。
また、「114514」のような脈絡のない番号の可能性は相対的に低いだろう。
直観的には、「5」と近い番号の方が、「114514」より可能性が高いと感じる。
数値が近いほど可能性が高いというのは直感的には理にかなっているように思える。
ただし、「6」の可能性が「7」より高いという大小関係がいえるだけで、それぞれが何%なのかはいえない。
「5」が最も可能性が高いといえるが、何%なのかはいえない。
同じ番号か否かの2択なので、「5」が50%というのは、気が早いだろう。
数値が重複する確率も考慮する必要がある。
仮に、数値が重複しないとするなら、「5」より小さい確率が50%、「5」より大きい確率が50%といえる。

■完全品質2点非重複数値の帰納推論

くじ引きの結果が「1」「3」の2点のみで、数値の重複がなければ、直観的に次は「2」の確率が最も高いと感じるだろう。
しかし、「0」「10000」の場合は、「5000」ではなく、「0」と「10000」の周辺の方が確率が高いと感じる人もいるだろう。
このとき、「<0」「0～10000」「>10000」に分ければ、「0～10000」の確率が最も高いとはいえるだろう。
ここで、2つの数値がどんな値であっても3区間の確率は変わらない。
1点目を基準に2点目の距離を測ると、有効な距離は1つしかない。同じ単位の数値が1つしかないと比較対象がない。「1-3kg」と「0-10000m」は、比較できないので結果は変わらない。
中央の区間「0-10000」の確率を議論する方法は、2通りある。
1つ目の方法は、2点それぞれについて、1点の場合の推論を行い、50%ずつで加重平均する。
1点目について：「<0」=25%、「>0」=25%。
2点目について：「<10000」=25%、「>10000」=25%。
ここで、2点目の「<10000」(=25%)を「<0」と「0-10000」に分けたい。
「<0」より「0-10000」の方が、「10000」に近いため、確率は高いが、何%かまでは分からない。
均等な場合から、最も偏った場合を考えると、「<0」が12.5～0%で、「0-10000」が12.5～25%。
同様に、1点目の「>0」(=25%)も、「0-10000」と「>10000」に分ける。
結果、「<0」=37.5～25%、「0-10000」=25～50%、「<10000」=37.5～25%。
2つ目の方法は、区間内の点の頻度を考える。
1点目を基準点とすると、有効な点は、2点目の1点だけである。
「0-10000」の範囲にある点の頻度は、境界線上も含めると、1/1=100%である。
だからといって、次にクジを引いた3点目も、100%「0-10000」に入るとは言えない。
3点目が「0-10000」に入る確率は、0～100%である。
2点目のと3点目の2点について考えると、「0-10000」に入る頻度は、1/2～2/2=50～100である。
結果、「<0」=25～0%、「0-10000」=50～100%、「<10000」=25～0%。
2つの計算結果を満たす結果は、1つに定まる。
結果、「<0」=25%、「0-10000」=50%、「<10000」=25%。

■完全品質n点非重複数値の帰納推論

0点、1点、2点の場合の計算方法を統合する。
「完全品質」とは、n点のデータが同等の確からしさで、帰納推論に使ってよいという仮定を示す。
例えば、コイントスする人が異なるデータが混在していたとして、どの人のデータだけを使うかは考えず、全て使うとする。
帰納に使える数値がn点のとき、n個の点で区間を区切ると、次回の1点の確率は次のようになる。
-∞～最小値：{1/(n+1)}/2
最大値～+∞：{1/(n+1)}/2
他のn-1個の区間のそれぞれ：1/(n+1)
+∞と-∞が繋がっていると考えて、全ての区間に均等に分布すると考えればい良い。
区間内では、境界線に近づくほど、確率は高くなる。

■重複値

例1：過去のデータが「1」「2」「2」「3」
「完全品質n点非重複数値の帰納推論」の計算をしてみる。
結果：「-∞～1」=1/8、「1～2」=1/4、「2～2」=1/4、「2～3」＝1/4、「3～+∞」=1/8
「2～2」=1/4という形で、ピンポイントで「2」という重複した値が現れる可能性を表している。

■順序尺度重複値

データの大小関係しか分からない場合でも、「完全品質n点非重複数値の帰納推論」で全く問題なく推測できる。
この方法は、値を小さい順に並べて行うものなので、並べることさえできればよい。

■複素値

例えば、R,G,Bという3つの値を推測する場合、「完全品質n点非重複数値の帰納推論」で全く問題なく推測できる。
それぞれ、別個に考えて計算すればよい。

■離散値

例1：過去のデータが「1」「2」「2」「3」。整数のみに制約する。
「完全品質n点非重複数値の帰納推論」の計算をしてみる。
結果：「-∞～1」=1/8、「1～2」=1/4、「2～2」=1/4、「2～3」＝1/4、「3～+∞」=1/8
ここで、「1～2」=1/4は、一様分布だとまでは主張していない。
しかし、「1～2」は、「1」または「2」しかとれず、対称なため、1/8ずつに分配できる。
結果：「-∞～1」=1/8、「1」=1/8、「2」=1/2、「3」＝1/8、「3～+∞」=1/8
例2：過去のデータが「1」「3」。整数のみに制約する。
結果：「-∞～1」=1/4、「1～3」=1/2、「3～+∞」=1/4
ここでは、「2」が「1」「3」と比べて確率が大きいかどうか分からない。
仮に、あらゆる分布形状を仮定して平均すると、一様分布になる。
実用的には、分布形状の情報がなければ、何らかの仮定をするのは避けられない。
しかし、帰納推論で決まったことと、仮定して決めたことは、区別できなければならない。

■有効範囲

例1：過去のデータが「1」「2」「2」「3」。1～3の整数のみに制約する。
「完全品質n点非重複数値の帰納推論」の計算をしてみる。
結果：「-∞～1」=1/8、「1～2」=1/4、「2～2」=1/4、「2～3」＝1/4、「3～+∞」=1/8
有効範囲内で離散化すると、次のようになる。
結果：「1」=1/4、「2」=1/2、「3」＝1/4
この場合、推測値が標本分布と等しいため、直観的に正しそうである。
例2：過去のデータが「1」。0～1の整数のみに制約する。
制約なしだとすると、次のようになる。
結果：「-∞～1」=1/2、「1～+∞」=1/2
有効範囲内で離散化すると、次のようになる。
結果：「0」=1/4、「1」=3/4
この場合、推測値は標本分布と等しくない。「0」が観測されていないが、0%とは言えないためである。
上の結果は、観測値「1」に、未観測の2点目「unknown」を加えた場合の、2点の分布に等しい。
「unknown」=1/2は、一様分布を仮定して変換すると、「0」=1/4、「1」=1/4に分配したのが、上の結果である。
できるだけ、「unknown」という値は、そののまま保持することが望ましい。

■名義尺度

例：過去のデータが「dog」「cat」「cat」「pig」
「完全品質n点非重複数値の帰納推論」の計算をしてみる。
結果：「-∞～dog」=1/8、「dog～cat」=1/4、「cat～cat」=1/4、「cat～pig」＝1/4、「pig～+∞」=1/8
もし、「dog」「cat」「pig」の3種の値しかとれないなら、「有効範囲」例1と同じ結果になる。
結果：「dog」=1/4、「cat」=1/2、「pig」＝1/4
標本分布と同じになっている。
ここでも、「有効範囲」の例2と同様に、標本分布に「unknown」を追加した状態とも解釈できる。
この場合では「unknown」=標本分散だった結果、標本分布＋「unknown」=標本分布になったといえる。
「unknown」は、「dog」「cat」「pig」ではなく、「dog」「cat」「cat」「pig」の一様分布と解釈されている。
どれとどれが同じ値なのかを考えるをやめて、すべて異なる値と考えている。
例えば、「dog」と「cat」を「pet」に統合しただけで、「pig」の確率が増えるのはおかしいためである。
次に、有効範囲が限定されていない場合を考える。
「dog～cat」=1/4は、犬と猫とその中間を指している。ただし、両端ほど確率は高い。
データは小さい順にではなく、無作為に並べただけなため、「pig～dog」も存在するはずである。
さらには、「dog」「cat」「pig」の3種類を混ぜたものもあるはずである。
連続値の場合は、両端以外は、与えられている数値を混合すれば表現できる値である。
両端「-∞～…、…～+∞」は、与えられていない値も混合しないと表現できない値である。
名義尺度の場合も、同様に考えることができる。
結果：「dog、cat、pigとそれらの混合物」=3/4、「dog、cat、pigとそれ以外値との混合物」=1/4

■ユニーク値

シリアルナンバーのように、同じ値が現れないユニーク値の場合を考える。
過去に一度も現れていない値を「new」と表記する。
例1：過去のデータが「cat」
ユニーク値ではない場合は、「cat」は「new」より確率が大きいと推測する。
これは、最尤法の考え方と合致する。
しかし、ユニーク値の場合は、「cat」=0%、「new」=100%になる。
ユニーク値かどうか情報が与えられていない場合は、自分で推測しなければならない。
例：「dog」「cat」「cat」「pig」
初めて現れた値を「new」に置き換えると、次のようになる。
「new」「new」「cat」「new」
これを標本分布として、5点目として「unknown」を追加する。
「new」「new」「cat」「new」「unknown」
このような方法で、初めての値が現れる確率は予測できる。
ただし、これは最も単純な考え方の一例にすぎません。
データが多いほど、偶然に重複する頻度は増えます。
1点目は必ず重複しないので、「new」を一つ除いて計算するべきです。

■複数のデータにまたがる性質の推測

ユニーク値は、他の値と重複するかどうかであり、複数の値にまたがった性質である。
複数の値にまたがった性質は他にも考えられる。
例えば、複数の値が一定間隔で並んでいれば、それを元に予測できる。
そういった規則性は、無数に仮定できる。
例えば、小さい順に並べて、番号を割り振ることができる。
「推測値=なんらかの関数f(小さい順の番号)」という規則があるかもしれない。
その番号は、説明変数といえる。
ここでは、「完全品質」として説明変数が無い場合を考えている。
後に考える、説明変数ありの場合で、このような推測も扱う。

■データ個別の性質の推測

データ個別の性質として、例えば偶数が出やすいという場合が考えれる。
そういった規則性は無数に考えられる。
例えば、「偶数」を満たす値は、「偶数」="True" という説明変数を持っていると解釈できる。
ここでは、「完全品質」として説明変数が無い場合を考えている。
後に考える、説明変数ありの場合で、このような推測も扱う。

■完全品質の帰納推論

初めに、帰納に使えるデータが全くない状態を考え、[unknown」というデータが一つだけあるとする。
ここに、帰納に使えるデータを一つずつ、逐次追加する。
例：離散値「1」を追加すると、「1」=1個、「unknown」=1個
例：名義尺度「cat」を追加すると、「cat」=1個、「unknown」=1個
例：連続値「1.0」を追加すると、「-∞～1.0」=1個、「1.0～+∞」=1個
連続値の場合は、「unknown」=「-∞～+∞」と解釈し、追加する値の前後で分割して、個数を増やす。
使うデータn個に対して、「unknown」を含めて、n+1のデータがある。
n+1個データは、それぞれ、1/(n+1)ずつの確率分布と推測される。
ただし、各個のデータの中でも、境界に近いほど確率が高い。これは、大小関係しかいえない。
「unknown」は、実用上、最終的に一様分布などを仮定して変換が必要だが、できるだけ「unkonwn」のまま保持するべきである。
注意が必要なのは、この推測法は、複数の値にまたがる性質までは推測しない。
例えば、重複しないユニーク値かどうかや、複数の値が一定間隔で並んでいるかどうかは推測しない。
複数の値にまたがらなくても、「偶数」かどうかということも推測しない。
「偶数」かどうかは、「偶数」という説明変数を考慮すると解釈できる。
ここで「完全品質」といっているのは、目的変数だけが与えられて、説明変数が与えられていないことを指す。
説明変数がないので、全てのデータについて、使っても問題ない完全な品質のデータであるという仮定である。
この推測法を基礎として、説明変数がある場合へ拡張していく必要がある。