複雑な推論

■繰り返し単位の非重複

例えば、静止画の色を推論する場合、無限小の面積が繰り返し単位となる。
「白、黒」が繰り返しており、次も繰り返すと予測する場合、1周期が繰り返し単位である。
動画の場合、「面積×時間」を繰り返し単位にすることができる。
「時間」を無視して、動画内の別の時刻の「面積」の色を比較することもできる。
繰り返し単位は、必要に応じて、自由に決めることができる。
繰り返し単位が満たすべき条件を考える。
そもそも、繰り返し単位は、「ノイズ」を統計的に推論するものといえる。
苺の甘さを帰納推論する場合、品種やサイズや色が、できるだけ近いものを標本として集めればよい。
その標本を調べることで、甘さの「品種やサイズや色」以外の「ノイズ」による成分を予測できる。
ここで、同じ個体の苺は、どの部分を食べても、甘さは全く同じだと仮定する。
そのとき、1つの苺を2つに切って、標本が2個あるとすることは許されない。
なぜなら、同じ個体なら甘さが同じ、すなわち「ノイズ」も同じと仮定しているからである。
苺の個体が同じなら、甘さも同じという仮定が無い場合を考える。
「1つの苺の全体」と「1つの苺の中心部分」は、甘さが同じではないが、標本が2つあるとカウントしてはいけない。
ある標本のノイズがきまれば、他の標本のノイズが部分的にでも決まる場合が、1つの標本としてカウントできない。
移動平均で、重複する区間があるような場合も、1つの標本としてカウントできない。

■繰り返し単位のサイズ

繰り返し単位は、必ず「サイズ」を持っていなければならない。
XY平面上のプロットから、あるXのときのYを予測する場合を考える。
例えば、プロット1つごとに、「無限小」というサイズと定める。
そのとき、予測対象のサイズも「無限小」である。
「サイズ」の比率で、確率分布を推論するため、0であってはいけない。
視神経から映像を、データとして使う場合を考える。
ある瞬間の、あるX座標、あるY座標の色というように扱うべきではない。
前回から今回までの時間の、ある一定面積の色の平均値というように、「サイズ」があるようにする。
1ピクセルのような低水準のものでなく、苺1つのような高水準の場合を考える。
「大きい苺」と「小さい苺」は、どちらも同じ「サイズ(1個)」と解釈することもできる。
画像の面積が重複しないことによって、重複せずに「1個」だと認識している。
画像の面積に差があっても、同じ「1個」と認識している。
画像の面積は、重複していないか確認に使用するだけである。
別の例で、ある静止画を、ある閾値より、明るい部分と暗い部分を分けた場合を考える。 2つの明るい円があったとする。
2つの円が離れていれば、それぞれ標本が1つずつとカウントできる。
何らかの形で、区別さえできればよく、区別に使った画像の面積は関係ない。
高水準な概念でも、区別さえできれば、標本1つと仮定できる。
「胴体と頭と腕2つと脚2つ」といったような条件を、人間の繰り返し単位と仮定できる。

■目的変数の繰り返し単位と、説明変数の繰り返し単位

すべての入力情報が、ある「サイズ」に対して「値」が割り当てられているとする。
例えば、「サイズ」は視覚のXY座標の面積で、値は「色」である。
目的変数に限らず、全ての説明変数も、「サイズ」に割り当てられた「値」である。
例えば、苺の甘さが目的変数で、苺のヘタの色が説明変数だとする。
画像としては、苺の面積の一部分だけが、苺のヘタの面積になっている。
苺は、「甘さ」と「苺のヘタの色」という特徴量を持っているといえる。
しかし厳密には、「苺」と「苺のヘタ」は別々の面積が帯びている性質である。
つまり、目的変数と説明変数は、同一のものが帯びている性質である必要はない。
例えば、n個目に食べる苺の甘さは、ある本に書かれた数値のn個目の値と関係していると仮説を立てられる。
「目的変数の繰り返し単位」と「説明変数の繰り返し単位」の対応関係さえ仮定できればよい。
ただし、単射でなければ十分な推論はできない。

■演繹による情報の変換

脳の視覚野の情報処理を参考に考える。
2点の色の差から、コントラストを表す情報ができる。
コントラストの連続した部分を、線と認識する。
線と線の位置関係や、線で囲まれた部分の色を認識する。
2点の色の差から、コントラストを推論するのは、帰納ではなく演繹である。
帰納推論を行うのが目的でも、前処理として演繹推論が必要になる。
より高度な概念を獲得するには、まずは演繹でその概念を仮定しなければならない。

■複数の予測対象

脳の視覚野では、下層での情報を、上層で説明するように学習する。
例えば、下層では1ピクセル毎の色を学習するとする。
上層で、ある四角形の内部は、ある一色だと学習すると、下層での1ピクセル毎の学習の必要はなくなる。
できるだけ上層で情報を表現して、できなかった分だけ下層で情報を表現する。
情報を圧縮しているともいえる。
情報の圧縮というのは、組み合わせの数を減らして、似たパターンを探し易くする役割もある。
未知の映像を見た場合も、上層で認識できる部分はする。
不規則な映像の部分は、やむおえず下層で、1ピクセル毎の色と認識する。
帰納推論で仮説を立てるときも、1ピクセル毎に推論をする必要はない。
可能なら、一定の範囲をまとめて予測する仮説を立ててよい。
ただし、1ピクセル毎に、できるだけ良い推論結果を採用するべきである。
例としてチョコチップクッキーの色を認識する場合を考える。
まずは、円形全体を「茶色:90%、黒色:10%」といった推論をすることができる。
ただし、チョコチップの位置が特定できれば、そこだけ「黒色:100%」という推論を優先的に採用する。
さらに、それ以外の部分を「茶色:100%」という推論で上書きする。

■パラメータ数

脳は情報を圧縮するような振る舞いをする。
情報が圧縮されるのは、より少ないパラメータで情報を表現すると解釈できる。
しかし、パラメータ数を減らすことができない場合でも、無価値とは限らない。
例えば、XY座標の2点間に直線を引いて、推論する場合を考える。
このとき、「Δx, Δy」と「傾き, 切片」のどちらも有効なパラメータは2つである。
表現が変わっただけである。
しかし、線を引けば、内挿も外挿もできるようになり、予測対象を帰納推論できるようになる。
「点」を繰り返し単位として、連続的に並べて「線」にしたといえる。
予測対象が、繰り替えし単位に当たるように仮説を立てさえすれば、帰納推論に使える。
しかし、パラメータ数は無視していいわけではない。
パラメータ数にによって、偶然に一致してしまう「バイアス」は考慮しなければならない。

■既知の情報の推論

脳で、次の瞬間に何が見えるかと推測する場合は、未知の情報を推論するため「帰納」である。
しかし、今見えているものを認識する場合、既知の情報に着目している。
そのとき、既知の情報だけど、未知の場合と同様の帰納推論を行っていると考えてみる。
例えば、黒い直線が見えたとする。
その直線の延長線上では、黒い確率が高いと帰納推論できる。
黒いと確率が高いと推論して、結果黒かったので、選択エントロピーが小さいといえる。
直線と認識できなかった場合を考える。
全ての微小な面積について、「unknown」としか推論できないかったとする。
その場合、選択エントロピーは大きい。
「認識」することで、既知の情報がランダムな結果ではなく、より必然性のある結果と解釈する。
AIに与えられた目的が未来に受け取る報酬の最大化だとすれば、過去や現在の「認識」は、直接必要ではない。
しかし、未来も対象に含まれるような繰り返し単位なら、未来の推測に使うことができる。
未来の帰納推論に使う仮説を選ぶ参考にするのが、「認識」する価値である。
シングルスレッドでしか計算できないなら、「予測対象」が決まってから、その予測に使える「認識」だけするのが効率的である。
しかし、脳のように平行して計算できるなら、未来で使えるか気にせず、可能な限り「認識」してしまえばよい。
脳は、全体が、ある報酬を最大化する最も効率が良い処理を逐次行っているのではなさそうである。
「既知の情報」と「未知の情報」のどちらも同様に、偶然ではなく、より必然的な説明をしようとしていると解釈できそうである。
未来に受けとる選択エントロピーを最小化、すなわち選択エントロピーを最小化しようとしていると解釈できる。
しかし、エントロピーを計算するには、予測と実測が「一致」したかどうか判断できないといけない。
予測値と実測値が、僅かに差があるとこきに、それは「一致」したとみなしていいかという困難さがある。
「一致」したかどうかではなく、ワッサースタイン距離などで、「一致」の度合いとして代用する必要がある。
また、正しいの推測をするには、確率やエントロピーだけでなく、「バイアス」を考慮しなければいいけない。
予測値と実測値が近いと推測して、平均エントロピーが小さいと計算していていても、推測がデタラメなら、受け取る選択エントロピーは大きい。
「平均エントロピー」と「実際に受け散る選択エントロピーの期待値」が一致するのは、バイアスがなく、正しく推論できている場合である。
脳が行う思考の「バイアス」は0ではないため、単純に脳を真似るだけでは、最適解は保証されない。

■クラスタリングによる繰り返し単位の決め方

「猫」が持つある特徴を予測するには、「猫」という繰り返し単位を標本とすればよい。
「猫」という繰り返し単位を決めるのには、どういった特徴が必要なのか定義しなければならない。
正確に定義するには、一般的に人々が「猫」と呼ぶものの性質を知っている必要がある。
定義が分からない場合でも、似たものを集めてクラスタリングすれば、「猫のようなもの」を区別できる。
クラスタリングするには、「距離」さえ分かれば良い。
しかし、動物のどの特徴が近いほど、種が近いのかは、はっきり分からない。
最適な「距離」は、学習などによって決める必要がある。
「種」を区別したいなら、種が離れているほど、特徴の距離も離れるように学習すればよい。
種が知りたいのではなく、ある特徴を知りたいのなら、その距離を使えばよい。
つまり、目的変数の距離が小さくなるほど、説明変数の距離が小さくなるようにすればよい。
また、クラスタの境界付近と中央付近は、全く同じ扱いにするのはおかしい。
境界では、両側のクラスタに50%ずつ属しているとした方が、ロバスト性がある。
「クラスタ」は「繰り返し単位の集合」に相当し、どの程度の確からしさで属しているかはバイアス「unknown」比率に相当する。

■範囲と性質

人は、写真から「服を着た人間」を切り出した画像を見れば、「人間」だと認識できる。
ただし、「服」は人間ではないため、正確には、「ほぼ人間」だと認識する。
逆に、写真から「純粋な人間」を切り出そうとすると、「服」を含めるべきか悩んでしまう。
ここで、「人間」というのは、画像の一定の「範囲」が帯びている「性質」である。
「範囲」を正確に決めると、「性質」を正確に決めるのが難しくなる。
「性質」を正確に決めると、「範囲」を正確に決めるのが難しくなる。
この「性質」というのは、繰り返し単位を決めるための条件である。
例えば、「人間」について帰納推論したいときは、「人間」という性質を持った「範囲」を標本とする。
標本のサイズは、画像の面積と等しい必要はない。
1人とカウントするための「人間」という性質の条件は、自由に設定して良い。
「人間」の認識が固まるまでは、画像から「人間」の範囲を切り出すことはできない。
そのため、「人間」という繰り返し単位の定義を決めるのは難しい。
そこで、「繰り返し単位」を集めるのではなく、まずは、適当に切り出した「範囲」を集める。
そして、集めた「範囲」が、何らかの繰り返しになっているか評価する。
「範囲」の一つずつは、繰り返しの標本として妥当でない程度を、「unknown」値として持つ。
帰納推論の精度を上げるために、「範囲」を微調節する。
「バイアス」と「バリアンス」と「画像中の説明できる範囲」の3つがトレードオフの関係にある。