回帰

■最小二乗法

残差の二乗の和を最小化。
最もよく使われる方法。
計算が容易。
外れ値の影響を大きく受けるのが欠点。

■最小絶対値法

残差の絶対値の和を最小化。
最小二乗法より外れ値の影響が小さいが、フィッティング能力が弱い。
例えば、(x,y)=(0,0),(0,10)の2点の場合を考える。
直観的にy=5の線が最良である。
残差の絶対値の和は、y=0、y=5、y=10のどれも10になるため、y=5に定まらない。
つまり、上下で、点と点の中間に線を引こうとする能力がない。

■上下均等法

残差の和を最小化。
線より上側にある点の残差の絶対値の和と、線より下側にある点の残差の絶対値の和を等しくする。
上下で、点と点の中間に線を引こうとする能力がある。
外れ値の影響が小さいというメリットを残したまま、最小絶対値法の欠点が補うことができる。
人間が、プロットを目視して、回帰直線を引こうとすると、この方法になるだろう。

■線形補間した線の回帰

まず、全ての点を線形補間する。
点を線に回帰させるのではなく、線形補間した線を線に回帰させる。
線と線の差の二乗や絶対値を積分して、点の場合と同様に計算すればよい。
絶対値法では、線と線の間にできる面積を最小化することに相当する。
上下均等法は、絶対値法と同じ結果になる。

■「点-線回帰」と「線-線回帰」の使い分け

「点-線回帰」と、「線-線回帰」の使い分けを考える。
株価を予測するために、過去1年間の株価に回帰直線を引く場合を考えよう。
基本的に1日毎のデータであるが、4月だけ1分毎のデータであったとする。
普通に回帰直線を引くと、4月のデータが重視された結果となる。
4月の株価を解釈したいなら、良い結果である。
4月以外の予測をしたいなら、適していない。
標本が無作為抽出されたものと考えると、次に無作為抽出されるのも4月のデータの確率が高いと考えられる。
次に無作為抽出したものを予測する目的なら、適した結果である。
しかし、予測したいデータの月が分かっているなら、その月が重視された回帰直線の方が良い。
予測したい月が分かっているなら、局所回帰を行うのがよい。
特定の月についてではなく、全体を通して偏りのない回帰直線を引きたい場合を考える。
そのときは、点を線形補間すれば、月ごとのデータの頻度に偏りがなくなる。

■「点-線回帰」と「線-線回帰」の解釈

「点-線回帰」は、標本を説明するのが目的である。
「線-線回帰」は、母集団を説明するのが目的である。
無作為抽出というのは、母集団から均等に抽出されるとは限らない。
偶然に偏った抽出される可能性がある。
例えば、1年間の株価データから365個の標本を無作為抽出した場合、全ての日が重複せずに抽出される可能性は低い。
無作為抽出した結果は、必ず偏っているので、偏りは排除するべきである。
情報量について考えてみる。
サイコロを振った結果を見ると情報は増える。
そのとき、どの面が上になったという情報と、その面には何が書かれていたかという情報がある。
母集団から無作為抽出した場合も同様である。
どの日が無作為抽出されたかという情報と、その日の株価がいくらだったかという情報が得られる。
後者の情報は母集団に含まれているが、前者の情報は母集団に含まれていない。
母集団の推測をする場合、前者の情報は捨てるべきである。
したがって、点を線形補間するべきである。

■線形補間した線の局所回帰

一般的な局所回帰は、推測したい点に近い点ほど重くして、加重平均する。
しかし、左右どちらかに点が偏っていれば、偏った推測結果になってしまう。
一方、線形補間した線を局所回帰なら、左右の偏りは解消済みである。
ただし、線形補間では外挿できない。

■ロバスト回帰

ロバスト回帰は、外れ値を無視することで、外れ値の影響を排除する方法である。
たった一つの桁違いの外れ値で、回帰曲線が大きく狂うのは問題である。

■マルチグループロバスト回帰

外れ値には意味があり、無視するべきではないかもしれない。
外れ値が多ぎて、正しいと思ってたものと同じくらいあると、どちらが正しいのか分からない。
多数派を正しいみなすとしよう。
データを徐々に増やしていくと、どこかで少数派と多数派が逆転してしまう場合もある。
そこで、外れ値は、無視してしまうののではなく、別グループの有効なデータと考える。
複数の回帰直線があって、各データは、一番近い回帰直線のグループに属する。
例えば、50%ずつの確率でランダムに、「y=x」と「y=2x」のどちらかにプロットされる場合を考える。
それは、一本の回帰曲線では決して表現できない。
グループは2つである必要はない。
グループをどう分けるかは、クラスタリングの問題になる。