残差の二乗の和を最小化。
最もよく使われる方法。
計算が容易。
外れ値の影響を大きく受けるのが欠点。
残差の絶対値の和を最小化。
最小二乗法より外れ値の影響が小さいが、フィッティング能力が弱い。
例えば、(x,y)=(0,0),(0,10)の2点の場合を考える。
直観的にy=5の線が最良である。
残差の絶対値の和は、y=0、y=5、y=10のどれも10になるため、y=5に定まらない。
つまり、上下で、点と点の中間に線を引こうとする能力がない。
残差の和を最小化。
線より上側にある点の残差の絶対値の和と、線より下側にある点の残差の絶対値の和を等しくする。
上下で、点と点の中間に線を引こうとする能力がある。
外れ値の影響が小さいというメリットを残したまま、最小絶対値法の欠点が補うことができる。
人間が、プロットを目視して、回帰直線を引こうとすると、この方法になるだろう。
まず、全ての点を線形補間する。
点を線に回帰させるのではなく、線形補間した線を線に回帰させる。
線と線の差の二乗や絶対値を積分して、点の場合と同様に計算すればよい。
絶対値法では、線と線の間にできる面積を最小化することに相当する。
上下均等法は、絶対値法と同じ結果になる。
「点-線回帰」と、「線-線回帰」の使い分けを考える。
株価を予測するために、過去1年間の株価に回帰直線を引く場合を考えよう。
基本的に1日毎のデータであるが、4月だけ1分毎のデータであったとする。
普通に回帰直線を引くと、4月のデータが重視された結果となる。
4月の株価を解釈したいなら、良い結果である。
4月以外の予測をしたいなら、適していない。
標本が無作為抽出されたものと考えると、次に無作為抽出されるのも4月のデータの確率が高いと考えられる。
次に無作為抽出したものを予測する目的なら、適した結果である。
しかし、予測したいデータの月が分かっているなら、その月が重視された回帰直線の方が良い。
予測したい月が分かっているなら、局所回帰を行うのがよい。
特定の月についてではなく、全体を通して偏りのない回帰直線を引きたい場合を考える。
そのときは、点を線形補間すれば、月ごとのデータの頻度に偏りがなくなる。
一般的な局所回帰は、推測したい点に近い点ほど重くして、加重平均する。
しかし、左右どちらかに点が偏っていれば、偏った推測結果になってしまう。
一方、線形補間した線を局所回帰なら、左右の偏りは解消済みである。
ただし、線形補間では外挿できない。
ロバスト回帰は、外れ値を無視することで、外れ値の影響を排除する方法である。
たった一つの桁違いの外れ値で、回帰曲線が大きく狂うのは問題である。
外れ値には意味があり、無視するべきではないかもしれない。
外れ値が多ぎて、正しいと思ってたものと同じくらいあると、どちらが正しいのか分からない。
多数派を正しいみなすとしよう。
データを徐々に増やしていくと、どこかで少数派と多数派が逆転してしまう場合もある。
そこで、外れ値は、無視してしまうののではなく、別グループの有効なデータと考える。
複数の回帰直線があって、各データは、一番近い回帰直線のグループに属する。
例えば、50%ずつの確率でランダムに、「y=x」と「y=2x」のどちらかにプロットされる場合を考える。
それは、一本の回帰曲線では決して表現できない。
グループは2つである必要はない。
グループをどう分けるかは、クラスタリングの問題になる。