縮小ランク回帰(Reduced Rank Regression)

前提知識

・最小二乗法

特異値分解(SVD)

Notation

$\mathbb{R}^{a\times b}$: $a\times b$ の実行列

$\text{span}(A)$: $A$の列ベクトルが張るベクトル空間

$\displaystyle A\cdot B:=\sum\text{diag}(A^T B)=\sum_{i,j}a_{ij}b_{ij}$
$\|A\|:=\sqrt{A\cdot A}$

縮小ランク回帰とは

独立変数が$p$個, 従属変数が$q$個の場合の線形回帰において, 損失関数$L(B):=\| Y-XB\|^2$を最小化する$B\in\mathbb{R}^{p\times q}$を求める. $(X\in\mathbb{R}^{n\times p},\,Y\in\mathbb{R}^{n\times q})$
$B$に制約を設けなければ, $\hat{B}_{\text{OLS}}=(X^TX)^{-1}X^TY$が解となる.
縮小ランク回帰では$\text{rank}\,B\le r$という制約を加える. $A\in\mathbb{R}^{p\times r},\,\Gamma\in\mathbb{R}^{r\times q}$を用いて, $B=A\Gamma$とかける.  $XB=(XA)\Gamma$とかけば, $XA$を独立変数とした線形回帰と考えることができ, 独立変数の数が$r$に減ったことになる. 

縮小ランク回帰の解

$ L= \| Y-X\hat{B}_{\text{OLS}}\|^2+\|X\hat{B}_{\text{OLS}}-XB\|^2$と変形出来る.
$\because \text{RHS}-\text{LHS}=2(XB-X\hat{B}_{\text{OLS}})\cdot(Y-X\hat{B}_{\text{OLS}})$
$X\hat{B}_{\text{OLS}}$の各列ベクトルは, $Y$の各列ベクトルの$\text{span}(X)$への正射影なので, $Y-X\hat{B}_{\text{OLS}}$の任意の列ベクトルは$\text{span}(X)$に直交する.
$XB-X\hat{B}_{\text{OLS}}$の各列ベクトルは$\text{span}(X)$の元なので, $\text{RHS}-\text{LHS}=0$
$\|Y-X\hat{B}_{\text{OLS}}\|^2$は$B$に依らないので, $\|X\hat{B}_{\text{OLS}}-XB\|^2$ を最小化すれば良い.
$\text{span}(XA)$は$\text{span}(X)$の部分空間なので, $A$を固定したとき, $\|X\hat{B}_{\text{OLS}}-XB\|^2$ が最小となるのは, $XB$の各列が$X\hat{B}_{\text{OLS}}$の各列の$\text{span}(XA)$への正射影であるとき.
このとき, $(X\hat{B}_\text{OLS})\cdot(XB)=\|XB\|^2$が成り立ち, $\|X\hat{B}_{\text{OLS}}-XB\|^2 =\|X\hat{B}_{\text{OLS}}\|^2-\|XB\|^2$
$\|X\hat{B}_{\text{OLS}}\|^2$は定数なので, $\|XB\|^2$を最大化すれば良い. これは, $X\hat{B}_{\text{OLS}}$のSVDに帰着できる. すなわち, $X\hat{B}_{\text{OLS}}=USV^T$として, $\text{span}(XA)$が$X\hat{B}_{\text{OLS}}V(=US)$の第$r$列までの列ベクトルが張るベクトル空間と一致する. $V$の$r$列目までを$V_r$とすると, $A=\hat{B}_{\text{OLS}}V_r(=:\hat{A})$とすれば良い. 
線形回帰においては, 従属変数を$Y$としても, $X\hat{B}_{\text{OLS}}$としても回帰係数は変わらないので, 最小二乗法の公式より, $\hat{\Gamma}=((X\hat{A})^TX\hat{A})^{-1}(X\hat{A})^T(X\hat{B}_{\text{OLS}})=V_r^T\,(\because X\hat{B}_{\text{OLS}}=USV^T)$
$\hat{B}_{\text{RRR}}=\hat{A}\hat{\Gamma}=\hat{B}_{\text{OLS}}V_rV_r^T$

縮小ランク回帰の意義

  1. Ridge回帰, Lasso回帰など同様, 正則化の役割を果たし, 過学習を抑える. (単体ではRidge, Lassoに劣る.)
  2. $XA$は元の独立変数$X$ を次元圧縮した潜在的な変数である. 主成分分析は情報量を失わないようにする(分散を最大化)するが, RRRは従属変数を予想する上で重要度が高い変数をとってくる.

まとめ

RRRは最小二乗法でフィットされた$X\hat{B}_{\text{OLS}}$特異値分解することで, 変数, モデルを次元圧縮する手法である.

参考

www.biorxiv.org

stats.stackexchange.com