Least Square Method

개요

최소자승법(최소제곱법, Least Square Method)은 관측된 데이터가 있을 때, 이 데이터를 가장 잘 설명하는 모델(직선/곡선/다항식/파라미터) 을 찾는 방법.
예측값과 실제값의 차이(오차/잔차 제곱합)가 최소가 되도록 모델 파라미터를 찾는 방법.
RANSAC과 다르게 모든 데이터를 사용하여 에러를 최소화 하므로, 노이즈는 있지만 outlier가 거의 없는 데이터에 용이하다.

Linear Least Square

선형 회귀(Linear Regression)에서 최소자승법은 주어진 데이터 ${(x_{1}, y_{2}), (x_{2}, y_{2}), \dots, (x_{n}, y_{n})}$ 에 가장 잘 맞는 선형 모델을 찾는 것을 목표로 한다.

선형 모델 및 목적 함수 정의

선형 모델

선형 모델(직선)은 아래와 같이 정의할 수 있다.

y_{i}^{'} = a x_{i} + b

$a$ : 직선의 기울기 (Slope)
$b$ : $y$ 절편 (Intercept)
$y_{i}^{'}$ : $x_{i}$ 에 대한 모델의 예측값

오차

실제 데이터 값 $y_{i}$ 와 예측값 $y_{i}^{'}$ 사이의 오차(잔차, Residual)를 다음과 같이 정의한다.

e_{i} = y_{i} - y_{i}^{'}

e_{i} = y_{i} - (a x_{i} + b)

목적 함수

최소자승법은 오차들의 제곱합을 최소화하는 $a$ 와 $b$ 를 찾는 것을 목표로 한다.
오차 제곱의 총 합을 목적함수 $S$ 로 두어 아래와 같이 정의한다.

S (a, b) = i = 1 \sum n e_{i}^{2}

S (a, b) = i = 1 \sum n (y_{i} - a x_{i} - b)^{2}

최소화를 위한 미분 정리

목적 함수 $S (a, b)$ 가 최소가 되기 위해서는 각각의 미지수 $a$ 와 $b$ 에 대해 편미분한 값이 0이 되도록 해야 한다.

\frac{\partial S}{\partial a} = 0, \frac{\partial S}{\partial b} = 0

$a$ 에 대한 편미분

목적함수 $S$ 의 $\sum$ 내부의 항을 $u = y_{i} - a x_{i} - b$ 라고 할 때, 합성함수의 체인 룰(Cahin rule)에 의해 다음과 같이 분리된다.

\frac{\partial ( u ^{2} )}{\partial a} = \frac{\partial ( u ^{2} )}{\partial u} \cdot \frac{\partial u}{\partial a}

\frac{\partial ( u ^{2} )}{\partial u} = 2 u

\frac{\partial u}{\partial a} = - x_{i}

분리된 두 항을 곱하여 최종 $a$ 에 대한 편미분은 다음과 같다.

\frac{\partial ( u ^{2} )}{\partial a} = 2 u \cdot - x_{i} = - 2 x_{i} (y_{i} - a x_{i} - b)

$\sum$ 를 적용하여 정리하면 다음과 같다.

\frac{\partial S}{\partial a} = i = 1 \sum n [- 2 x_{i} (y_{i} - a x_{i} - b)] = 0

양변을 $- 2$ 로 나누고, $x_{i}$ 를 전개한다.

i = 1 \sum n (x_{i} y_{i} - a x_{i}^{2} - b x_{i}) = 0

i = 1 \sum n x_{i} y_{i} - a i = 1 \sum n x_{i}^{2} - b i = 1 \sum n x_{i} = 0

$b$ 에 대한 편미분

$a$ 에 대한 편미분과 마찬가지로 $b$ 에 대한 편미분은 다음과 같이 계산할 수 있다.

\frac{\partial ( u ^{2} )}{\partial b} = \frac{\partial ( u ^{2} )}{\partial u} \cdot \frac{\partial u}{\partial b}

\frac{\partial ( u ^{2} )}{\partial b} = 2 u \cdot - 1 = - 2 (y_{i} - a x_{i} - b)

$\sum$ 를 적용하여 정리하면 다음과 같다.

\frac{\partial S}{\partial b} = i = 1 \sum n [- 2 (y_{i} - a x_{i} - b)] = 0

양변을 $- 2$ 로 나누고, $\sum$ 를 각 항으로 분배한다.

i = 1 \sum n (y_{i} - a x_{i} - b) = 0

i = 1 \sum n y_{i} - a i = 1 \sum n x_{i} - i = 1 \sum n b = 0

i = 1 \sum n y_{i} - a i = 1 \sum n x_{i} - nb = 0

$nb$ 를 우변으로 이항하고, 양변을 데이터 개수 $n$ 으로 나눈다.

nb = i = 1 \sum n y_{i} - a i = 1 \sum n x_{i}

b = \frac{1}{n} i = 1 \sum n y_{i} - a (\frac{1}{n} i = 1 \sum n x_{i})

여기서, 첫번 째 항과 두번 째 항은 각각 $y$ 와 $x$ 에 대한 평균 $\overset{y}{ˉ}, \overset{x}{ˉ}$ 이므로 최종 식은 아래와 같다.

b = \overset{y}{ˉ} - a \overset{x}{ˉ}

연립방정식 정리

$a$ 에 대한 편미분 식에 $b$ 에 대한 편미분 식을 대입하면 아래와 같다.

i = 1 \sum n x_{i} y_{i} - a i = 1 \sum n x_{i}^{2} - b i = 1 \sum n x_{i} = 0

i = 1 \sum n x_{i} y_{i} - a i = 1 \sum n x_{i}^{2} - (\overset{y}{ˉ} - a \overset{x}{ˉ}) n \overset{x}{ˉ} = 0

i = 1 \sum n x_{i} y_{i} - a i = 1 \sum n x_{i}^{2} - n \overset{x}{ˉ} \overset{y}{ˉ} - an \overset{x}{ˉ}^{2} = 0

i = 1 \sum n x_{i} y_{i} - n \overset{x}{ˉ} \overset{y}{ˉ} = a i = 1 \sum n x_{i}^{2} - an \overset{x}{ˉ}^{2}

i = 1 \sum n x_{i} y_{i} - n \overset{x}{ˉ} \overset{y}{ˉ} = a (i = 1 \sum n x_{i}^{2} - n \overset{x}{ˉ}^{2})

이것을 $a$ 에 대해 정리하면 다음과 같다.

a = \frac{\sum _{i = 1}^{n} x _{i} y _{i} - n x ˉ y ˉ}{\sum _{i = 1}^{n} x _{i}^{2} - n x ˉ ^{2}}

공분산과 분산을 이용한 표현

연립방정식을 통해 정리한 $a$ 에 대한 식에서 수학적 성질에 의해 분모를 분산(Variance), 분자를 공분산(Covariance)로 나타낼 수 있다.
$x$ 의 분산(편차 제곱의 합)은 다음과 같이 표현할 수 있다.

Var (x) = i = 1 \sum n (x_{i} - \overset{x}{ˉ})^{2} = i = 1 \sum n x_{i}^{2} - n \overset{x}{ˉ}^{2}

$x, y$ 의 공분산(두 변수 간의 관계)은 다음과 같이 표현할 수 있다.

Cov (x, y) = i = 1 \sum n (x_{i} - \overset{x}{ˉ}) (y_{i} - \overset{y}{ˉ}) = i = 1 \sum n x_{i} y_{i} - n \overset{x}{ˉ} \overset{y}{ˉ}

따라서, 최종 $a$ 와 $b$ 는 다음과 같이 나타낼 수 있다.

a = \frac{Cov ( x , y )}{Var ( x )}

b = \overset{y}{ˉ} - a \overset{x}{ˉ}

정규 방정식을 이용한 정리

정규 방정식(Normal Equation)은 최소자승법의 해를 직접 계산하기 위한 대수적 방법이다.

행렬 표현

데이터 집합을 행렬로 표현하여 다음과 같이 나타낼 수 있다.

X = x_{1} x_{2} ⋮ x_{n} 11 ⋮ 1, θ = [a b], y = y_{1} y_{2} ⋮ y_{n}

이것을 선형대수학의 행렬 곱셉 $y = Xθ$ 로 나타내면 다음과 같다.

y = Xθ

y_{1} y_{2} ⋮ y_{n} = x_{1} x_{2} ⋮ x_{n} 11 ⋮ 1 [a b]

$Xθ = y$ 를 정확히 만족하는 해는 존재하지 않으므로, $Xθ \approx y$ 가 되도록하는 최적해를 찾아야 한다.

최소자승 문제 정의

오차 벡터를 다음과 같이 정의한다.

e = y - Xθ

최소자승법은 $∣∣ e ∣ ∣^{2}$ 를 최소화 하므로 비용함수 $J (θ)$ 를 다음과 같이 나타낼 수 있다.

J (θ) = ∣∣ y - Xθ ∣ ∣^{2}

J (θ) = (y - Xθ)^{T} (y - Xθ)

비용함수를 전개하면 다음과 같다.

J = y^{T} y - 2 θ^{T} X^{T} y + θ^{T} X^{T} Xθ

최소점 조건

최소점에서는 기울기가 0이므로 $θ$ 에 대한 편미분을 아래와 같이 할 수 있다.

\frac{\partial J}{\partial θ} = 0

- 2 X^{T} y + 2 X^{T} Xθ = 0

정리하면 아래의 정규방정식 형태가 나온다.

X^{T} Xθ = X^{T} y

최종 해 구하기

만약 $X^{T} X$ 의 역행렬이 존재한다면(Full Rank인 경우) 양변에 $(X^{T} X)^{- 1}$ 를 곱하여 최소자승의 해를 구할 수 있다.
정규방정식을 이용하면 입력 데이터의 차원이 늘어나도 대수적 표현에 의해 간결하게 해를 구할 수 있다.

θ = (X^{T} X)^{- 1} X^{T} y

기하학적 의미

정규방정식은 직교 투영(Otrhogonal Projection)의 관점으로 해석할 수 있다.
열공간(Column Space) - Column Space는 모든 열 벡터의 선형결합으로 만들 수 있는 벡터들의 집합.
$Xθ$ 에서 $X$ 는 열벡터들의 집합이고 $θ$ 는 $X$ 에 곱해지는 계수이므로, $Xθ$ 는 $X$ 의 열벡터들의 선형결합이므로 항상 $X$ 의 열공간 안에 존재한다.
하지만 $y = Xθ$ 가 모든 데이터에 만족하는 해를 가진다면 $y$ 역시 $X$ 의 열공간 안에 존재해야 겠지만 일반적으로 $y$ 는 $X$ 의 열공간과 잔차(Residual)만큼 떨어져 있을 것이다.
따라서 잔차만큼 떨어진 $y$ 와 가장 가까운 점 $Xθ$ 를 $X$ 의 열공간 안에서 찾는다. 이때, 잔차 $r = y - Xθ$ 는 $X$ 의 열공간과 직교한다.
즉, $y$ 를 $X$ 열공간에 직교 투영 했을 때 만나는 $X$ 열공간 내부의 점이 잔차를 최소화하는 $Xθ$ 가 되고, 이때의 $θ$ 가 해가 된다.

기하학적 의미 - 예시

예를 들어 $X$ 가 다음과 같으면 $X$ 의 열공간은 2차원(평면)을 나타낼 수 있다.

X = 101011, θ = [θ_{1} θ_{2}]

즉 $Xθ$ 로 2차원 평면 위의 모든 점을 표현할 수 있다.
$y$ 가 다음과 같이 구성되어 평면 밖에 있다고 할 때,

y = 215

잔차 $r$ 벡터는 다음과 같이 정의되며, $X$ 의 열공간과 직교한다.

r = y - Xθ

벡터 내적의 성질에 의해 서로 직교하는 벡터의 내적 값은 0이 나온다.

X^{T} r = 0

이 식을 정리하면 정규 방정식과 같게 된다.

X^{T} (y - Xθ) = 0

X^{T} Xθ = X^{T} y

💻️ MMMSK

탐색기

최근 게시글

(Models) LingBot-Map 테스트

(AD) Obstacle Avoidance - TEB

(AD) Obstacle Avoidance - DWA

Algebraic Riccati Equation

Least Square Method

Least Square Method

개요

Linear Least Square

선형 모델 및 목적 함수 정의

선형 모델

오차

목적 함수

최소화를 위한 미분 정리

$a$ 에 대한 편미분

$b$ 에 대한 편미분

연립방정식 정리

공분산과 분산을 이용한 표현

정규 방정식을 이용한 정리

행렬 표현

최소자승 문제 정의

최소점 조건

최종 해 구하기

기하학적 의미

기하학적 의미 - 예시

그래프 뷰

목차

백링크

최근 게시글

(Models) LingBot-Map 테스트

(AD) Obstacle Avoidance - TEB

(AD) Obstacle Avoidance - DWA

탐색기

최근 게시글

Least Square Method

Least Square Method

개요

Linear Least Square

선형 모델 및 목적 함수 정의

선형 모델

오차

목적 함수

최소화를 위한 미분 정리

a에 대한 편미분

b에 대한 편미분

연립방정식 정리

공분산과 분산을 이용한 표현

정규 방정식을 이용한 정리

행렬 표현

최소자승 문제 정의

최소점 조건

최종 해 구하기

기하학적 의미

기하학적 의미 - 예시

그래프 뷰

목차

백링크

최근 게시글

$a$ 에 대한 편미분

$b$ 에 대한 편미분