2.2.2. Hồi qui Ridge¶

2.2.2.1. Tính tổng quát của mô hình¶

Một mục tiêu tiên quyết để có thể áp dụng được mô hình vào thực tiến đó là chúng ta cần giảm thiểu hiện tượng quá khớp. Để thực hiện được mục tiêu đó, mô hình được huấn luyện được kì vọng sẽ nắm bắt được qui luật tổng quát từ tập huấn luyện (train dataset) mà qui luật đó phải đúng trên những dữ liệu mới mà nó chưa được học. Thông thường tập dữ liệu mới đó được gọi là tập kiểm tra (test dataset). Đây là một tập dữ liệu độc lập được sử dụng để đánh giá mô hình.

2.2.2.2. Bài toán hồi qui tuyến tính¶

Giả định dữ liệu đầu vào bao gồm \(N\) quan sát là những cặp các biến đầu vào và biến mục tiêu \((\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), \dots, (\mathbf{x}_N, y_N)\). Quá trình hồi qui mô hình sẽ tìm kiếm một véc tơ hệ số ước lượng \(\mathbf{w} = [w_0, w_1, \dots, w_p]\) sao cho tối thiểu hoá hàm mất mát dạng MSE:

\[\mathcal{L}(\mathbf{w}) = \frac{1}{N} \sum_{i=1}^{N} (y_i - \mathbf{w}^{\intercal}\mathbf{x}_i) = \frac{1}{N}||\bar{\mathbf{X}}\mathbf{w} - \mathbf{y}||_{2}^{2}\]

Nhắc lại một chút về khái niệm hàm mất mát. Trong các mô hình học có giám sát của machine learning, từ dữ liệu đầu vào, thông qua phương pháp học tập (learning algorithm), chúng ta sẽ đặt ra một hàm giả thuyết \(h\) (hypothesis function) mô tả mối quan hệ dữ liệu giữa biến đầu vào và biến mục tiêu.

Hình 1: Source: Andrew Ng - Linear Regression With One Variable. Từ một quan sát đầu vào \(\mathbf{x}_i\), sau khi đưa vào hàm gỉa thuyết \(h\) chúng ta thu được giá trị dự báo \(\hat{y}\) ở đầu ra. Chữ \(h\) của tên hàm thể hiện cho từ hypothesis có nghĩa là giả thuyết, đây là một khái niệm đã tồn tại lâu năm trong thống kê. Để mô hình càng chuẩn xác thì sai số giữa giá trị dự báo \(\hat{y}\) và ground truth \(y\) càng phải nhỏ. Vậy làm thế nào để đo lường được mức độ nhỏ của sai số giữa \(\hat{y}\) và \(y\)? Các thuật toán học có giám sát trong machine learning sẽ sử dụng hàm mất mát để lượng hoá sai số này.

Hàm mất mát cũng chính là mục tiêu tối ưu khi huấn luyện mô hình. Dữ liệu đầu vào \(\mathbf{X}\) và \(y\) được xem như là cố định và biến số của bài toán tối ưu chính là các giá trị trong véc tơ \(\mathbf{w}\).

Giá trị hàm mất mát MSE chính là trung bình của tổng bình phương phần dư. Phần dư chính là chênh lệch giữa giá trị thực tế và giá trị dự báo. Tối thiểu hoá hàm mất mát nhằm mục đích làm cho giá trị dự báo ít chênh lệch so với giá trị thực tế, giá trị thực tế còn được gọi là ground truth. Trước khi huấn luyện mô hình chúng ta chưa thực sự biết véc tơ hệ số \(\mathbf{w}\) là gì. Chúng ta chỉ có thể đặt ra một giả thuyết về dạng hàm dự báo (trong trường hợp này là phương trình dạng tuyến tính) và các hệ số hồi qui tương ứng. Chính vì vậy mục đích của tối thiểu hoá hàm mất mát là để tìm ra tham số \(\mathbf{w}\) phù hợp nhất mô tả một cách khái quát quan hệ dữ liệu giữa biến đầu vào \(\mathbf{X}\) với biến mục tiêu \(\mathbf{y}\) trên tập huấn luyện.

Tuy nhiên mối quan hệ này nhiều khi không mô tả được qui luật khái quát của dữ liệu nên dẫn tới hiện tượng quá khớp. Một trong những nguyên nhân dẫn tới sự không khái quát của mô hình đó là do mô hình quá phức tạp. Mức độ phức tạp càng cao khi độ lớn của các hệ số trong mô hình hồi qui ở những bậc cao có xu hướng lớn như phân tích trong hình bên dưới:

Hình 2: Hình thể hiện mức độ phức tạp của mô hình theo sự thay đổi của bậc. Phương trình có độ phức tạp lớn nhất là phương trình bậc 3: \(y = w_0 + w_1 x + w_2 x^2 + w_3 x^3\). Trong chương trình THPT chúng ta biết rằng phương trình bậc 3 thông thường sẽ có 2 điểm uốn và độ phức tạp lớn hơn bậc hai chỉ có 1 điểm uốn. Khi \(w_3 \rightarrow 0\) thì phương trình bậc 3 hội tụ về phương trình bậc 2: \(y = w_0 + w_1 x + w_2 x^2\), lúc này phương trình là một đường cong dạng parbol và có độ phức tạp giảm. Tiếp tục kiểm soát độ lớn để \(w_2 \rightarrow 0\) trong phương trình bậc 2 ta sẽ thu được một đường thẳng tuyến tính dạng \(y = w_0 + w_1 x\) có độ phức tạp thấp nhất.

Như vậy kiểm soát độ lớn của hệ số ước lượng, đặc biệt là với bậc cao, sẽ giúp giảm bớt mức độ phức tạp của mô hình và thông qua đó khắc phục hiện tượng quá khớp. Vậy làm cách nào để kiểm soát chúng, cùng tìm hiểu chương bên dưới.

2.2.2.3. Sự thay đổi của hàm mất mát trong hồi qui Ridge¶

Hàm mất mát trong hồi qui Ridge sẽ có sự thay đổi so với hồi qui tuyến tính đó là thành phần điều chuẩn (regularization term) được cộng thêm vào hàm mất mát như sau:

\[\begin{split}\begin{eqnarray} \mathcal{L}(\mathbf{w}) & = & \frac{1}{N}||\bar{\mathbf{X}}\mathbf{w} - \mathbf{y}||_{2}^{2} + \alpha ||\mathbf{w}||_2^2 \\ & = & \frac{1}{N}||\bar{\mathbf{X}}\mathbf{w} - \mathbf{y}||_{2}^{2} + \underbrace{\alpha R(\mathbf{w})}_{\text{regularization term}} \end{eqnarray}\end{split}\]

Trong phương trình trên thì \(\alpha \geq 0\). \(\frac{1}{N}||\bar{\mathbf{X}}\mathbf{w} - \mathbf{y}||_{2}^{2}\) chính là tổng bình phương phần dư và \(\alpha ||\mathbf{w}||_2^2\) đại diện cho thành phần điều chuẩn.

Bài toán tối ưu hàm mất mát của hồi qui Ridge về bản chất là tối ưu song song hai thành phần bao gồm tổng bình phương phần dư và thành phần điều chuẩn. Hệ số \(\alpha\) có tác dụng điều chỉnh độ lớn của thành phần điều chuẩn tác động lên hàm mất mát.

Trường hợp \(\alpha = 0\), thành phần điều chuẩn bị tiêu giảm và chúng ta quay trở về bài toán hồi qui tuyến tính.
Trường hợp \(\alpha\) nhỏ thì vai trò của thành phần điều chuẩn trở nên ít quan trọng. Mức độ kiểm soát quá khớp của mô hình sẽ trở nên kém hơn.
Trường hợp \(\alpha\) lớn chúng ta muốn gia tăng mức độ kiểm soát lên độ lớn của các hệ số ước lượng và qua đó giảm bớt hiện tượng qúa khớp.

Khi tăng dần hệ số \(\alpha\) thì hồi qui Ridge sẽ có xu hướng thu hẹp hệ số ước lượng từ mô hình. Chúng ta sẽ thấy rõ thông qua ví dụ mẫu bên dưới.

Import thư viện và đọc dữ liệu đầu vào

Bộ dữ liệu đầu vào được sử dụng cho ví dụ này là diabetes. Thông tin về bộ dữ liệu này bạn đọc có thể tham khảo tại sklearn diabetes dataset.

Mục tiêu của mô hình là từ 10 biến đầu vào là những thông tin liên quan tới người bệnh bao gồm age, sex, body mass index, average blood pressure và 6 chỉ số blood serum. Chúng ta sẽ dự báo biến mục tiêu là một thước đo định lượng sự tiến triển của bệnh sau 1 năm điều trị.

import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import Ridge

from sklearn.datasets import load_diabetes
X,y = load_diabetes(return_X_y=True)
features = load_diabetes()['feature_names']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

import numpy as np
import matplotlib.pyplot as plt

# Thay đổi alphas từ 1 --> 100
n_alphas = 200
alphas = 1/np.logspace(1, -2, n_alphas)
coefs = []

# Huấn luyện model khi alpha thay đổi.
for a in alphas:
    ridge = Ridge(alpha=a, fit_intercept=False)
    ridge.fit(X_train, y_train)
    coefs.append(ridge.coef_)

# Hiển thị kết quả mô hình cho các hệ số alpha
plt.figure(figsize= (12, 8))
ax = plt.gca()
ax.plot(alphas, coefs)
ax.set_xscale('log')
ax.set_xlim(ax.get_xlim())
plt.xlabel('alpha', fontsize=16)
plt.ylabel('coefficient of features', fontsize=16)
plt.legend(features)
plt.title('Ridge coefficients khi thay đổi hệ số alpha', fontsize=16)
plt.axis('tight')
plt.show()

Hình 3: Sự thay đổi của độ lớn các hệ số ước lượng (coefficient of features) theo hệ số điều chuẩn \(\alpha\). Khi tăng dần độ lớn của \(\alpha\) thì độ lớn của hệ số ước lượng giảm dần.

Việc lựa chọn \(\alpha\) như thế nào để phù hợp là một vấn đề sẽ được bàn luận kĩ hơn ở chương bên dưới.

Ngoài ra bài toán tối ưu đối với hàm hồi qui Ridge tương đương với bài toán tối ưu với điều kiện ràng buộc về độ lớn của hàm mục tiêu:

\[\begin{split}\begin{eqnarray} \mathcal{L}(\mathbf{w}) & = & \frac{1}{N}\|\bar{\mathbf{X}}\mathbf{w} - \mathbf{y}\|_{2}^{2} \\ \text{subject } & : & \|\mathbf{w}\|_2^2 < C, C > 0 \end{eqnarray}\end{split}\]

Thật vậy, để giải bài toán trên thì chúng ta có thể giải bài toán đối ngẫu trên hàm đối ngẫu Lagrange:

\[\begin{split}\begin{eqnarray} \hat{\mathbf{w}} & = & \arg \min_{\mathbf{w}} \text{Lagrange}(\mathbf{w}, b) \\ & = & \arg \min \frac{1}{N}\|\bar{\mathbf{X}}\mathbf{w} - \mathbf{y}\|_{2}^{2} + \alpha (\|\mathbf{w}\|_2^2 - C) \\ & = & \arg \min \frac{1}{N}\|\bar{\mathbf{X}}\mathbf{w} - \mathbf{y}\|_{2}^{2} + \alpha \|\mathbf{w}\|_2^2 \end{eqnarray}\end{split}\]

Trong đó \(\alpha > 0\).

Như vậy bài toán đối ngẫu quay trở về tối thiểu hoá hàm mất mát trong hồi qui Ridge.

Điều kiện ràng buộc \(\| \mathbf{w} \|_2^2 < C\) cho thấy nghiệm tối ưu sẽ bị hạn chế về độ lớn. Trong không gian đa chiều thì điều kiện ràng buộc có miền xác định là một khối cầu có tâm là gốc toạ độ và bán kính \(\sqrt{C}\). Đây chính là một cơ chế kiểm soát mà thành phần điều chuẩn đã áp đặt lên các biến đầu vào.

2.2.2.4. Nghiệm tối ưu của hồi qui Ridge¶

Giải bài toán tối ưu hàm mục tiêu của hồi qui Ridge theo đạo hàm bậc nhất của véc tơ \(\mathbf{w}\):

\[\begin{split}\begin{eqnarray} \frac{\partial\mathcal{L}(\mathbf{w})}{\partial\mathbf{w}} & = & \frac{1}{N}\frac{\partial\|\bar{\mathbf{X}}\mathbf{w} - \mathbf{y}\|_{2}^{2}}{\partial\mathbf{w}} + \alpha \frac{\partial \|\mathbf{w}\|^2_2}{\partial \mathbf{w}} \\ & = & \frac{2}{N}\mathbf{\bar{X}}^{\intercal}(\mathbf{\bar{X}}\mathbf{w} - \mathbf{y}) + 2 \alpha \mathbf{w} \\ & = & \frac{2}{N} [(\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}} + N\alpha \mathbf{I}) \mathbf{w} - \bar{\mathbf{X}}^{\intercal}\mathbf{y}] \\ & = & 0 \end{eqnarray}\end{split}\]

Thật vậy, từ dòng 1 suy ra dòng 2 là vì theo công thức product-rule trong matrix caculus thì:

\[\nabla_{\mathbf{w}}f({\mathbf{w}})^{\intercal}g(\mathbf{w}) = \nabla_{\mathbf{w}}(f) g + \nabla_{\mathbf{w}}(g) f\]

Khi \(f=g\) thì đạo hàm trở thành:

\[\nabla_{\mathbf{w}}f({\mathbf{w}})^{\intercal}f(\mathbf{w}) = \nabla_{\mathbf{w}} \|f({\mathbf{w}})\|_2^{2} = 2\nabla_{\mathbf{w}}(f) f\]

Nếu thay \(f(\mathbf{w}) = g(\mathbf{w})= \bar{\mathbf{X}} \mathbf{w}-\mathbf{y}\) ta suy ra:

\[\begin{split}\begin{eqnarray}\frac{\partial\|\bar{\mathbf{X}}\mathbf{w} - \mathbf{y}\|_{2}^{2}}{\partial \mathbf{w}} & = & \frac{\partial(\bar{\mathbf{X}}\mathbf{w} - \mathbf{y})^{\intercal} (\bar{\mathbf{X}}\mathbf{w} - \mathbf{y})}{\partial \mathbf{w}} \\ & = & \frac{2 \partial(\bar{\mathbf{X}}\mathbf{w} - \mathbf{y})}{\partial \mathbf{w}} (\bar{\mathbf{X}}\mathbf{w} - \mathbf{y}) \\ & = & 2\bar{\mathbf{X}}^{\intercal}(\bar{\mathbf{X}}\mathbf{w}-\mathbf{y}) \end{eqnarray}\end{split}\]

Tương tự ta cũng có:

\[ \frac{\partial \|\mathbf{w}\|_2^2}{\partial \mathbf{w}} = 2\mathbf{w}\]

Như vậy ta nhận thấy dòng 1 suy ra dòng 2 là hoàn toàn đúng.

Ở dòng thứ 3 chúng ta áp dụng thêm một tính chất \(\mathbf{I}\mathbf{w} = \mathbf{w}\) trong đó \(\mathbf{I}\) là ma trận đơn vị.

Sau cùng nghiệm của đạo hàm bậc nhất trở thành:

\[\begin{split}\begin{eqnarray}\frac{2}{N} [(\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}} + N\alpha \mathbf{I}) \mathbf{w} - \bar{\mathbf{X}}^{\intercal}\mathbf{y}] & = & 0 \\ (\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}} + N\alpha \mathbf{I}) \mathbf{w} & = & \bar{\mathbf{X}}^{\intercal}\mathbf{y} \\ \mathbf{w} & = & (\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}} + N\alpha \mathbf{I})^{-1}\bar{\mathbf{X}}^{\intercal}\mathbf{y} \end{eqnarray}\end{split}\]

Thành phần \(N\alpha \mathbf{I}\) được thêm vào trong \((\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}} + N\alpha \mathbf{I})^{-1}\) đóng vai trò như một thành phần kiểm soát để giá trị của \(\mathbf{w}\) nhỏ hơn so với ban đầu. Trên thực tế thành phần này chỉ tác động lên những phần tử thuộc đường chéo chính của ma trận và làm cho độ lớn của nghiệm giảm.

Ngoài ra ta còn chứng minh được rằng ma trận \(\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}} + N\alpha \mathbf{I}\) là một ma trận không suy biến nếu \(\alpha > 0\). Điều đó đảm bảo rằng mô hình hồi qui Ridge luôn tìm được nghiệm. Bạn đọc quan tâm tới toán có thể thấy chứng minh này ở mục bên dưới.

2.2.2.5. Sự đảm bảo lời giải của hồi qui Ridge¶

Trước tiên hãy cùng ôn lại một số khái niệm liên quan tới ma trận.

Định nghĩa bán xác định dương: Ma trận số thực đối xứng \(\mathbf{A}\) là bán xác định dương (positive semi-definite) nếu với mọi véc tơ \(\mathbf{x} \in \mathbb{R}^{d}\) thì \(\mathbf{x}^{\intercal}\mathbf{A}\mathbf{x} \geq 0\).

Một tính chất thú vị đó là nếu một ma trận bán xác định dương thì mọi trị riêng của chúng là những số không âm. Thật vậy, theo định nghĩa thì \(\lambda\) là trị riêng (eigen-value) của ma trận \(\mathbf{A}\) tương ứng với một véc tơ riêng (eigen-vector) \(\mathbf{x}\) nếu thỏa mãn:

\[\mathbf{A}\mathbf{x} = \lambda \mathbf{x}\]

\[\rightarrow \mathbf{x}^{\intercal} \mathbf{A} \mathbf{x} = \lambda \mathbf{x}^{\intercal}\mathbf{x} = \lambda ||\mathbf{x}||_2^2\]

Mặc khác vế trái không âm do \(\mathbf{A}\) là ma trận bán xác định dương. Do đó vế phải \(\lambda ||\mathbf{x}||_2^2 \geq 0\), từ đó suy ra \(\lambda \geq 0\) do \(||\mathbf{x}||_2^2 \geq 0\).

Để chứng minh hồi qui Ridge luôn tồn tại nghiệm chúng ta dựa vào ba tính chất lý.

1.- Ma trận \(\mathbf{A} = \bar{\mathbf{X}}^{\intercal}\bar{\mathbf{X}}\) là một ma trận thực đối xứng bán xác định dương (positive semi-definite). Thật vậy:

\[\mathbf{x}^\intercal\mathbf{A}\mathbf{x} = \mathbf{x}^\intercal\bar{\mathbf{X}}^{\intercal}\bar{\mathbf{X}}\mathbf{x} = ||\mathbf{A}\mathbf{x}||_2^2 \geq 0, \forall \mathbf{x} \in \mathbb{R}^d\]

Từ đó suy ra \(\mathbf{A}\) là ma trận bán xác định dương. Như vậy các trị riêng (eigenvalues) của nó là \(\mu_1, \dots, \mu_N\) không âm.

2.- Nếu \(\mu\) là trị riêng của ma trận \(\mathbf{A}\) vuông thì \(\mu+\beta\) là trị riêng của ma trận \(\mathbf{A}+\beta\mathbf{I}\).

Để chứng minh ta dựa vào khai triển:

\[\begin{split}\begin{eqnarray} \mathbf{A}\mathbf{x} & = & \mu \mathbf{x} \\ \leftrightarrow (\mathbf{A} + \beta\mathbf{I}) \mathbf{x}& = & \mu \mathbf{x}+\beta \underbrace{\mathbf{I}\mathbf{x}}_{\mathbf{x}} \\ \leftrightarrow (\mathbf{A} + \beta\mathbf{I}) \mathbf{x}& = & (\mu+\beta)\mathbf{x} \end{eqnarray}\end{split}\]

Dòng cuối cùng suy ra \(\mu+\beta\) chính là trị riêng của ma trận \(\mathbf{A} + \beta \mathbf{I}\).

3.- Định thức của ma trận \(\mathbf{A}\) bằng tích các trị riêng của \(\mathbf{A}\).

Giả sử \(\lambda_1, \dots, \lambda_d\) là các trị riêng của ma trận \(\mathbf{A}\). Khi đó định thức:

\[\begin{split}\det{(\mathbf{A} - \lambda \mathbf{I})} = \det{\left (\begin{bmatrix} a_{11}-\lambda & a_{12} & \dots & a_{1d}\\ a_{21} & a_{22}-\lambda & \dots & a_{2d}\\ \dots & \dots & \ddots & \dots\\ a_{d1} & a_{d2} & \dots & a_{dd}-\lambda \end{bmatrix} \right )} = P_{d}(\lambda)\end{split}\]

là một đa thức bậc \(d\) của \(\lambda\).

Mặc khác với mỗi trị riêng \(\lambda_i\) của ma trận \(\mathbf{A}\) thì tồn tại véc tơ riêng \(\mathbf{x}\) khác 0 thỏa mãn:

\[\begin{split}\begin{eqnarray}\mathbf{A} \mathbf{x} & = & \lambda_i \mathbf{x} \\ \leftrightarrow (\mathbf{A}-\lambda_i \mathbf{I})\mathbf{x} & = & 0 \end{eqnarray}\end{split}\]

Như vậy các dòng của ma trận \(\mathbf{A}-\lambda_i \mathbf{I}\) phụ thuộc tuyến tính theo véc tơ \(\mathbf{x}\) nên \(P_d(\lambda_i) = \det(\mathbf{A} - \lambda_i \mathbf{I}) = 0\). Từ đó suy ra \(P_d(\lambda)\) có \(d\) nghiệm là các trị riêng của ma trận \(\mathbf{A}\). Kết hợp với hệ số của bậc cao nhất \(\lambda^d\) là \((-1)^d\) ta suy ra:

\[P_d(\lambda) = (-1)^d(\lambda - \lambda_1)(\lambda - \lambda_2) \dots (\lambda - \lambda_d) = (\lambda_1 - \lambda)(\lambda_2 - \lambda) \dots (\lambda_d - \lambda)\]

Do đó:

\[\det(\mathbf{A}) = P_d(0) = \lambda_1 \lambda_2 \dots \lambda_d\]

Quay trở lại bài toán chứng minh \((\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}} + N\alpha \mathbf{I})\) là một ma trận không suy biến.

Giả định \(\mu\) là véc tơ trị riêng của ma trận \(\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}}\). Như vậy từ tính chất 2 suy ra trị riêng của ma trận \(\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}} + N\alpha \mathbf{I}\) là \(\lambda = \mu + N\alpha\).

Mặt khác theo tính chất 1 thì \(\mu \geq 0\) do \(\bar{\mathbf{X}}^{\intercal}\bar{\mathbf{X}}\) bán xác định dương. Từ đó suy ra \(\lambda \geq N\alpha > 0\). Như vậy ma trận \((\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}} + N\alpha \mathbf{I})\) có khác trị riêng khác 0. Theo tính chất 3 ta suy ra \(\det{(\mathbf{A})} \neq 0\) do các trị riêng đều khác 0. Như vậy \((\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}} + N\alpha \mathbf{I})\) là một ma trận không suy biến và hồi qui Ridge đảm bảo tồn tại nghiệm.

2.2.2.6. Huấn luyện hồi qui Ridge¶

Để huấn luyện mô hình hồi qui Ridge trên sklearn chúng ta sử dụng module sklearn.linear_model.Ridge như bên dưới. Đối số cần lưu ý chính là alpha tương ứng với hệ số \(\alpha\) của thành phần điều chuẩn.

import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import Ridge

reg_ridge = Ridge(alpha = 1.0)
reg_ridge.fit(X_train, y_train)

# Sai số huấn luyện của mô hình trên tập train
print(reg_ridge.score(X_train, y_train))
# Hệ số hồi qui và hệ số chặn
print(reg_ridge.coef_)
print(reg_ridge.intercept_)

0.4062765748571143
[  40.22939469  -61.6891284   273.28923195  197.33160511   -1.61665406
  -19.12583524 -142.98129661  107.3757613   195.22498998   84.3326197 ]
150.9272009480016

Tối ưu hệ số \(\alpha\) như thế nào sẽ được bàn luận ở chương 2.2.6.

2.2.2.7. Điều chuẩn Tikhokov¶

Khi xây dựng mô hình trên những bộ dữ liệu có số lượng lớn các biến đầu vào thì thường xuất hiện hiện tượng đa cộng tuyến khiến ước lượng từ mô hình bị chệch. Chúng ta có thể khắc phục hiện tượng này thông qua áp dụng thành phần điều chuẩn Tikhonov:

\[\lambda R(\mathbf{w}) = \|\Gamma \mathbf{w} \|_2^2\]

Trong đó \(\Gamma\) là một ma trận vuông, thông thường được lựa chọn là một ma trận đường chéo.

Nếu giải bài toán tối ưu theo đạo hàm bậc nhất thì ta thu được nghiệm khi sử dụng điều chuẩn Tikhokov:

\[\begin{split}\begin{eqnarray} \frac{\partial\mathcal{L}(\mathbf{w})}{\partial\mathbf{w}} & = & \frac{1}{N}\frac{\partial\|\bar{\mathbf{X}}\mathbf{w} - \mathbf{y}\|_{2}^{2}}{\partial\mathbf{w}} + \alpha \frac{\partial \|\Gamma\mathbf{w}\|^2_2}{\partial \mathbf{w}} \\ & = & \frac{2}{N}\mathbf{\bar{X}}^{\intercal}(\mathbf{\bar{X}}\mathbf{w} - \mathbf{y}) + 2 \alpha \Gamma^{\intercal}\Gamma\mathbf{w} \\ & = & \frac{2}{N} [(\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}} + N\alpha \Gamma^{\intercal}\Gamma) \mathbf{w} - \bar{\mathbf{X}}^{\intercal}\mathbf{y}] \\ & = & 0 \end{eqnarray}\end{split}\]

Nghiệm tối ưu:

\[\mathbf{w} = (\mathbf{\bar{X}}^{\intercal}\mathbf{\bar{X}} + N\alpha \Gamma^{\intercal}\Gamma)^{-1}\bar{\mathbf{X}}^{\intercal}\mathbf{y}\]

Nếu tính tế chúng ta sẽ nhận thấy hồi qui Ridge chính là một trường hợp đặc biểu của điều chuẩn Tikhokov khi lựa chọn \(\Gamma = \alpha\mathbf{I}\) trong đó \(\mathbf{I}\) là ma trận đơn vị.

Trong mô hình hồi qui không phải khi nào thì vai trò của các biến đầu vào cũng đều quan trọng như nhau. Khi lựa chọn \(\Gamma\) là một ma trận đường chéo chúng ta thu được một phiên bản weighted l2 regularization. Độ lớn của các phần tử trên đường chéo sẽ ảnh hưởng tới mức độ kiểm soát được áp đặt lên biến. Nếu biến đầu vào \(w_i\) là nguyên nhân dẫn tới hiện tượng overfitting thì có thể thiết lập \(\alpha_i\) một giá trị lớn hơn so với những thành phần khác nằm trên đường chéo chính. Ngoài ra trong những phương trình hồi qui sử dụng đặc trưng đa thức (polynomial feature) thì chúng ta thường sẽ gán giá trị cao hơn cho trọng số của những biến bậc cao trong thành phần điều chuẩn để giảm thiểu quá khớp.

Deep AI KhanhBlog

2.2.2. Hồi qui Ridge¶

2.2.2.1. Tính tổng quát của mô hình¶

2.2.2.2. Bài toán hồi qui tuyến tính¶

2.2.2.3. Sự thay đổi của hàm mất mát trong hồi qui Ridge¶

2.2.2.4. Nghiệm tối ưu của hồi qui Ridge¶

2.2.2.5. Sự đảm bảo lời giải của hồi qui Ridge¶

2.2.2.6. Huấn luyện hồi qui Ridge¶

2.2.2.7. Điều chuẩn Tikhokov¶

2.2.3. Hồi qui Lasso¶

2.2.3.1. Bài toán hồi qui Lasso¶

2.2.3.2. Huấn luyện mô hình Lasso¶

2.2.4. Vì sao hồi qui Lasso lại là hồi qui lựa chọn biến¶

2.2.5. Elastic Net¶

2.2.6. Tuning hệ số cho mô hình hồi qui Ridge, Lasso và Elastic Net¶

2.2.7. Tổng kết¶

2.2.8. Bài tập¶

2.2.9. Tài liệu tham khảo¶