7.1. Hàm mất mát của SVM¶

7.1.1. Góc nhìn từ hồi qui Logistic¶

Trong hồi qui Logistic chúng ta đã làm quen với hàm mất mát (loss function) dạng:

\[\mathcal{L}(\mathbf{w}) = \sum_{i=1}^{n} -[y_i\log(\hat{y_i}) + (1-y_i)\log(1-\hat{y}_i)]\]

Bản chất của hàm mất mát trong hồi qui Logistic là một thước đo về sự tương quan giữa phân phối xác suất dự báo với ground truth.

Trong đó phân phối xác suất được ước tính dựa trên hàm Sigmoid theo công thức \(\hat{y} = \sigma(z) = \frac{1}{1+e^{-z}}\).

Ta cũng biết rằng đường biên phân loại của hồi qui Logistic là một siêu phẳng có phương trình \(\mathbf{w}^{\intercal}\mathbf{x}\).

\[\begin{split} \begin{split} \hat{y} = \left\{ \begin{matrix} 1 \text{ if } \mathbf{w}^{\intercal}\mathbf{x} > 0 \\ 0 \text{ if } \mathbf{w}^{\intercal}\mathbf{x} \leq 0 \end{matrix} \right.\end{split} \end{split}\]

Tiếp theo chúng ta sẽ cùng phân tích hàm mất mát của mô hình trong hai trường hợp \(y=0\) và \(y=1\):

\[\begin{split} \begin{split} \mathcal{L}(\mathbf{w}) = \left\{ \begin{matrix} -\log(\hat{y_i}) ~~\text{ if } y_i=1 \\ -\log(1-\hat{y}_i) \text{ if } y_i=0 \end{matrix} \right.\end{split} \end{split}\]

import numpy as np
import matplotlib.pyplot as plt

fig, ax = plt.subplots(1, 2, figsize = (18, 6))
z = np.linspace(-3, 3, 100)

def sigmoid(z):
  return 1/(1+np.exp(-z))

y0 = -np.log(1-sigmoid(z)) # Trường hợp ground truth = 0
y1 = -np.log(sigmoid(z)) # Trường hợp ground truth = 1

# Hàm mất mát nếu ground truth = 1
ax[0].plot(z, y1)
ax[0].set_xlabel('z')
ax[0].set_ylabel('L(y, yhat)')
ax[0].set_title('y=1')

# Hàm mất mát nếu ground truth = 0
ax[1].plot(z, y0)
ax[1].set_xlabel('z')
ax[1].set_ylabel('L(y, yhat)')
ax[1].set_title('y=0')

plt.show()

Ta nhận thấy hình dạng của hàm mất mát trong hai trường hợp tương ứng với \(y=1\) và \(y=0\) là trái ngược nhau:

Đối với trường hợp nhãn \(y = 1\): Khi giá trị của \(z\) càng lớn thì hàm mất mát sẽ tiệm cận 0. Điều đó đồng nghĩa với mô hình sẽ phạt ít những trường hợp \(z\) lớn và có nhãn 0. Những trường hợp này tương ứng với những điểm nằm cách xa đường biên phân chia.
Đối với nhãn \(y=0\) thì trái lại, mô hình có xu hướng phạt ít với những giá trị \(z\) nhỏ. Khi đó những điểm này sẽ nằm cách xa đường biên về phía nửa mặt phẳng \(y=1\).

Những phân tích ở trên là hợp lý vì ở các mức giá trị \(z\) đủ lớn hoặc đủ nhỏ thì đều là các điểm nằm cách xa đường biên phân chia nên chúng ta có thể dễ dàng dự báo đúng nhãn cho chúng. Việc phạt những điểm này nếu phân loại sai không mang nhiều ý nghĩa bằng phạt những điểm nằm gần đường biên và được xem như là case khó (hard case). Thậm chí nếu phạt những điểm nằm xa đường biên một giá trị lớn dễ khiến xảy ra nguy cơ quá khớp vì hầu hết những điểm đó đều là ngoại lai.

7.1.2. Từ Logistic tới SVM¶

Trong SVM chúng ta có một thay đổi đột phá đó là tìm cách xấp xỉ hàm mất mát dạng cross-entropy của Logistic bằng một hàm mà chỉ phạt những điểm ở gần đường biên thay vì phạt những điểm ở xa đường biên bằng cách đưa mức phạt về 0.

Cụ thể đó là hai hàm phạt \(\text{cost}_1()\) và \(\text{cost}_2()\) tương ứng với \(y=0\) và \(y=1\) như bên dưới:

\[\begin{split}\begin{split} \left\{ \begin{matrix} \text{cost}_1(z) = \max(1+z, 0) ~ \text{if } y=0 \\ \text{cost}_2(z) = \max(0, 1-z) ~ \text{if } y=1 \end{matrix} \right.\end{split}\end{split}\]

Hai hàm này thể hiện chi phí phải bỏ ra nếu phân loại sai các nhãn lần lượt thuộc \(0\) hoặc \(1\). Dạng tổng quát của chúng là \(\max(0, t)\) còn được gọi là hàm hingloss. Đây là một trong những hàm mất mát mà bạn sẽ gặp khá nhiều trong machine learning.

Bên dưới là hình dạng của hai hàm \(\text{cost}_1()\) và \(\text{cost}_2()\).

import numpy as np
import matplotlib.pyplot as plt

fig, ax = plt.subplots(1, 2, figsize = (18, 6))
z = np.linspace(-3, 3, 100)

def sigmoid(z):
  return 1/(1+np.exp(-z))

y0 = -np.log(1-sigmoid(z)) # Trường hợp ground truth = 0
y1 = -np.log(sigmoid(z)) # Trường hợp ground truth = 1

cost1 = np.maximum(1+z, 0) # Trường hợp ground truth = 0
cost2 = np.maximum(0, 1-z) # Trường hợp ground truth = 1

# Hàm mất mát nếu ground truth = 1
ax[0].plot(z, y1)
ax[0].plot(z, cost2)
ax[0].set_xlabel('z')
ax[0].set_ylabel('L(y, yhat)')
ax[0].legend(labels = ['cross-entropy', 'cost2'])
ax[0].set_title('y=1')

# Hàm mất mát nếu ground truth = 0
ax[1].plot(z, y0)
ax[1].plot(z, cost1)
ax[1].set_xlabel('z')
ax[1].set_ylabel('L(y, yhat)')
ax[1].legend(labels = ['cross-entropy', 'cost1'])
ax[1].set_title('y=0')

plt.show()

Ta nhận thấy hình dạng của các hàm mất mát \(\text{cost}_1\) và \(\text{cost}_2\) cũng gần tương tự như cross-entropy. Điểm khác biệt chính đó là giá trị của mất mát bằng 0 nếu \(z \geq 1\) (đối với nhãn \(y=1\)) hoặc \(z \leq -1\) (đối với nhãn \(y=0\)). Theo các hàm mất mát mới này, chúng ta bỏ qua việc phạt phân loại sai những điểm nằm xa đường biên. Đối với những điểm nằm gần đường biên nhất thì mới ảnh hưởng tới hàm mất mát. Tập hợp những điểm nằm gần đường biên sẽ giúp xác định đường biên và được gọi là tập tập hỗ trợ (support vector).

Như vậy sau khi thay đổi hàm phạt ta thu được hàm mất mát mới dạng:

\[\mathcal{L}(\mathbf{w}) = \sum_{i=1}^{n} -[y_i\text{cost}_1(\hat{y_i}) + (1-y_i)\text{cost}_2(1-\hat{y}_i)]\]

SVM cho phép ta giảm thiểu quá khớp thông qua một thành phần điều chuẩn cũng tương tự như hồi qui Logistic.

\[\mathcal{L}(\mathbf{w}) = C(\sum_{i=1}^{n} -[y_i\text{cost}_1(\hat{y_i}) + (1-y_i)\text{cost}_2(1-\hat{y}_i)])+\frac{\lambda}{2} \underbrace{||\mathbf{w}||_2^2}_{\text{regularization term}}\]

Trong công thức trên thì hằng số \(C > 0\) thể hiện ảnh hưởng của sai số phân loại lên hàm mất mát. Trong khi \(\lambda > 0\) là hằng số của thành phần điều chuẩn (regularization term) thể hiện tác động của độ lớn trọng số hồi qui \(\mathbf{w}\) lên hàm mất mát.

Khi tăng tỷ lệ \(\frac{\lambda}{C}\) có thể giúp các trọng số của mô hình được kiểm soát về độ lớn, thông qua đó làm cho độ phức tạp của đường biên phân chia giảm và kiểm soát hiện tượng quá khớp.

Đối với phương trình hồi qui Logistic thì chúng ta sẽ xác định nhãn dựa trên dấu của \(\mathbf{w}^{\intercal}\mathbf{x}\). Còn trong thuật toán SVM, đối với một tập dữ liệu mà các nhãn là phân tuyến (linear seperable) (tức là tồn tại ít nhất 1 đường biên phân loại đúng toàn bộ các điểm) thì chúng ta sẽ mở rộng đường biên phân chia về hai phía là 1 đơn vị. Khi đó một điểm được dự báo là:

\[\begin{split}\begin{split} \hat{y} = \left\{ \begin{matrix} 0 ~ \text{if } \mathbf{w}^{\intercal}\mathbf{x} \leq -1 \\ 1 ~ \text{if } \mathbf{w}^{\intercal}\mathbf{x} \geq 1 \end{matrix} \right.\end{split}\end{split}\]

Ý nghĩa của việc mở rộng đường biên đó là khiến cho các điểm nằm gần với đường biên sẽ trở nên tách biệt hơn. Tiếp theo chúng ta sẽ tìm hiểu cơ chế nào hoạt động và cách xác định đường biên đối với thuật toán SVM.

Deep AI KhanhBlog

7.1. Hàm mất mát của SVM¶

7.1.1. Góc nhìn từ hồi qui Logistic¶

7.1.2. Từ Logistic tới SVM¶

7.2. Đường biên và lề trong SVM¶

7.3. Bài toán tối ưu SVM¶

7.3.1. Hệ điều kiện KKT¶

7.3.2. Bài toán tối ưu bậc hai (Quadratic Optimization)¶

7.3.3. Hệ điều kiện KKT đối với bài toán Quadratic¶

7.3.4. Bài toán đối ngẫu SVM¶

7.3.5. Dự báo nhãn¶

7.4. Sorf Margin Classification¶

7.4.1. So sánh giữa lề cứng (hard margin) và lề mềm (soft margin)¶

7.4.2. Suy xét lại hàm chi phí cho phân loại đường biên mềm SVM¶

7.5. Kỹ thuật tạo đặc trưng¶

7.5.1. Đặc trưng đa thức (Polynormial Features)¶

7.5.2. Đặc trưng tương đồng Gaussian RBF¶

7.6. Kernel trong SVM¶

7.6.1. Khái niệm hàm kernel (Kernel function) và không gian Hilbert¶

7.6.2. Định lý merce về kernel¶

7.6.3. Các kernel khác cho SVM¶

7.6.4. Dự báo nhãn¶

7.7. Ví dụ về bài toán SVM¶

7.7.1. Bài toán SVM cho dữ liệu dạng phi tuyến¶

7.7.2. Sử dụng kernel SVM¶

7.7.3. tuning siêu tham số cho một kernel¶

7.8. Tổng kết¶

7.9. Bài tập¶

7.10. Tài liệu¶