16.1. Ước lượng MLE cho phân phối Gaussian đa chiều¶

Giả sử chúng ta có một bộ dữ liệu gồm các quan sát độc lập và xác định (iid) là \(\mathcal{D} = \{ \mathbf{x}_1, \mathbf{x}_2. \dots, \mathbf{x}_N \}\). Trong đó mỗi một \(\mathbf{x}_i \in \mathbb{R}^{d}\) là một véc tơ quan sát trong không gian \(d\) chiều được lấy mẫu từ phân phối Gaussian đa chiều. Chúng ta cần ước lượng phân phối của tham số thông qua ước lượng hợp lý tối đa MLE.

\(N\) quan sát được giả định là độc lập. Do đó hàm hợp lý của phân phối của \(N\) quan sát sẽ bằng tích của xác suất trên từng quan sát:

\[\begin{split}\begin{aligned} l(\mathbf{ \mu, \Sigma }|\mathcal{D}) & = \log \prod_{i=1}^m f_{\mathbf{x}_{i}}(\mathbf{x}_{i} | \mu , \mathbf{\Sigma} ) \\ & = \log \ \prod_{i=1}^N \frac{1}{(2 \pi)^{d/2} |\mathbf{\Sigma}|^{1/2}} \exp \left( - \frac{1}{2} (\mathbf{x}_{i} - \mu)^{\intercal} \mathbf{\Sigma}^{-1} (\mathbf{x}_{i} - \mu) \right) \\ & = \sum_{i=1}^N \left( - \frac{d}{2} \log (2 \pi) - \frac{1}{2} \log |\mathbf{\Sigma}| - \frac{1}{2} \mathbf{(x}_{i} - \mu)^{\intercal} \mathbf{\Sigma}^{-1} (\mathbf{x}_{i} - \mu) \right) \\ & = - \frac{N}{2} \log |\mathbf{\Sigma}| - \sum_{i=1}^N \frac{1}{2} \mathbf{(x}_{i} - \mu)^{\intercal} \mathbf{\Sigma}^{-1} (\mathbf{x}_{i} - \mu) - \underbrace{\frac{Nd}{2} \log (2 \pi)}_{C} \\ & = - \frac{N}{2} \log |\mathbf{\Sigma}| - \sum_{i=1}^N \frac{1}{2} \mathbf{(x}_{i} - \mu)^{\intercal} \mathbf{\Sigma}^{-1} (\mathbf{x}_{i} - \mu) + C \end{aligned}\end{split}\]

Lấy đạo hàm bậc nhất của hàm hợp lý theo \(\mu\) và \(\mathbf{\Sigma}\).

Đạo hàm theo \(\mu\):

Để tính toán đạo hàm bậc nhất chúng ta cần áp dụng công thức:

\[\frac{\partial \mathbf{w}^{\intercal}\mathbf{A}\mathbf{w}}{\partial \mathbf{w}} = 2\mathbf{A}\mathbf{w}\]

Coi \(\mathbf{\Sigma}^{-1} = \mathbf{A}\) và \(\mathbf{x}_i-\mu = \mathbf{w}\), khi đó:

\[\begin{split}\begin{eqnarray} \frac{\partial l(\mathbf{ \mu}, \mathbf{ \Sigma} | \mathcal{D} )}{\partial \mu} & = & -\sum_{i=1}^N \mathbf{ \Sigma^{-1}} ( \mathbf{x}_{i} - \mathbf{\mu} ) \\ & = & \mathbf{ \Sigma^{-1}}(N\mu - \sum_{i=1}^N \mathbf{x}_i) \\ & = & 0 \end{eqnarray}\end{split}\]

Nhân cả hai vế của dòng thứ 2 với \(\mathbf{\Sigma}\) về phía ngoài cùng bên trái ta suy ra nghiệm \(\hat{\mu}\) chính là:

\[\begin{split}\begin{eqnarray} N\hat{\mu} - \sum_{i=1}^N \mathbf{x}_i & = & 0 \\ \leftrightarrow \hat{\mu} & = & \frac{\sum_{i=1}^{N} \mathbf{x}_i}{N} \end{eqnarray}\end{split}\]

Đạo hàm theo \(\mathbf{\Sigma}\):

Để tính toán đạo hàm theo \(\Sigma\) chúng ta cần áp dụng một số công thức:

1.- Trace của tích ba ma trận không thay đổi nếu hoán vị:

\[\text{trace}{(\mathbf{ABC})} = \text{trace}{(\mathbf{CAB})} = \text{trace}{(\mathbf{BCA})}\]

2.- Khi \(\mathbf{x}^{\intercal}\mathbf{A}\mathbf{x}\) là một số vô hướng (scalar) thì:

\[\mathbf{x}^{\intercal}\mathbf{A} \mathbf{x} = \text{trace}(\mathbf{x}^{\intercal}\mathbf{A}\mathbf{x}) = \text{trace}(\mathbf{x}^{\intercal}\mathbf{x}\mathbf{A})\]

3.- Đạo hàm của:

\[\frac{\partial ~ \text{trace}(\mathbf{AB})}{\partial \mathbf{A}} = \frac{\partial ~ \text{trace}(\mathbf{BA})}{\partial \mathbf{A}} = \mathbf{B}^{\intercal}\]

4.- Đạo hàm của:

\[\frac{\partial \log(\mathbf{A})}{\partial \mathbf{A}} = \mathbf{A}^{-\intercal}\]

5.- Định thức của một ma trận thì bằng nghịch đảo định thức của ma trận nghịch đảo:

\[|\mathbf{A}| = \frac{1}{|\mathbf{A}^{-1}|}\]

Chứng minh những công thức trên không quá khó. Xin dành cho bạn đọc như một bài tập.

Ngoài ra từ công thức thứ 2 và 3 ta suy ra:

\[\frac{\partial}{\partial \mathbf{A}} \mathbf{x}^{\intercal}\mathbf{A}\mathbf{x} =\frac{\partial}{\partial \mathbf{A}} \text{trace} ( \mathbf{x}^{\intercal}\mathbf{x}\mathbf{A} ) = [ \mathbf{x}^{\intercal}\mathbf{x}]^{\intercal} = \mathbf{x}\mathbf{x}^{\intercal}\]

đồng thời hàm hợp lý cũng được biến đổi thành:

\[\begin{split} \begin{eqnarray} l(\mathbf{ \mu, \mathbf{\Sigma}} | \mathcal{D}) & = & C - \frac{N}{2} \log |\mathbf{\Sigma}| - \frac{1}{2} \sum_{i=1}^N (\mathbf{x}_{i} - \mu)^{\intercal} \mathbf{\Sigma}^{-1} (\mathbf{x}_{i} - \mu) \\ & = & C + \frac{N}{2} \log |\mathbf{\Sigma}^{-1}| - \frac{1}{2} \sum_{i=1}^N \text{trace}\left[ (\mathbf{x}_{i} - \mu)^{\intercal} (\mathbf{x}_{i} - \mu) \mathbf{\Sigma}^{-1} \right] \end{eqnarray} \end{split}\]

Bây giờ chúng ta có thể tính toán đạo hàm theo ma trận \(\mathbf{\Sigma}^{-1}\) như sau:

\[\begin{split}\begin{eqnarray} \frac{\partial l(\mathbf{ \mu, \Sigma}|\mathcal{D})}{\partial \mathbf{\Sigma}^{-1}} & = & \frac{N}{2}\mathbf{\Sigma}^{\intercal} - \frac{1}{2} \sum_{i=1}^N (\mathbf{x}_{i} - \mu) (\mathbf{x}_{i} - \mu)^{\intercal} \\ & = & \frac{N}{2}\mathbf{\Sigma} - \frac{1}{2} \sum_{i=1}^N (\mathbf{x}_{i} - \mu) (\mathbf{x}_{i} - \mu)^{\intercal} \end{eqnarray} \end{split}\]

Dòng thứ 2 thu được là vì \(\mathbf{\Sigma}\) là ma trận đối xứng. Như vậy nghiệm \(\hat{\mathbf{\Sigma}}\) chính là:

\[\begin{split}\begin{eqnarray}\frac{N}{2}\hat{\mathbf{\Sigma}} - \frac{1}{2} \sum_{i=1}^N (\mathbf{x}_{i} - \mu) (\mathbf{x}_{i} - \mu)^{\intercal} & = & 0 \\ \leftrightarrow \hat{\mathbf{\Sigma}} = \frac{\sum_{i=1}^N (\mathbf{x}_{i} - \mu) (\mathbf{x}_{i} - \mu)^{\intercal}}{N} \end{eqnarray}\end{split}\]

Như vậy ta thu được ước lượng hợp lý tối đa cho các tham số của phân phối Gassian đa chiều:

\[\begin{split} \begin{split} \left\{ \begin{matrix} \hat{\mu} & = & \frac{\sum_{i=1}^{N} \mathbf{x}_i}{N} = \mathbb{E}(\mathbf{X}) \\ \hat{\mathbf{\Sigma}} & = & \frac{\sum_{i=1}^N (\mathbf{x}_{i} - \mu) (\mathbf{x}_{i} - \mu)^{\intercal}}{N} = \mathbb{Cov}(\mathbf{X}) \end{matrix} \right.\end{split} \end{split}\]

	Genre	Age	Annual Income (k$)	Spending Score (1-100)
CustomerID
1	Male	19	15	39
2	Male	21	15	81
3	Female	20	16	6
4	Female	23	16	77
5	Female	31	17	40

Deep AI KhanhBlog

16.1. Ước lượng MLE cho phân phối Gaussian đa chiều¶

16.2. Gaussian Mixture Model¶

16.2.1. Ước lượng hợp lý tối đa¶

16.2.2. Khai triển hàm auxilary¶

16.2.3. Các bước trong GMM¶

16.4. Thực hành mô hình¶

16.4.1. Tiền xử lý dữ liệu¶

16.4.2. Mô hình Gaussian Mixture¶

16.4.3. Lựa chọn siêu tham số cho mô hình GMM¶

16.5. Tổng kết¶

16.6. Bài tập¶

16.7. Tài liệu tham khảo¶