13. k-Means Clustering

k-Means là một thuật toán rất đơn giản nhưng có rất nhiều ứng dụng trong thực tiễn. Một số ứng dụng của thuật toán này có thể kể đến như:

  1. Phân khúc khách hàng trong kinh doanh

  2. Phân tích gen trong y khoa

  3. Sử dụng trong các bài toán Image segmentation

  4. Nén hình ảnh.

  5. Phát hiện tế bào ung thư.

  6. Phát hiện bất thường (anomaly detection).

Trong thuật toán k-Means chúng ta được cung cấp một tập dữ liệu đầu vào \(\{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n \}\), trong đó \(\mathbf{x} \in \mathbb{R}^{d}\) và phân cụm chúng vào những nhóm dữ liệu có tính chất chung. Điểm đặc biệt của tập dữ liệu này là chúng hoàn toàn chưa được gán nhãn. Như vậy k-Means là một thuật toán thuộc lớp các mô hình học không giám sát (Unsupervised Learning). Hãy cùng tìm hiểu thuật toán k-Means qua bài viết này.