11.1. Feature Engineering¶

11.1.1. Trích lọc đặc trưng (Feature Extraction)¶

Ở những bộ dữ liệu cao chiều thì huấn luyện mô hình và dự báo cần tiêu tốn rất nhiều chi phí tính toán. Chính vì thế trích lọc đặc trưng là một kĩ thuật giúp giảm chiều giữ liệu mà ở đó cho phép chúng ta lựa chọn hoặc kết hợp các biến đầu vào thành những đặc trưng dự báo nhưng vẫn thể hiện một cách chính xác và nguyên vẹn của dữ liệu gốc. Trích lọc đặc trưng được áp dụng trong nhiều bài toán khác nhau của machine learning.

Autoendcoder: Là kĩ thuật khá hiệu quả trong self - supervised learning. Kĩ thuật này sẽ tự mã hoá dữ liệu đầu từ không gian cao chiều sang một không gian thấp chiều (quá trình encoder). Sau đó giải mã ngược lại từ không gian thấp chiều sang không gian cao chiều (quá trình decoder) sao cho thông tin đầu ra của quá trình giải mã và đầu vào phải gần bằng nhau.
Bag-of-Words: Hay còn gọi là thuật toán túi từ thường được sử dụng trong xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và trích lọc thông tin (information retrieval). Thuật toán cho phép chúng ta trích lọc thông tin từ các đoạn văn bản, mẩu tin, trang web bằng cách xây dựng một túi từ và tìm cách mã hoá nội dung văn bản thành một véc tơ tần suất của từ mà không quan tâm đến thứ tự của từ và cấu trúc ngữ pháp.
Image Processing: Đây là những thuật toán được sử dụng để phát hiện đặc trưng trên ảnh như hình dạng (shaped) và cạnh (edges). Đó có thể là những phương pháp trích lọc đặc trưng trên ảnh thủ công như HOG và SHIFT hoặc sử dụng bộ trích lọc đặc trưng thông qua tích chập CNN.

11.1.2. Biến đổi đặc trưng (Feature Transformation)¶

Biến đổi đặc trưng là những kĩ thuật giúp biến đổi dữ liệu đầu vào thành những dữ liệu phù hợp với mô hình nghiên cứu. Những dữ liệu này thường có tương quan cao đối với biến mục tiêu và do đó giúp cải thiện độ chính xác của mô hình. Bên dưới là một số phương pháp chính được áp dụng trong biến đối đặc trưng:

Chuẩn hóa biến: Chuẩn hoá biến nhằm mục đích tạo ra sự đồng nhất đơn vị giữa các biến đầu vào và giảm thiểu những tác động xấu lên mô hình do sự khác biệt về độ lớn giữa các biến. Các kĩ thuật liên quan đến chuẩn hoá đơn vị cho biến đầu vào còn được gọi là Feature Scaling bao gồm: Chuẩn hoá MinMax (Minmax scaling), chuẩn hoá độ dài đơn vị (Unit length scaling), chuẩn hoá phân phối chuẩn (Standardization).
Biến đổi biến theo hàm: Trong trường hợp dữ liệu có phương sai thay đổi (heteroscedasticity) thì chúng ta có thể sử dụng một số hàm biến đổi biến đầu vào để tạo ra những biến có phương sai ổn định và dạng phân phối gần với phân phối chuẩn hơn như logrith, căn bậc 2, căn bậc 3.
Tạo biến tương tác: Các biến tương tác là những biến kết hợp từ nhiều biến đầu vào chẳng hạn như \(x_1x_2, x_1^2x_2, x_1x_2x_3^2, \dots\) Biến tương tác có thể là tích của hai hoặc nhiều biến. Trong một mô hình có ít biến đầu vào thì sử dụng biến tương tác có thể giúp tạo ra nhiều biến giải thích mới giúp ích cho mô hình.
Tạo biến bậc cao: Biến bậc cao là những biến được tạo thành từ biến đầu vào bằng cách luỹ thừa với giá trị bậc cao, có thể là bậc 2, 3,… Chẳng hạn với biến đầu vào là \(x_1\) thì biến bậc cao của nó là \(x_1^2, x_1^3,....\).
Dữ liệu về vị trí địa lý: Từ vị trí địa lý có thể suy ra vùng miền, thành thị, nông thôn, mức thu nhập trung bình, các yếu tố về nhân khẩu,…
Dữ liệu thời gian: Các dữ liệu chuỗi thời gian thường tồn tại tính chu kì và mùa vụ. Chính vì vậy, các kĩ thuật biến đổi biến thời gian thành đặc trưng ghi nhận tính chất chu kì và mùa vụ sẽ giúp tăng cường khả năng giải thích của mô hình đối với biến mục tiêu. Chúng ta có thể lựa chọn chu kì của thời gian là buổi sáng/chiều/tối trong ngày; ngày trong tháng; tuần trong tháng; tháng trong năm hoặc quí trong năm tuỳ theo qui luật mùa vụ được thể hiện ở biến mục tiêu.

11.1.3. Lựa chọn đặc trưng (Feature Selection)¶

Lựa chọn đặc trưng là một phần rất quan trọng trong Machine Learning với mục tiêu chính là loại bỏ những đặc trưng không thực sự chứa thông tin hữu ích cho bài toán phân loại hoặc dự báo. Kĩ thuật lựa chọn đặc trưng có thể được sử dụng để cải thiện tốc độ huấn luyện và dự báo (khi có ít đặc trưng hơn có nghĩa là mô hình được huấn luyện và dự báo nhanh hơn) và thậm chí giảm hiện tượng quá khớp.

Các kĩ thuật lựa chọn đặc trưng khá đa dạng:

Sử dụng hệ số tương quan với biến mục tiêu: Những biến tương quan cao với biến mục tiêu là những biến có khả năng giải thích tốt. Mức độ quan trọng của biến có thể được xếp hạng thông qua sử dụng tương quan Pearson Correlation,
Sử dụng chỉ số AIC: AIC (Akaike information criterion) là chỉ số được sử dụng để đánh giá chất lượng của mô hình thống kê. Chỉ số này được tính toán thông qua giá trị logarith của hàm hợp lý (Log Likelihood Function). Để xếp hạng mức độ quan trọng của biến thì đầu tiên chúng ta sẽ tính AIC cho mô hình được hồi qui trên toàn bộ các biến. Sau đó thực hiện các thử nghiệm huấn luyện mà mỗi lượt bỏ bớt đi một biến để xem giá trị AIC của mô hình nào là nhỏ nhất. AIC càng nhỏ thì mô hình có sai số càng thấp trên tập huấn luyện và từ đó đưa ra xếp hạng biến.
Sử dụng chỉ số IV: IV (Information Value) là chỉ số được sử dụng trong các bài toán phân loại nhị phân trong thống kê. Chỉ số này thường được đo lường để đánh giá sức mạnh phân loại của biến đầu vào.
Lựa chọn đặc trưng bằng sử dụng mô hình: Random Forest, Lasso Regression, Neural Network, SVD.
Lựa chọn thông qua mức độ biến động phương sai: Những biến ít biến động hoặc thậm chí không thay đổi giá trị sẽ không có tác dụng phân loại và dự báo. Chính vì vậy chúng ta có thể lọc bỏ những biến này thông qua xác định độ lớn của phương sai phải lớn hơn một ngưỡng cho trước.

Tiếp theo chúng ta sẽ lần lượt phân tích những kĩ thuật này về lý thuyết, trường hợp áp dụng thông qua các ví dụ thực hành.

Deep AI KhanhBlog

11.1. Feature Engineering¶

11.1.1. Trích lọc đặc trưng (Feature Extraction)¶

11.1.2. Biến đổi đặc trưng (Feature Transformation)¶

11.1.3. Lựa chọn đặc trưng (Feature Selection)¶

11.2. Trích lọc đặc trưng (feature extraction)¶

11.2.1. Trích lọc đặc trưng cho văn bản¶

11.2.1.1. Phương pháp bag-of-words¶

11.2.1.2. Phương pháp bag-of-n-gram¶

11.2.1.3. Phương pháp TF-IDF¶

11.2.1.4. Word2vec¶

11.2.1.4.1. Phương pháp CBOW¶

11.2.1.4.2. Phương pháp skip-gram¶

11.2.1.4.3. Sử dụng gensim huấn luyện mô hình word2vec¶

11.2.2. Trích lọc đặc trưng trong xử lý ảnh¶

11.2.3. Thông tin địa lý¶

11.2.4. Dữ liệu thời gian¶

11.2.5. Dữ liệu từ website, log¶

11.3. Biến đổi đặc trưng (feature transformation)¶

11.3.1. Chuẩn hoá (standardization)¶

11.3.2. Kĩ thuật scaling¶

11.3.2.1. Minmax Scaling¶

11.3.2.2. Unit Length¶

11.3.2.3. Robust Scaling¶

11.4. Lựa chọn đặc trưng (feature selection)¶

11.4.1. Phương pháp thống kê¶

11.4.2. Sử dụng mô hình¶

11.4.3. Sử dụng Search¶

11.5. Tổng kết¶

11.6. Tài liệu tham khảo¶

11.7. Bài tập¶