2.1. Khởi tạo dataframe¶

Đây là cách thường ít được áp dụng vì khi làm việc chúng ta thường đọc dữ liệu từ những file dữ liệu có sẵn được lưu dưới dạng csv hoặc txt. Nhưng đôi khi chúng ta cũng cần khởi tạo dataframe từ đầu chẳng hạn như bạn muốn lưu kết quả log file của chương trình vào một dataframe và save dưới dạng csv sau đó. Việc lưu trữ dưới dạng dataframe sẽ giúp cho bạn dễ dàng thực hiện các phép lọc, thống kê và visualize trực tiếp từ dataframe một cách dễ dàng hơn.

Đưới đây mình sẽ giới thiệu hai cách khởi tạo dataframe chính trực tiếp từ câu lệnh pd.DataFrame(.).

2.1.1. Khởi tạo thông qua dictionary¶

Về định dạng dictionary chúng ta đã được học ở chương phụ lục - dictionary. Nội dung của dictionary sẽ gồm key là tên cột và value là list giá trị của cột tương ứng.

import pandas as pd
from IPython.display import display
pd.set_option('max_colwidth', 40)
pd.set_option('precision', 5)
pd.set_option('max_rows', 10)
pd.set_option('max_columns', 30)


dict_columns = {
    'contents':['Author', 'Book', 'Target', 'No_Donation'],
    'infos':['Pham Dinh Khanh', 'ML algorithms to Practice', 'Vi mot cong dong AI vung manh hon', 'Community'],
    'numbers':[1993, 2021, 1, 2]
}

df = pd.DataFrame(dict_columns)
display(df)

	contents	infos	numbers
0	Author	Pham Dinh Khanh	1993
1	Book	ML algorithms to Practice	2021
2	Target	Vi mot cong dong AI vung manh hon	1
3	No_Donation	Community	2

Hàm display của IPython giúp cho DataFrame hiển thị được trên code khi run dưới dạng script file. các options của pd.set_option() lần lượt có tác dụng:

max_colwidth: Qui định chiều rộng tối đa của một cột.
precision: Độ chính xác của các sau dấu phảy của các cột định dạng float.
max_columns, max_rows: Lần lượt là độ số lượng cột và số lượng dòng tối đa được hiển thị.

Tiếp theo chúng ta sẽ khởi tạo thông qua list các dòng.

2.1.2. Khởi tạo thông qua list các dòng¶

Theo cách này chúng ta sẽ truyền vào data là một list gồm các tupple mà mỗi tupple là một dòng dữ liệu. đối số columns sẽ qui định tên cột theo đúng thứ tự được qui định ở mỗi dòng.

import pandas as pd

records = [('Author', 'Pham Dinh Khanh', 1993), 
           ('Book', 'ML algorithms to Practice', 2021), 
           ('Target', 'Vi mot cong dong AI vung manh hon', 1), 
           ('No_Donation', 'Community', 2)]
           
# Khởi tạo DataFrame
df = pd.DataFrame(data = records, columns = ['contents', 'infos', 'numbers'])
df

	contents	infos	numbers
0	Author	Pham Dinh Khanh	1993
1	Book	ML algorithms to Practice	2021
2	Target	Vi mot cong dong AI vung manh hon	1
3	No_Donation	Community	2

Để lưu trữ một dataframe dưới dạng một file csv chúng ta dùng hàm .to_csv(.) tham số truyền vào là đường link save file. Chẳng hạn bên dưới ta lưu dataframe vào một file “data.csv” cùng thư mục với file notebook.

df.to_csv("data.csv")

2.1.3. Đọc dữ liệu từ file¶

Chúng ta cũng có thể khởi tạo bảng bằng cách đọc file csv, txt, xls, xlsx, dat thông qua hàm pd.read_csv(.). Hàm này không chỉ đọc được những file có trên máy tính của bạn mà còn có thể download những file có trên mạng. Bên dưới chúng ta thực hành đọc dữ liệu về giá nhà ở tại Boston từ bộ dữ liệu BostonHousing. Bộ dữ liệu này gồm các trường:

crim: Tỷ lệ phạm tội phạm bình quân đầu người theo thị trấn.
zn: Tỷ lệ đất ở được quy hoạch cho các lô trên 25.000 foot square.
indus: Tỷ lệ diện tích thuộc lĩnh vực kinh doanh phi bán lẻ trên mỗi thị trấn.
chas: Biến giả, = 1 nếu được bao bởi sông Charles River, = 0 nếu ngược lại.
nox: Nồng độ khí Ni-tơ oxit.
rm: Trung bình số phòng trên một căn hộ.
age: Tỷ lệ căn hộ được xây dựng trước năm 1940.
dis: Khoảng cách trung bình có trọng số tới 5 trung tâm việc làm lớn nhất ở Boston.
rad: Chỉ số về khả năng tiếp cận đường cao tốc.
tax: Giá trị thuế suất tính trên đơn vị 10000$.
ptratio: Tỷ lệ học sinh-giáo viên trên mỗi thị trấn.
black: Tỷ lệ số người da đen trong thị trấn được tính theo công thức: $1000(\text{Bk} - 0.63)^2$ ở đây $\text{Bk}$ là tỷ lệ người da đen trong thị trấn.
lstat: Tỷ lệ phần trăm dân số thu nhập thấp.
medv: median giá trị của nhà có người sở hữu tính trên đơn vị 1000$.

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/phamdinhkhanh/datasets/master/BostonHousing.csv", sep=",", header = 0, index_col = None)
df.head()

	crim	zn	indus	nox	rm	age	dis	rad	tax	ptratio	b	lstat	medv
0	0.00632	18.0	2.31	0.538	6.575	65.2	4.0900	1	296	15.3	396.90	4.98	24.0
1	0.02731	0.0	7.07	0.469	6.421	78.9	4.9671	2	242	17.8	396.90	9.14	21.6
2	0.02729	0.0	7.07	0.469	7.185	61.1	4.9671	2	242	17.8	392.83	4.03	34.7
3	0.03237	0.0	2.18	0.458	6.998	45.8	6.0622	3	222	18.7	394.63	2.94	33.4
4	0.06905	0.0	2.18	0.458	7.147	54.2	6.0622	3	222	18.7	396.90	5.33	36.2

Trong hàm pd.read_csv() chúng ta sẽ khai báo các thông số chính bao gồm :

sep: Là viết tắt của seperator, ký hiệu ngăn cách các trường trong cùng một dòng, thường và mặc định là dấu phảy.
header: Mặc định là indice của dòng được chọn làm column name. Thường là dòng đầu tiên của file. Trường hợp file không có header thì để header = None. Khi đó indices cho column name sẽ được mặc định là các số tự nhiên liên tiếp từ 0 cho đến indice column cuối cùng.
index_col: Là indice của column được sử dụng làm giá trị index cho dataframe. cột index phải có giá trị khác nhau để phân biệt giữa các dòng và khi chúng ta để index_col = None thì giá trị index sẽ được đánh mặc định từ 0 cho đến dòng cuối cùng.

Hàm df.head() mặc định sẽ hiển thị ra 5 quan sát đầu tiên của dataframe. Chúng ta muốn hiển thị 5 quan sát cuối cùng thì dùng hàm df.tail() và 5 quan sát ngẫu nhiên thì dùng hàm df.sample(5).

Hàm df.info() sẽ cho ta biết định dạng và số lượng quan sát not-null của mỗi trường trong dataframe.

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   crim     506 non-null    float64
 1   zn       506 non-null    float64
 2   indus    506 non-null    float64
 3   chas     506 non-null    int64  
 4   nox      506 non-null    float64
 5   rm       506 non-null    float64
 6   age      506 non-null    float64
 7   dis      506 non-null    float64
 8   rad      506 non-null    int64  
 9   tax      506 non-null    int64  
 10  ptratio  506 non-null    float64
 11  b        506 non-null    float64
 12  lstat    506 non-null    float64
 13  medv     506 non-null    float64
dtypes: float64(11), int64(3)
memory usage: 55.5 KB

Hoặc chúng ta có thể dùng hàm df.dtypes để kiểm tra định dạng dữ liệu các trường của một bảng.

# Check for datatype
df.dtypes

crim       float64
zn         float64
indus      float64
chas         int64
nox        float64
            ...   
tax          int64
ptratio    float64
b          float64
lstat      float64
medv       float64
Length: 14, dtype: object

Nếu muốn kiểm tra chi tiết hơn những thống kê mô tả của dataframe như trung bình, phương sai, min, max, median của một trường dữ liệu chúng ta dùng hàm df.describe()

# Thống kê mô tả dữ liệu
df.describe()

	crim	zn	indus	chas	nox	rm	age	dis	rad	tax	ptratio	b	lstat	medv
count	506.00000	506.00000	506.00000	506.00000	506.00000	506.00000	506.00000	506.00000	506.00000	506.00000	506.00000	506.00000	506.00000	506.00000
mean	3.61352	11.36364	11.13678	0.06917	0.55470	6.28463	68.57490	3.79504	9.54941	408.23715	18.45553	356.67403	12.65306	22.53281
std	8.60155	23.32245	6.86035	0.25399	0.11588	0.70262	28.14886	2.10571	8.70726	168.53712	2.16495	91.29486	7.14106	9.19710
min	0.00632	0.00000	0.46000	0.00000	0.38500	3.56100	2.90000	1.12960	1.00000	187.00000	12.60000	0.32000	1.73000	5.00000
25%	0.08204	0.00000	5.19000	0.00000	0.44900	5.88550	45.02500	2.10018	4.00000	279.00000	17.40000	375.37750	6.95000	17.02500
50%	0.25651	0.00000	9.69000	0.00000	0.53800	6.20850	77.50000	3.20745	5.00000	330.00000	19.05000	391.44000	11.36000	21.20000
75%	3.67708	12.50000	18.10000	0.00000	0.62400	6.62350	94.07500	5.18843	24.00000	666.00000	20.20000	396.22500	16.95500	25.00000
max	88.97620	100.00000	27.74000	1.00000	0.87100	8.78000	100.00000	12.12650	24.00000	711.00000	22.00000	396.90000	37.97000	50.00000

2.1.4. Export to CSV, EXCEL, TXT, JSON¶

Đây là câu lệnh được sử dụng khá phổ biến để lưu trữ các file dữ liệu từ dataframe sang những định dạng khác nhau. Những định dạng này sẽ cho phép chúng ta load lại dữ liệu bằng các hàm read_csv(), read_xlsx(), read_txt(), read_json() sau đó.

%%script echo skipping

# Lưu dữ liệu sang file csv
df.to_csv('BostonHousing.csv', index = False)
# Lưu file excel
df.to_excel('BostonHousing.xls', index = False)
# Lưu dữ file json
df.to_json('BostonHousing.json') #do not include index = False, index only use for table orient

skipping

	indus	chas
5	2.18	0
6	7.87	0
7	7.87	0
8	7.87	0
9	7.87	0

	crim	zn	indus	nox	rm	age	dis	rad	tax	ptratio	b	lstat	medv
10	0.22489	12.5	7.87	0.524	6.377	94.3	6.3467	5	311	15.2	392.52	20.45	15.0
11	0.11747	12.5	7.87	0.524	6.009	82.9	6.2267	5	311	15.2	396.90	13.27	18.9
12	0.09378	12.5	7.87	0.524	5.889	39.0	5.4509	5	311	15.2	390.50	15.71	21.7
13	0.62976	0.0	8.14	0.538	5.949	61.8	4.7075	4	307	21.0	396.90	8.26	20.4
14	0.63796	0.0	8.14	0.538	6.096	84.5	4.4619	4	307	21.0	380.02	10.26	18.2
15	0.62739	0.0	8.14	0.538	5.834	56.5	4.4986	4	307	21.0	395.62	8.47	19.9

	crim	tax	rad
10	0.22489	311	5
11	0.11747	311	5
12	0.09378	311	5
13	0.62976	307	4
14	0.63796	307	4

	crim	zn	indus	nox	rm	age	dis	rad	tax	ptratio	b	lstat	medv
0	0.00632	18.0	2.31	0.538	6.575	65.2	4.0900	1	296	15.3	396.90	4.98	24.0
6	0.08829	12.5	7.87	0.524	6.012	66.6	5.5605	5	311	15.2	395.60	12.43	22.9
7	0.14455	12.5	7.87	0.524	6.172	96.1	5.9505	5	311	15.2	396.90	19.15	27.1
8	0.21124	12.5	7.87	0.524	5.631	100.0	6.0821	5	311	15.2	386.63	29.93	16.5
9	0.17004	12.5	7.87	0.524	6.004	85.9	6.5921	5	311	15.2	386.71	17.10	18.9

	name	age_1	age_2	age_3
0	a	1	3	2
1	b	2	5	5
2	c	3	7	2
3	d	4	9	5
4	e	5	10	6

Deep AI KhanhBlog

2.1. Khởi tạo dataframe¶

2.1.1. Khởi tạo thông qua dictionary¶

2.1.2. Khởi tạo thông qua list các dòng¶

2.1.3. Đọc dữ liệu từ file¶

2.1.4. Export to CSV, EXCEL, TXT, JSON¶

2.2. Thao tác với dataframe¶

2.2.1. Truy cập dataframe¶

2.2.2. Lọc dataframe¶

2.2.3. Sort dữ liệu¶

2.2.4. Các hàm đối với một trường¶

2.2.4.1. Min, max, mean, meadian, sum¶

2.2.4.2. Hàm cut¶

2.2.4.3. Hàm qcut¶

2.2.4.4. Apply¶

2.2.4.5. Map¶

2.2.5. Biểu đồ matplotlib trên pandas¶

2.3. Reshape dataframe trên pandas¶

2.3.1. Melt¶

2.3.2. Biến đổi Dummy¶

2.4. Thống kê theo nhóm trên pandas¶

2.4.1. df.groupby()¶

2.4.2. Pivotable¶

2.5. Join, Merge và Concatenate bảng¶

2.5.1. Các kiểu join¶

2.5.2. Câu lệnh pd.merge()¶

2.5.3. df.join()¶

2.5.4. Câu lệnh pd.concat()¶

2.5.5. append()¶

2.6. Kết nối SQL¶

2.7. Tổng kết¶

2.8. Bài tập¶

2.9. Tài liệu¶

	crim	zn	indus	chas	nox	rm	age	dis	rad	tax	ptratio	b	lstat	medv
283	0.01501	90.0	1.21	1	0.401	7.923	24.8	5.8850	1	198	13.6	395.52	3.16	50.0
225	0.52693	0.0	6.20	0	0.504	8.725	83.0	2.8944	8	307	17.4	382.00	4.63	50.0
369	5.66998	0.0	18.10	1	0.631	6.683	96.8	1.3567	24	666	20.2	375.33	3.73	50.0
370	6.53876	0.0	18.10	1	0.631	7.016	97.5	1.2024	24	666	20.2	392.05	2.96	50.0
371	9.23230	0.0	18.10	0	0.631	6.216	100.0	1.1691	24	666	20.2	366.15	9.53	50.0

	crim	indus	chas	nox	rm	age	dis	rad	tax	ptratio	b	lstat	medv
368	4.89822	18.1	0	0.631	4.970	100.0	1.3325	24	666	20.2	375.52	3.26	50.0
369	5.66998	18.1	1	0.631	6.683	96.8	1.3567	24	666	20.2	375.33	3.73	50.0
370	6.53876	18.1	1	0.631	7.016	97.5	1.2024	24	666	20.2	392.05	2.96	50.0
371	9.23230	18.1	0	0.631	6.216	100.0	1.1691	24	666	20.2	366.15	9.53	50.0
372	8.26725	18.1	1	0.668	5.875	89.6	1.1296	24	666	20.2	347.88	8.88	50.0

	crim	zn	indus	nox	rm	age	dis	rad	tax	ptratio	b	lstat	medv	tax_labels
54	0.01360	75.0	4.00	0.410	5.888	47.6	7.3197	3	469	21.1	396.90	14.80	18.9	high
111	0.10084	0.0	10.01	0.547	6.715	81.6	2.6775	6	432	17.8	395.59	10.16	22.8	high
112	0.12329	0.0	10.01	0.547	5.913	92.9	2.3534	6	432	17.8	394.95	16.21	18.8	high
113	0.22212	0.0	10.01	0.547	6.092	95.4	2.5480	6	432	17.8	396.90	17.09	18.7	high
114	0.14231	0.0	10.01	0.547	6.254	84.2	2.2565	6	432	17.8	388.74	10.45	18.5	high

	Ho	Ten	variable	value
0	Pham	Cong	ChieuCao	170.0
1	Nguyen	Dong	ChieuCao	175.0
2	Pham	Cong	CanNang	60.0
3	Nguyen	Dong	CanNang	65.0
4	Pham	Cong	Tuoi	25.0
5	Nguyen	Dong	Tuoi	27.0
6	Pham	Cong	Diem	8.5
7	Nguyen	Dong	Diem	9.0

	tax	rm
tax_labels
low	220.59420	6.52564
normal	310.29536	6.42074
high	589.03500	6.04020

tax_labels	low		normal		high
chas	0	1	0	1	0	1
rad
1	241	198	4968	0	422	0
2	1800	0	4456	0	0	0
3	6424	446	1208	0	1273	0
4	2155	0	20434	2147	12222	0
5	2853	216	22175	828	9269	2821
6	0	0	5807	0	3888	0
7	888	0	4287	0	0	0
8	0	0	5695	1535	0	0
24	0	0	0	0	82584	5328

	ID	Name	Age	Province
0	001	Pham Van Nghia	25	Nam Dinh
1	002	Tong Thuy Linh	26	Thanh Hoa
2	003	Le Van Dai	25	TP Ho Chi Minh
3	004	Tran Quang Nghia	23	Da Nang
4	005	Doan Thu Ha	22	Can Tho

	ID	Math	Physic	Chemistry	Province
0	001	6.75	8.0	7.0	Nam Dinh
1	002	9.00	9.0	9.5	Thanh Hoa
2	003	8.00	9.0	7.5	TP Ho Chi Minh
3	006	7.00	8.5	9.0	Quang Nam
4	007	10.00	9.0	10.0	Nghe An

	tax	medv
0	592.0	48.0
1	484.0	43.2
2	484.0	69.4
3	444.0	66.8
4	444.0	72.4

	ChieuCao	CanNang	Tuoi	Diem	Ho_Nguyen	Ho_Pham	Ten_Cong	Ten_Dong
0	170	60	25	8.5	0	1	1	0
1	175	65	27	9.0	1	0	0	1

	rm						tax
tax_labels	low		normal		high		low		normal		high
chas	0	1	0	1	0	1	0	1	0	1	0	1
rad
1	6.23000	7.9230	6.49553	NaN	6.54000	NaN	241	198	4968	0	422	0
2	6.08611	NaN	6.98827	NaN	NaN	NaN	1800	0	4456	0	0	0
3	6.44259	6.8055	6.38275	NaN	6.66600	NaN	6424	446	1208	0	1273	0
4	6.79033	NaN	6.10201	6.17875	5.96652	NaN	2155	0	20434	2147	12222	0
5	6.46277	7.6450	6.50922	6.07067	5.98217	6.44614	2853	216	22175	828	9269	2821
6	NaN	NaN	6.11888	NaN	6.07800	NaN	0	0	5807	0	3888	0
7	7.03025	NaN	6.53008	NaN	NaN	NaN	888	0	4287	0	0	0
8	NaN	NaN	7.02463	6.67020	NaN	NaN	0	0	5695	1535	0	0
24	NaN	NaN	NaN	NaN	5.98414	6.61137	0	0	0	0	82584	5328

	Nganh	Interest
0	d	-0.00278
1	v	-0.00396
2	p	0.00982
3	e	0.00042
4	e	-0.00710