TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN NĂM 2019 NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA DỮ LIỆU M
Trang 1TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI
PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN
NĂM 2019
NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA
DỮ LIỆU MẪU NGẪU NHIÊN BẰNG NGÔN NGỮ LẬP TRÌNH PYTHON
Sinh viên thực hiện
1 Nguyễn Phi Thái Lớp: CNTT K57 Khoa: Công nghệ thông tin
2 Trần Xuân Lâm Lớp: CNTT K57 Khoa: Công nghệ thông tin
Người hướng dẫn: ThS Phạm Thị Kim Thúy
Trang 2TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI
PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN
NĂM 2019
NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA
DỮ LIỆU MẪU NGẪU NHIÊN BẰNG NGÔN NGỮ LẬP TRÌNH PYTHON
Sinh viên thực hiện
1 Nguyễn Phi Thái Nam Dân tộc: Kinh
Lớp: CNTT K57 Khoa: Công Nghệ Thông Tin Năm thứ: 3/4
2 Trần Xuân Lâm Nam Dân tộc: Kinh
Lớp: CNTT K57 Khoa: Công Nghệ Thông Tin Năm thứ: 3/4
Người hướng dẫn: ThS Phạm Thị Kim Thúy
Trang 3LỜI CẢM ƠN
Trong quá trình thực hiện đề tài nghiên cứu này, chúng em đã được nhận nhiều sự quan tâm, giúp đỡ từ các thầy cô đang công tác tại trường đại học Giao Thông Vận Tải tại thành phố Hồ Chí Minh Chúng em cám ơn chân thành đến Ban giám đốc trường Phân Hiệu đại học Giao Thông Vận Tải tại thành phố Hồ Chí Minh đã phát động hội thi Nghiên Cứu Khoa Học Sinh Viên, nhờ đó mà chúng em có cơ hội học tập, trau dồi những kiến thức, kĩ năng và làm quen với việc nghiên cứu khoa học Đặc biệt, nhóm em chân thành cảm ơn đến cô Phạm Thị Kim Thúy luôn tận tâm chỉ bảo, lắng nghe những
ý tưởng và giúp chúng em trong quá trình thực hiện đề tài
Những thiếu sót trong đề tài nghiên cứu này không thể tránh khỏi do những hạn chế về kiến thức, kinh nghiện thực tế, nhóm mong được nhận những lời chỉ dẫn, góp ý
của quý thầy cô để đề tài thêm phần hoàn thiện hơn
Lời cuối, em xin chúc thầy cô luôn thành công trong công việc giảng dạy và luôn
Trang 4MỤC LỤC
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 2
1.1 Mô tả dữ liệu 2
1.1.1 Mô tả dữ liệu bằng phương pháp đồ thị 2
1.1.2 Mô tả dữ liệu bằng phương pháp số 4
1.1.2.1 Các số đo xu hướng trung tâm 4
1.1.2.2 Số đo hướng biến thiên 7
1.1.2.3 Đồ thị hình hộp 10
1.2 Hồi quy tuyến tính 11
1.2.1 Giới thiệu 11
1.2.2 Mô hình hồi quy tuyến tính 11
1.3 Hệ số tương quan 13
CHƯƠNG 2: GIỚI THIỆU VỀ PYTHON 15
2.1 Lập trình Python 15
2.1.1 Cài đặt anaconda để lập trình python 15
2.1.2 Cài đặt Spyder 16
2.1.3 Các thành phần trong ngôn ngữ python 17
2.2 Các thư viện hỗ trợ trong python 20
2.2.1 Cách import thư viện 20
2.2.2 Thư viện Numpy 21
2.2.3 Thư viện Pandas 23
2.2.4 Thư viện Mablotlib 24
2.2.5 Thư viện Sympy 25
CHƯƠNG 3: PYTHON TRONG XÁC SUẤT THỐNG KÊ 26
3.1 Nhập xuất dữ liệu vào file excel với thư viện pandas 26
3.1.1 Ứng dụng Python mô phỏng dữ liệu điểm thi 26
3.1.2 Nhập xuất dữ liệu thông qua file excel 27
Trang 53.2 Đánh giá dữ liệu thông qua các biểu đồ 28
3.2.1 Biểu đồ cột (Histogram) 28
3.2.2 Biểu đồ đường 31
3.2.3 Biểu đồ hình hộp (Boxplot) 31
3.2.4 Biểu đồ tán xạ 32
3.3 Xử lí dữ liệu 33
3.3.1 Các Phép toán liên quan đến phương trình đường thẳng hồi quy tuyến tính 33
3.3.2 Mô hình hóa phương trình đường thẳng hồi quy tuyến tính 34
3.3.3 Mô phỏng phương trình đường thẳng hồi quy 37
KẾT LUẬN VÀ KIẾN NGHỊ 39
1 Kết luận 39
2 Kiến nghị 40
TÀI LIỆU THAM KHẢO 41
Trang 6PHỤ LỤC BẢNG BIỂU
Bảng 2.1: Toán tử số học 18
Bảng 2.2: Toán tử quan hệ 18
Bảng 2.3: Toán tử gán 18
Bảng 2.4: Toán tử logic 19
Bảng 2.5: Toán tử membership 19
Bảng 2.6: Thứ tự ưu tiên toán tử 19
Bảng 2.7: Các phép toán hỗ trợ 22
Bảng 2.8: Các toán tử hỗ trợ 22
Bảng 3.1: Bảng điểm môn Xác suất Thống kê 26
Bảng 3.2: Danh sách các thuộc tính quan trọng 36
Trang 7PHỤ LỤC HÌNH ẢNH
Hi ̀nh 1.1: Biểu đồ tỉ lệ dân số trên Thế Giới 2
Hi ̀nh 1.2: Biểu đồ sản lượng cao su 2
Hi ̀nh 1.3: Biểu đồ cột thể hiện bảng phân bố tần số ghép lớp 3
Hi ̀nh 1.4: Vị trí các số đo trung tâm 6
Hi ̀nh 1.5: Mức phân vị thứ p 8
Hi ̀nh 1.6: Ba mức phân vị cơ bản 8
Hi ̀nh 1.7: Phạm vi tứ phân vị 9
Hi ̀nh 1.8: Các thành phần trong đồ thị hình hộp 10
Hi ̀nh 1.9: Đồ thị hình hộp 10
Hi ̀nh 1.10: Hồi quy tuyến tính 12
Hi ̀nh 2.1: Giao diện của ANACONDA 15
Hi ̀nh 2.2: Thêm environment trong ANACONDA 15
Hi ̀nh 2.3: Công cụ trên ANACONDA 16
Hi ̀nh 2.4: Giao diện spyder 16
Hi ̀nh 2.5: Đồ thị Boxplot 23
Hi ̀nh 2.6: Phương trình đường thẳng 24
Hi ̀nh 2.7: Đồ thị tán xạ 24
Hi ̀nh 2.8: Đường nối các điểm dữ liệu 25
Hi ̀nh 3.2: Biểu đồ cột ứng với điểm môn Xác xuất Thống kê 29
Hi ̀nh 3.2: Mô tả tần số xuất hiện của điểm sinh viên 29
Hi ̀nh 3.3: Biểu đồ histogram dưới dạng mật độ 30
Hi ̀nh 3.4: Biểu đồ tần suất điểm kết thúc học phần 30
Hi ̀nh 3.5: Biểu đồ tần suất điểm thành phần 31
Hi ̀nh 3.6: Biểu đồ đường 31
Hi ̀nh 3.7: Biểu đồ hình hộp (Boxplot) 32
Hi ̀nh 3.8: Biểu đồ tán xạ 32
Hi ̀nh 3.9: Phương trình đường thẳng hồi quy 37
Trang 8TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI
PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH
THÔNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI
1 Thông tin chung
- Tên đề tài:
NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA
DỮ LIỆU MẪU NGẪU NHIÊN BẰNG NGÔN NGỮ LẬP TRÌNH PYTHON
- Sinh viên thực hiện:
1 Nguyễn Phi Thái Lớp: CNTT K57
Khoa: Công Nghệ Thông Tin Năm thứ: 3 Số năm đào tạo: 4
2 Trần Xuân Lâm Lớp: CNTT K57
Khoa: Công Nghệ Thông Tin Năm thứ: 3 Số năm đào tạo: 4
- Người hướng dẫn: ThS Phạm Thị Kim Thúy
2 Mục tiêu đề tài
Dùng phương pháp lập trình, cụ thể là lập trình với ngôn ngữ python để tính các đặc trưng bằng số là kì vọng, phương sai, … Sau đó vẽ các dạng đồ thị để minh họa dữ liệu ngẫu nhiên trong thông kê
Ứng dụng Python để phân tích các mẫu nghiên cứu thông qua các dạng đồ thị như
đồ thị histogram, boxplot, …
3 Tính mới và sáng tạo
Hiện nay việc học tập của sinh viên trong các môn Xác suất thống kê khá cứng nhắc Sinh viên chủ yếu biết kiến thức Xác suất Thống kê thông qua sách vở và sự truyền đạt của giáo viên
Đề tài này sẽ trình bày cơ sở lý thuyết Xác suất thống kê, lập trình với ngôn ngữ Phython Từ đó áp dụng lập trình để xử lí các bài toán thống kê Kết quả sau khi xử lí sẽ được mô phỏng bằng các dạng đồ thị để sinh viên có thể tiếp cận với kiến thức xác suất thống kê một cách trực quan và dễ hình dung nhất, người dạy có thể dẽ dàng truyền đạt kiến thức Xác Suất Thống Kê đến sinh viên
Trang 94 Kết quả nghiên cứu
Dùng lập trình trên ngôn ngữ Python để mô phỏng bài toán thống kê cụ thể là phương trình hồi quy tuyến tính
Đánh giá được các dữ liệu thông qua các dạng đồ thị: Đồ thị hình cột (histogram),
đồ thị hình hộp (boxplot),
5 Đóng góp về mặt kinh tế - xã hội, giáo dục và đào tạo, an ninh, quốc phòng
và khả năng áp dụng của đề tài
Việc phân tích dữ liệu rất là quan trọng trong các lĩnh vực kinh tế - xã hội, giáo dục và đào tạo, an ninh, quốc phòng, …
Mô phỏng dữ liệu bằng phương pháp hình học giúp cho chúng ta có thể hình dung được các mẫu dữ liệu một cách trực quan, dễ dàng Từ đó, chúng ta có thể đưa ra những kết luận về về dữ liệu
Mô phỏng dữ liệu bằng phương pháp hình học giúp cho sinh viên dễ hình dung hơn về kiến thức Xác suất - Thống kê, Nó là nền tảng để thực hiện những công việc, lĩnh vực khác như xử lí ảnh, phân tích dữ liệu, …
6 Công bố khoa học của sinh viên từ kết quả nghiên cứu của đề tài (ghi rõ họ
tên tác giả, nhan đề và các yếu tố về xuất bản nếu có) hoặc nhận xét, đánh giá của cơ sở
đã áp dụng các kết quả nghiên cứu (nếu có):
thực hiện đề tài (phần này do người hướng dẫn ghi): Trên cơ sở lý thuyết Xác suất
Thống kê; Mối liên hệ giữa lý thuyết và thực hành Từ đó, đề tài đã mô phỏng mẫu ngẫu
Trang 10nhiên bằng lập trình với ngôn ngữ Python để đánh giá dữ liệu một cách trực quan và dễ hình dung nhất
Ngày 12 tháng 04 năm 2019
Người hướng dẫn
(ký, họ và tên)
Phạm Thị Kim Thúy
Trang 11
PHẦN MỞ ĐẦU
1 Tổng quan về tình hình nghiên cứu thuộc lĩnh vực của đề tài
Ngôn ngữ lập trình Python được nghiên cứu từ những thập niên 90 của thế kỉ trước Mặt khác, mô hình hóa dữ liệu mẫu ngẫu nhiên là vấn đề rất cần thiết trong các bài toán kinh tế, kĩ thuật,… Do đó, việc lựa chọn đề tài là phù hợp cho đối tượng sinh viên Phân hiệu thuộc ngành công nghệ thông tin
2 Lý do lựa chọn đề tài
Trong thời đại 4.0, công nghệ thông tin có vai trò rất quan trọng trong tự động
hóa và trao đổi dữ liệu Đáp ứng với xu hướng đó, việc áp dụng kiến thức công nghệ thông tin để giải quyết các bài toán rất quan trọng, cụ thể là bài toán xác suất thống kê
Vì vậy, đề tài này chọn phương pháp lập trình với ngôn ngữ python để mô hình hóa mẫu
dữ liệu mẫu ngẫu nhiên Việc mô tả dữ liệu bằng phương pháp này có vai trò quan trọng,
nó giúp cho chúng ta phân tích được những đặc tính của dữ liệu, mối quan hệ giữa các mẫu khác nhau Từ đó đưa ra được kết quả chính xác cho mẫu dữ liệu
4 Phương pháp nghiên cứu
Phương pháp thu thập và xử lý số liệu từ thực nghiệm
5 Đối tượng và phạm vi nghiên cứu
Phạm vi nghiên cứu là xử lý và mô phỏng dữ liệu thông qua ngôn ngữ python Đối tượng nghiên cứu là sinh viên công nghệ thông tin K57 thuộc phân hiệu Đại học Giao thông Vận tải
Trang 12CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Mô tả dữ liệu
1.1.1 Mô tả dữ liệu bằng phương pháp đồ thị
Với dữ liệu nhận được của một biến định lượng Bước đầu tiên trong việc mô tả chúng là phân dữ liệu thành các lớp sao cho mỗi một số liệu được đưa vào một lớp Biểu
đồ đầu tiên được sử dụng là biểu đồ hình quạt
Biểu đồ hình quạt giúp cho việc so sánh giữa các thành phần với nhau và so sánh chúng với toàn thể dữ liệu được phân theo nhóm
Ví dụ: Biểu đồ tỉ lệ dân số trên thế giới
Phương pháp biểu đồ thứ hai là biểu đồ hình thanh Nó sẽ gán nhãn dữ liệu theo hai trục: Trục tung và trục hoành Trên trục hoành (Ox) có các thanh (cột) với chiều cao tương ứng với giá trị bên trục tung (Oy) Giữa các cột chữ nhật có sự phân biệt để làm
rõ sự khác nhau giữa các lớp Ví dụ, biểu đồ sản lượng cao su qua các năm (từ 1995- 2007)
Hi ̀nh 1.2: Biểu đồ sản lượng cao su
Hi ̀nh 1.1: Biểu đồ tỉ lệ dân số trên Thế Giới
Trang 13Chúng ta có rất nhiều biến thể của biểu đồ, tùy thuộc vào mục đích sử dụng của nó như: Biểu đồ cột đơn, cột kép, biểu đồ cột chồng, … Mục đích của chúng là so sánh các giá trị dữ liệu với nhau Như ví dụ ở trên, so sánh các giá trị sản lượng cao su qua các năm từ năm 1995 đến năm 2007
Hai dạng đồ thị tiếp theo là đồ thị tần số và đồ thị tần suất Để thành lập các đồ thị này thì các giá trị định lượng cần phải phân thành các lớp bằng cách chia theo khoảng
dữ liệu (từ nhỏ nhất đến lớn nhất) thành một số khoảng con, thường thì 5-20 khoảng con Cụ thể hình minh họa như sau:
Hi ̀nh 1.3: Biểu đồ cột thể hiện bảng phân bố tần số ghép lớp
Sau khi dữ liệu được phân lớp bằng bảng tần số hay tần suất, ta xây dựng các dạng
đồ thị này bằng cách gán trục hoành cho tần số hoặc tần suất và vẽ trong các khoảng con xác định lớp đó với chiều cao chính là tần số hay mật độ
Trong thống kê, biểu đồ tần suất và biểu đồ tần số là phương pháp mô tả bằng đồ thị quan trọng nhất Nếu ta xây dựng đồ thị tần số hoặc tần suất với nhiều lớp hơn Đồng nghĩa là dùng nhiều khoảng con với chiều dài nhỏ hơn, người ta có thể xấp xỉ bằng một đường cong trơn và đường cong này đối với biểu đồ tần suất có liên quan đến hàm phân phối xác suất của biến ngẫu nhiên
Biểu đồ này thích hợp cho việc phân tích các mẫu lớn gồm nhiều phần tử, chẳng hạn như trên 50 phần tử
Biểu đồ tần suất dùng đến tỷ lệ thay vì một số lượng cụ thể, nên nó rất tiện lợi trong việc so sánh các tập mẫu khác nhau với số lượng khác nhau Việc so sánh này giúp chúng ta đặt ra bài toán cho thống kê suy diễn thông qua các ước lượng tham số, kiểm
Trang 14định giả thuyết thống kê Chẳng hạn như việc kiểm định xem hai bộ dữ liệu có sử dụng chung một giả thiết thống kê hay không
Phương pháp đồ thị tiếp theo là đồ thị cành-lá được giáo sư John Tukey đề xuất trong lĩnh vực phân tích thăm dò Nó cũng mô tả được tần số, sự tập trung các số liệu
và hình dáng của phân bố số liệu như của biểu đồ tần số Nhưng nó không phù hợp với những bài toán với dữ liệu lớn Bài toán trong đề tài đang hướng đến là bài toán có dữ liệu lớn nên không xét đến phương pháp đồ thị này
1.1.2 Mô tả dữ liệu bằng phương pháp số
Phương pháp số mô tả dữ liệu bằng một các số đo gọi là các số đo mô tả Có hai
loại là số đo hướng trung tâm và số đo hướng biến thiên Các số đo xu hướng trung tâm
nhằm mô tả vị trí trung tâm của dữ liệu còn các số đo xu hướng biến thiên nhằm mô tả những dữ liệu xung quanh vị trí trung tâm
1.1.2.1 Các số đo xu hướng trung tâm
Số đo xu hướng trung tâm đầu tiên được khảo sát là mode Mode của một bộ dữ liệu là số liệu xuất hiện với tần số cao nhất, tức nó xuất hiện nhiều nhất trong bộ dữ liệu Mode thường dùng như số đo phản ảnh tính phổ biến của dữ liệu Chẳng hạn như cổ phiếu được ưa chuộng nhất, loại máy giặt dùng nhiều nhất, ứng cử viên được yêu thích nhất, …
Ví dụ: Với mẫu dữ liệu điểm Xác Suất Thống Kê sinh viên được sắp xếp tăng dần
Trang 15Với số liệu nhỏ thì ta thường quy ước nó như sau: Dữ liệu được sắp xếp từ nhỏ đến
lớn với n số liệu, nếu n lẻ thì trung vị được xác định theo công thức 1
2
n , n chẵn thì
được xác định theo tổng trung bình cộng giữa
2
n
và 12
n Như số liệu ở trên gồm 60 số liệu, vậy n = 60 (chẵn), tức trung bình cộng của số hạng thứ 30 và 31 lần lượt là 4.4 và 4.4, trung vị của nó là:
4.4 4.4
4.42
y N
n: kích thước của mẫu được chọn ngẫu nhiên từ tổng thể
Trong thực tế, ta không thể tìm được giá trị trung bình tổng thể của tất cả dữ liệu
mà chỉ tìm được giá trị trung bình của mẫu dữ liệu được chọn ngẫu nhiên từ tổng thể
Vì vậy, bài toán ước lượng cho giá trị trung bình là một trong những phương pháp tối
ưu để tìm được giá trị trung bình của tổng thể với độ tin cậy cao Giá trị trung bình thường được dùng cho giá trị trung tâm của số liệu nhưng nó bị tác động bởi tất cả các
số liệu Do đó, giá trị bất thường của dữ liệu sẽ làm thay đổi đáng kể so với giá trị trung
bình của dữ liệu Một phiên bản trung bình khác như: trung bình chặt cụt (TM) Đây là
giá trị trung bình khi người ta bỏ bớt đi một phần ở biên có giá trị lớn nhất và giá trị nhỏ nhất (các dữ liệu ngoại biên)
Ví dụ, ở trên có 60 giá trị, giả sử ta thấy có 10 giá trị trái (nhỏ nhất) và 10 giá trị phải (lớn nhất) bất thường so với những giá trị còn lại (nhỏ hơn, hoặc lớn hơn quá nhiều
so với 40 giá trị khác), chúng ta tiến hành loại bỏ 20 giá trị đó đi để còn lại 40 giá trị tin cậy hơn, giá trị trung bình cũng tin cậy hơn
Trang 16Theo định nghĩa giới hạn, trung vị được xem là trung bình chặt cụt 50% Do vậy trung vị thường được dùng thay cho trung bình khi tồn tại nhiều giá trị bất thường cực biên trong tập dữ liệu
Ở trên, ta đã nói đến: mode, trung vị, trung bình, trung bình chặt cụt Sự tương
quan giữa các giá trị này đều phụ thuộc vào độ lệch của dữ liệu Nếu dữ liệu dạng hình
chuông, tức các giá trị đối xứng qua một đỉnh duy nhất thì mode (𝑀0), trung vị (M d), trung bình μ, trung bình chặt cụt (TM) trùng nhau
Tính tương quan của mode (𝑀0), trung vị (M d), trung bình μ, trung bình chặt cụt (TM) Các giá trị được minh họa thông qua đồ thị sau:
Hi ̀nh 1.4: Vị trí các số đo trung tâm
Đồ thị lệch trái có thì có mode > trung vị > trung bình
Đồ thị lệch phải có mode < trung vị < trung bình
Trung bình chặt cụt loại bỏ đi những giá trị lớn nhất và bé nhất nên nó thường nằm giữa trung vị và trung bình
Vì vậy, chúng ta không nên quy định giới hạn trong việc sử dụng những số đo duy nhất để tính toán, mà cần linh hoạt giữa các số đo này
Các đặc trưng của các số đo xu hướng trung tâm:
Trung tâm mode
Trang 17 Số liệu xuất hiện nhiều nhất trong dữ liệu
Có thể có nhiều hơn 1 mode cho dữ liệu
Không ảnh hưởng từ những giá trị bất thường cực biên
Mode của mẫu con không thể kết hợp để suy ra mode của mẫu
Mode có thể thay đổi được tùy vào phương thức phân lớp của dữ liệu
Nó có thể sử dụng những dữ liệu định tính hay định lượng
Trung vị
Số lượng nằm giữa dữ liệu
Trung vị là duy nhất
Không bị ảnh hưởng các số liệu bất thường từ cực biên
Trung vị mẫu con không thể kết hợp để ra trung vị của mẫu
Chỉ dùng cho dữ liệu định lượng
Chỉ dùng với những dữ liệu định lượng
1.1.2.2 Số đo hướng biến thiên
Số đo xu hướng trung tâm (giá trị trung bình, mode, trung vị, trung bình chặt cụt) chưa phản ánh tốt đến phân phối tần số của tập dữ liệu Ngoài việc xác định vị trí trung tâm của phân phối, ta còn phải xác định sự phân bố của dữ liệu
Giả sử, cho bài toán kiểm tra xem độ dày của tấm plastic đã đạt chuẩn là 3mm Nếu ta chọn ra 200 tấm để kiểm tra và kết quả thu về chỉ nhờ vào những số đo xu hướng trung tâm ở trên, chẳng hạn như độ dày trung bình Kết quả kiểm tra đúng, tấm plastis
có độ dày trung bình là 3mm, nhưng độ lệch giữa các dữ liệu đáng kể Vô hình trung, nhà thống kê bỏ quên đi sự phân bố của các mẫu dữ liệu
Chúng ta đã biết các dữ liệu trong mẫu luôn có xu hướng biến thiên, có nghĩa là giữa các giá trị trong mẫu sẽ có tính tăng hoặc giảm, biến động đối với nhau
Trang 18Số đo đầu tiên để xác định sự phân bố dữ liệu là phạm vi Nó là độ lệch giữa dữ liệu lớn nhất và nhỏ nhất Từ ví dụ trên về điểm của môn Xác Suất Thống Kê thì phạm
vi là: 9.7 - 1.0 = 8.7
Phạm vi rất dễ dàng tìm kiếm, nhưng nó rất nhạy cảm với các giá trị bất thường ở biên Phạm vi không cung cấp thông tin về độ biến thiên dữ liệu, mà chỉ là độ lệch giữa giá trị lớn nhất và giá trị nhỏ nhất
Quay trở lại với ví dụ về điểm sinh viên, nếu ta thay bằng mẫu khác nhưng điểm nhỏ nhất, điểm lớn nhất vẫn giữ nguyên thì tổng các giá trị trong mẫu cũng không đổi,
vì vậy phạm vi và trung bình cũng không thay đổi Nhưng bên trong dữ liệu mới có độ phân tán khác hơn nhiều so với mẫu cũ Do đó cần có một tính số đo khác để đo xu hướng biến thiên của dữ liệu
Số đo thứ hai là phân vị, phân vị thứ p của tập dữ liệu sắp xếp tăng dần là giá trị
mà có nhiều nhất p% số liệu nhỏ hơn nó và (100 - p) % số liệu lớn hơn nó
Trang 19Trong đồ thị trên: Q1 là mức phân vị thứ 25, Q2 là trung vị (phân vị thứ 50), Q3 là phân
vị thứ 75 Từ khái niệm về tứ phân vị ta có phạm vi về tứ phân vị
Phạm vi của tứ phân vị là khoảng cách giữa phân vị thứ 75 và phân vị thứ 25
IQRQ Q Phạm vi tứ phân vị đánh giá tốt hơn về mặt phân bố dữ liệu quanh điểm giữa tốt hơn so với phạm vi nhưng nó vẫn chưa đánh giá được tốt về xu hướng biến thiên Lấy ví dụ, điểm số của 10 sinh viên:
Vậy phạm vi phân vị sẽ là: 7 7 0 Điều này không phù hợp mới một biến có xu hướng biến thiên Xu hướng biến thiên bằng 0 gọi là hằng, điểm sinh viên không tăng không có nghĩa là hằng Ta có thể thấy rõ ràng, phạm vi phân vị sẽ bỏ qua những giá trị
nằm ở hai biên Nó không cung cấp nhiều thông tin biến thiên nhưng nó sẽ hữu ích trong việc so sánh biến thiên của hai hay nhiều bộ dữ liệu, đặc biệt khi các bộ dự liệu có độ lệch khác nhau Vậy, chúng ta cần có năm giá trị để có được mô tả chấp nhận được như sau:
Trang 20trung bình tuyệt đối của độ lệch Nhưng thông thường nhất phương sai được tính bằng tổng trung bình bình phương độ lệch
Công thức như sau:
2
1
i i
y y s
s là phương sai mẫu
Tuy vậy việc sử dụng độ lệch tiêu chuẩn để làm thước đo cho độ biến thiên có thể không đúng so với một tổng thể khác có phạm vị lớn hơn hoặc nhỏ hơn
Trang 21Biểu đồ hình hộp cho phép chung ta biết được các giá trị: Min, Q(25), Q(50), Q(75), Max Ngoài ra, ta có thể biết được phạm vi, phạm vi của tứ phân vị
Biểu đồ này còn cho phép chúng ta đánh giá được độ lệch của dữ liệu so với trung
Hồi quy tuyến tính là mô hình cơ bản trong phân tích hồi quy Phương trình của nó:
Trong đó x gọi là biến độc lập, Y gọi là biến phụ thuộc, các hệ số β0, β1 lần lượt gọi
là hệ số tự do, hệ số dốc, và là sai số và được mô tả như một biến chuẩn có kỳ vọng
0 và phương sai σ2
1.2.2 Mô hình hồi quy tuyến tính
Trường hợp hồi quy tuyến tính, ta xem xét một biến hồi quy, biến dự báo hoặc biến
phụ thuộc Y Giả sử rằng mối liên hệ giữa Y và x có dạng đường thẳng và quan sát Y tại giá trị x là:
Trang 22Với các hệ số β0 , β1 là các hệ số hồi quy Giả sử rằng mỗi quan sát Y có thể được
mô tả bởi mô hình như công thức (1.2) với là sai số ngẫu nhiên
Giả sử rằng ta có n cặp quan sát (x1,y1), (x2,y2), ,(x n ,y n) các giá trị Ta xác định các
hệ số hồi quy sao cho đường thẳng y = β0 +β1x đi qua n điểm quan sát với sai số ít nhất
có thể Sử dụng phương trình (1.3), ta có thể biểu diễn n quan sát mẫu như sau:
Là phần dư hay sai số giữa giá trị thực nghiệm và giá trị lý thuyết Phần dư mô tả
sai số của sự phù hợp với mô hình của quan sát thứ i Giá trị ước lượng của hệ số hồi quy β0, β1 ký hiệu tương ứng là βˆ0, βˆ1 Các giá trị ước lượng này được xác định sao cho tổng bình phương các phần dư là nhỏ nhất có thể Ta có tổng bình phương các phần dư này là nhỏ nhất Ta có tổng bình phương các sai số này là:
0, βˆ1 là điểm dừng của hàm hai biến này hay là nghiệm của hệ phương trình sau:
Hi ̀nh 1.10: Hồi quy tuyến tính
Trang 23
1 0
1 1
nhiên hai chiều (X,Y ) và
x y i, i
,i 1, 2, ,n là một mẫu thực nghiệmPhân tích tương quan là tìm mối liên hệ giữa hai biến ngẫu nhiên Ta biết trong lý thuyết xác suất người ta xét đến hệ số tương quan để đo mức độ phụ thuộc giữa các biến Công thức tính hệ số tương quan:
xy
xx yy
S r
n y
Tổng quát, hệ số tương quan r là số dương nếu y tăng khi x tăng và âm nếu y giảm
và x tăng; r sẽ gần bằng 0 khi không có quan hệ giữa x và y hay khi y và x có mối quan
hệ phi tuyến với nhau
Trang 24Một số tính chất của r sẽ giúp ta mô tả sự liên hệ giữa hai biến như sau:
- Giá trị dương của r cho thấy mối quan hệ đồng biến giữa hai biến, giá trị âm của r cho thấy mối quan hệ nghịch biến
- Giá trị của r nằm trong khoảng -1 đến +1 Khi giá trị của r rất gần với 1, các điểm dữ liệu sẽ nằm gần với một đường thẳng
- Do các biến đã được chuẩn hóa trong công thức tính hệ số tương quan nên giá trị của r sẽ không đổi khi ta thay đổi đơn vị đo của x và y Với bất cứ đơn vị nào, giá trị của r không đổi Hệ số tương quan là số đo biểu thị sự liên kết và không có đơn vị
- Hệ số tương quan đo lường quan hệ tuyến tính giữa hai biến nhưng nó không
mô tả mức độ gần của điểm dữ liệu (x, y) tới các đường cong xấp xỉ
Trang 25CHƯƠNG 2: GIỚI THIỆU VỀ PYTHON 2.1 Lập trình Python
2.1.1 Cài đặt anaconda để lập trình python
Chúng ta không nhất thiết phải cài anaconda mới lập trình được python, Anaconda
là một phần mềm giúp cho việc quản lí các Project dễ dàng hơn Có rất nhiều tài liệu liên quan đến nó, xem thêm tại: https://docs.anaconda.com/
Giao diện trong anaconda có dạng:
Sau khi cài đặt xong, chúng ta chọn vào phần mềm mình cần cài đặt và nhấn vào lauch trong đó có phần mềm Spyder, Rstudio, … Anaconda cung cấp nhiều thư viện có sẵn hỗ trợ cho việc làm toán bao gồm các thư viện numpy, matplotlib, pandas, scipy,
stats, statistics, seaborn, sympy và scikit-learn
Có nhiều cách để thêm một thư viện hỗ trợ trong lập trình python, dễ dàng nhất là tìm trong environment để tìm kiếm những thư viện cần thiết
Hi ̀nh 2.2: Thêm environment trong ANACONDA
Hi ̀nh 2.1: Giao diện của ANACONDA
Trang 26Hoặc chúng ta tải thêm pip hỗ trợ thêm thư viện thông qua màn hình console Tham khảo thêm tại: https://www.w3schools.com/python/python_pip.asp
Hi ̀nh 2.3: Công cụ trên ANACONDA
Giao diện chính của spyder:
Hi ̀nh 2.4: Giao diện spyder
Trang 272.1.3 Các thành phần trong ngôn ngữ python
Ngôn ngữ lập trình cũng như ngôn ngữ tự nhiên của con người, tất cả đều có các
thành phần cấu tạo nên nó Các thành phần của python gồm có chú thích (comment), biến (variable), giá trị (value), toán tử (operator), từ khóa (keyword)
a) Chú thích (comment)
Chú thích dùng để ghi chú của người viết để cho người đọc có thể hình dung được
Nó không ảnh hưởng đến trình thông dịch Để biến một dòng thành chú thích thì chúng
Khi đặt tên biến, cần kiểm tra xem biến đó có hợp lệ hay không Một số tên biến hợp lệ: 12Val,exx$
Tên biến trong Python phân biệt chữ hoa và thường, tức là Value, value,
và VAlue là các biến khác nhau
c) Giá trị
Giá trị là đại lượng gắn liền với biến đó
Ví dụ: Biến name có giá trị là “Nguyễn Phi Thái”, và age có giá trị là 21
name = "Nguyen Phi Thai"
Trang 29Bảng 2.4: Toán tử logic
Toán tử membership là toán tử kiểm tra xem biến này có phải là thành viên của biến khác hay không
Bảng 2.5: Toán tử membership
Thứ tự ưu tiên toán tử
Bảng 2.6: Thứ tự ưu tiên toán tử
e) Khối lệnh