Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình python đề tài nghiên cứu khoa học sinh viên

TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN NĂM 2019 NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA DỮ LIỆU M

Trang 1

TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI

PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT

ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN

NĂM 2019

NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA

DỮ LIỆU MẪU NGẪU NHIÊN BẰNG NGÔN NGỮ LẬP TRÌNH PYTHON

Sinh viên thực hiện

1 Nguyễn Phi Thái Lớp: CNTT K57 Khoa: Công nghệ thông tin

2 Trần Xuân Lâm Lớp: CNTT K57 Khoa: Công nghệ thông tin

Người hướng dẫn: ThS Phạm Thị Kim Thúy

Trang 2

BÁO CÁO TỔNG KẾT

ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN

NĂM 2019

NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA

DỮ LIỆU MẪU NGẪU NHIÊN BẰNG NGÔN NGỮ LẬP TRÌNH PYTHON

Sinh viên thực hiện

1 Nguyễn Phi Thái Nam Dân tộc: Kinh

Lớp: CNTT K57 Khoa: Công Nghệ Thông Tin Năm thứ: 3/4

2 Trần Xuân Lâm Nam Dân tộc: Kinh

Lớp: CNTT K57 Khoa: Công Nghệ Thông Tin Năm thứ: 3/4

Người hướng dẫn: ThS Phạm Thị Kim Thúy

Trang 3

LỜI CẢM ƠN

Trong quá trình thực hiện đề tài nghiên cứu này, chúng em đã được nhận nhiều sự quan tâm, giúp đỡ từ các thầy cô đang công tác tại trường đại học Giao Thông Vận Tải tại thành phố Hồ Chí Minh Chúng em cám ơn chân thành đến Ban giám đốc trường Phân Hiệu đại học Giao Thông Vận Tải tại thành phố Hồ Chí Minh đã phát động hội thi Nghiên Cứu Khoa Học Sinh Viên, nhờ đó mà chúng em có cơ hội học tập, trau dồi những kiến thức, kĩ năng và làm quen với việc nghiên cứu khoa học Đặc biệt, nhóm em chân thành cảm ơn đến cô Phạm Thị Kim Thúy luôn tận tâm chỉ bảo, lắng nghe những

ý tưởng và giúp chúng em trong quá trình thực hiện đề tài

Những thiếu sót trong đề tài nghiên cứu này không thể tránh khỏi do những hạn chế về kiến thức, kinh nghiện thực tế, nhóm mong được nhận những lời chỉ dẫn, góp ý

của quý thầy cô để đề tài thêm phần hoàn thiện hơn

Lời cuối, em xin chúc thầy cô luôn thành công trong công việc giảng dạy và luôn

Trang 4

MỤC LỤC

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 2

1.1 Mô tả dữ liệu 2

1.1.1 Mô tả dữ liệu bằng phương pháp đồ thị 2

1.1.2 Mô tả dữ liệu bằng phương pháp số 4

1.1.2.1 Các số đo xu hướng trung tâm 4

1.1.2.2 Số đo hướng biến thiên 7

1.1.2.3 Đồ thị hình hộp 10

1.2 Hồi quy tuyến tính 11

1.2.1 Giới thiệu 11

1.2.2 Mô hình hồi quy tuyến tính 11

1.3 Hệ số tương quan 13

CHƯƠNG 2: GIỚI THIỆU VỀ PYTHON 15

2.1 Lập trình Python 15

2.1.1 Cài đặt anaconda để lập trình python 15

2.1.2 Cài đặt Spyder 16

2.1.3 Các thành phần trong ngôn ngữ python 17

2.2 Các thư viện hỗ trợ trong python 20

2.2.1 Cách import thư viện 20

2.2.2 Thư viện Numpy 21

2.2.3 Thư viện Pandas 23

2.2.4 Thư viện Mablotlib 24

2.2.5 Thư viện Sympy 25

CHƯƠNG 3: PYTHON TRONG XÁC SUẤT THỐNG KÊ 26

3.1 Nhập xuất dữ liệu vào file excel với thư viện pandas 26

3.1.1 Ứng dụng Python mô phỏng dữ liệu điểm thi 26

3.1.2 Nhập xuất dữ liệu thông qua file excel 27

Trang 5

3.2 Đánh giá dữ liệu thông qua các biểu đồ 28

3.2.1 Biểu đồ cột (Histogram) 28

3.2.2 Biểu đồ đường 31

3.2.3 Biểu đồ hình hộp (Boxplot) 31

3.2.4 Biểu đồ tán xạ 32

3.3 Xử lí dữ liệu 33

3.3.1 Các Phép toán liên quan đến phương trình đường thẳng hồi quy tuyến tính 33

3.3.2 Mô hình hóa phương trình đường thẳng hồi quy tuyến tính 34

3.3.3 Mô phỏng phương trình đường thẳng hồi quy 37

KẾT LUẬN VÀ KIẾN NGHỊ 39

1 Kết luận 39

2 Kiến nghị 40

TÀI LIỆU THAM KHẢO 41

Trang 6

PHỤ LỤC BẢNG BIỂU

Bảng 2.1: Toán tử số học 18

Bảng 2.2: Toán tử quan hệ 18

Bảng 2.3: Toán tử gán 18

Bảng 2.4: Toán tử logic 19

Bảng 2.5: Toán tử membership 19

Bảng 2.6: Thứ tự ưu tiên toán tử 19

Bảng 2.7: Các phép toán hỗ trợ 22

Bảng 2.8: Các toán tử hỗ trợ 22

Bảng 3.1: Bảng điểm môn Xác suất Thống kê 26

Bảng 3.2: Danh sách các thuộc tính quan trọng 36

Trang 7

PHỤ LỤC HÌNH ẢNH

Hi ̀nh 1.1: Biểu đồ tỉ lệ dân số trên Thế Giới 2

Hi ̀nh 1.2: Biểu đồ sản lượng cao su 2

Hi ̀nh 1.3: Biểu đồ cột thể hiện bảng phân bố tần số ghép lớp 3

Hi ̀nh 1.4: Vị trí các số đo trung tâm 6

Hi ̀nh 1.5: Mức phân vị thứ p 8

Hi ̀nh 1.6: Ba mức phân vị cơ bản 8

Hi ̀nh 1.7: Phạm vi tứ phân vị 9

Hi ̀nh 1.8: Các thành phần trong đồ thị hình hộp 10

Hi ̀nh 1.9: Đồ thị hình hộp 10

Hi ̀nh 1.10: Hồi quy tuyến tính 12

Hi ̀nh 2.1: Giao diện của ANACONDA 15

Hi ̀nh 2.2: Thêm environment trong ANACONDA 15

Hi ̀nh 2.3: Công cụ trên ANACONDA 16

Hi ̀nh 2.4: Giao diện spyder 16

Hi ̀nh 2.5: Đồ thị Boxplot 23

Hi ̀nh 2.6: Phương trình đường thẳng 24

Hi ̀nh 2.7: Đồ thị tán xạ 24

Hi ̀nh 2.8: Đường nối các điểm dữ liệu 25

Hi ̀nh 3.2: Biểu đồ cột ứng với điểm môn Xác xuất Thống kê 29

Hi ̀nh 3.2: Mô tả tần số xuất hiện của điểm sinh viên 29

Hi ̀nh 3.3: Biểu đồ histogram dưới dạng mật độ 30

Hi ̀nh 3.4: Biểu đồ tần suất điểm kết thúc học phần 30

Hi ̀nh 3.5: Biểu đồ tần suất điểm thành phần 31

Hi ̀nh 3.6: Biểu đồ đường 31

Hi ̀nh 3.7: Biểu đồ hình hộp (Boxplot) 32

Hi ̀nh 3.8: Biểu đồ tán xạ 32

Hi ̀nh 3.9: Phương trình đường thẳng hồi quy 37

Trang 8

THÔNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI

1 Thông tin chung

- Tên đề tài:

NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA

DỮ LIỆU MẪU NGẪU NHIÊN BẰNG NGÔN NGỮ LẬP TRÌNH PYTHON

- Sinh viên thực hiện:

1 Nguyễn Phi Thái Lớp: CNTT K57

Khoa: Công Nghệ Thông Tin Năm thứ: 3 Số năm đào tạo: 4

2 Trần Xuân Lâm Lớp: CNTT K57

Khoa: Công Nghệ Thông Tin Năm thứ: 3 Số năm đào tạo: 4

- Người hướng dẫn: ThS Phạm Thị Kim Thúy

2 Mục tiêu đề tài

Dùng phương pháp lập trình, cụ thể là lập trình với ngôn ngữ python để tính các đặc trưng bằng số là kì vọng, phương sai, … Sau đó vẽ các dạng đồ thị để minh họa dữ liệu ngẫu nhiên trong thông kê

Ứng dụng Python để phân tích các mẫu nghiên cứu thông qua các dạng đồ thị như

đồ thị histogram, boxplot, …

3 Tính mới và sáng tạo

Hiện nay việc học tập của sinh viên trong các môn Xác suất thống kê khá cứng nhắc Sinh viên chủ yếu biết kiến thức Xác suất Thống kê thông qua sách vở và sự truyền đạt của giáo viên

Đề tài này sẽ trình bày cơ sở lý thuyết Xác suất thống kê, lập trình với ngôn ngữ Phython Từ đó áp dụng lập trình để xử lí các bài toán thống kê Kết quả sau khi xử lí sẽ được mô phỏng bằng các dạng đồ thị để sinh viên có thể tiếp cận với kiến thức xác suất thống kê một cách trực quan và dễ hình dung nhất, người dạy có thể dẽ dàng truyền đạt kiến thức Xác Suất Thống Kê đến sinh viên

Trang 9

4 Kết quả nghiên cứu

Dùng lập trình trên ngôn ngữ Python để mô phỏng bài toán thống kê cụ thể là phương trình hồi quy tuyến tính

Đánh giá được các dữ liệu thông qua các dạng đồ thị: Đồ thị hình cột (histogram),

đồ thị hình hộp (boxplot),

5 Đóng góp về mặt kinh tế - xã hội, giáo dục và đào tạo, an ninh, quốc phòng

và khả năng áp dụng của đề tài

Việc phân tích dữ liệu rất là quan trọng trong các lĩnh vực kinh tế - xã hội, giáo dục và đào tạo, an ninh, quốc phòng, …

Mô phỏng dữ liệu bằng phương pháp hình học giúp cho chúng ta có thể hình dung được các mẫu dữ liệu một cách trực quan, dễ dàng Từ đó, chúng ta có thể đưa ra những kết luận về về dữ liệu

Mô phỏng dữ liệu bằng phương pháp hình học giúp cho sinh viên dễ hình dung hơn về kiến thức Xác suất - Thống kê, Nó là nền tảng để thực hiện những công việc, lĩnh vực khác như xử lí ảnh, phân tích dữ liệu, …

6 Công bố khoa học của sinh viên từ kết quả nghiên cứu của đề tài (ghi rõ họ

tên tác giả, nhan đề và các yếu tố về xuất bản nếu có) hoặc nhận xét, đánh giá của cơ sở

đã áp dụng các kết quả nghiên cứu (nếu có):

thực hiện đề tài (phần này do người hướng dẫn ghi): Trên cơ sở lý thuyết Xác suất

Thống kê; Mối liên hệ giữa lý thuyết và thực hành Từ đó, đề tài đã mô phỏng mẫu ngẫu

Trang 10

nhiên bằng lập trình với ngôn ngữ Python để đánh giá dữ liệu một cách trực quan và dễ hình dung nhất

Ngày 12 tháng 04 năm 2019

Người hướng dẫn

(ký, họ và tên)

Phạm Thị Kim Thúy

Trang 11

PHẦN MỞ ĐẦU

1 Tổng quan về tình hình nghiên cứu thuộc lĩnh vực của đề tài

Ngôn ngữ lập trình Python được nghiên cứu từ những thập niên 90 của thế kỉ trước Mặt khác, mô hình hóa dữ liệu mẫu ngẫu nhiên là vấn đề rất cần thiết trong các bài toán kinh tế, kĩ thuật,… Do đó, việc lựa chọn đề tài là phù hợp cho đối tượng sinh viên Phân hiệu thuộc ngành công nghệ thông tin

2 Lý do lựa chọn đề tài

Trong thời đại 4.0, công nghệ thông tin có vai trò rất quan trọng trong tự động

hóa và trao đổi dữ liệu Đáp ứng với xu hướng đó, việc áp dụng kiến thức công nghệ thông tin để giải quyết các bài toán rất quan trọng, cụ thể là bài toán xác suất thống kê

Vì vậy, đề tài này chọn phương pháp lập trình với ngôn ngữ python để mô hình hóa mẫu

dữ liệu mẫu ngẫu nhiên Việc mô tả dữ liệu bằng phương pháp này có vai trò quan trọng,

nó giúp cho chúng ta phân tích được những đặc tính của dữ liệu, mối quan hệ giữa các mẫu khác nhau Từ đó đưa ra được kết quả chính xác cho mẫu dữ liệu

4 Phương pháp nghiên cứu

Phương pháp thu thập và xử lý số liệu từ thực nghiệm

5 Đối tượng và phạm vi nghiên cứu

Phạm vi nghiên cứu là xử lý và mô phỏng dữ liệu thông qua ngôn ngữ python Đối tượng nghiên cứu là sinh viên công nghệ thông tin K57 thuộc phân hiệu Đại học Giao thông Vận tải

Trang 12

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Mô tả dữ liệu

1.1.1 Mô tả dữ liệu bằng phương pháp đồ thị

Với dữ liệu nhận được của một biến định lượng Bước đầu tiên trong việc mô tả chúng là phân dữ liệu thành các lớp sao cho mỗi một số liệu được đưa vào một lớp Biểu

đồ đầu tiên được sử dụng là biểu đồ hình quạt

Biểu đồ hình quạt giúp cho việc so sánh giữa các thành phần với nhau và so sánh chúng với toàn thể dữ liệu được phân theo nhóm

Ví dụ: Biểu đồ tỉ lệ dân số trên thế giới

Phương pháp biểu đồ thứ hai là biểu đồ hình thanh Nó sẽ gán nhãn dữ liệu theo hai trục: Trục tung và trục hoành Trên trục hoành (Ox) có các thanh (cột) với chiều cao tương ứng với giá trị bên trục tung (Oy) Giữa các cột chữ nhật có sự phân biệt để làm

rõ sự khác nhau giữa các lớp Ví dụ, biểu đồ sản lượng cao su qua các năm (từ 1995- 2007)

Hi ̀nh 1.2: Biểu đồ sản lượng cao su

Hi ̀nh 1.1: Biểu đồ tỉ lệ dân số trên Thế Giới

Trang 13

Chúng ta có rất nhiều biến thể của biểu đồ, tùy thuộc vào mục đích sử dụng của nó như: Biểu đồ cột đơn, cột kép, biểu đồ cột chồng, … Mục đích của chúng là so sánh các giá trị dữ liệu với nhau Như ví dụ ở trên, so sánh các giá trị sản lượng cao su qua các năm từ năm 1995 đến năm 2007

Hai dạng đồ thị tiếp theo là đồ thị tần số và đồ thị tần suất Để thành lập các đồ thị này thì các giá trị định lượng cần phải phân thành các lớp bằng cách chia theo khoảng

dữ liệu (từ nhỏ nhất đến lớn nhất) thành một số khoảng con, thường thì 5-20 khoảng con Cụ thể hình minh họa như sau:

Hi ̀nh 1.3: Biểu đồ cột thể hiện bảng phân bố tần số ghép lớp

Sau khi dữ liệu được phân lớp bằng bảng tần số hay tần suất, ta xây dựng các dạng

đồ thị này bằng cách gán trục hoành cho tần số hoặc tần suất và vẽ trong các khoảng con xác định lớp đó với chiều cao chính là tần số hay mật độ

Trong thống kê, biểu đồ tần suất và biểu đồ tần số là phương pháp mô tả bằng đồ thị quan trọng nhất Nếu ta xây dựng đồ thị tần số hoặc tần suất với nhiều lớp hơn Đồng nghĩa là dùng nhiều khoảng con với chiều dài nhỏ hơn, người ta có thể xấp xỉ bằng một đường cong trơn và đường cong này đối với biểu đồ tần suất có liên quan đến hàm phân phối xác suất của biến ngẫu nhiên

Biểu đồ này thích hợp cho việc phân tích các mẫu lớn gồm nhiều phần tử, chẳng hạn như trên 50 phần tử

Biểu đồ tần suất dùng đến tỷ lệ thay vì một số lượng cụ thể, nên nó rất tiện lợi trong việc so sánh các tập mẫu khác nhau với số lượng khác nhau Việc so sánh này giúp chúng ta đặt ra bài toán cho thống kê suy diễn thông qua các ước lượng tham số, kiểm

Trang 14

định giả thuyết thống kê Chẳng hạn như việc kiểm định xem hai bộ dữ liệu có sử dụng chung một giả thiết thống kê hay không

Phương pháp đồ thị tiếp theo là đồ thị cành-lá được giáo sư John Tukey đề xuất trong lĩnh vực phân tích thăm dò Nó cũng mô tả được tần số, sự tập trung các số liệu

và hình dáng của phân bố số liệu như của biểu đồ tần số Nhưng nó không phù hợp với những bài toán với dữ liệu lớn Bài toán trong đề tài đang hướng đến là bài toán có dữ liệu lớn nên không xét đến phương pháp đồ thị này

1.1.2 Mô tả dữ liệu bằng phương pháp số

Phương pháp số mô tả dữ liệu bằng một các số đo gọi là các số đo mô tả Có hai

loại là số đo hướng trung tâm và số đo hướng biến thiên Các số đo xu hướng trung tâm

nhằm mô tả vị trí trung tâm của dữ liệu còn các số đo xu hướng biến thiên nhằm mô tả những dữ liệu xung quanh vị trí trung tâm

1.1.2.1 Các số đo xu hướng trung tâm

Số đo xu hướng trung tâm đầu tiên được khảo sát là mode Mode của một bộ dữ liệu là số liệu xuất hiện với tần số cao nhất, tức nó xuất hiện nhiều nhất trong bộ dữ liệu Mode thường dùng như số đo phản ảnh tính phổ biến của dữ liệu Chẳng hạn như cổ phiếu được ưa chuộng nhất, loại máy giặt dùng nhiều nhất, ứng cử viên được yêu thích nhất, …

Ví dụ: Với mẫu dữ liệu điểm Xác Suất Thống Kê sinh viên được sắp xếp tăng dần

Trang 15

Với số liệu nhỏ thì ta thường quy ước nó như sau: Dữ liệu được sắp xếp từ nhỏ đến

lớn với n số liệu, nếu n lẻ thì trung vị được xác định theo công thức 1

2

n , n chẵn thì

được xác định theo tổng trung bình cộng giữa

2

n

và 12

n Như số liệu ở trên gồm 60 số liệu, vậy n = 60 (chẵn), tức trung bình cộng của số hạng thứ 30 và 31 lần lượt là 4.4 và 4.4, trung vị của nó là:

4.4 4.4

4.42

y N

n: kích thước của mẫu được chọn ngẫu nhiên từ tổng thể

Trong thực tế, ta không thể tìm được giá trị trung bình tổng thể của tất cả dữ liệu

mà chỉ tìm được giá trị trung bình của mẫu dữ liệu được chọn ngẫu nhiên từ tổng thể

Vì vậy, bài toán ước lượng cho giá trị trung bình là một trong những phương pháp tối

ưu để tìm được giá trị trung bình của tổng thể với độ tin cậy cao Giá trị trung bình thường được dùng cho giá trị trung tâm của số liệu nhưng nó bị tác động bởi tất cả các

số liệu Do đó, giá trị bất thường của dữ liệu sẽ làm thay đổi đáng kể so với giá trị trung

bình của dữ liệu Một phiên bản trung bình khác như: trung bình chặt cụt (TM) Đây là

giá trị trung bình khi người ta bỏ bớt đi một phần ở biên có giá trị lớn nhất và giá trị nhỏ nhất (các dữ liệu ngoại biên)

Ví dụ, ở trên có 60 giá trị, giả sử ta thấy có 10 giá trị trái (nhỏ nhất) và 10 giá trị phải (lớn nhất) bất thường so với những giá trị còn lại (nhỏ hơn, hoặc lớn hơn quá nhiều

so với 40 giá trị khác), chúng ta tiến hành loại bỏ 20 giá trị đó đi để còn lại 40 giá trị tin cậy hơn, giá trị trung bình cũng tin cậy hơn

Trang 16

Theo định nghĩa giới hạn, trung vị được xem là trung bình chặt cụt 50% Do vậy trung vị thường được dùng thay cho trung bình khi tồn tại nhiều giá trị bất thường cực biên trong tập dữ liệu

Ở trên, ta đã nói đến: mode, trung vị, trung bình, trung bình chặt cụt Sự tương

quan giữa các giá trị này đều phụ thuộc vào độ lệch của dữ liệu Nếu dữ liệu dạng hình

chuông, tức các giá trị đối xứng qua một đỉnh duy nhất thì mode (𝑀0), trung vị (M d), trung bình μ, trung bình chặt cụt (TM) trùng nhau

Tính tương quan của mode (𝑀0), trung vị (M d), trung bình μ, trung bình chặt cụt (TM) Các giá trị được minh họa thông qua đồ thị sau:

Hi ̀nh 1.4: Vị trí các số đo trung tâm

Đồ thị lệch trái có thì có mode > trung vị > trung bình

Đồ thị lệch phải có mode < trung vị < trung bình

Trung bình chặt cụt loại bỏ đi những giá trị lớn nhất và bé nhất nên nó thường nằm giữa trung vị và trung bình

Vì vậy, chúng ta không nên quy định giới hạn trong việc sử dụng những số đo duy nhất để tính toán, mà cần linh hoạt giữa các số đo này

 Các đặc trưng của các số đo xu hướng trung tâm:

 Trung tâm mode

Trang 17

 Số liệu xuất hiện nhiều nhất trong dữ liệu

 Có thể có nhiều hơn 1 mode cho dữ liệu

 Không ảnh hưởng từ những giá trị bất thường cực biên

 Mode của mẫu con không thể kết hợp để suy ra mode của mẫu

 Mode có thể thay đổi được tùy vào phương thức phân lớp của dữ liệu

 Nó có thể sử dụng những dữ liệu định tính hay định lượng

 Trung vị

 Số lượng nằm giữa dữ liệu

 Trung vị là duy nhất

 Không bị ảnh hưởng các số liệu bất thường từ cực biên

 Trung vị mẫu con không thể kết hợp để ra trung vị của mẫu

 Chỉ dùng cho dữ liệu định lượng

 Chỉ dùng với những dữ liệu định lượng

1.1.2.2 Số đo hướng biến thiên

Số đo xu hướng trung tâm (giá trị trung bình, mode, trung vị, trung bình chặt cụt) chưa phản ánh tốt đến phân phối tần số của tập dữ liệu Ngoài việc xác định vị trí trung tâm của phân phối, ta còn phải xác định sự phân bố của dữ liệu

Giả sử, cho bài toán kiểm tra xem độ dày của tấm plastic đã đạt chuẩn là 3mm Nếu ta chọn ra 200 tấm để kiểm tra và kết quả thu về chỉ nhờ vào những số đo xu hướng trung tâm ở trên, chẳng hạn như độ dày trung bình Kết quả kiểm tra đúng, tấm plastis

có độ dày trung bình là 3mm, nhưng độ lệch giữa các dữ liệu đáng kể Vô hình trung, nhà thống kê bỏ quên đi sự phân bố của các mẫu dữ liệu

Chúng ta đã biết các dữ liệu trong mẫu luôn có xu hướng biến thiên, có nghĩa là giữa các giá trị trong mẫu sẽ có tính tăng hoặc giảm, biến động đối với nhau

Trang 18

Số đo đầu tiên để xác định sự phân bố dữ liệu là phạm vi Nó là độ lệch giữa dữ liệu lớn nhất và nhỏ nhất Từ ví dụ trên về điểm của môn Xác Suất Thống Kê thì phạm

vi là: 9.7 - 1.0 = 8.7

Phạm vi rất dễ dàng tìm kiếm, nhưng nó rất nhạy cảm với các giá trị bất thường ở biên Phạm vi không cung cấp thông tin về độ biến thiên dữ liệu, mà chỉ là độ lệch giữa giá trị lớn nhất và giá trị nhỏ nhất

Quay trở lại với ví dụ về điểm sinh viên, nếu ta thay bằng mẫu khác nhưng điểm nhỏ nhất, điểm lớn nhất vẫn giữ nguyên thì tổng các giá trị trong mẫu cũng không đổi,

vì vậy phạm vi và trung bình cũng không thay đổi Nhưng bên trong dữ liệu mới có độ phân tán khác hơn nhiều so với mẫu cũ Do đó cần có một tính số đo khác để đo xu hướng biến thiên của dữ liệu

Số đo thứ hai là phân vị, phân vị thứ p của tập dữ liệu sắp xếp tăng dần là giá trị

mà có nhiều nhất p% số liệu nhỏ hơn nó và (100 - p) % số liệu lớn hơn nó

Trang 19

Trong đồ thị trên: Q1 là mức phân vị thứ 25, Q2 là trung vị (phân vị thứ 50), Q3 là phân

vị thứ 75 Từ khái niệm về tứ phân vị ta có phạm vi về tứ phân vị

Phạm vi của tứ phân vị là khoảng cách giữa phân vị thứ 75 và phân vị thứ 25

IQRQ Q Phạm vi tứ phân vị đánh giá tốt hơn về mặt phân bố dữ liệu quanh điểm giữa tốt hơn so với phạm vi nhưng nó vẫn chưa đánh giá được tốt về xu hướng biến thiên Lấy ví dụ, điểm số của 10 sinh viên:

Vậy phạm vi phân vị sẽ là: 7 7 0 Điều này không phù hợp mới một biến có xu hướng biến thiên Xu hướng biến thiên bằng 0 gọi là hằng, điểm sinh viên không tăng không có nghĩa là hằng Ta có thể thấy rõ ràng, phạm vi phân vị sẽ bỏ qua những giá trị

nằm ở hai biên Nó không cung cấp nhiều thông tin biến thiên nhưng nó sẽ hữu ích trong việc so sánh biến thiên của hai hay nhiều bộ dữ liệu, đặc biệt khi các bộ dự liệu có độ lệch khác nhau Vậy, chúng ta cần có năm giá trị để có được mô tả chấp nhận được như sau:

Trang 20

trung bình tuyệt đối của độ lệch Nhưng thông thường nhất phương sai được tính bằng tổng trung bình bình phương độ lệch

Công thức như sau:

2

1

i i

y y s

s là phương sai mẫu

Tuy vậy việc sử dụng độ lệch tiêu chuẩn để làm thước đo cho độ biến thiên có thể không đúng so với một tổng thể khác có phạm vị lớn hơn hoặc nhỏ hơn

Trang 21

Biểu đồ hình hộp cho phép chung ta biết được các giá trị: Min, Q(25), Q(50), Q(75), Max Ngoài ra, ta có thể biết được phạm vi, phạm vi của tứ phân vị

Biểu đồ này còn cho phép chúng ta đánh giá được độ lệch của dữ liệu so với trung

Hồi quy tuyến tính là mô hình cơ bản trong phân tích hồi quy Phương trình của nó:

Trong đó x gọi là biến độc lập, Y gọi là biến phụ thuộc, các hệ số β0, β1 lần lượt gọi

là hệ số tự do, hệ số dốc, và  là sai số và được mô tả như một biến chuẩn có kỳ vọng

0 và phương sai σ2

1.2.2 Mô hình hồi quy tuyến tính

Trường hợp hồi quy tuyến tính, ta xem xét một biến hồi quy, biến dự báo hoặc biến

phụ thuộc Y Giả sử rằng mối liên hệ giữa Y và x có dạng đường thẳng và quan sát Y tại giá trị x là:

Trang 22

Với các hệ số β0 , β1 là các hệ số hồi quy Giả sử rằng mỗi quan sát Y có thể được

mô tả bởi mô hình như công thức (1.2) với  là sai số ngẫu nhiên

Giả sử rằng ta có n cặp quan sát (x1,y1), (x2,y2), ,(x n ,y n) các giá trị Ta xác định các

hệ số hồi quy sao cho đường thẳng y = β0 +β1x đi qua n điểm quan sát với sai số ít nhất

có thể Sử dụng phương trình (1.3), ta có thể biểu diễn n quan sát mẫu như sau:

Là phần dư hay sai số giữa giá trị thực nghiệm và giá trị lý thuyết Phần dư mô tả

sai số của sự phù hợp với mô hình của quan sát thứ i Giá trị ước lượng của hệ số hồi quy β0, β1 ký hiệu tương ứng là βˆ0, βˆ1 Các giá trị ước lượng này được xác định sao cho tổng bình phương các phần dư là nhỏ nhất có thể Ta có tổng bình phương các phần dư này là nhỏ nhất Ta có tổng bình phương các sai số này là:

0, βˆ1 là điểm dừng của hàm hai biến này hay là nghiệm của hệ phương trình sau:

Hi ̀nh 1.10: Hồi quy tuyến tính

Trang 23

 

1 0

1 1

nhiên hai chiều (X,Y ) và



x y i

i



i

n

Phân tích tương quan là tìm mối liên hệ giữa hai biến ngẫu nhiên Ta biết trong lý thuyết xác suất người ta xét đến hệ số tương quan để đo mức độ phụ thuộc giữa các biến Công thức tính hệ số tương quan:

xy

xx yy

S r

n y

Tổng quát, hệ số tương quan r là số dương nếu y tăng khi x tăng và âm nếu y giảm

và x tăng; r sẽ gần bằng 0 khi không có quan hệ giữa x và y hay khi y và x có mối quan

hệ phi tuyến với nhau

Trang 24

Một số tính chất của r sẽ giúp ta mô tả sự liên hệ giữa hai biến như sau:

- Giá trị dương của r cho thấy mối quan hệ đồng biến giữa hai biến, giá trị âm của r cho thấy mối quan hệ nghịch biến

- Giá trị của r nằm trong khoảng -1 đến +1 Khi giá trị của r rất gần với 1, các điểm dữ liệu sẽ nằm gần với một đường thẳng

- Do các biến đã được chuẩn hóa trong công thức tính hệ số tương quan nên giá trị của r sẽ không đổi khi ta thay đổi đơn vị đo của x và y Với bất cứ đơn vị nào, giá trị của r không đổi Hệ số tương quan là số đo biểu thị sự liên kết và không có đơn vị

- Hệ số tương quan đo lường quan hệ tuyến tính giữa hai biến nhưng nó không

mô tả mức độ gần của điểm dữ liệu (x, y) tới các đường cong xấp xỉ

Trang 25

CHƯƠNG 2: GIỚI THIỆU VỀ PYTHON 2.1 Lập trình Python

2.1.1 Cài đặt anaconda để lập trình python

Chúng ta không nhất thiết phải cài anaconda mới lập trình được python, Anaconda

là một phần mềm giúp cho việc quản lí các Project dễ dàng hơn Có rất nhiều tài liệu liên quan đến nó, xem thêm tại: https://docs.anaconda.com/

Giao diện trong anaconda có dạng:

Sau khi cài đặt xong, chúng ta chọn vào phần mềm mình cần cài đặt và nhấn vào lauch trong đó có phần mềm Spyder, Rstudio, … Anaconda cung cấp nhiều thư viện có sẵn hỗ trợ cho việc làm toán bao gồm các thư viện numpy, matplotlib, pandas, scipy,

stats, statistics, seaborn, sympy và scikit-learn

Có nhiều cách để thêm một thư viện hỗ trợ trong lập trình python, dễ dàng nhất là tìm trong environment để tìm kiếm những thư viện cần thiết

Hi ̀nh 2.2: Thêm environment trong ANACONDA

Hi ̀nh 2.1: Giao diện của ANACONDA

Trang 26

Hoặc chúng ta tải thêm pip hỗ trợ thêm thư viện thông qua màn hình console Tham khảo thêm tại: https://www.w3schools.com/python/python_pip.asp

Hi ̀nh 2.3: Công cụ trên ANACONDA

Giao diện chính của spyder:

Hi ̀nh 2.4: Giao diện spyder

Trang 27

2.1.3 Các thành phần trong ngôn ngữ python

Ngôn ngữ lập trình cũng như ngôn ngữ tự nhiên của con người, tất cả đều có các

thành phần cấu tạo nên nó Các thành phần của python gồm có chú thích (comment), biến (variable), giá trị (value), toán tử (operator), từ khóa (keyword)

a) Chú thích (comment)

Chú thích dùng để ghi chú của người viết để cho người đọc có thể hình dung được

Nó không ảnh hưởng đến trình thông dịch Để biến một dòng thành chú thích thì chúng

Khi đặt tên biến, cần kiểm tra xem biến đó có hợp lệ hay không Một số tên biến hợp lệ: 12Val,exx$

Tên biến trong Python phân biệt chữ hoa và thường, tức là Value, value,

và VAlue là các biến khác nhau

c) Giá trị

Giá trị là đại lượng gắn liền với biến đó

Ví dụ: Biến name có giá trị là “Nguyễn Phi Thái”, và age có giá trị là 21

name = "Nguyen Phi Thai"

Trang 29

Bảng 2.4: Toán tử logic

Toán tử membership là toán tử kiểm tra xem biến này có phải là thành viên của biến khác hay không

Bảng 2.5: Toán tử membership

 Thứ tự ưu tiên toán tử

Bảng 2.6: Thứ tự ưu tiên toán tử

e) Khối lệnh

Tiêu đề	Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình python đề tài nghiên cứu khoa học sinh viên
Tác giả	Nguyễn Phi Thái, Trần Xuân Lâm
Người hướng dẫn	ThS. Phạm Thị Kim Thúy
Trường học	Trường Đại Học Giao Thông Vận Tải Phân Hiệu Tại Thành Phố Hồ Chí Minh
Chuyên ngành	Khoa học máy tính / Công nghệ Thông tin
Thể loại	Báo cáo tổng kết đề tài nghiên cứu khoa học của sinh viên
Năm xuất bản	2019
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	58
Dung lượng	2,05 MB