1. Trang chủ
  2. » Giáo án - Bài giảng

Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )

92 1,7K 13

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 92
Dung lượng 7,13 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Độ rộng chùm được định nghĩa qua tích phân hàmcực đại của các hàm mật độ xác suất, vì vậy khi đánh giá sự tương tự của các phầntử, yếu tố phương sai đã được xem xét.. Tuy nhiên trong việ

Trang 1

LỜI CẢM ƠN

Lời đầu tiên xin được gửi lời cảm ơn chân thành nhất đến Tiến sĩ Võ VănTài, Thầy đã tận tình hướng dẫn, dìu dắt em trong mỗi bước đi, giúp em hoàn thànhluận văn này

Em xin gửi lời cảm ơn đến cô Phạm Bích Như, cố vấn học tập lớp ToánỨng Dụng K33, một người Cô, một người Chị luôn quan tâm giúp đỡ em và cácbạn trong những lúc khó khăn

Em xin gửi lời cảm ơn sâu sắc đến quý Thầy Cô trong Khoa Khoa học Tựnhiên, đặc biệt là quý Thầy Cô trong bộ môn Toán đã truyền đạt cho em những kiếnthức quý báu cũng như những kỹ năng trong cuộc sống

Tôi xin gửi lời cảm ơn đến tập thể lớp Toán Ứng Dụng K33 thân yêu, nhữngngười đã cùng tôi vượt qua bao khó khăn, chia sẻ bao vui buồn trong học tập cũngnhư trong cuộc sống

Xin gửi lời cảm ơn đến gia đình, đặc biệt là mẹ tôi, chỗ dựa tinh thần, nguồnđộng lực giúp tôi cố gắng học tốt, ngày càng cố gắng hoàn thiện mình hơn

Trang 2

Bảng 3.3 Kết quả chi tiết chùm kết quả học tập ở vòng lặp thứ 13 36

Bảng 3.4 Các bước tính toán chùm điểm rèn luyện-phương pháp

Bảng 3.5 Các bước tính toán chùm điểm rèn luyện-phương pháp không

Bảng 3.6 Kết quả chi tiết chùm điểm rèn luyện ở vòng lặp thứ 10 40

Bảng 3.7 Các bước tính toán chùm điểm học tập và rèn luyện-phương

Trang 3

DANH MỤC CÁC HÌNH

Trang

Hình 2.2 Đồ thị hàm mật độ xác suất trong không gian 3 chiều 25

Hình 3.1 Đồ thị 15 hàm mật độ xác suất của kết quả học tập

Hình 3.2 Cây phân loại kết quả học tập học kỳ 1, năm học 2010-2011

Hình 3.3 Đồ thị 15 hàm mật độ xác suất của điểm rèn luyện

Hình 3.4 Cây phân loại điểm rèn luyện học kỳ 1, năm học 2010-2011

Hình 3.5 Đồ thị phân tán điểm rèn luyện và học tập

Hình 3.6 Đồ thị các hàm mật độ xác suất được ước lượng từ điểm học tập

và rèn luyện các lớp Khoa Khoa học Tự nhiên 41

Hình 3.7 Cây phân loại điểm rèn luyện và học tập

các lớp Khoa Khoa Học Tự Nhiên 42

Trang 4

MỤC LỤC

PHẦN MỞ ĐẦU 1

1 GIỚI THIỆU 1

2 BỐ CỤC CỦA LUẬN VĂN 2

Chương 1 SỰ TƯƠNG TỰ CỦA CÁC PHẦN TỬ 4

1.1 SỰ TƯƠNG TỰ CỦA CÁC PHẦN TỬ RỜI RẠC 4

1.1.1 Khoảng cách của hai phần tử 4

1.1.2 Khoảng cách giữa hai nhóm phần tử 6

1.2 SỰ TƯƠNG TỰ CỦA HAI HÀM MẬT ĐỘ XÁC SUẤT 9

1.2.1 Khoảng cách 9

1.2.2 Một số khái niệm khác 10

1.3 SỰ TƯƠNG TỰ CỦA NHIỀU HƠN HAI HÀM MẬT ĐỘ XÁC SUẤT 11

1.3.1 Một số khái niệm 11

1.3.2 Một số kết quả về độ rộng chùm 12

Chương 2 XÂY DỰNG CHÙM CÁC HÀM MẬT ĐỘ XÁC SUẤT 17

2.1 GIỚI THIỆU 17

2.2 ƯỚC LƯỢNG HÀM MẬT ĐỘ XÁC SUẤT 18

2.2.1 Ước lượng hàm mật độ xác suất 18

2.2.2 Chương trình ước lượng hàm mật độ xác suất 19

2.3 TÌM GIÁ TRỊ HÀM CỰC ĐẠI CỦA CÁC HÀM MẬT ĐỘ XÁC SUẤT 25

2.3.1 Xác định giá trị hàm cực đại một chiều 25

2.3.2 Xác định giá trị hàm cực đại hai chiều 26

2.4 TÍNH GẦN ĐÚNG TÍCH PHÂN CỦA HÀM CỰC ĐẠI 27

2.4.1 Phương pháp Monte Carlo 28

2.4.2 Tính gần đúng tích phân hàm cực đại bằng Matlab 28

2.5 PHƯƠNG PHÁP THỨ BẬC 29

2.6 PHƯƠNG PHÁP KHÔNG THỨ BẬC 30

Chương 3 CHÙM CÁC LỚP VỀ ĐIỂM RÈN LUYỆN VÀ HỌC TẬP CỦA SINH VIÊN KHOA KHOA HỌC TỰ NHIÊN HỌC KỲ I -NĂM HỌC 2010 - 2011 32

3.1 GIỚI THIỆU 32

3.2 PHÂN TÍCH CHÙM KẾT QUẢ HỌC TẬP 33

3.2.1 Phương pháp thứ bậc 33

Trang 5

3.2.2 Phương pháp không thứ bậc 35

3.3 PHÂN TÍCH CHÙM ĐIỂM RÈN LUYỆN 37

3.3.1 Phương pháp thứ bậc 37

3.3.2 Phương pháp không thứ bậc 39

3.4 PHÂN TÍCH CHÙM KẾT QUẢ HỌC TẬP VÀ RÈN LUYỆN 41

3.4.1 Phương pháp thứ bậc 41

3.4.2 Phương pháp không thứ bậc 43

3.5 MỘT SỐ NHẬN XÉT VÀ KIẾN NGHỊ 44

PHẦN KẾT LUẬN 47

PHẦN PHỤ LỤC……… 50

Trang 6

trong những lĩnh vực khác nhau của bài toán phân tích chùm: y học, kinh tế, kỹthuật, xã hội, … và trong bất kỳ lĩnh vực nào, nơi mà việc nhóm những phần tử lạivới nhau được đòi hỏi Nhiều tác giả đã phát triển một số phương pháp liên quanđến phân tích chùm với những thuật toán cụ thể, nhưng chỉ cho những dữ liệu rờirạc Các thuật toán này dựa trên định nghĩa khoảng cách hay sự tương tự của haiphần tử cũng như của hai chùm gồm các phần tử rời rạc

Có nhiều định nghĩa khoảng cách giữa hai phần tử rời rạc cũng như khoảngcách giữa hai nhóm dữ liệu Khoảng cách giữa hai phần tử trong bài toán phân tíchchùm thông thường là khoảng cách Euclide, khoảng cách city–block, khoảng cáchChebyshev, khoảng cách Minkowski,…, trong khi khoảng cách giữa hai chùm đượcđịnh nghĩa là khoảng cách min, khoảng cách max và khoảng cách trung bình củanhững phần tử trong hai chùm Hiện tại có hai phương pháp chủ yếu để xây dựngchùm cho các phần tử rời rạc: Phương pháp thứ bậc và phương pháp không thứ bậc.Một hạn chế chung của hai phương pháp này đánh giá sự tương tự của các chùmkhông dựa vào sự phân bố của dữ liệu của chùm nên đôi khi nó tạo ra nghịch lý chokết quả phân tích chùm: Phần tử đúng phải xếp vào chùm này nhưng lại xếp vàochùm kia

Chùm của các hàm mật độ xác suất, nơi mỗi hàm mật độ xác suất mô tả mộttổng thể là một chủ đề chưa được nghiên cứu nhiều Năm 2010 nhóm tác giả Võ

Văn Tài, Phạm Gia Thụ đã đưa ra khái niệm độ rộng chùm làm tiêu chuẩn xây dựng

Trang 7

chùm các hàm mật độ xác suất Độ rộng chùm được định nghĩa qua tích phân hàmcực đại của các hàm mật độ xác suất, vì vậy khi đánh giá sự tương tự của các phần

tử, yếu tố phương sai đã được xem xét Điều này thể hiện sự hợp lý hơn trong phântích chùm Tuy nhiên trong việc giải quyết bài toán chùm các hàm mật độ xác suất,vấn đề ước lượng hàm mật độ xác suất từ số liệu rời rạc, tính độ rộng chùm vẫn còngặp nhiều khó khăn Trong luận văn này, tôi tổng kết những kết quả lý thuyết liênquan đến độ rộng chùm và tiếp tục giải quyết vấn đề khó khăn trong tính toán quacác chương trình được viết trên phần mềm Matlab Một ví dụ với số liệu thực vềđiểm rèn luyện và học tập của sinh viên Khoa Khoa học Tự nhiên, Trường Đại họcCần Thơ được đưa ra để kiểm chứng các thuật toán, các chương trình đã viết vàcũng để minh họa cho tính ứng dụng của bài toán phân tich chùm Kết quả của ứngdụng cụ thể này cũng nhằm xem xét mức độ tương đồng về điểm số của sinh viêntrong Khoa để có những nhận xét về tình hình học tập và rèn luyện của sinh viêncũng như mức độ đánh giá các ngành học của Thầy Cô trong Khoa

2 BỐ CỤC CỦA LUẬN VĂN

Luân văn này gồm phần mở đầu, phần nội dung, phần kết luận và danh mục các tài liệu tham khảo

Phần nội dung gồm 3 chương:

Chương 1: Sự tương tự giữa các phần tử

Tổng kết lại một cách có hệ thống các kết quả đã có liên quan đến sự tương

tự của các phần tử, đặc biệt là độ rộng chùm, thang đo chính được sử dụng trongphân tích chùm các hàm mật độ xác suất

Chương 2: Xây dựng chùm các hàm mật độ xác suất

Xây dựng các chương trình ước lượng hàm mật độ xác suất từ các phần tửrời rạc, ước lượng giá trị tích phân hàm cực đại Từ đó, luận văn trình bày haiphương pháp xây dựng chùm các hàm mật độ xác suất: phương pháp thứ bậc vàphương pháp không thứ bậc

Chương 3: Chùm các lớp về điểm rèn luyện và kết quả học tập của sinh viên Khoa Khoa học Tự nhiên học kỳ 1 năm học 2010-2011

Trang 8

Sử dụng các thuật toán cùng các chương trình đã viết trong các chương 1 và chương 2, áp dụng vào dữ liệu thực tế “Điểm rèn luyện và kết quả học tập của sinh viên Khoa Khoa học Tự nhiên học kỳ 1, năm học 2010-2011”

Trang 9

SỰ TƯƠNG TỰ CỦA CÁC PHẦN TỬ

Khi thực hiện bài toán phân tích chùm, vấn đề quan trọng là xác định mức độgần và xa của các phần tử Có nhiều tiêu chuẩn với nhiều tên gọi được đưa ra đểđánh giá mức độ này, trong luận văn này ta gọi chung là sự tương tự của các phần

tử Khi các phần tử rời rạc, tiêu chuẩn để đánh giá sự tương tự thông thường làkhoảng cách Khi các phần tử là hàm mật độ xác suất, có nhiều khái niệm được đưa

ra như: độ đo tách rời, affinity, độ rộng chùm

1.1 SỰ TƯƠNG TỰ CỦA CÁC PHẦN TỬ RỜI RẠC

1.1.1 Khoảng cách của hai phần tử

Định nghĩa 1.1: Khoảng cách giũa hai phần tử d(x,y) là một metric, nghĩa là nó

thỏa mãn 3 điều kiện sau với mọi x, y, z.

i) d(x,y) 0 x y, Dấu bằng xảy ra khi x  y,ii) d(x,y) = d(y,x),

iii) d(x,y) + d(y,z) d(x,z).

Theo 3 điều kiện trên, ta có thể định nghĩa khoảng cách giữa 2 phần tử x và y

(x,yRn) theo nhiều cách khác nhau Thông thường các loại khoảng cách sau được

sử dụng phổ biến:

Khoảng cách Euclide:

1 2 2 1

Trang 10

-2 -1 0 1 2 3 4 5 6 -2

Khoang cach Euclide

mo ta do dai doan thang nay

Khoang cach city-block

mo ta do dai 2 doan gap khuc

Khoang cach Chebyshev mo

ta do dai duongt gap khuc lon nha

Khoảng cách Minkowski với bậc m:  

i) Khoảng cách Euclide là khoảng cách thường được sử dụng nhất trong

trong toán học, nó mô tả độ dài của đoạn thẳng nối hai điểm x và y.

ii) Khoảng cách city-block mô tả tổng độ dài (tổng các khoảng cách

Euclide) của n đoạn gấp khúc nối hai điểm x, y thuộc không gian n chiều Mỗi đoạn trong n đoạn này sẽ song song với 1 trục tương ứng trong n trục chúng ta chọn làm

hệ quy chiếu

iii) Khoảng cách Chebyshev mô tả đoạn thẳng có độ dài lớn nhất trong n

đoạn gấp khúc đã được đề cập trong khoảng cách city- block

iv) Với những m khác nhau, khoảng cách Minkowski bậc m sẽ tương ứng với một loại khoảng cách khác nhau Với m =1, d mx y,  d cbx y, , với m = 2,

 ,   , 

d x yd x y , độ lớn của khoảng cách càng giảm khi m càng tăng, khi m , d mx y,  d chx y, 

Hình vẽ sau minh họa 3 khoảng cách phổ biến của hai điểm x(1;2) và y(2;4).

Hình 1.1 Các loại khoảng cách giữa hai phần tử x và y

Trang 11

Như đã thấy, khoảng cách Euclide mô tả đoạn thẳng nối 2 điểm x và y trong khi khoảng cách city-block mô tả 2 đoạn gấp khúc nối x và y, chúng lần lượt song song với trục hoành và trục tung của hệ tọa độ Tương tự như vậy, nếu x, y thuộc

không gian R3 thì khoảng cách city-block sẽ mô tả 3 đoạn thẳng lần lượt song song

với Ox, Oy, Oz Hình trên cũng chỉ ra khoảng cách Chebyshev mô tả đoạn thẳng dài

nhất trong hai đường gấp khúc

1.1.2 Khoảng cách giữa hai nhóm phần tử

Cho A, B là hai nhóm, mỗi nhóm gồm nhiều phần tử rời rạc khác nhau Gọi D(A;B) là khoảng cách giữa hai nhóm A và B, d(x,y) là khoảng cách giữa phần tử x

và phần tử y ( x A y B ;  ) Thông thường ta sử dụng các định nghĩa sau cho

ưu Trong thực tế các loại khoảng cách phổ biến đã được nêu ở trên thường được sửdụng nhiều nhất

ii) Khi hai nhóm A và B được nhập lại thành một nhóm (A+B) thì việc tính khoảng cách từ nhóm (A+B) đến một nhóm C bất kỳ cũng có thể thực hiện theo

những công thức trên Tuy nhiên, ta có thể áp dụng những công thức sau đây để choviệc tính toán được thuận tiện hơn:

Trang 12

231; 2 , 1;

Tính a) Dmin,Dmax,D avg giữa A và B.

b) Dmin,Dmax,D avg giữa A+C và B

Giải

Trước tiên ta chọn khoảng cách Euclide làm khoảng cách giữa hai phần tử

Ta tiến hành tính khoảng cách giữa các nhóm như sau:

a) DminA B,  mind a b d a b e 1, 1, e 1, 2 d a b e 4, 3 

=  2 2

5,

2

e

d a b  = 2.5Tương tự

Trang 13

-6 -5 -4 -3 -2 -1 0 1 2 3 -3

-2 -1 0 1 2 3 4 5

-3 -2 -1 0 1 2 3 4 5

Y Nhom A

Nhom B

Nhom C Nhom A+C

Dmax(A+C,B)

Dmax(A,B)

Dmin(A,B) Dmin(A+C,B)

Trang 14

Xét hai tổng thể w và 1 w2 với hàm mật độ xác suất n chiều lần lượt là f1(x)

f2(x), theo Webb (2002), D(f1, f2) được gọi là khoảng cách của hai hàm mật

độ xác suất f1(x) và f2(x) nếu thỏa mãn ba điều kiện sau:

0 ) , (f1 f2 

0 ) , (f1 f2 

D nếu hai hàm mật độ xác suất bằng nhau

) , (f1 f2

D đạt giá trị lớn nhất khi w1 và w2 rời nhau

Nhiều định nghĩa khoảng cách đã được đưa ra thỏa ba điều kiện trên, có thể kể

ra một số định nghĩa phổ biến sau:

n

R

s s

n

R

1 2 1 2

f

f f

f f

f D

1 2

f x f x dx

Trang 15

Khoảng cách L2 là khoảng cách được sử dụng phổ biến nhất Khoảng cách L1

là một trường hợp đặc biệt của khoảng cách city-block và nó cũng được xem làkhoảng cách tự nhiên nhất

Trong trường hợp đặc biệt f1(x) và f2(x) là hai hàm mật độ xác suất có

phân phối chuẩn n chiều

T i n

1exp2

1)

Σ

Σ 1 2 1 11

2 2

2

1 1

2

1 ) ,

Trong đó s  ( 1  s)  1 s 2 , s  (0,1)

f f

2

1 ) ,

2 2 1 1 1

2 1 2 1 1 1 2 2

2 1 1

2 1 2 1 1 2 2

1

2

ln 2

1 4

1 )

Khi hai ma trận phương sai bằng nhau Σ1 Σ2 Σ thì D D = 8D B và trở thành

bình phương khoảng cách Mahalanobis:

( , ) ( , ) 8 ( , ) ( ) 1 ( 2 1)

1 2 2

1 2

1 2

T B

1 2 1 2

n R

Trang 16

a) Độ đo phân biệt

Năm 1973, Glick lần đầu tiên đã đưa ra khái niệm độ đo phân biệt Nó được xem là nền tảng để xây dựng chùm các hàm mật độ xác suất:

Định nghĩa 1.2: Một hàm đối xứng s sẽ được gọi là độ đo k ( k 2 )điểm tách rời

cho tập S trong không gian véc tơ với chuẩn . nếu với mọi phần tử

S a

j i k

j i j

D 1, 2, , 1. 2 1/ x (1.26) ii) Toussaint (1972):

α k

D

1 2

Trang 17

1 ),

1 , 0

  thì affinity của Toussaint trở thành affinity của Matusita và khi k  2 thì nó trở thành của Hellinger

c) Độ rộng chùm

Định nghĩa 1.4: Cho k hàm mật độ xác suất trên Rn:  f1,f2, , f k , k 3 chúng

ta định nghĩa độ rộng của chùm  f1, f2, , f k như sau:

n

R k

f f f

w 1, 2, , 1, 2, , 1 max(x) x 1 (1.28) Như vậy chúng ta đã có định nghĩa giống nhau về độ rộng của chùm các hàmmật độ xác suất  f1, f2, , f k với mọi k  Lúc này độ rộng của một chùm là hợp2của một tập con chứa một phần tử với một tập con chứa nhiều hơn một phần tử hoặchợp hai tập con chứa nhiều hơn một phần tử được định nghĩa giống nhau

Định nghĩa 1.5: Cho g, (g1,g2, ,g n), (f1, f2, , f m) là các hàm mật độ xác suất,chúng ta định nghĩa độ rộng của chùm g,f1,f2, ,f m  là wg f1,f2, , f m  và

,

1

) ( 2

1 2

k

k f

f f

k

f f

f f

1 1

1

1

2 1

Trang 18

Mặt khác         k

k

k j

k j j

k j

j k

f f

1 1

k j

j

f f

j

k

j j

j

j k

k j k

j

k

j j

Lấy tích phân trên R n hai vế bất đẳng thức trên được kết quả:

n

d f

k f

f f D

1

max 2

1, , , ) ( 1) ( )(

f x vào bất đẳng thức trên ta có kết quả (1.29)

d k

Trong đó

h1(x)  max{f1(x), f2(x), ,f k(x)}

Trang 19

h2(x)  max{f1(x), f2(x), ,f k1(x)}

Bởi vì h2(x)h1(x) f k1(x) minh1(x), f k1(x)

nên 1(,12/, ,1)1

k k

k

k R

( 1 1 1 1

1

1 1

1

1

1 1

1 , , 2 , 1 1

k f

f f

k , 1,2, ,

2 1

1 ) 1 ( , ,

k kPe k k B

k 1,2, ,( 1 / ) ( 1 )

n

f f f

, , 2 , 1 2

m k

/ 1 ( , , 2 , 1

k k

k n d k m

k (x) x (x) x min{ (x), (x)} x

1

2 1 2

1

= mPe nPe A

k

n n m

m  1(1,2/, ) )

/ 1 ( , , 2 , 1 1

Trang 20

Thế kết quả (1.35) vào (1.34) ta có (1.31)

Chúng ta vẫn gọi w*(k) là độ rộng của chùm gồm k hàm mật độ xác suất

f1, f2, ,f k, nhưng xem w*(k) là hàm của số những hàm mật độ xác suất (hàm số với biến số k) Hàm số này có tính đơn điệu và có giá trị được xác định bởi

hệ quả sau:

Hệ quả 1.1: Đặt w*(k) = f1 , f2 , ,f k 1, khi đó với k  2 thì w*(k) là hàm không

giảm và 0 w* (k) k 1 Dấu bằng ở vế trái xảy ra khi tất cả các f i ( x) trùng nhau

và ở vế phải khi các f i ( x) rời nhau

f

1 2

1( ), ( ), , ( ) ( )max

)

n R

Trang 21

f f f iwf i f k

w 1, 2, ,  1, , là tổng độ rộng của hai chùm trước khi ghép

1 – A là khoảng cách ngoài hay khoảng cách giữa hai chùm.

Độ rộng chùm phản ánh sự gần nhau của những phần tử trong chùm, trongkhi khoảng cách ngoài phản ánh sự xa nhau giữa hai chùm Bởi vì

 1, , , ,2 i i 1, k

w f f f ff là hằng số, nên độ rộng chùm và khoảng cách ngoài biếnthiên theo hướng trái ngược nhau Khi ghép hai chùm thành một chùm, chúng ta cốgắng cực tiểu tổng độ rộng và vì vậy cũng có nghĩa là cực đại khoảng cách giữa haichùm Tuy nhiên vấn đề trở nên rất phức tạp khi có nhiều chùm được ghép vàotrong một chùm Nó có nghĩa khoảng cách giữa các chùm cũng ít rõ ràng, nhưngtổng độ rộng chùm tăng dần lên với mỗi bước của phân tích chùm hướng đến độrộng của chùm cuối cùng

Chúng ta vừa trình bày một số vấn đề liên quan đến sự tương tự của hai haynhiều hàm mật độ xác suất cũng như đưa ra các công thức tính khoảng cách, tính độrộng chùm của các hàm mật độ xác suất Tuy nhiên, để sử dụng được các công thứctrên, chúng ta cần giải quyết các vần đề sau:

i) Ước lượng được các hàm mật độ xác suất của các tổng thể Vì phần lớn

dữ liệu thu được trên thực tế thường là rời rạc nên chúng ta phải có phương pháp tốtước lượng hàm mật độ xác suất của chúng, có như thế thì việc phân tích mới có ýnghĩa

ii) Phải tính được các hàm cực đại fmax x khi tính khoảng cách của nhiều

hơn hai hàm mật độ xác suất

iii) Phải có phương pháp tính gần đúng tích phân nhiều chiều của nhữnghàm mật độ xác suất khá phức tạp

Các phần được trình bày trong chương 2 sẽ giải quyết các vấn đề trên

Trang 22

XÂY DỰNG CHÙM CÁC HÀM MẬT ĐỘ XÁC SUẤT

2.1 GIỚI THIỆU

Khi có nhiều dữ liệu, người ta có nhu cầu phân chia dữ liệu thành những nhómvới những phần tử “gần” nhau theo một dấu hiệu nào đó, từ đó bài toán phân tíchchùm ra đời Phân tích chùm là một dạng tổng quát hơn của bài toán phân loại vàphân biệt Nó cũng được gọi là việc học không được giám sát, vì ở đây ta không có

dự kiến trước việc phân chia các phần tử vào tổng thể nào Phân tích chùm là việc nhóm các phần tử trong tập hợp đã cho thành các chùm sao cho các phần tử trong cùng chùm tương tự nhau theo những dấu hiệu nào đó Khi chùm được xây dựng, những phần tử trong cùng một chùm sẽ có sự tương tự nhiều hơn so với những phần tử của chùm khác.Có rất nhiều ứng dụng trong những lĩnh vực khác nhau của

bài toán phân tích chùm: y học, kinh tế, kỹ thuật, xã hội, … và trong bất kỳ lĩnh vựcnào, nơi mà việc nhóm những phần tử lại với nhau được đòi hỏi

Xây dựng chùm cho các phần tử rời rạc đã được rất nhiều nhà toán học quantâm về mặt lý thuyết cũng như tính ứng dụng của nó Tiêu chuẩn dùng để đánh giámức độ gần xa của các phần tử cũng như các chùm trong trường hợp này là khoảngcách Tuy nhiên, khi phân tích nhiều tổng thể, trong đó mỗi tổng thể có rất nhiềuphần tử, các phương pháp phân tích chùm rời rạc chỉ tính đến khoảng cách giữatrung bình các tổng thể chứ không xét đến dạng phân bố của tổng thể và điều nàyđôi khi sẽ dẫn đến kết quả phân tích không được hợp lý: Phần tử đúng phải xếp vàochùm này nhưng lại xếp vào chùm kia Đây là một hạn chế của việc phân tích chùmchỉ dựa vào khoảng cách đơn thuần Trong chương này luận văn sẽ trình bày mộtphương pháp phân tích chùm khác, phức tạp hơn nhưng khắc phục được những hạn

Trang 23

chế của việc phân tích chùm rời rạc Đó là phương pháp phân tích chùm các hàmmật độ xác suất.

2.2 ƯỚC LƯỢNG HÀM MẬT ĐỘ XÁC SUẤT

2.2.1 Ước lượng hàm mật độ xác suất

Phần lớn các dữ liệu thu được trong thực tế đều là rời rạc Do đó, trước khitiến hành phân tích chùm các hàm mật độ xác suất từ dữ liệu rời rạc ta phải ướclượng các hàm mật độ xác suất của các tổng thể chứa dữ liệu Chính việc ước lượngnày làm tăng tính ứng dụng thực tế của bài toán phân tích chùm các hàm mật độ xácsuất Có nhiều cách ước lượng hàm mật độ xác suất bằng phương pháp tham số vàphi tham số Trong luận văn này, chúng ta sẽ tiến hành ước lượng bằng phươngpháp hàm hạt nhân, một phương pháp phi tham số được đánh giá là có nhiều ưuđiểm hiện nay

Gọi  x x1, , ,2 x N là các dữ liệu rời rạc n chiều cần ước hàm mật độ xác

suất Hàm mật độ xác suất cần ước lượng theo phương pháp hạt nhân có dạng

ij j

Trang 24

Chuẩn  

2

1exp

22

i) Khi tham số trơn h nhỏ thì hàm số ước lượng sẽ kém trơn, khi h càng lớn

thì tính trơn sẽ tăng lên nhưng sẽ kém chính xác trong ước lượng Các nhà toán họckhẳng định việc chọn tham số trơn quan trọng hơn việc chọn hàm hạt nhân Trongluận văn này chúng ta chọn tham số trơn theo Scott (1992):

 

1 44

ii) Trong luận văn này hàm hạt nhân được chọn có dạng chuẩn

2.2.2 Chương trình ước lượng hàm mật độ xác suất

Việc tính toán tường minh các công thức trên thực sự rất phức tạp Vì vậytrong thực tế, người ta chỉ có thể sử dụng các phần mềm toán học để viết cácchương trình ước lượng các hàm mật độ Phần sau đây xin trình bày hai chươngtrình ước lượng hàm mật độ xác suất một chiều và hai chiều được tôi viết trên phầnmềm Matlab Việc ước lượng các hàm nhiều chiều hơn được viết một cách tương tựnhư ước lượng hàm hai chiều

a) Chương trình 2.1: Ước lượng hàm mật độ xác suất một chiều

Trước hết, ta tạo hàm uocluong dùng để ước lượng hàm mật độ xác suất

một chiều như sau:

function fa=uocluong(dla);

syms x;

Trang 25

sa;

fa=(1/ha/length(dla)*sa);

Lưu file vừa tạo với tên “uocluong.m” trong thư mục “work” của Matlab.

Khi cần ước lượng hàm mật độ xác suất của một tổng thể nào đó ta chỉ cần nhập như sau:

syms x uocluong([dữ liệu cần ước lượng])

Ví dụ 2.1 Giả sử ta có số liệu về chiều cao (cm) của 30 nhân viên nam công ty X

được cho như sau :

173 174 161 159 167 170 169 171 169 173

168 169 169 171 160 170 167 158 164 178

158 161 159 168 164 180 174 170 172 163

Ta viết thực hiện ước lượng hàm mật độ xác suất của chiều cao các nhân

viên công ty X bằng Matlab 7.0.4 như sau:

syms x

f=uocluong([173 174 161 159 167 170 169 171 169 173 168 169 169,…

171 160 170 167 158 164 178 158 161 159 168 164 180 174 170 172, 163])

Ta có kết quả:

f = 1/2*(140737488355328/442584986134111*x-24347585485471744/442584986134111)^2)

Trang 26

+21956415689413010567052911461721/5192296858534827628530496329220096*exp(-150 155 160 165 170 175 180 0

0.01 0.02 0.03 0.04 0.05 0.06 0.07

Theo chương trình trên ta được kết quả f167 0.0549

ii) Để vẽ đồ thị hàm mật độ xác suất đã ước lượng được, ta thực hiện tiếpnhững câu lệnh sau:

t=150:.1:180;

for i=1:301 y(1,i)=subs(f,x,t(1,i));

end y;

plot(t,y) grid on

Ta có được đồ thị sau:

Hình 2.1 Đồ thị hàm mật độ xác suất đã ước lượng

b) Chương trình 2.2: Ước lượng hàm mật độ xác suất hai chiều.

Trang 27

Tương tự như ước lượng hàm mật độ xác suất một chiều, trước tiên ta cũng phải tạo một hàm dùng để ước lượng hàm mật độ xác suất hai chiều Ta đặt tên hàm

này là uocluong2 và lưu trong thư mục work của Matlab.

Hàm uocluong2 được viết như sau:

function f=uocluong2(dl1,dl2) %dl1, dl2 lần lượt là 2 chiều của dữ liệu

s=s+(1/(2*pi)^.5*exp(-(((x1-dl1(1,i))/h1)^2/2)))*(1/(2*pi)^.5*exp(-(((x2-end;

f=1/(length(dl1)*h1*h2)*s;

Lưu file vừa tạo với tên “uocluong2.m” trong thư mục “work” của Matlab.

Khi cần ước lượng hàm mật độ xác suất của một tổng thể nào đó ta chỉ cần nhập như sau :

syms x1 x2 ; uocluong2([chiều thứ nhất],[chiều thứ hai])

Ví dụ 2.2: Giả sử ta có dữ iệu hai chiều như sau:

(-1.38;-0.06) (-0.06;1.61) (0.21;0.49) (0.73;0.18) (0.47;-0.51)(0.49;-0.08) (0.44;-0.98) (-1.32;0.8) (-0.47;-0.14) (0.17;-1.62)(1.02;-1) (2.55;0.05) (-1.09;0.51) (-1.08;0.63) (-1.04;-1.2)(-1.17;-1.97) (1.05;0.49) (-0.84;0.71) (0.66;-0.33) (-0.09;1.42)(-0.57;-1.38) (1.2;0.44) (2.21;-1.09) (-0.26;0.66) (0.65;0.65)(0.06;-0.06) (0.18;-0.98) (-1.38;0.51) (0.49;-0.33) (-0.38;-0.06)Thực hiện ước lượng hàm mật độ xác suất hai chiều như sau:

+281474976710656/143450362945825)^2)+4368979750143301327191686496634369159168388 37087/23384026197294446691258957323460528314494920687616*exp(1/2*(225179981368524 8/1280206351879231*x1-57420895248973824/32005158796980775)^2)*exp(-

Trang 28

1/2*(562949953421312/281162711373817*x2+562949953421312/281162711373817)^2)+43689 7975014330132719168649663436915916838837087/233840261972944466912589573234605283 14494920687616*exp(-1/2*(2251799813685248/1280206351879231*x1-24769797950537728 /32005158796980775)^2)*exp(-1/2*(562949953421312/281162711373817*x2

+281474976710656/143450362945825)^2)+4368979750143301327191686496634369159168388 37087/23384026197294446691258957323460528314494920687616*exp(-

1/2*(2251799813685248/1280206351879231*x13377699720527872/32005158796980775)^2)*ex p(1/2*(562949953421312/281162711373817*x2+844424930131968/7029067784345425)^2)+436 897975014330132719168649663436915916838837087/2338402619729444669125895732346052 8314494920687616*exp(-1/2*(2251799813685248/1280206351879231*x1 41095346599755776 / 32005158796980775)^2)*exp(-1/2*(562949953421312/281162711373817*x2

2533274790395904/7029067784345425)^2)+436897975014330132719168649663436915916838 837087/23384026197294446691258957323460528314494920687616*exp(1/2*(22517998136852 48/1280206351879231*x1-7318349394477056/6401031759396155)^2)*exp( 1/2*(5629499534 21312/281162711373817*x2-140737488355328/108139504374545)^2) +436897975014

330132719168649663436915916838837087/2338402619729444669125895732346052831449492 0687616*exp(-1/2*(2251799813685248/1280206351879231*x1-3940649673949184/457

2165542425825)^2)*exp(-1/2*(562949953421312/281162711373817*x2+1125899906842624 /7029067784345425)^2)+436897975014330132719168649663436915916838837087/2338402619 7294446691258957323460528314494920687616*exp(1/2*(2251799813685248/12802063518792 31*x1-26458647810801664/32005158796980775)^2)*exp(-1/2*(562949953421312

/281162711373817*x2+7177611906121728/7029067784345425)^2)+43689797501433013271916 8649663436915916838837087/23384026197294446691258957323460528314494920687616*exp (-1/2*(2251799813685248/1280206351879231*x1+74309393851613184/32005158796980775)^2 )*exp(-1/2*(562949953421312/281162711373817*x2-2251799813685248/1405813556869085)

^2)+436897975014330132719168649663436915916838837087/233840261972944466912589573 23460528314494920687616*exp(-1/2*(2251799813685248/1280206351879231*x1-

9570149208162304/32005158796980775)^2)*exp(-1/2*(562949953421312/281162711373817

*x2+22799473113563136/7029067784345425)^2)+4368979750143301327191686496634369159 16838837087/23384026197294446691258957323460528314494920687616*exp(-1/2

*(2251799813685248/1280206351879231*x1+5066549580791808/32005158796980775)^2)*exp( -1/2*(562949953421312/281162711373817*x2-19984723346456576/7029067784345425)^2) +436897975014330132719168649663436915916838837087/233840261972944466912589573234 60528314494920687616*exp(-1/2*(2251799813685248/1280206351879231*x1

+65865144550293504/32005158796980775)^2)*exp(-1/2*(562949953421312/281162711373817

*x2+27725285205999616/7029067784345425)^2)+4368979750143301327191686496634369159 16838837087/23384026197294446691258957323460528314494920687616*exp(-1/2

*(2251799813685248/1280206351879231*x1+77687093572141056/32005158796980775)^2)*ex p(-1/2*(562949953421312/281162711373817*x2-7177611906121728/7029067784345425)^2) +436897975014330132719168649663436915916838837087/233840261972944466912589573234 60528314494920687616*exp(-1/2*(2251799813685248/1280206351879231

*x1+26458647810801664/32005158796980775)^2)*exp(-1/2*(562949953421312

/281162711373817*x2+281474976710656/1004152540620775)^2)+436897975014330132719168 649663436915916838837087/23384026197294446691258957323460528314494920687616*exp(- 1/2*(2251799813685248/1280206351879231*x13940649673949184/4572165542425825)^2)*exp (-1/2*(562949953421312/281162711373817*x2+4644337115725824/7029067784345425)^2)+ 436897975014330132719168649663436915916838837087/2338402619729444669125895732346 0528314494920687616*exp(-1/2*(2251799813685248/1280206351879231*x1

+77687093572141056/32005158796980775)^2)*exp(-1/2*(562949953421312/281162711373817

*x2+844424930131968/7029067784345425)^2)+436897975014330132719168649663436915916 838837087/23384026197294446691258957323460528314494920687616*exp(-1/2

*(2251799813685248/1280206351879231*x1+3377699720527872/32005158796980775)^2)*exp( -1/2*(562949953421312/281162711373817*x2-3236962232172544/1004152540620775)

^2)+436897975014330132719168649663436915916838837087/233840261972944466912589573 23460528314494920687616*exp(-1/2*(2251799813685248/1280206351879231

Trang 29

*x2-9992361673228288/7029067784345425)^2)+43689797501433013271916864966

1/2*(2251799813685248/1280206351879231*x1-1688849860263936/4572165542425825)^2)

3436915916838837087/23384026197294446691258957323460528314494920687616*exp(-*exp(-1/2*(562949953421312/281162711373817*x2-140737488355328/143450362945825)^2) +436897975014330132719168649663436915916838837087/233840261972944466912589573234 60528314494920687616*exp(-1/2*(2251799813685248/1280206351879231*x1

+21392098230009856/32005158796980775)^2)*exp(-1/2*(562949953421312

/281162711373817*x2+844424930131968/7029067784345425)^2)+436897975014330132719168 649663436915916838837087/23384026197294446691258957323460528314494920687616*exp(- 1/2*(2251799813685248/1280206351879231*x1-13510798882111488/6401031759396155)^2)

*exp(-1/2*(562949953421312/281162711373817*x2-6192449487634432/7029067784345425)^2) +436897975014330132719168649663436915916838837087/233840261972944466912589573234 60528314494920687616*exp(-1/2*(2251799813685248/1280206351879231*x1-2871044

7624486912/6401031759396155)^2)*exp(-1/2*(562949953421312/281162711373817*x2-140737488355328/1405813556869085)^2)+4368979750143301327191686496634369159168388 37087/23384026197294446691258957323460528314494920687616*exp(-

1/2*(2251799813685248/1280206351879231*x1+58546795155816448/32005158796980775)^2)* exp(-1/2*(562949953421312/281162711373817*x2+3377699720527872

/1405813556869085)^2)+436897975014330132719168649663436915916838837087/2338402619 7294446691258957323460528314494920687616*exp(-1/2*(2251799813685248

/1280206351879231*x1+60798594969501696/32005158796980775)^2)*exp(-1/2

*(562949953421312/281162711373817*x2-1266637395197952/1004152540620775)^2)

+436897975014330132719168649663436915916838837087/233840261972944466912589573234 60528314494920687616*exp(-1/2*(2251799813685248/1280206351879231*x1-

37154696925806592/32005158796980775)^2)*exp(-1/2*(562949953421312/281162711373817

*x2+4644337115725824/7029067784345425)^2)+43689797501433013271916864966343691591 6838837087/23384026197294446691258957323460528314494920687616*exp(-

1/2*(2251799813685248/1280206351879231*x1-124411939706109952/32005158796980775)^2)*exp(-1/2*(562949953421312/281162711373817

*x2+15340386230730752/7029067784345425)^2)+4368979750143301327191686496634369159 16838837087/23384026197294446691258957323460528314494920687616*exp(-

1/2*(2251799813685248/1280206351879231*x1+32088147345014784/32005158796980775)^2)* exp(-1/2*(562949953421312/281162711373817*x2+19421773393035264

/7029067784345425)^2)+436897975014330132719168649663436915916838837087/2338402619 7294446691258957323460528314494920687616*exp(-1/2*(2251799813685248

/1280206351879231*x1+61361544922923008/32005158796980775)^2)*exp(-1/2

*(562949953421312/281162711373817*x2-7177611906121728/7029067784345425)^2)

+436897975014330132719168649663436915916838837087/233840261972944466912589573234 60528314494920687616*exp(-1/2*(2251799813685248/1280206351879231 *x1

+14636698788954112/32005158796980775)^2)*exp(-1/2*(562949953421312 /281162711373817

*x2-92886 74231451648/702906778434542 5)^2)+4368979750143301327 19168649 6634 36915916838837087/23384026197294446691258957323460528314494920687616*exp(-

Trang 30

ii) Để vẽ đồ thị hàm mật độ xác suất đã ước lượng, ta thực hiện câu lệnhsau:

ezsurfc(subs(subs(f,x1,t1),x2,t2),[-2,2],100)

Hình 2.2 Đồ thị hàm mật độ xác suất trong không gian 3 chiều

iii) Việc ước lượng hàm mật độ xác suất hai chiều với các dữ liệu khác,tại các

điểm khác cũng như hàm mật độ xác suất có số chiều nhiều hơn được thực hiệntương tự

Bài toán xác định giá trị hàm cực đại của các hàm mật độ xác suất xét dướidạng tổng quát thực sự là một bài toán rất phức tạp Trong phần này, chúng ta sẽgiải quyết bài toán theo hướng lập trình trong những trường hợp cụ thể : khi hàmmật độ xác suất một chiều, hai chiều cũng như nhiều chiều

2.3.1 Xác định giá trị hàm cực đại một chiều

Chương trình 2.3:

% Uoc luong ham mat do xac suat cua cac tong the

syms i x gtmax;

f=sym('f(x)');

f1=uocluong([dữ liệu mẫu một]);

f2=uocluong([dữ liệu mẫu hai ]);

Trang 31

fn=uocluong([dữ liệu mẫu n])

f=[f1 f2…fn];

a=[cac diem can tinh gia tri ham cuc dai];

% Xac dinh gia tri ham cuc dai tai cac diem trong tap a

Xác định giá trị hàm cực đại của hai hàm mật độ xác suất được ước lượng từ

hai tổng thể X1 và X2 tại các điểm : 163, 165, 167.

Trang 32

% Uoc luong cac ham mat do xac suat tu cac tong the da cho

f1=uocluong2([chiều thứ nhất mẫu 1],[chiều thứ hai mẫu 1]);

f2=uocluong2([chiều thứ nhất mẫu 2],[chiều thứ hai mẫu 2]);

fn=uocluong2([chiều thứ nhất mẫu n],[chiều thứ hai mẫu n]);

f=[f1 f2… fn];

%Khai bao cac diem can tinh gia tri ham cuc dai

a1=[chiều thứ nhất dữ liệu mẫu];

a2=[chiều thứ hai dữ liệu mẫu];

%Lan luot tinh gia tri ham cuc dai tai cac diem da khai bao

Y=[ (-1.38 ;0.49) (1.02 ;1.17) (-0.57 ;0.06) (-0.06 ;0.44) (2.55 ;1.05)

(1.2 ;0.21) (-1.32 ;1.09) (-0.84 ;2.21) (-1.38 ;0.73) (-0.5 ;-1.04)]

Z=[ (-1.44 ;1.59) (0.7 ;0.91) (-0.04 ;0.41) (-0.54 ;-1.24) (-0.33 ;-1.45)]Hãy xác định giá trị hàm cực đại fmax x của hai tổng thể trên tại các điểm

(0.1 ;0.1), (0.2 ;0.4), (0.3, 0.6)

Giải

Áp dụng chương trình 2.4 với n=3, ta có kết quả sau :

ans = 0.1341 0.1218 0.1062

Vậy, giá trị fmax x của các hàm mật độ xác suất được ước lượng từ các tổng

thể tại các điểm (0.1;0.1), (0.2;0.4), (0.3;0.6) lần lượt là: 0.1341, 0.1218, 0.1062

Các ví dụ trên đã cung cấp cho ta cách dùng chương trình để tìm giá trị cáchàm fmax x tại các điểm cụ thể trong không gian một chiều cũng như hai chiều.

Trong trường hợp nhiều chiều hơn, việc lập trình cũng thực hiện dựa trên ý tưởnghoàn toàn tương tự

2.4 TÍNH GẦN ĐÚNG TÍCH PHÂN CỦA HÀM CỰC ĐẠI

Trang 33

Như đã nói ở phần trên, một trong những vấn đề cần phải giải quyết trongviệc xác định độ rộng chùm của các hàm mật độ xác suất là phải có phương pháptính gần đúng các tích phân phức tạp của hàm cực đại trong không gian một chiềucũng như nhiều chiều Có nhiều phương pháp để tính gần đúng tích phân như:phương pháp hình chữ nhật, phương pháp hình thang, phương pháp Simpson,phương pháp Monte Carlo Tuy nhiên, cho đến hiện tại, phương pháp Monte Carlo

là phương pháp tính gần đúng tích phân nhiều chiều hiệu quả nhất Nguyên lý cơ

bản của nó là việc ước lượng tích phân hàm số f trên một miền không gian nhiều chiều có biên phức tạp thông qua việc tính giá trị trung bình của f tại các điểm có

tọa độ ngẫu nhiên

2.4.1 Phương pháp Monte Carlo

Xét tích phân n chiều trên miền V:   ,

i i

2.4.2 Tính gần đúng tích phân hàm cực đại bằng Matlab

Chương trình tính tích phân hàm cực đại được xây dựng dựa trên phươngpháp Monte Carlo, khi đã tính được các giá trị của hàm cực đại của các hàm mật độxác suất đã được ước lượng tại các giá trị của mẫu Sau đây, ta sẽ xây dựng chươngtrình tính gần đúng tích phân trong trường hợp một chiều và hai chiều Trongtrường hợp nhiều chiều hơn, chương trình cũng được viết một cách tương tự

a) Chương trình 2.5: Ước lượng tích phân hàm cực đại một chiều

% Ung dung cong thuc tinh gan dung cua tich phan Monte Carlo

gttp=sum(gtmax)/length(a)*(max(a)-min(a));

double(gttp)

Trang 34

b) Chương trình 2.6: Ước lượng tích phân hàm cực đại hai chiều

% Ung dung cong thuc tinh gan dung cua tich phan Monte Carlo

gttp=sum(gtmax)/length(a1)*(max(a1)-min(a1))*(max(a2)-min(a2));

double(gttp)

Ví dụ 2.5 : Trở lại ví dụ về chiều cao của nhân viên hai công ty X1 và X2, ta sẽ

tính giá trị tích phân hàm cực đại của các hàm mật độ xác suất được ước lượng từhai tổng thể Sử dụng chương trình 2.5, ta có kết quả sau : max  1.0933

Chú ý: Từ giá trị tích phân hàm cực đại, ta co thể tính được độ rộng chùm giữa các

hàm mật độ xác suất bằng cách lấy kết quả trừ đi 1

Các mục trên của chương đã khái quát một số cơ sở lý thuyết, các vấn đề liênquan đến sự tương tự của hai hoặc nhiều hàm mật độ xác suất, đến độ rộng chùm –thang đo chủ yếu được sử dụng trong các phương pháp phân tích chùm các hàm mật

độ xác suất Phần tiếp theo của chương sẽ trình bày hai phương pháp phân tíchchùm các hàm mật độ xác suất: phương pháp thứ bậc và phương pháp không thứbậc

f x f x1 , 2 , , f x Chúng ta chia những tổng thể này thành những chùm với k

số lượng giảm dần theo từng bước Tại mỗi bước, ta ghép hai chùm thành một chùmmới có độ rộng nhỏ nhất so với việc ghép hai chùm khác Trong mỗi bước, chúng tachỉ xem xét những chùm ở bước trước đó và ghép hai chùm sao cho hợp của chúng

có độ rộng nhỏ nhất, những chùm khác thì không thay đổi Tại bước cuối cùng, tất

cả các phần tử của   0

N được kết hợp thành một chùm Nk1 Kết quả sẽ được sửdụng để thành lập một cây phân loại

Thuật toán 2.1

Trang 35

Bước 1: Cho i = 1, 2, k-1, j = i+1, i+2, k, sử dụng chương trình 2.5 hoặc 2.6

để tính gần đúng tích phân hàm cực đại, từ đó tính được từng đôi các độ rộng chùm

vào trong những chùm với cấp độ khác nhau

Nếu chúng ta muốn phân chia   0

N thành m chùm (m<k), thuật toán sẽ dừng lại sau k-m vòng lặp.

Trang 37

CHÙM CÁC LỚP VỀ ĐIỂM RÈN LUYỆN VÀ HỌC TẬP CỦA SINH VIÊN KHOA KHOA HỌC TỰ NHIÊN

HỌC KỲ I -NĂM HỌC 2010 - 2011

Phân tích chùm có rất nhiều ứng dụng trong các lĩnh vực khác nhau như như

y học, ngân hàng, bảo hiểm,…Trong phần này, luận văn sử dụng các thuật toán vàcác chương trình đã viết trong chương 2 để xây dựng chùm các lớp của Khoa Khoahọc Tự nhiên Trường Đại học Cần Thơ, dựa trên biến quan sát về điểm rèn luyệnhoặc điểm học tập và chùm khi kết hợp hai đại lượng này lại với nhau Mục đíchcủa việc nghiên cứu này là xem xét mức độ tương đồng về hai điểm số của sinhviên trong Khoa để có những nhận xét về tình hình học tập và rèn luyện của sinhviên cũng như mức độ đánh giá các ngành học của Thầy Cô trong Khoa Việc xử lýcác số liệu cụ thể này cũng để kiểm chứng những thuật toán và các chương trình đãviết trong chương 2 Khoa Khoa học Tự nhiên gồm có 15 lớp: Toán ứng dụng(K33,K34,K35,K36), Hóa học (K33,K34,K35,K36), Hóa dược (K36), Sinh học(K33,K34,K35,K36), Tin học 1 và 2 (K36) Sau khi có số liệu được cung cấp bởiPhòng Công tác sinh viên và Phòng Đào tạo, chúng tôi chọn ngẫu nhiên mỗi lớp 20

sinh viên Số liệu mẫu cụ thể của 300 sinh viên được cho trong phần phụ lục 1.

Sau khi có số liệu mẫu rời rạc, chúng tôi ước lượng 15 hàm mật độ xác suấtcho điểm rèn luyện, 15 hàm mật độ xác suất cho điểm học tập bằng phương pháphàm hạt nhân như đã trình bày trong chương trình 2 Trước khi ước lượng hàm mật

độ xác suất 2 chiều cho 2 biến điểm rèn luyện và học tập chúng ta chuẩn hóa dữ liệubằng cách đưa điểm học tập về thang điểm 100 giống như điểm rèn luyện Sau đó

15 hàm mật độ xác suất 2 chiều cũng được ước lượng bằng phương pháp hạt nhândựa trên chương trình 2.1 và 2.2 Khi có các hàm mật độ được ước lượng, chúng ta

sẽ xây dựng chùm theo thuật toán 1 và 2 cho từng biến học tập, rèn luyện và kết hợp

Trang 38

hai biến này lại Sử dụng các kết quả phân tích trên để rút ra những nhận xét và kiếnnghị Trong mỗi bước việc tính độ rộng chùm đều dựa vào công thức (1.28) và kếtquả tính toán cụ thể được thực hiện bởi chương trình 2.3 và 2.5 trong trường hợp 1chiều và chương trình 2.4 và 2.6 trong trường hợp 2 chiều.

Gọi f f f f f f f f f f1, , , , , , , , ,2 3 4 5 6 7 8 9 10, f11, f12, f13, f14,f lần lượt là các hàm15mật độ xác suất được ước lượng từ điểm trung bình học tập của sinh viên các lớpHóa 33, Toán 33, Sinh 33, Hóa 34, Toán 34, Sinh 34, Hóa 35, Toán 35, Sinh 35,Hóa 36, Hóa Dược 36, Toán 36, Sinh 36, Tin 36-1, Tin 36-2 Sử dụng chương trình2.1 với dữ liệu mẫu đã chọn trong phụ lục 1, chúng ta ước lượng được 15 hàm mật

độ xác suất cho điểm học tập của 15 lớp Các đồ thị này có hình vẽ như sau:

Hình 3.1 Đồ thị 15 hàm mật độ xác suất của kết quả học tập các lớp

Khoa Khoa học Tự nhiên

Sau đây ta sẽ sử dụng phương pháp thứ bậc và không thứ bậc để gom nhómcác hàm mật độ xác suất đã ước lượng

3.2.1 Phương pháp thứ bậc

Sử dụng chương trình 2.3 và 2.5, việc tính toán qua 14 vòng lặp với kết quả

Trang 39

f

T3610

f

H3511

f

HD369

f

S355

Kết quả của phân tích chùm được cho bởi cây phân loại như sau:

Hình 3.2 Cây phân loại kết quả học tập học kỳ 1 năm học 2010-2011 của 15 lớp

Khoa Khoa học Tự nhiên

0.210.23

0.110.20

0.35

0.180.51

0.86

Trang 40

Chi tiết các tính toán của 14 vòng lặp được cho trong phụ lục 2.

3.2.2 Phương pháp không thứ bậc

Ở phần này, bằng phương pháp không thứ bậc đã được giới thiệu ở chươnghai, ta sẽ nhóm kết quả học tập của sinh viên Khoa Khoa học Tự nhiên thành 4chùm riêng biệt

Áp dụng thuật toán 2.2, đầu tiên ta chia kết quả học tập của các lớp thành 4nhóm một cách tùy ý:

Nhóm 1: W1f f5, 11, f13,

Nhóm 2: W2 f f f f6, , ,7 8 10,

Nhóm 3: W3 f f f f2, , ,3 4 12, f14,

Nhóm 4: W4 f f f1, ,9 15

Sử dụng chương trình 2.3 và 2.5 kết hợp với hệ quả 1.1 trong việc hỗ trợ tính

độ rộng các chùm, ta có bảng tóm tắt việc thực hiện qua các vòng lặp như sau:

Bảng 3.2 Các bước tính toán chùm kết quả học tập-phương pháp không thứ bậc

Ngày đăng: 18/10/2014, 09:00

HÌNH ẢNH LIÊN QUAN

Hình vẽ sau minh họa 3 khoảng cách phổ biến của hai điểm  x(1;2) và  y(2;4). - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Hình v ẽ sau minh họa 3 khoảng cách phổ biến của hai điểm x(1;2) và y(2;4) (Trang 9)
Hình 1.2 Khoảng cách giữa các nhóm - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Hình 1.2 Khoảng cách giữa các nhóm (Trang 12)
Hình 2.2 Đồ thị hàm mật độ xác suất trong không gian 3 chiều - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Hình 2.2 Đồ thị hàm mật độ xác suất trong không gian 3 chiều (Trang 30)
Hình 3.1 Đồ thị 15 hàm mật độ xác suất của kết quả học tập các lớp  Khoa Khoa học Tự nhiên - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Hình 3.1 Đồ thị 15 hàm mật độ xác suất của kết quả học tập các lớp Khoa Khoa học Tự nhiên (Trang 38)
Bảng 3.1 Các bước tính toán chùm kết quả học tập-phương pháp thứ bậc Vòng - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Bảng 3.1 Các bước tính toán chùm kết quả học tập-phương pháp thứ bậc Vòng (Trang 39)
Hình 3.2 Cây phân loại kết quả học tập học kỳ 1 năm học 2010-2011 của 15 lớp  Khoa Khoa học Tự nhiên - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Hình 3.2 Cây phân loại kết quả học tập học kỳ 1 năm học 2010-2011 của 15 lớp Khoa Khoa học Tự nhiên (Trang 39)
Bảng 3.2 Các bước tính toán chùm kết quả học tập-phương pháp không thứ bậc Vòng - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Bảng 3.2 Các bước tính toán chùm kết quả học tập-phương pháp không thứ bậc Vòng (Trang 40)
Hình 3.3 Đồ thị 15 hàm mật độ xác suất của điểm rèn luyện các lớp  Khoa Khoa học Tự nhiên - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Hình 3.3 Đồ thị 15 hàm mật độ xác suất của điểm rèn luyện các lớp Khoa Khoa học Tự nhiên (Trang 42)
Hình 3.4 Cây phân loại điểm rèn luyện học kỳ 1 năm học 2010-2011 của 15 lớp  Khoa Khoa học Tự nhiên - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Hình 3.4 Cây phân loại điểm rèn luyện học kỳ 1 năm học 2010-2011 của 15 lớp Khoa Khoa học Tự nhiên (Trang 43)
Hình 3.5 Đồ thị phân tán điểm rèn luyện và học tập các lớp  Khoa Khoa học Tự nhiên. - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Hình 3.5 Đồ thị phân tán điểm rèn luyện và học tập các lớp Khoa Khoa học Tự nhiên (Trang 46)
Hình 3.6 Đồ thị các hàm mật độ xác suất được ước lượng từ điểm học tập và rèn luyện các lớp Khoa Khoa học Tự nhiên - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Hình 3.6 Đồ thị các hàm mật độ xác suất được ước lượng từ điểm học tập và rèn luyện các lớp Khoa Khoa học Tự nhiên (Trang 46)
Hình 3.7 Cây phân loại điểm rèn luyện và học tập Khoa Khoa học Tự nhiên - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Hình 3.7 Cây phân loại điểm rèn luyện và học tập Khoa Khoa học Tự nhiên (Trang 48)
Bảng 3.9 Kết quả tính toán chi tiết chùm điểm học tập và rèn luyện ở vòng lặp thứ 10 - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Bảng 3.9 Kết quả tính toán chi tiết chùm điểm học tập và rèn luyện ở vòng lặp thứ 10 (Trang 49)
Bảng kết quả học tập và rèn luyện các lớp Khoa Khoa học Tự nhiên - Luận văn tốt nghiệp đại học chuyên ngành Toán thống kê ( Toán ứng dụng )
Bảng k ết quả học tập và rèn luyện các lớp Khoa Khoa học Tự nhiên (Trang 55)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w