Lúc này, hai phép thử nghiệm được định vị ngẫu nhiên với mỗi một cặp ví dụ dùng gieo đồng xu và số liệu sẽ được phân tích bằng kiểm định t cặp đôi quen biết.. - Tạo cột số thứ tự trong c
Trang 1Bước 4 Tiến hành xử lý dữ liệu.,
- Kiểm tra giả thuyết thứ nhất là số liệu thu được tuân theo phân phối chuẩn bằng cách dùng thống kê mô tả và đồ thị ở dạng Boxplots để đánh giá Phân tích thống kê mô tả số liệu bằng cách chọn các muc trong menu Stat >
Basic Statistics > Display Descriptive Statistics Khi dé xuatt hiện hộp thoại
và cân khai báo các mục sau:
+ Variabie: C4 (cột chứa trọng lương tăng)
+ By variable: C3 (cột chứa tên công thức)
công thức 3 ta thu được kết quả trong hình I.14
Nhìn vào giá trị xác suất P = 0.33! > 0.02, ta kết luận giả thuyết số liệu theo phân phối chuẩn được chấp nhận ở mức ý nghĩa 2%
Với công thức 2: giá trị P = 0.57 > 0.02 ta kết luận giả thuyết số liệu theo phân phối chuẩn được chấp nhận Với công thức 1: giá trị P value = 0.27 > 0.02 ta kết luận giả thuyết số liệu theo phân phối chuẩn được chấp nhận Như vậy cả ba công thức đều cho số liệu thoả mãn phân phối chuẩn
Sl
Trang 2
Hìnhi.14 Đồ thị thống kê mô ta trong Minitab
- Kiểm tra giả thuyết thứ hai: Các phương sai đồng nhất Chọn các mục trong menu Stat > ANOVA> Homogeneity of Variances (Test for Equal
Variances) Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau: + Response: trong luong tang (cột C4 chứa số liệu trọng lượng tăng của cá)
+ Factor: cong thue (cột C3 chứa các công thức)
+ Chon OK
Tư đó có kết quả như sau trong cửa số kết quả của Minitab:
Homogeneity of Variance
Response trong luong
Factors cong thuc
ConfLvl 95.0000
Bonferroni confidence intervals for standard deviations
Lower Sigma Upper N Factor Levels
Trang 3Phân tích kết quả ta thấy giá tri xdc sudt P-value = 0.031> 0.02, nén ta chấp nhận giả thuyết các phương sai của ba công thức là đồng nhất ở mức ý
nghĩa 2% Như vậy điều kiện thứ hai của mô hình được thoả mãn, ta sẽ đi tiến hành phân tích phương sai
- Tiến hành phân tích phương sai một nhân tố: Bố trí 4 cột đữ liệu như
trên trong các cột CI, C2, C3 và C4 Dùng menu chọn các mục Stat > ANOVA > One-way Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục
như sau:
+ Response: trong luong tang (cột C4 chứa số liệu trọng lượng tăng của cá)
+ Factor: cong thuc (cột C3 chứa các công thức)
+ Store residuals: chọn mục này để được cột phần dư (Residuals hay
sai số) giữa giá trị hiệu chỉnh và số liệu thực nhiệm (có tên là RESI trên bảng đữ liệu của Minitab )
+ Store fits: chon muc nay dé duoc cét s6 liệu hiệu chỉnh (có tên là ETTS trên bảng dữ liệu của Minitab)
+ Comparisons: trong mục này chọn mục FISHER để có so sánh F
(FISHER) về tỉ lệ sai lệch
+ Graphs: chon céc muc cé dé thi dang Dotplots of data (đồ thi dang điểm của số liệu), Boxplots of data (đồ thị dạng hộp của số liệu), Residuals plots (đồ thị của sai số phần dư bao gồm Histogram of residuals đồ thị tần
số của sai số, Normal plots of residuals đồ thị sai số chuẩn hoá, Residuals
versus fits đồ thị sai số hiệu chỉnh, Residuals versus order đồ thị sai số theo thứ tự của số liệu)
+ Kết thúc chọn ÓOK
Từ đó ta có kết quả sau trong cửa số kết quả của Minitab:
One-way Analysis of Variance
Analysis of Variance for trong lu
cong thu 2 0.58545 0.29273 96.72 0,000
Error 12 0.03632 09,00303
Total 14 0.62177
Individual 95% CIs For Mean
Based on Pooled StDev
53
Trang 4Fisher's pairwise comparisons
Family error rate = 0.116
Individual error rate = 0.0500
Critical value = 2.179
Bước 5 Dựa vào kết quả của bảng phân tích phương sai với F (thực nghiệm) =96.72 > F lý thuyết (2, 12, 0.5), hay giá trị xác suất P = 0 < 0.02 (mức ý nghĩa 2%), ta kết luận các công thức thử nghiệm có ảnh hưởng đến tăng trọng lượng của cá
2.2 Mô hình khối hoàn toàn ngẫu nhiên
Mô hình hoàn toàn ngẫu nhiên có những hạn chế sau: Thiết kế thí nghiệm hoàn toàn ngẫu nhiên đòi hỏi tất cả các đơn vị thử nghiệm là giống nhau trước khi phép thử nghiệm được áp dụng Trên thực tế thường không có
đủ các đơn vị thử nghiệm đảm bảo cho điều này Nếu có biến sai số hệ thống trong các đơn vị thử nghiệm và chúng ta không chú ý tới điều này thì kết luận cuối cùng có thể không thật chuẩn xác Chẳng hạn xét một thiết kế thí nghiệm hoàn toàn ngẫu nhiên đã được dùng để đánh giá sản lượng một vụ thu hoạch lúa với ba phép thử nghiệm (công thức trồng trọt) A, B, C Giả sử rằng một phần của các mảnh ruộng ẩm ướt hơn vì ở gần một cái rạch nước Trong trường hợp này nếu dùng mô hình hoàn toàn ngẫu nhiên thì sẽ không
chính xác
Thiết kế khối hoàn toàn ngẫu nhiên sẽ khắc phục được các hạn chế của
mô hình hoàn toàn ngẫu nhiên như đã nêu ở trên Trong mô hình khối hoàn toàn ngẫu nhiên, chúng ta cần nhóm các đơn vị thử nghiệm giống nhau thành một nhóm Những nhóm này được gọi là các khối Trong mỗi khối các phép thử nghiệm được tiến hành trên các đơn vị được chọn ngâu nhiên Chúng ta sử dụng thuật ngữ “khối hoàn toàn ngẫu nhiên” bởi vì mỗi khối chứa tất cả các phép thử nghiệm có thể có
a Yêu câu của mô hình
54
Trang 5Cần kiểm tra hai giả thuyết: dữ liệu tuân theo phân phối chuẩn và các phương sai đồng nhất Với hai phép thử nghiệm (công thức thử nghiệm) và thiết kế mỗi khối có hai đơn vị thử nghiệm thì đó là thiết kế cặp đôi Lúc này, hai phép thử nghiệm được định vị ngẫu nhiên với mỗi một cặp (ví dụ dùng gieo đồng xu) và số liệu sẽ được phân tích bằng kiểm định t cặp đôi quen biết Khi có từ ba phép thử nghiệm trở lên, chúng ta dùng phân tích phương sai Mỗi khối sẽ chứa số đơn vị thử nghiệm bằng số phép thử nghiệm (hoặc là bội số của số phép thử nghiệm)
b Các bước tiến hành
Bước 1 Thiết kế thí nghiệm theo mô hình khối hoàn toàn ngẫu nhiên.Trước tiên phải xác định số công thức thử nghiệm, số khối Sau đó tạo
ra dãy số ngẫu nhiên gắn với các đơn vị thử nghiệm trong khối
Bước 2 Tiến hành các phép thử nghiệm trên các đơn vị thử nghiệm đã
Bước 5, Rút ra kết luận trên các kết qua thu được
Ví dụ 13 Nghiên cứu các loại thuốc ảnh hưởng đến số lượng bạch
cầu (1000 tế bào trên 1/1000 mm khối máu) Nhân tố khối: lứa đẻ (5 lứa đẻ),
nhân tố phép thử nghiệm: thuốc (4 công thức) Mô hình được diễn đạt như
sau: Đữ liệu (đếm tế bào) = (trung bình chung lượng tế bào) + (tác động của lứa đẻ) + (tác động cuả thuốc) + sai số
Mô hình toán là: y„ = +, +/,+£,, trong đó: ¿ = trung bình chung lượng tế bào, #z, = tác động của lứa dé i (i nhận giá trị từ 1 tới 5), /, = tác động của thuốc j (nhận giá trị từ 1 tới 4), z„ = sai số ngẫu nhiên Bước I Thiết kế thí nghiệm theo khối hoàn toàn ngẫu nhiên
- Tạo cột số thứ tự trong cot Cl với tên cột là 'UNTT' (ứng với các phép thử nghiệm a, b, c, d), bằng cách dùng menu, chọn các mục Cac >
Moke Patterned Data > Arbitrary Set oƒ Nưmbers Khi đó sẽ xuất hiện hộp
thoại và cần khai báo các mục như sau:
35
Trang 6+ Store patterned data in: C] (c6t chita sé tir 1 dén 4 ứng với 4 phép thử là 4 loại thuốc)
+ Arbitrary set of numbers: 1:4(gid tri số điển vào cột C1 từ 1 đến 4) + List each value: 1 (số lần lập mỗi gid tri)
+ List the whole sequence: I (s6 lan lap lai cac gid tri)
+ Kết thúc chọn ÓK
- Tạo cột số ngẫu nhiên ở cột C2 (với 4 phép thử nghiệm), cột này là
khối 1, bằng cách dùng Menu, chọn các mục Cale > Random Data >
Sample from Columns Khi đó sẽ xuất hiện hộp thoại và cần khai báo các
mục như sau:
+ Sample: 4 (tạo 4 mẫu)
+ Columns : CI (cot chita cdc thử nghiệm tương ứng)
+ Store samples in: C2 (cột chứa dấy số ngẫu nhiên)
+ Kết thúc chọn OK
- Tương tự như làm cho cột C2, tạo các cột số ngẫu nhiên cho các cột C3, C4, C5, Có cho các khối 2, 3, 4,5 Đạt tên cho C2 la ‘BLOCK 1’ , C3
la ‘BLOCK 2’ , C4 14 ‘BLOCK 3” , C5 la ‘BLOCK 4’ , C6 là 'BLOCK 5°
- Hiện dữ liệu trong các cột bằng cách dùng Menu, chọn các mục Manip > Diplay Data Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:
+ Kích chuột chọn các cột dữ liệu: C1, C2, C3, C4, C5, Có
+ Kết thúc chọn ÓK
Bước 2 Thực hiện các thử nghiệm theo mô hình đã in ra
Bước 3 Thu thập các dữ liệu trên đơn vị thử nghiệm theo yêu cầu phân tích, theo thời gian cần thiết Kết quả thu được như sau cho các lứa đẻ
DRUG ROW Litter 1 Litter 2 Litter 3 Litter 4 Litter 5
Trang 7- Nhập các dữ liệu trên vào các cột tương ứng trong cửa sổ nhập liệu
Sau đó xếp chồng dữ liệu trên 1 cột (Litter 1, rồi đến Litter 2 ) bằng cách
dùng menu, chọn các muc Manip > Stack/Unstack > Stack Columns .Khi
đó sẽ xuất hiện hộp thoại và cần thực hiện các bước sau:
+ Kích chuột chọn các cột dữ liệu Litter 1, Litter 2, Litter 3, Litter 4 và
Litter 5
+ Store the stacked data in: C6 (dit liệu chồng trong cột C6)
+ Store subscripts in: C7 (chi số lứa đẻ trong cét C7)
+ Kết thtic chon OK
- Tạo một cột số C8 để ghi loại thuốc từ 1 đến 4 bang cach ding menu,
chon cdc muc Cale > Make Patterned Data > Arbitrary Set of Numbers
Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:
+ Store patterned data in: C8 (cột chứa số từ 1 tới 4 ứng với loại thuốc)
+ Arbitrary set of numbers: 1: 4 (giá trị số điển vào cột từ 1 đến 4)
+ List each value: } (s6 lan lap méi gié tri)
+ List the whole sequence: 5 (s6 lan lặp lại các giá trị cho 5 lứa đẻ) + Kết thúc chọn ÓK
~ Đặt tên cho các cột Có, C7, C8: gỗ vào các ô tên cét C6 ‘Count’, C7
‘Litter’ và C8 ‘Drug’ Muén hiện dữ liệu, ta dùng menu, chọn các mục sau: Manip > Display Data .Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:
+ Kích chuột chọn các cột dữ liệu: C6, C7, C8
+ Kết thúc chọn ÓK
Bước 4 Tiến hành xử lý dữ liệu
- Kiểm tra hai giả thuyết của mô hình hoàn toàn ngẫu nhiên là dữ liệu theo phân phối chuẩn và phương sai của các nhóm đồng nhất theo các bước sau:
+ Kiểm tra tính chuẩn: đặt tên cot C9 la ‘RESID’, C10 1a ‘FIT? va vẽ
đổ thị sai số trong cột C9 dạng hộp bằng cách chọn Graph > Character
57
Trang 8Graphs > Boxplot Can khai bio: Variable C9 (cột chứa sai số), By variable C8 (cột chứa loại thuốc) và chon OK để kết thúc Minitab sẽ cho đồ thị như sau:
Ta thấy sự phân bố xuất hiện đối xứng nên đữ liệu có tính chuẩn (khi
xem đồ thị sai số đã chuẩn hoá, nếu các điểm hầu như nằm trên một đường thẳng thì giả thuyết sai số tuân theo phân phối chuẩn)
+ Kiểm tra tính đồng nhất của phương sai: ta có thể kiểm tra tính đồng nhất của phương sai trong việc tính các thống kê cho sai số (cột C9) bằng
cach chon cdc muc Stat > Basic Statistics > Display Descriptive Statistics Khi đó xuất hiện hộp thoại và cần khai báo các mục: Variable C9 (cột chứa sai số), By variable C8 (cột chứa tên thuốc), va chon OK dé nhận được kết
Nhìn vào kết quả ta thấy độ lệch chugn mau (StDev) Ia gần bằng nhau,
do vậy giả thuyết độ lệch chuẩn hay phương sai bằng nhau được chấp nhận
- Tiến hành phân tích phương sai cân đối bằng cách dùng menu, chọn
các mục §/at > ANOVA > Balanced ANOVA .Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:
+ Responses: Count (cét C6 chứa số liệu)
+ Model: Litter, Drug (cột C7, C8 chứa lứa đề và thuốc)
38
Trang 9+ Graphs: chon céc muc có đồ thị
+ Storage: chon Fits để được số liệu hiệu chinh, chon Residuals dé được cột sai số
+ Kết thúc chọn ÓK
- Kết quả phân tích phương sai như sau:
Analysis of Variance (Balanced Designs)
Bước 5 Dựa vào kết quả của bảng phân tích phương sai với F=30.16 >
F tý thuyết, hay giá trị xác suất P.= 0< 0.05 (mức ý nghĩa 5%), ta kết luận
các loại thuốc ảnh hưởng đến số lượng bạch cầu
2.3 Thiết kế nhân tố
Có thể tiến hành thiết kế nhân tố theo hai kiểu chính: kiểu đẩy đủ tổng quát (General Full Factorial Design) cho phép mỗi nhân tố có từ hai mức trở lên và kiểu hai mức (Two-Level Factorial Design), mỗi nhân tố chỉ có hai mức
59
Trang 10Vi du 14 Xét vi du 13 và phương pháp giải quyết tat va ngdn gon hơn thông qua thiết kế nhân tố Chúng ta có thể thiết kế thí nghiệm khối hoàn toàn ngẫu nhiên theo kiểu thiết kế nhân tố đầy đủ tổng quát với hai nhân tố
không tương tác (không lặp)
a Tạo ra thiết kế nhân tổ đây đủ tổng quát
- Chon Stat > DOE > Factorial Design >Create Factorial Design
- Chon General full factorial design Trong muc Number of factors nhập 2 (hai nhân tố: nhân tố A và nhân tố B)
- Trong muc Design nhap vao cot tén nhan té A 1a Litter, tên nhân tố
B 1a cong thuc, nhap vao cot Number of levels các số 5 và 4 (các mức của
hai nhân tố) Trong mục Number of replicates nhập 1, nên ngầm định chỉ có một cột khối ngẫu nhiên giả (Blocks) Chú ý rằng nếu số lặp nhiều hơn 1, thì
ta thật sự có từ hai khối ngẫu nhiên trở lên
- Trong mục Opon, đánh đấu Randomize runs và Store design in worksheet, trong muc Base for random data generator nhap s6 9 (luén nhap một số cố định làm hạt mầm cho hàm sinh số ngẫu nhiên) Kích OK trong
mỗi hộp thoại để nhận được thiết kế nhân tố cho hai nhân tố Litter và cong
thuc
Sau khi tiến hành các phép thử nghiệm trên các cá thể, ta nhập các số
liệu mau vao cét bachcau, chon Manip > Display Data sé c6é két qua sau trong cửa số kết quả của Minitab Nhu vay ching ta đã hoàn thành xong các bude 1,2 va 3 ở mục 2.2 trên day Chú ý rằng, ta cần hiểu con thứ 1 của lứa
1 ứng với công thức 2, con thứ 2 của lứa 1 ứng với công thức 4, con thir 1
của lứa 5 ứng với công thức 2, ., con thứ 5 của lứa 5 ứng với công thức Ì
(đây là cách làm tất để áp dựng các công thức một cách ngẫu nhiên trong
từng lứa đẻ)
Trong bảng trên, cột đầu là cột số thứ tự, cột thứ hai là cột thứ tự chuẩn tiến hành các phép thử nghiệm, cột thứ ba là cột thứ tự ngẫu nhiên tiến hành các thử nghiệm, cột thứ tư là cột Blocks (khối ngẫu nhiên chỉ dùng cho thiết
kế thí nghiệm từ hai nhân tố trở lên theo kiểu khối hoàn toàn ngẫu nhiên,
trong trường hợp này không dùng đến), trong hai cột sau là các tổ hợp các
mức của (Litter, congthuc), cột cuối là cột các số liệu thực nghiệm thu được
về bạch cầu (response)
60
Trang 11g 2 StdOrder RunOrder Blocks Litter congthuc bachcau
b.Phân tích thiết kế nhân tố đây đủ tổng quát
- Chon Stat > DOE > Factorial Design > Analyze Factorial Design
- Trong muc Responses nhập cột bachcau
mỗi hộp thoại để nhận được kết quả sau:
General Linear Model: bachcau versus Litter, cthuc
Trang 12Có thể thấy các kết quả trên hoàn toàn trùng với các kết quả trong mục 2.2 ngoài ra, có thể kiểm tra giả thuyết về tính chuẩn của số liệu thông qua
đồ thị kiểm tra tính chuẩn của phần dư (xem hình 1.15.)
Normal Probability Piot of the Residuals
(response is bachcau)
Hình !.15 Đồ thị xác suất chuẩn của phần dư
‘Vi dụ 15 Phân tích phương sai ba nhân tố tương tác (có lặp) theo khối hoàn toàn ngẫu nhiên Cần thiết kế thí nghiệm theo 2 khối hoàn toàn ngẫu
nhiên với ba nhân tố để xem chúng có ảnh hưởng như thế nào dén nang suất (và cả chi phi) Nhan tố 1 có hai mức 20 và 50, nhân tố 2 có hai mức 150 và
200, nhân tố 3 có hai mức định tính A và B Trong trường hợp này, chúng ta
có thể tạo ra thiết kế nhân tố đầy đủ tổng quát giống như trong ví dụ vừa xét, lúc đó kết quả được đưa ra với hình thức tương tự (Mô hình tuyến tính tổng
quat General Linear Model và bảng phân tích Anova) Tuy vậy, chúng ta chọn cách sau đây:
Tạo ra thiết kế nhân tố đây đủ hai mức (vì mỗi nhân tố chỉ có hai mức) bằng cách:
- Chon Stat > DOE > Factorial Design > Create Factorial Design
- Chon 2-level factorial (default generator) Trong myc Number of
factors nhập 3 (ba nhân tố)
62
Trang 13- Trong muc Design chon Full ‘factorial va ttong muc Number of replicates nhap 2, trong muc Number of blocks nhap 2
- Trong muc Factor sita lai ten céc nhan to 1a Factorl, Factor2 và Factor3, nhập lại các mức của các nhân tố
- Trong muc Option, dinh dau Randomize runs va Store design in
worksheet, trong muc Base for random data generator nhập số 9 (luôn nhập
một số cố định làm hạt mâm cho hàm sinh số ngẫu nhiên) Kich OK trong mỗi hộp thoại để nhận được thiết kế nhân tố hai mức đầy đủ theo kiểu khối hoàn toàn ngẫu nhiên
Sau đó, nhập các số liệu thực nghiệm về năng suất và chỉ phí vào các cột tiếp theo, như minh hoạ trên hình I.16
Hình I.16.Cửa số nhập liệu trong thiết kế đẩy đủ 2-mức khối hoàn toàn ngẫu nhiên
Tién hành phân tích thiết kế nhân tố đây đủ hai mức:
- Mở tệp dữ liệu VSCP.MTW đã có trên đây
- Chon Stat > DOE > Factorial Design > Analyze Factorial Design
- Trong muc Responses nhap cot Nsuat
- Kich Graphs, trong muc Effects plots đánh dấu Normal va Pareto
Trong mục Aipha (mức ý nghĩa của kiểm định) nhập 0.05 Kích ÓK trong mỗi hộp thoại để nhận được kết quả sau:
63
Trang 14Fractional Factorial Fit: nangsuat versus Factort, Factor2, Factor3
Estimated Effects and Coefficients for Nauat(coded Coef SE Coef units) T P
0.0374 0.0374 0.26 0.628 5.6780 21.8927 150.15 0.000 3.0273 1.0091 6.92 0.017 9.0021 0.0021 0.01 0.907 1.0206 0.1458
Alias Structure
1 Blocks = Factorl Factor2 Factor3 Factorl*Factor2 Factori*Factor3
(response is Neust, Alpha = 05)
Trang 15Pareto Chart of the Standardized Effects
(response is Nsuat, Alpha = 05)
Hình I.18 Biểu đồ Pareto các ảnh hưởng
Có thể giải thích ý nghĩa các kết quả như sau:
~ Bảng ước lượng (cho biết khoảng ước lượng 95% và kiểm định t mức
ý nghĩa 5%) các hệ số ảnh hưởng của các nhân tố và tác động tương tác của chúng lên năng suất và bảng phân tích phương sai cho biết các ảnh hưởng của nhân tố khối và tác động tương tác kết hợp của cả ba nhân tố Factorl, Factor2, Factor 3 đều không có ý nghĩa Trong khi đó tổng tác động riêng rẽ của cả ba nhân tố và tổng tác động tương tác của từng cặp nhân tố lại có ý nghĩa (tuy vậy ảnh hưởng của riêng Factor 3 và của tác động tương tác của hai cặp Factor!*Factor3 và Factor2*Factor3 lại không đáng kể)
~ Hệ số ảnh hưởng của nhân tố khối không có ý nghĩa chứng tỏ dữ liệu thu thập theo khối không ảnh hưởng tới năng suất
- Đồ thị xác suất chuẩn của các ảnh hưởng quy chudn (Normal Probability Plot of the Standardized Effects) trén hinh 1.17 cho biết các nhân
16 A (Factor), B (Factor2) va tac động tương tác của chúng là đáng kể nhất,
vì chúng có hệ số ảnh hưởng quy chuẩn lớn và nằm cách xa đường thẳng dự báo Biểu đồ Pareto của các ảnh hưởng quy chuẩn (Pareto Chart of the Standardized Effects) trén hinh 1.18 cũng cho kết luận trên
65
Trang 163 Phân tích thống kê nhiều chiều
Minitab cung cấp các công cụ rất mạnh về phân tích dữ liệu nhiều chiều thu được khi chúng ta khảo sát và đo nhiều đặc tính của các cá thể trên một quần thể nhất định Tuỳ theo mục đích đẻ ra, chúng ta có thể lựa chọn phương pháp phân tích thống kê nhiêu chiều thích hợp:
- Phân tích cấu trúc (hiệp phương sai) của dữ liệu nhằm hiểu rõ về mối tương quan giữa các chiều của đữ liệu, từ đó có thể tìm cách rút gọn số chiều của dữ liệu Để làm điều này, chúng ta có thể sử dụng các công cụ của Minitab là Phân tích thành phần chính và Phân tích nhân tố (cần chú ý rằng thuật ngữ “nhân tố” ở đây có ý nghĩa khác với nội dung ở phần phân tích phương sai một nhân tố, hai nhân tố hay thiết kế nhân tố .)
- Các phương pháp phân nhóm các dữ liệu nhiều chiều bao gồm: Phân
loại (discriminant analyis), Phan cum dit liệu, Phân cum các biến và Phan
cụm K-trung bình
3.1 Phản tích thành phần chính
Để khảo sát một quần thể, chúng ta dùng phương pháp mẫu Chẳng hạn, như trong ví dụ 16, chọn ra một mẫu 14 cá thể, trên mỗi cá thể ta phí các chỉ số của năm đặc tính A, B, C, D và E Như vậy ở đây chúng ta quan
sát được 14 thể hiện của một véc tơ ngẫu nhiên X có 5 chiều, X = (A,B, C,
Trang 17a Các bước thực hiện
~ Mở tiệp dữ liệu PTich_TPC.MTW bao gồm 5 cột dữ liệu A, B, exp
va E
- Chon Stat>Multivariate> Principal Components,
- Trong muc Variables chon các cột dữ liệu
- Nếu muốn, ta có thể chọn một hoặc nhiều hơn các lựa chọn khác trong hộp thoại (như chon Correlation trong muc Type Matrix, chon Eigenvalue (Scree) plot trong muc Graph), sau đó kich OK
Minitab cho ta két qua sau như trên hình I.19
Principal Component Analysis: A, B, €, D, E
-0.453 0.007 0.004 0.117 0.268 0.769 -310 0.455 -0.648 0,201 0.701 0.691 0.015 0.014
Kết quả phân tích thành phan chính như sau:
Principal Component Analysis: A, B, C, D, E
Eigenanalysis of the Correlation Matrix
67
Trang 18b Phân tích kết quả nhận được
‘Thanh phần chính PC] có phương sai (giá trị riêng) là 3.0289 và chiếm tới 60.6% của tổng phương sai Các hệ số của cột PCI cho biết: PCI = - 0.558A-0.313B-0.568C-0.487D+0.174E Chú ý rằng các hệ số của A, B, C,
D đều không sắt 0 Điều này có thể được cắt nghĩa (một cách chủ quan) như sau: Thành phần chính thứ nhất biểu diễn các mức của các đặc tính A, B, C dưới tác động ảnh hưởng của đặc tính D
Trong khi đó, thành phần chính thứ hai có phương sai là 1.2922 và chiếm tới 25.8% độ biến động của dữ liệu Nó phản ánh mức độ tương phản giữa đặc tính B và E đối với đặc tính D
Hai thành phần chính trên PCI và PC2 chiếm tới 97.8% độ biến động toàn phần, nên cấu trúc dữ liệu có thể được thể hiện phần lớn bởi hai chiều trên Các thành phần chính còn lại chiếm tỷ trọng biến động bé nên có thể
bỏ qua Điều này cũng được thể hiện khá rõ trên biểu đồ các giá trị riêng
trong hình 1.14 (Seree plot of A-E)
Về mặt toán học, các thành phần chính PCI, PC2, PC3, PC4 và PC5
không tương quan với nhau (chúng có ma trận tương quan hay ma trận hiệp
phương sai dạng đường chéo chính) Nói cách khác, véc tơ ngẫu nhiên X đã được phân tích dưới dạng sau: X = E(X) + PVTX, trong đó Pc là ma trận với các cột là các vec tơ thành phần chính Trong trường hợp tổng quát phân tích thành phần chính, các giá trị riêng luôn có giá trị cố định, còn các véc tơ thành phân chính có thể thay đổi tuỳ theo thuật toán phân tích thành phần chính được sử dụng
3.2 Phân tích nhân tố
Tương tự như phân tích thành phân chính, phân tích nhân tố giúp cho 68
Trang 19việc tổng hợp cấu trúc hiệp phương sai của dữ liệu với số chiều ít nhất Tuy nhiên, phân tích nhân tố chú trọng đặc biệt tới việc tìm ra các nhân tố ảnh hưởng nhiều nhất tới sự biến động toàn phần của đữ liệu
4 Phân tích nhân tố bằng phương pháp thành phần chính
Vi du 17, Cac dữ liệu như ví dụ 16 Cần thực hiện phân tích nhân tố bằng phương pháp thành phần chính Ta tiến hành các bước sau:
- Mỏ tệp Píích TPC.MTW
- Chon Stat>Muttivariate>Factor Analysis
- Trong muc Variables, chon A, B, C, D va E
- Kich vao Graph va chon Eigenvalue (Scree) plot Két thiic kich OK
trong mỗi hộp thoại Ta thu được kết qua sau:
Results for: PTich_TPC.MTW
,B,C,D,E
Factor Analysis:
Principal Component Factor Analysis of the Correlation Matrix
Unrotated Factor Loadings and Communalities
Factor Score Coefficients
Trang 20Kết quả trên có thể được phân tích như sau:
- Số nhân tố được chọn là 5, do đó giá trị liên kết (Communality) cho
các đặc tính A, B, C, D và E đều là 1 Điều này có nghĩa là tỷ trọng % biến động của mỗi biến được giải thích bởi các nhân tố đã chọn đều là 100% Các
véc tơ nhân tố đếu có phương sai tương ứng giống như thu được trong phân
tích thành phần chính, và các phương sai này sẽ giải thích tỷ trọng % biến động do các nhân tố gây nên Ta thấy hai nhân tố đầu giải thích được tới 96.4% biến động của dữ liệu
- Đối với véc tơ nhân tố l ta có công thức: Factorl = PCIx 3.0289/ JPCI, với JPCH| là độ dài của véc tơ PC], Các công thức tương tự cũng
đúng với các nhân tố còn lại Tóm lại, các giá trị riêng (hay phương sai) của các véc tơ nhân tố đều bất buộc bằng 1, nên độ đài của các véc tơ nhân tố cũng chính bằng các phương sai tương ứng của các véc tơ thành phần chính Trong cac cot 6 phan Factor Score Coeficients, ta c6é các véc tơ nhân tố đã được chuẩn hoá (có độ dài bằng 1)
b Phân tích nhân tố sử dụng phương pháp hợp lý cực đại và phép quay
Theo định nghĩa, các véc tơ nhân tố phải có phương sai (giá trị riêng)
là 1, vì vậy chúng được xác định chính xác tới một phép biến đổi trực giao hay còn nói là một phép quay Trong phân tích nhân tố, sau khi thực hiện
phương pháp thành phần chính với số nhân tố không rút gọn (bằng 5 trong ví
dụ trên), chúng ta sẽ rút gọn số nhân tố
Phương pháp hợp lý cực đại được sử dụng để tìm ra các nhân tố có ảnh hướng nhất tới biến động của dữ liệu, sau khi đã chọn ra số nhân tố cần để lại Đồng thời cần lựa chọn phép quay thích hợp (có bốn phương pháp quay, thông thường chọn varimax để cực đại hoá phương sai của các nhân tố hoặc equimax để các biến được tập trung chủ yếu vào một nhân tố)
Ví dụ 18 Ta dùng dữ liệu của ví dụ L7 và tiến hành phân tích nhân tố
sử dụng phương pháp hợp lý cực đại và phép quay theo cách bước sau:
Trang 21- Trong muc Method of extraction chon Maximum likelihood
- Trong muc Type of rotation chon Varimax
- Kich Graph, chon Loading plot for first 2 factors, khong chon Eigenvalue (Scree) plot Kich OK Kich Results, chon Sort loading Sau
cùng, kich OK trong mỗi hộp thoại để nhận được kết quả phân tích nhân tố Trên hình L20 là các cửa sổ Minitab khi phân tích nhân tố bằng
phương pháp hợp lý cực đại và phép quay Varimax
Variance % Yar 2.9678 0.594 1.0159 0.203 3.9837
0.797 Rotated Factor Loadings and Couaunalities
Vatimax Rotation
Hinh 1.20 Phan tích nhân tố với phép quay Varimax trong Minitab
Kết quả phân tích nhân tố lúc này như sau:
Results for: PTich_TPC.MTW
Factor Analysis: A, B, C, D, E
Maximum Likelihood Factor Analysis of the Correlation Matrix (* NOTE * Heywood case)
71
Trang 22Unrotated Factor Loadings and Communalities
Sorted Rotated Factor Loadings and Communalities
Factorl Factor2 Communality
Trang 23- Các nhân tố không quay (bảng đầu tiên) giải thích được 79.7% biến động toàn phần của đữ liệu Biến A có độ kết nối (communality) là 0.968 có nghĩa là A đực giải thích bởi hai nhân tố đã chọn ở mức 0.968 Tương tự ta cắt nghĩa được các giá trị kết nối khác Nói chung, các biến đều được biểu
diễn khá tốt thông qua hai nhân tố đã chọn trừ trường hợp biến E
- Các nhân tố thu được bằng phép quay Varimax (bảng thứ hai) cũng giải thích được tới 79.7% như ở bảng đầu, tuy nhiên sau khi quay các nhân
tố trở nên cân bằng hơn về mức giải thích biến động của đữ liệu Nếu sắp xếp lại theo theo chiều toạ độ giảm dân của véc tơ nhân tố † thì ta có bảng thit ba Quan sat biéu dé Load Plot A-E trén hinh 1.20 có thể thấy nhân tố 1
có mức nạp các biến A, C và D cao, còn nhân tố 2 là các biến A, B và C, Như vậy, nhân tố I có thể coi là nhân tố phản ảnh mối quan hệ (A, C, D), còn nhân tố 2 phản ánh mối quan hệ (A, C, B) Trong khi đó tương quan (D, B) là tương đối yếu
~ Chuẩn hoá các véc tơ nhân tố ta có bảng hệ số điểm nhân tố đạt được
(factor score coefficients) Khi có bộ dữ liệu mới về véc tơ ngẫu nhiên X, ta
chỉ việc lấy các hệ số trên nhân với dữ liệu đã được quy gốc về véc tơ kỳ vọng để tính điểm đạt được của các nhân tố
3.3 Phân loại
Chúng ta sử dụng giải tích phân loại để phân loại các đữ liệu quan sát
được vào hai hay nhiều nhóm, nếu như đã có mẫu thực nghiệm với các nhóm
đã biết Minitab cho phép phân loại theo hai cách: Phân loại tuyến tính và
phân loại toàn phương Chúng ta đi sâu vào phân tích phân loại tuyến tính,
lúc này cần giả thiết rằng các nhóm đều có chung ma trận hiệp phương sai
Ví dụ 19, Để phân loại cá hồi nguồn gốc từ Alaska hay từ Canada, người ta theo dõi 50 con gốc Alaska, 50 con gốc Canada và tiến hành đo
vòng tăng trưởng cho các giai đoạn chúng sống trong nước ngọt và nước
biển Số liệu mẫu thu thập được như sau:
Trang 2465
66 S7
Trang 25a Các bước thực hiện
Tiến hành phân loại trong Minitab theo các bước:
- Mở tệp dữ liệu EXH_MVAR.MTW
- Chon Stat > Multivariate > Discriminant Analysis
- Trong mục Group, chọn cot Nguon goc trong muc Predictor chon cde c6t Nuoc ngot và Nuoc bien Kích ÓOK để thu được kết quả sau trong
cửa sổ kết quả
Discriminant Analysis: Nguon goc versus Nuoc ngot, Nuoc bien
Linear Method for Response: Nguon go
Predictors: Nuoc ngo Nuoc bie
Group Alaska Canada
Summary of Classification
Put into «- True Group
N= 100 N Correct = 93 Proportion Correct = 0.930
Squared Distance Between Groups