1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tin học ứng dụng trong ngành nông nghiệp part 2 ppsx

51 201 1
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 51
Dung lượng 3,51 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Lúc này, hai phép thử nghiệm được định vị ngẫu nhiên với mỗi một cặp ví dụ dùng gieo đồng xu và số liệu sẽ được phân tích bằng kiểm định t cặp đôi quen biết.. - Tạo cột số thứ tự trong c

Trang 1

Bước 4 Tiến hành xử lý dữ liệu.,

- Kiểm tra giả thuyết thứ nhất là số liệu thu được tuân theo phân phối chuẩn bằng cách dùng thống kê mô tả và đồ thị ở dạng Boxplots để đánh giá Phân tích thống kê mô tả số liệu bằng cách chọn các muc trong menu Stat >

Basic Statistics > Display Descriptive Statistics Khi dé xuatt hiện hộp thoại

và cân khai báo các mục sau:

+ Variabie: C4 (cột chứa trọng lương tăng)

+ By variable: C3 (cột chứa tên công thức)

công thức 3 ta thu được kết quả trong hình I.14

Nhìn vào giá trị xác suất P = 0.33! > 0.02, ta kết luận giả thuyết số liệu theo phân phối chuẩn được chấp nhận ở mức ý nghĩa 2%

Với công thức 2: giá trị P = 0.57 > 0.02 ta kết luận giả thuyết số liệu theo phân phối chuẩn được chấp nhận Với công thức 1: giá trị P value = 0.27 > 0.02 ta kết luận giả thuyết số liệu theo phân phối chuẩn được chấp nhận Như vậy cả ba công thức đều cho số liệu thoả mãn phân phối chuẩn

Sl

Trang 2

Hìnhi.14 Đồ thị thống kê mô ta trong Minitab

- Kiểm tra giả thuyết thứ hai: Các phương sai đồng nhất Chọn các mục trong menu Stat > ANOVA> Homogeneity of Variances (Test for Equal

Variances) Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau: + Response: trong luong tang (cột C4 chứa số liệu trọng lượng tăng của cá)

+ Factor: cong thue (cột C3 chứa các công thức)

+ Chon OK

Tư đó có kết quả như sau trong cửa số kết quả của Minitab:

Homogeneity of Variance

Response trong luong

Factors cong thuc

ConfLvl 95.0000

Bonferroni confidence intervals for standard deviations

Lower Sigma Upper N Factor Levels

Trang 3

Phân tích kết quả ta thấy giá tri xdc sudt P-value = 0.031> 0.02, nén ta chấp nhận giả thuyết các phương sai của ba công thức là đồng nhất ở mức ý

nghĩa 2% Như vậy điều kiện thứ hai của mô hình được thoả mãn, ta sẽ đi tiến hành phân tích phương sai

- Tiến hành phân tích phương sai một nhân tố: Bố trí 4 cột đữ liệu như

trên trong các cột CI, C2, C3 và C4 Dùng menu chọn các mục Stat > ANOVA > One-way Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục

như sau:

+ Response: trong luong tang (cột C4 chứa số liệu trọng lượng tăng của cá)

+ Factor: cong thuc (cột C3 chứa các công thức)

+ Store residuals: chọn mục này để được cột phần dư (Residuals hay

sai số) giữa giá trị hiệu chỉnh và số liệu thực nhiệm (có tên là RESI trên bảng đữ liệu của Minitab )

+ Store fits: chon muc nay dé duoc cét s6 liệu hiệu chỉnh (có tên là ETTS trên bảng dữ liệu của Minitab)

+ Comparisons: trong mục này chọn mục FISHER để có so sánh F

(FISHER) về tỉ lệ sai lệch

+ Graphs: chon céc muc cé dé thi dang Dotplots of data (đồ thi dang điểm của số liệu), Boxplots of data (đồ thị dạng hộp của số liệu), Residuals plots (đồ thị của sai số phần dư bao gồm Histogram of residuals đồ thị tần

số của sai số, Normal plots of residuals đồ thị sai số chuẩn hoá, Residuals

versus fits đồ thị sai số hiệu chỉnh, Residuals versus order đồ thị sai số theo thứ tự của số liệu)

+ Kết thúc chọn ÓOK

Từ đó ta có kết quả sau trong cửa số kết quả của Minitab:

One-way Analysis of Variance

Analysis of Variance for trong lu

cong thu 2 0.58545 0.29273 96.72 0,000

Error 12 0.03632 09,00303

Total 14 0.62177

Individual 95% CIs For Mean

Based on Pooled StDev

53

Trang 4

Fisher's pairwise comparisons

Family error rate = 0.116

Individual error rate = 0.0500

Critical value = 2.179

Bước 5 Dựa vào kết quả của bảng phân tích phương sai với F (thực nghiệm) =96.72 > F lý thuyết (2, 12, 0.5), hay giá trị xác suất P = 0 < 0.02 (mức ý nghĩa 2%), ta kết luận các công thức thử nghiệm có ảnh hưởng đến tăng trọng lượng của cá

2.2 Mô hình khối hoàn toàn ngẫu nhiên

Mô hình hoàn toàn ngẫu nhiên có những hạn chế sau: Thiết kế thí nghiệm hoàn toàn ngẫu nhiên đòi hỏi tất cả các đơn vị thử nghiệm là giống nhau trước khi phép thử nghiệm được áp dụng Trên thực tế thường không có

đủ các đơn vị thử nghiệm đảm bảo cho điều này Nếu có biến sai số hệ thống trong các đơn vị thử nghiệm và chúng ta không chú ý tới điều này thì kết luận cuối cùng có thể không thật chuẩn xác Chẳng hạn xét một thiết kế thí nghiệm hoàn toàn ngẫu nhiên đã được dùng để đánh giá sản lượng một vụ thu hoạch lúa với ba phép thử nghiệm (công thức trồng trọt) A, B, C Giả sử rằng một phần của các mảnh ruộng ẩm ướt hơn vì ở gần một cái rạch nước Trong trường hợp này nếu dùng mô hình hoàn toàn ngẫu nhiên thì sẽ không

chính xác

Thiết kế khối hoàn toàn ngẫu nhiên sẽ khắc phục được các hạn chế của

mô hình hoàn toàn ngẫu nhiên như đã nêu ở trên Trong mô hình khối hoàn toàn ngẫu nhiên, chúng ta cần nhóm các đơn vị thử nghiệm giống nhau thành một nhóm Những nhóm này được gọi là các khối Trong mỗi khối các phép thử nghiệm được tiến hành trên các đơn vị được chọn ngâu nhiên Chúng ta sử dụng thuật ngữ “khối hoàn toàn ngẫu nhiên” bởi vì mỗi khối chứa tất cả các phép thử nghiệm có thể có

a Yêu câu của mô hình

54

Trang 5

Cần kiểm tra hai giả thuyết: dữ liệu tuân theo phân phối chuẩn và các phương sai đồng nhất Với hai phép thử nghiệm (công thức thử nghiệm) và thiết kế mỗi khối có hai đơn vị thử nghiệm thì đó là thiết kế cặp đôi Lúc này, hai phép thử nghiệm được định vị ngẫu nhiên với mỗi một cặp (ví dụ dùng gieo đồng xu) và số liệu sẽ được phân tích bằng kiểm định t cặp đôi quen biết Khi có từ ba phép thử nghiệm trở lên, chúng ta dùng phân tích phương sai Mỗi khối sẽ chứa số đơn vị thử nghiệm bằng số phép thử nghiệm (hoặc là bội số của số phép thử nghiệm)

b Các bước tiến hành

Bước 1 Thiết kế thí nghiệm theo mô hình khối hoàn toàn ngẫu nhiên.Trước tiên phải xác định số công thức thử nghiệm, số khối Sau đó tạo

ra dãy số ngẫu nhiên gắn với các đơn vị thử nghiệm trong khối

Bước 2 Tiến hành các phép thử nghiệm trên các đơn vị thử nghiệm đã

Bước 5, Rút ra kết luận trên các kết qua thu được

Ví dụ 13 Nghiên cứu các loại thuốc ảnh hưởng đến số lượng bạch

cầu (1000 tế bào trên 1/1000 mm khối máu) Nhân tố khối: lứa đẻ (5 lứa đẻ),

nhân tố phép thử nghiệm: thuốc (4 công thức) Mô hình được diễn đạt như

sau: Đữ liệu (đếm tế bào) = (trung bình chung lượng tế bào) + (tác động của lứa đẻ) + (tác động cuả thuốc) + sai số

Mô hình toán là: y„ = +, +/,+£,, trong đó: ¿ = trung bình chung lượng tế bào, #z, = tác động của lứa dé i (i nhận giá trị từ 1 tới 5), /, = tác động của thuốc j (nhận giá trị từ 1 tới 4), z„ = sai số ngẫu nhiên Bước I Thiết kế thí nghiệm theo khối hoàn toàn ngẫu nhiên

- Tạo cột số thứ tự trong cot Cl với tên cột là 'UNTT' (ứng với các phép thử nghiệm a, b, c, d), bằng cách dùng menu, chọn các mục Cac >

Moke Patterned Data > Arbitrary Set oƒ Nưmbers Khi đó sẽ xuất hiện hộp

thoại và cần khai báo các mục như sau:

35

Trang 6

+ Store patterned data in: C] (c6t chita sé tir 1 dén 4 ứng với 4 phép thử là 4 loại thuốc)

+ Arbitrary set of numbers: 1:4(gid tri số điển vào cột C1 từ 1 đến 4) + List each value: 1 (số lần lập mỗi gid tri)

+ List the whole sequence: I (s6 lan lap lai cac gid tri)

+ Kết thúc chọn ÓK

- Tạo cột số ngẫu nhiên ở cột C2 (với 4 phép thử nghiệm), cột này là

khối 1, bằng cách dùng Menu, chọn các mục Cale > Random Data >

Sample from Columns Khi đó sẽ xuất hiện hộp thoại và cần khai báo các

mục như sau:

+ Sample: 4 (tạo 4 mẫu)

+ Columns : CI (cot chita cdc thử nghiệm tương ứng)

+ Store samples in: C2 (cột chứa dấy số ngẫu nhiên)

+ Kết thúc chọn OK

- Tương tự như làm cho cột C2, tạo các cột số ngẫu nhiên cho các cột C3, C4, C5, Có cho các khối 2, 3, 4,5 Đạt tên cho C2 la ‘BLOCK 1’ , C3

la ‘BLOCK 2’ , C4 14 ‘BLOCK 3” , C5 la ‘BLOCK 4’ , C6 là 'BLOCK 5°

- Hiện dữ liệu trong các cột bằng cách dùng Menu, chọn các mục Manip > Diplay Data Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:

+ Kích chuột chọn các cột dữ liệu: C1, C2, C3, C4, C5, Có

+ Kết thúc chọn ÓK

Bước 2 Thực hiện các thử nghiệm theo mô hình đã in ra

Bước 3 Thu thập các dữ liệu trên đơn vị thử nghiệm theo yêu cầu phân tích, theo thời gian cần thiết Kết quả thu được như sau cho các lứa đẻ

DRUG ROW Litter 1 Litter 2 Litter 3 Litter 4 Litter 5

Trang 7

- Nhập các dữ liệu trên vào các cột tương ứng trong cửa sổ nhập liệu

Sau đó xếp chồng dữ liệu trên 1 cột (Litter 1, rồi đến Litter 2 ) bằng cách

dùng menu, chọn các muc Manip > Stack/Unstack > Stack Columns .Khi

đó sẽ xuất hiện hộp thoại và cần thực hiện các bước sau:

+ Kích chuột chọn các cột dữ liệu Litter 1, Litter 2, Litter 3, Litter 4 và

Litter 5

+ Store the stacked data in: C6 (dit liệu chồng trong cột C6)

+ Store subscripts in: C7 (chi số lứa đẻ trong cét C7)

+ Kết thtic chon OK

- Tạo một cột số C8 để ghi loại thuốc từ 1 đến 4 bang cach ding menu,

chon cdc muc Cale > Make Patterned Data > Arbitrary Set of Numbers

Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:

+ Store patterned data in: C8 (cột chứa số từ 1 tới 4 ứng với loại thuốc)

+ Arbitrary set of numbers: 1: 4 (giá trị số điển vào cột từ 1 đến 4)

+ List each value: } (s6 lan lap méi gié tri)

+ List the whole sequence: 5 (s6 lan lặp lại các giá trị cho 5 lứa đẻ) + Kết thúc chọn ÓK

~ Đặt tên cho các cột Có, C7, C8: gỗ vào các ô tên cét C6 ‘Count’, C7

‘Litter’ và C8 ‘Drug’ Muén hiện dữ liệu, ta dùng menu, chọn các mục sau: Manip > Display Data .Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:

+ Kích chuột chọn các cột dữ liệu: C6, C7, C8

+ Kết thúc chọn ÓK

Bước 4 Tiến hành xử lý dữ liệu

- Kiểm tra hai giả thuyết của mô hình hoàn toàn ngẫu nhiên là dữ liệu theo phân phối chuẩn và phương sai của các nhóm đồng nhất theo các bước sau:

+ Kiểm tra tính chuẩn: đặt tên cot C9 la ‘RESID’, C10 1a ‘FIT? va vẽ

đổ thị sai số trong cột C9 dạng hộp bằng cách chọn Graph > Character

57

Trang 8

Graphs > Boxplot Can khai bio: Variable C9 (cột chứa sai số), By variable C8 (cột chứa loại thuốc) và chon OK để kết thúc Minitab sẽ cho đồ thị như sau:

Ta thấy sự phân bố xuất hiện đối xứng nên đữ liệu có tính chuẩn (khi

xem đồ thị sai số đã chuẩn hoá, nếu các điểm hầu như nằm trên một đường thẳng thì giả thuyết sai số tuân theo phân phối chuẩn)

+ Kiểm tra tính đồng nhất của phương sai: ta có thể kiểm tra tính đồng nhất của phương sai trong việc tính các thống kê cho sai số (cột C9) bằng

cach chon cdc muc Stat > Basic Statistics > Display Descriptive Statistics Khi đó xuất hiện hộp thoại và cần khai báo các mục: Variable C9 (cột chứa sai số), By variable C8 (cột chứa tên thuốc), va chon OK dé nhận được kết

Nhìn vào kết quả ta thấy độ lệch chugn mau (StDev) Ia gần bằng nhau,

do vậy giả thuyết độ lệch chuẩn hay phương sai bằng nhau được chấp nhận

- Tiến hành phân tích phương sai cân đối bằng cách dùng menu, chọn

các mục §/at > ANOVA > Balanced ANOVA .Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:

+ Responses: Count (cét C6 chứa số liệu)

+ Model: Litter, Drug (cột C7, C8 chứa lứa đề và thuốc)

38

Trang 9

+ Graphs: chon céc muc có đồ thị

+ Storage: chon Fits để được số liệu hiệu chinh, chon Residuals dé được cột sai số

+ Kết thúc chọn ÓK

- Kết quả phân tích phương sai như sau:

Analysis of Variance (Balanced Designs)

Bước 5 Dựa vào kết quả của bảng phân tích phương sai với F=30.16 >

F tý thuyết, hay giá trị xác suất P.= 0< 0.05 (mức ý nghĩa 5%), ta kết luận

các loại thuốc ảnh hưởng đến số lượng bạch cầu

2.3 Thiết kế nhân tố

Có thể tiến hành thiết kế nhân tố theo hai kiểu chính: kiểu đẩy đủ tổng quát (General Full Factorial Design) cho phép mỗi nhân tố có từ hai mức trở lên và kiểu hai mức (Two-Level Factorial Design), mỗi nhân tố chỉ có hai mức

59

Trang 10

Vi du 14 Xét vi du 13 và phương pháp giải quyết tat va ngdn gon hơn thông qua thiết kế nhân tố Chúng ta có thể thiết kế thí nghiệm khối hoàn toàn ngẫu nhiên theo kiểu thiết kế nhân tố đầy đủ tổng quát với hai nhân tố

không tương tác (không lặp)

a Tạo ra thiết kế nhân tổ đây đủ tổng quát

- Chon Stat > DOE > Factorial Design >Create Factorial Design

- Chon General full factorial design Trong muc Number of factors nhập 2 (hai nhân tố: nhân tố A và nhân tố B)

- Trong muc Design nhap vao cot tén nhan té A 1a Litter, tên nhân tố

B 1a cong thuc, nhap vao cot Number of levels các số 5 và 4 (các mức của

hai nhân tố) Trong mục Number of replicates nhập 1, nên ngầm định chỉ có một cột khối ngẫu nhiên giả (Blocks) Chú ý rằng nếu số lặp nhiều hơn 1, thì

ta thật sự có từ hai khối ngẫu nhiên trở lên

- Trong mục Opon, đánh đấu Randomize runs và Store design in worksheet, trong muc Base for random data generator nhap s6 9 (luén nhap một số cố định làm hạt mầm cho hàm sinh số ngẫu nhiên) Kích OK trong

mỗi hộp thoại để nhận được thiết kế nhân tố cho hai nhân tố Litter và cong

thuc

Sau khi tiến hành các phép thử nghiệm trên các cá thể, ta nhập các số

liệu mau vao cét bachcau, chon Manip > Display Data sé c6é két qua sau trong cửa số kết quả của Minitab Nhu vay ching ta đã hoàn thành xong các bude 1,2 va 3 ở mục 2.2 trên day Chú ý rằng, ta cần hiểu con thứ 1 của lứa

1 ứng với công thức 2, con thứ 2 của lứa 1 ứng với công thức 4, con thir 1

của lứa 5 ứng với công thức 2, ., con thứ 5 của lứa 5 ứng với công thức Ì

(đây là cách làm tất để áp dựng các công thức một cách ngẫu nhiên trong

từng lứa đẻ)

Trong bảng trên, cột đầu là cột số thứ tự, cột thứ hai là cột thứ tự chuẩn tiến hành các phép thử nghiệm, cột thứ ba là cột thứ tự ngẫu nhiên tiến hành các thử nghiệm, cột thứ tư là cột Blocks (khối ngẫu nhiên chỉ dùng cho thiết

kế thí nghiệm từ hai nhân tố trở lên theo kiểu khối hoàn toàn ngẫu nhiên,

trong trường hợp này không dùng đến), trong hai cột sau là các tổ hợp các

mức của (Litter, congthuc), cột cuối là cột các số liệu thực nghiệm thu được

về bạch cầu (response)

60

Trang 11

g 2 StdOrder RunOrder Blocks Litter congthuc bachcau

b.Phân tích thiết kế nhân tố đây đủ tổng quát

- Chon Stat > DOE > Factorial Design > Analyze Factorial Design

- Trong muc Responses nhập cột bachcau

mỗi hộp thoại để nhận được kết quả sau:

General Linear Model: bachcau versus Litter, cthuc

Trang 12

Có thể thấy các kết quả trên hoàn toàn trùng với các kết quả trong mục 2.2 ngoài ra, có thể kiểm tra giả thuyết về tính chuẩn của số liệu thông qua

đồ thị kiểm tra tính chuẩn của phần dư (xem hình 1.15.)

Normal Probability Piot of the Residuals

(response is bachcau)

Hình !.15 Đồ thị xác suất chuẩn của phần dư

‘Vi dụ 15 Phân tích phương sai ba nhân tố tương tác (có lặp) theo khối hoàn toàn ngẫu nhiên Cần thiết kế thí nghiệm theo 2 khối hoàn toàn ngẫu

nhiên với ba nhân tố để xem chúng có ảnh hưởng như thế nào dén nang suất (và cả chi phi) Nhan tố 1 có hai mức 20 và 50, nhân tố 2 có hai mức 150 và

200, nhân tố 3 có hai mức định tính A và B Trong trường hợp này, chúng ta

có thể tạo ra thiết kế nhân tố đầy đủ tổng quát giống như trong ví dụ vừa xét, lúc đó kết quả được đưa ra với hình thức tương tự (Mô hình tuyến tính tổng

quat General Linear Model và bảng phân tích Anova) Tuy vậy, chúng ta chọn cách sau đây:

Tạo ra thiết kế nhân tố đây đủ hai mức (vì mỗi nhân tố chỉ có hai mức) bằng cách:

- Chon Stat > DOE > Factorial Design > Create Factorial Design

- Chon 2-level factorial (default generator) Trong myc Number of

factors nhập 3 (ba nhân tố)

62

Trang 13

- Trong muc Design chon Full ‘factorial va ttong muc Number of replicates nhap 2, trong muc Number of blocks nhap 2

- Trong muc Factor sita lai ten céc nhan to 1a Factorl, Factor2 và Factor3, nhập lại các mức của các nhân tố

- Trong muc Option, dinh dau Randomize runs va Store design in

worksheet, trong muc Base for random data generator nhập số 9 (luôn nhập

một số cố định làm hạt mâm cho hàm sinh số ngẫu nhiên) Kich OK trong mỗi hộp thoại để nhận được thiết kế nhân tố hai mức đầy đủ theo kiểu khối hoàn toàn ngẫu nhiên

Sau đó, nhập các số liệu thực nghiệm về năng suất và chỉ phí vào các cột tiếp theo, như minh hoạ trên hình I.16

Hình I.16.Cửa số nhập liệu trong thiết kế đẩy đủ 2-mức khối hoàn toàn ngẫu nhiên

Tién hành phân tích thiết kế nhân tố đây đủ hai mức:

- Mở tệp dữ liệu VSCP.MTW đã có trên đây

- Chon Stat > DOE > Factorial Design > Analyze Factorial Design

- Trong muc Responses nhap cot Nsuat

- Kich Graphs, trong muc Effects plots đánh dấu Normal va Pareto

Trong mục Aipha (mức ý nghĩa của kiểm định) nhập 0.05 Kích ÓK trong mỗi hộp thoại để nhận được kết quả sau:

63

Trang 14

Fractional Factorial Fit: nangsuat versus Factort, Factor2, Factor3

Estimated Effects and Coefficients for Nauat(coded Coef SE Coef units) T P

0.0374 0.0374 0.26 0.628 5.6780 21.8927 150.15 0.000 3.0273 1.0091 6.92 0.017 9.0021 0.0021 0.01 0.907 1.0206 0.1458

Alias Structure

1 Blocks = Factorl Factor2 Factor3 Factorl*Factor2 Factori*Factor3

(response is Neust, Alpha = 05)

Trang 15

Pareto Chart of the Standardized Effects

(response is Nsuat, Alpha = 05)

Hình I.18 Biểu đồ Pareto các ảnh hưởng

Có thể giải thích ý nghĩa các kết quả như sau:

~ Bảng ước lượng (cho biết khoảng ước lượng 95% và kiểm định t mức

ý nghĩa 5%) các hệ số ảnh hưởng của các nhân tố và tác động tương tác của chúng lên năng suất và bảng phân tích phương sai cho biết các ảnh hưởng của nhân tố khối và tác động tương tác kết hợp của cả ba nhân tố Factorl, Factor2, Factor 3 đều không có ý nghĩa Trong khi đó tổng tác động riêng rẽ của cả ba nhân tố và tổng tác động tương tác của từng cặp nhân tố lại có ý nghĩa (tuy vậy ảnh hưởng của riêng Factor 3 và của tác động tương tác của hai cặp Factor!*Factor3 và Factor2*Factor3 lại không đáng kể)

~ Hệ số ảnh hưởng của nhân tố khối không có ý nghĩa chứng tỏ dữ liệu thu thập theo khối không ảnh hưởng tới năng suất

- Đồ thị xác suất chuẩn của các ảnh hưởng quy chudn (Normal Probability Plot of the Standardized Effects) trén hinh 1.17 cho biết các nhân

16 A (Factor), B (Factor2) va tac động tương tác của chúng là đáng kể nhất,

vì chúng có hệ số ảnh hưởng quy chuẩn lớn và nằm cách xa đường thẳng dự báo Biểu đồ Pareto của các ảnh hưởng quy chuẩn (Pareto Chart of the Standardized Effects) trén hinh 1.18 cũng cho kết luận trên

65

Trang 16

3 Phân tích thống kê nhiều chiều

Minitab cung cấp các công cụ rất mạnh về phân tích dữ liệu nhiều chiều thu được khi chúng ta khảo sát và đo nhiều đặc tính của các cá thể trên một quần thể nhất định Tuỳ theo mục đích đẻ ra, chúng ta có thể lựa chọn phương pháp phân tích thống kê nhiêu chiều thích hợp:

- Phân tích cấu trúc (hiệp phương sai) của dữ liệu nhằm hiểu rõ về mối tương quan giữa các chiều của đữ liệu, từ đó có thể tìm cách rút gọn số chiều của dữ liệu Để làm điều này, chúng ta có thể sử dụng các công cụ của Minitab là Phân tích thành phần chính và Phân tích nhân tố (cần chú ý rằng thuật ngữ “nhân tố” ở đây có ý nghĩa khác với nội dung ở phần phân tích phương sai một nhân tố, hai nhân tố hay thiết kế nhân tố .)

- Các phương pháp phân nhóm các dữ liệu nhiều chiều bao gồm: Phân

loại (discriminant analyis), Phan cum dit liệu, Phân cum các biến và Phan

cụm K-trung bình

3.1 Phản tích thành phần chính

Để khảo sát một quần thể, chúng ta dùng phương pháp mẫu Chẳng hạn, như trong ví dụ 16, chọn ra một mẫu 14 cá thể, trên mỗi cá thể ta phí các chỉ số của năm đặc tính A, B, C, D và E Như vậy ở đây chúng ta quan

sát được 14 thể hiện của một véc tơ ngẫu nhiên X có 5 chiều, X = (A,B, C,

Trang 17

a Các bước thực hiện

~ Mở tiệp dữ liệu PTich_TPC.MTW bao gồm 5 cột dữ liệu A, B, exp

va E

- Chon Stat>Multivariate> Principal Components,

- Trong muc Variables chon các cột dữ liệu

- Nếu muốn, ta có thể chọn một hoặc nhiều hơn các lựa chọn khác trong hộp thoại (như chon Correlation trong muc Type Matrix, chon Eigenvalue (Scree) plot trong muc Graph), sau đó kich OK

Minitab cho ta két qua sau như trên hình I.19

Principal Component Analysis: A, B, €, D, E

-0.453 0.007 0.004 0.117 0.268 0.769 -310 0.455 -0.648 0,201 0.701 0.691 0.015 0.014

Kết quả phân tích thành phan chính như sau:

Principal Component Analysis: A, B, C, D, E

Eigenanalysis of the Correlation Matrix

67

Trang 18

b Phân tích kết quả nhận được

‘Thanh phần chính PC] có phương sai (giá trị riêng) là 3.0289 và chiếm tới 60.6% của tổng phương sai Các hệ số của cột PCI cho biết: PCI = - 0.558A-0.313B-0.568C-0.487D+0.174E Chú ý rằng các hệ số của A, B, C,

D đều không sắt 0 Điều này có thể được cắt nghĩa (một cách chủ quan) như sau: Thành phần chính thứ nhất biểu diễn các mức của các đặc tính A, B, C dưới tác động ảnh hưởng của đặc tính D

Trong khi đó, thành phần chính thứ hai có phương sai là 1.2922 và chiếm tới 25.8% độ biến động của dữ liệu Nó phản ánh mức độ tương phản giữa đặc tính B và E đối với đặc tính D

Hai thành phần chính trên PCI và PC2 chiếm tới 97.8% độ biến động toàn phần, nên cấu trúc dữ liệu có thể được thể hiện phần lớn bởi hai chiều trên Các thành phần chính còn lại chiếm tỷ trọng biến động bé nên có thể

bỏ qua Điều này cũng được thể hiện khá rõ trên biểu đồ các giá trị riêng

trong hình 1.14 (Seree plot of A-E)

Về mặt toán học, các thành phần chính PCI, PC2, PC3, PC4 và PC5

không tương quan với nhau (chúng có ma trận tương quan hay ma trận hiệp

phương sai dạng đường chéo chính) Nói cách khác, véc tơ ngẫu nhiên X đã được phân tích dưới dạng sau: X = E(X) + PVTX, trong đó Pc là ma trận với các cột là các vec tơ thành phần chính Trong trường hợp tổng quát phân tích thành phần chính, các giá trị riêng luôn có giá trị cố định, còn các véc tơ thành phân chính có thể thay đổi tuỳ theo thuật toán phân tích thành phần chính được sử dụng

3.2 Phân tích nhân tố

Tương tự như phân tích thành phân chính, phân tích nhân tố giúp cho 68

Trang 19

việc tổng hợp cấu trúc hiệp phương sai của dữ liệu với số chiều ít nhất Tuy nhiên, phân tích nhân tố chú trọng đặc biệt tới việc tìm ra các nhân tố ảnh hưởng nhiều nhất tới sự biến động toàn phần của đữ liệu

4 Phân tích nhân tố bằng phương pháp thành phần chính

Vi du 17, Cac dữ liệu như ví dụ 16 Cần thực hiện phân tích nhân tố bằng phương pháp thành phần chính Ta tiến hành các bước sau:

- Mỏ tệp Píích TPC.MTW

- Chon Stat>Muttivariate>Factor Analysis

- Trong muc Variables, chon A, B, C, D va E

- Kich vao Graph va chon Eigenvalue (Scree) plot Két thiic kich OK

trong mỗi hộp thoại Ta thu được kết qua sau:

Results for: PTich_TPC.MTW

,B,C,D,E

Factor Analysis:

Principal Component Factor Analysis of the Correlation Matrix

Unrotated Factor Loadings and Communalities

Factor Score Coefficients

Trang 20

Kết quả trên có thể được phân tích như sau:

- Số nhân tố được chọn là 5, do đó giá trị liên kết (Communality) cho

các đặc tính A, B, C, D và E đều là 1 Điều này có nghĩa là tỷ trọng % biến động của mỗi biến được giải thích bởi các nhân tố đã chọn đều là 100% Các

véc tơ nhân tố đếu có phương sai tương ứng giống như thu được trong phân

tích thành phần chính, và các phương sai này sẽ giải thích tỷ trọng % biến động do các nhân tố gây nên Ta thấy hai nhân tố đầu giải thích được tới 96.4% biến động của dữ liệu

- Đối với véc tơ nhân tố l ta có công thức: Factorl = PCIx 3.0289/ JPCI, với JPCH| là độ dài của véc tơ PC], Các công thức tương tự cũng

đúng với các nhân tố còn lại Tóm lại, các giá trị riêng (hay phương sai) của các véc tơ nhân tố đều bất buộc bằng 1, nên độ đài của các véc tơ nhân tố cũng chính bằng các phương sai tương ứng của các véc tơ thành phần chính Trong cac cot 6 phan Factor Score Coeficients, ta c6é các véc tơ nhân tố đã được chuẩn hoá (có độ dài bằng 1)

b Phân tích nhân tố sử dụng phương pháp hợp lý cực đại và phép quay

Theo định nghĩa, các véc tơ nhân tố phải có phương sai (giá trị riêng)

là 1, vì vậy chúng được xác định chính xác tới một phép biến đổi trực giao hay còn nói là một phép quay Trong phân tích nhân tố, sau khi thực hiện

phương pháp thành phần chính với số nhân tố không rút gọn (bằng 5 trong ví

dụ trên), chúng ta sẽ rút gọn số nhân tố

Phương pháp hợp lý cực đại được sử dụng để tìm ra các nhân tố có ảnh hướng nhất tới biến động của dữ liệu, sau khi đã chọn ra số nhân tố cần để lại Đồng thời cần lựa chọn phép quay thích hợp (có bốn phương pháp quay, thông thường chọn varimax để cực đại hoá phương sai của các nhân tố hoặc equimax để các biến được tập trung chủ yếu vào một nhân tố)

Ví dụ 18 Ta dùng dữ liệu của ví dụ L7 và tiến hành phân tích nhân tố

sử dụng phương pháp hợp lý cực đại và phép quay theo cách bước sau:

Trang 21

- Trong muc Method of extraction chon Maximum likelihood

- Trong muc Type of rotation chon Varimax

- Kich Graph, chon Loading plot for first 2 factors, khong chon Eigenvalue (Scree) plot Kich OK Kich Results, chon Sort loading Sau

cùng, kich OK trong mỗi hộp thoại để nhận được kết quả phân tích nhân tố Trên hình L20 là các cửa sổ Minitab khi phân tích nhân tố bằng

phương pháp hợp lý cực đại và phép quay Varimax

Variance % Yar 2.9678 0.594 1.0159 0.203 3.9837

0.797 Rotated Factor Loadings and Couaunalities

Vatimax Rotation

Hinh 1.20 Phan tích nhân tố với phép quay Varimax trong Minitab

Kết quả phân tích nhân tố lúc này như sau:

Results for: PTich_TPC.MTW

Factor Analysis: A, B, C, D, E

Maximum Likelihood Factor Analysis of the Correlation Matrix (* NOTE * Heywood case)

71

Trang 22

Unrotated Factor Loadings and Communalities

Sorted Rotated Factor Loadings and Communalities

Factorl Factor2 Communality

Trang 23

- Các nhân tố không quay (bảng đầu tiên) giải thích được 79.7% biến động toàn phần của đữ liệu Biến A có độ kết nối (communality) là 0.968 có nghĩa là A đực giải thích bởi hai nhân tố đã chọn ở mức 0.968 Tương tự ta cắt nghĩa được các giá trị kết nối khác Nói chung, các biến đều được biểu

diễn khá tốt thông qua hai nhân tố đã chọn trừ trường hợp biến E

- Các nhân tố thu được bằng phép quay Varimax (bảng thứ hai) cũng giải thích được tới 79.7% như ở bảng đầu, tuy nhiên sau khi quay các nhân

tố trở nên cân bằng hơn về mức giải thích biến động của đữ liệu Nếu sắp xếp lại theo theo chiều toạ độ giảm dân của véc tơ nhân tố † thì ta có bảng thit ba Quan sat biéu dé Load Plot A-E trén hinh 1.20 có thể thấy nhân tố 1

có mức nạp các biến A, C và D cao, còn nhân tố 2 là các biến A, B và C, Như vậy, nhân tố I có thể coi là nhân tố phản ảnh mối quan hệ (A, C, D), còn nhân tố 2 phản ánh mối quan hệ (A, C, B) Trong khi đó tương quan (D, B) là tương đối yếu

~ Chuẩn hoá các véc tơ nhân tố ta có bảng hệ số điểm nhân tố đạt được

(factor score coefficients) Khi có bộ dữ liệu mới về véc tơ ngẫu nhiên X, ta

chỉ việc lấy các hệ số trên nhân với dữ liệu đã được quy gốc về véc tơ kỳ vọng để tính điểm đạt được của các nhân tố

3.3 Phân loại

Chúng ta sử dụng giải tích phân loại để phân loại các đữ liệu quan sát

được vào hai hay nhiều nhóm, nếu như đã có mẫu thực nghiệm với các nhóm

đã biết Minitab cho phép phân loại theo hai cách: Phân loại tuyến tính và

phân loại toàn phương Chúng ta đi sâu vào phân tích phân loại tuyến tính,

lúc này cần giả thiết rằng các nhóm đều có chung ma trận hiệp phương sai

Ví dụ 19, Để phân loại cá hồi nguồn gốc từ Alaska hay từ Canada, người ta theo dõi 50 con gốc Alaska, 50 con gốc Canada và tiến hành đo

vòng tăng trưởng cho các giai đoạn chúng sống trong nước ngọt và nước

biển Số liệu mẫu thu thập được như sau:

Trang 24

65

66 S7

Trang 25

a Các bước thực hiện

Tiến hành phân loại trong Minitab theo các bước:

- Mở tệp dữ liệu EXH_MVAR.MTW

- Chon Stat > Multivariate > Discriminant Analysis

- Trong mục Group, chọn cot Nguon goc trong muc Predictor chon cde c6t Nuoc ngot và Nuoc bien Kích ÓOK để thu được kết quả sau trong

cửa sổ kết quả

Discriminant Analysis: Nguon goc versus Nuoc ngot, Nuoc bien

Linear Method for Response: Nguon go

Predictors: Nuoc ngo Nuoc bie

Group Alaska Canada

Summary of Classification

Put into «- True Group

N= 100 N Correct = 93 Proportion Correct = 0.930

Squared Distance Between Groups

Ngày đăng: 12/08/2014, 18:20

HÌNH ẢNH LIÊN QUAN

Hình  !.15.  Đồ  thị  xác  suất  chuẩn  của  phần  dư - Tin học ứng dụng trong ngành nông nghiệp part 2 ppsx
nh !.15. Đồ thị xác suất chuẩn của phần dư (Trang 12)
Hình  1.17:  Đồ  thị  xác  suất  chuẩn  của  các  ảnh  hưởng - Tin học ứng dụng trong ngành nông nghiệp part 2 ppsx
nh 1.17: Đồ thị xác suất chuẩn của các ảnh hưởng (Trang 14)
Hình  I.18.  Biểu  đồ  Pareto  các  ảnh  hưởng - Tin học ứng dụng trong ngành nông nghiệp part 2 ppsx
nh I.18. Biểu đồ Pareto các ảnh hưởng (Trang 15)
Hình  I.19.  Các  cửa  sổ  Minitab  khi  phân  tích  thành  phần  chính - Tin học ứng dụng trong ngành nông nghiệp part 2 ppsx
nh I.19. Các cửa sổ Minitab khi phân tích thành phần chính (Trang 17)
Hình  I.21.  Biểu  đổ,  phân  nhóm  cụm  các  loại  thức  ăn - Tin học ứng dụng trong ngành nông nghiệp part 2 ppsx
nh I.21. Biểu đổ, phân nhóm cụm các loại thức ăn (Trang 29)
Hình  I.23.  Dữ  liệu  của  tệp  BEAR.MTW  và  kết  quả  phân  nhóm  cụm - Tin học ứng dụng trong ngành nông nghiệp part 2 ppsx
nh I.23. Dữ liệu của tệp BEAR.MTW và kết quả phân nhóm cụm (Trang 35)
Hình  I.24.  Hiệu  quả  trong  không  gian  đầu  vào  -  đầu  vào - Tin học ứng dụng trong ngành nông nghiệp part 2 ppsx
nh I.24. Hiệu quả trong không gian đầu vào - đầu vào (Trang 38)
Hình  ¡.25.  Hiệu  quả  trong  không  gian  đầu  ra  -  đầu  ra - Tin học ứng dụng trong ngành nông nghiệp part 2 ppsx
nh ¡.25. Hiệu quả trong không gian đầu ra - đầu ra (Trang 39)
Hình  1.26.  Hiệu  quả  trong  không  gian  đầu  vào  -  đầu  ra - Tin học ứng dụng trong ngành nông nghiệp part 2 ppsx
nh 1.26. Hiệu quả trong không gian đầu vào - đầu ra (Trang 40)
Bảng  tính  Excel.  Các  cột  số  liệu  sau  khi  nhập  xong  được  ghi  lại  với  đuôi  txt, - Tin học ứng dụng trong ngành nông nghiệp part 2 ppsx
ng tính Excel. Các cột số liệu sau khi nhập xong được ghi lại với đuôi txt, (Trang 50)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w