Bài giảng Ứng dụng tin học trong công nghệ sinh học ppsx

Các button trên thanh công cụ phân tích rất quan trọng và được tổng kết trong bảng sau: để thay đổi cột dữ liệu thể được tạo lập khác có thể được tạo lập được lưu vào các cột của datashe

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHỆ TP.HCM KHOA MÔI TRƯỜNG & CÔNG NGHỆ SINH HỌC

- -

BÀI GIẢNG:

ỨNG DỤNG TIN HỌC

TRONG CÔNG NGHỆ SINH HỌC

GVGD: BÙI VĂN THẾ VINH

Tài liệu lưu hành nội bộ TP.HCM, Tháng 01/2008

Trang 2

2

I GIỚI THIỆU CHUNG VỀ STATGRAPHICS CENTURION (HOẶC STATGRAPHICS PLUS)

1 Hướng dẫn cài đặt Statgraphics Centurion XVI và đăng ký bản quyền

Chạy file “setup.exe” trong đĩa chương trình

Một loạt hộp thoại hiện ra, nhấp chọn “Next” đến khi xuất hiện hộp thoại:

Nhấp chọn “I accept the terms in the license agreement” Chọn “Next” Điền thông tin vào hộp thoại:

Chạy file “KeyGen.exe” trong đĩa chương trình xuất hiện hộp thoại:

Trang 3

Nhấp chọn “Generate Serial” sẽ xuất hiện một dãy ký tự trong box “Serial Number” Nhấp chọn “(1) Copy” Paste “Serial Number” vào hộp thoại:

Tiếp tục chọn “Next” liên tục và chọn “Install” để bắt đầu cài đặt, chờ đợi cài đặt xong và chọn “Finish” để hoàn tất

Khởi động Statgraphics, xuất hiện hộp thoại:

Click bỏ chọn mục “Show the StatWizard at Startup” ở góc dưới bên trái rồi Chọn “Cancel” “Yes” để bỏ hộp thoại trở về màn hình chính

Chọn menu “Help” Chọn “License Manager”

Trang 4

4

Copy “Product key” và Paste vào hộp thoại của keygen:

Nhấp chọn “Generate Activation Code” Copy “Activation code” và paste vào hộp thoại của License Manager:

Nhấp chọn “UPGRADE” để hoàn tất đăng ký bản quyền

* Đối với Statgraphics Plus, chỉ cần chạy file “SGWIN.EXE”

Trang 5

2 Thiết lập các thông số hệ thống ban đầu

Phần mềm Statgraphics Centurion có 2 hệ thống Menu có thể được sử dụng là

“Classic menu” với các heading lần lượt là File, Edit, Plot, Describe, Compare,… và “Six sigma menu” với các heading lần lượt là File, Edit, Define, Measure, Analyze,… Để chuyển đổi giữa 2 hệ thống Menu chọn Edit Preferences xuất hiện hộp thoại:

Chọn tab “General”, trong box “System Options” click chọn hoặc bỏ chọn mục

“Use Six Sigma Menu” Thông thường, để dễ sử dụng nên chọn hệ thống

“Classic menu” (tương tự như hệ thống menu được sử dụng trong Statgraphics Plus)

3 Nhập dữ liệu và quản lý dữ liệu:

Dữ liệu phải được nhập vào “DataBook”, một “DataBook” chuNn gồm 10

“datasheet” được ký hiệu bằng các chữ cái từ A đến J Trong mỗi “datasheet” có các cột và hàng: mỗi hàng chứa thông tin về một mẫu, một trường hợp hay một quan sát đơn lẻ còn mỗi cột đại diện cho một biến

Có 2 cách để nhập dữ liệu vào “DataBook”:

- Cách 1: Nhập trực tiếp vào “DataBook”

- Cách 2: Nhập dữ liệu vào một phần mềm khác như Excel, sau đó copy hay load vào phần mềm Statgraphics

Trước khi nhập dữ liệu vào “DataBook”, cần phải định nghĩa biến trong mỗi cột bằng cách click phải chuột vào cột muốn định nghĩa biến Chọn “Modify column” xuất hiện hộp thoại:

Trang 6

Ví dụ: nhập bảng số liệu:

Sau khi nhập vào “DataBook” cho kết quả sau:

Trang 7

Để lưu bảng số liệu: chọn File Save Save Data File (file dữ liệu được lưu dưới dạng sf6 và chỉ được đọc bằng phần mềm Statgraphics) Để mở một file dữ liệu đã lưu: chọn File Open Open Data Source

Một khi dữ liệu đã được nhập vào Datasheet, có một số thao tác quan trọng có thể được thực hiện như:

- Cut, Copy, Paste, Insert và Delete dữ liệu: khi tiến hành các lệnh trên cần lưu ý rằng mỗi cột có một kiểu định dạng khác nhau, nếu copy cột có định dạng Character và paste và cột có định dạng Numeric thì sẽ không thực hiện được Cần phải định dạng lại cột dữ liệu

- Tạo thêm một biến mới từ các cột dữ liệu có sẵn: Click phải chuột vào một cột mới, chọn “Modify Column” Chọn định dạng “Formula” và nhập công thức tính toán giữa các cột dữ liệu có sẵn

- Sort dữ liệu: Chọn cột dữ liệu được xác định để làm cơ sở sắp xếp Menu Edit Sort data

Khi một phép phân tích được thực hiện, chỉ có một vài bảng kết quả hay đồ thị được trình bày Để hiển thị thêm những output khác, cần phải chọn button thích hợp trên thanh công cụ “Analysis Toolbar” xuất hiện ngay trên tiêu đề của phép phân tích

Các button trên thanh công cụ phân tích rất quan trọng và được tổng kết trong bảng sau:

để thay đổi cột dữ liệu

thể được tạo lập

khác có thể được tạo lập

được lưu vào các cột của datasheet

Trang 8

8

dụng cho phép phân tích đang tiến hành

dụng cho bảng biểu hay đồ thị đang

sử dụng Graphics options Cho phép thay đổi tiêu đề, thang trục

Lưu kết quả phân tích

vào một report

Click phải chuột và chọn “Copy Analysis to StatReporter”, sau đó vào File Save Save StatReporter để lưu thành file rtf (có thể import vào các ứng dụng khác như MS Word)

Lưu đồ thị dưới dạng

file ảnh

Phóng cực đại cửa sổ đồ thị muốn lưu, click phải chuột và chọn Save Graph

5 Lưu công việc đang tiến hành:

Phép phân tích đang tiến hành có thể được lưu tại bất kỳ thời điểm nào bằng cách chọn menu File Save StatFolio (dạng file sgp) Sau khi mở file đã lưu thì những dữ liệu và phép phân tích đang tiến hành sẽ được tự động khôi phục (Lưu ý: file data và file StatFolio phải được lưu trữ dưới nhiều file khác nhau, nếu muốn chuyển file StatFolio từ máy này sang máy khác để tiếp tục phân tích thì phải chuyển kèm file data)

Trang 9

II TIẾN HÀNH MỘT PHÉP PHÂN TÍCH THỐNG KÊ

Có hơn 150 phép phân tích thống kê trên Menu chính của chương trình Statgraphics Centurion tuy nhiên các phép phân tích khác nhau đều có cùng một cách tiến hành:

1 Khi một phép phân tích được lựa chọn từ menu chính, một hộp hội

thoại nhập dữ liệu (data input dialog box) được hiển thị, hộp thoại này

cho phép lựa chọn biến cần phân tích

2. Dữ liệu sau đó được đọc và phân tích, một cửa sổ phân tích (analysis

window) mới được tạo ra với các bảng biểu và đồ thị kết quả mặc định

3 Các kết quả xuất hiện lần đầu tiên được tính toán dựa trên những thông

số chuNn, các thông số mặc định này có thể được thay đổi bằng cách

chọn phím “Analysis Options” trên thanh công cụ analysis; các thông

số mới được thay đổi sẽ làm thay đổi kết quả trên các bảng biểu và đồ thị

4 Các bảng kết quả và đồ thị mới có thể được thêm vào hoặc bỏ bớt bằng

cách chọn phím “Tables” hay “Graphs” trên thanh công cụ phân tích

5 Các bảng kết quả và đồ thị có thể được thay đổi bằng cách phóng đại

cửa sổ tương ứng và chọn “Pane options” trên thanh công cụ phân tích

6 Đối với các đồ thị, có thể thay đổi phần tiêu đề, trục số, điểm số, font

chữ,… bằng cách phóng đại cửa sổ tương ứng và chọn “Graphics

options” trên thanh công cụ phân tích

7 Các bảng kết quả và đồ thị có thể được in, chuyển thành file HTML hay copy sang các chương trình ứng dụng khác như MS Word, Power Point,…

8 Các kết quả dạng số có thể được lưu thành các cột kết quả trong một

data sheet bất kỳ bằng cách chọn “Save results” trên thanh công cụ

phân tích

9. Toàn bộ phép phân tích có thể được lưu lại thành file StatFolio để tiện

sử dụng những lần sau

Trang 10

10

1 Hộp thoại nhập dữ liệu:

Hộp thoại nhập dữ liệu thường gồm 2 phần: phần bên trái liệt kê tất cả các cột dữ liệu trong datasheet, phần bên phải là nơi nhập dữ liệu cần phân tích Muốn phân tích cột dữ liệu nào thì lựa chọn ở phần bên trái rồi click vào biểu tượng để chuyển dữ liệu sang vùng phân tích Có thể chọn lọc lại dữ liệu cần phân tích bằng các toán tử như FIRST(k), LAST(k), ROWS(start,end), RANDOM(k), >, <, =, & (and), / (or),… trong mục “Select” Khi điều kiện chọn lọc không phải là dạng số thì giá trị điều kiện phải được đặt trong dấu ngoặc kép

2 Cửa sổ phân tích:

Khi phép phân tích được tiến hành, một cửa sổ phân tích được hiển thị:

Đối với phần mềm Statgraphics Centurion, kết quả phân tích sẽ được hiển thị gồm 4 pane (cửa sổ): 2 pane bên trái là output dạng bảng và 2 pane bên phải là output dạng đồ thị Đối với phần mềm Statgraphics Plus, kết quả được hiển thị chỉ gồm 2 pane: pane bên trái là output dạng bảng và pane bên phải là output dạng đồ thị Nếu click đôi vào một pane bất kỳ thì pane sẽ được phóng lớn ở kích thước cực đại để dễ dàng quan sát và đọc kết quả, click đôi tiếp tục vào pane để trở về màn hình ban đầu

Trang 11

III PHÂN TÍCH CÁC ĐẶC TRƯNG CỦA MỘT MẪU

Một vấn đề thường gặp trong thống kê là phân tích một mẫu với n giá trị quan sát từ một tổng thể Ví dụ: đo thân nhiệt của n=130 người được kết quả sau:

Dữ liệu thân nhiệt trong ví dụ trên được lưu trong file bodytemp.sf3 trong

thư mục Data

1 Chọn menu File Open Open Data Source

2 Trong hộp thoại “Data Source” chọn “STATGRAPHICS Data File”

3. Chọn file bodytemp.sf3 trong thư mục Data (C:\Program

Files\Statgraphics\STATGRAPHICS Centurion XV.I\Data)

4 Dữ liệu xuất hiện như bảng sau:

Thân nhiệt được trình bày trong cột bên trái với đơn vị đo là độ F

Phép phân tích một biến được tiến hành bằng cách:

1 chọn Menu Describe Numeric Data One-Variable Analysis

2 Trong hộp thoại nhập dữ liệu, chọn cột dữ liệu cần phân tích

Trang 12

12

3 Kết quả phân tích sẽ được trình bày trong 4 cửa sổ:

Cửa sổ trên cùng bên trái cho biết dung lượng mẫu n=130 giá trị nằm trong khoảng từ 96,3 đến 100,8 độ F Cửa sổ trên cùng bên phải biểu diễn đồ thị phân tán của số liệu với các điểm phân bố ngẫu nhiên theo hướng thẳng đứng Các điểm số liệu tập trung trong khoảng từ 98 đến 99 độ F và thưa dần ra 2 đầu Hai cửa sổ bên dưới biểu diễn các đặc trưng thống kê và đồ thị “box-and-whisker”

1 Các đặc trưng thống kê:

Bảng kết quả được trình bày trong cửa sổ dưới cùng bên trái biểu diễn nhiều kết quả thống kê của mẫu Các kết quả thống kê khác có thể được thêm

Trang 13

vào bằng cách nhấp đúp chuột vào cửa sổ kết quả để phóng đại cửa sổ tương ứng

và chọn “Pane Options”

Một giả định thường gặp đối với dữ liệu ghi nhận được là mẫu có phân bố chuNn hay phân bố Gaussian (đồ thị có dạng hình chuông) Dữ liệu từ một mẫu có phân

bố chuNn được mô tả đầy đủ bằng 2 giá trị thống kê:

1 Trung bình mẫu (Mean hay Average - X): ước lượng giá trị trung tâm của phân bố

2 Độ lệch chuNn của mẫu (Standard deviation - SD): liên quan đến sự phân tán của số liệu

Đối với một phân bố chuNn, khoảng 68% số liệu nằm trong khoảng X ± SD, 95%

số liệu nằm trong khoảng X ± 2SD và 99,73% số liệu nằm trong khoảng X ± 3SD

Hai giá trị trung bình mẫu và độ lệch chuNn chỉ có giá trị đại diện cho mẫu khi mẫu có phân bố chuNn Hai kết quả thống kê khác có thể được sử dụng để kiểm tra lại giả định mẫu có phân bố chuNn hay không là độ lệch (Standardized skewness) và độ nhọn (Standardized kurtosis):

1 Độ lệch (Skewness): là tiêu chuNn để đánh giá tính đối xứng của số liệu Kiểu phân bố đối xứng như phân bố chuNn có độ lệch bằng 0 Phân bố với các giá trị có xu hướng tập trung về phía bên phải của đồ thị có giá trị độ lệch > 0 Phân bố với các giá trị có xu hướng tập trung về phía bên trái của

Trang 14

14

Một số đặc trưng thống kê khác thường được sử dụng:

- Giá trị cực tiểu (Minimum) = 96,3

- Điểm tứ phân vị ¼ (25th percentile) = 97,8

- Trung vị (Median, 50th percentile) = 98,3

- Điểm tứ phân vị ¾ (75th percentile) = 98,7

- Giá trị cực đại (Maximum) = 100,8

Các giá trị này chia dãy số liệu thành 4 phần bằng nhau và là cơ sở để xây dựng

đồ thị “box-and-whisker”

2 Đồ thị “box-and-whisker”

Đồ thị “box-and-whisker” được đề xuất bởi John Tukey và được xây dựng bằng cách:

1 Dựng một khối hộp “box” kéo dài từ giá trị phân vị ¼ đến giá trị phân vị

¾ Vì vậy 50% số liệu sẽ nằm trong hộp này

2 Kẻ một đường thẳng đứng ở vị trí trung vị mẫu, chia dãy số liệu thành 2 phần bằng nhau Nếu mẫu có phân bố đối xứng thì đường thẳng này nằm gần với trung tâm của khối hộp

3 Đánh một dấu + vào vị trí trung bình mẫu Một sự khác biệt đáng kể giữa

2 giá trị trung bình và trung vị cho thấy có sự hiện diện của một hay vài số liệu có khả năng gây ra sai số (các số liệu này không có chung luật phân phối so với các số liệu còn lại) làm cho phân bố của mẫu bị lệch

Trang 15

4 Hai đầu đoạn thẳng được gọi là “whisker” nối từ giá trị cực tiểu đến điểm phân vị ¼ và từ điểm phân vị ¾ đến giá trị cực đại trừ phi có một số giá trị nằm quá xa so với khối hộp được xác định là “những điểm gây ra sai số” (outside points), trong trường hợp đó, whisker được kéo dài đến những điểm giá trị xa nhất không được xác định là điểm gây ra sai số

- Điểm “far outsides”: là những điểm có giá trị gấp 3 lần khoảng tứ phân vị (Khoảng tứ phân vị - interquartile range – là khoảng cách giữa các điểm tứ phân vị và bằng với chiều rộng của hộp “box”) Những điểm “far outsides” được biểu thị bằng một hình vuông nhỏ có một dấu + ở giữa Nếu mẫu có phân bố chuNn thì khả năng để một số liệu nào đó được xác định là điểm “far outside” chỉ khoảng 1/300 (với mẫu có n=300) Trừ khi

có hàng trăm giá trị quan sát của mẫu nếu không thì các điểm “far outside” luôn là những điểm gây ra sai số

- Điểm “outside”: là những điểm có giá trị gấp 1,5 lần khoảng tứ phân vị và được biểu diễn bằng những hình vuông nhỏ không có dấu + ở giữa Khi mẫu có phân bố chuNn, khả năng có 1 hay 2 giá trị “outside” trong một mẫu có n=100 là khoảng 50% và không cần thiết phải chỉ ra sự hiện diện của các điểm gây ra sai số thật sự (true outlier) Những điểm này được xem là số liệu nghi ngờ, đáng quan tâm và nghiên cứu kỹ hơn

Đồ thị “box-and-whisker” trong ví dụ trên khá đối xứng Các đoạn “whisker” có

độ dài khá bằng nhau và hai giá trị trung bình và trung vị của mẫu nằm gần với trung tâm của “box” Có 3 điểm gây ra sai số (outliers) được xác định nhưng không có điểm “far outside” Click chuột vào điểm outlier ngoài cùng bên phải chỉ ra số liệu gây ra sai số tương ứng nằm ở hàng 15 của file dữ liệu

Nếu chọn “Pane Options” từ thanh công cụ phân tích, có thể thêm khoảng ước lượng khoảng tin cậy của trung vị được ký hiệu bằng vết lõm hình chữ V

Trang 16

16

3 Kiểm tra xác định điểm Outlier

Trước khi tiến hành đánh giá một kết quả thống kê nào, cần phải xác định các điểm outlier có thật sự gây ra sai số và cần phải loại bỏ khỏi dữ liệu gốc hay không STATGRAPHICS cung cấp một công cụ để tiến hành một phép kiểm tra

cơ bản nhằm xác định liệu một giá trị quan sát nào đó có cùng luật phân bố với các số liệu còn lại hay không (thường là phân bố chuNn) bằng cách chọn Menu Describe Numeric Data Outlier Identification

Trong ví dụ về kết quả đo thân nhiệt ở trên, sau khi tiến hành xác định điểm outlier, bảng kết quả được trình bày trong phần dưới của cửa sổ bên trái biểu diễn 5 giá trị nhỏ nhất và 5 giá trị lớn nhất của dữ liệu:

Giá trị “bất thường” nằm ở hàng 15 và được tô màu đỏ Giá trị “Studentized Value Without Deletion” là 3,479 được tính bằng công thức (Xi – X)/S khi dùng

cả giá trị outlier để tính giá trị trung bình và độ lệch chuNn Nếu giá trị

“Studentized Value Without Deletion” lớn hơn 3 thì số liệu này là nguyên nhân gây ra sai số trừ khi mẫu có kích thước n vô cùng lớn hay mẫu không có phân bố chuNn

Phương pháp thường được sử dụng để xác định điểm outlier là phương pháp Grubbs’ test STATGRAPHICS sẽ tiến hành kiểm tra theo phương pháp này và biểu diễn kết quả “P-value” Nếu giá trị P-value < 0,05 thì điểm outlier thật sự gây ra sai số Trong ví dụ này, Giá trị P-value = 0,0484 (<0,05) Số liệu ở hàng 15 là số liệu gây ra sai số Có thể loại bỏ giá trị ở hàng 15 bằng cách lựa chọn lại dữ liệu nhập

Trang 17

Vì số liệu ở hàng 15 là số liệu duy nhất lớn hơn 100 độ F nên phần dữ liệu phân tích sẽ chỉ còn n = 129 giá trị Kết quả xác định điểm outlier như sau:

Vì giá trị P-value = 0,676 lớn hơn rất nhiều so với 0,05 nên các số liệu còn lại (129 số liệu) có chung một dạng phân bố

Từ kết quả kiểm tra này, có thể quay trở lại từ nghiên cứu ban đầu để xác định xem nguyên nhân nào có thể gây ra giá trị “bất thường” ở hàng 15 và có thể làm lại thí nghiệm để ghi nhận lại kết quả ở hàng 15

Trang 18

18

4 Biểu đồ

Một dạng hiển thị biểu đồ thường gặp để đánh giá dữ liệu là biểu đồ tần số Trong các cửa sổ hiển thị kết quả phân tích “One-Variable Analysis”, chọn phím

“Graphs” trên thanh công cụ phân tích và click chọn “Frequency Histogram”

Đồ thị tần số (sau khi đã bỏ giá trị ở hàng 15) được hiển thị như sau:

Chiều cao của mỗi thanh bar trong biểu đồ cho thấy số kết quả quan sát được rơi vào khoảng nhiệt độ bằng bề rộng của mỗi thanh bar Số thanh bar và độ lớn của chúng được thiết lập dựa trên kích thước mẫu n Các giá trị này có thể được thay đổi bằng cách phóng đại cửa sổ đồ thị tương ứng và chọn “Pane Options” Trong cửa sổ “Frequency Plot Options”, thiết lập lại các thông số như: Số lớp (Number

of Classes), Giới hạn dưới (Lower Limit) và giới hạn trên (Upper Limit)

Trang 19

Số lớp càng nhiều thì càng có nhiều chi tiết rõ ràng Hình dạng chung của phân

bố là dạng đường cong giống hình cái chuông

Các dữ liệu để xây dựng nên biểu đồ tần số có thể được hiển thị bằng cách chọn phím “Tables” trên thanh công cụ phân tích và click chọn “Frequency Tabulation”

Trang 20

20

5 Ước lượng khoảng:

Sau khi đã loại bỏ số liệu có khả năng gây ra sai số ra khỏi mẫu, có thể tiến hành ước lượng các thông số đặc trưng phân bố Click chọn mục

“Confidence Intervals” từ hộp thoại “Tables”

Kết quả ước lượng trung bình và ước lượng độ lệch chuNn

Kết quả trên cho thấy từ dữ liệu thân nhiệt của 129 người có thể suy ra thân nhiệt trung bình nằm trong khoảng [98,11-98,35] độ F Kết luận đó có độ chính xác là 95% (mức ý nghĩa α=0,05) Có thể thay đổi mức ý nghĩa cho phép ước lượng bằng cách chọn “Pane Options” và thay đổi thông số trong mục “Confidence Level”

Trang 21

IV SO SÁNH 2 MẪU

Trong ví dụ trước, thân nhiệt được đo từ 130 người, trong đó có 65 nam và 65 nữ Trong phần này, thân nhiệt của nam và nữ sẽ được so sánh xem có sự khác biệt đáng kể giữa 2 mẫu hay không

1 So sánh trung bình 2 mẫu:

Vào Menu Compare Two Samples Two-Sample Comparison

Hộp thoại nhập dữ liệu xuất hiện như sau:

Trong phần “Input”, có 2 cách lựa chọn nhập dữ liệu: “Two Data Columns” được sử dụng khi dữ liệu 2 mẫu được trình bày trên 2 cột khác nhau; “Data and Code Columns” được sử dụng khi 2 mẫu khác nhau được mã hóa trong cùng một cột

Trang 22

22

Trong ví dụ trên, dữ liệu thân nhiệt được trình bày chung trong một cột

“Temperature”, thân nhiệt riêng của Nam và Nữ được mã hóa và trình bày trong cột “Gender” nên lựa chọn kiểu nhập dữ liệu là “Data and Code Columns” Trong mục “Select” cần phải loại bỏ số liệu gây ra sai số đã trình bày trong phần trên (số liệu ở hàng 15 có giá trị 100,8 là số liệu duy nhất lớn hơn 100 nên có thể loại bỏ số này bằng cách chỉ lấy những số liệu <100 để phân tích mà không cần xóa giá trị ở hàng 15 trong bảng dữ liệu ban đầu)

Bảng kết quả phân tích gồm 4 cửa sổ:

Kết quả các giá trị đặc trưng thống kê, đồ thị “Box-and-Whisker” và đồ thị tần số tương tự như phần phân tích một biến

Trang 23

Kết quả quan trọng nhất được tô đỏ Giá trị P-value là một tiêu chuNn của F-test

để kiểm định giả thiết H0 ở trên Nếu P-value < 0,05 thì cho thấy có sự khác biệt đáng kể giữa 2 phương sai ở mức ý nghĩa 5% Trong ví dụ trên, giá trị P-value = 0,868 (>0,05) Không bác bỏ giả thiết H0 (“Do not reject the null hypothesis for alpha = 0.05”) hay có thể kết luận phương sai của hai mẫu không có sự khác biệt về mặt thống kê

Trang 24

24

5% (Chú ý: phương pháp t-test được sử dụng trong trường hợp này dựa trên cơ

sở 2 phương sai bằng nhau theo kết quả so sánh phương sai bằng phương pháp F-test ở trên Nếu kết quả F-test cho kết quả 2 phương sai có sự khác biệt đáng

kể thì trong bảng kết quả t-test phải chọn “Pane Options” và click bỏ chọn mục

“Assume Equal Sigmas”)

Trang 25

V SO SÁNH NHIỀU GIÁ TRN TRUNG BÌNH

Ví dụ: so sánh độ bền của sản phNm được sản xuất từ 4 loại vật liệu khác nhau, người ta tiến hành đo 12 mẫu đối với mỗi loại vật liệu và trình bày trong bảng sau:

(Dữ liệu đã được lưu sẵn ở file “widgets.sf6”) Mục đích của thí nghiệm là để xác định xem loại vật liệu nào có độ bền tốt nhất

Có 2 cách nhập số liệu để so sánh:

- Cách 1: Các mẫu khác nhau được trình bày trên mỗi cột khác nhau

- Cách 2: Tất cả các kết quả được nhập trên cùng một cột, tạo một cột thứ hai để nhập vào các mã (codes) để xác định xem các số liệu ở cột thứ nhất thuộc mẫu nào (Tương tự như ví dụ về thân nhiệt ở trên, có 1 cột để nhập thân nhiệt cho 130 người và 1 cột thứ hai để nhập các mã xác định là

“Male” hay “Female”)

Trong ví dụ này, dữ liệu được nhập vào theo cách thứ nhất ở trên

1 Tiến trình so sánh nhiều mẫu:

Chọn Menu Compare Multiple Sample Multiple-Sample Comparison Hộp thoại đầu tiên xuất hiện để xác định kiểu nhập dữ liệu ban đầu :

- Chọn “Multiple Data Columns” nếu nhập theo cách 1 ở trên

- Chọn “Data and Code Columns” nếu nhập theo cách 2 ở trên

Trang 27

2 Phân tích phương sai 1 dấu hiệu (One-way ANOVA):

- Giả thiết H0: µ1 = µ2 = µ3 = µ4

- Đối thiết H1: Độ bền của các loại vật liệu có sự khác biệt về mặt thống kê Bước đầu tiên khi tiến hành so sánh nhiều mẫu là phân tích phương sai (ANOVA) Bảng phân tích ANOVA được trình bày ở cửa sổ dưới cùng bên trái

Phương sai của thí nghiệm bao gồm 2 phần: phương sai giữa các nhóm (Between groups) và phương sai trong cùng nhóm (within groups) Giá trị quan trọng nhất trong bảng ANOVA là P-value Nếu P-value <0,05 Bác bỏ giả thiết H0

(Reject the null hypothesis) hay có thể kết luận độ bền của 4 loại vật liệu là khác nhau Để biết loại vật liệu nào tốt nhất cần phải tiến hành so sánh các giá trị trung bình

3 So sánh các giá trị trung bình:

Chọn phím “Tables” trên thanh công cụ phân tích và click chọn “Multiple Range Test”

Trang 28

28

Bảng kết quả bên dưới cho thấy sự khác biệt giữa từng cặp nghiệm thức, cột

“Difference” là sự khác biệt của từng cặp so sánh và cột “+/- Limits” là khoảng ước lượng độ khác biệt Cặp so sánh nào có giá trị trong cột “Difference” lớn hơn giá trị trong cột “+/- Limits” sẽ được tô đỏ và đánh dấu * tương ứng trong cột “Sig.” Điều này có nghĩa là cặp nghiệm thức so sánh có sự khác biệt về mặt thống kê ở mức ý nghĩa 5%

Bảng kết quả bên trên sắp xếp các mẫu theo thứ tự tăng dần của các giá trị trung bình Và mức độ khác biệt giữa các nghiệm thức được trình bày trong cột

“Homogeneous groups”: Các ký hiệu chữ “X” nằm trên cùng một cột thẳng đứng thì không có sự khác biệt, các ký hiệu chữ “X” nằm trên 2 cột khác nhau thì có

sự khác biệt Trong thí nghiệm này, kết quả có thể được trình bày lại như sau:

Trang 29

VI PHÂN TÍCH TƯƠNG QUAN – HỒI QUY

1 Hồi quy đơn giản

Các bảng đánh giá mô hình hồi quy

1) Analysis Summary

Tính: các hệ số a (intercept), b (slope), t-test (đánh giá tính có nghĩa của các hệ số hồi quy), F-test (đánh giá tính có nghĩa của mô hình)…

2) Lack -of-Fit test

Đánh giá mô hình đang dùng có hoàn toàn phù hợp với các số liệu hay không (đánh giá qua giá trị p-value) Chú ý cần phải lặp lại sự quan sát ở một hay nhiều giá trị X

3) Forecasts

Dự đoán giá trị của Y sử dụng mô hình phù hợp Bảng này cho biết các giá trị giới hạn

dự đoán và giới hạn tin cậy

4) Comparison of Alternative Models

Bảng này cho biết các giá trị hằng số tương quan và R-squared của một số mô hình (simple regression)phù hợp với các số liệu đã cho

Ví dụ: Người ta dùng ba mức nhiệt độ gồm 105,120,1350C kết hợp với ba khoảng thời gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp Các hiệu suất của phản ứng (%) được trình bày trong bảng sau:

Thời gian (ph) X 1 Nhiệt độ (oC) X 2 Hiệu suất (%) Y

Trang 31

+ Phương trình hồi quy hiệu suất-thời gian: Y=2.73 + 0.044X 1

t a =2.129<t 0.05 =2.365 (P2=0.071>0.05) -> Hệ số a không có nghĩa (với độ tin cậy thống

Trang 32

* Một số đánh giá khác

Kích chuột vào nút Tabular Option để hiển thị bảng lựa chọn một số các đánh giá khác

+Lack of Fit Test:

Trang 33

Giá trị p-value của Lack-of-fit Test là 0.9 >0.1, tức là mô hình này hoàn toàn phù hợp với các số liệu nhiệt độ và hiệu suất quan sát đựoc

+Forecast

Bảng này dự đoán các giá trị Y (hiệu suất) ở những giá trị X 2 ( nhiệt độ) cho trước cùng với khoảng giới hạn dự đoán và khoảng giới hạn tin cậy Nhấp chuột phảI vào màn hình nền của bảng Forecast, chọn Panel Option để hiển thị hộp thoại cho phép nhập các giá trị X và độ tin cậy để tính Y

+Comparision of alternative model

Trang 34

34

Bảng này hiển thị kết quả của một số mô hình phù hợp (fitted models) với mối tương quan giữa hiệu suất (Y) và nhiệt độ (X 2 ), nhằm đánh giá mô hình nào mô tả tốt nhất mối tương quan này Ta thấy giá trị R-squared của mô hình tuyến tính Square root-Y (Y=(a+b*X 2 )^1/2) có giá trị lớn nhất, như vậy mô hình này phù hợp hơn mô hình tuyến tính để mô tả mối tương quan giữa hiệu suất và nhiệt độ

+Unusual Residual

Nếu giá trị Studentized Residual >2 thì cặp số liệu (X-Y) tương ứng là bất thường, trong thí nghiệm này thì không có những giá trị bất thường của cặp số liệu hiệu suất- nhiệt độ

+Influential Points

Trang 35

Giá trị leverage của điểm trung bình là 0.222 và trong thí nghiệm này không quan sát được các điểm có giá trị leverage lớn hơn ba lần giá trị này

Trang 37

Cách vẽ này cho biết vị trí của các điểm thực nghiệm so với đường phù hợp, nếu các điểm này nằm càng gần đường phù hợp thì mô hình càng chính xác

+ Residual versus Predicted

Trang 38

38

Đồ thị này mô tả sự biến thiên của phần dư theo biến phụ thuộc Y Nếu mô hình sử dụng là phù hợp thì các điểm biểu diễn giá trị của phần dư phân bố ngẫu nhiên quanh

trục biểu diễn Y

2 Hồi quy đa thức (Polinominal Regression)

Ví dụ: Sự phụ thuộc của nhân tố Y vào nhân tố X được cho trong bảng sau

Cách làm

Bước 1 Nhập số liệu

Trang 39

Bước 2 Khởi động chương trình RELATE….Polinominal Regression để ấn định các giá trị Y và X

Bước 3 Nhấn OK để hiển thị hộp thoại Polinominal Regression Analysis

Tiêu đề	Ứng dụng Tin học Trong Công nghệ Sinh học
Tác giả	Bùi Văn Thế Vinh
Trường học	Trường đại học Kỹ Thuật Công Nghệ TP.HCM
Chuyên ngành	Công nghệ Sinh học
Thể loại	Bài giảng
Năm xuất bản	2008
Thành phố	TP.HCM

Định dạng
Số trang	94
Dung lượng	5,9 MB

Bài giảng Ứng dụng tin học trong công nghệ sinh học ppsx

SO SÁNH NHIỀU GIÁ TRN TRUNG BÌNH

Phép phân tích Box-Cox Transformation