Nếu có các giá trị bị thiếu trong tập dữ liệu, chúng ta có thể loại trừ toàn bộ quan sát khỏi phân tích (chọn casewise) hoặc chúng ta có thể thay thế mỗi giá trị bị thiếu qua[r]
Trang 1TRƯỜNG ĐẠI HỌC LÂM NGHIỆP - 2018
TS CAO THỊ THU HIỀN
PH¢N TÝCH D÷ LIÖU TRONG L¢M NGHIÖP
B»NG PHÇN MÒM STATISTICA
Trang 2TS CAO THỊ THU HIỀN
Trang 4MỤC LỤC
LỜI NÓI ĐẦU 1
Chương 1 MÔ TẢ CỬA SỔ STATISTICA 3
1.1 Bắt đầu (Start) 3
1.2 Cửa sổ chính (Main window) 3
1.3 Bảng tính (Spreadsheets) 5
1.4 Sách bài tập (Workbooks) 6
1.5 Báo cáo (Reports) 7
Chương 2 QUẢN LÝ DỮ LIỆU (DATA MANAGEMENT) 8
2.1 Tạo một tập tin dữ liệu mới (Creating a new data file) 8
2.2 Thêm và tính toán các biến 10
2.3 Lưu và mở các tập tin 15
Chương 3 THỐNG KÊ MÔ TẢ (BASIC STATISTICS) 16
3.1 Thanh công cụ "Basic Statistics/Tables" 16
3.2 Phân tích thống kê (Statistical analysis) 16
3.3 Tạo một báo cáo và in ấn 23
Chương 4 MÃ HÓA CÁC BIẾN (RECORDING VARIABLES) 24
4.1 Mã hóa các biến 24
4.2 Lựa chọn trường hợp 27
4.3 Box plots 30
Chương 5 BIỂU ĐỒ 33
5.1 Mô phỏng một thí nghiệm ngẫu nhiên 33
5.2 Tương quan (Correlation) 33
5.3 Biểu đồ đám mây điểm (Scatterplots) 37
5.4 Bảng chéo (Crosstabulation) 40
Chương 6 SO SÁNH HAI MẪU 44
6.1 Dữ liệu - Nhập dữ liệu 44
6.2 Mô phỏng phân bố - phân bố chuẩn (Normal distribution) 45
6.3 Khoảng tin cậy của giá trị trung bình 49
6.4 Tiêu chuẩn t (t-test) 50
Trang 5Chương 7 CÁC GIÁ TRỊ TRA BẢNG 58
Chương 8 HỒI QUY TUYẾN TÍNH (LINEAR REGRESSION) 60
8.1 Giới thiệu 60
8.2 Quy trình trong STATISTICA 61
8.3 Kết quả 61
8.4 Kết quả chi tiết 63
Chương 9 HỒI QUY (REGRESSION) 67
9.1 Hồi quy phi tuyến cố định (Fixed Nonlinear Regression) 67
9.2 Mô phỏng đường cong (Fitting Growth Curves) 68
Chương 10 HỒI QUY PHI TUYẾN (NONLINEAR REGRESSION) 71
10.1 Giới thiệu 71
10.2 Sử dụng hộp thoại "Ước lượng phi tuyến" 71
Chương 11 PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ (ONE-WAY ANOVA) 76 11.1 Giới thiệu 76
11.2 Các bộ phận của tổng các bình phương (SS) 77
11.3 Tiêu chuẩn Post hoc (Post hoc tests) 79
11.4 Kiểm tra các điều kiện cho ANOVA 80
Chương 12 PHÂN TÍCH PHƯƠNG SAI HAI NHÂN TỐ (TWO-WAY ANOVA) 86 Chương 13 PHÂN TÍCH HIỆP PHƯƠNG SAI (ANCOVA) 91
13.1 Giới thiệu 91
13.2 Thực hiện ANCOVA trong STATISTICA 93
13.3 Tính toán các đường hồi quy song song 94
13.4 Biểu đồ của đường hồi quy 95
Chương 14 HỒI QUY LOGISTIC (LOGISTIC REGRESSION) 97
14.1 Hồi quy logistic với hai biến (khoảng cách và tuổi) là các biến độc lập 97
14.2 Hồi quy logistic với một biến (khoảng cách) 101
14.3 Biểu đồ đám mây điểm và hàm hồi quy logistic 103
Chương 15 TIÊU CHUẨN XẾP HẠNG (RANK TESTS) 106
TÀI LIỆU THAM KHẢO 108
Trang 6LỜI NÓI ĐẦU
Thống kê ứng dụng là một trong những lĩnh vực quan trọng trong khoa học lâm nghiệp Áp dụng các kỹ thuật thống kê toán học để giải thích các dữ liệu thu thập được và các thí nghiệm sẽ quan sát khách quan và hiệu quả hơn.Ngoài việc giải thích được các quy luật cơ bản rõ ràng của tự nhiên, thống kê sinh học còn bao gồm các phương pháp giải thích khác về số liệu thống kê toán học, đây là điều quan trọng trong lâm nghiệp Ngày nay, lĩnh vực lập mô hình, lập kế hoạch thí nghiệm
và phân tích dữ liệu đã được hỗ trợ bởi dữ liệu điện tử và khoa học máy tính nên đây được coi như là một ngành học độc lập về khoa học lâm nghiệp
Trong số liệu thống kê ứng dụng, chúng ta phải đối phó với các bộ dữ liệu được thu thập qua các cuộc điều tra, trong hầu hết các trường hợp được thực hiện bằng cách lấy mẫu và bằng các thí nghiệm được kiểm soát Các cuộc điều tra là một công cụ để mô tả tình trạng thực tế của một tổng thể vô hạn hoặc hữu hạn và các tham số quan trọng của tổng thể như số trung bình, tổng số hoặc tỷ lệ… thường được ước lượng thông qua các tham số mẫu với các giả thuyết kèm theo Các thí nghiệm kết hợp với các mô hình toán học để biểu diễn các mối quan hệ giữa các biến đã rất thành công trong vật lý học Ví dụ, chúng ta đều biết "luật rơi tự do": tốc
độ v rơi xuống của vật thể trong chân không sau thời gian t được cho bởi công thức
v = g.t, độc lập với kích thước, hình dáng và trọng lượng riêng của chúng Điều này
có thể giúp các nhà vật lý học thực hiện thí nghiệm bằng một chuỗi các thí nghiệm
sử dụng các loại vật thể rơi khác nhau và ghi lại các khoảng cách s sau các khoảng thời gian t khác nhau Mô phỏng bằng một hàm như s = const.t 2 với giá trị g/2 là hằng số Sau đó tốc độ được tính bằng phương trình đã cho v = g.t Tuy nhiên, các hàm toán học sẽ không chính xác nếu nội suy các giá trị đo của s tại t Các điều
kiện thí nghiệm không thể được giữ không thay đổi hoàn toàn trong các thí nghiệm lặp đi lặp lại Thêm vào đó, có thể có thêm các lỗi do đo lường Sự xáo trộn của các kết quả thí nghiệm do các yếu tố không rõ ràng, thậm chí còn được thể hiện rõ nét hơn trong lâm nghiệp, đặc biệt là trong các thí nghiệm không thể thực hiện được trong phòng thí nghiệm, nơi dễ dàng kiểm soát các điều kiện môi trường của thí
Trang 7nghiệm Điều này giải thích cho sự cần thiết về việc áp dụng các phương pháp thống kê ứng dụng, trong đó có tính đến các biến động ngẫu nhiên xung quanh các giá trị được gọi là kỳ vọng
Phân tích số liệu và biểu đồ thường được tiến hành bằng các phần mềm thông dụng như SAS, SPSS, STATA, S-Plus… Đây là những phần mềm được các công ty phần mềm phát triển và giới thiệu trên thị trường trong vài thập niên qua, và đã được các trường đại học, các trung tâm nghiên cứu và công ty kĩ nghệ trên toàn thế giới sử dụng cho giảng dạy và nghiên cứu Phần mềm STATISTICA là một phần mềm bao gồm các trình lệnh để phục vụ việc xử lý số liệu trong nghiên cứu lâm nghiệp và đã
có lịch sử phát triển 25 năm Trong thời gian qua, từ phản hồi của hàng trăm ngàn người dùng đã giúp tạo ra phần mềm STATISTICA mà được ứng dụng cho nhiều
ngành công nghiệp khác nhau trên toàn cầu và nhận được đánh giá cao
Trang 81.2 Cửa sổ chính (Main window)
Cửa sổ chính của STATISTICA được hiển thị dưới đây, bao gồm có một số
bộ phận được mô tả chi tiết
Trang 9Pull - down Menus sẽ xuất hiện ở phía trên của màn hình, giống như trong
các ứng dụng Windows khác cho phép lựa chọn các chương trình hoạt động khác nhau trong môđun được chọn
Nhấp vào tên của menu bạn muốn mở hoặc nhấn Alt + F cho menu File, Alt + E
để chỉnh sửa
Hai Toolbars xuất hiện sau khi bắt đầu STATISTICA Các thanh công cụ
khác nhau tương ứng với các cửa sổ hoạt động khác nhau Các thanh công cụ cho phép một sự lựa chọn nhanh chóng của hầu hết các công cụ có sẵn Một mô tả ngắn
về mỗi nút được hiển thị nếu bạn đặt con trỏ chuột vào nút này mà không cần nhấp vào nó
Status Bar nằm ở dưới cùng của cửa sổ ứng dụng STATISTICA, được sử
dụng để hiển thị tin nhắn ngắn giúp đỡ và giải thích, và cũng cung cấp truy cập nhanh đến một số thiết bị hệ thống thường được sử dụng nhất
Message Area hiển thị thông tin trạng thái về các hoạt động hiện đang thực
hiện (ví dụ "Sẵn sàng") Nút Cancel ở cuối thanh được sử dụng để làm gián đoạn hoạt động hiện tại
Khi một bảng tính được kích hoạt, Name Box của thanh trạng thái chỉ ra
các trường hợp và số lượng biến hiện đang được chọn của ô Nếu một ô được
chọn, Name Box chỉ ra các trường hợp và số biến của các ô đã được lựa chọn
đầu tiên
Trang 10Show Field của thanh trạng thái hiển thị giá trị đang được nhấn mạnh với
một độ chính xác cao hơn sẽ phù hợp trong cột tương ứng của bảng tính Chiều
rộng của Show Field có thể được điều chỉnh (bật lên) bằng cách nhấp vào nó Lưu
ý rằng trường này chỉ có sẵn khi một bảng tính đang được chỉnh sửa
Case Selection Conditions Area hiển thị trạng thái hiện tại của các điều
kiện lựa chọn Case, nghĩa là người sử dụng tùy chọn điều kiện quy định có thể được sử dụng để chọn một tập hợp con đặc biệt của các trường hợp cho một phân tích
Case Weights Area hiển thị trạng thái hiện tại của trường hợp lựa chọn có
trọng số, có nghĩa là lựa chọn để xem những giá trị của một biến được chọn được coi như là trường hợp nhân khi phân tích dữ liệu
Các lựa chọn này có thể nhanh chóng được thay đổi bằng cách nhấn đôi vào khu vực tương ứng của thanh trạng thái
Phía trên thanh trạng thái bạn tìm thấy các nút cho mỗi phân tích các thanh
đồ họa hiện đang mở
Nhấp chuột vào nút tương ứng để mở lại
1.3 Bảng tính (Spreadsheets)
Bảng tính được sử dụng để quản lý cả dữ liệu đầu vào và số hoặc văn bản (và tùy chọn bất kỳ loại hình khác) của đầu ra Hình thức cơ bản của bảng tính là một bảng hai chiều đơn giản mà có thể xử lý một số lượng không giới hạn về các trường hợp (hàng) và các biến (cột), và mỗi ô có thể chứa hầu như là không giới hạn về số lượng ký tự
Trang 111.4 Sách bài tập (Workbooks)
Sách bài tập là cách mặc định về quản lý đầu ra Chúng lưu trữ mỗi tài liệu đầu
ra (ví dụ, một bảng tính STATISTICA hay đồ thị, giống như Microsoft Word, Excel)
Bạn có thể lưu trữ tất cả các đầu ra trong cùng một sách bài tập hoặc sử dụng một số sách bài tập cùng một lúc Sử dụng chức năng kéo (drag) và thả (drop) để chèn bảng hoặc đồ thị từ sách bài tập này sang sách bài tập khác Bạn cũng có thể sắp xếp lại hệ thống phân cấp trong một sách bài tập hoặc xóa các mục Chỉ cần đánh dấu tên của mục đó và nhấn phím Delete
Sách bài tập có thể được lưu lại và mở lại
Trang 121.5 Báo cáo (Reports)
Báo cáo trong STATISTICA là một cách quản lý truyền thống kết quả của đầu ra (so với sách bài tập), ví dụ như mỗi đối tượng (là một bảng tính hoặc đồ thị) được hiển thị tuần tự trong một tài liệu
Bạn có thể thêm và chỉnh sửa văn bản giữa các bảng và đồ thị trong báo cáo Sau đó bạn có thể in toàn bộ báo cáo thay vì chỉ in ấn một mục với thời gian như trong sách bài tập (workbooks)
Sử dụng các chức năng sao chép (copy) và dán (paste) (hoặc kéo và thả) để chèn các mục mà bạn muốn có trong báo cáo của bạn
Cũng giống như sách bài tập, bạn có thể lưu và mở lại báo cáo của bạn
Trang 13Chương 2 QUẢN LÝ DỮ LIỆU (DATA MANAGEMENT) 2.1 Tạo một tập tin dữ liệu mới (Creating a new data file)
Một tập tin dữ liệu là một bảng được tổ chức theo các trường hợp (hàng) và các biến (cột) Biến là những thứ mà chúng ta đo đếm, kiểm soát, hoặc thao tác trong nghiên cứu Chúng khác nhau ở nhiều khía cạnh, đáng chú ý nhất là vai trò của chúng được đưa ra trong nghiên cứu của chúng ta và trong các loại biện pháp
có thể được dụng cho chúng Một tập tin dữ liệu là một bảng được tổ chức trong các trường hợp (hàng) và các biến (cột) Biến là những điều mà chúng tôi đo lường, điều khiển, hoặc thao tác trong nghiên cứu Chúng khác nhau ở nhiều khía cạnh, đáng chú ý nhất trong vai trò của họ được đưa ra trong nghiên cứu của chúng tôi và trong các loại biện pháp có thể được áp dụng cho họ Ví dụ, hãy tưởng tượng một tập tin dữ liệu chứa các kết quả của điều tra rừng Mỗi cột là một biến như đường kính, chiều cao và thể tích, trong khi đó mỗi hàng (row) là kết quả về đường kính, chiều cao và thể tích của mỗi cây
- Tạo một bảng tính mới
Để tạo ra một tập tin dữ liệu mới, nhấn vào nút "tệp mới" (“new file”) hoặc chọn mục trình đơn "File" và "New" Bằng các cách này, hộp thoại sau đây được mở ra
Hộp thoại bao gồm bốn lựa chọn Chọn "Bảng tính" ("Spreadsheet") ở phía bên tay trái, bạn có thể nhập số cột (biến) và số hàng (trường hợp) của bảng bạn muốn tạo Những con số này có thể được thay đổi sau này, do đó, không cần lo lắng nếu bạn
Trang 14không chắc chắn về số lượng cột và hàng muốn lập Trong khu vực có tiêu đề "Vị trí" (“Placement”), chọn "Là một cửa sổ độc lập" (“As a stand-alone window”)
Các tập tin dữ liệu được tạo ra và tự động đặt tên “Bảng tính 1” ("Spreadsheet 1") Bạn có thể thay đổi tên này nếu bạn lưu nó (xem phần sau)
- Lưu một tập tin dữ liệu mới
Ấn vào nút "Save" hoặc chọn mục File-Menu "Save" hoặc "Save as" Chọn một thư mục và nhập tên cho tập tin dữ liệu của bạn Nếu bạn đã chọn một thư mục và nhập tên, nhấp vào nút "Save" Tập tin được lưu trong thư mục mà bạn
đã chọn và có tên bạn đã nhập Các tên tập tin kết thúc bằng đuôi ".sta", nghĩa là tập tin này là một tập tin dữ liệu trong STATISTICA
Ví dụ, nếu bạn nhập "Bài tập_1" là tên của tập tin, tập tin này sẽ được gán tên " Bài tập_1.sta"
- Nhập và chỉnh sửa dữ liệu
Nếu bạn chọn một ô trong bảng bằng cách nhấp chuột trái, bạn có thể nhập một giá trị dữ liệu cho ô này bằng bàn phím Sau khi nhập dữ liệu, nhấn phím quay lại Các con trỏ di chuyển đến các ô bên dưới hoặc đến ô đầu tiên trong cột tiếp theo
Để thay thế một giá trị dữ liệu hiện có, chọn ô tương ứng và gõ giá trị mới Giá trị hiện tại sẽ được thay thế
Copy chức năng sao chép được gọi bằng nút "Copy" , mục menu
"Edit/Copy" hoặc phím tắt Ctrl + C
Bất cứ khi nào chức năng sao chép được gọi, nội dung của các ô này được đánh dấu để sao chép vào clipboard Clipboard là một bộ nhớ mà giữ thông tin được sao chép (nghĩa là các giá trị dữ liệu trong các ô được đánh dấu) cho đến khi bạn dán chúng vào một vị trí mới hoặc cho đến khi bạn gọi chức năng sao chép lại
Chỉ có giá trị dữ liệu được sao chép Nếu bạn muốn bao gồm các tiêu đề cột với chức năng sao chép, chọn mục trình đơn "Copy với Headers" Đối với bảng tính, lựa chọn tùy chọn này sẽ sao chép không chỉ gồm nội dung trong khối được đánh dấu của ô, mà còn bao gồm cả tên hàng và tên cột cũng được đánh dấu
Cut hành động này loại bỏ các nội dung của các ô được đánh dấu, văn bản
hoặc đối tượng đồ thị hiện nổi bật và di chuyển nó vào clipboard Các ô tương ứng
Trang 15trong bảng tính được thay thế bằng dữ liệu bị thiếu cho đến khi giá trị mới được nhập vào Chức năng cắt được gọi bằng một trong các cách sau đây:
1 Thực đơn chính (main menu): Edit / Cut
2 Biểu tượng:
3 Phím tắt: CTRL+X
Paste chức năng này dán (chèn) các nội dung hiện tại của clipboard vào một
vị trí đã chọn của một bảng tính Statistica Gọi chức năng bằng một trong những cách sau đây:
1 Thực đơn chính (main menu): Edit/ Paste
2 Biểu tượng:
3 Phím tắt: CTRL+V
Kéo và thả (drag and drop)
Di chuyển một khối (Moving a Block): Bạn có thể di chuyển một khối bằng cách chỉ vào đường biên của vùng lựa chọn (con trỏ chéo sẽ thay đổi sang hình mũi tên) và kéo nó vào một vị trí mới
Sao chép một khối: Bạn có thể sao chép một khối ô hoặc văn bản bằng cách chỉ vào đường biên của vùng lựa chọn (con trỏ chéo sẽ thay đổi sang hình mũi tên)
và trong khi giữ phím Ctrl, kéo nó vào một vị trí mới
Chèn một khối: Để chèn một khối giữa các cột hoặc các hàng, nhấn phím SHIFT trong khi kéo các khối
Ví dụ: Nhập dữ liệu sau đây vào trong tập tin dữ liệu của bạn Sử dụng các
chức năng sao chép và dán! Lưu tập tin dữ liệu
2.2 Thêm và tính toán các biến
- Thêm các biến
1 Chọn mục trình đơn: "Data/Vars/Add "
Trang 162 Chọn “Vars / Add Variables”
Tùy chọn này sẽ thêm các cột trống ở vị trí được chỉ định, do đó kích thước của tập tin sẽ tăng lên Bạn có thể thêm biến vào bảng tính bằng cách chỉ định số lượng các biến mới để thêm ("bao nhiêu"), cũng như nơi để thêm chúng ("After")
"Sau 0" (“After 0”) có nghĩa là các cột mới được coi như là cột đầu tiên, "Sau 1" (“After 1”) sẽ làm cho cột mới trở thành cột thứ hai trong bảng…
Các cột mới sẽ được đặt tên “NewVar” Bạn có thể thay đổi tất cả các tên cột sau này:
- Tính toán các biến mới
Chọn cột mà bạn muốn các giá trị mới xuất hiện (ví dụ, cột có tiêu đề
"NewVar")
1 Chọn mục trình đơn: "Data/Variable specs "
2 Chọn “Vars/Specs”
3 Nhấn đúp chuột vào tiêu đề của cột
Một hộp thoại được mở ra cho phép thay đổi nhiều thuộc tính của cột Bạn có thể thay đổi sự xuất hiện (font chữ, kích thước…) của các giá trị, các định dạng dữ liệu
và bạn có thể tính toán các giá trị mới Nếu cột của bạn vẫn được đặt tên là "NewVar", thay đổi tên này bằng một tên mới bằng cách vào hộp có nhãn "Tên" ("Name")
Trang 17Trong phần dưới cùng của hộp thoại, bạn có thể thêm phần mô tả cho biến của bạn ("tên dài" – “long name) hoặc bạn có thể nhập công thức (bắt đầu bằng "=") Bạn có thể sử dụng công thức biến để xác minh dữ liệu, chuyển đổi một biến, mã hóa lại một biến hoặc tạo ra các giá trị của biến dựa trên các điều kiện hợp lý (ví
dụ, = (v0 <= 100)*1 + (v0> 100)*2 sẽ chỉ định là giá trị 1 đối với trường hợp số từ
1 đến 100 và 2 đối với trường hợp trên 100) Tham khảo các biến bằng tên (ví dụ như đường kính, chiều cao) hoặc số (ví dụ như v1, v2, v3 ) Có thể thêm nhận xét cho công thức sau dấu chấm phẩy
Ví dụ: =(v1+v2+v3)/3; Tính trung bình cộng của 3 biến đầu tiên
Lưu ý rằng bạn có thể nhấp vào nút "Function" trong hộp thoại này để mở hộp thoại Function Wizard Từ hộp thoại này, bạn có thể chọn các phần mong muốn của công thức (ví dụ, một nhà điều hành, hàm phân phối, hàm toán học)
- Gán giá trị văn bản
Một số biến có đầu vào không phải là số Ví dụ, các biến "loài" có tên
"Thông", "Linh sam"… Nhập các ký tự văn bản trong mỗi ô rất tốn thời gian, do đó
ta có thể nhập "1" cho "Thông" và "2" cho "Linh sam"
STATISTICA cho phép gán các giá trị văn bản theo các giá trị số Đó là, đầu tiên chúng ta nhập giá trị số (1, 2 ) Sau đó chúng lựa chọn thay vì 1, STATISTICA sẽ in tên cây là "Thông"… Những giá trị văn bản này được gọi là
"nhãn" (“Label”)
mở ra Nhập nhãn văn bản đầu tiên mà bạn muốn gán (ví dụ “Thông”) và các giá trị
số (1) Ấn nút quay lại Sau đó nhập nhãn văn bản thứ hai (“Linh sam”)… Nhấn
“OK” khi bạn đã hoàn tất Tất cả các giá trị số trong cột sẽ được thay thế bởi các nhãn văn bản tương ứng Bạn có thể hiển thị các nhãn văn bản hoặc các giá trị dữ liệu số Để chuyển đổi giữa hai chế độ hiển thị, chọn hoặc bỏ chọn trong mục
"View/Display Text Labels"
Ví dụ 2.1: Hãy gán tên các loài cây trong bảng 2.1 bằng các giá trị số (1, 2,…)
Trang 18Bảng 2.1 Kết quả thống kê số loài cho 111 cây của rừng hỗn giao tự nhiên - gỗ
tự nhiên núi đất ở huyện Vân Đồn, tỉnh Quảng Ninh
(Nguồn Nguyễn Thanh Sơn, 2017)
TT Tên loài TT Tên loài TT Tên loài TT Tên loài
Trang 19Trong STATISTICA mở tập tin Excel có lưu trữ tên loài trên Tích đúp vào
cột có chứa tên loài, chọn Text Labels/trong cột thư nhất là Text Lable hiện tên các loài, cột thứ 2 là Numeric, gán tên mỗi loài cây bằng các giá trị số, “Long bang” gán là 1, “Sp2” là 2… làm tương tự như vậy cho đến hết/OK Để chuyển đổi giữa hai chế độ hiển thị, chọn hoặc bỏ chọn trong mục View/Display Text Labels Kết
quả như hình sau:
Trang 202.3 Lưu và mở các tập tin
- Lưu tập tin
Mỗi khi bạn thực hiện thay đổi cho bảng tính, lưu tập tin của bạn thông qua lệnh "File/Save" Nếu tập tin chưa được lưu trước, hộp thoại "Save As" sẽ mở ra và bạn có thể ghi rõ tên tập tin và lưu vào một vùng nào đó trong ổ đĩa mà bạn muốn Một khi tên và vị trí của tập tin đã được xác định, bất cứ khi nào bạn chọn "Save", bảng tính sẽ tự động được lưu lại, ghi đè lên các bản sao trước đó của tập tin Nếu bạn muốn thay đổi tên hoặc vị trí của các tập tin, chọn “Save As”
- Mở các tập tin STATISTICA
Các tập tin dữ liệu STATISTICA có thể được mở ra bằng nhiều cách
1 Chọn File Open/Save As hoặc nhấp vào nút thanh công cụ
2 Kích đúp vào tên trong Windows File Manager để mở tập tin trong Statistica File Server
Trang 21Chương 3 THỐNG KÊ MÔ TẢ (BASIC STATISTICS) 3.1 Thanh công cụ "Basic Statistics/Tables"
Số liệu thống kê trong mục này được quy ước gọi là thống kê cơ bản và thường được thảo luận như là một nhóm vì chúng thường được sử dụng như là nhóm ban đầu trong giai đoạn thăm dò của phân tích dữ liệu Chọn mục
"Statistics/BasicStatistics/Tables" để bắt đầu Hộp thoại sau đây sẽ mở ra:
3.2 Phân tích thống kê (Statistical analysis)
- Tính toán các thống kê mô tả
Nếu chúng ta chọn "thống kê mô tả" ("Descriptive statistics"), chúng ta có thể dễ dàng tính toán một số thống kê đơn giản là giá trị trung bình, giá trị nhỏ nhất
và lớn nhất, độ lệch chuẩn Đầu tiên, chúng ta phải chọn các biến muốn phân tích
quả trong một sách bài tập (“Workbook”) mới Để mở lại hộp thoại, nhấp vào biểu tượng ở phía dưới cùng của cửa sổ STATISTICA
Nếu muốn nhiều chỉ tiêu thống kê mô tả hơn, chúng ta có thể sử dụng hộp
Trang 22Valid N: Số giá trị không bị thiếu (non missing values)
Mean: Giá trị trung bình cộng;
Sum: Tổng của tất cả các giá trị
Median: Trung vị mẫu là giá trị chia đôi dãy số liệu và thoả mãn điều kiện:
số phần tử lớn hơn nó và nhỏ hơn nó bằng nhau khi dãy quan sát được sắp xếp theo thứ tự từ nhỏ đến lớn t
Standard deviation: Độ lệch chuẩn được tính bằng căn bậc hai của tổng
bình phương độ lệch (từ giá trị trung bình) chia cho n-1
Variance: Phương sai của một biến được tính là tổng bình phương độ lệch
(từ giá trị trung bình) chia cho n-1
Standard error of the mean: Sai số của số trung bình được tính bằng độ
lệch chuẩn chia cho căn bậc hai của n
95% confidence limits of the mean: 95% độ tin cậy của số trung bình được
tính toán dựa trên các giá trị tra bảng t tương ứng
Minimum and Maximum: Giá trị nhỏ nhất và giá trị lớn nhất
Range: Phạm vi biến động (bằng giá trị lớn nhất trừ giá trị nhỏ nhất)
Skewness: Độ lệch phân bố là thước đo mức độ đối xứng của phân bố của
các giá trị Nếu phân bố đối xứng thì độ lệch bằng không
Kurtosis: Độ nhọn phân bố là chỉ tiêu thuyết minh cho mức độ tập trung của
các trị số quan sát xung quanh đỉnh của đường cong phân bố Nếu là phân bố chuẩn thì giá trị của độ nhọn phân bố bằng không
Trang 23Ví dụ 3.1: Hãy tính các đặc trưng mẫu về đường kính theo số liệu bảng 3.1 sau
Bảng 3.1 Đường kính ngang ngực D 1.3 của 54 cây rừng tự nhiên III A3 tại khu
Bảo tồn Xuân Nha, huyện Vân Hồ, tỉnh Sơn La
(Nguồn Cao Danh Toàn, 2017)
Mode, Standard deviation, Coefficient of variation, Variacne, Std err of mean,
Trang 24Conf limits for mean, Skewness, Kurtosis, Minimum and Maximum, Range/Summary: statistics
- Bảng tần số
Trong hầu hết các nghiên cứu, cái "nhìn" đầu tiên vào dữ liệu thường là các bảng tần số Bảng tần số là phương pháp đơn giản nhất để phân tích dữ liệu theo nhóm (không có thứ bậc hoặc có thứ bậc)
Trang 25Trong hộp thoại chính của "Descriptive Statistics and Tables" chúng ta chọn mục "Frequency Tables" và sau đó mở hộp thoại "Advanced"
Ví dụ, chúng ta chọn biến “Damage” trong hộp thoại
Trong mục Phương pháp phân loại (Categorization Methods):
Các thiết lập trong hộp này sẽ quyết định các biến hiện đang được chọn sẽ được phân loại hoặc lập bảng kê cho các bảng tần số
All distinct values: Chọn lựa chọn này nếu bạn muốn các tần số được dựa
trên tất cả các giá trị khác biệt của mỗi biến được lựa chọn
With Text Values: Chọn lựa chọn này nếu bạn muốn các tần số phải dựa
trên các giá trị văn bản riêng biệt cho mỗi biến được lựa chọn
No of exact intervals: Nếu lựa chọn này được thiết lập thì các giá trị của
mỗi biến sẽ được chia thành các cự li tương ứng
"Neat" intervals: Nếu chọn lựa chọn này thì các giá trị sẽ được làm tròn (ví
dụ, 10.5, 11.0, 11.5,…)
Step size: Nếu lựa chọn này được thiết lập thì cự li các tổ trong các bảng tần
số (và biểu đồ) sẽ được dựa trên sự lựa chọn của người dùng
Trang 26Starting at minimum: Nếu lựa chọn này được thiết lập thì cự ly tổ đầu tiên
sẽ bắt đầu từ giá trị nhỏ nhất của biến quan sát
With text labels: Nếu chọn mục này thì bảng tần số và biểu đồ sẽ được dán
nhãn với các giá trị văn bản (ví dụ: nam, nữ), với điều kiện là các giá trị văn bản phải có sẵn cho các biến tương ứng trong các tập tin dữ liệu hiện tại
Ví dụ 3.2: Lập bảng phân bố tần số thực nghiệm số cây theo cỡ kính theo số liệu bảng 3.1 trên
Thực hiện quy trình Statistics/Basic statistics/ Frequency tables/Variables:
chọn biến D1.3/vào Advanced chọn "Neat" intervals, approximate no.: 12/Summary: Frequency tables
Ta được kết quả như sau:
From To Frequency table: D 1.3 (cm)
Count Cumulative Percent Cumulative
Cột đầu là giới hạn dưới và giới hạn trên của đường kính của các tổ, cột thứ
2 là tần số hay số cây ở mỗi cỡ đường kính, cột thứ 3 là tần số lũy tích (cộng dồn): tần số lũy tích của tổ đầu giữ nguyên là 16, tổ thứ 2 bằng tần số tổ thứ nhất cộng dồn với tần số tổ thứ 2 cột 2, và cứ tiếp tục làm như vậy ta được tần số ở các tổ còn lại Cột thứ 4 và cột thứ 5 là tần suất và tần suất lũy tích Kết quả cho ta thấy sự phân bố số cây theo cỡ đường kính có sự giảm rõ rệt Số cây chủ yếu tập trung ở
Trang 27- Biểu đồ có/không mô phỏng phân bố
Để tạo biểu đồ, chúng ta chọn mục "Graphs/Histograms" Một hộp thoại được mở ra cho phép bạn tạo ra một số loại biểu đồ 2D
Graph Type: Bạn có thể chọn kiểu biểu đồ 2D từ danh sách các dạng đồ thị
trong hộp thoại này
2D Histograms – Regular: Trục tung của biểu này là các tần số phân bố của
các biến được lựa chọn (nếu có nhiều hơn một biến được chọn), hoặc lựa chọn mỗi biểu đồ biểu thị cho mỗi biến trong danh sách)
Ngoài ra, bạn có thể lựa chọn dạng 2D Histograms – Multiple, 2D
Histograms - Double-Y, 2D Histogram - Hanging Bars
Biểu đồ với mô phỏng phân bố:
Nếu một phân bố được chọn (ví dụ: Phân bố chuẩn), mật độ lý thuyết sẽ được mô phỏng cho các dữ liệu và hiển thị với biểu đồ Để ngăn chặn tùy chọn này, hãy chọn Fit type "Off"
Ví dụ 3.3: Vẽ biểu đồ phân bố thực nghiệm số cây theo cỡ đường kính của ví
dụ 3.1
Quy trình như sau: Graph/2D/Histogram/Variables: chọn D1.3/vào
Advanced: Graph type: chọn Regular, Fit type: chọn Of/Categories: 12
Trang 283.3 Tạo một báo cáo và in ấn
Tất cả các kết quả đã có từ trước đến bây giờ được lưu trong sách Chương tập (Workbook) Chúng ta có thể lưu sách Chương tập này và mở lại khi cần Quy trình lưu giữa đã được mô tả trong mục lưu các tập tin dữ liệu Với Workbook đang
mở, chọn "File/Save" hoặc "File/Save as" Workbook được lưu và kết thúc với đuôi ".stw"
Workbook thuận tiện cho việc sắp xếp các kết quả đã được xử lý Tuy nhiên, Workbook không thuận tiện cho việc in ấn Nếu chọn "File/Print" hoặc nhấn vào nút sẽ chỉ in các mục đang được đánh dấu trong Workbook
Nếu chúng ta muốn in nhiều hơn một mục trên một trang hoặc thêm một số
ký tự vào kết quả, đầu tiên chúng ta cần tạo ra một báo cáo (Report) Chọn
"File/New /Report" và chọn "As a stand-alone window "
Một cửa sổ trống được mở ra Click vào bất cứ nơi nào trên trang trống Bạn
có thể nhập văn bản bằng cách sử dụng bàn phím Định dạng văn bản này bằng cách sử dụng thanh công cụ (kiểu font, kích thước…) như trong một chương trình
xử lý văn bản Với bảng hoặc đồ thị, dùng chức năng sao chép Click vào trong báo cáo (Report) của bạn và dán bảng hoặc đồ thị đã sao chép
Bạn có thể dùng nhiều bảng và đồ thị theo mong muốn Sau đó bạn lưu các báo cáo của bạn và/hoặc in nó bằng cách sử dụng mục trình lệnh "File/Print" Sử dụng chức năng "File/Print Preview" để xem trước khi in
Nếu bạn chưa hoàn thành phần phân tích thống kê của bạn, bạn nên lưu lại báo cáo của bạn Quy trình cũng tương tự như mô tả ở trên (mục lưu Workbook) Các báo cáo sẽ được lưu lại với đuôi ".str"
Trang 29Ví dụ, chúng ta muốn mã hóa lại các giá trị của biến chiều cao (Height) Đầu
tiên, thêm một cột mới (add a new variable) trong tập tin dữ liệu và đặt tên là
H_Class (nếu không thêm cột mới, bạn sẽ ghi đè lên các giá trị ban đầu của chiều cao!) Chọn cột và chọn các mục "Data/Recode " hoặc sử dụng Hộp thoại sau xuất hiện
Ở phía bên tay trái của hộp thoại, bạn có thể xác định được các trường hợp
mà bạn muốn nhóm vào cùng một nhóm Ví dụ, tất cả các trường hợp có chiều cao nhỏ hơn 6 sẽ thuộc nhóm đầu tiên và gán là giá trị 1 trong mục "New value" Tiếp theo, tất cả các trường hợp có chiều cao từ 6 đến 9 là nhóm thứ hai và gán giá trị 2,…
Điều kiện lựa chọn các trường hợp:
Tên biến (Variable Names): Ghi rõ là biến số (v1, v2, v3, …) hay là biến
tên (ví dụ: GIỚI TÍNH, ngày, thời gian, )
= (bằng)
# , <>, >< (không bằng)
Trang 30Bảng 4.1 Đường kính ngang ngực D 1.3 của 161 cây rừng gỗ tự nhiên núi đất lá rộng thường xanh nghèo kiệt ở huyện Vân Đồn, tỉnh Quảng Ninh
(Nguồn Nguyễn Thanh Sơn, 2017)
Trang 32Từ phần mềm STATISTICA mở file Excel có lưu trữ số liệu ở bảng 4.1 Sau
đó tạo thêm một cột mới và đặt tên là “D_moi”
Sau đó theo quy trình sau: “Data/Recode/trong Category 1: v1>=6 and v1<8
và New Value 1: 7 (là giá trị trung bình cộng của 6 và 8), tương tự, trong Category 2: v1>=8 and v1<10, New Value 2: 9, tương tự như vậy cho đến hết Ta được giá
trị “D_moi” như sau:
4.2 Lựa chọn trường hợp
Chọn lựa chọn này khi bạn chỉ cần một tập hợp con của các trường hợp để phân tích (ví dụ: sử dụng "case filters") Bạn vào hộp thoại "Case Selection
Trang 33Conditions", hoặc bằng cách nhấp đúp vào ở Status Bar, hoặc bằng cách nhấp vào nút trên bảng điều khiển start-up
Ví dụ, chúng ta muốn tính toán thống kê mô tả cho biến chiều cao, nhưng chúng ta chỉ quan tâm đến các trường hợp cây bị tổn thương ít (damage = 1) Bắt đầu "Statistics/ Descriptive Statistics và nhấn vào nút "Select cases"
Hộp thoại mở ra, trong mục "Enable selection conditions", chọn “Specific, selected by” chọn “Damage =1”
Ví dụ 4.2: Tính các đặc trưng mẫu cho chiều cao vút ngọn cho những cây có phẩm chất “b” theo số liệu bảng 4.2 dưới đây
Bảng 4.2 Chiều cao vút ngọn H VN của 142 cây rừng gỗ tự nhiên núi đất lá
rộng thường xanh nghèo ở huyện Vân Đồn, tỉnh Quảng Ninh
(Nguồn Nguyễn Thanh Sơn, 2017)
Trang 35Thực hiện quy trình sau: Statistics/Descriptive Statistics/Variables: chọn biến “Chieu cao”/chọn Select cases/Enable Selection Condition/Specific, selected by: v2 = “b”/OK, tiếp theo vào Advanced và chọn các đặc trưng mẫu như hướng dẫn ở mục 3.2/Summary: Statistics Kết quả như sau:
Trong Box plots, phạm vi biến động của các giá trị của một biến được lựa
chọn (hoặc nhiều biến) được vẽ riêng cho nhóm của các trường hợp đã được xác định bởi giá trị của biến phân nhóm
Đặc trưng về vị trí (ví dụ: số trung bình hoặc trung vị), và phạm vi biến động hoặc đặc trưng biến động (ví dụ: độ lệch chuẩn) được tính cho mỗi nhóm và các giá
Trang 36trị được chọn sẽ được thể hiện trên biể đồ Các giá trị bất thường (outlier) cũng có thể được thể hiện trên biểu đồ
Ví dụ:
1 Mở hộp thoại Box Plots thông qua "Graphs/2D Graphs/Box Plots"
2 Chọn Graph Type "Box-Whiskers" và "Regular"
3 Chọn biến (DBH) và biến phân nhóm (Damage)
4 Mục "Middle Point", chọn “Median” Click OK
Ví dụ 4.3: Vẽ biểu đồ dạng Box plots cho giá trị trung vị mẫu của chiều cao vút ngọn theo 3 cấp phẩm chất “a”, “b” và “c” theo số liệu trong bảng 4.2
Quy trình như sau: Graphs/2D Graphs/Box Plots/chọn dang biểu đồ Whiskers và Regular/Variables/Dependent Variables: chọn biến “Chieu cao”, Grouping Variable: chọn biến “Pham chat”/Middel point, Value: Median/OK
Trang 37Box-Kết quả nhƣ hình sau:
Box Plot of Chieu cao grouped by Pham chat
Median 25%-75%
Non-Outlier Range Outliers
Extremes
Pham chat 4
Trang 38Chương 5 BIỂU ĐỒ 5.1 Mô phỏng một thí nghiệm ngẫu nhiên
Các kết quả có thể có của một thử nghiệm ngẫu nhiên là gieo một súc sắc có các mặt là "1", "2", "3", "4", "5", "6" Không gian sự kiện là Ω={1,2,3,4,5,6} Chúng ta quan tâm đến tần số của mỗi lần gieo súc sắc trong 100 lần lặp lại
Đầu tiên chúng ta thêm một cột mới là “Súc sắc” Trong "Long name" chúng
ta gõ một hàm mà sẽ tạo ra các số ngẫu nhiên trong khoảng (0, x) Hàm này được gọi là "Rnd" và cú pháp của nó là "Rnd (x)" Những con số ngẫu nhiên phải được làm tròn đến một giá trị số nguyên Để làm điều này, bạn có thể sử dụng hàm Trunc(x) trong STATISTICA Nhưng hàm này được làm tròn bằng cách cắt bỏ các con số bên phải dấu thập phân Vì vậy, đầu tiên chúng ta phải thêm "1" vào các số ngẫu nhiên
Rnd(x): Quay về một số ngẫu nhiên thực tế từ phân bố đều trong khoảng từ
0 đến x
Trunc(x): Cắt x đến một số nguyên
Vậy, phương trình là: = Trunc(Rnd(6)+1)
5.2 Tương quan (Correlation)
Tương quan là biểu thị mối quan hệ tuyến tính giữa hai hay nhiều biến Hệ
số tương quan có thể nằm trong khoảng từ -1,00 đến 1,00 Nếu hệ số tương quan bằng -1,00 thì mối tương quan đó là tương quan nghịch, nếu hệ số tương quan bằng 1,00 thì mối tương quan đó là tương quan thuận Nếu hệ số tương quan bằng 0 thì giữa các biến không có tương quan Hệ số tương quan thường được sử dụng nhiều
nhất là hệ số tương quan Pearson r
Bình phương hệ số tương quan được gọi là hệ số xác định (R²), biểu thị tỷ lệ biến đổi của một biến được giải thích bởi một biến khác
Mở hộp thoại "Statistics/Basic Statistics and Tables/Correlation Matrices"
Trang 39One variable list - square matrix: Lựa chọn này cho phép chọn một biến
và tính toán ma trận các mối tương quan Ma trận gồm các mối tương quan giữa mỗi cặp của các biến Ví dụ, nếu chúng ta chọn đường kính, chiều cao và hình số, sau đó ma trận tương quan có mối tương quan giữa đường kính và chiều cao, đường kính và hình số, chiều cao và hình số, và mỗi một trong ba hệ số tương quan này sẽ xuất hiện hai lần trong ma trận
Two lists (rectangular matrix): Lựa chọn này cho phép chọn hai biến và
tính ma trận các mối tương quan cho hai nhóm Ví dụ, chọn chiều cao trong nhóm đầu tiên, đường kính và hình số trong nhóm thứ hai Ma trận sẽ bao gồm tương quan giữa chiều cao và đường kính, và giữa chiều cao và hình số
Hộp thoại "Advanced" cung cấp nhiều lựa chọn như tạo biểu đồ đám mây điểm,… Trong hộp thoại "Options", bạn có thể tùy chỉnh một số tính toán như mô tả dưới đây:
Trang 40Display Options
1 Display simple matrix: Chỉ có giá trị hệ số tương quan
2 Display r, p-levels, an N's: Hệ số tương quan, giá trị p, và dung lượng mẫu n
3 Display detailed table of results: hệ số tương quan, trung bình cặp, độ lệch chuẩn cặp, hệ số tự do và các thống kê hồi quy khác
Other Options
1 Extended precision calculations: cho độ chính xác rất cao
2 Missing data:
Chọn casewise hoặc pairwise để xóa dữ liệu bị thiếu
Ví dụ 5.1: Hãy tính hệ số tương quan giữa hai biến chiều cao vút ngọn và đường kính ngang ngực theo số liệu bảng 5.1
Bảng 5.1 Chiều cao vút ngọn và đường kính ngang ngực D 1.3
của 139 cây rừng gỗ tự nhiên núi đất lá rộng thường xanh phục hồi
ở huyện Vân Đồn, tỉnh Quảng Ninh
(Nguồn Nguyễn Thanh Sơn, 2017)