1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích thống kê chất lượng gỗ và các vấn đề liên quan

11 362 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 11
Dung lượng 244,55 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong luận văn này đưa ra một cách tiếp cập theo phương pháp thống kê là xây dựng mô hình hồi quy với biến phụ thuộc là chất lượng sinh trưởng, biến giải thích là các tiêu chí đo đạc đượ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

o0o

-VŨ NGỌC TRÌU

PHÂN TÍCH THỐNG KÊ CHẤT LƯỢNG GỖ VÀ

CÁC VẤN ĐỀ LIÊN QUAN

LUẬN VĂN THẠC SĨ KHOA HỌC

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

o0o

-VŨ NGỌC TRÌU

PHÂN TÍCH THỐNG KÊ CHẤT LƯỢNG GỖ VÀ

CÁC VẤN ĐỀ LIÊN QUAN

Chuyên ngành: Lý thuyết xác suất và thống kê toán

Mã số: 60 46 01 06

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS.TS HỒ ĐĂNG PHÚC

Hà Nội - 2014

Trang 3

Mục lục

1 Mô hình Logit thứ bậc và mô hình Probit thứ bậc 1

1.1 Mô hình biến ẩn đối với biến thứ tự 2

1.1.1 Giả thiết về phân phối của sai số 4

1.1.2 Xác suất của giá trị quan sát 5

1.2 Xác định mô hình 6

1.3 Ước lượng 7

1.4 Giải thích 9

1.4.1 Hiệu quả riêng phần của các biến độc lập đối với y∗ 9

1.4.2 Xác suất dự báo 11

1.4.3 Biến đổi riêng phần của biến độc lập đối với xác suất dự báo 14

1.4.4 Biến đổi gián đoạn 15

1.4.5 Mô hình số chênh trong mô hình logit thứ bậc 18

1.5 Giả thuyết hồi quy song song 20

1.6 Các mô hình liên kết đối với dữ liệu tính trạng 24

1.6.1 Mô hình hồi quy ghép nhóm 24

1.6.2 Các mô hình khác về dữ liệu tính trạng 25

2 Mô hình logit đa thức đối với biến đầu ra định danh và các mô hình liên quan 26 2.1 Giới thiệu về mô hình logit đa thức 27

2.2 Mô hình logit đa thức 29

2.2.1 Mô hình MNLM được xét như mô hình xác suất 30

2.2.2 Mô hình MNLM như một mô hình tỉ số 31

2.2.3 Mô hình logit đa thức như mô hình lựa chọn rời rạc 32

2.3 Ước lượng hợp lí cực đại 33

2.4 Tính toán và kiểm tra các hệ số tương phản khác 34

2.5 Hai kiểm định hữu dụng 36

2.5.1 Kiểm tra biến không có ảnh hưởng 36

2.5.2 Kiểm định về hai đầu ra có thể được kết hợp với nhau 37

2.6 Giải thích mô hình 38

2.6.1 Xác suất dự báo 39

2.6.2 Biến đổi riêng 39

2.6.3 Biến đổi rời rạc 40

2.6.4 Lí giải tỉ số chênh 42

2.6.5 Vẽ các hệ số 44

2.7 Mô hình logit có điều kiện 47

Trang 4

3 Sử dụng mô hình logit thứ bậc để phân tích chất lượng sinh trưởng của

3.1 Giới thiệu về địa bàn nghiên cứu và mục đích nghiên cứu 51

3.2 Mô tả dữ liệu 52

3.3 Phân tích chất lượng sinh trưởng của cây 56

3.3.1 Phân tích bộ số liệu “Rừng nguyên sinh” 56

3.3.2 Phân tích phẩm chất gỗ đối với dữ liệu từ rừng trồng 63

3.4 Bàn luận về các kết quả của mô hình hồi quy 66

ii

Trang 5

Lời mở đầu

Trong nghành Lâm Nghiệp, một trong những công việc rất quan trọng là đánh giá chất lượng sinh trưởng của rừng Từ kết quả thu được, người ta sẽ đưa ra các phương pháp bảo tồn, phát triển hoặc khai thác rừng một cách hiệu quả nhất Thông thường, các chuyên gia đến tận nơi đo đạc, khảo sát và dựa vào cả kinh nghiệm của mình để đưa ra kết luận rằng cây được xem xét

là sinh trưởng tốt, sinh trưởng trung bình hay sinh trưởng kém Một phương pháp như vậy là khá tốn kém và khó thực hiện khi những người có trình độ cao, kinh nghiệm dày dặt không nhiều Vấn đề đặt ra là có phương pháp nào

ít tốn kém hơn nhưng cũng có độ chính xác cao hay không Trong luận văn này đưa ra một cách tiếp cập theo phương pháp thống kê là xây dựng mô hình hồi quy với biến phụ thuộc là chất lượng sinh trưởng, biến giải thích là các tiêu chí đo đạc được của cây Với mục tiêu như vậy, luận văn này có tên

“ Phân tích chất lượng gỗ và các vấn đề liên quan”

Luận văn được chia thành ba chương Chương 1 giới thiệu về mô hình hồi quy thứ bậc với biến phụ thuộc là biến tính trạng có thứ tự Trong chương này, ta nghiên cứu các mô hình là mô hình Probit, mô hình Logit và mô hình

số chênh Những phương pháp diễn giải các kết quả rất hữu ích của mô hình như: hiệu quả riêng, biến đổi gián đoạn cũng được giới thiệu trong chương này

Chương thứ 2 trình bày về mô hình Logit đa thức Mô hình này áp dụng với biến phụ thuộc là biến định danh Các diễn giải về kết quả mô hình này được xem như là sự mở rộng đối với các diễn giải của mô hình Logit thứ bậc, tuy nhiên khi biến phụ thuộc có nhiều tính trạng hoặc có nhiều biến giải thích thì mô hình khá phức tạp do có nhiều hệ số Khó khăn này được giải quyết bằng phương pháp vẽ đồ thị thể hiện mối liên hệ giữa các hệ số Chương thứ 3 là phần chạy các mô hình từ dữ liệu thực tế và diễn giải các kết quả từ mô hình đã xây dựng Trong chương này, một số các kết quả đạt được có những ý nghĩa thực tế như: chất lượng sinh trưởng của cây rừng phụ thuộc mạnh vào những yếu tố đường kính tán, chiều cao, đường kính 1m3 Các loài cây khác nhau cũng có sự đánh giá khác nhau về sinh trưởng,

Trang 6

mức độ quý hiếm của cây không có ý nghĩa trong việc đánh giá đó Đối với chất lượng gỗ của rừng trồng thì yếu tố quyết định để phân loại chất lượng

gỗ là đường kính 1m3 Các yếu tố khác có ảnh hưởng không đáng kể

Bản luận văn này được hoàn thành với sự hướng dẫn nghiêm khắc và chỉ bảo tận tình của PGS.TS Hồ Đăng Phúc Thầy đã dành rất nhiều thời gian quý báu của mình để hướng dẫn, giải đáp thắc mắc cho tôi trong suốt quá trình bắt đầu tới khi hoàn thành luận văn Nhân dịp này, tôi xin bày tỏ lòng biết ơn sâu sắc nhất tới thầy Hồ Đăng Phúc

Qua đây, tôi xin cảm ơn tới các thầy cô khoa Toán –Cơ – Tin, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là các thầy đã tham gia giảng dạy khóa Cao học Toán 2011-2013

Tôi cũng xin cảm ơn gia đình, các bạn và mọi người đã giúp đỡ, cổ vũ để tôi có thể khác phục những khó khăn gặp phải trong suốt quá trình học

Hà Nội, ngày 11 tháng 12 năm 2014

Học viên

Vũ Ngọc Trìu

iv

Trang 7

Chương 1

Mô hình Logit thứ bậc và mô hình Probit thứ bậc

Đối với mô hình hồi quy tuyến tính, ta làm việc với biến phụ thuộc được giả thiết là biến định lượng liên tục Đây là mô hình rất phổ biến và được

sử dụng rộng rãi Tuy nhiên trong các vấn đề kinh tế- xã hội, chúng ta bắt gặp nhiều biến phụ thuộc không liên tục và thậm chí không quan sát được Các biến dạng này được gọi chung là các biến phụ thuộc giới hạn (limited dependent variable, LDV) Trong luận văn này sẽ trình bày các mô hình phi tuyến đối với các biến phụ thuộc là biến thứ tự và biến định danh Ta định nghĩa các biến dạng này như sau:

Biến thứ tự (ordinal variable) là biến có các tính trạng được sắp thứ tự

Ví dụ trong cuộc điều tra các câu hỏi được đưa ra và phương án trả lời có thể là các lựa chọn: tuyệt đối đồng ý, đồng ý, không đồng ý và hoàn toàn không đồng ý

Biến định danh (nominal variable) là biến có nhiều tính trạng và các tính trạng không có thứ hạng Ví dụ tình trạng hôn nhân có thể là các tính trạng sau: độc thân, đã kết hôn, li dị, góa bụa

Đối với biến có thứ tự, các tính trạng có thể được sắp thứ tự từ thấp tới cao, nhưng khoảng cách giữa các tính trạng gần kề chưa được xác định Những tính trạng này được đánh số lần lượt và mô hình hồi quy tuyến tính (LRM)

có thể được áp dụng Tuy nhiên, ta ngầm giả thiết rằng khoảng cách giữa các tính trạng là bằng nhau Một vấn đề là khi dùng mô hình hồi quy tuyến tính đối với biến LDV, ước lượng có thể chệch và vì thế dẫn tới những kết quả sai lầm, thậm chí không chấp nhận được Cho nên các mô hình phi tuyến được

đề xuất mặc dù những lí giải về nó phức tạp hơn nhiều

Trong chương đầu tiên, ta xét các mô hình logit thứ bậc và probit thứ bậc (ordered logit and ordered probit models) Hai mô hình này có quan hệ chặt

Trang 8

chẽ với nhau và được gọi chung là mô hình hồi quy thứ bậc (ordered regression models, ORM) Một số mô hình liên quan với hai mô hình trên cũng được giới thiệu

Mô hình hồi quy thứ bậc ORM có thể nhận được từ một mô hình hồi quy thông thường với biến phụ thuộc là một biến liên tục Trong mô hình ORM, biến phụ thuộc định lượng là một biến ẩn y∗ có thể nhận giá trị từ−∞ tới +∞, song bị ẩn dưới biến phụ thuộc quan sát được y thông qua một ánh xạ được xác định như sau:

yi = m khi τm−1 ≤ y∗ < τm, m = 1, , J Các điểm τ được gọi là điểm cắt Tính trạng đầu tiên và cuối cùng tương ứng với m = 1 và m = J được định nghĩa bởi khoảng mở tương ứng với

τ0 = −∞ và τJ = +∞ Để hiểu rõ hơn về ý tưởng trên, ta xét ví dụ sau đây

về cuộc điều tra phỏng vấn do General Social Survey Trong một cuộc điều tra phỏng vấn, mọi người được yêu cầu trả lời câu hỏi sau đây: “Một người

mẹ làm việc thì tình cảm và sự quan tâm tới con cái của họ có như những người mẹ không đi làm hay không ?” Các lựa chọn trả lời là:

Rất khác biệt (strongly disagree) SD

Hoàn toàn như nhau (Strong agree) SA

Biến tính trạng này liên kết với biến ẩn liên tục y∗, trong đó biến y∗ chỉ ra các mức khác biệt đối với câu hỏi về “Người mẹ làm việc thì tình cảm và sự quan tâm mà họ dành cho con cái có như người mẹ không đi làm không?” Biến quan sát được y được xác định thông qua y∗ bởi ánh xạ sau:

yi =

1 =⇒ SD, khi τ0 = −∞ ≤ y∗ < τ1

2 =⇒ D, khi τ1 ≤ y∗ < τ2

3 =⇒ A, khi τ2 ≤ y∗ < τ3

4 =⇒ SA, khi τ3 ≤ y∗ < τ4 = +∞

Ánh xạ này được minh họa bằng hình vẽ sau

Đường thẳng nét liền thể hiện biến ẩn y∗, các điểm cắt được xác định và được đánh dấu bằng τ1, τ2 và τ3 Giá trị của biến quan sát y trên mỗi khoảng của y∗ được đánh dấu với đường chấm Cấu trúc của mô hình là:

yi∗ = xiβ + εi

2

Trang 9

Trong đó, xi là véc tơ hàng với các số 1 ở cột đầu tiên và quan sát thứ i đối với biến độc lập xk được xuất hiện ở cột thứ k + 1, β là véc tơ hệ số với hệ

số chặn β0

Hình 1.1: Hồi quy với biến ẩn y∗ Hình 1.2: Hồi quy với biến y

Mô hình chỉ chứa một biến độc lập có cấu trúc như sau:

y∗i = α + βxi + εi Trong Hình 1.1, biến ẩn y∗ là trục tung, các giá trị 15, 0 ,-5 phân chia tỷ lệ của y∗ Các điểm cắt τ1, τ2 và τ3 được chỉ ra bởi đường ngang chấm chấm Đường này chia y∗ thành 4 miền giá trị của biến quan sát y, τ0 = −∞ ở

vị trí dưới cùng và τ4 ở trên cùng Đường hồi quy E(y∗|x) = α + βx với

α = 1, β = 0.1 được vẽ là đường liền Vì y∗ không quan sát được nên α, β không ước lượng được bằng hồi quy y∗ theo x

Trong Hình 1.2 vẽ biến quan sát y theo x, biến y được xác định từ biến ẩn

y∗ bằng cách gán tất cả các trường hợp mà y∗ lớn hơn τ3 tương ứng với số 4, trường hợp y∗ nằm giữa τ2 và τ3 là số 3 Tương tự cho các trường hợp tiếp theo của y∗ Uớc lượng bình phương tối thiểu (OLS) của hàm hồi quy y theo

x, được chỉ ra bởi đường đứt với ước lượng độ dốc là 0,026

Đường hồi quy y theo x không xấp xỉ đường hồi quy y∗ theo x, vì đường này

có độ dốc lớn hơn 4 lần

Đường hồi quy trong Hình 1.1 và Hình 1.2 trông có vẻ giống nhau bởi vì tỷ

lệ của các trục là khác nhau Nếu trục y trong Hình 1.2 được vẽ với cùng tỷ

lệ như Hình 1.1 thì đường hồi quy y theo x trông như đường ngang Một vấn

đề khác khi hồi quy y theo x là sai số không có phân phối chuẩn và phương sai không thuần nhất Tổng quát, mô hình hồi quy tuyến tính (LRM) chỉ có

Trang 10

cùng kết quả như mô hình hồi quy thứ bậc (ORM) nếu những điểm cắt có khoảng cách như nhau Khi khoảng cách giữa các điểm này khác nhau thì kết quả của mô hình hồi quy tuyến tính (LRM) có thể đưa tới những kết quả sai lầm

Hình 1.1 còn chỉ ra một tính chất quan trọng của mô hình ORM Trong hình này, bạn có thể thêm hoặc bỏ đi những điểm cắt mà không làm thay đổi cấu trúc mô hình Tưởng tượng rằng, ta vẽ một đường ngang giữa τ1 và τ2 Điều này tương ứng thêm một tính trạng khác như “ không ý kiến” giữa “ khác biệt ” và “ giống nhau” Đường hồi quy của y∗ theo x sẽ không bị ảnh hưởng Trong Hình 1.2, nếu ta thêm một tính trạng mới sẽ tương ứng thêm một đường ngang mới của biến quan sát y, điều này ảnh hưởng tới kết quả của hồi quy y theo x

Để dùng được phương pháp ước lượng hợp lí cực đại, ta phải giả thiết về phân phối của sai số Ta xét hai phân phối là phân phối chuẩn và phân phối logistic tương ứng với mô hình probit thứ bậc và logit thứ bậc Đối với mô hình probit thứ bậc, sai số ε được giả thiết có phân phối chuẩn với trung bình 0 và phương sai 1 (phân phối chuẩn tắc) Hàm mật độ của phân phối

đó là

φ(ε) = √1

2πexp(−

ε2

2 ) Với hàm phân phối tích lũy

Φ(ε) =

Z ε

−∞

1

√ 2πexp(−

t2

Với mô hình logit thứ bậc, sai số ε được giả sử có phân phối logit với trung bình 0 và phương sai π2/3 Hàm mật độ của nó là

λ(ε) = exp(ε)

[1 + exp(ε)]2

Với hàm phân phối tích lũy

Λ(ε) = exp(ε)

Để đơn giản kí hiệu trong chương này, ta dùng hàm F thay thế cho các hàm phân phối Φ hoặc Λ và hàm f thay cho các hàm mật độ φ hoặc λ

4

Trang 11

Tài liệu tham khảo

[1] Đào Hữu Hồ,Xác suất –Thống kê, NXB Đại học Quốc Gia Hà Nội [2] Đào Hữu Hồ, Nguyễn văn Hữu, Nguyễn Hữu Như, Thống kê toán học, NXB Đại học Quốc gia Hà Nội

[3] Nguyễn Văn Hữu, Nguyễn Hữu Dư,Phân tích thống kê và dự báo, NXB Đại học Quốc gia Hà Nội

[4] Nguyễn Duy Tiến, Đặng Hùng Thắng,Các mô hình xác suất và ứng dụng, NXB Đại học Quốc gia Hà Nội

[5] Đặng Hùng Thắng,Thống kê ứng dụng, NXB Khoa học và kỹ thuật [6] Nguyễn Duy Tiến, Vũ Viết Yên,Lý thuyết Xác suất, NXB Giáo Dục [7] ] J Scott Long,Regression models for Categorical and Limited dependent variables, NXB Cambridge University Press

[8] Alan Agresti,An introduction Categorical data analysis, NXB Newyork, John Wiley

[9] Alan Agresti,Categorical data analysis, NXB Newyork, John Wiley [10] Adrich, Nelson,Linear probability, logit, and probit models

[11] Amemiya, Regression analysis when the dependent variables are trun-cated normal, NXB Springer, New York

[12] Amemiya, Advanced Econometrics, NXB Cambridge, MA: Harvard Uni-versity

[13] Bollen, Structucal equations with latent variables

[14] Breen, Regression models: Censored, sample selected, or truncated data [15] Cramer, Econometric application of maximum likelihood methods

Ngày đăng: 09/09/2016, 23:15

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Hồi quy với biến ẩn y ∗ Hình 1.2: Hồi quy với biến y - Phân tích thống kê chất lượng gỗ và các vấn đề liên quan
Hình 1.1 Hồi quy với biến ẩn y ∗ Hình 1.2: Hồi quy với biến y (Trang 9)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w