Số lượng người chết vì các bệnh liên quan đến tim mạch trung bình ởmột bang xấp xỉ trung vị cho thấy mẫu nghiên cứu có phân phối khá cân xứng.. - Một số bang có Số lượng người chết vì cá
Trang 1Bài tập về Thống kê trong kinh doanh
Đề tài:
Để nghiên cứu về tỷ lệ người dân tử vong vì các bệnh liên quan đếntim mạch, một nhóm nghiên cứu tại 1 trường Đại học của Mỹ đã thu thập số liệu tại các Bang trên toàn nước Mỹ về số người tử vong và một số số liệu về kinh tế xã hội liên quan Bảng số liệu được cho dưới đây:
State Số người
chết Tuổi 65
Thu nhập
Tỷ lệ da màu Vùng
Trang 2- Tuổi 65: Phần trăm dân số từ 65 tuổi trở lên
- Thu nhập: Thu nhập bình quân tính bằng nghìn đô la
- Tỷ lệ da mầu: phần trăm dân số là người da mầu
- Vùng: Các bang được chia thành 2 vùng nghiên cứu là Vùng 1 và Vùng 2
Hãy sử dụng các số liệu trên đây để trả lời các câu hỏi sau:
1 Sử dụng các mô tả thống kê thích hợp để nhận xét về các biến trong số liệu trên
2 Sử dụng đồ thị thích hợp và hệ số tương quan để nhận xét về mối quan hệ giữa sốlượng người chết do các bệnh liên quan đến tim mạch với từng biến còn lại Từ đó
có nhận định nếu thiết lập mô hình hồi quy tuyến tính với biến phụ thuộc là số ngườichết thì biến nào trong số các biến còn lại ở trên có thể ảnh hưởng đến biến phụthuộc (không cần phân biệt vùng)
Trang 33 Hãy ước lượng khoảng tin cậy cho số người chết trung bình cho các bang ở vùng
a Giải thích ý nghĩa của các hệ số hồi quy và hệ số R2
b Dùng kiểm định thích hợp cho biết những biến độc lập nào có ảnh hưởng vàkhông ảnh hưởng đến biến phụ thuộc? Từ đó có thể đưa ra nhận định gì về các yếu
tố có thể tác động đến tỷ lên người chết do các bệnh tim mạch Liệu còn có các yếu
tố nào khác có thể ảnh hưởng đến tỷ lệ người chết này?
c Dùng kiểm định F cho biết liệu mô hình có ý nghĩa hay không? Nếu ý nghĩa củakết quả nhận được
d Hãy dự báo tỷ lệ người chết ở 1 bang có các biến độc lập lần lượt là:
15% từ 65 tuổi trở lên, 25000usd thu nhập trung bình, 4% da màu
Giải thích ý nghĩa kết quả nhận được
Trang 4Qua bảng trên ta thấy:
- Số lượng các bang được nghiên cứu là: 50 bang
- Số lượng người chết vì các bệnh liên quan đến tim mạch ở một bang của Mỹtrung bình là 259 người trong 100.000 dân Số lượng người chết vì các bệnh liên quanđến tim mạch trung vị là 265.100 Như vậy, có 50% số bang được nghiên cứu có Sốlượng người chết vì các bệnh liên quan đến tim mạch thấp hơn 265.1 người và 50% sốbang được nghiên cứu có Số lượng người chết vì các bệnh liên quan đến tim mạch lớnhơn 265.1 người Số lượng người chết vì các bệnh liên quan đến tim mạch trung bình ởmột bang xấp xỉ trung vị cho thấy mẫu nghiên cứu có phân phối khá cân xứng
- Độ lệch chuẩn mẫu là: 56.496 cho thấy độ lệch của phân phối
- Một số bang có Số lượng người chết vì các bệnh liên quan đến tim mạch như nhaunhưng Số lượng người chết vì các bệnh liên quan đến tim mạch phổ biến nhất (có tần sốlớn nhất) là 226 người trong 100.000 dân Số lượng người chết vì các bệnh liên quan đếntim mạch ở một bang thấp nhất là: 90.9 người trong 100.000 dân Số lượng người chết vìcác bệnh liên quan đến tim mạch ở một bang cao nhất là: 377.5 trong 100.000 dân.Khoảng biến thiên thực tế là 286.6
Biểu đồ thể hiện tần suất của Số lượng người chết vì các bệnh liên quan đến tim mạch ở một bang của Mỹ
Từ phần mền Megastat/Frequency Distribution/Quantitative, ta nhập số liệu số ngườichết vào bảng, từ đó ta có bảng số liệu sau:
Trang 5Frequency Distribution - Quantitative
lowe
r
uppe r
midpoin t
widt h
frequenc y
percen t
frequenc y
percen t
Đồ thị phân bố tần số của biến Số người chết khá cân đối, tập trung ở giữa Tuynhiên, độ lệch (Sknewness) của biểu đồ là -0.482 < 0 chỉ ra rằng phân phối có hướnglệch trái
Trang 61.2 Phần trăm dân số từ 65 tuổi trở lên
Từ phần mềm Magastat/Descriptive Statistics Ta nhập số liệu phần dân số từ 65tuổi trở lên, từ đó ta có bảng số liệu như sau :
Qua bảng trên ta thấy:
- Số lượng các bang được nghiên cứu là: 50 bang
- Phần trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ trung bình là 12.538% Phầntrăm dân số từ 65 tuổi trở lên ở một bang của Mỹ trung vị là 12.75% Như vậy, có 50%
số bang được nghiên cứu có Phần trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ thấphơn 12.75% và 50% số bang được nghiên cứu có Phần trăm dân số từ 65 tuổi trở lên ởmột bang của Mỹ lớn hơn 12.75% Phần trăm dân số từ 65 tuổi trở lên ở một bang của
Mỹ ở một bang xấp xỉ trung vị cho thấy mẫu nghiên cứu có phân phối khá cân xứng
- Độ lệch chuẩn mẫu là: 1.905% cho thấy độ lệch của phân phối
- Một số bang có Phần trăm dân số từ 65 tuổi trở lên như nhau nhưng Phần trăm dân
số từ 65 tuổi trở lên ở một bang của Mỹ phổ biến nhất (có tần số lớn nhất) là 12.1% Phầntrăm dân số từ 65 tuổi trở lên ở một bang của Mỹ thấp nhất là: 5.7% Phần trăm dân số từ
Trang 765 tuổi trở lên ở một bang của Mỹ cao nhất là: 17.6% Khoảng biến thiên thực tế là11.9%
Biểu đồ thể hiện tần suất của Phần trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ
Frequency Distribution - Quantitative
lowe
r
uppe r
midpoin t
widt h
frequenc y
percen t
frequenc y
percen t
Kết luận: Dựa vào kết quả điều tra, chính quyền có thể xem xét xây dựng các
chính sách ưu đãi dành cho người già như xây dựng thêm các bệnh viện, viện dưỡng lão
để đảm bảo người già được chăm sóc sức khỏe tốt nhất hoặc xây dựng mức phân bổ cácquỹ phúc lợi dành cho người già tại các bang cho phù hợp với tỷ lệ người già hiện tại …
Trang 8Đồ thị phân bố tần số của biến Phần trăm dân số từ 65 tuổi trở lên khá cân đối, tậptrung ở giữa Tuy nhiên, độ lệch (Sknewness) của biểu đồ là -0.741 < 0 chỉ ra rằng phânphối có hướng lệch trái hơn lệch phải.
1.3 Thu nhập bình quân của người dân tính bằng nghìn USD
Từ phần mền Megastat/Descriptive statistics Sau đó ta nhập dữ liệu thu nhập vào bảng,
từ đó ta có bảng số liệu sau
Descriptive statistics
Thu nhập
Trang 9Qua bảng trên ta thấy:
- Số lượng các bang được nghiên cứu là: 50 bang
- Thu nhập bình quân của người dân ở một bang của Mỹ trung bình là 28.824 nghìnUSD Thu nhập bình quân của người dân ở một bang của Mỹ trung vị là 27.85 nghìnUSD Như vậy, có 50% số bang được nghiên cứu có Thu nhập bình quân của người dânthấp hơn 27.85 nghìn USD và 50% số bang được nghiên cứu có Thu nhập bình quân củangười dân lớn hơn 27.85 nghìn USD Thu nhập bình quân của người dân trung bình ởmột bang xấp xỉ trung vị cho thấy mẫu nghiên cứu có phân phối khá cân xứng
- Độ lệch chuẩn mẫu là: 6.19 cho thấy độ lệch của phân phối
- Thu nhập bình quân của người dân ở mỗi bang của Mỹ là khác nhau (không cógiá trị phổ biến) Thu nhập bình quân của người dân ở một bang thấp nhất là: 20.993nghìn USD Thu nhập bình quân của người dân ở một bang cao nhất là: 59.685 nghìnUSD Khoảng biến thiên thực tế là 38.692 nghìn USD
Biểu đồ thể hiện tần suất của Thu nhập bình quân của người dân ở một bang của Mỹ
Frequency Distribution - Quantitative
Thu nhập
cumulative lowe
r
uppe r
midpoin t
widt h
frequenc y
percen t
frequenc y
percen t
Trang 10Kết luận: Dựa vào kết quả điều tra, chính quyền có thể xem xét áp dụng mức phí
dịch vụ công khác nhau phù hợp với mức thu nhập bình quân tại các bang hoặc đưa rachính sách về viện phí và chi phí khác liên quan tới chữa bệnh phù hợp …
Đồ thị phân bố tần số của biến Thu nhập bình quân có xu hướng tập trung ở giữa.Tuy nhiên có một số vùng có thu nhập cao hơn hẳn các vùng còn lại, mức thu nhập từ56.000 – 60.000 USD
Trang 111.4 Phần trăm dân số là người da màu.
Từ phần mềm Megastat/Descriptive statistics, sau đó ta nhập số liệu tỷ lệ da màuvào bảng, từ đó ta có bảng số liệu như sau :
Qua bảng trên ta thấy:
- Số lượng các bang được nghiên cứu là: 50 bang
- Phần trăm dân số là người da màu ở một bang của Mỹ trung bình là 9.9% Phầntrăm dân số là người da màu ở một bang của Mỹ trung vị là 6.75% Như vậy, có 50% sốbang được nghiên cứu có Phần trăm dân số là người da màu thấp hơn 6.75% và 50% sốbang được nghiên cứu có Phần trăm dân số là người da màu lớn hơn 6.75% Phần trămdân số từ 65 tuổi trở lên ở một bang của Mỹ ở một bang lớn hơn trung vị cho thấy mẫunghiên cứu có phân phối lệch phải
- Độ lệch chuẩn mẫu là: 9.58% cho thấy độ lệch của phân phối
- Một số bang có Phần trăm dân số là người da màu như nhau nhưng Phần trăm dân
số là người da màu phổ biến nhất (có tần số lớn nhất) là 3.5% Phần trăm dân số là người
Trang 12da màu ở một bang của Mỹ thấp nhất là: 0.3% Phần trăm dân số là người da màu ở mộtbang của Mỹ cao nhất là: 36.3% Khoảng biến thiên thực tế là 36%
Biểu đồ thể hiện tần suất của Thu nhập bình quân của người dân ở một bang của Mỹ
Frequency Distribution - Quantitative
lowe
r
uppe r
midpoin t
widt h
frequenc y
percen
t
frequenc y
percen t
Căn cứ vào bảng phân bố tần suất ở trên, ta thấy: Phần trăm dân số là người da màu
ở mỗi bang của Mỹ phổ biến là từ 0 – 20% (chiếm tỷ lệ 86%) Trong đó, các bang cóPhần trăm dân số là người da màu từ 0 – 5% chiếm tỷ lệ cao nhất đạt 42%
Kết luận: Dựa vào kết quả điều tra, chính quyền có thể xem xét áp dụng chính
sách phúc lợi, ưu tiên cho người da màu
Trang 13Đồ thị phân bố tần số của biến Phần trăm dân số là người da màu có dạng phân phối lệchtrái
2 Sử dụng đồ thị và hệ số tương quan để nhận xét mối quan hệ giữa số lượng người chết do các bệnh liên quan đến tim mạch với các biến còn lại:
2.1 Đồ thị mối quan hệ giữa Số lượng người chết do các bệnh liên quan đến tim mạch với Phần trăm dân số từ 65 tuổi trở lên
Từ phần mền Megastat/ Correlation/ Regession/ Scatter Plot Sau đó ta nhập số liệu sốngười chết và phần trăm dân số từ 65 tuổi trở lên vào bảng, ta có bảng số liệu sau
Trang 14Căn cứ vào đồ thị trên, ta thấy: Đồ thị phân tán có dạng tuyến tính Do đó, Giữa Sốlượng người chết do các bệnh liên quan đến tim mạch với Phần trăm dân số từ 65 tuổitrở lên có mối quan hệ tỷ lệ thuận với nhau
2.2 Đồ thị mối quan hệ giữa Số lượng người chết do các bệnh liên quan đến tim mạch với Thu nhập bình quân của người dân
Từ phần mền Megastat/ Correlation/ Regession/ Scatter Plot Sau đó ta nhập sốliệu số người chết và thu nhập vào bảng, ta có bảng số liệu sau
Căn cứ vào đồ thị trên, ta thấy: Đồ thị phân tán không có dạng tuyến tính Do đó,Giữa Số lượng người chết do các bệnh liên quan đến tim mạch với Thu nhập bình quânkhông có mối quan hệ với nhau
1.3 Đồ thị mối quan hệ giữa Số lượng người chết do các bệnh liên quan đến tim mạch với Phần trăm dân số là người da màu
Từ phần mền Megastat/ Correlation/ Regession/ Scatter Plot Sau đó ta nhập sốliệu số người chết và phần trăm dân số là người da màu vào bảng, ta có bảng số liệu sau
Trang 15Căn cứ vào đồ thị trên, ta thấy: Đồ thị phân tán có dạng tuyến tính -> Giữa Số lượngngười chết do các bệnh liên quan đến tim mạch với Tỷ lệ da màu có mối quan hệ vớinhau
Hệ số tương quan giữa các biến
Từ phần mền Megastat/Correlation/Regresion/Correlation Matrix, sau đó ta đưa toàn bộ
dữ liệu số người chết, tuổi 65, thu nhập, tỷ lệ da màu vào bảng, ta có bảng kết quả nhưsau:
Correlation Matrix
Số người
Thu nhập
Tỷ lệ da màu
Căn cứ vào bảng trên ta thấy:
- Tương quan giữa Số người chết và Phần trăm dân số từ 65 tuổi trở lên là 0.788
- Tương quan giữa Số người chết và Thu nhập bình quân là -0.044
- Tương quan giữa Số người chết và Phần trăm dân số là người da màu là 0.312
Trang 16Như vậy, Phần trăm dân số từ 65 tuổi trở lên có ảnh hưởng lớn nhất đến sự thay đổicủa Số lượng người chết vì các bệnh liên quan đến tim mạch, sau đó đến Phần trăm dân
số là người da màu Thu nhập bình quân không ảnh hưởng đến Số lượng người chết vìcác bệnh liên quan đến tim mạch
3 Ước lượng khoảng tin cậy cho Số người chết trung bình cho các bang ở Vùng 1 và Vùng 2
3.1 Số người chết trung bình cho các bang ở Vùng 1
a Mô tả thống kê cơ bản của Số người chết tại các bang ở Vùng 1
Từ phần mền Megastat/Descriptive statistics Sau đó ta nhập số liệu, số ngườichết ở vùng 1 vào bảng, từ đó ta có bảng số liệu như sau:
b Ước lượng Số người chết trung bình cho các bang ở Vùng 1
Từ số liệu ở bảng trên, ta sử dụng Phần mền Megastat/Confidence interval –mean, nhập số liệu vào bảng, ta có bảng số liệu sau:
Confidence interval - mean
95% confidence level257.138 mean
57.981 std dev
2.060 t (df = 25)23.419 half-width
Trang 17280.557 upper confidence limit233.719 lower confidence limit
Căn cứ vào kết quả trên, chúng ta có thể ước lượng được khoảng tin cậy của Số
người chết do các bệnh liên quan đến tim mạch trung bình tại các bang Vùng 1 là nằmtrong khoảng (233.719; 280.557) Nói cách khác, chúng ta có thể ước đoán rằng 95% sốbang ở Vùng 1 có Số người chết do các bệnh liên quan đến tim mạch nằm trong khoảng
từ 233,7 đến 280,6 người trong số 100.000 dân
3.2 Số người chết trung bình cho các bang ở Vùng 2
Làm tương tự như câu trên ta có
a Mô tả thống kê cơ bản của Số người chết tại các bang ở Vùng 2.
b Ước lượng Số người chết trung bình cho các bang ở Vùng 2.
Confidence interval - mean
Trang 18237.266 lower confidence limit
Khoảng tin cậy của Số người chết do các bệnh liên quan đến tim mạch trung bình
tại các bang Vùng 2 là nằm trong khoảng (237.266; 284.576) Nói cách khác, chúng ta
có thể ước đoán rằng 95% số bang ở Vùng 2 có Số người chết do các bệnh liên quanđến tim mạch nằm trong khoảng từ 237,3 đến 284,6 người trong số 100.000 dân
4.1 So sánh Số người chết trung bình cho các bang ở Vùng 1 và Vùng 2
Từ phần mền Megastat/Hypothesis tets/Compare Two Independent Groups Sau
đó ta nhập số liệu số người chết vùng 1 và vùng 2 vào bảng, sau đó ta có bảng số liệusau:
Hypothesis Test: Independent Groups (t-test, pooled variance)
4.2 So sánh Thu nhập bình quân của người dân các bang ở Vùng 1 và Vùng 2
Ta làm tương tự như phần 4.2 ta có kết quả như sau:
Hypothesis Test: Independent Groups (t-test, pooled variance)
Trang 19Thu nhập Group 1 Group 2
5 Ước lượng mô hình hồi quy tuyến tính với biến phụ thuộc là Số người chết và biến độc lập là các biến còn lại
Trang 20error lower upper
Intercept -60.1955 32.6430 -1.844 0716
-125.9025 5.5114Tuổi 65 24.5202 2.0904 11.730 2.01E-
15 20.3124 28.7280Thu nhập -0.3757 0.6430 -0.584 5619 -1.6700 0.9186
Tỷ lệ da
5.1 Giải thích ý nghĩa của các hệ số hồi quy và hệ số R 2
Căn cứ vào bảng trên ta thấy:
Mô hình thu được là:
= -60.2 + 24.5xTuổi 65 – 0.4xThu nhập + 2.3xTỷ lệ da màu
- Ý nghĩa các hệ số hồi quy:
+ 24.5: Nếu thu nhập và tỷ lệ da màu được giữ không đổi, khi phần trăm dân số
từ 65 tuổi trở lên tăng 1% thì cứ trong 100.00 dân, Số người chết vì các bệnh liên quanđến tim mạch tăng thêm 24.5 người
+ (-0.4): Nếu phần trăm dân số từ 65 tuổi trở lên và tỷ lệ da màu được giữkhông đổi, khi thu nhập bình quân tăng 1.000 USD thì cứ trong 100.00 dân, Số ngườichết vì các bệnh liên quan đến tim mạch giảm 0.4 người
+ 2.3: Nếu phần trăm dân số từ 65 tuổi trở lên và thu nhập được giữ không đổi,khi tỷ lệ người da màu tăng 1% thì cứ trong 100.00 dân, Số người chết vì các bệnh liênquan đến tim mạch tăng thêm 2.3 người
- Ý nghĩa của R2 = 0.774: Với 03 biến độc lập là Phần trăm dân số từ 65 tuổi trởlên, Thu nhập bình quân của người dân và Phần trăm dân số là người da màu, mô hìnhgiải thích được 77,4% sự thay đổi của Số lượng người chết do các bệnh liên quan đếntim mạch
5.2 Dùng kiểm định thích hợp cho biết những biến độc lập nào có ảnh hưởng và không ảnh hưởng đến biến phụ thuộc? Từ đó có thể đưa ra nhận định gì về các yếu
Trang 21tố có thể tác động đến tỷ lên người chết do các bệnh tim mạch Liệu còn có các yếu
tố nào khác có thể ảnh hưởng đến tỷ lệ người chết này?
Căn cứ vào bảng tính trên, để kiểm định những biến độc lập nào có ảnh hưởng vàkhông ảnh hưởng đến biến phụ thuộc, ta xây dựng 03 cặp giả thiết sau:
H0: β2 = 0 (Thu nhập bình quân không ảnh hưởng đến Số người chết)
H1: β2 ≠ 0 (Thu nhập bình quân có ảnh hưởng đến Số người chết)
+ Cặp giả thiết 3:
H0: β3 = 0 (Thu nhập bình quân không ảnh hưởng đến Số người chết)
H1: β3 ≠ 0 (Thu nhập bình quân có ảnh hưởng đến Số người chết)
Để kiểm định 3 cặp giả thiết trên, ta quan sát các giá trị P – Value thu được tại bảngtính ban đầu:
+ Với cặp giả thiết 1: P-Value = 2x10-15 < α = 0.05 -> bác bỏ giả thiết H0 ->Phần trăm dân số từ 65 tuổi trở lên có ảnh hưởng đến Số người chết do các bệnh liênquan đến tim mạch
+ Với cặp giả thiết 2: P-Value = 0.56 > α = 0.05 -> chấp nhận giả thiết H0 ->Thu nhập bình quân của người dân không ảnh hưởng đến Số người chết do các bệnh liênquan đến tim mạch
+ Với cặp giả thiết 3: P-Value = 1.86x10-6 < α = 0.05 -> bác bỏ giả thiết H0 ->Phần trăm dân số là người da màu có ảnh hưởng đến Số người chết do các bệnh liênquan đến tim mạch
Kết luận: Với 3 biến độc lập nghiên cứu, chỉ có 2 biến là Phần trăm dân số từ 65 tuổi
trở lên và Phần trăm dân số là người da màu có ảnh hưởng đến Số người chết do cácbệnh liên quan đến tim mạch Như vậy, còn có các yếu tố khác có thể ảnh hưởng đến Số