1. Trang chủ
  2. » Thể loại khác

Mô tả mối quan hệ giữa hai biến định lượng: Tương quan

4 89 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 4
Dung lượng 42,5 KB
File đính kèm CHUONG9.rar (11 KB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thông thường khi tóm tắt một bộ số liệu, chúng ta cần mô tả một số đo tập trung chẳng hạn như trung bình và một số đo sự biến thiên, nghĩa là số đo đo lường sự khác biệt giữa các cá thể

Trang 1

CHƯƠNG 9: MÔ TẢ MỐI

QUAN HỆ: TƯƠNG QUAN

9.1 TIẾP CẬN BẰNG TRỰC QUAN

9.2 BIỂU ĐỒ PHÂN TÁN (SCATTERPLOTS)

9.3 HỆ SỐ TƯƠNG QUAN CỦA BIẾN ĐỊNH LƯỢNG: r

9.4 DIỄN GIẢI r

9.5 DIỄN GIẢI r 2

9.6 TƯƠNG QUAN NHƯNG KHÔNG TÁC ĐỘNG-NGUYÊN NHÂN THIẾT YẾU

CHI TIẾT

9.7 CÔNG THỨC TÍNH zSCORE cho r

9.8 CÔNG THỨC TÍNH r

9.9 SỐ NGOẠI LAI

9.10 CÁC LOẠI HỆ SỐ TƯƠNG QUAN KHÁC

9.11 SỬ DỤNG MÁY TÍNH

Tóm tắt/thuật ngữ quan trọng/bài tập ôn

Tổng quan

Sau khi trình bày về cách mô tả phân phối tần suất của một biến, chúng ta sẽ bàn tiếp về việc mô tả mối quan hệ giữa hai biến trong ba chương tiếp theo Để có thể mô tả mối quan hệ này tập tin số liệu phải có hai biến ví dụ như biến điểm thi SAT và IQ cho từng sinh viên trong một lớp học Hai biến này được gọi là có liên quan khi từng cặp số liệu của hai biến có thể được dự đoán bằng cách biểu diễn trên đồ thị phân tán và thông qua việc tính hệ số tương quan

Trang 2

Hãy tưởng tượng bạn đang sống trong một thế giới trong đó tất cả mọi người đều là bản sao của nhau, hay nói cách khác giữa người và người không có sự khác biệt; khi đó thống

kê sẽ không tồn tại trên thế giới này Khi đó, chúng ta không cần sử dụng bất cứ kỹ thuật thống kê nào trong các chương trước đây kể cả các kỹ thuật trong chương này để mô tả một nhóm người vì chỉ cần mô tả một trong số đó là chúng ta đã hình dung được toàn bộ nhóm người này Tuy nhiên, trên thực tế thống kê đang tồn tại và tiếp tục phát triển vì mọi người đều khác biệt nhau và rất hiếm trường hợp có hai người giống hệt nhau cùng tồn tại

Thông thường khi tóm tắt một bộ số liệu, chúng ta cần mô tả một số đo tập trung chẳng hạn như trung bình và một số đo sự biến thiên, nghĩa là số đo đo lường sự khác biệt giữa các cá thể quan sát trong phân phối Chương này sẽ trình bày một số số đo phân tán như khoảng, khoảng trung tứ vị, phương sai và đặc biệt là độ lệch chuẩn

SỐ ĐO LƯỜNG PHÂN TÁN CỦA BIẾN ĐỊNH LƯỢNG

5.1 TIẾP CẬN THEO CÁCH TRỰC QUAN

Chúng ta có thể tiếp cận khái niệm phân tán một cách trực quan Nhìn vào hình 5.1 chúng

ta có ba phân phối có cùng 7 quan sát, cùng giá trị trung bình (giá trị 10) nhưng có độ phân tán khác nhau (đừng quan tâm đến các giá trị trong các ô vuông được tô đen, chúng

sẽ được trình bày sau) Trước khi đọc tiếp, chúng ta hãy xếp thứ từ thấp đến cao về mức phân tán của các phân phối trên Một cách trực quan chúng ta thấy phân phối A ít phân tán nhất, sau đó đến phân phối B và cuối cùng là phân phối C phân tán nhiều nhất

Nếu chưa chắc chắn, chúng ta có thể nhìn tiếp vào các giá trị quan sát trong từng phân phối Chúng ta sẽ nhận thấy, phân phối A, phân phối phân tán ít nhất, tất cả 7 quan sát đều có giá trị 10; phân phối B, hơi phân tán khi có một giá trị 9 và một giá trị 11 phân phối C, phân tán nhiều nhất có một giá trị 8, hai giá trị 9, hai giá trị 11 và một giá trị 12

5.2 KHOẢNG

Một con số phân tán chính xác không những giúp tóm tắt số liệu mà còn dùng trong

thống kê định lượng về sau Một trong các số đo phân tán là khoảng Khoảng chính là

hiệu số của giá trị lớn nhất và giá trị nhỏ nhất Trong hình 5.1, phân phối ít phân tán nhất

(phân phối A) có khoảng bằng 0 (từ 10 đến 10); phân phối hơi phân tán (phân phối B) có khoảng là 2 (từ 11 đến 9); và phân phối phân tán nhiều nhất (phân tán C) có khoảng là 4 (từ 12 đến 8) Điều này phù hợp với nhận xét trực quan ban đầu của chúng ta Khoảng là một số đo phân tán có ích, dễ tính toán và dễ hiểu

Một số điểm yếu của khoảng

Khoảng có một số điểm yếu Đầu tiên, giá trị của khoảng chỉ phụ thuộc vào 2 quan sát-giá trị lớn nhất và giá trị nhỏ nhất, do đó sẽ không thể khai thác được các thông tin từ các quan sát còn lại Thứ hai Giá trị của khoảng có xu hướng gia tăng nếu tổng số quan sát gia tăng Thực vậy, nếu chúng ta quan sát chiều cao của 6 người, thì giá trị

Trang 3

khoảng có thể từ 6-8 inch Nhưng nếu chúng ta quan sát 60 người thì giá trị này có thể từ 14-16 inch Các bộ số liệu lớn thường chứa những giá trị cực nhỏ hoặc cực lớn; điều này làm ảnh hưởng đến giá trị của khoảng Như vậy, ta thấy khoảng là số đo chịu tác động của kích cỡ quan sát

5.3 PHƯƠNG SAI

Mặc dù khoảng và số đo phụ quan trọng của khoảng là khoảng trung tứ vị (mô tả chi tiết trong mục 5.11) chiếm vị trí quan trọng trong việc mô tả tính biến thiên, nhưng lại ít được các nhà thống kê sử dụng Số đo được sử dụng nhiều nhất chính là phương sai và căn bậc hai của phương sai là độ lệch chuẩn bởi vì chúng được xem như là các số đo chính trong các phép toán thống kê phức tạp Do đó tầm quan trọng của phương sai và độ lệch chuẩn trong đo lường tính biến thiên tương tự như trung bình dùng để đo lường độ tập trung

Nếu sử dụng công thức tính được trình bày trong phần sau chúng ta sẽ tính được giá trị phương sai cho các phân phối trong hình 5.1 Khi đó, hình A, có sai lệch ít nhất, có phương sai là 0.00; hình B có phương sai là 1.71 và hình C, sai lệch nhiều nhất, có phương sai là 1.71 Các giá trị này phù hợp với nhận định bằng trực quan ban đầu của chúng ta

Xây dựng cách tính phương sai

Để hiểu rõ hơn về phương sai, chúng ta hãy xây dựng lại cách tính phương sai Mặc dù là số đo tính biến thiên, nhưng có thể coi phương sai như là trung bình, nghĩa là điểm giữa của phân phối Đối với trung bình , cách tính là lấy giá trị các quan sát cộng lại

và chia cho tổng số quan sát Còn đối với phương sai, các giá trị gốc của quan sát sẽ được biểu diễn dưới dạng hiệu số giữa giá trị quan sát và trung bình của phân phối Đối với từng phân phối trong hình 5.1, các giá trị quan sát (được biểu diễn trên trục hoành) sẽ được thay thế bằng hiệu số của giá trị quan sát và trung bình là 10, sau đó các giá trị này được tượng trưng bằng các giá trị trong các ô vuông được tô đen trong phân phối Ví dụ

cụ thể, trong phân phối C, có một giá trị trùng với giá trị trung bình là 10, bốn giá trị lệch một đơn vị so với trung bình ( hai giá trị 9 và hai giá trị 11); và hai giá trị (một giá trị 8 và một giá trị 12) lệch hai đơn vị so với trung bình Các giá trị này sẽ tạo thành tập hợp các giá trị lệch chuẩn so với trung bình bao gồm: một giá trị 0, hai giá trị 1, một giá trị -2, và một giá trị 2

Trung bình các sai lệch không có ý nghĩa

Nếu ta tính trung bình các sai lệch, thì trung bình này không có ý nghĩa bởi vì tổng các sai lệch luôn bằng 0 Hay nói cách khác, tổng các sai lệch âm và sai lệch dương luôn bằng nhau và cộng lại bằng 0, cho dù các giá trị của phân phối có biến thiên như thế nào

Trung bình bình phương sai lệch

Trước khi tính phương sai tất cả các dấu âm của các giá trị sai lệch đều phải được triệt tiêu Muốn vậy, chúng ta phải bình phương các sai lệch, rồi sau đó mới cộng các bình

phương sai lệch này và chia cho tổng các sai lệch ta được trung bình tổng bình phương

sai lệch, hay còn gọi là phương sai

5.4 ĐIỂM HẠN CHẾ CỦA PHƯƠNG SAI

Trong ví dụ về trọng lượng các nam sinh viên lớp thống kê được trình bày trong chương

1, chúng ta thấy trung bình trọng lượng là 169.51 pound trong khi phương sai tính được

là 533.83 pound bình phương Vấn đề đặt ra là tại sao phương sai lại có đơn vị tính là pound bình phương

Trang 4

Sự cần thiết của độ lệch chuẩn

Để tránh bị nhầm lẫn, chúng ta chỉ cần việc lấy căn bậc hai của phương sai Con số chúng

ta tính được sẽ gọi là độ lệch chuẩn, mô tả tính biến thiên dựa trên các giá trị gốc đo lường Lấy ví dụ, độ lệch chuẩn của phân phối trọng lượng sẽ bằng căn bậc hai của 533.83 và sẽ bằng 23.10 pound

Phương sai đóng một vai trò đặc biệt trong thống kế cao cấp, được trình bày trong các chương 11, 23, 25 và 26 của cuốn sách này Tuy nhiên ở đây phương sai chỉ mang tính chất là bước đệm để tính một số đo thông dụng hơn là độ lệch chuẩn

5.5 DIỄN GIẢI ĐỘ LỆCH CHUẨN

Chúng ta có thể xem độ lệch chuẩn chính là trung bình cộng các giá trị quan sát

lệch về hai phía so với trung bình.

Đối với phân phối C trong hình 5.1, căn bậc hai của phương sai 1.71 sẽ có độ lệch chuẩn

là 1.31 Như vậy, độ lệch chuẩn 1.31 chính là trung bình cộng của bảy quan sát của phân phối C (8, 9, 9, 10, 11, 11, 12) lệch về hai phía trung bình là 10 hay nói cách khác, độ lệch chuẩn 1.31 chính là trung bình cộng đối với 7 sai lệch trong phân phối C, bao gồm một sai lệch 0, bốn sai lệch 1, và 2 sai lệch 2

Độ lệch chuẩn luôn sai lệch so với trung bình cộng thật sự

Khi tính toán, độ lệch chuẩn luôn lớn hơn từ 10 đến 20% so với trung bình cộng thật sự của các sai lệch (hay còn gọi là trung bình cộng sai lệch tuyệt đối được tính bằng cách lấy các sai lệch đã loại bỏ dấu cộng lại) Tuy nhiên, chúng ta luôn sử dụng độ lệch chuẩn để làm số đo trung bình cộng các sai lệch

5.6 MỘT SỐ SUY LUẬN TỪ ĐỘ LỆCH CHUẨN

Phần lớn quan sát nằm trong một độ lệch chuẩn

Đối với hầu hết các phân phối tần suất, phần lớn (thường là 68%) các quan sát nằm

giữa âm một độ lệch chuẩn và dương một độ lệch chuẩn

Suy luận này có thể áp dụng cho 3 phân phối trong hình 5.1 Lấy ví dụ, phân phối C có 7

độ lệch, trong đó đã có 5 độ lệch nằm trong khoảng một độ lệch chuẩn (1.31) về hai phía trung bình Hay nói cách khác, các độ lệch này lệch nhỏ hơn 1.31 dưới hoặc trên trung bình

Ngày đăng: 06/10/2021, 22:29

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w