Sai sé trong lấy mẫu

Một phần của tài liệu Giáo trình thống kê xã hội học (Trang 83 - 86)

Khi lấy mẫu, do nhiều nguyên nhân khác nhau, sẽ không tránh khỏi những sai số trong các số liệu mẫu. Vì thế, trước khi dùng các phương pháp thống kê để phân tích, xử lý ta

cần loại bổ các sai số không đáng có ở trong mẫu đã cho.

Giả sử x là kết quả quan sát được, a là giá trị chân thực (giá trị đúng) của đại lượng ta quan sát, z là sai số trong lấy

mẫu. Ta có:

Sai số trong lấy mẫu = Kết quả quan sát — Giá trị đúng hay:z=x—a

Nói chung, vì a chưa biết nên sai số z cũng chưa biết.

Để thuận lợi cho việc xử lý ta phân loại các sai số như sau:

a) Sai số thô là sai số sinh ra do phạm vi các điểu kiện cơ bản của việc lấy mẫu hoặc do sơ suất của người thực hiện, chẳng hạn, người kiểm tra cố ý chọn ra các sản phẩm tốt để kiểm tra khi đánh giá chất lượng của lô sản phẩm, hoặc kỹ thuật viên ghi nhầm kết quả thu được... Trong điều tra xã hội học, người điều tra vi phạm quy tắc chọn mẫu. Họ chọn mẫu một cách phiến diện, thiếu sự điều tra, tìm hiểu và phân tích trước khi lấy mẫu.

b) Sai số hệ thống là sai số do không điều chỉnh chính xác dụng cụ hoặc không thống nhất giữa các kỹ thuật viên về cách xác định một đại lượng nào đó... do vậy dẫn đến một loạt kết quả quan sát được bị lệch đi một lượng nào đó. Hoặc trong điều tra xã hội học, các điều tra viên không thống nhất câu hỏi phỏng vấn, không thống nhất các phương án trả lời...

dẫn đến sự sai lệch thông tìn giữa các điều tra viên.

©) Sai số ngẫu nhiên là sai số sinh ra do một số lớn các

82 6. GTPOHH -B,

nguyên nhân mà tác động của chúng nhỏ (it) đến mức không thể tách riêng và tính riêng biệt cho từng nguyên nhân được.

Để hiểu rõ sai số ngẫu nhiên, xét hai ví dụ sau: Một xạ thủ bắn 100 viên đạn vào bia - Xa thủ nhằm tâm để bắn. Với tài nghệ của mình thì phần lớn các viên đạn sẽ trúng vòng điểm 10, nhưng cũng sẽ có một số viên trúng vào vòng điểm 9, điểm 8,... Vẫn khẩu súng, loại đạn ấy, vẫn cùng tài nghệ ấy và xạ thủ cũng vẫn nhắm tâm để bóp cò, thế mà lại có

viên trúng vòng điểm 9, lại có viên trúng vòng điểm 8. Hỏi lý đo tại sao thì xạ thủ không giải thích được. Đó chính là sai số ngẫu nhiên.

Trong các cuộc thi thể thao, văn nghệ mà từng thành viên trong Ban Giám khảo sẽ đánh giá bằng cho điểm, chẳng hạn thi trượt băng nghệ thuật, thi hát,... hay trong việc đánh giá về một người nào đó bằng cách cho điểm. Trong những trường hợp như thế tất nhiên tiêu chuẩn và cách chấm điểm phải rõ ràng, thống nhất, loại trừ các động cơ cá nhân của người chấm điểm, nhưng không ai dám chắc mọi người đều chấm điểm như nhau cho một ứng viên nào đó. Có người cho hơi cao, lại có người cho hơi thấp hơn một chút. Đó là sai số ngẫu nhiên.

Trong 3 loại sai số trên, sai số thô, sai số hệ thống cần phát hiện sớm và khử bỏ ngay, còn sai số ngẫu nhiên không thể khử bỏ được trong mỗi lần lấy mẫu. Do đó từ nay về sau, khi các kết quả quan sát được đưa vào xử lý bằng phương pháp toán học ta sẽ giả thiết rằng chúng chỉ chứa các sai số

ngẫu nhiên.

d) Phân phối của sai số ngẫu nhiên. Thông thường ta lấy luật phân phối chuẩn làm luật phân phối của sai số ngẫu nhiên. Điều đó thường khá phù hợp với thực nghiệm bởi lẽ 83

luật phân phối chuẩn phản ánh tính đối xứng của các sai số ngẫu nhiên: các sai số ngẫu nhiên có dấu hiệu khác nhau thường được gặp gần như nhau. Hơn nữa, luật phân phối chuẩn cén phan ánh tính tập trung của các sai số ngẫu nhiên: sai số ngẫu nhiên có trị số tuyệt đối bé thường gặp hơn các sai số có trị số tuyệt đối lớn.

Vậy Z ~N(0; ứ?)

với œ? là độ chính xác của các lần lấy mẫu.

Ta có (xem chương I hoặc trang 171 Phụ lục D:

P{a << b}= o(2)-o(2)

o ơ

P{|Z| < kứ] =đŒ)— đ(—k)

trong đó: ®(x) là phân phối chuẩn N(O;1).

Với: k= 2 ta cú P{Í2ứ < Z< 2ứ} = 0,95.

k =8 ta cú P([2| > 3ứ) ~ 0,0097

Xác suất 0,0027 quá bé, cho nên ta xem như trong thực tế sai số ngẫu nhiên không thể vượt quá giới hạn +3ơ.

Trước khi chuyển sang nội dung chính của chương này, tác giả xin nhắc lại bài toán đầu tiên của chúng ta như sau:

Ta muốn nghiên cứu một đặc trưng xã hội nào đó, ký hiệu là X, cụ thể là muốn tìm câu trả lời về hai đặc trưng quan trọng của X là giá trị trung bình và tỷ lệ, hay nói cách khác là kỳ vọng và xác suất, ta ký hiệu chúng là EX hay p va P(X € A) hay p. Để trả lời, thông tin chúng ta có chỉ là mẫu đại diện, tức là thông tin ta có về biến ngẫu nhiên X vừa không đầy đủ lại còn chứa sai số. Dựa trên lượng thông tin như vậy không thể trông chờ một câu trả lời chính xác như là dựa trên lượng

84

thông tin đẩy đủ, chính xác được. Tuy lượng thông tin còn thiếu và chứa sai số nhưng Thống kê Toán học cũng sẽ cho câu trả lồi về giá trị trung bình thực k và về tý lệ thực p của biến ngẫu nhiên X, và câu trả lời đó sẽ có độ tin cậy cao nhất theo nghĩa là có khả năng đúng cao nhất và khả năng bị sai thấp nhất.

Một phần của tài liệu Giáo trình thống kê xã hội học (Trang 83 - 86)

Tải bản đầy đủ (PDF)

(210 trang)