Introduction to Biostatistics Data Collection Descriptive Statistics Gs, TS LÊ HOÀNG NINH Thống kê mô tả Căn Bản về sinh thống kê Nội dung cần phân biệt • Distinguish between different strategies for[.]
Trang 1Gs, TS LÊ HOÀNG NINHThống kê mô tả
Căn Bản về sinh thống kê
Trang 2Nội dung cần phân biệt
• Distinguish between different strategies
for obtaining a sample from a population
• Understand the measures of central
tendency and variability in your data
2
Trang 3Thống kê mô tả và suy lý
Thống kê mô tả: dùng các con số để tổ chức,
biểu thị một bộ dữ liệu từ một mẫu.
Thống kê suy lý: có một kết luận từ thông tin chưa hoàn chi3ng, nghĩa là tổng quát hóa kết
quả từ một mẫu lên quần thể
Inferential statistics use available information in
a sample to draw inferences about the
population from which the sample was selected
Trang 5Cách lấy mẫu
• Convenience Sampling: select the most
accessible and available subjects in target
population Inexpensive, less time consuming, but sample is nearly always non-representative
of target population
• Random Sampling (Simple): select subjects at
random from the target population Need to
identify all in target population first Provides representative sample frequently
Trang 6Cách lấy mẫu
• Systematic Sampling: Identify all in target
population, and select every xth person as a
subject
• Stratified Sampling: Identify important
sub-groups in your target population Sample from these groups randomly or by convenience
Ensures that important sub-groups are included
in sample May not be representative
• More complex sampling 6
Trang 7Sai lầm do lấy mẫu
• Có sự khác biệt giữa trị số trên mẫu ( số thống kê) và trị số thật trên quần thể ( tham số)
• Xảy ra ở mọi nghiên cứu
• Sampling error approximates 1 / √n
• Note that larger sample sizes also require time and expense to obtain, and that large sample
sizes do not eliminate sampling error
Trang 8Research Process
Research question
Hypothesis Identify research design
Data collection Presentation of data
Data analysis Interpretation of data
8
Trang 9Types of Data Collection
• Surveys/Questionnaires
– Self-report
– Interviewer-administered
– proxy
• Direct medical examination
• Direct measurement (e.g blood draws)
• Administrative records
Trang 10Understanding and Presenting
Data
10
Trang 11Loại dữ liệu
1 Categorical : (e.g., Sex, Marital Status,
income category)
2 Continuous : (e.g., Age, income, weight,
height, time to achieve an outcome)
3 Discrete : (e.g.,Number of Children in a
family)
4 Binary or Dichotomous : (e.g., response to
all Yes or No type of questions)
Trang 12Thang đo dữ liệu
1 Nominal : These data do not represent an amount or
quantity (e.g., Marital Status, Sex)
2 Ordinal : These data represent an ordered series of
relationship (e.g., level of education)
3 Interval : These data is measured on an interval scale
having equal units but an arbitrary zero point (e.g.: Temperature in Fahrenheit)
4 Interval Ratio : Variable such as weight for which we
can compare meaningfully one weight versus another
Trang 13• Đa giác tần số Frequency polygon
• ĐGTS tương đối (Relative Frequency
polygon)
• Bar chart ( biểu đồ thanh)
• Pie chart ( biểu đồ bánh)
Trang 14Bảng tần số
• Là bước đầu giúp xem xét bộ dữ liệu.
• Giúp nhận ra sự phân phối trị số các biến
số
• Giúp nhận ra các ngoại lệ
– Xem xét các ngoại lệ nầy có thể do nhập dữ
liệu có sai sót không
– Điều tra khác xem việc nhập dữ liệu có sai
sót không
14
Trang 15Bảng tần số
Một n.cứu khảo sát số trẻ em trong gia đình
sống tại khu phố A kết quả điều tra 30 gia đình trong khu phố A cho kết quả như sau:
2, 2, 5, 3, 0, 1, 3, 2, 3, 4, 1, 3, 4, 5, 7, 3, 2, 4, 1, 0,
5, 8, 6, 5, 4 , 2, 4, 4, 7, 6
Trình bày bộ dữ liệu nầy bằng bảng tần số?
Trang 1742, 38, 51, 53, 40, 68, 62, 36, 32, 45, 51, 67, 53, 59,
47, 63, 52, 64, 61, 43, 56, 58, 66, 54, 56, 52, 40, 55,
Trang 20Bảng 1 trên bài báo y học
Mô tả dân số nghiên cứu bằng bảng tần số
Tên bảng….
Tên biến số
(đơn vị của biến số)
Tần số (n) %
Số trung bình (SD)
Trang 21Các số đo khuynh hướng trung tâm
Các số đo?
1 Trung bình(Mean)
2 Trung vị (Median)
3 (Mode)
Trang 22Trung bình mẫu
Trung bình số học bằng tổng tất cả các trị số đo được trên mẫu chia cho số khảo sát được
Thí dụ thu nhập hàng tháng của 5 hộ gia đình
( d.vi: ngàn đồng) như sau, 6000, 10,000, 10,000,
14000, 50,000 do vậy số trung bình là: 18 triệu.
X = 6000 + 10000 + 10000 + 14000 + 50000
22
Trang 23Trung vị (Median)
Liệt kê bộ dữ liệu từ trị số thấp nhất cho
tới trị số cao nhất.số trung vị là trị số đứng
giữa dãy trị số của bộ dữ liệu.
Thí dụ thu nhập tại 5 hộ gia đình được liệt
kê như sau ( đơn vị ngàn đồng):
6,000 10,000 10,000 14,000 50,000 Trị số trung vị là 10.000.000 ( 10 triệu )
Trang 25Số đo vị trí không trung tâm
Measures of non-central locations
•Tứ phân vị
•Bách phân vị
Trang 26Các số đo sự phân tán của bộ dữ liệu Measures of Dispersion or Variability
• Biên độ Range (trị số cao nhất và thấp
nhất của bộ dữ liệu Sự sai biệt giữa 2 trị
số nầy là biên độ)
• Phương sai (Variance) ( bình phương của
độ lệch chuẩn)
• Độ lệch chuẩn (Standard deviation) (the
square root of the variance) 26
Trang 27Phương sai của mẫu
Trang 29Mean = 7 SD=0.63
Mean = 7
Trang 31Giả định thời gian phản ứng đối với một loại thuốc nào đó có phân phối bình thường, có trị số trung bình là 10 phút với độ lệch chuẩn là 2 phút Các bạn hãy giải thích ý nghĩa của số
trung bình và độ lệch chuẩn trong thí dụ nầy.
a) 68% …
b) 95% ….
c) 99.7% …