Đo lường dữ liệu Measures of data Measures of central tendency Đo lường xu hướng trung tâm Hai biện pháp phổ biến nhất của xu hướng trung tâm là trung bình và trung vị. Để tìm số trung vị, chúng ta sắp xếp các quan sát theo thứ tự từ nhỏ nhất đến giá trị lớn nhất. Nếu có một số lẻ của các quan sát, trung vị là giá trị trung bình. Nếu có một số thậm chí một số quan sát, trung vị là trung bình của hai giá trị giữa .. Giá trị trung bình của một mẫu hay một quần thể được tính bằng cách cộng tất cả các quan sát và chia cho số quan sát.
Trang 1Measures of data
Part 1 – section 3
Đo lường dữ liệu
Trang 2Measures of central tendency
• The two most common measures of central tendency are the
median and the mean.
– To find the median, we arrange the observations in order from smallest
to largest value
• If there is an odd number of observations, the median is the middle value.
• If there is an even number of observations, the median is the average of the two middle values.
– The mean of a sample or a population is computed by adding all of the
observations and dividing by the number of observations
Đo lường xu hướng trung tâm
Hai biện pháp phổ biến nhất của xu hướng trung tâm là trung bình và trung vị.
Để tìm số trung vị, chúng ta sắp xếp các quan sát theo thứ tự từ nhỏ nhất đến giá trị lớn nhất.
Nếu có một số lẻ của các quan sát, trung vị là giá trị trung bình.
Nếu có một số thậm chí một số quan sát, trung vị là trung bình của hai giá trị giữa
Trang 3Measures of central tendency
• Example:
Suppose we draw a sample of five women and measure their weights They weigh 50kg,
50kg, 51kg, 52kg, and 55kg.
Find the mean and the median
Đo lường xu hướng tập trung
Giả sử chúng ta lấy ra một mẫu của năm phụ nữ và đo
trọng lượng của họ Họ cân nặng 50kg, 50kg, 51kg,
52kg, và 55kg Tìm giá trị trung bình và trung vị
Trang 4Measures of central tendency
• The median may be a better indicator of the most typical value if
a set of scores has an outlier An outlier is an extreme value that
differs greatly from other values.
• However, when the sample size is large and does not include
outliers, the mean score usually provides a better measure of
central tendency.
Các trung bình có thể là một chỉ số tốt hơn trong những giá trị tiêu biểu nhất nếu một tập hợp các điểm có một điểm dị biệt Một điểm dị biệt là một giá trị xa nhất mà
nó khác hẳn so với các giá trị khác
Tuy nhiên, khi kích thước mẫu là lớn và không bao gồm giá trị dị biệt, điểm trung bình thường cung cấp một biện pháp tốt hơn về xu hướng trung tâm
Trang 5Measures of central tendency
• Suppose we examine a sample of 10 households to estimate the typical family income Nine of the households have incomes
between $20,000 and $100,000; but the tenth household has an annual income of
$1,000,000,000
• What is the potential problem with the mean?
Giả sử chúng ta kiểm tra một mẫu của 10 hộ gia đình để ước tính thu nhập gia đình điển hình Chín trong số các hộ gia đình có thu nhập từ $ 20,000 đến $ 100,000; nhưng các hộ gia đình thứ mười có thu nhập hàng năm của
$ 1000000000
các vấn đề tiềm năng với giá trị trung bình là gì?
Trang 6Measures of central tendency
• If we add a constant to every value, the mean and median increase by the same constant.
• Suppose we multiply every value by a
constant Then, the mean and the median will also be multiplied by that constant.
Nếu chúng ta thêm một hằng số cho mọi giá trị, giá trị trung bình
và trung vị của các hằng số giống nhau
Giả sử chúng ta nhân mỗi giá trị của một hằng số Sau đó, trung
bình và trung vị cũng sẽ được nhân với hằng số
Trang 7Measures of variability
The Range
• The range is the difference between the
largest and smallest values in a set of values.
• For example, for the set of numbers: 1, 3, 4, 5,
5, 6, 7, 11
The range would be: …………
Khoảng biến thiên là sự khác biệt giữa các giá trị lớn nhất và nhỏ nhất
trong một tập các giá trị
Ví dụ, đối với các tập số: 1, 3, 4, 5, 5, 6, 7, 11, Khoảng biến thiên sẽ là:
Đo lường của biến
Trang 8Measures of variability
The Variance
•
N
μ is the mean, Xi is the ith element, and N is the number of elements
• The variance of a sample, is defined by slightly different formula, and uses a slightly different notation:
xi
2
x x
In a population, variance is the average squared deviation from the
population mean, as defined by :
Trong quần thể, phương sai là độ lệch bình phương trung bình của trung bình quần thể, xác định bởi:
μ là trung bình, Xi là yếu tố thứ i, và N là số nguyên tố
Phương sai của một mẫu, được xác định bởi công thức hơi khác nhau, và sử dụng một ký hiệu hơi khác nhau:
Trang 9Measures of variability
The Standard Deviation
• The standard deviation is the square root of the variance.
……….
• And ………
N
xi
2
1
2 2
n
x
x s
Độ lệch chuẩn là căn bậc hai của phương sai
Độ lệch chuẩn
Trang 10Effect of Changing Unit
• If you add a constant to every value,
the distance between values does
not change.
• As a result, all of the above
measures of variability remain
the same.
Nếu bạn thêm một hằng số cho mọi giá
trị, khoảng cách giữa các giá trị không
thay đổi
Kết quả là, tất cả các biện pháp trên
của biến vẫn như cũ
Trang 11Effect of Changing Unit
• Suppose you multiply every value by a
constant This has the effect of
multiplying the range and standard
deviation by that constant.
• Except for the variance So what is the
effect on the variance?
Giả sử bạn nhân mỗi giá trị của một hằng
số Điều này có tác dụng của phép nhân
khoảng biến thiên và độ lệch chuẩn bằng
hằng số đó
Ngoại trừ các phương sai Vì vậy, ảnh
hưởng trên các phương sai là gì?
Trang 12Effect of Changing Unit
• Get back to previous slide
• The effect on the variance is
Lấy lại slide trước
Ảnh hưởng trên phương sai là
Độ lệch
Ảnh hưởng của thay đổi đơn vị
Trang 13• Assume that the elements in a data set are rank ordered from the smallest to the largest The values that divide a rank-ordered set of elements into 100 equal parts are called percentiles
• An element having a percentile rank of Pi
would have a greater value than i percent of all the elements in the set
Giả sử rằng các yếu tố trong một tập hợp dữ liệu được đặt hàng thứ tự từ nhỏ nhất đến lớn nhất Các giá trị phân chia một tập thứ tự đặt hàng của các yếu tố thành 100 phần bằng nhau được gọi là Bách phân vị
Một yếu tố có một thứ hạng bách phân vị của Pi sẽ có một giá trị lớn
Bách phân vị
Trang 14• Thus, how is the observation at the 50th percentile?
Vì vậy, làm thế nào là sự quan sát ở bách phân vị thứ 50?
Trang 15• Quartiles divide a rank-ordered data set into four equal parts.
• The values that divide each part are called the first, second, and
third quartiles; and they are denoted by Q1, Q2, and Q3, respectively.
Tứ phân vị phân chia một dữ liệu thiết lập thứ hạng thành bốn phần bằng nhau
Các giá trị đó chia mỗi phần được gọi là tứ phân vị đầu tiên, thứ hai và thứ ba; và họ được biểu hiện bằng Q1, Q2, và Q3 , tương ứng
Tứ phân vị
Trang 16• What are the relationships between quartiles and percentiles?
các mối quan hệ giữa các tứ phân vị và Bách phân vị là gì?
Trang 17The Interquartile Range (IQR)
• The interquartile range (IQR) is equal to Q3 minus Q1
• Example: consider the following numbers: 1, 3, 4, 5, 5, 6, 7, 11
What are the quartiles and IQR?
1
Q IQR
Các khoảng tứ phân vị (IQR) bằng Q3 trừ Q1
Ví dụ: xem xét các con số sau: 1, 3, 4, 5, 5, 6, 7, 11 các tứ phân vị và
IQR là gì?
Các khoảng tứ phân vị (IQR)