Kiểu dữ liệu Pattern of data The center of a distribution is located at the median of the distribution. • This is the point where about half of the observations are on either side. Các phân phối trung tâm nằm tại trung vị của phân phối. Đây là điểm mà khoảng một nửa số quan sát được hai bên
Trang 1Pattern of data
Part 1 – section 4
Kiểu dữ liệu
Trang 2• The center of a distribution is located at the
median of the distribution.
• This is the point where about half of the
observations are on either side.
Các phân phối trung tâm nằm tại trung vị của phân
phối.
Đây là điểm mà khoảng một nửa số quan sát được hai
bên.
Trang 3• The spread of a distribution refers to the
variability of the data.
• If the observations cover a wide range, the
spread is larger If the observations are
clustered around a single value, the spread is smaller
Sự dàn trải của một phân phối đề cập đến sự thay đổi của dữ liệu.
Nếu quan sát bao quát một phạm vi rộng, sự dàn trải lớn Nếu quan sát được nhóm quanh một giá trị duy nhất, sự dàn trải nhỏ
Trang 4• The shape of a distribution is described by the following
characteristics.
– Symmetry
– Number of peaks Distributions can have few or many peaks.
• Distributions with one clear peak are called unimodal,
• and distributions with two clear peaks are called bimodal.
Hình dạng của một phân phối được mô tả bởi các đặc điểm sau đây tính đối xứng
Số của đỉnh Phân phối có thể có ít hoặc nhiều đỉnh.
Phân phối với một đỉnh rõ ràng được gọi là unimodal
và phân phối với hai đỉnh rõ ràng được gọi là bimodal.
Trang 5• And by the following characteristics.
– Skewness Distributions with most of their observations on the left
(toward lower values) are said to be skewed right; and so on.
– Uniform When the observations in a set of data are equally spread
across the range of the distribution, the distribution is called a
uniform distribution.
Và bởi các đặc điểm sau đây.
Độ lệch Phân phối với hầu hết các quan sát của nó ở bên trái (hướng
về giá trị thấp hơn) được cho là lệch phải; và như vậy.
Đồng nhất Khi quan sát trong một bộ dữ liệu được dàn trải đồng đều trên phạm vi của phân phối, phân phối được gọi là một phân
bố đều.
Trang 6Shape
Trang 7Gap and outlier
• Gaps: areas of a
distribution where there
are no observations.
• Outliers: distributions are
characterized by extreme values
that differ greatly from the other
observations.
Những khoảng trống: khu
vực của một phân phối mà
không có quan sát.
Điểm dị biệt: phân phối được
đặc trưng bởi giá trị xa nhất có
sự khác biệt lớn từ các quan sát
khác.
Khỏang trống và điểm dị biệt
Trang 8Chart and graph
Dotplot
• A dotplot is made up of dots plotted on a graph.
– Each dot can represent a single observation or a specified
number of observations.
– The dots are stacked in a column over a category
– If the categories are quantitative, the pattern of data in a dotplot can
be described in terms of symmetry and skewness
• Dotplots are used most often to plot frequency counts within a small
number of categories, usually with small sets of data.
Biểu đồ và đồ thị
Đồ thị điểm
Một Đồ thị điểm được tạo thành từ các chấm vẽ trên một đồ thị.
Mỗi dấu chấm có thể đại diện cho một quan sát đơn lẻ hoặc một số xác định của các quan sát.
Các dấu chấm được xếp chồng lên nhau trong một cột trên một danh mục
Nếu loại là định lượng, mô hình dữ liệu trong một dotplot có thể được mô tả dưới dạng đối xứng và độ lệch
Dotplots được sử dụng thường xuyên nhất để đếm tần suất dự kiến trong
một số lượng nhỏ các loại, thường là với bộ dữ liệu nhỏ.
Trang 10Chart and graph
Bar Charts
• A bar chart is made up of columns plotted on a graph.
– The columns are positioned over a label that represents
a categorical variable.
– The height of the column indicates the size of the group
defined by the column label.
Biểu đồ dạng thanh Biểu đồ thanh được tạo thành từ các cột được vẽ trên đồ thị.
Các cột được xác định trên một nhãn đại diện cho một biến phân loại.
Chiều cao của cột chỉ ra kích thước của nhóm được xác định bởi các nhãn cột.
Trang 11Chart and graph
– The column label can be a single value or a range of values.
– The height of the column indicates the size of the group defined
by the column label.
Biểu đồ tần suất
Cũng giống như một biểu đồ thanh, biểu đồ được tạo thành cột vẽ trên một
đồ thị Thông thường, không có không gian giữa các cột liền kề.
Các cột được xác định trên một nhãn đại diện cho một biến định lượng
Các nhãn cột có thể là một giá trị duy nhất hoặc một loạt các giá trị
Chiều cao của cột chỉ ra kích thước của nhóm được xác định bởi các nhãn cột
Trang 12Bar chart and histogram
• In SPSS: Graphs => Legacy dialogs => Bar
(Histogram)
Trang 13Chart and graph
Difference Between Bar Charts and Histograms
• With bar charts, each column represents a group defined by a
categorical variable; and with histograms, each column
represents a group defined by a quantitative variable.
• It is always appropriate to talk about the skewness of a
histogram And how about bar charts?
Với biểu đồ cột, mỗi cột đại diện cho một nhóm được xác định bởi một biến phân loại;
và với biểu đồ, mỗi cột đại diện cho một nhóm được xác định bởi một biến định lượng
Nó luôn luôn thích hợp để nói về độ lệch của một biểu đồ Và biểu đồ
cột là thế nào?
Trang 14Chart and graph
Stemplots
• A stemplot is used to display quantitative data, generally
from small data sets (50 or fewer observations).
• The entries on the left are called stems; and the entries on the
right are called leaves
• Stemplots usually do not include explicit labels for the
stems and leaves
Một stemplot được sử dụng để hiển thị dữ liệu định lượng,
thông thường từ các tập dữ liệu nhỏ (50 hoặc ít quan sát hơn)
Các mục bên trái được gọi là cành; và các mục bên phải được gọi là lá
Stemplots thường không bao gồm nhãn rõ ràng cho các cành và lá
Biểu đồ cành
Trang 15Stemplot (Stem and leaf)
Trang 16Chart and graph
Boxplot Basics
• A boxplot splits the data set into quartiles The body of the boxplot
consists of a "box” which goes from the first quartile (Q1) to the third
quartile (Q3).
• Within the box, a vertical line is drawn at the Q2, the median of the data set.
• Two horizontal lines, called whiskers, extend from the front and back of the box The front whisker goes from Q1 to the smallest non-outlier in the data set, and the back whisker goes from Q3 to the largest non-outlier
• If the data set includes one or more outliers, they are plotted separately
as points on the chart
Một boxplot chia tách các tập dữ liệu thành tứ phân vị Thân của boxplot bao gồm một "hộp"
mà đi từ tứ phân vị đầu tiên (Q1) vào tứ phân vị thứ ba (Q3).
Nền tảng biểu đồ hộp
Trong hộp, một đường thẳng đứng được vẽ tại Q2, số trung vị của tập dữ liệu
Hai đường ngang, gọi là râu, kéo dài từ phía trước và phía sau của hộp Các ria phía
trước đi từ Q1 đến các điểm không dị biệt nhỏ nhất trong tập hợp dữ liệu, và râu ria lại
đi từ Q3 đến điểm không dị biệt lớn nhất
Nếu các tập hợp dữ liệu bao gồm một hoặc nhiều giá trị dị biệt, chúng được vẽ riêng biệt như là các điểm trên bảng xếp hạng
Trang 17• In SPSS: Graphs => Legacy dialogs => Boxplot
Trang 18Chart and graph
Scatterplot
• A scatterplot is a graphic tool used to display the relationship
between two quantitative variables
• A scatterplot consists of an X axis (the horizontal axis), a Y axis (the vertical axis), and a series of dots.
• Each dot on the scatterplot represents one observation from a
data set
Biểu đồ phân tán
Một biểu đồ phân tán là một công cụ đồ họa được sử dụng để hiển thị các mối quan
hệ giữa hai biến định lượng
Một đồ thị phân tán bao gồm một trục X (trục hoành), một trục Y (trục dọc), và một loạt các dấu chấm
Mỗi dấu chấm trên phân tán đại diện cho một quan sát từ một tập dữ liệu
Trang 19Chart and graph
Scatterplot
• Scatterplots are used to analyze patterns in bivariate data.
• These patterns are described in terms of linearity, slope, and
strength.
Những mô hình được mô tả theo tuyến tính, độ dốc, và độ mạnh
Đồ thi phân tán được sử dụng để phân tích các mẫu trong dữ liệu hai biến
Trang 20Scatter plot
Trang 21đặc điểm bất thường.
Dàn trải
Hình dáng
Trọng tâm
Trang 23• A one-way table is the tabular equivalent of a bar chart Like a bar chart,
a one-way table displays categorical data in the form of frequency
counts and/or relative frequencies.
– Frequency Tables: a one-way table shows frequency counts for a
particular category of a categorical variable
– Relative Frequency Tables: a one-way table shows relative
frequencies for particular categories of a categorical variable
Một bảng một chiều là tương đương với bảng một loại biểu đồ Giống như
một biểu đồ thanh, bảng một chiều hiển thị dữ liệu phân loại theo hình thức
đếm tần số và / hoặc tần số tương đối
Bảng tần số : bảng một chiều cho thấy số lượng tần suất cho một
thể loại đặc biệt của một biến phân loại
Bảng tần suất liên quan: bảng một chiều cho thấy tần suất tương
đối cho các hạng mục cụ thể của một biến phân loại
Trang 24Một bảng hai chiều (còn gọi là một bảng dự phòng) là một công cụ hữu ích để
kiểm tra mối quan hệ giữa các biến phân loại Các mục trong các ô của một bảng hai chiều có thể được đếm tần suất hoặc tần số tương đối giống như một bảng
một chiều
Trang 25Table
Trang 26Be careful, Simpson’s paradox
• Simpson's paradox (or the Yule-Simpson effect) is a paradox in
which a correlation present in different groups is reversed when the groups are combined.
• It occurs when frequency data are hastily given causal
interpretations.
• Simpson's Paradox disappears when causal relations are
brought into consideration
(Wikipedia)
Hãy cẩn thận, nghịch lý của Simpson
Nghịch lý Simpson (hoặc hiệu quả Yule-Simpson) là một nghịch lý trong đó
một tương quan hiện diện trong các nhóm khác nhau được đảo ngược khi
những nhóm được kết hợp
Nó xảy ra khi tần số dữ liệu được vội vã đưa ra cách giải thích nhân quả
Nghịch lý Simpson biến mất khi các mối quan hệ nhân quả được đưa vào xem xét
Trang 27Be careful, Simpson’s paradox
• Consider the situation of two contractors in the table below (Good quality/ number of contracts)
• Who is better? (Long N.D 2010) Ai hơn
81%
84%
62.5%
47/58 42/50
5/8 Contractor B
70.7%
86.7%
66.6%
53/75 13/15
40/60 Contractor A
Total Industrial
Civil
Type of contractHãy xem xét tình hình của hai nhà thầu trong bảng dưới đây (chất lượng tốt /
số lượng hợp đồng)