1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Kiểu dữ liệu Pattern of data

27 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Pattern of Data
Người hướng dẫn Le Hoai Long (Ph.D.)
Trường học Ho Chi Minh City University of Technology
Chuyên ngành Statistics
Thể loại lecture notes
Thành phố Ho Chi Minh City
Định dạng
Số trang 27
Dung lượng 1,05 MB
File đính kèm Pattern of data(P1-S4).rar (1 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Kiểu dữ liệu Pattern of data The center of a distribution is located at the median of the distribution. • This is the point where about half of the observations are on either side. Các phân phối trung tâm nằm tại trung vị của phân phối. Đây là điểm mà khoảng một nửa số quan sát được hai bên

Trang 1

Pattern of data

Part 1 – section 4

Kiểu dữ liệu

Trang 2

The center of a distribution is located at the

median of the distribution.

• This is the point where about half of the

observations are on either side.

Các phân phối trung tâm nằm tại trung vị của phân

phối.

Đây là điểm mà khoảng một nửa số quan sát được hai

bên.

Trang 3

• The spread of a distribution refers to the

variability of the data.

• If the observations cover a wide range, the

spread is larger If the observations are

clustered around a single value, the spread is smaller

Sự dàn trải của một phân phối đề cập đến sự thay đổi của dữ liệu.

Nếu quan sát bao quát một phạm vi rộng, sự dàn trải lớn Nếu quan sát được nhóm quanh một giá trị duy nhất, sự dàn trải nhỏ

Trang 4

• The shape of a distribution is described by the following

characteristics.

Symmetry

Number of peaks Distributions can have few or many peaks.

• Distributions with one clear peak are called unimodal,

• and distributions with two clear peaks are called bimodal.

Hình dạng của một phân phối được mô tả bởi các đặc điểm sau đây tính đối xứng

Số của đỉnh Phân phối có thể có ít hoặc nhiều đỉnh.

Phân phối với một đỉnh rõ ràng được gọi là unimodal

và phân phối với hai đỉnh rõ ràng được gọi là bimodal.

Trang 5

• And by the following characteristics.

Skewness Distributions with most of their observations on the left

(toward lower values) are said to be skewed right; and so on.

Uniform When the observations in a set of data are equally spread

across the range of the distribution, the distribution is called a

uniform distribution.

Và bởi các đặc điểm sau đây.

Độ lệch Phân phối với hầu hết các quan sát của nó ở bên trái (hướng

về giá trị thấp hơn) được cho là lệch phải; và như vậy.

Đồng nhất Khi quan sát trong một bộ dữ liệu được dàn trải đồng đều trên phạm vi của phân phối, phân phối được gọi là một phân

bố đều.

Trang 6

Shape

Trang 7

Gap and outlier

Gaps: areas of a

distribution where there

are no observations.

Outliers: distributions are

characterized by extreme values

that differ greatly from the other

observations.

Những khoảng trống: khu

vực của một phân phối mà

không có quan sát.

Điểm dị biệt: phân phối được

đặc trưng bởi giá trị xa nhất có

sự khác biệt lớn từ các quan sát

khác.

Khỏang trống và điểm dị biệt

Trang 8

Chart and graph

Dotplot

• A dotplot is made up of dots plotted on a graph.

– Each dot can represent a single observation or a specified

number of observations.

– The dots are stacked in a column over a category

– If the categories are quantitative, the pattern of data in a dotplot can

be described in terms of symmetry and skewness

• Dotplots are used most often to plot frequency counts within a small

number of categories, usually with small sets of data.

Biểu đồ và đồ thị

Đồ thị điểm

Một Đồ thị điểm được tạo thành từ các chấm vẽ trên một đồ thị.

Mỗi dấu chấm có thể đại diện cho một quan sát đơn lẻ hoặc một số xác định của các quan sát.

Các dấu chấm được xếp chồng lên nhau trong một cột trên một danh mục

Nếu loại là định lượng, mô hình dữ liệu trong một dotplot có thể được mô tả dưới dạng đối xứng và độ lệch

Dotplots được sử dụng thường xuyên nhất để đếm tần suất dự kiến trong

một số lượng nhỏ các loại, thường là với bộ dữ liệu nhỏ.

Trang 10

Chart and graph

Bar Charts

• A bar chart is made up of columns plotted on a graph.

– The columns are positioned over a label that represents

a categorical variable.

– The height of the column indicates the size of the group

defined by the column label.

Biểu đồ dạng thanh Biểu đồ thanh được tạo thành từ các cột được vẽ trên đồ thị.

Các cột được xác định trên một nhãn đại diện cho một biến phân loại.

Chiều cao của cột chỉ ra kích thước của nhóm được xác định bởi các nhãn cột.

Trang 11

Chart and graph

– The column label can be a single value or a range of values.

– The height of the column indicates the size of the group defined

by the column label.

Biểu đồ tần suất

Cũng giống như một biểu đồ thanh, biểu đồ được tạo thành cột vẽ trên một

đồ thị Thông thường, không có không gian giữa các cột liền kề.

Các cột được xác định trên một nhãn đại diện cho một biến định lượng

Các nhãn cột có thể là một giá trị duy nhất hoặc một loạt các giá trị

Chiều cao của cột chỉ ra kích thước của nhóm được xác định bởi các nhãn cột

Trang 12

Bar chart and histogram

• In SPSS: Graphs => Legacy dialogs => Bar

(Histogram)

Trang 13

Chart and graph

Difference Between Bar Charts and Histograms

• With bar charts, each column represents a group defined by a

categorical variable; and with histograms, each column

represents a group defined by a quantitative variable.

• It is always appropriate to talk about the skewness of a

histogram And how about bar charts?

Với biểu đồ cột, mỗi cột đại diện cho một nhóm được xác định bởi một biến phân loại;

và với biểu đồ, mỗi cột đại diện cho một nhóm được xác định bởi một biến định lượng

Nó luôn luôn thích hợp để nói về độ lệch của một biểu đồ Và biểu đồ

cột là thế nào?

Trang 14

Chart and graph

Stemplots

• A stemplot is used to display quantitative data, generally

from small data sets (50 or fewer observations).

• The entries on the left are called stems; and the entries on the

right are called leaves

• Stemplots usually do not include explicit labels for the

stems and leaves

Một stemplot được sử dụng để hiển thị dữ liệu định lượng,

thông thường từ các tập dữ liệu nhỏ (50 hoặc ít quan sát hơn)

Các mục bên trái được gọi là cành; và các mục bên phải được gọi là lá

Stemplots thường không bao gồm nhãn rõ ràng cho các cành và lá

Biểu đồ cành

Trang 15

Stemplot (Stem and leaf)

Trang 16

Chart and graph

Boxplot Basics

• A boxplot splits the data set into quartiles The body of the boxplot

consists of a "box” which goes from the first quartile (Q1) to the third

quartile (Q3).

• Within the box, a vertical line is drawn at the Q2, the median of the data set.

Two horizontal lines, called whiskers, extend from the front and back of the box The front whisker goes from Q1 to the smallest non-outlier in the data set, and the back whisker goes from Q3 to the largest non-outlier

• If the data set includes one or more outliers, they are plotted separately

as points on the chart

Một boxplot chia tách các tập dữ liệu thành tứ phân vị Thân của boxplot bao gồm một "hộp"

mà đi từ tứ phân vị đầu tiên (Q1) vào tứ phân vị thứ ba (Q3).

Nền tảng biểu đồ hộp

Trong hộp, một đường thẳng đứng được vẽ tại Q2, số trung vị của tập dữ liệu

Hai đường ngang, gọi là râu, kéo dài từ phía trước và phía sau của hộp Các ria phía

trước đi từ Q1 đến các điểm không dị biệt nhỏ nhất trong tập hợp dữ liệu, và râu ria lại

đi từ Q3 đến điểm không dị biệt lớn nhất

Nếu các tập hợp dữ liệu bao gồm một hoặc nhiều giá trị dị biệt, chúng được vẽ riêng biệt như là các điểm trên bảng xếp hạng

Trang 17

• In SPSS: Graphs => Legacy dialogs => Boxplot

Trang 18

Chart and graph

Scatterplot

• A scatterplot is a graphic tool used to display the relationship

between two quantitative variables

• A scatterplot consists of an X axis (the horizontal axis), a Y axis (the vertical axis), and a series of dots.

• Each dot on the scatterplot represents one observation from a

data set

Biểu đồ phân tán

Một biểu đồ phân tán là một công cụ đồ họa được sử dụng để hiển thị các mối quan

hệ giữa hai biến định lượng

Một đồ thị phân tán bao gồm một trục X (trục hoành), một trục Y (trục dọc), và một loạt các dấu chấm

Mỗi dấu chấm trên phân tán đại diện cho một quan sát từ một tập dữ liệu

Trang 19

Chart and graph

Scatterplot

• Scatterplots are used to analyze patterns in bivariate data.

• These patterns are described in terms of linearity, slope, and

strength.

Những mô hình được mô tả theo tuyến tính, độ dốc, và độ mạnh

Đồ thi phân tán được sử dụng để phân tích các mẫu trong dữ liệu hai biến

Trang 20

Scatter plot

Trang 21

đặc điểm bất thường.

Dàn trải

Hình dáng

Trọng tâm

Trang 23

• A one-way table is the tabular equivalent of a bar chart Like a bar chart,

a one-way table displays categorical data in the form of frequency

counts and/or relative frequencies.

Frequency Tables: a one-way table shows frequency counts for a

particular category of a categorical variable

Relative Frequency Tables: a one-way table shows relative

frequencies for particular categories of a categorical variable

Một bảng một chiều là tương đương với bảng một loại biểu đồ Giống như

một biểu đồ thanh, bảng một chiều hiển thị dữ liệu phân loại theo hình thức

đếm tần số và / hoặc tần số tương đối

Bảng tần số : bảng một chiều cho thấy số lượng tần suất cho một

thể loại đặc biệt của một biến phân loại

Bảng tần suất liên quan: bảng một chiều cho thấy tần suất tương

đối cho các hạng mục cụ thể của một biến phân loại

Trang 24

Một bảng hai chiều (còn gọi là một bảng dự phòng) là một công cụ hữu ích để

kiểm tra mối quan hệ giữa các biến phân loại Các mục trong các ô của một bảng hai chiều có thể được đếm tần suất hoặc tần số tương đối giống như một bảng

một chiều

Trang 25

Table

Trang 26

Be careful, Simpson’s paradox

Simpson's paradox (or the Yule-Simpson effect) is a paradox in

which a correlation present in different groups is reversed when the groups are combined.

• It occurs when frequency data are hastily given causal

interpretations.

• Simpson's Paradox disappears when causal relations are

brought into consideration

(Wikipedia)

Hãy cẩn thận, nghịch lý của Simpson

Nghịch lý Simpson (hoặc hiệu quả Yule-Simpson) là một nghịch lý trong đó

một tương quan hiện diện trong các nhóm khác nhau được đảo ngược khi

những nhóm được kết hợp

Nó xảy ra khi tần số dữ liệu được vội vã đưa ra cách giải thích nhân quả

Nghịch lý Simpson biến mất khi các mối quan hệ nhân quả được đưa vào xem xét

Trang 27

Be careful, Simpson’s paradox

• Consider the situation of two contractors in the table below (Good quality/ number of contracts)

• Who is better? (Long N.D 2010) Ai hơn

81%

84%

62.5%

47/58 42/50

5/8 Contractor B

70.7%

86.7%

66.6%

53/75 13/15

40/60 Contractor A

Total Industrial

Civil

Type of contractHãy xem xét tình hình của hai nhà thầu trong bảng dưới đây (chất lượng tốt /

số lượng hợp đồng)

Ngày đăng: 27/07/2023, 13:02

🧩 Sản phẩm bạn có thể quan tâm

w