Bài 1a. (Chapter 34) Dùng công cụ trực quan hóa dữ liệu (Data Visualization) và Thống kê mô tả (Descriptive Statistics) thực hiện yêu cầu sau: Theo số liệu về kinh tế Việt Nam tại website:http:finance.vietstock.vndulieuvimoDefault.htmVới tập tin dữ liệu:GDP binh quan cua VN1. Sử dụng MS Excel, SPSS và ngôn ngữ R với số liệu về GDP bình quân của VN từ 2010 đến 2016 hãy tính và giải thích ý nghĩa của các giá trị: Count, Min, Max, Mean, Median, Mode, Quantile, Range, Mode, Variance, Standard Deviation, Coefficient of Deviation, Skewness, Kurtosis.2. Dùng chức năng Visualization: Histogram, Box Plot hãy hiển thị các giá trị sauBox Plot: Min, Max, Mean, Median, Mode, Quantile, RangeHistogram: Count, Mode, Variance, Standard Deviation, Coefficient of Deviation, Skewness, Kurtosis.
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
BÁO CÁO LAB 1 Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH
Giảng viên hướng dẫn: TS Nguyễn Đình Thuân
Trang 2Mục lục
I BÀI 1A: GDP BÌNH QUÂN CỦA VN 3
1.Sử dụng MS Excel: 3
1.1 Thống kê mô tả: 3
1.2 Tính toán lại bằng Excel: 6
1.3 Công cụ trực quan hóa dữ liệu (Data Visualization): 7
2 Sử dụng ngôn ngữ R 9
2.1 Thống kê mô tả 9
2.2 Công cụ trực quan hóa dữ liệu (Data Visualization): 11
3 Sử dụng Spss 13
3.1 Thống kê mô tả 13
3.2 Công cụ trực quan hóa dữ liệu (Data Visualization) 16
II BÀI 1B: PURCHASE ORDERS 20
1 Sử dụng R: 20
1.1 Thống kê mô tả (Descriptive Statistics) 20
1.2. Công cụ trực quan hóa dữ liệu (Data Visualization) 22
2 Sử dụng SPSS 24
2.1 Thống kê mô tả (Descriptive Statistics): 24
2.2. Công cụ trực quan hóa dữ liệu (Data Visualization) 30
3 Sử dụng MS Excel: 38
3.1 Thống kê mô tả (Descriptive Statistics): 38
3.2. Công cụ trực quan hóa dữ liệu (Data Visualization) 42
II BÀI 1B: COMPUTER REPAIR TIMES 50
1 Sử dụng R 50
1.1 Thống kê mô tả (Descriptive Statistics) 50
1.2 Công cụ trực quan hóa dữ liệu (Data Visualization) 51
2 Sử dụng SPSS 54
2.1 Thống kê mô tả (Descriptive Statistics) 54
3 Sử dụng Microsoft Excel 63
3.1 Thống kê mô tả (Descriptive Statistics) 63
3.2 Công cụ trực quan hóa dữ liệu (Data Visualization) 67
3.3 Tính toán lại 70
TÀI LIỆU THAM KHẢO 73
BẢNG PHÂN CÔNG 74
Trang 3I BÀI 1A: GDP BÌNH QUÂN CỦA VN
1.Sử dụng MS Excel:
1.1 Thống kê mô tả:
Vào data chọn data analysis sau đó chọn Descriptive Statistics
Nhập vùng dữ liệu
Trang 4Kết quả:
Trang 5- Count : số lượng các giá trị quan sát : Count(data range)
- Min, max dùng để xác định giá trị nhỏ nhất và lớn nhất trong dãy quan sát:
Min(data range) ; Max(data range)
- Mean: giá trị trung bình của tất cả dãy số trong tập hợp: AVERAGE(data range)
- Median: dùng để tính trung vị trung bình Trung bình vị là số nằm giữa một dãy các số hay nói cách khác là số mà một nửa các số trong dãy lớn hơn nó và một nửa các số còn lại trong dãy nhỏ hơn nó MEDIAN(data range)
- Mode: dùng để xác định giá trị xuất hiện nhiều nhất trong dãy quan sát:
MODE.SNGL (data range)
- Quantitle: Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu
Tứ phân vị ở tối thiểu.: QUARTILE.INC(Data range,0)
Tứ phân vị thứ nhất (phân vị thứ 25).: QUARTILE.INC(Data range,1)
Tứ phân vị ở giá trị trung bình (phân vị thứ 50) QUARTILE.INC(Data
range,2)
Tứ phân vị ở giá trị thứ 3 (phân vị thứ 75).: QUARTILE.INC(Data range,3)
Tứ phân vị ở giá trị tối đa: QUARTILE.INC(Data range,4)
- Range: khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát lớn nhất.Range=Max-Min
- Variance: Phương sai, Dùng để đo lường mức độ phân tán của một tập các giá trị quan sát xung quanh giá trị trung bình của tập quan sát đó VAR.S(data range)
- Standard Deviation : Độ lệch chuẩn, Một công cụ khác dùng để đo lường độ phân tán của dữ liệu xung quanh giá trị trung bình của nó STDE.S(data range)
- Coefficient of Deviation: Hệ số biến thiên có được bằng cách chia độ lệch chuẩn cho giá trị trung bình hoặc trung bình
Trang 6- Skewness : dùng để tính độ lệch của một phân bố Độ lệch thể hiện độ không đối xứng của phân bố quanh trục của nó Độ lệch dương cho biết phân bố có phía không đối xứng mở rộng đến nhiều giá trị dương hơn Độ lệch âm cho biết phân
bố có phía không đối xứng mở rộng đến nhiều giá trị âm hơn
SKEW(data range)
- Kurtosis: dùng để tính xác định độ nhọn hay còn gọi là độ lồi
KURT( data range)
1.2 Tính toán lại bằng Excel:
- Variance: Phương sai bằng trung bình các bình phương sai lệch giữa các giá trị quan sát đối với giá trị trung bình của các quan sát đó
n i
i
Trang 71.3 Công cụ trực quan hóa dữ liệu (Data Visualization):
1.3.1 Histogram:
Trang 9- Count : số lượng các giá trị GDP
- Min : Giá trị nhỏ nhất của GDP
- Max: Giá trị lớn nhất của GDP
- Mean : Giá trị trung bình của GDP
- Variance: Phương sai
- Standard Deviation: Độ lệch chuẩn
Trang 10- Range: Độ chênh lệch của giá trị lớn nhất và nhỏ nhất
- Quantile: Tứ phân vị
- Mode : Giá trị xuất hiện nhiều nhất của GDP
- Coefficient of Deviation: Hệ số biến thiên của GDP, bằng Độ lệch chuẩn (sd)chia Giá trị Trung bình(mean)
- Skewness: Độ xiên của GDP
- Kurtosis: Độ nhọn của GDP
Trang 112.2 Công cụ trực quan hóa dữ liệu (Data Visualization):
2.2.1 Histogram
2.2.2 Box Plot
Trang 133 Sử dụng Spss
3.1 Thống kê mô tả
- Nhập dữ liệu
Vào Analyze -> escriptive Statistics -> Frequencies
Chọn variable là GDP sau đó click vào statistics
Trang 14Chọn các giá trị muốn hiển thị
Kết quả ta nhận được
Trang 15- Valid: số lượng các giá trị GDP
- Mean: giá trị trung bình của GDP
- Median: trung vị trung bình của GDP
- Mode: giá trị xuất hiện nhiều nhất trong dãy quan sát
- Std Deviation : Độ lệch chuẩn của GDP
- Variance: Phương sai của GDP
- Skewness : độ xiên của GDP
- Kurtosis: độ nhọn của GDP
- Range: khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát lớn nhất
- Range=Max-Min
- Minium: giá trị nhỏ nhất của GDP
- Maximum : giá trị lớn nhất của GDP
Trang 163.2.1 Histogram
Vào Graphs -> Legacy Dialogs-> Histogram
Chọn giá trị là GDP rồi nhấn ok
Trang 17Kết quả
3.2.2 Box Plot
Trang 18Vào Graphs Legacy Dialogs -> Boxplot
Trang 19Kết quả
Trang 20II BÀI 1B: PURCHASE ORDERS
1 Sử dụng R:
Trang 211.1 Thống kê mô tả (Descriptive Statistics)
- Nhập dữ liệu và lưu file vào R
- Kiểm tra dữ liệu
- Min: Giá trị nhỏ nhất của Cost per order, Quantity
- Max: Giá trị lớn nhất của Cost per order, Quantity
- Mean: Giá trị trung bình của Cost per order, Quantity
Tạo vector x chứa dữ liệu cột Cost per order, Quantity
Sử dụng lệnh “table” để biết tần số của x
Lọc ra viết lệnh lọc ra các giá trị lặp nhiều nhất
- Median: Trung vị của Cost per order, Quantity
- Mode: Giá trị xuất hiện nhiều nhất của Cost per order, Quantity
Trang 22- Interquartile Range (IQR): Tứ phân vị của Cost per order, Quantity
- Range: Độ chênh lệch của giá trị lớn nhất và nhỏ nhất của Cost per order,Quantity
Lấy giá trin lớn nhất(max) trừ cho giá trị nhỏ nhất(min)
- Variance: Phương sai của Cost per order, Quantity
- Standard Deviation: Độ lệch chuẩn của Cost per order, Quantity
- Coefficient of Deviation: Hệ số biến thiên của Cost per order, Quantity
Được tính bằng Độ lệch chuẩn (sd) chia Giá trị Trung bình(mean)
Trang 23- Skewness: Độ xiên trong Cost per order, Quantity
Sử dụng thư viện “e1071”
- Kurtosis: Độ nhọn trong Cost per order, Quantity
Sử dụng thư viện “e1071”
Trang 241.2.1 Box Plot: Sử dụng lệnh “boxplot” trong cột dữ liệu Cost per order
Từ biểu đồ ta thấy Mean(Trung vị) trong khoảng 15000, Min(Giá trị nhỏ nhất trong khoảng 0-100, Max(Giá trị lớn nhất) lớn hơn 120000, Tứ phân vị thứ nhất khoảng 30000, Tứ phân vị thứ 3 khoảng 10000 nên IQR trong khoảng 20000
1.2.2 Histogram: Sử dụng lệnh “hist” trong cột dữ liệu Cost per order
Trang 25 Trục tung của biểu đồ biểu diễn Cost per order ,trục hoành biểu diễn tần suấtMức Cost per order trong khoảng 0-20000 có tần suất nhiều nhất.
Trang 262.1 Thống kê mô tả (Descriptive Statistics):
Vào thư mục Open Another file…trong Recent Files chọn Data Files (Purchase
Trang 27Chọn Statistics để đến giao diện lựa chọn các giá trị cần tính, chọn Continue, chọn OKtrong hộp thoại Frequancies để hiện thị kết quả.
Các giá trị được hiển thị:
- Mean: Là giá trị trung bình số học của một biến, được tính bằng tổng các giá
trị quan sát chia cho số quan sát
- MEAN(data range)
Trang 28V3(ItemNo.)
V5( ItemCost)
V6(Quantity)
V7(Cost perorder)
V8(A/P Terms(Months))
233064640000
263.49040890326614
0
521387.861715585340000
8757513.048589382000000
V5( ItemCost)
V6(Quantity)
V7(Cost perorder)
V8(A/P Terms(Months))
90.00000000000000
V5( ItemCost) V6(Quantity)
V7(Cost perorder)
V8(A/P Terms(Months))
52597359.490734390000
000
890594573.82446810000000
0
94.0000000000000
00
- Median: Là số nằm giữa (nếu lượng quan sát là số lẻ) hoặc là giá trị trung bình
của hai quan sát nằm giữa (nếu số lượng quan sát là số chẳn) của một dãy quan
sát được xắp xếp theo thứ tự từ nhỏ đến lớn
- MEDIAN(data range)
Trang 29V3(ItemNo.)
V5( ItemCost)
V6(Quantity)
V7(Cost perorder)
V8(A/P Terms(Months))
1882.500000000000000
15703.12500000000000
V5( ItemCost)
V6(Quantity)
V7(Cost perorder)
V8(A/P Terms(Months))
150.000000000000000
23625.000000000000000
V5( ItemCost)
V6(Quantity)
V7(Cost perorder)
V8(A/P Terms(Months))
0
52597269.49073439000
0000
890594505.0744681000000
00
79.000000000000
000
- Quartile: Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu
Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ nhì, và thứ ba Ba giá trị này chia
Trang 30lượng quan sát đều nhau.
First Quartile = QUARTILE.INC(Data range,1)
Third Quartile =QUARTILE.INC(Data range,3)
Statistics
Missing
75 7258.00 25.6875 10000.00
0
28468.75000000000000
030.00
- Variance: Dùng để đo lường mức độ phân tán của một tập các giá trị quan sát
xung quanh giá trị trung bình của tập quan sát đó Phương sai bằng trung bình
các bình phương sai lệch giữa các giá trị quan sát đối với giá trị trung bình của
các quan sát đó
- VAR.(data range)
Statistics
V3(ItemNo.)
V5( ItemCost)
V6(Quantity)
V7(Cost perorder)
V8(A/P Terms(Months))
Trang 31- Standard Deviation: Độ lệch chuẩn chính bằng căn bậc hai của phương sai,
dùng để đo lường độ phân tán của dữ liệu xung quanh giá trị trung bình của nó
- STANDARDIZE(x, mean, standard deviation)
Statistics
V3(ItemNo.)
V5( ItemCost)
V6(Quantity)
V7(Cost perorder)
V8(A/P Terms(Months))
5207347.041661193000
000
88179388.99485041000
0000
9.423596630218
480
- Skewness: cho biết dạng phân phối của các giá trị quan sát có thể được sử dụng
để kiểm nghiệm tính phân phối chuẩn
- SKEW(data, range)
Statistics
V3(ItemNo.)
V5( Ite
m Cost)
V6(Quantity)
V7(Cost perorder)
V8(A/P Terms(Months))
- Kurtosis: Dùng để đánh giá đỉnh của đường cong quan sát với dạng đường
cong phân phối chuẩn
- KURT(data, range)
Statistics
V3(ItemNo.)
V5( ItemCost)
V6(Quantity)
V7(Cost perorder)
V8(A/P Terms(Months))
Trang 32- Biểu đồ: Cost per order
Chọn Graphs trên thanh công cụ, tiếp tục chọn Legacy Dialogs
Chọn Boxplot
Chon Define
Hiển thị hộp thoại Summaries of Separate Variables Chọn giá trị cần hiển thịNhấn OK
Trang 33Kết quả hiển thị
Trang 34- Biểu đồ: A/P Terms (Months)
- Biểu đồ: Quantity
- Biểu đồ: Item Cost
Trang 35- Biểu đồ: Item No
2.2.2 Histogram
- Biểu đồ: Cost per order
Chọn Graphs trên thanh công cụ, tiếp tục chọn Legacy Dialogs
Trang 36Chọn Histogram
Chọn giá trị cần hiển thị
Nhấn OK
Kết quả hiển thị
Trang 37Làm tương tự với các thuộc tính còn lại
- Biểu đồ: A/P Terms (Months)
- Biểu đồ: Quantity
Trang 38- Biểu đồ: Item Cost
Trang 39- Biểu đồ: Item No
Trang 403.1 Thống kê mô tả (Descriptive Statistics):
Vào Dữ liệu chọn Data Analysis
Sau đó chọn Descriptive Statistics, chọn OK
Nhập vùng dữ liệu
Trang 41Kết quả hiển thị: Cost per order
Làm tiếp tục cho các cột còn lại
Trang 42- Count: Là dùng để đếm số ô có chứa dữ liệu là số trong 1 vùng Dữ liệu ( phạm
vi) trong tất cả các quan sát
COUNT( data range)
- Mean: Là giá trị trung bình số học của một biến, được tính bằng tổng các giá
trị quan sát chia cho số quan sát
- Median: Là số nằm giữa (nếu lượng quan sát là số lẻ) hoặc là giá trị trung bình
của hai quan sát nằm giữa (nếu số lượng quan sát là số chẳn) của một dãy quan sát được xắp xếp theo thứ tự từ nhỏ đến lớn
MEDIAN(data range)
- Mode: Là giá trị có tần suất xuất hiện lớn nhất của một tập hợp các số đo
MODE(data range)
Trang 43- Range: Là khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát lớn
nhất
- Quartile: Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ
liệu Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ nhì, và thứ ba Ba giátrị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau
First Quartile = QUARTILE.INC(Data range,1)
Third Quartile =QUARTILE.INC(Data range,3)
- Variance: Dùng để đo lường mức độ phân tán của một tập các giá trị quan sát
xung quanh giá trị trung bình của tập quan sát đó Phương sai bằng trung bình các bình phương sai lệch giữa các giá trị quan sát đối với giá trị trung bình của các quan sát đó
n i
i
Trang 44 Cột C là phần (XI – mean)
Cột D là phần (xi – mean)^2
Nhập công thức = Sum( Data range ở cột D) / (B97 – 1)
- Standard Deviation: Độ lệch chuẩn chính bằng căn bậc hai của phương sai,
dùng để đo lường độ phân tán của dữ liệu xung quanh giá trị trung bình của nó
STANDARDIZE(x, mean, standard deviation)
- Skewness: cho biết dạng phân phối của các giá trị quan sát có thể được sử dụng
để kiểm nghiệm tính phân phối chuẩn
SKEW(data, range)
- Kurtosis: Dùng để đánh giá đỉnh của đường cong quan sát với dạng đường
cong phân phối chuẩn
KURT(data, range)
3.2 Công cụ trực quan hóa dữ liệu (Data Visualization)
3.2.1 Box Plot
- Biểu đồ: Cost per order
Chọn range G4:G97 (Cost per order)
Trang 45Chọn Insert, trong Chart group, chọn Statistic Chart symbol.
Chọn Box and Whisker
Kết quả hiển thị
Làm tiếp tục với các thuộc tính còn lại
- Biểu đồ: A/P Terms (Months)
Trang 46- Biểu đồ: Quantity
- Biểu đồ: Item Cost
Trang 47- Biểu đồ: Item No
Trang 483.2.2 Histogram
- Biểu đồ: Cost per order
Chọn range G4:G97 (Cost per order)
Chọn Insert, trong Chart group, chọn Statistic Chart symbol
Chọn Histogram
Hiển thị kết quả
Trang 49Tiếp tục cho các thuộc tính còn lại.
- Biểu đồ: A/P Terms (Months)
- Biểu đồ: Quantity
Trang 50- Biểu đồ: Item Cost
- Biểu đồ: Item No
Trang 51II BÀI 1B: COMPUTER REPAIR TIMES
1 Sử dụng R
1.1 Thống kê mô tả (Descriptive Statistics)
- Copy dữ liệu trong file Excel cần phân tích
- Xem đối tượng mình vừa tạo đã thành công chưa
Trang 52- Count: Là dùng để đếm số ô có chứa dữ liệu là số trong 1 vùng dữ liệu
(phạm vi) trong tất cả các quan sát
- Mean: Là giá trị trung bình số học của một biến, được tính bằng tổng các
giá trị quan sát chia cho số quan sát
- Min: Là giá trị nhỏ nhất trong tất cả các quan sát
- Max: Là giá trị lớn nhất trong tất cả các quan sát
- Median: Là số nằm giữa (nếu lượng quan sát là số lẻ) hoặc là giá trị trung
bình của hai quan sát nằm giữa (nếu số lượng quan sát là số chẳn) của một dãy quan sát được xắp xếp theo thứ tự từ nhỏ đến lớn
- Mode: Là giá trị có tần suất xuất hiện lớn nhất của một tập hợp các số đo
- Range: Là khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát
lớn nhất (Max – Min)
- Quartile: Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập
dữ liệu Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ nhì, và thứ ba
Ba giá trị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau
- Variance: Dùng để đo lường mức độ phân tán của một tập các giá trị quan
sát xung quanh giá trị trung bình của tập quan sát đó Phương sai bằng trungbình các bình phương sai lệch giữa các giá trị quan sát đối với giá trị trung bình của các quan sát đó
- Standard Deviation: Độ lệch chuẩn chính bằng căn bậc hai của phương
sai, dùng để đo lường độ phân tán của dữ liệu xung quanh giá trị trung bình của nó
- Skewness: đo lường sự đối xứng của phân phối của các giá trị quan sát có
thể được sử dụng để kiểm nghiệm tính phân phối chuẩn Hệ số dương thì giá trị mean nằm gần giá trị min và xa giá trị max và đồ thị lệch về phía bên
Trang 53phải Ngược lại hệ số âm thì giá trị mean nằm xa giá trị min và nằm gần giá trị max và đồ thị lệch về phía bên trái
- Kurtosis: Dùng để đánh giá đỉnh của đường cong quan sát với dạng đường
cong phân phối chuẩn Khi hệ số bằng 3, phân phối tập trung ở mức độ bìnhthường Khi hệ số lớn hơn 3, phân phối tập trung hơn mức bình thường; đỉnh của đồ thị hình chuông của phân phối cao và nhọn trong khi 2 đuôi ngắn hơn Còn khi hệ số nhỏ hơn 3, phân phối tập trung kém mức bình thường; đỉnh của đồ thị hình chuông của phân phối thấp và tù hơn, với 2 đuôi dài hơn