Bài tập 1 Phân tích dữ liệu kinh doanh

Bài 1a. (Chapter 34) Dùng công cụ trực quan hóa dữ liệu (Data Visualization) và Thống kê mô tả (Descriptive Statistics) thực hiện yêu cầu sau: Theo số liệu về kinh tế Việt Nam tại website:http:finance.vietstock.vndulieuvimoDefault.htmVới tập tin dữ liệu:GDP binh quan cua VN1. Sử dụng MS Excel, SPSS và ngôn ngữ R với số liệu về GDP bình quân của VN từ 2010 đến 2016 hãy tính và giải thích ý nghĩa của các giá trị: Count, Min, Max, Mean, Median, Mode, Quantile, Range, Mode, Variance, Standard Deviation, Coefficient of Deviation, Skewness, Kurtosis.2. Dùng chức năng Visualization: Histogram, Box Plot hãy hiển thị các giá trị sauBox Plot: Min, Max, Mean, Median, Mode, Quantile, RangeHistogram: Count, Mode, Variance, Standard Deviation, Coefficient of Deviation, Skewness, Kurtosis.

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA HỆ THỐNG THÔNG TIN

BÁO CÁO LAB 1 Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH

Giảng viên hướng dẫn: TS Nguyễn Đình Thuân

Trang 2

Mục lục

I BÀI 1A: GDP BÌNH QUÂN CỦA VN 3

1.Sử dụng MS Excel: 3

1.1 Thống kê mô tả: 3

1.2 Tính toán lại bằng Excel: 6

1.3 Công cụ trực quan hóa dữ liệu (Data Visualization): 7

2 Sử dụng ngôn ngữ R 9

2.1 Thống kê mô tả 9

2.2 Công cụ trực quan hóa dữ liệu (Data Visualization): 11

3 Sử dụng Spss 13

3.1 Thống kê mô tả 13

3.2 Công cụ trực quan hóa dữ liệu (Data Visualization) 16

II BÀI 1B: PURCHASE ORDERS 20

1 Sử dụng R: 20

1.1 Thống kê mô tả (Descriptive Statistics) 20

1.2. Công cụ trực quan hóa dữ liệu (Data Visualization) 22

2 Sử dụng SPSS 24

2.1 Thống kê mô tả (Descriptive Statistics): 24

3 Sử dụng MS Excel: 38

3.1 Thống kê mô tả (Descriptive Statistics): 38

II BÀI 1B: COMPUTER REPAIR TIMES 50

1 Sử dụng R 50

1.2 Công cụ trực quan hóa dữ liệu (Data Visualization) 51

2 Sử dụng SPSS 54

3 Sử dụng Microsoft Excel 63

3.2 Công cụ trực quan hóa dữ liệu (Data Visualization) 67

3.3 Tính toán lại 70

TÀI LIỆU THAM KHẢO 73

BẢNG PHÂN CÔNG 74

Trang 3

I BÀI 1A: GDP BÌNH QUÂN CỦA VN

1.Sử dụng MS Excel:

1.1 Thống kê mô tả:

Vào data chọn data analysis sau đó chọn Descriptive Statistics

Nhập vùng dữ liệu

Trang 4

Kết quả:

Trang 5

- Count : số lượng các giá trị quan sát : Count(data range)

- Min, max dùng để xác định giá trị nhỏ nhất và lớn nhất trong dãy quan sát:

Min(data range) ; Max(data range)

- Mean: giá trị trung bình của tất cả dãy số trong tập hợp: AVERAGE(data range)

- Median: dùng để tính trung vị trung bình Trung bình vị là số nằm giữa một dãy các số hay nói cách khác là số mà một nửa các số trong dãy lớn hơn nó và một nửa các số còn lại trong dãy nhỏ hơn nó MEDIAN(data range)

- Mode: dùng để xác định giá trị xuất hiện nhiều nhất trong dãy quan sát:

MODE.SNGL (data range)

- Quantitle: Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu

 Tứ phân vị ở tối thiểu.: QUARTILE.INC(Data range,0)

 Tứ phân vị thứ nhất (phân vị thứ 25).: QUARTILE.INC(Data range,1)

 Tứ phân vị ở giá trị trung bình (phân vị thứ 50) QUARTILE.INC(Data

range,2)

 Tứ phân vị ở giá trị thứ 3 (phân vị thứ 75).: QUARTILE.INC(Data range,3)

 Tứ phân vị ở giá trị tối đa: QUARTILE.INC(Data range,4)

- Range: khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát lớn nhất.Range=Max-Min

- Variance: Phương sai, Dùng để đo lường mức độ phân tán của một tập các giá trị quan sát xung quanh giá trị trung bình của tập quan sát đó VAR.S(data range)

- Standard Deviation : Độ lệch chuẩn, Một công cụ khác dùng để đo lường độ phân tán của dữ liệu xung quanh giá trị trung bình của nó STDE.S(data range)

- Coefficient of Deviation: Hệ số biến thiên có được bằng cách chia độ lệch chuẩn cho giá trị trung bình hoặc trung bình

Trang 6

- Skewness : dùng để tính độ lệch của một phân bố Độ lệch thể hiện độ không đối xứng của phân bố quanh trục của nó Độ lệch dương cho biết phân bố có phía không đối xứng mở rộng đến nhiều giá trị dương hơn Độ lệch âm cho biết phân

bố có phía không đối xứng mở rộng đến nhiều giá trị âm hơn

SKEW(data range)

- Kurtosis: dùng để tính xác định độ nhọn hay còn gọi là độ lồi

KURT( data range)

1.2 Tính toán lại bằng Excel:

- Variance: Phương sai bằng trung bình các bình phương sai lệch giữa các giá trị quan sát đối với giá trị trung bình của các quan sát đó

n i

i

Trang 7

1.3 Công cụ trực quan hóa dữ liệu (Data Visualization):

1.3.1 Histogram:

Trang 9

- Count : số lượng các giá trị GDP

- Min : Giá trị nhỏ nhất của GDP

- Max: Giá trị lớn nhất của GDP

- Mean : Giá trị trung bình của GDP

- Variance: Phương sai

- Standard Deviation: Độ lệch chuẩn

Trang 10

- Range: Độ chênh lệch của giá trị lớn nhất và nhỏ nhất

- Quantile: Tứ phân vị

- Mode : Giá trị xuất hiện nhiều nhất của GDP

- Coefficient of Deviation: Hệ số biến thiên của GDP, bằng Độ lệch chuẩn (sd)chia Giá trị Trung bình(mean)

- Skewness: Độ xiên của GDP

- Kurtosis: Độ nhọn của GDP

Trang 11

2.2 Công cụ trực quan hóa dữ liệu (Data Visualization):

2.2.1 Histogram

2.2.2 Box Plot

Trang 13

3 Sử dụng Spss

3.1 Thống kê mô tả

- Nhập dữ liệu

Vào Analyze -> escriptive Statistics -> Frequencies

Chọn variable là GDP sau đó click vào statistics

Trang 14

Chọn các giá trị muốn hiển thị

Kết quả ta nhận được

Trang 15

- Valid: số lượng các giá trị GDP

- Mean: giá trị trung bình của GDP

- Median: trung vị trung bình của GDP

- Mode: giá trị xuất hiện nhiều nhất trong dãy quan sát

- Std Deviation : Độ lệch chuẩn của GDP

- Variance: Phương sai của GDP

- Skewness : độ xiên của GDP

- Kurtosis: độ nhọn của GDP

- Range: khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát lớn nhất

- Range=Max-Min

- Minium: giá trị nhỏ nhất của GDP

- Maximum : giá trị lớn nhất của GDP

Trang 16

3.2.1 Histogram

Vào Graphs -> Legacy Dialogs-> Histogram

Chọn giá trị là GDP rồi nhấn ok

Trang 17

Kết quả

3.2.2 Box Plot

Trang 18

Vào Graphs  Legacy Dialogs -> Boxplot

Trang 19

Kết quả

Trang 20

II BÀI 1B: PURCHASE ORDERS

1 Sử dụng R:

Trang 21

1.1 Thống kê mô tả (Descriptive Statistics)

- Nhập dữ liệu và lưu file vào R

- Kiểm tra dữ liệu

- Min: Giá trị nhỏ nhất của Cost per order, Quantity

- Max: Giá trị lớn nhất của Cost per order, Quantity

- Mean: Giá trị trung bình của Cost per order, Quantity

Tạo vector x chứa dữ liệu cột Cost per order, Quantity

Sử dụng lệnh “table” để biết tần số của x

Lọc ra viết lệnh lọc ra các giá trị lặp nhiều nhất

- Median: Trung vị của Cost per order, Quantity

- Mode: Giá trị xuất hiện nhiều nhất của Cost per order, Quantity

Trang 22

- Interquartile Range (IQR): Tứ phân vị của Cost per order, Quantity

- Range: Độ chênh lệch của giá trị lớn nhất và nhỏ nhất của Cost per order,Quantity

Lấy giá trin lớn nhất(max) trừ cho giá trị nhỏ nhất(min)

- Variance: Phương sai của Cost per order, Quantity

- Standard Deviation: Độ lệch chuẩn của Cost per order, Quantity

- Coefficient of Deviation: Hệ số biến thiên của Cost per order, Quantity

Được tính bằng Độ lệch chuẩn (sd) chia Giá trị Trung bình(mean)

Trang 23

- Skewness: Độ xiên trong Cost per order, Quantity

Sử dụng thư viện “e1071”

- Kurtosis: Độ nhọn trong Cost per order, Quantity

Sử dụng thư viện “e1071”

Trang 24

1.2.1 Box Plot: Sử dụng lệnh “boxplot” trong cột dữ liệu Cost per order

 Từ biểu đồ ta thấy Mean(Trung vị) trong khoảng 15000, Min(Giá trị nhỏ nhất trong khoảng 0-100, Max(Giá trị lớn nhất) lớn hơn 120000, Tứ phân vị thứ nhất khoảng 30000, Tứ phân vị thứ 3 khoảng 10000 nên IQR trong khoảng 20000

1.2.2 Histogram: Sử dụng lệnh “hist” trong cột dữ liệu Cost per order

Trang 25

 Trục tung của biểu đồ biểu diễn Cost per order ,trục hoành biểu diễn tần suấtMức Cost per order trong khoảng 0-20000 có tần suất nhiều nhất.

Trang 26

2.1 Thống kê mô tả (Descriptive Statistics):

Vào thư mục Open Another file…trong Recent Files chọn Data Files (Purchase

Trang 27

Chọn Statistics để đến giao diện lựa chọn các giá trị cần tính, chọn Continue, chọn OKtrong hộp thoại Frequancies để hiện thị kết quả.

Các giá trị được hiển thị:

- Mean: Là giá trị trung bình số học của một biến, được tính bằng tổng các giá

trị quan sát chia cho số quan sát

- MEAN(data range)

Trang 28

V3(ItemNo.)

V5( ItemCost)

V6(Quantity)

V7(Cost perorder)

V8(A/P Terms(Months))

233064640000

263.49040890326614

0

521387.861715585340000

8757513.048589382000000

V5( ItemCost)

V6(Quantity)

V7(Cost perorder)

90.00000000000000

V5( ItemCost) V6(Quantity)

V7(Cost perorder)

52597359.490734390000

000

890594573.82446810000000

0

94.0000000000000

00

- Median: Là số nằm giữa (nếu lượng quan sát là số lẻ) hoặc là giá trị trung bình

của hai quan sát nằm giữa (nếu số lượng quan sát là số chẳn) của một dãy quan

sát được xắp xếp theo thứ tự từ nhỏ đến lớn

- MEDIAN(data range)

Trang 29

V3(ItemNo.)

V5( ItemCost)

V6(Quantity)

V7(Cost perorder)

1882.500000000000000

15703.12500000000000

V5( ItemCost)

V6(Quantity)

V7(Cost perorder)

150.000000000000000

23625.000000000000000

V5( ItemCost)

V6(Quantity)

V7(Cost perorder)

0

52597269.49073439000

0000

890594505.0744681000000

00

79.000000000000

000

- Quartile: Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu

Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ nhì, và thứ ba Ba giá trị này chia

Trang 30

lượng quan sát đều nhau.

 First Quartile = QUARTILE.INC(Data range,1)

 Third Quartile =QUARTILE.INC(Data range,3)

Statistics

Missing

75 7258.00 25.6875 10000.00

0

28468.75000000000000

030.00

- Variance: Dùng để đo lường mức độ phân tán của một tập các giá trị quan sát

xung quanh giá trị trung bình của tập quan sát đó Phương sai bằng trung bình

các bình phương sai lệch giữa các giá trị quan sát đối với giá trị trung bình của

các quan sát đó

- VAR.(data range)

Statistics

V3(ItemNo.)

V5( ItemCost)

V6(Quantity)

V7(Cost perorder)

Trang 31

- Standard Deviation: Độ lệch chuẩn chính bằng căn bậc hai của phương sai,

dùng để đo lường độ phân tán của dữ liệu xung quanh giá trị trung bình của nó

- STANDARDIZE(x, mean, standard deviation)

Statistics

V3(ItemNo.)

V5( ItemCost)

V6(Quantity)

V7(Cost perorder)

5207347.041661193000

000

88179388.99485041000

0000

9.423596630218

480

- Skewness: cho biết dạng phân phối của các giá trị quan sát có thể được sử dụng

để kiểm nghiệm tính phân phối chuẩn

- SKEW(data, range)

Statistics

V3(ItemNo.)

V5( Ite

m Cost)

V6(Quantity)

V7(Cost perorder)

- Kurtosis: Dùng để đánh giá đỉnh của đường cong quan sát với dạng đường

cong phân phối chuẩn

- KURT(data, range)

Statistics

V3(ItemNo.)

V5( ItemCost)

V6(Quantity)

V7(Cost perorder)

Trang 32

- Biểu đồ: Cost per order

Chọn Graphs trên thanh công cụ, tiếp tục chọn Legacy Dialogs

Chọn Boxplot

Chon Define

Hiển thị hộp thoại Summaries of Separate Variables Chọn giá trị cần hiển thịNhấn OK

Trang 33

Kết quả hiển thị

Trang 34

- Biểu đồ: A/P Terms (Months)

- Biểu đồ: Quantity

- Biểu đồ: Item Cost

Trang 35

- Biểu đồ: Item No

2.2.2 Histogram

Chọn Graphs trên thanh công cụ, tiếp tục chọn Legacy Dialogs

Trang 36

Chọn Histogram

Chọn giá trị cần hiển thị

Nhấn OK

Trang 37

Làm tương tự với các thuộc tính còn lại

Trang 38

Trang 39

Trang 40

3.1 Thống kê mô tả (Descriptive Statistics):

Vào Dữ liệu chọn Data Analysis

Sau đó chọn Descriptive Statistics, chọn OK

Nhập vùng dữ liệu

Trang 41

Kết quả hiển thị: Cost per order

Làm tiếp tục cho các cột còn lại

Trang 42

- Count: Là dùng để đếm số ô có chứa dữ liệu là số trong 1 vùng Dữ liệu ( phạm

vi) trong tất cả các quan sát

 COUNT( data range)

- Mean: Là giá trị trung bình số học của một biến, được tính bằng tổng các giá

trị quan sát chia cho số quan sát

- Median: Là số nằm giữa (nếu lượng quan sát là số lẻ) hoặc là giá trị trung bình

của hai quan sát nằm giữa (nếu số lượng quan sát là số chẳn) của một dãy quan sát được xắp xếp theo thứ tự từ nhỏ đến lớn

 MEDIAN(data range)

- Mode: Là giá trị có tần suất xuất hiện lớn nhất của một tập hợp các số đo

 MODE(data range)

Trang 43

- Range: Là khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát lớn

nhất

- Quartile: Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ

liệu Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ nhì, và thứ ba Ba giátrị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau

 First Quartile = QUARTILE.INC(Data range,1)

 Third Quartile =QUARTILE.INC(Data range,3)

- Variance: Dùng để đo lường mức độ phân tán của một tập các giá trị quan sát

xung quanh giá trị trung bình của tập quan sát đó Phương sai bằng trung bình các bình phương sai lệch giữa các giá trị quan sát đối với giá trị trung bình của các quan sát đó

n i

i

Trang 44

 Cột C là phần (XI – mean)

 Cột D là phần (xi – mean)^2

 Nhập công thức = Sum( Data range ở cột D) / (B97 – 1)

- Standard Deviation: Độ lệch chuẩn chính bằng căn bậc hai của phương sai,

dùng để đo lường độ phân tán của dữ liệu xung quanh giá trị trung bình của nó

 STANDARDIZE(x, mean, standard deviation)

- Skewness: cho biết dạng phân phối của các giá trị quan sát có thể được sử dụng

để kiểm nghiệm tính phân phối chuẩn

 SKEW(data, range)

cong phân phối chuẩn

 KURT(data, range)

3.2 Công cụ trực quan hóa dữ liệu (Data Visualization)

3.2.1 Box Plot

Chọn range G4:G97 (Cost per order)

Trang 45

Chọn Insert, trong Chart group, chọn Statistic Chart symbol.

Chọn Box and Whisker

Làm tiếp tục với các thuộc tính còn lại

Trang 46

Trang 47

Trang 48

3.2.2 Histogram

Chọn range G4:G97 (Cost per order)

Chọn Insert, trong Chart group, chọn Statistic Chart symbol

Chọn Histogram

Hiển thị kết quả

Trang 49

Tiếp tục cho các thuộc tính còn lại.

Trang 50

Trang 51

II BÀI 1B: COMPUTER REPAIR TIMES

1 Sử dụng R

1.1 Thống kê mô tả (Descriptive Statistics)

- Copy dữ liệu trong file Excel cần phân tích

- Xem đối tượng mình vừa tạo đã thành công chưa

Trang 52

- Count: Là dùng để đếm số ô có chứa dữ liệu là số trong 1 vùng dữ liệu

(phạm vi) trong tất cả các quan sát

- Mean: Là giá trị trung bình số học của một biến, được tính bằng tổng các

giá trị quan sát chia cho số quan sát

- Min: Là giá trị nhỏ nhất trong tất cả các quan sát

- Max: Là giá trị lớn nhất trong tất cả các quan sát

- Median: Là số nằm giữa (nếu lượng quan sát là số lẻ) hoặc là giá trị trung

bình của hai quan sát nằm giữa (nếu số lượng quan sát là số chẳn) của một dãy quan sát được xắp xếp theo thứ tự từ nhỏ đến lớn

- Mode: Là giá trị có tần suất xuất hiện lớn nhất của một tập hợp các số đo

- Range: Là khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát

lớn nhất (Max – Min)

- Quartile: Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập

dữ liệu Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ nhì, và thứ ba

Ba giá trị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau

- Variance: Dùng để đo lường mức độ phân tán của một tập các giá trị quan

sát xung quanh giá trị trung bình của tập quan sát đó Phương sai bằng trungbình các bình phương sai lệch giữa các giá trị quan sát đối với giá trị trung bình của các quan sát đó

- Standard Deviation: Độ lệch chuẩn chính bằng căn bậc hai của phương

sai, dùng để đo lường độ phân tán của dữ liệu xung quanh giá trị trung bình của nó

- Skewness: đo lường sự đối xứng của phân phối của các giá trị quan sát có

thể được sử dụng để kiểm nghiệm tính phân phối chuẩn Hệ số dương thì giá trị mean nằm gần giá trị min và xa giá trị max và đồ thị lệch về phía bên

Trang 53

phải Ngược lại hệ số âm thì giá trị mean nằm xa giá trị min và nằm gần giá trị max và đồ thị lệch về phía bên trái

cong phân phối chuẩn Khi hệ số bằng 3, phân phối tập trung ở mức độ bìnhthường Khi hệ số lớn hơn 3, phân phối tập trung hơn mức bình thường; đỉnh của đồ thị hình chuông của phân phối cao và nhọn trong khi 2 đuôi ngắn hơn Còn khi hệ số nhỏ hơn 3, phân phối tập trung kém mức bình thường; đỉnh của đồ thị hình chuông của phân phối thấp và tù hơn, với 2 đuôi dài hơn

Định dạng
Số trang	75
Dung lượng	4,68 MB