BẢN PHÂN CÔNG NHIỆM VỤ 2 BÀI 1: THỐNG KÊ MÔ TẢ (EXPLORING DATA) 4 1.1 Cases, variables, and levels of measurement 4 1.2 Mode, mean, median 4 1.3 Disperson (mức độ phân tán của dữ liệu ) 5 1.4 Phương sai, độ lệch chuẩn, zscores 7 BÀI 2: HISTOGRAM AND CONTROL CHART 8 BÀI 3. KIỂM ĐỊNH ANOVA 11 3.1 One way anova 11 3.2 Two way anova with replications 13 3.3 Two – way anova without replications 15 3.4 Bài tập ANOVA One way 15 BÀI 4. CORRELATION AND REGRESSION 17 4.1. Biểu đồ tán xạ và hệ số tương quan r 17 4.2. Hồi qui tuyến tính (Regression) 20 4.2 Tương quan không phải là nhân quả (correlation is not causation) 22 BÀI 5. T – TEST 23 5.1. One sample T – test: 23 5.2. Independent sample T – test 24 5.3. Paired sample t – test 26 BÀI 1: THỐNG KÊ MÔ TẢ (EXPLORING DATA) 1.1 Cases, variables, and levels of measurement Cases: Đối tượng (một cái gì đó hoặc một người nào đó) Variables: Biến (đặc điểm của một cái gì đó của một người nào đó, cần phải thay đổi) không dao động thì không có giá trị Biến thì có 2 loại: Biến định tính: không đo được bằng con số (Categorial variable). Biến định tính được thể hiện qua biểu đồ tròn và cột. Biến định lượng: đo được bằng con số (Quantitative variable). Biến định lượng không thể thể hiện qua biểu đồ. Muốn thể hiện qua biểu đồ ta phải mã hóa (recode) từ biến định lượng sang biến định tính. Biểu đồ tròn biểu diễn % (sử dụng khi số lượng mẫu 5) Levels of measurement: bao gồm 4 cấp Nominal level Ordinal level Interval level Ratio level 1.2 Mode, mean, median Mode: Là giá trị xuất hiện nhiều nhất (cao nhất). Dùng lệnh MODE Median (trung vị): Là giá trị ở giữa chúng ta quan sát được khi sắp tất cả các giá trị hay nói cách khác thì trung vị là trung bình của các vị trí. Để xác định được trung vị thì cần sắp xếp các số từ nhỏ đến lớn (có trùng số vẫn sắp) sau đó chọn số ở giữa. Dùng lệnh MEDIAN Mean: Là giá trị trung bình. Dùng lệnh AVERAGE = : Là tổng của tất cả các phần tử chia cho tổng số lượng phân tử. Khi nào sử dụng trung vị và trung bình? Nếu trong dữ liệu có outlier (giá trị lạ) thì tính theo median. Vì outlier là giá trị ngoại lai đó là giá trị nằm bên ngoài nếu tin outlier thì sẽ bị sai. 1.3 Disperson (mức độ phân tán của dữ liệu ) Mức độ phân tán của dữ liệu sẽ được biểu thị thông qua: Range, Interquartile range, Boxplot (biểu đồ hộp) Range: Giá trị lớn nhất – Giá trị nhỏ nhất = Max (x) – Min (x) Interquartile range (IQR): hay còn gọi là khỏang tứ phân vị, là sự chênh lệch của giá trị cao nhất và thấp nhất của các tứ phân vị. sử dụng hàm QUARTIEL Đại lượng này được tính ra bằng cách lấy giá trị tứ phân vị thứ 3 trừ đi giá trị tứ phân vị thứ nhất.
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM
KHOA CÔNG NGHỆ THỰC PHẨM
BÁO CÁO ỨNG DỤNG CÔNG NGHỆ TIN HỌC TRONG CÔNG NGHỆ THỰC
Trang 2BẢN PHÂN CÔNG NHIỆM VỤ
1 Võ Ngọc Thanh Trang Bài 2, 3, tổnghợp
2 Phạm Ngô Xuân Trang Bài 1,4,5
Trang 3M C L C ỤC LỤC ỤC LỤC
BẢN PHÂN CÔNG NHIỆM VỤ 2
BÀI 1: THỐNG KÊ MÔ TẢ (EXPLORING DATA) 4
1.1 Cases, variables, and levels of measurement 4
1.2 Mode, mean, median 4
1.3 Disperson (mức độ phân tán của dữ liệu ) 5
1.4 Phương sai, độ lệch chuẩn, z-scores 7
BÀI 2: HISTOGRAM AND CONTROL CHART 8
BÀI 3 KIỂM ĐỊNH ANOVA 11
3.1 One way anova 11
3.2 Two way anova with replications 13
3.3 Two – way anova without replications 15
3.4 Bài tập ANOVA One way 15
BÀI 4 CORRELATION AND REGRESSION 17
4.1 Biểu đồ tán xạ và hệ số tương quan r 17
4.2 Hồi qui tuyến tính (Regression) 20
4.2 Tương quan không phải là nhân quả (correlation is not causation) 22
BÀI 5 T – TEST 23
5.1 One sample T – test: 23
5.2 Independent sample T – test 24
5.3 Paired sample t – test 26
Trang 4BÀI 1: THỐNG KÊ MÔ TẢ (EXPLORING DATA)
1.1 Cases, variables, and levels of measurement
Cases: Đối tượng (một cái gì đó hoặc một người nào đó)
Variables: Biến (đặc điểm của một cái gì đó của một người nào đó, cần phải thay đổi)không dao động thì không có giá trị
từ biến định lượng sang biến định tính
Biểu đồ tròn biểu diễn % (sử dụng khi số lượng mẫu <5)
Biểu đồ cột biểu diễn giá trị tuyệt đối (sử dụng khi số lượng mẫu >5)
Levels of measurement: bao gồm 4 cấp
Nominal level
Ordinal level
Interval level
Ratio level
1.2 Mode, mean, median
Mode: Là giá trị xuất hiện nhiều nhất (cao nhất) Dùng lệnh MODE
Median (trung vị): Là giá trị ở giữa chúng ta quan sát được khi sắp tất cả các giá trị haynói cách khác thì trung vị là trung bình của các vị trí
Để xác định được trung vị thì cần sắp xếp các số từ nhỏ đến lớn (có trùng số vẫnsắp) sau đó chọn số ở giữa Dùng lệnh MEDIAN
Mean: Là giá trị trung bình Dùng lệnh AVERAGE
´
x = ∑x i
n
´
x: Là tổng của tất cả các phần tử chia cho tổng số lượng phân tử
Khi nào sử dụng trung vị và trung bình?
Trang 5Nếu trong dữ liệu có outlier (giá trị lạ) thì tính theo median Vì outlier là giá trị ngoại lai
đó là giá trị nằm bên ngoài nếu tin outlier thì sẽ bị sai
1.3 Disperson (mức độ phân tán của dữ liệu )
Mức độ phân tán của dữ liệu sẽ được biểu thị thông qua: Range, Interquartile range,Boxplot (biểu đồ hộp)
Range: Giá trị lớn nhất – Giá trị nhỏ nhất = Max (x) – Min (x)
Interquartile range (IQR): hay còn gọi là khỏang tứ phân vị, là sự chênh lệch củagiá trị cao nhất và thấp nhất của các tứ phân vị sử dụng hàm QUARTIEL
Đại lượng này được tính ra bằng cách lấy giá trị tứ phân vị thứ 3 trừ đi giá trị tứ phân vịthứ nhất
𝐼𝑄𝑅 = 𝑄3 − 𝑄1
Boxplot (biểu đồ hộp): Biểu diễn các đại lượng quan trọng của dãy số như Min, Max,Quartile (Q1, Q2, Q3), Interquartile range một cách dễ hiểu
Min (max, 𝑄3 + 1.5 ∗ 𝐼𝑄𝑅)𝑀𝑎𝑥 (𝑚𝑖𝑛, 𝑄1 − 1.5 ∗ 𝐼𝑄𝑅)
Ví dụ:
Grou
p 1 34.2 32.6 33.4 34.5 33.9 34.5 33.8 32.9 33.6Grou
p 2 33.5 34.5 34.3 33.5 33.7 33.6 33.5 32.9 34.6
Bước 1: Ta nhập dữu liệu vào exel theo cột
Bước 2: ta tính các giá trị sửu dụng các hàm trong exel
Mode vào fx chọn hàm mode -> khối cột đã nhập
Median vào fx chọn hàm median
Mead vào fx chọn hàm average
Q1, Q2, Q3 vào fx chọn hàm quartile
Min vào fx chọn hàm min
Max vào fx chọn hàm max
Range = max – min
Trang 71.4 Phương sai, độ lệch chuẩn, z-scores
Phương sai: bình phương độ lệch của một phần tử so với giá trị trung bình Sử dụng hàmVAR.S
Độ lệch chuẩn: độ lệch trung bình của 1 phần tử so với giá trị trung bình
Z-scores: khoảng cách từ một điểm đến giá trị trung bình
Trang 8BÀI 2: HISTOGRAM AND CONTROL CHART
Ví dụ: Tại một nhà máy sản xuất bánh cookie sử dụng dây chuyền đóng gói mới, khối
lượng tịnh chuẩn theo mong muốn của công ty cho của một gói sản phẩm là 150g Một
mẻ cho ra 300 sản phẩm Nhân viên lấy 150 sản phẩm bất kỳ của mỗi mẻ đi cân lại đượcbản số liệu sản phẩm lỗi như sau:
Trang 9 MAX: =MAX(data defective)
MIN: =MIN(data defective)
Trang 10 Bin: Số frequency theo min, max
Trang 11BÀI 3 KIỂM ĐỊNH ANOVA
So sánh giá trị trung bình của nhiều nhóm:
Có 1 biến, mà biến có nhiều hơn 2 nhóm Ta tính giá trị trung bình của các nhóm
Nhiều hơn 1 biến mà mỗi biến có nhiều hơn hoặc bằng 2 nhóm
Tại sao dùng ANOVA mà không dùng T-test?
Mỗi t-test với mức ý nghĩa α=0,05 hay độ chính xác của mỗi t-test là 95% Khi sử dụngnhiều T – test thì độ chính xác của kiểm định sẽ bị giảm xuống nên ta dùng ANOVA thay
vì dùng T – test mức độ chính xác sẽ cao hơn
3.1 One way anova
Ví dụ: Một trang trại gà người ta muốn so sánh sự tăng trưởng của gà đối với các loại
thức ăn khác nhau Họ sử dụng 3 loại thức ăn để thử nghiệm và thu được kết quả sau:
Trang 1213 19,55 23,59 26,04
Nhập bảng dữ liệu vào excel
Data Data Analysic Anova: Single Factor
Chọn α = 0,05 ta có bảng kết quả
Trang 133.2 Two way anova with replications
Ví dụ: trang trại gà nói trên sử dụng thêm thức ăn dặm vào bữa ăn của những con gà, để
xem những con gà có sự thay đổi như thế nào
Trang 14Nhập bảng dữ liệu vào excel
Data Data Analysic Anova: Two-Factor With Replication
Trang 15Chọn α = 0,05, ta có bảng kết quả
3.3 Two – way anova without replications
Trang 16Data Data Analysic Anova: Two-Factor Without Replication
Chọn α = 0,05, ta có bảng kết quả
3.4 Bài tập ANOVA One way
Dưới đây là kết quả đánh giá mức độ ưa thích đối với 3 loại hương liệu (A, B, C) bằngphương pháp cho điểm (1 – 9) với 15 người thử Có đủ bằng chứng cho thấy mức độ ưathích đối với 03 loại hương liệu là khác nhau không? Nếu có, chỉ rõ các cặp hương liệukhác nhau có nghĩa
Đặt giả thuyết:
Trang 18BÀI 4 CORRELATION AND REGRESSION
4.1 Biểu đồ tán xạ và hệ số tương quan r
a Biểu đồ tán xạ (Scatter plot)
Scatter plot là biểu đồ biểu diễn trực quan mối quan hệ giữa 2 biến định lượng Dựa vào
đồ thị ta có thể xác định được dạng quan hệ giữa 2 biến X và Y
Biểu đồ thể hiện mối quan hệ giữa x và y khi x tăng thì y cũng tăng theo
Trong đồ thị tán xạ, nếu các điểm quy tụ xung quanh một đường thẳng (d) ta nói hai biếnngẫu nhiên X và Y có một sự tương quan tuyến tính Đường thẳng (d) được gọi là đườnghồi quy tuyến tính
b Hệ số tương quan ( Pearson’s r )
Trang 19Là 1 con số giải thích mối quan hệ giữa hai biến, giá trị có thể chạy từ -1 đến +1
r (+) : gọi là tương quan tuyến tính thuận (x↑,y↑)
r (-): gọi là tương quan tuyến tính nghịch (x↑, y↓) hoặc (x↓, y↑)
r= 0.8-1: tương quan rất mạnh
r = 0,6÷0,8 : tương quan mạnh
r = 0,4÷0,6 : tương quan trung bình
r < 0,4 : tương quan yếu
Hệ số r càng lớn thì tương quan giữa X và Y càng chặt chẽ
Cách tính hệ số tương quan: r =
Trong đó: Zx, ZY là chỉ số Zscores = của biến X và Y
n: cỡ mẫu ( c mẫu càng lớn thì tỷ lệ chính xác càng cao)
Trang 20Ví dụ 1:
Tính Mean = Hàm AVERAGE
Tính sd = Hàm STDEV.S
ZX = ; ZY = ; ZX.ZY = ZX ×ZY
Tính r vào : Dùng lệnh Data > Data analysis > Correlation:
Với r = 0.99 Kết luận: Tương quan tuyến tính thuận (x↑,y↑)
r > 0,8 : tương quan rất mạnh
Đường tương quan biểu diễn trên một đường thẳng
Trang 214.2 Hồi qui tuyến tính (Regression)
: giá trị trung bình của biến độc lập X
là giá trị trung bình của biến phụ thuộc Y
xi : Là giá trị của biến độc lập X trong lần quan sát thứ i
yi : Là giá trị của biến phụ thuộc Y trong lần quan sát thứ i
Tiêu chí để đánh giá mô hình tốt hay xấu:
Tốt: giá trị tiên lượng gần với giá trị quan sát (+)
Xấu: giá trị tiên lượng khác xa với giá trị quan sát (-)
Ví dụ 2: Lấy số liệu ở vi dụ 1 ta tính theo công thức trên tìm b1 và b0
Vậy phương trình hồi quy viết lại thành: y=1.96x+4.88
Trang 22 Giải trên excel: Vào Insert > Charts > scatter
Vào Design > Chart layouts chọn Layouts 9 ta được kết quả: Kết quả thu được:
Trang 23Kết luận: Những thay đổi của y được giải thích khoảng 98.52% bởi những yếu tố x.
4.2 Tương quan không phải là nhân quả (correlation is not causation)
Nghĩa là: Hai biến tương quan nhau không có nghĩa là 2 biến có quan hệ nhân quả
Bài tập ứng dụng:
Tìm hiểu mối quan hệ giữa số người tử vong do tai nạn giao thông từ năm 2008-2018:
Kết luận: Số người tử vong do được giải thích khoảng 20,61% bởi tai nạn giao thông
Trang 24BÀI 5 T – TEST
T – test dùng để kiểm định có hay không sự khác biệt của giá trị trung bình của một biếnđơn với một giá trị cụ thể, với giả thuyết ban đầu cho rằng giá trị trung bình cần kiểmnghiệm thì bằng với một con số cụ thể nào đó
5.1 One sample T – test:
Dùng để so sánh giá trị trung bình của mẫu sao với giá trị đã biết
Ví dụ: Một nhà máy sản xuất bánh quy làm ra sản phẩm có khối lượng là 8g Kiểm tra
chất lượng sản phẩm người ta lấy 10 mẫu từ một day chuyền để kiểm tra xem khối lượngsản phẩm chênh lệch như thế nào đối với khối lượng chuẩn
Trang 25Vào Data Data Analysic t-Test: Two-Sample Assuming Unequal Variances
Chọn α = 0,05 Ta được bảng kết quả
5.2 Independent sample T – test
So sánh giá trị trung bình của tổng thể dựa trên hai mẫu độc lập được xét từ tổng thể
Ví dụ: Nghiên cứu hiệu quả của hai phương pháp diệt chuột bằng phương pháp bẫy (vật
lý) và phương pháp hóa học Ta có bảng dữ liệu
Trang 26Nhập bảng số liệu vào excel
Data Data Analysic t-Test: Two-Sample Assuming Equal Variances
Trang 27Chọn α = 0,05, ta được bảng kết quả.
5.3 Paired sample t – test
So sánh giá trị ở thời điểm trước và sau khi xử lý
Ví dụ: một công ty muốn so sánh mức độ yêu thích của người tiêu dùng về một loại siro
trước và sau khi thay đổi loại đường sử dụng Ta được bảng dữ liệu:
Trang 2810 6,5 9.4Nhâp bảng dữ liệu vào excel
Data Data Analysic t-Test: Paired Two Sample for MeansChọn α = 0,05 Ta có kết quả