1. Trang chủ
  2. » Luận Văn - Báo Cáo

BÁO CÁO MÔN ỨNG DỤNG CÔNG NGHỆ TIN HỌC TRONG THỰC PHẨM

29 94 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 2,07 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BẢN PHÂN CÔNG NHIỆM VỤ 2 BÀI 1: THỐNG KÊ MÔ TẢ (EXPLORING DATA) 4 1.1 Cases, variables, and levels of measurement 4 1.2 Mode, mean, median 4 1.3 Disperson (mức độ phân tán của dữ liệu ) 5 1.4 Phương sai, độ lệch chuẩn, zscores 7 BÀI 2: HISTOGRAM AND CONTROL CHART 8 BÀI 3. KIỂM ĐỊNH ANOVA 11 3.1 One way anova 11 3.2 Two way anova with replications 13 3.3 Two – way anova without replications 15 3.4 Bài tập ANOVA One way 15 BÀI 4. CORRELATION AND REGRESSION 17 4.1. Biểu đồ tán xạ và hệ số tương quan r 17 4.2. Hồi qui tuyến tính (Regression) 20 4.2 Tương quan không phải là nhân quả (correlation is not causation) 22 BÀI 5. T – TEST 23 5.1. One sample T – test: 23 5.2. Independent sample T – test 24 5.3. Paired sample t – test 26 BÀI 1: THỐNG KÊ MÔ TẢ (EXPLORING DATA) 1.1 Cases, variables, and levels of measurement Cases: Đối tượng (một cái gì đó hoặc một người nào đó) Variables: Biến (đặc điểm của một cái gì đó của một người nào đó, cần phải thay đổi) không dao động thì không có giá trị Biến thì có 2 loại: Biến định tính: không đo được bằng con số (Categorial variable). Biến định tính được thể hiện qua biểu đồ tròn và cột. Biến định lượng: đo được bằng con số (Quantitative variable). Biến định lượng không thể thể hiện qua biểu đồ. Muốn thể hiện qua biểu đồ ta phải mã hóa (recode) từ biến định lượng sang biến định tính. Biểu đồ tròn biểu diễn % (sử dụng khi số lượng mẫu 5) Levels of measurement: bao gồm 4 cấp Nominal level Ordinal level Interval level Ratio level 1.2 Mode, mean, median Mode: Là giá trị xuất hiện nhiều nhất (cao nhất). Dùng lệnh MODE Median (trung vị): Là giá trị ở giữa chúng ta quan sát được khi sắp tất cả các giá trị hay nói cách khác thì trung vị là trung bình của các vị trí. Để xác định được trung vị thì cần sắp xếp các số từ nhỏ đến lớn (có trùng số vẫn sắp) sau đó chọn số ở giữa. Dùng lệnh MEDIAN Mean: Là giá trị trung bình. Dùng lệnh AVERAGE = : Là tổng của tất cả các phần tử chia cho tổng số lượng phân tử. Khi nào sử dụng trung vị và trung bình? Nếu trong dữ liệu có outlier (giá trị lạ) thì tính theo median. Vì outlier là giá trị ngoại lai đó là giá trị nằm bên ngoài nếu tin outlier thì sẽ bị sai. 1.3 Disperson (mức độ phân tán của dữ liệu ) Mức độ phân tán của dữ liệu sẽ được biểu thị thông qua: Range, Interquartile range, Boxplot (biểu đồ hộp) Range: Giá trị lớn nhất – Giá trị nhỏ nhất = Max (x) – Min (x) Interquartile range (IQR): hay còn gọi là khỏang tứ phân vị, là sự chênh lệch của giá trị cao nhất và thấp nhất của các tứ phân vị. sử dụng hàm QUARTIEL Đại lượng này được tính ra bằng cách lấy giá trị tứ phân vị thứ 3 trừ đi giá trị tứ phân vị thứ nhất.

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM

KHOA CÔNG NGHỆ THỰC PHẨM

BÁO CÁO ỨNG DỤNG CÔNG NGHỆ TIN HỌC TRONG CÔNG NGHỆ THỰC

Trang 2

BẢN PHÂN CÔNG NHIỆM VỤ

1 Võ Ngọc Thanh Trang Bài 2, 3, tổnghợp

2 Phạm Ngô Xuân Trang Bài 1,4,5

Trang 3

M C L C ỤC LỤC ỤC LỤC

BẢN PHÂN CÔNG NHIỆM VỤ 2

BÀI 1: THỐNG KÊ MÔ TẢ (EXPLORING DATA) 4

1.1 Cases, variables, and levels of measurement 4

1.2 Mode, mean, median 4

1.3 Disperson (mức độ phân tán của dữ liệu ) 5

1.4 Phương sai, độ lệch chuẩn, z-scores 7

BÀI 2: HISTOGRAM AND CONTROL CHART 8

BÀI 3 KIỂM ĐỊNH ANOVA 11

3.1 One way anova 11

3.2 Two way anova with replications 13

3.3 Two – way anova without replications 15

3.4 Bài tập ANOVA One way 15

BÀI 4 CORRELATION AND REGRESSION 17

4.1 Biểu đồ tán xạ và hệ số tương quan r 17

4.2 Hồi qui tuyến tính (Regression) 20

4.2 Tương quan không phải là nhân quả (correlation is not causation) 22

BÀI 5 T – TEST 23

5.1 One sample T – test: 23

5.2 Independent sample T – test 24

5.3 Paired sample t – test 26

Trang 4

BÀI 1: THỐNG KÊ MÔ TẢ (EXPLORING DATA)

1.1 Cases, variables, and levels of measurement

Cases: Đối tượng (một cái gì đó hoặc một người nào đó)

Variables: Biến (đặc điểm của một cái gì đó của một người nào đó, cần phải thay đổi)không dao động thì không có giá trị

từ biến định lượng sang biến định tính

 Biểu đồ tròn biểu diễn % (sử dụng khi số lượng mẫu <5)

 Biểu đồ cột biểu diễn giá trị tuyệt đối (sử dụng khi số lượng mẫu >5)

Levels of measurement: bao gồm 4 cấp

 Nominal level

 Ordinal level

 Interval level

 Ratio level

1.2 Mode, mean, median

Mode: Là giá trị xuất hiện nhiều nhất (cao nhất) Dùng lệnh MODE

Median (trung vị): Là giá trị ở giữa chúng ta quan sát được khi sắp tất cả các giá trị haynói cách khác thì trung vị là trung bình của các vị trí

 Để xác định được trung vị thì cần sắp xếp các số từ nhỏ đến lớn (có trùng số vẫnsắp) sau đó chọn số ở giữa Dùng lệnh MEDIAN

Mean: Là giá trị trung bình Dùng lệnh AVERAGE

´

x = ∑x i

n

´

x: Là tổng của tất cả các phần tử chia cho tổng số lượng phân tử

Khi nào sử dụng trung vị và trung bình?

Trang 5

Nếu trong dữ liệu có outlier (giá trị lạ) thì tính theo median Vì outlier là giá trị ngoại lai

đó là giá trị nằm bên ngoài nếu tin outlier thì sẽ bị sai

1.3 Disperson (mức độ phân tán của dữ liệu )

Mức độ phân tán của dữ liệu sẽ được biểu thị thông qua: Range, Interquartile range,Boxplot (biểu đồ hộp)

 Range: Giá trị lớn nhất – Giá trị nhỏ nhất = Max (x) – Min (x)

 Interquartile range (IQR): hay còn gọi là khỏang tứ phân vị, là sự chênh lệch củagiá trị cao nhất và thấp nhất của các tứ phân vị sử dụng hàm QUARTIEL

Đại lượng này được tính ra bằng cách lấy giá trị tứ phân vị thứ 3 trừ đi giá trị tứ phân vịthứ nhất

𝐼𝑄𝑅 = 𝑄3 − 𝑄1

Boxplot (biểu đồ hộp): Biểu diễn các đại lượng quan trọng của dãy số như Min, Max,Quartile (Q1, Q2, Q3), Interquartile range một cách dễ hiểu

Min (max, 𝑄3 + 1.5 ∗ 𝐼𝑄𝑅)𝑀𝑎𝑥 (𝑚𝑖𝑛, 𝑄1 − 1.5 ∗ 𝐼𝑄𝑅)

Ví dụ:

Grou

p 1 34.2 32.6 33.4 34.5 33.9 34.5 33.8 32.9 33.6Grou

p 2 33.5 34.5 34.3 33.5 33.7 33.6 33.5 32.9 34.6

Bước 1: Ta nhập dữu liệu vào exel theo cột

Bước 2: ta tính các giá trị sửu dụng các hàm trong exel

 Mode vào fx chọn hàm mode -> khối cột đã nhập

 Median vào fx chọn hàm median

 Mead vào fx chọn hàm average

 Q1, Q2, Q3 vào fx chọn hàm quartile

 Min vào fx chọn hàm min

 Max vào fx chọn hàm max

 Range = max – min

Trang 7

1.4 Phương sai, độ lệch chuẩn, z-scores

Phương sai: bình phương độ lệch của một phần tử so với giá trị trung bình Sử dụng hàmVAR.S

Độ lệch chuẩn: độ lệch trung bình của 1 phần tử so với giá trị trung bình

Z-scores: khoảng cách từ một điểm đến giá trị trung bình

Trang 8

BÀI 2: HISTOGRAM AND CONTROL CHART

Ví dụ: Tại một nhà máy sản xuất bánh cookie sử dụng dây chuyền đóng gói mới, khối

lượng tịnh chuẩn theo mong muốn của công ty cho của một gói sản phẩm là 150g Một

mẻ cho ra 300 sản phẩm Nhân viên lấy 150 sản phẩm bất kỳ của mỗi mẻ đi cân lại đượcbản số liệu sản phẩm lỗi như sau:

Trang 9

 MAX: =MAX(data defective)

 MIN: =MIN(data defective)

Trang 10

 Bin: Số frequency theo min, max

Trang 11

BÀI 3 KIỂM ĐỊNH ANOVA

So sánh giá trị trung bình của nhiều nhóm:

Có 1 biến, mà biến có nhiều hơn 2 nhóm Ta tính giá trị trung bình của các nhóm

Nhiều hơn 1 biến mà mỗi biến có nhiều hơn hoặc bằng 2 nhóm

 Tại sao dùng ANOVA mà không dùng T-test?

Mỗi t-test với mức ý nghĩa α=0,05 hay độ chính xác của mỗi t-test là 95% Khi sử dụngnhiều T – test thì độ chính xác của kiểm định sẽ bị giảm xuống nên ta dùng ANOVA thay

vì dùng T – test mức độ chính xác sẽ cao hơn

3.1 One way anova

Ví dụ: Một trang trại gà người ta muốn so sánh sự tăng trưởng của gà đối với các loại

thức ăn khác nhau Họ sử dụng 3 loại thức ăn để thử nghiệm và thu được kết quả sau:

Trang 12

13 19,55 23,59 26,04

Nhập bảng dữ liệu vào excel

Data  Data Analysic  Anova: Single Factor

Chọn α = 0,05 ta có bảng kết quả

Trang 13

3.2 Two way anova with replications

Ví dụ: trang trại gà nói trên sử dụng thêm thức ăn dặm vào bữa ăn của những con gà, để

xem những con gà có sự thay đổi như thế nào

Trang 14

Nhập bảng dữ liệu vào excel

Data  Data Analysic  Anova: Two-Factor With Replication

Trang 15

Chọn α = 0,05, ta có bảng kết quả

3.3 Two – way anova without replications

Trang 16

Data  Data Analysic  Anova: Two-Factor Without Replication

Chọn α = 0,05, ta có bảng kết quả

3.4 Bài tập ANOVA One way

Dưới đây là kết quả đánh giá mức độ ưa thích đối với 3 loại hương liệu (A, B, C) bằngphương pháp cho điểm (1 – 9) với 15 người thử Có đủ bằng chứng cho thấy mức độ ưathích đối với 03 loại hương liệu là khác nhau không? Nếu có, chỉ rõ các cặp hương liệukhác nhau có nghĩa

Đặt giả thuyết:

Trang 18

BÀI 4 CORRELATION AND REGRESSION

4.1 Biểu đồ tán xạ và hệ số tương quan r

a Biểu đồ tán xạ (Scatter plot)

Scatter plot là biểu đồ biểu diễn trực quan mối quan hệ giữa 2 biến định lượng Dựa vào

đồ thị ta có thể xác định được dạng quan hệ giữa 2 biến X và Y

Biểu đồ thể hiện mối quan hệ giữa x và y khi x tăng thì y cũng tăng theo

Trong đồ thị tán xạ, nếu các điểm quy tụ xung quanh một đường thẳng (d) ta nói hai biếnngẫu nhiên X và Y có một sự tương quan tuyến tính Đường thẳng (d) được gọi là đườnghồi quy tuyến tính

b Hệ số tương quan ( Pearson’s r )

Trang 19

Là 1 con số giải thích mối quan hệ giữa hai biến, giá trị có thể chạy từ -1 đến +1

 r (+) : gọi là tương quan tuyến tính thuận (x↑,y↑)

 r (-): gọi là tương quan tuyến tính nghịch (x↑, y↓) hoặc (x↓, y↑)

 r= 0.8-1: tương quan rất mạnh

 r = 0,6÷0,8 : tương quan mạnh

 r = 0,4÷0,6 : tương quan trung bình

 r < 0,4 : tương quan yếu

Hệ số r càng lớn thì tương quan giữa X và Y càng chặt chẽ

Cách tính hệ số tương quan: r =

Trong đó: Zx, ZY là chỉ số Zscores = của biến X và Y

n: cỡ mẫu ( c mẫu càng lớn thì tỷ lệ chính xác càng cao)

Trang 20

Ví dụ 1:

Tính Mean = Hàm AVERAGE

Tính sd = Hàm STDEV.S

ZX = ; ZY = ; ZX.ZY = ZX ×ZY

Tính r vào : Dùng lệnh Data > Data analysis > Correlation:

Với r = 0.99 Kết luận: Tương quan tuyến tính thuận (x↑,y↑)

r > 0,8 : tương quan rất mạnh

Đường tương quan biểu diễn trên một đường thẳng

Trang 21

4.2 Hồi qui tuyến tính (Regression)

: giá trị trung bình của biến độc lập X

là giá trị trung bình của biến phụ thuộc Y

xi : Là giá trị của biến độc lập X trong lần quan sát thứ i

yi : Là giá trị của biến phụ thuộc Y trong lần quan sát thứ i

Tiêu chí để đánh giá mô hình tốt hay xấu:

 Tốt: giá trị tiên lượng gần với giá trị quan sát (+)

 Xấu: giá trị tiên lượng khác xa với giá trị quan sát (-)

Ví dụ 2: Lấy số liệu ở vi dụ 1 ta tính theo công thức trên tìm b1 và b0

Vậy phương trình hồi quy viết lại thành: y=1.96x+4.88

Trang 22

 Giải trên excel: Vào Insert > Charts > scatter

Vào Design > Chart layouts chọn Layouts 9 ta được kết quả: Kết quả thu được:

Trang 23

Kết luận: Những thay đổi của y được giải thích khoảng 98.52% bởi những yếu tố x.

4.2 Tương quan không phải là nhân quả (correlation is not causation)

Nghĩa là: Hai biến tương quan nhau không có nghĩa là 2 biến có quan hệ nhân quả

Bài tập ứng dụng:

Tìm hiểu mối quan hệ giữa số người tử vong do tai nạn giao thông từ năm 2008-2018:

Kết luận: Số người tử vong do được giải thích khoảng 20,61% bởi tai nạn giao thông

Trang 24

BÀI 5 T – TEST

T – test dùng để kiểm định có hay không sự khác biệt của giá trị trung bình của một biếnđơn với một giá trị cụ thể, với giả thuyết ban đầu cho rằng giá trị trung bình cần kiểmnghiệm thì bằng với một con số cụ thể nào đó

5.1 One sample T – test:

Dùng để so sánh giá trị trung bình của mẫu sao với giá trị đã biết

Ví dụ: Một nhà máy sản xuất bánh quy làm ra sản phẩm có khối lượng là 8g Kiểm tra

chất lượng sản phẩm người ta lấy 10 mẫu từ một day chuyền để kiểm tra xem khối lượngsản phẩm chênh lệch như thế nào đối với khối lượng chuẩn

Trang 25

Vào Data  Data Analysic  t-Test: Two-Sample Assuming Unequal Variances

Chọn α = 0,05 Ta được bảng kết quả

5.2 Independent sample T – test

So sánh giá trị trung bình của tổng thể dựa trên hai mẫu độc lập được xét từ tổng thể

Ví dụ: Nghiên cứu hiệu quả của hai phương pháp diệt chuột bằng phương pháp bẫy (vật

lý) và phương pháp hóa học Ta có bảng dữ liệu

Trang 26

Nhập bảng số liệu vào excel

Data  Data Analysic  t-Test: Two-Sample Assuming Equal Variances

Trang 27

Chọn α = 0,05, ta được bảng kết quả.

5.3 Paired sample t – test

So sánh giá trị ở thời điểm trước và sau khi xử lý

Ví dụ: một công ty muốn so sánh mức độ yêu thích của người tiêu dùng về một loại siro

trước và sau khi thay đổi loại đường sử dụng Ta được bảng dữ liệu:

Trang 28

10 6,5 9.4Nhâp bảng dữ liệu vào excel

Data  Data Analysic  t-Test: Paired Two Sample for MeansChọn α = 0,05 Ta có kết quả

Ngày đăng: 17/09/2020, 21:47

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w