1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thiết kế và phân tích thí nghiệm đỗ lê hữu nam (bản cập nhật 2016)pdf

192 30 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 192
Dung lượng 3 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

 Quy luật để giải thích, phân loại và lưu trữ dữ liệu trong quá trình mã hóa . Những con số hoặc biểu tượng thực sự gắn cho nguyên liệu thô.. Định nghĩa tập dữ liệu - Data File Termino

Trang 1

Thiết kế và phân tích thí nghiệm

GV: TS Đỗ Lê Hữu Nam Khoa: Công nghệ thực phẩm

Trang 2

Các chủ đề

 1.Giới thiệu môn học

 2.Thu thập dữ liệu thống kê

 3.Tóm tắt và trình bày dữ liệu

 4 Mô tả dữ liệu bằng các đặc trưng đo lường

 5.Ước lượng

 6.Kiểm định giả thuyết

 7.Phân tích phương sai

 8.Tương quan và hồi quy

 9.Thiết kế thí nghiệm

Trang 3

Chủ đề 1

Giới thiệu môn học

 - Các khái niệm cơ bản:

 + Tổng thể (Population)

 + Đơn vị tổng thể

 + Mẫu (Sample)

Trang 4

 + Quan sát

 +Tiêu thức thống kê

 + Các loại thang đo: Thang đo định danh Thang đo thứ bậc

Thang đo khoảng

Thang đo tỷ lệ

Trang 5

Chủ đề 2

Thu thập dữ liệu thống kê

Trang 6

 1 Xác định dữ liệu cần thu thập

 2 Dữ liệu định tính và dữ liệu định lượng

 3 Dữ liệu thứ cấp và dữ liệu sơ cấp

 4 Các phương pháp thu thập dữ liệu ban đầu

 Trực tiếp, gián tiếp

 5 Xây dựng kế hoạch

 6 Sai số trong điều tra

Trang 7

Xin vui lòng nhớ,

 Garbage in, garbage out! (Ngạn ngữ)

 Nếu dữ liệu được thu thập không hợp lý, hoặc mã hóa không đúng, thì kết quả nghiên cứu sẽ là “garbage”.

Trang 8

Chủ đề 3

Tóm tắt và trình bày dữ liệu

 Dữ liệu thô - Raw Data

 Là phản hồi chưa được xử lý từ một nguồn (người hoặc máy móc), chính xác như đã được thể hiện từ nguồn đấy.

 Lỗi khách quan

 Lỗi do nguồn phát không bị quy trách nhiệm về việc tạo ra, ví dụ phóng viên phỏng vấn một ca sỹ nổi tiếng.

 Tính nguyên vẹn của thông tin - Data Integrity

 Lưu ý rằng Dữ liệu thực sự chứa đựng thông tin mà người nghiên cứu đang cố gắng khai thác cho vấn đề nghiên cứu

Trang 9

Tổng thể các bước của Xử lý số liệu

19–9

Trang 10

Biên tập (Editing)

 Biên tập - Editing

 Là quá trình kiểm tra sự hoàn thiện, thống nhất và rõ ràng của dữ liệu và sẵn sàng cho việc mã hóa và lưu trữ dữ liệu

v.d Kết quả đo độ nhớt 1 mẫu nước dịch ép hoa quả? 45

 Người nghiên cứu cần làm hiệu chỉnh, làm rõ hơn kết quả

 Vùng biên tập - Field Editing ( có ích trong phỏng vấn

Trang 11

Biên tập – Làm những gì?

 Kiểm tra sự thống nhất

 Kết quả thu được có phù hợp với đối tượng nghiên cứu hay không

 Kiểm tra sự thống nhất bằng một khung (framework) thu thập thông tin – v.d Đánh giá cảm quan một sản phẩm theo một thang điểm.

 Xử lý khi có một phản hồi hoàn toàn bị lỗi Thay đổi/ chỉnh sửa phản hồi chỉ khi có nhiều mối bằng chứng phải làm như thế.

 Công nghệ biên tập - Editing Technology

 Máy tính và lập trình có thể kiểm tra tính thống nhất một cách tự động.

Trang 12

Biên tập cho sự hoàn thiện (Completeness)

 Đối tượng không phản hồi (Nonresponse)

 Định nghĩa kỹ thuật dành cho một câu hỏi không có trả lời hoặc

nói cách khác gây ra thiếu sót thông tin cho cho một vấn đề

nghiên cứu V.d: Trong gia đình.

 Hầu hết các nhà nghiên cứu sẽ bỏ qua.

 Nhưng thỉnh thoảng câu hỏi này được liên kết với hàng loạt câu hỏi khác do đó người nghiên cứu phải điền vào chỗ

trống.

19–12

Trang 13

 Ngẫu nhiên chọn một câu trả lời.

 Quy cho một giá trị.

Trang 14

 Quy một giá trị

 Để điền một điểm thông tin thiếu thông qua sử dụng quá trình thống kê cung cấp một sự phỏng đoán có cơ sở dựa vào dữ liệu hiện có.

 v.d Dựa trên những trả lời khác của một người được

phỏng vấn.

Trang 15

Biên tập cho sự hoàn thiện

Trang 16

chú ý,

 Khi một vấn đề nghiên cứu có quá nhiều phản hồi bị sót, nó có thể không phù hợp cho một phân tích dữ liệu đã định sẵn Trong trường hợp đó, một câu hỏi nghiên cứu chuyên biệt hơn phải dành cho mẫu đối tượng nghiên cứu.

Trang 17

Làm thuận tiện hơn cho việc mã hóa

 Biên tập và xác định câu trả lời “ Không biết”

 Chính thống: “ Không biết” ( không có ý kiến)

 Do dự: “ Không biết” ( chưa rõ câu trả lời)

 Mơ hồ “ Không biết” ( chưa hiểu)

Trang 18

Biên tập (tt)

 Cạm bẫy của việc biên tập

 Đưa tính chủ quan trong quá trình biên tập dữ liệu

 Người biên tập dữ liệu phải thông minh, kinh nghiệm, và khách quan.

Một quy trình tiếp cận vấn đề phải được thiết kế trước bởi người nghiên cứu để

người biên tập có thể xác định các quy luật được rõ ràng.

 Biên tập thử nghiệm

 Biên tập trong bước thử nghiệm có thể chứng minh rất giá trị cho phát triển định dạng câu hỏi, hoàn thiện ngữ pháp cũng như thông tin.

Trang 19

 Quy luật để giải thích, phân loại và lưu trữ dữ liệu trong quá trình mã hóa

 Những con số hoặc biểu tượng thực sự gắn cho nguyên liệu thô.

 Mã hóa giả - Dummy Coding

 Mã hóa số “1” hoặc “0” khi mà mỗi con số thể hiện một phản hồi khác nhau

ví dụ “nam” hoặc “nữ”

Nếu k là số phân loại cho một biến định tính, thì cần k-1 biến giả.

Trang 20

Định nghĩa tập dữ liệu - Data File

Terminology

 Trường -Field

 Một tập hợp những thuộc tính mà nó thể hiện cho một dạng dữ liệu đơn- thường là một biến.

 Đặc tính chuỗi - String Characters

 Thuật ngữ máy tính để thể hiện định dạng biến sử dụng loạt các chữ cái ( không phải số) có thể hình thành một từ.

 Lưu trữ

 Một tập hợp của nhiều trường có liên quan thể hiện phản hồi từ một đơn vị mẫu.

Trang 21

Định nghĩa tập dữ liệu(tt)

 Tập dữ liệu - Data File

 Cách mà một dữ liệu được lưu trữ điện tử dưới dạng bảng tính trong đó hàng thể hiện những đơn vị của mẫu và cột thể hiện biến.

 Nhãn giá trị - Value Labels

 Nhãn giá trị thống nhất được chỉ định cho mỗi mã số dành cho một phản hồi.

Trang 22

Xây dựng mã - Code Construction

 2 quy luật cơ bản cho phân loại mã:

1. Phải bao quát mọi khía cạnh, nghĩa là một phân loại mã phải dùng được cho mọi biến.

2. Chúng phải loại trừ lẫn nhau và độc lập, nghĩa là không nên có sự chồng chéo giữa các

phân loại để đảm bảo rằng một đối tượng chỉ có thể xếp vào một phân loại.

 Xếp thành bảng

 Sắp xếp một mẫu nhỏ trong tổng số dữ liệu để xây dựng phân loại mã.

 Mục đích là sơ bộ xác định tính ổn định và sự phân phối của dữ liệu, sẽ quyết định một sơ

đồ mã hóa.

Trang 23

Thử nghiệm sắp xếp theo bảng

 V.d Thông tin về mạng xã hội facebook

 Người 1: Tôi không sử dụng Facebook vì nó lãng phí thời gian.

 Người 2 : Tôi không biết Facebook là gì.

 Người 3 : Facebook lấy đi của tôi nhiều thời gian.

 Dựa trên 3 câu trả lời trên, bạn có thể có 2 nhóm câu trả lời:

 Nhóm 1 : Yếu tố thời gian

 Nhóm 2: Không hiểu biết về Facebook

Trang 24

Thiết lập sơ đồ mã hóa

 Một sơ đồ mã hóa không nên quá phức tạp.

 Nhiệm vụ của người lập mã (coder)chỉ là tổng kết dữ liệu.

 Các phân loại phải đủ rõ ràng để người lập mã không phân loại đối tượng theo những cách khác nhau.

 Sách mã ( Code book)

 Xác định mỗi biến trong một nghiên cứu và phải đưa mô tả biến, tên mã, và vị trí trong ma trận dữ liệu.

Trang 25

Phần 4 Mô tả dữ liệu bằng các đặc trưng

đo lường (Descriptive Analysis)

 Descriptive Analysis

 Là sự chuyển hóa cơ bản của dữ liệu thô theo cách mô tả những đặc tính cơ bản như xu hướng chính (central tendency), phân tán (distribution), và tính biến thiên (variability).

 Biểu đồ (Histogram)

 Một cách hình ảnh thể hiện tần suất phân phối trong đó chiều cao của một thanh tương ứng với tần suất của một phân loại

Trang 26

Các cấp độ của Thang đo lường và các phân tích mô tả được đề nghị

20–26

Trang 27

Tạo ra và làm sáng tỏ một bảng biểu

 Bảng biểu

 Sự sắp đặt dữ liệu có trật tự trong một bảng hoặc trong một dạng tổng hợp khác có chỉ ra số lượng theo mỗi phân loại.

 Bảng tần suất - Frequency Table

 Là một bảng biểu diễn những câu trả lời khác nhau cho một câu hỏi

Đôi khi được gọi là bảng biểu ở lề (marginal tabulation).

Trang 28

Ví dụ về Frequency Table

Trang 29

 Bảng ngẫu nhiên - Contingency Table

 Một ma trận dữ liệu thể hiện tần suất của một số tổ hợp nhiều biến.

 Bảng lề - Marginals

 Tổng hàng và cột trong một trong một bảng ngẫu nhiên, được trình bày ở lề của nó.

Trang 30

Cross-Tabulation Tables from a Survey Regarding AIG and Government Bailouts ( AIG – Tập đoàn bảo hiểm Mỹ, bailout: viện trơ)

20–30

Trang 31

EXHIBIT 20.3 Different Ways of Depicting the Cross-Tabulation of Biological Sex and

Target Patronage ( mua sắm ở chỗ quen biết)

20–31

Trang 32

Cross-Tabulation (tt)

 Bảng ngang theo phần trăm (Percentage Cross-Tabulations)

 Dữ liệu thống kê theo đối tượng trong nghiên cứu ( theo hàng và cột) được sử dụng

cơ sở để tính phần trăm.

 Sự tỷ mỉ và tinh lọc

 Phân tích tỉ mỉ - là sự phân tích của bảng ngang cho từng cấp độ của một biến

mà trước đó chưa được xem xét, chẳng hạn những nhóm nhỏ của mẫu.

 Biến điều hòa (Moderator variable) – là biến thứ ba, thay đổi bản chất của mối quan

hệ giữa biến độc lập và phụ thuộc.

Trang 33

EXHIBIT 20.4 Cross-Tabulation of Marital Status, Sex, and Responses to the Question

“Do You Shop at Target?”

Trang 34

Cross-Tabulation (tt)

 Có bao nhiêu bảng ngang?

 Mỗi phản hồi đều có thể diễn tả một biến.

 Khi những giả thuyết bao gồm mối quan hệ giữa hai phân loại biến, bảng ngang là sự lựa chọn đúng đắn.

 Phân tích góc phần tư - Quadrant Analysis

 Là một sự mở rộng của bảng ngang trong đó phản hồi theo 2 thang mức độ được dựng thành 4 góc phần tư theo 2 hướng bảng.

Trang 35

EXHIBIT 20.5 An Importance-Performance or Quadrant Analysis of Hotels

Trang 36

Chuyển hóa dữ liệu -Data Transformation

Trang 37

Vấn đề với chuyển hóa dữ liệu

 Phân chia theo Trung vị

 Chia một dữ liệu thành 2 loại bằng cách sắp xếp giá trị dưới trung vị và trên trung

vị.

 Cách tiếp cận áp dụng tốt nhất chỉ khi dữ liệu thể hiện 2 phương thức thuộc tính.

 Sự chia nhỏ một cách không hợp lý của biến liên tục thành nhóm nhỏ không đảm

bảo thông tin chứng đựng được chuyển hóa nguyên vẹn.

20–37

Trang 38

EXHIBIT 20.6 Bimodal Distributions Are Consistent with Transformations

into Categorical Values

20–38

Trang 39

EXHIBIT 20.7 The Problem with Median Splits with Unimodal Data

20–39

Trang 40

 Thể hiện chuyển hóa dữ liệu đơn giản cho phép nhà nghiên cứu lần theo giá trị biến

theo thời gian để so sánh một biến với những biến khác.

 Sự chia độ cho phép điểm số hoặc khảo sát liên quan đến chu kỳ hoặc con số nhất

định.

20–40

Trang 41

EXHIBIT 20.8 Hours of Television Usage per Week

20–41

Trang 42

Tính toán mức độ phân cấp (rank order)

 Mức độ phân cấp

 Phân cấp dữ liệu có thể tổng kết bằng sự chuyển hóa dữ liệu.

 Sự chuyển hóa bao gồm nhân tần suất với điểm cấp độ tạo ra một thang mới.

20–42

Trang 43

EXHIBIT 20.9 Executive Rankings of Potential Conference Destinations

20–43

Trang 44

EXHIBIT 20.10 Frequencies of Conference Destination Rankings

20–44

Trang 45

EXHIBIT 20.11 Pie Charts Work Well with Tabulations and Cross-Tabulations

20–45

Trang 46

Thống kê mô tả - Descriptive Statistics

4-1 Tổng quan

4-2 Tổng kết dữ liệu với bảng tần suất

4-3 Hình ảnh của dữ liệu

4-4 Đo lường trung tâm

4-5 Đo lường sự biến đổi

4-6 Đo lường vị trí

4-7 Thăm dò phân tích dữ liệu - Exploratory Data Analysis (EDA)

Trang 47

 Thống kê mô tả

Tổng hợp hay mô tả những thuộc tính quan trọng của tập hợp dữ liệu đã biết

Thống kê suy luận - Inferential Statistics

dùng dữ liệu mẫu để đưa ra kết luận (hoặc

khái quát hóa) về một quần thể (population)

Trang 48

1 Trung tâm ( Center) : Là một giá trị đại diện hoặc trung bình mà

giá trị đó cho biết khoảng giữa của dãy dữ liệu phân bố ở đâu

2 Sự biến đổi ( Variation) : Sự đo lường về mức độ khác nhau giữa

các giá trị

3 Sự phân phối ( Distribution) : Bản chất hoặc hình dạng phân phối

của dữ liệu (ví dụ hình chuông, đồng dạng hay lệch)

4 Ngoại vi - Outliers : Những giá trị của mẫu nằm rất xa phần lớn các giá trị còn lại

5 Thời gian - Time : Thay đổi thuộc tính dữ liệu theo thời gian

Những thuộc tính quan trọng của dữ liệu

Trang 49

 Bảng tần suất - Frequency Table

Danh sách các lớp (hoặc loại) của giá trị,

kèm với tần suất ( hoặc số lần có mặt) của các giá trị rơi vào mỗi lớp ấy.

4-2 Tổng hợp dữ liệu với

Bảng tần suất

Trang 52

Frequency Table

Những định nghĩa

Trang 53

Giới hạn dưới của lớp -Lower Class Limits

Trang 54

Giới hạn trên của lớp - Upper Class Limits

Trang 55

Là những con số dùng để phân chia các lớp, nhưng không có chỗ trống tạo ra bởi giới hạn của lớp

Trang 56

14.5Class

Boundaries

Trang 57

Điểm chính giữa của một lớp

Class Midpoints

Trang 58

Điểm giữa của một lớp

Trang 59

là độ khác nhau giữa 2 giới hạn dưới liên tục hoặc 2 ranh giới liên tục giữa các lớp

Bề rộng của một lớp - Class Width

Trang 61

1 Các lớp không chồng chéo lên nhau.

2 Bao hàm tất cả các lớp ngay cả khi tần suất bằng 0.

Trang 62

3 Lựa chọn giới hạn dưới đầu tiên trùng với điểm thấp nhất hoặc một giá trị hợp lý nhỏ hơn giá trị thấp nhất một ít.

4 Cộng bề rộng lớp vào điểm bắt đầu đấy để có giới hạn dưới thứ hai, cộng bề rộng vào giới hạn dưới thứ hai để có giới hạn dưới thứ ba

và tiếp tục

5 Liệt kê các giới hạn cuối trong cột hàng dọc và điền giới hạn trên.

6 Kiểm từng giá trị để tìm tổng tần suất cho mỗi lớp.

Trang 64

Tương quan tần suất

Tổng tần suất

Trang 65

Bảng tương quan tần suất

20/52 = 38.5% 14/52 = 26.9% etc.

Tổng tần suất = 52

Trang 66

Tần suất tích lũy (Cumulative)

Cumulative Frequencies

Rating

Cumulative Frequency

Trang 67

Less than 3 20 Less than 6 34 Less than 9 49 Less than 12 51 Less than 15 52 Rating Cumulative Frequency

Trang 69

Trung bình (Trung binh số học - Arithmetic Mean)

AVERAGE

Là số có được khi chia tổng các giá trị cho số giá trị

Những định nghĩa

Trang 70

Ghi chú

Trang 71

Ghi chú

µ ‘muy’ và thể hiện trung binh của tất cả giá trị trong 1 quần thể

Tiếng Anh: ‘x-bar’ và thể hiện trung bình của một dãy giá trị

Trang 72

thường ký hiệu x ( ‘x-tilde’)

không ảnh hưởng bởi cực trị

Trang 74

 Mode

giá trị xuất hiện thường xuyên nhất

Bimodal Multimodal

No Mode

hiệu M

Là sự đo lường xu hướng chính duy nhất với dữ liệu danh nghĩa ( nominal data)

Những định nghĩa

Trang 76

 khoảng giữa - Midrange

Là trung binh cộng của giá trị lớn nhất và giá trị

bé nhất trong dữ liệu ban đầu

2

Những định nghĩa

Trang 77

 Tính đối xứng

Dữ liệu là đối xứng nếu nửa bên trái của

biểu đồ là phản chiếu của nửa bên phải.

Dữ liệu là lệch nếu nó không đối xứng hay

nó mở rộng về một bên hơn so với phần còn lại

Những định nghĩa

Trang 78

Mean Mode

Median Mode = Trung bình = Trung vị

Đối xứng

Trang 79

Sản xuất Nước mắm

Sản xuất tinh bột sắn

6.5 4.2

6.6 5.4

6.7 5.8

6.8 6.2

7.1 6.7

7.3 7.7

7.4 7.7

7.7 8.5

7.7 9.3

7.7 10.0

Sản xuất Nước mắm

7.15 7.20 7.7 7.10

Sản xuất tinh bột sắn

7.15 7.20 7.7 7.10

Mean Median Mode Midrange

Ví du: Bảng đo ph của nước thải 2 nhà máy thực phẩm

Trang 80

Đo lường sự khác biệt

Trang 81

Phân bố (range) =

Đo lường sự khác biệt

Trang 82

đo lường sự khác biệt của những giá trị

( độ lệch trung bình so với mean)

Độ lệch chuẩn (standard deviation)

Đo lường sự khác biệt

Trang 83

Công thức độ lệch chuẩn mẫu

n - 1

Trang 84

Công thức độ lệch chuẩn mẫu (dạng rút gọn)

n (n - 1)

s = n (Σx 2 ) - (Σx) 2

Trang 85

Σ x - x

Công thức trung bình tuyệt đối độ lệch

n

Trang 87

Phương sai - Variance

Đo lường sự khác biệt

Trang 88

Phương sai mẫu

Trang 89

Range 4

s = highest value - lowest value

4

Trang 90

Quy luật thực nghiệm

(áp dụng cho phân phối hình chuông )

Trang 91

x - s x x + s

68% within

1 standard deviation

Quy luật thực nghiệm

(áp dụng cho phân phối hình chuông )

Trang 92

Quy luật thực nghiệm

(áp dụng cho phân phối hình chuông )

Trang 93

Quy luật thực nghiệm

(áp dụng cho phân phối hình chuông )

Trang 94

Định lý Chebyshev

 Áp dụng cho phân phối bất cứ hình dạng nào.

Phần của bất cứ dãy dữ liệu nằm trong K độ lệch chuẩn

Trang 95

z Score (hay giá trị tiêu chuẩn)

hoặc dưới giá trị trung bình

Đo lường vị trí

Trang 97

- 3 - 2 - 1 0 1 2 3

Z

Unusual Values

Unusual Values

Ordinary Values

Diễn đạt Z Scores

FIGURE 2-16

Trang 98

Phần tư (Quartiles), Phần mười (Deciles),

Phần trăm (Percentiles)

Đo lường vị trí

Trang 101

99 Percentiles

Phần trăm - Percentiles

Trang 102

Quartiles, Deciles, Percentiles

Phần chia - Fractiles

(Quantiles)

Phân chia dữ liệu thành những phần bằng nhau

Trang 104

Ngoại vi - Outliers

 Là giá trị phân bố rất xa so với hầu hết các

giá trị khác

 Là cực trị

 Có ảnh hưởng lớn đến giá trị trung bình,

độ lệch chuẩn và tỷ lệ trên biểu đồ do đó bản chất của phân phối cũng không rõ

ràng

Trang 105

Biểu đồ hình hộp -Boxplots

(Biểu đồ Hộp và đuôi )

Cung cấp thông tin:

Rất có ích để so sánh 2 hay

nhiều dãy dữ liệu.

Trang 107

Boxplot of Qwerty Word Ratings

Trang 108

Hình chuông

Bell-Shaped

Lệch Skewed

Boxplots

Đồng dạng Uniform

Ngày đăng: 17/02/2021, 09:24

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w