Quy luật để giải thích, phân loại và lưu trữ dữ liệu trong quá trình mã hóa . Những con số hoặc biểu tượng thực sự gắn cho nguyên liệu thô.. Định nghĩa tập dữ liệu - Data File Termino
Trang 1Thiết kế và phân tích thí nghiệm
GV: TS Đỗ Lê Hữu Nam Khoa: Công nghệ thực phẩm
Trang 2Các chủ đề
1.Giới thiệu môn học
2.Thu thập dữ liệu thống kê
3.Tóm tắt và trình bày dữ liệu
4 Mô tả dữ liệu bằng các đặc trưng đo lường
5.Ước lượng
6.Kiểm định giả thuyết
7.Phân tích phương sai
8.Tương quan và hồi quy
9.Thiết kế thí nghiệm
Trang 3Chủ đề 1
Giới thiệu môn học
- Các khái niệm cơ bản:
+ Tổng thể (Population)
+ Đơn vị tổng thể
+ Mẫu (Sample)
Trang 4 + Quan sát
+Tiêu thức thống kê
+ Các loại thang đo: Thang đo định danh Thang đo thứ bậc
Thang đo khoảng
Thang đo tỷ lệ
Trang 5Chủ đề 2
Thu thập dữ liệu thống kê
Trang 6 1 Xác định dữ liệu cần thu thập
2 Dữ liệu định tính và dữ liệu định lượng
3 Dữ liệu thứ cấp và dữ liệu sơ cấp
4 Các phương pháp thu thập dữ liệu ban đầu
Trực tiếp, gián tiếp
5 Xây dựng kế hoạch
6 Sai số trong điều tra
Trang 7Xin vui lòng nhớ,
Garbage in, garbage out! (Ngạn ngữ)
Nếu dữ liệu được thu thập không hợp lý, hoặc mã hóa không đúng, thì kết quả nghiên cứu sẽ là “garbage”.
Trang 8Chủ đề 3
Tóm tắt và trình bày dữ liệu
Dữ liệu thô - Raw Data
Là phản hồi chưa được xử lý từ một nguồn (người hoặc máy móc), chính xác như đã được thể hiện từ nguồn đấy.
Lỗi khách quan
Lỗi do nguồn phát không bị quy trách nhiệm về việc tạo ra, ví dụ phóng viên phỏng vấn một ca sỹ nổi tiếng.
Tính nguyên vẹn của thông tin - Data Integrity
Lưu ý rằng Dữ liệu thực sự chứa đựng thông tin mà người nghiên cứu đang cố gắng khai thác cho vấn đề nghiên cứu
Trang 9Tổng thể các bước của Xử lý số liệu
19–9
Trang 10Biên tập (Editing)
Biên tập - Editing
Là quá trình kiểm tra sự hoàn thiện, thống nhất và rõ ràng của dữ liệu và sẵn sàng cho việc mã hóa và lưu trữ dữ liệu
v.d Kết quả đo độ nhớt 1 mẫu nước dịch ép hoa quả? 45
Người nghiên cứu cần làm hiệu chỉnh, làm rõ hơn kết quả
Vùng biên tập - Field Editing ( có ích trong phỏng vấn
Trang 11Biên tập – Làm những gì?
Kiểm tra sự thống nhất
Kết quả thu được có phù hợp với đối tượng nghiên cứu hay không
Kiểm tra sự thống nhất bằng một khung (framework) thu thập thông tin – v.d Đánh giá cảm quan một sản phẩm theo một thang điểm.
Xử lý khi có một phản hồi hoàn toàn bị lỗi Thay đổi/ chỉnh sửa phản hồi chỉ khi có nhiều mối bằng chứng phải làm như thế.
Công nghệ biên tập - Editing Technology
Máy tính và lập trình có thể kiểm tra tính thống nhất một cách tự động.
Trang 12Biên tập cho sự hoàn thiện (Completeness)
Đối tượng không phản hồi (Nonresponse)
Định nghĩa kỹ thuật dành cho một câu hỏi không có trả lời hoặc
nói cách khác gây ra thiếu sót thông tin cho cho một vấn đề
nghiên cứu V.d: Trong gia đình.
Hầu hết các nhà nghiên cứu sẽ bỏ qua.
Nhưng thỉnh thoảng câu hỏi này được liên kết với hàng loạt câu hỏi khác do đó người nghiên cứu phải điền vào chỗ
trống.
19–12
Trang 13 Ngẫu nhiên chọn một câu trả lời.
Quy cho một giá trị.
Trang 14 Quy một giá trị
Để điền một điểm thông tin thiếu thông qua sử dụng quá trình thống kê cung cấp một sự phỏng đoán có cơ sở dựa vào dữ liệu hiện có.
v.d Dựa trên những trả lời khác của một người được
phỏng vấn.
Trang 15Biên tập cho sự hoàn thiện
Trang 16chú ý,
Khi một vấn đề nghiên cứu có quá nhiều phản hồi bị sót, nó có thể không phù hợp cho một phân tích dữ liệu đã định sẵn Trong trường hợp đó, một câu hỏi nghiên cứu chuyên biệt hơn phải dành cho mẫu đối tượng nghiên cứu.
Trang 17Làm thuận tiện hơn cho việc mã hóa
Biên tập và xác định câu trả lời “ Không biết”
Chính thống: “ Không biết” ( không có ý kiến)
Do dự: “ Không biết” ( chưa rõ câu trả lời)
Mơ hồ “ Không biết” ( chưa hiểu)
Trang 18Biên tập (tt)
Cạm bẫy của việc biên tập
Đưa tính chủ quan trong quá trình biên tập dữ liệu
Người biên tập dữ liệu phải thông minh, kinh nghiệm, và khách quan.
Một quy trình tiếp cận vấn đề phải được thiết kế trước bởi người nghiên cứu để
người biên tập có thể xác định các quy luật được rõ ràng.
Biên tập thử nghiệm
Biên tập trong bước thử nghiệm có thể chứng minh rất giá trị cho phát triển định dạng câu hỏi, hoàn thiện ngữ pháp cũng như thông tin.
Trang 19 Quy luật để giải thích, phân loại và lưu trữ dữ liệu trong quá trình mã hóa
Những con số hoặc biểu tượng thực sự gắn cho nguyên liệu thô.
Mã hóa giả - Dummy Coding
Mã hóa số “1” hoặc “0” khi mà mỗi con số thể hiện một phản hồi khác nhau
ví dụ “nam” hoặc “nữ”
Nếu k là số phân loại cho một biến định tính, thì cần k-1 biến giả.
Trang 20Định nghĩa tập dữ liệu - Data File
Terminology
Trường -Field
Một tập hợp những thuộc tính mà nó thể hiện cho một dạng dữ liệu đơn- thường là một biến.
Đặc tính chuỗi - String Characters
Thuật ngữ máy tính để thể hiện định dạng biến sử dụng loạt các chữ cái ( không phải số) có thể hình thành một từ.
Lưu trữ
Một tập hợp của nhiều trường có liên quan thể hiện phản hồi từ một đơn vị mẫu.
Trang 21Định nghĩa tập dữ liệu(tt)
Tập dữ liệu - Data File
Cách mà một dữ liệu được lưu trữ điện tử dưới dạng bảng tính trong đó hàng thể hiện những đơn vị của mẫu và cột thể hiện biến.
Nhãn giá trị - Value Labels
Nhãn giá trị thống nhất được chỉ định cho mỗi mã số dành cho một phản hồi.
Trang 22Xây dựng mã - Code Construction
2 quy luật cơ bản cho phân loại mã:
1. Phải bao quát mọi khía cạnh, nghĩa là một phân loại mã phải dùng được cho mọi biến.
2. Chúng phải loại trừ lẫn nhau và độc lập, nghĩa là không nên có sự chồng chéo giữa các
phân loại để đảm bảo rằng một đối tượng chỉ có thể xếp vào một phân loại.
Xếp thành bảng
Sắp xếp một mẫu nhỏ trong tổng số dữ liệu để xây dựng phân loại mã.
Mục đích là sơ bộ xác định tính ổn định và sự phân phối của dữ liệu, sẽ quyết định một sơ
đồ mã hóa.
Trang 23Thử nghiệm sắp xếp theo bảng
V.d Thông tin về mạng xã hội facebook
Người 1: Tôi không sử dụng Facebook vì nó lãng phí thời gian.
Người 2 : Tôi không biết Facebook là gì.
Người 3 : Facebook lấy đi của tôi nhiều thời gian.
Dựa trên 3 câu trả lời trên, bạn có thể có 2 nhóm câu trả lời:
Nhóm 1 : Yếu tố thời gian
Nhóm 2: Không hiểu biết về Facebook
Trang 24Thiết lập sơ đồ mã hóa
Một sơ đồ mã hóa không nên quá phức tạp.
Nhiệm vụ của người lập mã (coder)chỉ là tổng kết dữ liệu.
Các phân loại phải đủ rõ ràng để người lập mã không phân loại đối tượng theo những cách khác nhau.
Sách mã ( Code book)
Xác định mỗi biến trong một nghiên cứu và phải đưa mô tả biến, tên mã, và vị trí trong ma trận dữ liệu.
Trang 25Phần 4 Mô tả dữ liệu bằng các đặc trưng
đo lường (Descriptive Analysis)
Descriptive Analysis
Là sự chuyển hóa cơ bản của dữ liệu thô theo cách mô tả những đặc tính cơ bản như xu hướng chính (central tendency), phân tán (distribution), và tính biến thiên (variability).
Biểu đồ (Histogram)
Một cách hình ảnh thể hiện tần suất phân phối trong đó chiều cao của một thanh tương ứng với tần suất của một phân loại
Trang 26Các cấp độ của Thang đo lường và các phân tích mô tả được đề nghị
20–26
Trang 27Tạo ra và làm sáng tỏ một bảng biểu
Bảng biểu
Sự sắp đặt dữ liệu có trật tự trong một bảng hoặc trong một dạng tổng hợp khác có chỉ ra số lượng theo mỗi phân loại.
Bảng tần suất - Frequency Table
Là một bảng biểu diễn những câu trả lời khác nhau cho một câu hỏi
Đôi khi được gọi là bảng biểu ở lề (marginal tabulation).
Trang 28Ví dụ về Frequency Table
Trang 29 Bảng ngẫu nhiên - Contingency Table
Một ma trận dữ liệu thể hiện tần suất của một số tổ hợp nhiều biến.
Bảng lề - Marginals
Tổng hàng và cột trong một trong một bảng ngẫu nhiên, được trình bày ở lề của nó.
Trang 30Cross-Tabulation Tables from a Survey Regarding AIG and Government Bailouts ( AIG – Tập đoàn bảo hiểm Mỹ, bailout: viện trơ)
20–30
Trang 31EXHIBIT 20.3 Different Ways of Depicting the Cross-Tabulation of Biological Sex and
Target Patronage ( mua sắm ở chỗ quen biết)
20–31
Trang 32Cross-Tabulation (tt)
Bảng ngang theo phần trăm (Percentage Cross-Tabulations)
Dữ liệu thống kê theo đối tượng trong nghiên cứu ( theo hàng và cột) được sử dụng
cơ sở để tính phần trăm.
Sự tỷ mỉ và tinh lọc
Phân tích tỉ mỉ - là sự phân tích của bảng ngang cho từng cấp độ của một biến
mà trước đó chưa được xem xét, chẳng hạn những nhóm nhỏ của mẫu.
Biến điều hòa (Moderator variable) – là biến thứ ba, thay đổi bản chất của mối quan
hệ giữa biến độc lập và phụ thuộc.
Trang 33EXHIBIT 20.4 Cross-Tabulation of Marital Status, Sex, and Responses to the Question
“Do You Shop at Target?”
Trang 34Cross-Tabulation (tt)
Có bao nhiêu bảng ngang?
Mỗi phản hồi đều có thể diễn tả một biến.
Khi những giả thuyết bao gồm mối quan hệ giữa hai phân loại biến, bảng ngang là sự lựa chọn đúng đắn.
Phân tích góc phần tư - Quadrant Analysis
Là một sự mở rộng của bảng ngang trong đó phản hồi theo 2 thang mức độ được dựng thành 4 góc phần tư theo 2 hướng bảng.
Trang 35EXHIBIT 20.5 An Importance-Performance or Quadrant Analysis of Hotels
Trang 36Chuyển hóa dữ liệu -Data Transformation
Trang 37Vấn đề với chuyển hóa dữ liệu
Phân chia theo Trung vị
Chia một dữ liệu thành 2 loại bằng cách sắp xếp giá trị dưới trung vị và trên trung
vị.
Cách tiếp cận áp dụng tốt nhất chỉ khi dữ liệu thể hiện 2 phương thức thuộc tính.
Sự chia nhỏ một cách không hợp lý của biến liên tục thành nhóm nhỏ không đảm
bảo thông tin chứng đựng được chuyển hóa nguyên vẹn.
20–37
Trang 38EXHIBIT 20.6 Bimodal Distributions Are Consistent with Transformations
into Categorical Values
20–38
Trang 39EXHIBIT 20.7 The Problem with Median Splits with Unimodal Data
20–39
Trang 40 Thể hiện chuyển hóa dữ liệu đơn giản cho phép nhà nghiên cứu lần theo giá trị biến
theo thời gian để so sánh một biến với những biến khác.
Sự chia độ cho phép điểm số hoặc khảo sát liên quan đến chu kỳ hoặc con số nhất
định.
20–40
Trang 41EXHIBIT 20.8 Hours of Television Usage per Week
20–41
Trang 42Tính toán mức độ phân cấp (rank order)
Mức độ phân cấp
Phân cấp dữ liệu có thể tổng kết bằng sự chuyển hóa dữ liệu.
Sự chuyển hóa bao gồm nhân tần suất với điểm cấp độ tạo ra một thang mới.
20–42
Trang 43EXHIBIT 20.9 Executive Rankings of Potential Conference Destinations
20–43
Trang 44EXHIBIT 20.10 Frequencies of Conference Destination Rankings
20–44
Trang 45EXHIBIT 20.11 Pie Charts Work Well with Tabulations and Cross-Tabulations
20–45
Trang 46Thống kê mô tả - Descriptive Statistics
4-1 Tổng quan
4-2 Tổng kết dữ liệu với bảng tần suất
4-3 Hình ảnh của dữ liệu
4-4 Đo lường trung tâm
4-5 Đo lường sự biến đổi
4-6 Đo lường vị trí
4-7 Thăm dò phân tích dữ liệu - Exploratory Data Analysis (EDA)
Trang 47 Thống kê mô tả
Tổng hợp hay mô tả những thuộc tính quan trọng của tập hợp dữ liệu đã biết
Thống kê suy luận - Inferential Statistics
dùng dữ liệu mẫu để đưa ra kết luận (hoặc
khái quát hóa) về một quần thể (population)
Trang 481 Trung tâm ( Center) : Là một giá trị đại diện hoặc trung bình mà
giá trị đó cho biết khoảng giữa của dãy dữ liệu phân bố ở đâu
2 Sự biến đổi ( Variation) : Sự đo lường về mức độ khác nhau giữa
các giá trị
3 Sự phân phối ( Distribution) : Bản chất hoặc hình dạng phân phối
của dữ liệu (ví dụ hình chuông, đồng dạng hay lệch)
4 Ngoại vi - Outliers : Những giá trị của mẫu nằm rất xa phần lớn các giá trị còn lại
5 Thời gian - Time : Thay đổi thuộc tính dữ liệu theo thời gian
Những thuộc tính quan trọng của dữ liệu
Trang 49 Bảng tần suất - Frequency Table
Danh sách các lớp (hoặc loại) của giá trị,
kèm với tần suất ( hoặc số lần có mặt) của các giá trị rơi vào mỗi lớp ấy.
4-2 Tổng hợp dữ liệu với
Bảng tần suất
Trang 52Frequency Table
Những định nghĩa
Trang 53Giới hạn dưới của lớp -Lower Class Limits
Trang 54Giới hạn trên của lớp - Upper Class Limits
Trang 55Là những con số dùng để phân chia các lớp, nhưng không có chỗ trống tạo ra bởi giới hạn của lớp
Trang 5614.5Class
Boundaries
Trang 57Điểm chính giữa của một lớp
Class Midpoints
Trang 58Điểm giữa của một lớp
Trang 59là độ khác nhau giữa 2 giới hạn dưới liên tục hoặc 2 ranh giới liên tục giữa các lớp
Bề rộng của một lớp - Class Width
Trang 611 Các lớp không chồng chéo lên nhau.
2 Bao hàm tất cả các lớp ngay cả khi tần suất bằng 0.
Trang 623 Lựa chọn giới hạn dưới đầu tiên trùng với điểm thấp nhất hoặc một giá trị hợp lý nhỏ hơn giá trị thấp nhất một ít.
4 Cộng bề rộng lớp vào điểm bắt đầu đấy để có giới hạn dưới thứ hai, cộng bề rộng vào giới hạn dưới thứ hai để có giới hạn dưới thứ ba
và tiếp tục
5 Liệt kê các giới hạn cuối trong cột hàng dọc và điền giới hạn trên.
6 Kiểm từng giá trị để tìm tổng tần suất cho mỗi lớp.
Trang 64Tương quan tần suất
Tổng tần suất
Trang 65Bảng tương quan tần suất
20/52 = 38.5% 14/52 = 26.9% etc.
Tổng tần suất = 52
Trang 66Tần suất tích lũy (Cumulative)
Cumulative Frequencies
Rating
Cumulative Frequency
Trang 67Less than 3 20 Less than 6 34 Less than 9 49 Less than 12 51 Less than 15 52 Rating Cumulative Frequency
Trang 69Trung bình (Trung binh số học - Arithmetic Mean)
AVERAGE
Là số có được khi chia tổng các giá trị cho số giá trị
Những định nghĩa
Trang 70Ghi chú
Trang 71Ghi chú
µ ‘muy’ và thể hiện trung binh của tất cả giá trị trong 1 quần thể
Tiếng Anh: ‘x-bar’ và thể hiện trung bình của một dãy giá trị
Trang 72 thường ký hiệu x ( ‘x-tilde’)
không ảnh hưởng bởi cực trị
Trang 74 Mode
giá trị xuất hiện thường xuyên nhất
Bimodal Multimodal
No Mode
Ký hiệu M
Là sự đo lường xu hướng chính duy nhất với dữ liệu danh nghĩa ( nominal data)
Những định nghĩa
Trang 76 khoảng giữa - Midrange
Là trung binh cộng của giá trị lớn nhất và giá trị
bé nhất trong dữ liệu ban đầu
2
Những định nghĩa
Trang 77 Tính đối xứng
Dữ liệu là đối xứng nếu nửa bên trái của
biểu đồ là phản chiếu của nửa bên phải.
Dữ liệu là lệch nếu nó không đối xứng hay
nó mở rộng về một bên hơn so với phần còn lại
Những định nghĩa
Trang 78Mean Mode
Median Mode = Trung bình = Trung vị
Đối xứng
Trang 79Sản xuất Nước mắm
Sản xuất tinh bột sắn
6.5 4.2
6.6 5.4
6.7 5.8
6.8 6.2
7.1 6.7
7.3 7.7
7.4 7.7
7.7 8.5
7.7 9.3
7.7 10.0
Sản xuất Nước mắm
7.15 7.20 7.7 7.10
Sản xuất tinh bột sắn
7.15 7.20 7.7 7.10
Mean Median Mode Midrange
Ví du: Bảng đo ph của nước thải 2 nhà máy thực phẩm
Trang 80Đo lường sự khác biệt
Trang 81Phân bố (range) =
Đo lường sự khác biệt
Trang 82đo lường sự khác biệt của những giá trị
( độ lệch trung bình so với mean)
Độ lệch chuẩn (standard deviation)
Đo lường sự khác biệt
Trang 83Công thức độ lệch chuẩn mẫu
n - 1
Trang 84Công thức độ lệch chuẩn mẫu (dạng rút gọn)
n (n - 1)
s = n (Σx 2 ) - (Σx) 2
Trang 85Σ x - x
Công thức trung bình tuyệt đối độ lệch
n
Trang 87Phương sai - Variance
Đo lường sự khác biệt
Trang 88Phương sai mẫu
Trang 89Range 4
s = highest value - lowest value
4
Trang 90Quy luật thực nghiệm
(áp dụng cho phân phối hình chuông )
Trang 91x - s x x + s
68% within
1 standard deviation
Quy luật thực nghiệm
(áp dụng cho phân phối hình chuông )
Trang 92Quy luật thực nghiệm
(áp dụng cho phân phối hình chuông )
Trang 93Quy luật thực nghiệm
(áp dụng cho phân phối hình chuông )
Trang 94Định lý Chebyshev
Áp dụng cho phân phối bất cứ hình dạng nào.
Phần của bất cứ dãy dữ liệu nằm trong K độ lệch chuẩn
Trang 95 z Score (hay giá trị tiêu chuẩn)
hoặc dưới giá trị trung bình
Đo lường vị trí
Trang 97- 3 - 2 - 1 0 1 2 3
Z
Unusual Values
Unusual Values
Ordinary Values
Diễn đạt Z Scores
FIGURE 2-16
Trang 98Phần tư (Quartiles), Phần mười (Deciles),
Phần trăm (Percentiles)
Đo lường vị trí
Trang 10199 Percentiles
Phần trăm - Percentiles
Trang 102Quartiles, Deciles, Percentiles
Phần chia - Fractiles
(Quantiles)
Phân chia dữ liệu thành những phần bằng nhau
Trang 104Ngoại vi - Outliers
Là giá trị phân bố rất xa so với hầu hết các
giá trị khác
Là cực trị
Có ảnh hưởng lớn đến giá trị trung bình,
độ lệch chuẩn và tỷ lệ trên biểu đồ do đó bản chất của phân phối cũng không rõ
ràng
Trang 105Biểu đồ hình hộp -Boxplots
(Biểu đồ Hộp và đuôi )
Cung cấp thông tin:
Rất có ích để so sánh 2 hay
nhiều dãy dữ liệu.
Trang 107Boxplot of Qwerty Word Ratings
Trang 108Hình chuông
Bell-Shaped
Lệch Skewed
Boxplots
Đồng dạng Uniform