Phép thử A not APhép thử phân biệtKhái niệm phép thử A not AỨng dụng phép thử A not AA not A trong đánh giá cảm quan thực phẩmXử lý số liệuKiểm định khi bình phươngKiểm định RindexTình huống trong nhà máy sản xuấtBài tập phép thử A not Abài tập đánh giá cảm quan
Trang 1LÝ THUYẾT VÀ BÀI TẬP ĐÁNH GIÁ CẢM QUAN
PHÉP THỬ A-NOT A
“Antoine G de Bouille´
Philip Morris Products S.A., Neuchaˆtel, Switzerland”
Trang 2Các nhà khoa học ngày nay có nhiều công cụ để họ đạt được mục tiêu của mình,nhưng thật khó khi lựa chọn công cụ phù hợp Trong chương này, sẽ tập trung vào phép
Trang 3thử A-not-A, tập trung vào nguyên tắc của nó, nhóm người đánh giá có thể tham gia phépthử và phân tích dữ liệu Ví dụ được đưa ra ở cuối chương.
1. Phép thử A - not A là gì?
Phép thử A-not-A là một phép thử cảm quan phân biệt yêu cầu người đánh giá xácđịnh xem một mẫu là “A” hay “Không phải-A”; “A” được coi là mẫu chuẩn và được xácđịnh trước khi thử nghiệm Thông thường, người đánh giá nên làm quen với mẫu đốichứng A Điều này làm cho A-not-A trở thành một phép thử phù hợp khi người đánh giátiếp xúc nhiều với cùng một mẫu theo thời gian, điều này thường xảy ra trong kiểm soátchất lượng (QC) và môi trường đảm bảo chất lượng (QA) (Van Hout và cộng sự, 2011)
Ví dụ, trong môi trường sản xuất, phép thử A-not-A sẽ đưa ra câu trả lời nhanh chóng vềviệc liệu một lô sản xuất có các đặc tính cảm quan mà nó được cho là có hay không Tuynhiên, thử nghiệm A-not-A sẽ không cung cấp thông tin chi tiết về bản chất của sự khácbiệt
Mặc dù không được sử dụng rộng rãi trong các nghiên cứu về người tiêu dùng,nhưng thử nghiệm A-not-A có thể hữu ích khi câu hỏi cần trả lời là liệu người tiêu dùngtrung thành của một sản phẩm có thể xác định được phiên bản mới của nó khác hay giống
Trang 4với sản phẩm cũ hay không Phép thử A-not-A thực hiện với một số mẫu thử nghiệm, sau
đó xác định được mẫu nào giống nhất về mặt cảm quan với mẫu tham chiếu
Trong tài liệu, phép thử A-not-A có thể được mô tả như sau: người đánh giá nhậnđược một mẫu và được yêu cầu xác định xem nó là “A” hay “không phải-A” Trongtrường hợp đó, tài liệu tham khảo không được cung cấp Trong trường hợp này, ngườiđánh giá chỉ có tài liệu tham khảo nội bộ của riêng họ (hoặc từ khóa đào tạo trước đó) đểxác định xem liệu mẫu được thử nghiệm có thực sự là A hay không-A Có thể có haitrường hợp: số lượng người đánh giá nhận được “A” và nhận được “không-A” đượcquyết định trước hoặc người đánh giá được phân bổ ngẫu nhiên lấy mẫu “A” hoặc
“không phải A” để đánh giá Gần đây, Stocks et al (2013) đã thảo luận về khái niệm mẫunhắc trong thử nghiệm phân biệt Điều này có ý nghĩa khi một công ty không có quy trìnhđào tạo / làm quen đầy đủ (Bi và cộng sự, 2013a, b) và không có thời gian hoặc nguồnlực để phát triển quy trình này Mẫu nhắc nhở cũng có thể hữu ích khi những người đánhgiá được chọn tham gia phép thử có kiến thức hạn chế về sản phẩm và do đó cần phải làmquen (lại) với mẫu tham chiếu
Trong phép thử A-not-A, việc có một hoặc một số mẫu nhắc sẽ giúp đảm bảo rằngngười đánh giá đang đánh giá các mẫu trên các cơ sở tương đồng với tham chiếu A Mẫunhắc đã chọn có thể là A hoặc không-A và người đánh giá được nhận biết trước mỗi mẫuthử nghiệm Khi tổng số mẫu được đánh giá tăng lên, cách tiếp cận này sẽ giảm thời giancần thiết cho các buổi đào tạo / làm quen (Stocks và cộng sự, 2013) Khi sử dụng các mẫunhắc, thử nghiệm A-not-A thường được gọi là “A-not-AR”
2. Quy trình
Khi sử dụng mẫu nhắc, đầu tiên người đánh giá được đưa mẫu “A” tham chiếu vàđược yêu cầu làm quen với mẫu đó Người đánh giá có thể thực hiện bước này trongphòng đánh giá cảm quan hoặc thảo luận với trưởng ban hội thẩm về các đặc tính cảmquan của mẫu
Trong bước làm quen, người đánh giá được cung cấp tài liệu tham khảo “A”,nhưng cũng nên cung cấp cho họ các mẫu “không phải-A” Giúp người đánh giá nhậnthức được loại khác biệt được mong đợi giữa các mẫu “A” và “không phải A” Van Hout
và cộng sự (2011) chỉ ra rằng người đánh giá cần phải làm quen với mẫu “A” trong buổiđào tạo ngoài việc làm quen với phương pháp
Trang 5Bản thân việc làm quen với phương pháp này có thể được thực hiện bằng cách sửdụng một tập hợp các mẫu khác biệt lớn / rõ ràng để bắt đầu Đây sẽ là một bước dễ dàngcho người đánh giá để họ có thể nhận biết và quen với việc điền vào bảng câu hỏi Từbuổi làm quen thứ hai, những khác biệt đó có thể được giảm bớt khi người đánh giá ngàycàng quen với phương pháp này hơn.
Trong bối cảnh QC / QA, khi người đánh giá đã được đào tạo chuyên sâu về cácđặc tính cảm quan của mẫu A, thì bước tái làm quen có thể không cần thiết mỗi khi họthực hiện đánh giá A-not-A Tuy nhiên, là một phần của chương trình QA / QC rất hữuích nếu bạn lên kế hoạch tạo một số buổi làm quen lại trong suốt cả năm để đảm bảongười đánh giá tin tưởng vào các đặc tính cảm quan của đối chiếu A
Khi thực hiện phép thử, nếu mẫu nhắc “A” được đưa ra, bài kiểm tra đó sẽ bị loại
bỏ và người đánh giá sẽ được đưa cho một mẫu mã gồm ba chữ số và được yêu cầu đánhgiá nó Mẫu này có thể là “A” hoặc “không phải-A” Người đánh giá phải xác định xemmẫu thử nghiệm có phải là tham chiếu “A” hay không phải là tham chiếu: “không phải-A” Thông thường, nên hỏi người đánh giá về mức độ tin cậy của họ, thường bao gồmcác tùy chọn sau: hoàn toàn chắc chắn, khá chắc chắn, không chắc chắn lắm và chỉ đoán.Hỏi về sự tự tin có thể hữu ích trong bối cảnh đào tạo để theo dõi sự chắc chắn của ngườiđánh giá ngoài câu trả lời của họ Kiểm tra với độ chắc chắn cũng cho phép tính toán chỉ
số R
Tùy thuộc vào bản chất của mẫu, các mẫu tiếp theo có thể được đánh giá bởingười đánh giá Trong một số trường hợp, và đặc biệt nếu loại mẫu được thử nghiệm chophép, có thể bao gồm một hoặc một số mẫu nhắc giữa các mẫu thử nghiệm để giúp ngườiđánh giá nhận thức được các đặc điểm cảm quan của mẫu A Tuy nhiên, điều này sẽ phảiđược tính đến khi phân tích dữ liệu
Người thử nghiệm có thể thêm phần nhận xét để người đánh giá có thể chỉ ra ngắngọn lý do tại sao một mẫu khác với tham chiếu “A.” Đây có thể là một cách thuận tiện đểxác định lý do tại sao “A” có thể được nhìn nhận khác với “không phải A” trong trườnghợp có sự khác biệt có ý nghĩa thống kê Trong trường hợp người đánh giá thực hiện phépthử A-not-A thường xuyên và khi dự kiến có một số khác biệt cụ thể, thì tờ phản hồi cũng
có thể bao gồm các thuộc tính cảm quan có thể có để phân biệt cả hai mẫu được thửnghiệm Tuy nhiên, bảng này không được ảnh hưởng đến người đánh giá khi quyết địnhxem họ đang nếm “A” hay “không-A” Việc thu thập thông tin cảm quan về sự khác biệt
có thể có giữa hai mẫu cũng nên được lấy từ người đánh giá để xác định chính xác mẫu
“không phải A” thực sự là mẫu “không phải A”
Điều quan trọng cần nhấn mạnh là việc thu thập các giải thích hoặc lý do từ ngườiđánh giá khi thực hiện thử nghiệm chỉ mang tính chất hướng dẫn và nó không nên thay
Trang 6thế thử nghiệm mô tả cảm quan mà mục đích chính là mô tả sản phẩm trong khi mục đíchcủa thử nghiệm A-not-A là để phát hiện xem các sản phẩm có khác nhau không.
• Bạn được cung cấp mẫu được mã hóa 3 chữ số
• Thử và quyết định xem mẫu này là A hay không phải A
• Tích vào độ chắc chắn dưới đây:
Những người đánh giá được đào tạo sẽ áp dụng cách tiếp cận phân tích / kháchquan trong khi người tiêu dùng sẽ áp dụng cách tiếp cận tình cảm / chủ quan Khi ngườitiêu dùng là những người sử dụng nhiều sản phẩm và cũng có mối liên hệ cảm xúc với
nó, họ có thể nhạy cảm hơn với những thay đổi nhỏ và có thể nhận biết khác biệt hơn sovới nhóm được đào tạo về cảm quan (Lee, 2010) Điều quan trọng cần nhấn mạnh làkhông nên sử dụng kết hợp cả người đánh giá được đào tạo và người tiêu dùng khi lựachọn người đánh giá cho phép thử (BS ISO 8588: 1987) Bảng A2.8, trong Phụ lục 2 (Bi,2006) giúp xác định có bao nhiêu người đánh giá được chọn cho phép thử A-not-A dựatrên xác suất ước tính PA (xác suất phản hồi “A” khi cho mẫu “A”) và PN ( xác suất củaphản hồi “A” khi cho mẫu “không phải-A”) với lũy thừa là 0,8 và mức ý nghĩa α≤ 0,1 và0,05 Ví dụ, giả sử PN 0,4 và độ chênh lệch cảm quan ծ= 1, trong thiết kế phép thử đơn
Trang 7nguyên, số người đánh giá yêu cầu sẽ là 21 đối với mức ý nghĩa α≤ 0,1 và 26 đối với mức
ý nghĩa α ≤0,05 Người thử nghiệm có thể khó xác định tham số nào để chọn trước khithử nghiệm
Mức độ rủi ro α (còn được gọi là lỗi loại I) được định nghĩa là xác suất nói rằngcác mẫu là khác nhau trong khi thực tế chúng giống nhau Trong thử nghiệm khác biệt(khi chúng ta muốn kiểm tra xem các mẫu có khác nhau hay không), rủi ro α cần đượcgiảm thiểu Các mức rủi ro sau đây có thể được hiểu là:
l 10% -5%: bằng chứng nhỏ cho thấy có sự khác biệt rõ ràng
l 5% -1%: bằng chứng vừa phải cho thấy sự khác biệt rõ ràng
l 1% -0,1%: bằng chứng rõ ràng cho thấy sự khác biệt rõ ràng
l Dưới 0,1%: bằng chứng rất rõ ràng cho thấy có sự khác biệt
Độ mạnh của phép thử có thể được định nghĩa là xác suất phát hiện ra sự khác biệtkhi nó thực sự tồn tại Giá trị càng gần 1, chúng ta càng có thể phát hiện ra sự khác biệtkhi nó tồn tại Độ mạnh của phép thử có ảnh hưởng trực tiếp đến số lượng người đánh giáđược lựa chọn Thông thường, đối với thử nghiệm khác biệt, 0,8 là chấp nhận được PA
và PN sẽ được thiết lập dựa trên các thí nghiệm tương tự trước đó ծ đại diện cho một chỉ
số về sự khác biệt hoặc giống nhau về mặt cảm quan (Bi, 2006) Mức độ của nó thể hiệnquy mô của sự khác biệt dự kiến giữa A và không phải A Trên thực tế, ծ= 1 tương đươngvới 76% số phân biệt trong phép thử 2-AFC hoặc 42% trong phép thử tam giác
3. Khi nào sử dụng phép thử A-not A
Do bản chất của các mẫu được sử dụng, một số vấn đề có thể phát sinh chẳng hạnnhư ảnh hưởng chuyển đổi đối với các hương vị mạnh (ví dụ: sản phẩm thuốc lá hoặcrượu) Để chống lại những vấn đề đó, người đánh giá thường được cung cấp nước trángmiệng và nghỉ ngơi giữa các lần lấy mẫu Những giải pháp đó thường hiệu quả, nhưngđôi khi số lượng mẫu đã cho chỉ cần giảm bớt Trong trường hợp đó, các phương pháp trợgiúp A-not-A như số lượng mẫu được trình bày có thể chỉ là 1 (giả sử người đánh giá đãquen thuộc với mẫu tham chiếu A) hoặc hơn nếu sử dụng mẫu nhắc hoặc nếu thử nghiệmđược lặp lại
A-not-A như một phép thử trình bày đơn lẻ có thể hữu ích trong việc đưa ra hướngdẫn về sự khác biệt giữa hai mẫu trong khi giữ cho số lượng mẫu được trình bày trongmột lần nếm thử duy nhất rất thấp Điều này làm cho phương pháp A-not-A có thể sửdụng được không chỉ với các mẫu có cường độ vị cao mà còn với các mẫu ít cường độhơn Phương pháp này thường được coi là phù hợp với hầu hết các loại sản phẩm (Lee vàcộng sự, 2007)
Trang 8Phép thử A-not-A cũng có thể được sử dụng khi người đánh giá thường tiếp xúcvới cùng một mẫu Đây là trường hợp xảy ra trong môi trường sản xuất nơi ít biến thể củamẫu được sản xuất khiến người đánh giá rất quen thuộc với cùng một mẫu, trong trườnghợp này, mẫu tham chiếu: “A.” Ngay cả khi người đánh giá biết các đặc điểm cảm quancủa nó, thì nên thường xuyên đào tạo lại họ bằng cách trình bày với họ trước khi kiểm tra,đặc biệt nếu người đánh giá không được đào tạo chuyên sâu.
Phép thử A-not-A thường được sử dụng khi có sự khác biệt nhỏ giữa hai mẫu (màusắc, kích thước, hình dạng) và cần so sánh khách quan (Rogers, 2010; BS ISO 855: 1987,Lawless và Heymann, 1999) Tuy nhiên, điều quan trọng cần lưu ý là nếu sự khác biệt vềthị giác là quá quan trọng, người đánh giá có khả năng nhớ nó và sẽ bị thiên vị trong quátrình đánh giá và đưa ra phán đoán của họ.(Lawless và Heymann, 1999)
Một thiết kế thí nghiệm như vậy được gọi là đơn nguyên (Bi và Ennis, 1999) vìngười đánh giá chỉ được cung cấp một mẫu để đánh giá và ngoài ra, số lượng người đánhgiá nhận mẫu A và số lượng người đánh giá nhận mẫu không phải A được biết trước Đểphân tích các loại dữ liệu này, kiểm tra Pearson Chi-bình phương (χ2) về tính đồng nhấtthường được sử dụng Thử nghiệm này được mô tả trong ISO BS 5929-5: 1988 và thống
kê của nó là:
Trang 9Trong đó ni, j là giá trị quan sát được trong ô (i; j); Et, với mỗi ô, là tích của tổngcủa hàng nhân với tổng của cột đã cho, chia cho tổng số câu trả lời Ví dụ: đối với một ôbiểu thị số câu trả lời đúng khi “A” được thử (ví dụ: 50), nó bằng phép nhân của tổng sốcâu trả lời “A” với tổng số mẫu“A” chia tổng số câu trả lời (tức là 75 * 80/150).
Do đó, chúng tôi có:
Áp dụng công thức, χ 2 tính được là 10,714 Giá trị tính toán này (hoặc giá trịquan sát) cần được so sánh với giá trị tới hạn có thể tìm thấy trong bảng giá trị tới hạn χ 2(Bảng A2.9, trong Phụ lục 2) Đối với 1 bậc tự do (được xác định bằng số lượng mẫu thửnghiệm trừ đi 1) và mức ý nghĩa α≤ 0,05, giá trị tới hạn là 3,84 Vì giá trị quan sát củachúng tôi cao hơn giá trị tới hạn, chúng tôi kết luận rằng có sự khác biệt có ý nghĩa thống
kê giữa hai mẫu “A” và “không phải A”
Tính toán này có thể dễ dàng được thực hiện với phần mềm R bằng công thứcchisq.test () Dưới đây là cú pháp mà người dùng có thể sử dụng:
Hiệu chỉnh liên tục (cần thiết cho các giá trị thấp trong bảng kết quả) có thể được
áp dụng bằng cách thay thế FALSE bằng TRUE trong các đối số của hàm Việc hiệuchỉnh tính liên tục nên được áp dụng khi ít nhất một ô trên bảng kết quả nhỏ hơn 5 Hàmnày trả về cả giá trị chi bình phương quan sát được cũng như giá trị p, sẽ là giá trị 95 %mức độ tin cậy được hiểu là:
l Nhỏ hơn 0,05: tồn tại sự khác biệt có ý nghĩa thống kê
l Trên 0,05: không có sự khác biệt có ý nghĩa thống kê
Trang 10Việc phân tích phép thử A-not-A sẽ phụ thuộc vào loại thiết kế được sử dụng Bi
và Ennis (1999) đã trình bày chi tiết các mô hình thống kê khác nhau để phân tích dữ liệuđược tạo ra tùy thuộc vào thiết kế thử nghiệm được sử dụng trong quá trình thử nghiệmcảm quan là đơn nguyên (thử nghiệm Pearson χ 2 cho tính đồng nhất ở ví dụ trên), hỗnhợp (thử nghiệm Pearson χ 2 cho tính độc lập), hoặc kết hợp (Thử nghiệm McNemar χ 2
để kiểm tra tỷ lệ tương quan)
Trong một thiết kế hỗn hợp, số lượng người đánh giá nhận mẫu “A” và số lượngngười đánh giá nhận mẫu “không phải A” không được biết trước mà được phân bổ ngẫunhiên Để làm như vậy, một thiết kế ngẫu nhiên phải được thực hiện trước khi thửnghiệm, trong đó người đánh giá chọn ngẫu nhiên một mẫu để đánh giá
Trong khi đối với thiết kế thử nghiệm đơn nguyên, mục đích của bài kiểm trathống kê là so sánh tỷ lệ câu trả lời “A” từ những người đánh giá ban đầu nhận được “A”
so với những người đánh giá ban đầu nhận được “không A”, trong thiết kế hỗn hợp, mụcđích của bài kiểm tra là để ước tính xem việc trình bày “A” hay “không-A” cho ngườiđánh giá có ảnh hưởng đến số lượng câu trả lời “A” hay không (Bi, 2006)
Trong cả thử nghiệm đơn nguyên và hỗn hợp, tỷ lệ so sánh là độc lập Tuy nhiên,trong thử nghiệm cặp đôi, hai tỷ lệ đó không còn độc lập nữa vì người đánh giá được đưa
ra cả “A” và “không-A” để đánh giá Trong một thiết kế như vậy, tốt hơn là không nênnói trước với người đánh giá rằng họ sẽ đánh giá cả hai mẫu “A” và “không phải A”
Lưu ý về thử nghiệm lặp lại
Trong trường hợp thử nghiệm lặp lại, người đánh giá nhận được một số mẫu trongmột lần Số lượng mẫu để đánh giá nên được quyết định trước khi bắt đầu phiên họp Tùythuộc vào trình độ đào tạo của các chuyên gia đánh giá, nên đưa (lại) các đánh giá viênmẫu nhắc “A” giữa các mẫu được thử nghiệm để tránh nhầm lẫn Trong thử nghiệm lặplại, các hướng dẫn đưa ra cho người đánh giá là không thay đổi, nhưng việc phân tích dữliệu sẽ khác một chút Trong trường hợp thiết kế đơn nguyên và hỗn hợp, các điều chỉnhđối với thử nghiệm Pearson χ 2 phải được thực hiện [Mô hình nhị thức Beta (Bi, 2006) và
mô hình Đa thức Dirichlet (Ennis và Bi, 1999), tương ứng]
Để “tăng” số lượng đánh giá, phép lặp thường được thực hiện, đặc biệt nếu không
có sẵn các nguồn bổ sung Mặc dù việc lặp lại có thể chấp nhận được, nhưng bạn nênthực hiện vào một buổi nếm thử khác Điều này sẽ tránh thêm sự mệt mỏi về mặt cảmquan và sự quen thuộc không mong muốn của người đánh giá với các mẫu
4.2. Mô hình Thurstonian
Một cách tiếp cận khác để giải thích dữ liệu từ phép thử A-not-A là áp dụng môhình Thurstonian
Trang 11Nhận thức về một kích thích thay đổi về cường độ theo một cách xác suất Nóicách khác, khi hầu hết những người đánh giá nhận thấy một kích thích ở mức điểm trungbình, một số thì nhận thấy nó yếu hơn trong khi những người khác lại cho rằng nó mạnhhơn Đây cũng là trường hợp ở cấp độ cá nhân vì nhận thức về các kích thích có thể thayđổi khi phải thử nhiều lần (ASTM E2262) Sự thay đổi được quan sát thấy do nhiều yếu
tố không chỉ lý do tâm lý và sinh lý mà còn do sự biến đổi của sản phẩm (minh họa trongHình 6.2)
Trong trường hợp các phép thử phân biệt, chúng tôi thường quan tâm đến việc biếtliệu có sự khác biệt có thể cảm nhận được giữa hai mẫu hay không Kiểm định chi bìnhphương được mô tả ở trên, cũng như thống kê nhị thức được sử dụng rộng rãi, cho chúng
ta biết liệu người đánh giá có thực hiện tốt hơn phỏng đoán hay không
Mô hình Thurstonian cung cấp những hiểu biết sâu sắc về độ lớn của sự khác biệtcảm quan giữa hai mẫu chứ không chỉ là một câu trả lời khác nhau / không khác nhau.Khi hai mẫu được so sánh trong một bài kiểm tra phân biệt, độ lớn của sự khác biệt giữachúng có thể được biểu thị bằng khoảng cách Thurstonian Trung bình mẫu B được cảmnhận với cường độ cao hơn mẫu A, mặc dù điều này không đúng trong một số ít trườnghợp, như được thấy bởi một phần nhỏ của phần đuôi bên trái của đường cong B chồng lênđuôi bên phải của đường cong A