Trong đề tài này, phương pháp phân tích trắc quang kết hợp với phân tích dữ liệu đa biến được thực hiện để xác định hàm lượng cà phê trong hỗn hợp trộn lẫn cà phê, bắp và đậu nành.. Các
Trang 1DỮ LIỆU ĐA BIẾN
Trang 2DỮ LIỆU ĐA BIẾN
Trang 3LỜI CẢM ƠN
Qua 4 năm học tập và rèn luyện tại trường Đại học Khoa học Tự nhiên TPHCM, em gửi lời cảm ơn đến tất cả các thầy cô trong khoa Hóa học nói chung và bộ môn Hóa phân tích nói riêng về những kiến thức và kinh nghiệm mà thầy cô truyền đạt
Em xin gửi lời cảm ơn chân thành đến cô PGS.TS Nguyễn Ánh Mai, một nhà giáo tận tụy, luôn hết lòng vì sinh viên Gửi lời cảm ơn đặc biệt đến chị Nguyễn Phúc Thịnh, anh Lê Văn Duy người trực tiếp hướng dẫn, cũng như giúp em giải quyết những thắc mắc
và khó khăn trong quá trình làm đề tài và viết báo cáo Cảm ơn thầy Nguyễn Hoàng Phú đã
hỗ trợ em về mặt dụng cụ, hóa chất
Cảm ơn chị Nguyễn Thị Kim Hạnh người sáng lập công ty The Yellow Chair Specialty Coffee đã tư vấn cho em về kiến thức cà phê và cung cấp một số mẫu cà phê Cảm ơn cô Hồ Thị Phước đã nhận lời phản biện và đưa ra những góp ý chân thành trong bài khóa luận của em
Cảm ơn các bạn sinh viên chuyên ngành hóa phân tích, đã hỗ trợ mình trong quá trình thực hiện đề tài
Cuối cùng, con vô cùng biết ơn gia đình đã luôn quan tâm, động viên, là chỗ dựa tinh thần cững chắc để có điều kiện học tập một cách tốt nhất
Cảm ơn tất cả mọi người!
Sinh viên
Phạm Võ Phương Duyên
Trang 4GIỚI THIỆU CHUNG
Cà phê là một trong những thức uống được tiêu dùng phổ biến nhất trên thế giới Việt
Nam là quốc gia xuất khẩu cà phê lớn thứ 2 thế giới sau Brazil, là thành viên trong Hiệp Hội Cà Phê Thế Giới (ICO) Cà phê là mặt hàng nông sản chủ lực của Việt Nam, chỉ đứng thứ hai (sau mặt hàng gạo) về kim ngạch xuất khẩu Chính vì thế ngành cà phê đã có một vai trò rất lớn trong nền kinh tế nước nhà
Theo lịch sử hình thành, cà phê được chia thành nhiều loại Ngày nay, tính trên giá trị thương mại và điều kiện nuôi trồng, hai loại cà phê được trồng nhiều nhất là cà phê Arabica
và cà phê Robusta Từ cây cà phê đến hạt cà phê rang trải qua nhiều giai đoạn và ảnh hưởng rất lớn đến chất lượng và thành phần hóa học của cà phê
Thị trường cà phê ở Việt Nam thường là Robusta vì đa phần người Việt Nam đều thích
vị đắng của chúng, bên cạnh đó, giá thành của Robusta cũng thấp hơn Arabica (thường thấp hơn gấp hai lần) Tuy nhiên, thông thường để tăng hương vị đậm đà cho cà phê, hầu hết các nhà sản xuất cà phê rang thường cho thêm một số chất phụ gia vào trong quá trình rang Việc thêm vào cà phê các chất phụ gia xuất phát từ nhu cầu thị trường tuy nhiên một
số biến tướng của việc này xảy ra khi người sản xuất muốn hạ giá thành sản phẩm để tăng lợi nhuận Việc này làm xuất hiện tình trạng cà phê bẩn xuất hiện trên thị trường Do đó nhu cầu tìm kiếm được giải pháp để phân biệt cà phê với các thành phần làm giả ra đời Trong đề tài này, phương pháp phân tích trắc quang kết hợp với phân tích dữ liệu đa biến được thực hiện để xác định hàm lượng cà phê trong hỗn hợp trộn lẫn cà phê, bắp và đậu nành Đồng thời phương pháp này còn sử dụng để xác định hàm lượng caffeine trong mẫu cà phê, hướng đến việc xác định nhanh hàm lượng caffeine trong mẫu thay thế cho phương pháp sắc ký lỏng truyền thống
Trang 5MỤC LỤC
DANH MỤC HÌNH ẢNH ADANH MỤC BẢNG BIỂU B
DANH MỤC VIẾT TẮT C
TỔNG QUAN 1
1 Thành phần hóa học của cà phê 1
1.1 Các hợp chất tạo vị đắng – Caffeine và Trigonelline 1
1.2 Các hợp chất tạo vị béo – Lipid 2
1.3 Các hợp chất tạo vị ngọt – Carbohydrate và phản ứng Maillard 3
1.4 Các hợp chất tạo vị chua – Các acid hữu cơ 4
2 Phân loại cà phê 5
2.1 Phân biệt theo cảm quan 5
2.2 Phân biệt theo thành phần hóa học chính 6
3 Các phương pháp phân tích cà phê 6
3.1 Phương pháp sắc kí lỏng hiệu năng cao HPLC-UV (theo TCVN 9723:2013) 12 .6
3.2 Phương pháp sắc ký khí đầu dò ion hóa ngọn lửa GC-FID 13 .7
3.3 Phương pháp NIR kết hợp với chemometrics 11 .7
4 Giới thiệu phương pháp phân tích dữ liệu đa biến 8
4.1.Phương pháp thành phần chính PCA (Principal Component Analysis) .9
4.2 Phương pháp bình phương tối thiểu từng phần PLS (Projection to Latent Structures - Partial Least Square) 11
4.3 Các công cụ mô tả trong mô hình dữ liệu đa biến .12
5 Hiện trạng cà phê ở Việt Nam 15
THỰC NGHIỆM 17
1 Dụng cụ và hóa chất 17
1.1 Thiết bị, dụng cụ và phần mềm 17
Trang 61.2 Hóa chất 17
1.3 Lấy mẫu, xử lí sơ bộ và bảo quản mẫu 17
2 Quy trình chiết mẫu 18
2.1.Quy trình chiết mẫu để đo trắc quang 18
2.2.Quy trình xử lý mẫu cho việc xác định caffeine phương pháp HPLC – UV 19
3 Quy trình thiết lập các mô hình PCA và PLS 20
KẾT QUẢ VÀ BIỆN LUẬN 22
1 Mở rộng mô hình xác định hàm lượng cà phê bằng phương pháp trắc quang kết hợp với dữ liệu đa biến 22
1.1.Mô hình phân loại các mẫu đơn - mô hình thành phần chính PCA 22
1.2.Phương pháp định lượng - Mô hình bình phương tối thiểu từng phần PLS 24
2 Thiết lập mô hình xác định hàm lượng caffeine bằng phương pháp trắc quang kết hợp với dữ liệu đa biến 32
2.1.So sánh phương pháp chiết trong quy trình xác định hàm lượng caffeine bằng phương pháp HPLC-UV 32
2.2.Xác định hàm lượng caffeine bằng phương pháp HPLC-UV 33
2.3.Xây dựng mô hình PLS 34
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 40
Kết luận 40
Hướng phát triển 40
PHỤ LỤC D
TÀI LIỆU THAM KHẢO E
Trang 7DANH MỤC HÌNH ẢNH
Hình 1 Công thức cấu tạo của caffeine 2
Hình 2 Công thức cấu tạo của trigonelline (trái) and nicotinic acid (phải) 2
Hình 3 Công thức cấu tạo của triacylglycerol 3
Hình 4 Sự hình thành các phân tử Melanoidin trong quá trình rang8 4
Hình 5 Phản ứng phân hủy CGA trong quá trình rang 5
Hình 6 Phản ứng hình thành Chlorogenic lactone từ CGA 5
Hình 7 Hình dạng hạt Arabica và Robusta 5
Hình 8 Quy trình phân tích caffeine bằng phương pháp HPLC-UV 7
Hình 9 Ba loại vấn đề phân tích dữ liệu khác nhau có thể được giải quyết bằng MVDA 9
Hình 10 Mô phỏng phương pháp chiếu trong mô hình PCA 10
Hình 11 Mô phỏng cân bằng trung điểm 10
Hình 12 Hai giai đoạn của mô hình PLS 12
Hình 13 Sự đánh đổi giữa năng lực giải thích R2 và năng lực dự đoán Q2 12
Hình 14 Mô phỏng hiện tượng Overfitting 12
Hình 15 Quy trình thiết kế mô hình MVDA 15
Hình 16 Quy trình xử lý mẫu bằng phương pháp trắc quang 18
Hình 17 Chương trình gradient dung môi 20
Hình 18 Quy trình xử lý mẫu theo TCVN 9723:2013 20
Hình 19 Biểu đồ “Score” và “Loading” trong mô hình PCA được chồng lên nhau 22
Hình 20 Phân bố của các phổ hấp thu của mẫu cà phê 23
Hình 21 Phổ hấp thu của các mẫu bắp và đậu nành 24
Hình 22 Sự phân bố phổ hấp thu của các mẫu cà phê được chọn 25
Hình 23 Đồ thị Hotelling’s T2Range 26
Hình 24 Đồ thị DModX 26
Hình 25 Biểu đồ “Overview” của mô hình 27
Hình 26 Đồ thị phân phối chuẩn (µ,σ)15 29
Hình 27 Sắc ký đồ mẫu cà phê được chiết theo 2 phương pháp 32
Hình 28 Đường chuẩn caffeine được xây dựng từ phương pháp HPLC – UV 34
Hình 29 Giá trị VIP theo số sóng 34
Hình 30 Đồ thị Hotelling’s T2Range 35
Hình 31 Phổ hấp thu của các điểm mẫu cùng tính chất với "19R" và "31R" 36
Hình 32 Biều đồ “Overview” của mô hình xác định hàm lượng caffeine 36
Trang 8DANH MỤC BẢNG BIỂU
Bảng 1 Thành phần hóa học của hạt cà phê Arabica và Robusta xanh2 1
Bảng 2 Thành phần caffeine và chlorogenic acid trong hạt cà phê rang10 6
Bảng 3 Một số công cụ mô tả cho mô hình MVDA 13
Bảng 4 Thông số thiết bị UV-VIS hai chùm tia 18
Bảng 5 Các điều kiện tối ưu của quy trình chiết mẫu cà phê 19
Bảng 6 So sánh phân phối xác xuất của tổng phổ cà phê và phân phối chuẩn 23
Bảng 7 Bảng giá trị RMSEE và RMSEP của mô hình 27
Bảng 8 So sánh giá trị RMSEE và RMSEP của hai mô hình 28
Bảng 9 Kết quả dự đoán hàm lượng cà phê của bộ kiểm tra 29
Bảng 10 Kết quả mô hình tính hàm lượng cà phê của các mẫu thị trường 31
Bảng 11 Hàm lượng phần trăm caffeine theo 2 phương pháp chiết 33
Bảng 12 Khả năng dự đoán của 2 mô hình 35
Bảng 13 R2Y và Q2 của các mô hình 36
Bảng 14 Bộ kiểm tra của mô hình xác định hàm lượng caffeine 37 Bảng 15 Kết quả kiểm tra mẫu thi trường của mô hình xác định hàm lượng caffeine 38
Trang 9DANH MỤC VIẾT TẮT
CGA, CAF Chlorogenic acid, Caffeine Các hợp chất có trong cà phê
DmodX Distance to the Model in X
space
Khoảng cách đến mô hình trong không gian tọa độ các biến X
MVDA Multivariate Data Analysis Phân tích dữ liệu đa biến
NIR Near Infrared Spectrometer Phổ hồng ngoại trường gần
PC Principal Component Biến ngầm (Latent Variable)
PCA Principal Component Analysis Phân tích thành phần chính
PLS Projections to Latent Structures
(Partial Least Square)
Phân tích hồi quy tuyến tính từng phần
RMSEE Root Mean Square Error of
Estimation
Căn bình phương trung bình sai số ước tính
RSD Relative Standard Deviation Độ lệch chuẩn tương đối
RMSEP Root Mean Square Error of
Prediction
Căn bình phương trung bình sai số
dự đoán
VIP Variable Influence of
Projections
Thông số biến ảnh hưởng đến mô hình
Trang 11TỔNG QUAN
1 Thành phần hóa học của cà phê
Cà phê chứa nhiều các hợp chất hóa học giúp tạo nên hương vị đặc trưng Các hợp chất này có sự thay đổi lớn trong suốt quá trình rang Hạt cà phê tươi không chứa các hợp chất tạo hương nhưng chứa các tiền chất (saccarose, chlorogenic acid, protein, carbohydrate) đóng vai trò quan trọng trong việc hình thành hương cà phê.1
Bảng 1 Thành phần hóa học của hạt cà phê Arabica và Robusta xanh 2
1.1 Các hợp chất tạo vị đắng – Caffeine và Trigonelline
Caffeine (còn được gọi là methylxanthine), là hợp chất thuộc nhóm alkaloid (Hình 1) Caffeine được biết là hợp chất tạo nên vị đắng cho cà phê, nhưng thực chất
Trang 12sự đóng góp của caffeine vào vị đắng của cà phê không nhiều (thấp hơn 10 %)3 Caffeine có nhiệt độ thăng hoa là 178 °C, nhiệt độ nóng chảy là 238 °C do đó quá trình rang có thể làm mất đi một lượng nhỏ caffeine.4
N
N N
Hình 1 Công thức cấu tạo của caffeine
Trigonelline là một hợp chất thuộc nhóm alkaloid có đóng góp lớn hơn vào vị đắng của cà phê Trong quá trình rang, trigonelline phân hủy một phần tạo thành pyridine và nicotinic acid (còn được gọi là vitamin B)5 (Hình 2) Hàm lượng nicotinic acid tạo thành trong cà phê phụ thuộc vào thời gian, nhiệt độ rang và phần trăm phân hủy của trigonelline.6
Hình 2 Công thức cấu tạo của trigonelline (trái) and nicotinic acid (phải)
1.2 Các hợp chất tạo vị béo – Lipid
Các hợp chất lipid tạo nên vị béo cho cà phê, bao gồm các thành phần chính là: triacylglycerol (chiếm phần lớn, ~ 75%), acid béo tự do, sterol, tocopherol và diterpene (gồm kaweol và cafestol).7
Trong quá trình rang, triacylglycerol không thay đổi, tạo thành chất mang giữ lấy các hợp chất vòng thơm dễ bay hơi trong cà phê.3 (Hình 3)
Trang 13O
H 2 C
Hình 3 Công thức cấu tạo của triacylglycerol
1.3 Các hợp chất tạo vị ngọt – Carbohydrate và phản ứng Maillard
Carbohydrate là thành phần chính trong cà phê (chiếm ít nhất 50% khối lượng cà phê) Carbohydrate góp phần tạo nên mùi hương cho cà phê sau khi trải qua những thay đổi phức tạp (phản ứng với các acid amin, tức là phản ứng Maillard) trong quá trình rang.8
Các phân tử đường khử tương tác với các sulfur amino acid, cystine, cysteine và methionine trong phân tử protein hình thành phản ứng Maillard tạo thành sản phẩm ở dạng đại phân tử polymer, màu nâu đặc trưng của cà phê - melanoidin.8
Trang 14Hình 4 Sự hình thành các phân tử Melanoidin trong quá trình rang 8
1.4 Các hợp chất tạo vị chua – Các acid hữu cơ
Chlorogenic acid (CGA) bao gồm một nhóm các hợp chất phenolic, là các ester hòa tan trong nước giữa trans-cinnamic acid (như cafeic, ferulic và p-coumaric) và (-) quinic acid.7
Ngoài bản chất acid đóng góp vị chua cho cà phê, CGA còn tham gia vào hình thành quá trình tạo hợp chất có vị đắng cho cà phê Trong quá trình rang, một phần CGA bị phân hủy và chuyển thành cafeic acid và quinic acid, cấu trúc quinic acid chuyển vị hình thành chlorogenic lactone (quinine) là sản phẩm gây ra vị đắng chủ yếu của cà phê Một phần quinine tham gia vào phản ứng Maillard.8
Trang 15Hình 5 Phản ứng phân hủy CGA trong quá trình rang
Hình 6 Phản ứng hình thành Chlorogenic lactone từ CGA
2 Phân loại cà phê
Cà phê chủ yếu được phân loại thành 2 dòng đặc trưng là Arabica và Robusta Sự khác biệt giữa Arabica và Robusta là do thành phần hóa học của chúng Các hợp chất tạo hương thơm chính trong Arabica là 3-mercapto-3-methylbutylformate, sotolon, abhexon, 2-methyl-3-furanthiol, 3-mercapto-3-furanthiol, phenylacetaldehyde, 2-/3-methylbutanoic acid và linalool, tạo cho loại cà phê này có mùi caramel và vị ngọt dịu Đối với Robusta, các hợp chất tạo hương chiếm ưu thế là 2,3-diethyl-5-methylpyrazine, 4-ethylguaiacol, 3-methyl-2-buten-1-thiol có mùi hơi cay và mùi đất.9
2.1 Phân biệt theo cảm quan
Hình 7 Hình dạng hạt Arabica và Robusta
Trang 16Về hình dạng, hạt cà phê Arabica có hình dang bầu dục, rãnh sâu, rãnh có hình chữ S trong khi đó hạt cà phê Robusta có hình hơi tròn, không dài, rãnh thẳng
Về vị giác, vị của Arabica hơi chua, đây cũng được xem như một đặc điểm cảm quan của loại cà phê này Vị của Robusta nằm trong khoảng từ trung tính cho đến đắng gắt
Về tính chất sau khi rang, Robusta nở nhiều hơn, tính chất nguyên hạt của Robusta mềm hơn Arabica cứng hơn Robusta sau khi rang, độ nở kém hơn
2.2 Phân biệt theo thành phần hóa học chính
Một trong các chỉ tiêu phổ biến nhất để phân biệt hai giống Arabica và Robusta là caffeine và chlorogenic acid Arabica thường có ít caffeine và chlorogenic acid hơn Robusta
Bảng 2 Thành phần caffeine và chlorogenic acid trong hạt cà phê rang 10
3 Các phương pháp phân tích cà phê
Hiện nay việc đánh giá cà phê rang xay tại Việt Nam chủ yếu dựa trên hàm lượng caffeine, có thể được thực hiện bằng phương pháp sắc ký lỏng hiệu năng cao với đầu
dò UV (HPLC-UV) hoặc sắc ký khí bằng đầu dò ion hóa ngọn lửa (GC-FID) Ngoài
ra, phép đo phổ NIR kết hợp với chemometrics có thể trực tiếp xác định bán định lượng cà phê ở dạng bột mà không cần xử lý mẫu.11
3.1 Phương pháp sắc kí lỏng hiệu năng cao HPLC-UV (theo TCVN 9723:2013) 12
Đối tượng áp dụng: cà phê nhân; cà phê rang; cà phê hòa tan, loại thông thường và loại đã tách caffeine; các sản phẩm cà phê hòa tan hỗn hợp (ví dụ: hỗn hợp cà phê/chicory (rễ rau diếp xoăn) hoặc đồ uống từ cà phê kiểu capuccino)
Nguyên tắc: dựa trên hàm lượng caffeine để xác định hàm lượng cà phê trong hỗn hợp
Chlorogenic acid 5.5 – 8.0 7.0 – 10.0
Trang 17Quy trình chuẩn:
Hình 8 Quy trình phân tích caffeine bằng phương pháp HPLC-UV
Phương pháp này có ưu điểm là độ chính xác cao, phân tích được nhiều loại sản phẩm có chứa caffeine Tuy nhiên, phải sử dụng dung môi hữu cơ đắt tiền, gây ô nhiễm môi trường như MeOH, chi phí đầu tư thiết bị lớn cũng như đòi hỏi phân tích viên có trình độ cao
3.2 Phương pháp sắc ký khí đầu dò ion hóa ngọn lửa GC-FID 13
Phương pháp có thể áp dụng trên các dạng mẫu thực phẩm có chứa caffeine, dựa trên hàm lượng caffeine để xác định hàm lượng cà phê trong hỗn hợp
Quy trình: Trong phương pháp này, caffeine được chiết xuất từ các mẫu cà phê bằng nước sôi, dịch chiết được pha loãng đến nồng độ thích hợp với dung dịch đệm citrate pH 3.0/benzen và sau đó một phần thể tích benzene được đem đi thổi khô Cuối cùng mẫu được hòa tan với chloroform trước khi được xác định bởi GC-FID
Phương pháp này có ưu điểm là thích hợp cho phòng thí nghiệm nhưng vẫn còn một số khuyết điểm như phải xử lý lấy mẫu rất phức tạp với nhiều bước, phải kiểm soát vấn đề nhiệt độ, sử dụng dung môi hữu cơ đắt tiền và độc hại (chloroform, benzen) Tương tự phương pháp HPLC-UV, phương pháp này cũng đòi hỏi chi phí đầu tư thiết bị lớn và phân tích viên có trình độ cao
3.3 Phương pháp NIR kết hợp với chemometrics 11
Đối tượng áp dụng: mẫu cà phê dạng bột với thành phần trộn là lúa mạch
Nguyên tắc: phân tích mẫu trực tiếp mà không qua bất kì giai đoạn hóa học/vật lý nào Mẫu được xây dựng theo tỉ lệ tăng dần (từ 2 - 20%) của thành phần trộn (lúa mạch) vào cà phê Đo phổ NIR và đưa vào mô hình chemometrics PLS để dự đoán thành phần mẫu
Kết quả phương pháp cho giá trị RMSE (Root Mean Square Error) của bộ chuẩn
và bộ kiểm chứng là 0.80 % và 1.40 %
Trang 18So với hai phương pháp trước phương pháp này có ưu điểm vượt trội là đo bột cà phê trực tiếp mà không cần xử lý mẫu giúp tiết kiệm thời gian, đồng thời có thể cho phép lưu mẫu vì đây là phương pháp không phá hủy mẫu Tuy nhiên vì mẫu hỗn hợp (cà phê, đậu tương và ngô) ở dạng rắn nên rất khó để đồng nhất mẫu và kết quả phụ thuộc nhiều vào độ mịn của bột và cách thiết kế hệ thống NIR trong khi lấy dữ liệu
4 Giới thiệu phương pháp phân tích dữ liệu đa biến
Phân tích dữ liệu đa biến MVDA (Multivariate Data Analysis) là một hệ thống các phương pháp và thuật toán tập trung tìm hiểu mối quan hệ giữa các biến trong một tập
dữ liệu với nhau, trong đó mỗi biến bất kì có thể được biểu diễn bằng một hàm số đối với các biến khác Nói cách khác, phân tích dữ liệu đa biến là một công cụ thống kê và toán học dùng để khai thác thông tin từ tập dữ liệu lớn mà không thể được xử lý bằng tay
Có ba chức năng cơ bản mà công cụ phân tích dữ liệu đa biến có thể được áp dụng (Hình 9), ba chức năng này cũng phản ánh các giai đoạn chính của việc phân tích dữ liệu đa biến
(i) Tổng quan một bảng dữ liệu: Mô hình thành phần chính (Principal Component Analysis - PCA) được sử dụng để tìm ra giữa các biến (Variables) có mối quan hệ gì với nhau, hoặc tìm mối quan hệ giữa các biến và các điểm quan sát (Observations) và xem xét các điểm lệch thô
(ii) Phân loại, phân nhóm các nhóm dữ liệu: Các mô hình hồi quy được thiết lập
để dự đoán phân loại của các điểm quan sát Ví dụ: phân loại các nhóm I, II, III của các quan sát
(iii) Mô hình hồi quy giữa hai khối dữ liệu (X và Y): đây là chức năng định lượng của phân tích dữ liệu đa biến, một mô hình hồi quy được thiết lập bằng cách sử dụng phương pháp bình phương tối thiểu từng phần (Partial Least Square by Projection to Latent Structures - PLS) giữa hai khối dữ liệu X và Y để dự đoán Y từ X cho các mẫu mới
Trang 19Hình 9 Ba loại vấn đề phân tích dữ liệu khác nhau có thể được giải quyết bằng MVDA
Mô hình dữ liệu đa biến được áp dụng trong nhiều lĩnh vực khác nhau, để mô phỏng số lượng lớn các biến dữ liệu (K biến) của nhiều mẫu (N mẫu), được mô tả dựa trên phương pháp cơ bản là phép chiếu Khi đó, mỗi biến là một chiều tọa độ (X1, X2, X3, ) và mỗi mẫu là một điểm trong không gian chứa các tọa độ đó Tập hợp N mẫu đặt vào không gian tọa độ K biến dữ liệu, thực hiện phép chiếu N mẫu này lên số chiều thấp hơn, được gọi là các biến ngầm (Latent Variables).14
Khi áp dụng mô hình đa biến vào hóa học phân tích, số điểm mẫu đại diện cho
số điểm quan sát và số biến dữ liệu là số liệu đo đạc từ hệ thống các thiết bị đo lường phân tích như: bước sóng, số sóng trong dữ liệu phổ (UV-VIS, FTIR, NIR), diện tích các mũi sắc kí (LC, GC), các biến số về chỉ tiêu hóa/lý học (nhiệt độ, độ hòa tan, pH, COD, BOD, nồng độ các chất phân tích, ), …
4.1 Phương pháp thành phần chính PCA (Principal Component Analysis)
PCA là một thuật toán biến đổi một số lượng lớn các biến (có thể) tương quan với nhau trong một bộ dữ liệu thành một số lượng nhỏ hơn các biến không tương quan được gọi là thành phần chính (PC) nhưng vẫn chứa nhiều thông tin nhất của tập lớn Nói cách khác, PCA là một công cụ giảm số biến Các thành phần chính là sự kết hợp tuyến tính của các biến ban đầu có trọng số (weight) bởi sự đóng góp của chúng để giải thích phương sai trong một chiều trực giao cụ thể Kết quả là, các quan sát không thể hình dung được vì số chiều của kích thước quá lớn (số lượng kích thước lớn nhất
mà chúng ta có thể thấy là 3) bây giờ có thể được hiển thị trong một mặt phẳng 2 chiều hoặc không gian 3 chiều Nó được gọi là phương pháp chiếu như trong Hình 10
Trang 20Hình 10 Mô phỏng phương pháp chiếu trong mô hình PCA
Phương pháp cơ bản của phân tích dữ liệu đa biến là dựa trên phép chiếu tọa độ trong mặt phẳng không gian K chiều (K biến dữ liệu) nên khi một biến có giá trị quá cao sẽ có khả năng áp đảo những biến có giá trị quá thấp Do đó, ở giai đoạn ban đầu khi đưa dữ liệu vào mô hình, các biến dữ liệu thường được quy đồng về cùng một phương sai, phương sai ở đây được hiểu là kích thước và chiều dài khoảng cách giữa hai điểm tọa độ trên chiều tọa độ của biến đó 14
Sau khi đã chiếu các điểm mẫu lên các chiều dữ liệu đã được đồng quy phương sai, gốc tọa độ của hệ trục tọa độ được kéo đến điểm trung bình (trung bình của tập hợp điểm), được gọi là cân bằng trung điểm
Hình 11 Mô phỏng cân bằng trung điểm
Mô hình PCA là mô hình giúp phân loại các nhóm trên tập hợp các điểm mẫu
Trang 21đồ “Score” (“Score Plot”), một cách tương đối Những mẫu có tính chất giống nhau hoặc tương tự nhau sẽ phân bố gần nhau trên biểu đồ “Score” được tạo bởi mặt phẳng chiếu của hai trong số các vector biến ngầm (thành phần chính PC – Principal Component).14
4.2 Phương pháp bình phương tối thiểu từng phần PLS (Projection to Latent
Structures - Partial Least Square)
Mô hình PLS còn được gọi là mô hình hồi quy đa biến tuyến tính từng phần, là phương pháp mô tả mối liên hệ giữa hai ma trận: ma trận X gồm các biến yếu tố và ma trận Y gồm các biến đáp ứng.14 Các biến yếu tố thường là các biến liên tục (như các biến bước sóng của phổ, được ghi liên tục và phụ thuộc vào nhau), biến đáp ứng thường là các giá trị kết quả như nồng độ, phần trăm mẫu,…
Chuẩn đa biến (multivariate calibration) là một cụm từ được dùng để mô tả cách xây dựng đường chuẩn trong phương pháp phân tích dữ liệu đa biến, trong chuẩn đa biến, bộ dữ liệu được chia thành hai phần:
- Bộ chuẩn (training data set): các điểm mẫu chuẩn được đưa vào mô hình dưới dạng chuẩn và được đánh giá thông qua giá trị RMSEE
- Bộ kiểm chứng (test data set): các điểm mẫu được đưa vào mô hình dưới dạng mẫu, dùng để kiểm tra kết quả dự đoán từ mô hình (mô hình dựa trên cơ sở các điểm mẫu chuẩn trong bộ chuẩn để dự đoán kết quả cho các điểm mẫu của bộ kiểm chứng), được đánh giá thông qua thông số RMSEP
Như vậy, PLS tổng kết đồng thời 2 bảng dữ liệu (X: các biến dự đoán, Y: các biến đáp ứng) và tìm ra mối quan hệ giữa chúng để xây dựng mô hình Sau khi mô hình được thiết lập bằng cách sử dụng các mẫu chuẩn hoặc bộ chuẩn, nó sẽ được sử dụng
để dự đoán các thuộc tính của mẫu mới hoặc bộ kiểm chứng (Hình 12)
Trang 22Hình 12 Hai giai đoạn của mô hình PLS
4.3 Các công cụ mô tả trong mô hình dữ liệu đa biến
4.3.1 Lựa chọn số PC tối ưu và hiện tượng Overfitting
Giá trị R2 của 1 PC thể hiện cho năng lực giải thích, khả năng để mô tả tập hợp
các điểm mẫu chuẩn của PC đó Giá trị Q2 của 1 PC thể hiện cho năng lực dự đoán,
khả năng dự đoán giá trị kết quả các biến đáp ứng của bộ dữ liệu chuẩn R2 (cum) và
Q2 (cum) là giá trị tích lũy R2 và Q2 ứng với PC cuối cùng R2 (cum) và Q2 (cum) của
PC2 sẽ tích lũy cả giá trị R2 và Q2 của PC1, tương tự PC3 sẽ tích lũy R2 và Q2 của PC1
và PC2.14
Giá trị R2 (cum) tăng và tiến dần đến 1 khi tăng số PC, trong khi đó giá trị Q2
(cum) tiến đến một giá trị cực đại (Q2 < 1) và giảm dần khi càng tăng số PC Như vậy
ta cần lựa chọn số PC tối ưu mô tả cho mô hình khi giá trị Q2 (cum) đạt cực đại.14
Hình 13 Sự đánh đổi giữa năng lực giải thích R 2 và năng lực dự đoán Q 2
A: Số biến ngầm (PC)
Trang 23Trong một số trường hợp, khi số PC tăng đến giá trị Q2 (cum) cực đại, khả năng
dự đoán các điểm mẫu trong bộ kiểm chứng trở nên tệ hơn (thể hiện qua giá trị RMSEP) Điều này được giải thích dựa trên hiện tượng Overfitting
Hình 14 Mô phỏng hiện tượng Overfitting
Hiện tượng Overfitting xảy ra khi mô hình quá phức tạp, có quá nhiều thông số để
mô tả cho các điểm mẫu, khi đó, mô hình sẽ tập trung mô tả các điểm dữ liệu bằng cách “bắt chước”, thay vì tìm ra xu hướng chung giữa các điểm mẫu chuẩn trong bộ chuẩn thì mô hình lại tìm cách để đạt đến độ sai lệch thấp nhất với giá trị thiết kế mà người dùng đưa vào (giá trị kết quả của biến đáp ứng, thông qua giá trị RMSEE) Việc xây dựng đường chuẩn bằng cách “ghi nhớ” này giúp cho các điểm chuẩn khi càng tăng số PC thì càng được ước tính tốt (giá trị RMSEE càng giảm), nhưng với các điểm mẫu mới (như các điểm mẫu trong bộ kiểm chứng) khả năng dự đoán lại trở nên tệ hơn (giá trị RMSEP tăng) Vì vậy, cần kiểm tra giá trị RMSEP kèm theo giá trị Q2
(cum) để lựa chọn số PC phù hợp cho mô hình
4.3.2 Một số công cụ mô tả khác cho mô hình MVDA
Bảng 3 Một số công cụ mô tả cho mô hình MVDA
VIP
PLS
Mô hình sẽ thông báo cho người dùng biết những biến nào ảnh hưởng mạnh, không ảnh hưởng hoặc ảnh hưởng kém đến kết quả dự đoán của
mô hình
Cơ sở chọn lọc biến bằng VIP:
Trang 24- VIP < 0.5: đóng góp kém vào
mô hình, gây ảnh hưởng xấu đến kết quả dự đoán
- VIP > 0.7: đóng góp vào kết quả dự đoán
- VIP > 1.0: đóng góp đáng kể vào kết quả dự đoán
DModX và Hotelling’s T2Range PCA,
PLS
Phát hiện những điểm mẫu lệch thô có khả năng ảnh hưởng lên khả năng giải thích và dự đoán của mô hình, tiến hành loại bỏ chúng ra khỏi
bộ dữ liệu chuẩn trong chuẩn đa biến
Một điểm là lệch thô khi:
- DModX: vượt ngưỡng D-Crit (0.05)
- Hotelling’ T2Range: vượt T2Crit (95%) và T2Crit (99%)
RMSE (RMSEE và RMSEP):
(RMSEE: Root Mean Square
Error of Estimation)
(RMSEP: Root Mean Square
Error of Prediction)
PLS
RMSE là giá trị thể hiện độ chệch
trung bình của các điểm mẫu khi so sánh giữa giá trị thực và giá trị ước tính/dự đoán từ mô hình
𝑅𝑀𝑆𝐸 = √∑ (𝑦𝑁 𝑖 −𝑦𝑡ℎ𝑖ế𝑡 𝑘ế) 2
𝑖 𝑁
(với 𝑦𝑖 là giá trị ước tính/dự đoán mà mô hình trả về và N là số điểm mẫu)
Giá trị RMSEE thể hiện sai số của các điểm mẫu trong bộ chuẩn Giá trị RMSEP thể hiện sai số
Trang 25của các điểm mẫu trong bộ kiểm chứng
Prediction List PLS Xuất kết quả dự đoán dưới dạng:
Kết quả ± Khoảng tin cậy
4.3.3 Thiết kế mô hình phân tích dữ liệu đa biến
Hình 15 Quy trình thiết kế mô hình MVDA
5 Hiện trạng cà phê ở Việt Nam
Việt Nam là nước sản xuất cà phê lớn thứ hai thế giới, chủ yếu là cà phê Robusta (chiếm khoảng 90-95% sản lượng được xuất khẩu), mang lại hàng tỷ đô la mỗi năm Thị trường cà phê nội địa ở Việt Nam cũng là Robusta chiếm đa số vì đa phần người
• VIP Loại các điểm lệch thô:
• DModX
• Hotteling’s T2Range Sai số kết quả ước tính/dự đoán:
Trang 26Việt Nam đều thích vị đắng của chúng, bên cạnh đó, giá thành của Robusta cũng thấp hơn Arabica
Thông thường để tăng hương vị đậm đà cho cà phê, hầu hết các nhà sản xuất cà phê rang thường cho thêm một số chất phụ gia vào trong quá trình rang (đường, muối,
bơ, nước mắm, chất tạo hương, …) Ngoài ra, bắp và đậu nành được thêm vào cà phê
để tăng khẩu vị cho người dùng, bắp giúp nước cà phê sau khi pha trở nên ngọt và sánh hơn, đậu nành tạo vị béo để trung hòa với vị đắng của cà phê Hàm lượng thêm vào của bắp và đậu nành phải rất thấp để đảm bảo tính chất gốc của cà phê
Tuy nhiên, một số nhà sản xuất vì muốn giảm giá thành sản xuất để tăng lợi nhuận
đã tăng hàm lượng bắp và đậu nành lên quá mức quy định, đánh lừa người tiêu dùng với những sản phẩm cà phê kém chất lượng Các sản phẩm này gọi chung là cà phê giả
Trang 27THỰC NGHIỆM
1 Dụng cụ và hóa chất
1.1 Thiết bị, dụng cụ và phần mềm
− Máy Vortex (Super-Mixer, Mỹ)
− Bể siêu âm (Power Sonic 410, Terre Universal, Mỹ)
− Máy ly tâm (Harmonic Series, Nhật Bản)
− Tủ sấy hóa chất (Dream Scientific, Trung Quốc)
− Máy đo UV-VIS hai chùm tia UV-1800 (Shimadzu, Nhật Bản)
− Hệ thống phân tích sắc kí lỏng HPLC-UV: hệ bơm 4 kênh LC-20AD, buồng
chứa cột CTO-10AS VP, đầu dò UV SPD-20A (Shimadzu, Nhật Bản)
− Ống ly tâm nhựa 15 mL (Biologix, Mỹ)
− Dụng cụ thủy tinh: pipet 10 mL; bình định mức 10, 25 mL; becher 100, 250 mL
− Hexane, HPLC (95% n-hexane) (Baker, Mỹ)
− Acid acetic CH3COOH 100% (Merck, Đức)
− Magie oxide (Xilong, Trung Quốc)
− Chuẩn rắn Caffeine (Viện Kiểm Nghiệm Thuốc TPHCM (IDQC), Việt Nam) Dung dịch chuẩn gốc CAF 1000 mg.L-1 được chuẩn bị bằng cách hoà tan 10 mg chuẩn rắn trong bình định mức 10 mL bằng methanol Dung dịch chuẩn gốc được bảo quản mát trong tủ lạnh và sử dụng trong 30 ngày
1.3 Lấy mẫu, xử lí sơ bộ và bảo quản mẫu
Các mẫu cà phê nguyên hạt rang, mẫu bắp rang và mẫu đậu nành mua ngẫu nhiên
từ các cửa hàng trên địa bàn thành phố Hồ Chí Minh Các mẫu được rang trong nhiều điều kiện khác nhau để thể hiện tính đại diện tốt cho các mẫu cà phê trên thị trường