Do đónhu cầu tìm kiếm được giải pháp để phân biệt cà phê với các thành phần làm giả ra đời.Trong đề tài này, phương pháp phân tích trắc quang kết hợp với phân tích dữ liệu đabiến được th
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
DỮ LIỆU ĐA BIẾN
KHÓA LUẬN TỐT NGHIỆP
THÀNH PHỐ HỒ CHÍ MINH – 2019
Trang 2ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
DỮ LIỆU ĐA BIẾN
KHÓA LUẬN TỐT NGHIỆP
GVHD: PGS.TS Nguyễn Ánh Mai
HVCH Nguyễn Phúc Thịnh
CN Lê Văn Duy
THÀNH PHỐ HỒ CHÍ MINH – 2019
Trang 3LỜI CẢM ƠN
Qua 4 năm học tập và rèn luyện tại trường Đại học Khoa học Tự nhiên TPHCM, emgửi lời cảm ơn đến tất cả các thầy cô trong khoa Hóa học nói chung và bộ môn Hóa phântích nói riêng về những kiến thức và kinh nghiệm mà thầy cô truyền đạt
Em xin gửi lời cảm ơn chân thành đến cô PGS.TS Nguyễn Ánh Mai, một nhà giáotận tụy, luôn hết lòng vì sinh viên Gửi lời cảm ơn đặc biệt đến chị Nguyễn Phúc Thịnh,anh Lê Văn Duy người trực tiếp hướng dẫn, cũng như giúp em giải quyết những thắc mắc
và khó khăn trong quá trình làm đề tài và viết báo cáo Cảm ơn thầy Nguyễn Hoàng Phú
đã hỗ trợ em về mặt dụng cụ, hóa chất
Cảm ơn chị Nguyễn Thị Kim Hạnh người sáng lập công ty The Yellow ChairSpecialty Coffee đã tư vấn cho em về kiến thức cà phê và cung cấp một số mẫu cà phê.Cảm ơn cô Hồ Thị Phước đã nhận lời phản biện và đưa ra những góp ý chân thànhtrong bài khóa luận của em
Cảm ơn các bạn sinh viên chuyên ngành hóa phân tích, đã hỗ trợ mình trong quátrình thực hiện đề tài
Cuối cùng, con vô cùng biết ơn gia đình đã luôn quan tâm, động viên, là chỗ dựatinh thần cững chắc để có điều kiện học tập một cách tốt nhất
Cảm ơn tất cả mọi người!
Sinh viên
Phạm Võ Phương Duyên
Trang 4GIỚI THIỆU CHUNG
Cà phê là một trong những thức uống được tiêu dùng phổ biến nhất trên thế giới ViệtNam là quốc gia xuất khẩu cà phê lớn thứ 2 thế giới sau Brazil, là thành viên trong HiệpHội Cà Phê Thế Giới (ICO) Cà phê là mặt hàng nông sản chủ lực của Việt Nam, chỉ đứngthứ hai (sau mặt hàng gạo) về kim ngạch xuất khẩu Chính vì thế ngành cà phê đã có mộtvai trò rất lớn trong nền kinh tế nước nhà
Theo lịch sử hình thành, cà phê được chia thành nhiều loại Ngày nay, tính trên giá trịthương mại và điều kiện nuôi trồng, hai loại cà phê được trồng nhiều nhất là cà phêArabica và cà phê Robusta Từ cây cà phê đến hạt cà phê rang trải qua nhiều giai đoạn vàảnh hưởng rất lớn đến chất lượng và thành phần hóa học của cà phê
Thị trường cà phê ở Việt Nam thường là Robusta vì đa phần người Việt Nam đềuthích vị đắng của chúng, bên cạnh đó, giá thành của Robusta cũng thấp hơn Arabica(thường thấp hơn gấp hai lần) Tuy nhiên, thông thường để tăng hương vị đậm đà cho càphê, hầu hết các nhà sản xuất cà phê rang thường cho thêm một số chất phụ gia vào trongquá trình rang
Việc thêm vào cà phê các chất phụ gia xuất phát từ nhu cầu thị trường tuy nhiên một
số biến tướng của việc này xảy ra khi người sản xuất muốn hạ giá thành sản phẩm để tănglợi nhuận Việc này làm xuất hiện tình trạng cà phê bẩn xuất hiện trên thị trường Do đónhu cầu tìm kiếm được giải pháp để phân biệt cà phê với các thành phần làm giả ra đời.Trong đề tài này, phương pháp phân tích trắc quang kết hợp với phân tích dữ liệu đabiến được thực hiện để xác định hàm lượng cà phê trong hỗn hợp trộn lẫn cà phê, bắp vàđậu nành Đồng thời phương pháp này còn sử dụng để xác định hàm lượng caffeine trongmẫu cà phê, hướng đến việc xác định nhanh hàm lượng caffeine trong mẫu thay thế chophương pháp sắc ký lỏng truyền thống
Trang 51.3 Các hợp chất tạo vị ngọt – Carbohydrate và phản ứng Maillard 3
3.1 Phương pháp sắc kí lỏng hiệu năng cao HPLC-UV (theo TCVN 9723:2013) 12
6 3.2 Phương pháp sắc ký khí đầu dò ion hóa ngọn lửa GC-FID 13 7
4 Giới thiệu phương pháp phân tích dữ liệu đa biến 8
4.1.Phương pháp thành phần chính PCA (Principal Component Analysis) 9 4.2 Phương pháp bình phương tối thiểu từng phần PLS (Projection to Latent
Trang 61.1 Thiết bị, dụng cụ và phần mềm 17
i
2.2.Quy trình xử lý mẫu cho việc xác định caffeine phương pháp HPLC – UV 19
1 Mở rộng mô hình xác định hàm lượng cà phê bằng phương pháp trắc quang
1.1 Mô hình phân loại các mẫu đơn - mô hình thành phần chính PCA 22
1.2 Phương pháp định lượng - Mô hình bình phương tối thiểu từng phần PLS 24
2 Thiết lập mô hình xác định hàm lượng caffeine bằng phương pháp trắc
2.1 So sánh phương pháp chiết trong quy trình xác định hàm lượng caffeine bằng
Trang 7ii
Trang 8DANH MỤC HÌNH ẢNH
Hình 2 Công thức cấu tạo của trigonelline (trái) and nicotinic acid (phải) 2
Hình 4 Sự hình thành các phân tử Melanoidin trong quá trình rang8 4
Hình 6 Phản ứng hình thành Chlorogenic lactone từ CGA 5
Hình 8 Quy trình phân tích caffeine bằng phương pháp HPLC-UV 7
Hình 9 Ba loại vấn đề phân tích dữ liệu khác nhau có thể được giải quyết bằng MVDA 9 Hình 10 Mô phỏng phương pháp chiếu trong mô hình PCA 10
Hình 13 Sự đánh đổi giữa năng lực giải thích R2 và năng lực dự đoán Q2 12
Hình 16 Quy trình xử lý mẫu bằng phương pháp trắc quang 18
Hình 19 Biểu đồ “Score” và “Loading” trong mô hình PCA được chồng lên nhau 22 Hình 20 Phân bố của các phổ hấp thu của mẫu cà phê 23
Hình 22 Sự phân bố phổ hấp thu của các mẫu cà phê được chọn 25
Hình 27 Sắc ký đồ mẫu cà phê được chiết theo 2 phương pháp 32
Hình 28 Đường chuẩn caffeine được xây dựng từ phương pháp HPLC – UV 34
Hình 31 Phổ hấp thu của các điểm mẫu cùng tính chất với "19R" và "31R" 36
Hình 32 Biều đồ “Overview” của mô hình xác định hàm lượng caffeine 36
A
Trang 9DANH MỤC BẢNG BIỂUBảng 1 Thành phần hóa học của hạt cà phê Arabica và Robusta xanh2 1
Bảng 2 Thành phần caffeine và chlorogenic acid trong hạt cà phê rang10 6
Bảng 5 Các điều kiện tối ưu của quy trình chiết mẫu cà phê 19
Bảng 6 So sánh phân phối xác xuất của tổng phổ cà phê và phân phối chuẩn 23
Bảng 8 So sánh giá trị RMSEE và RMSEP của hai mô hình 28
Bảng 9 Kết quả dự đoán hàm lượng cà phê của bộ kiểm tra 29
Bảng 10 Kết quả mô hình tính hàm lượng cà phê của các mẫu thị trường 31
Bảng 11 Hàm lượng phần trăm caffeine theo 2 phương pháp chiết 33
Bảng 14 Bộ kiểm tra của mô hình xác định hàm lượng caffeine 37
Bảng 15 Kết quả kiểm tra mẫu thi trường của mô hình xác định hàm lượng caffeine38
Trang 10B
Trang 11Chlorogenic acid, Caffeine Các hợp chất có trong cà phê
DmodX Distance to the Model in X
space
Khoảng cách đến mô hình trongkhông gian tọa độ các biến X.MVDA Multivariate Data Analysis Phân tích dữ liệu đa biến
Principal Component Biến ngầm (Latent Variable)
PCA Principal Component
(Partial Least Square)
Phân tích hồi quy tuyến tính từngphần
RMSEE Root Mean Square Error of
Estimation
Căn bình phương trung bình sai số
ước tínhRSD Relative Standard Deviation Độ lệch chuẩn tương đối
RMSEP Root Mean Square Error of
Prediction
Căn bình phương trung bình sai số
dự đoánV
V
IP
Variable Influence ofProjections
Thông số biến ảnh hưởng đến môhình
Trang 12C
Trang 14TỔNG QUAN
1 Thành phần hóa học của cà phê
Cà phê chứa nhiều các hợp chất hóa học giúp tạo nên hương vị đặc trưng Các hợpchất này có sự thay đổi lớn trong suốt quá trình rang Hạt cà phê tươi không chứa các hợpchất tạo hương nhưng chứa các tiền chất (saccarose, chlorogenic acid, protein,carbohydrate) đóng vai trò quan trọng trong việc hình thành hương cà phê.1
Bảng 1 Thành phần hóa học của hạt cà phê Arabica và Robusta xanh 2
Thành phần Hàm lượng* (g/100 g)
Cà phê Arabica
Cà phê Robusta
1.1 Các hợp chất tạo vị đắng – Caffeine và Trigonelline
Caffeine (còn được gọi là methylxanthine), là hợp chất thuộc nhóm alkaloid
Trang 15(Hình 1) Caffeine được biết là hợp chất tạo nên vị đắng cho cà phê, nhưng thực chất
1
Trang 16N
sự đóng góp của caffeine vào vị đắng của cà phê không nhiều (thấp hơn 10 %)3 Caffeine
có nhiệt độ thăng hoa là 178 °C, nhiệt độ nóng chảy là 238 °C do đó quá trình rang có thểlàm mất đi một lượng nhỏ caffeine.4
N
H C
CH3
O
O
CH 3
Hình 1 Công thức cấu tạo của caffeine
Trigonelline là một hợp chất thuộc nhóm alkaloid có đóng góp lớn hơn vào vị đắngcủa cà phê Trong quá trình rang, trigonelline phân hủy một phần tạo thành pyridine vànicotinic acid (còn được gọi là vitamin B)5 (Hình 2) Hàm lượng nicotinic acid tạo thànhtrong cà phê phụ thuộc vào thời gian, nhiệt độ rang và phần trăm phân hủy củatrigonelline.6
O
OH
Hình 2 Công thức cấu tạo của trigonelline (trái) and nicotinic acid (phải)
1.2 Các hợp chất tạo vị béo – Lipid
Các hợp chất lipid tạo nên vị béo cho cà phê, bao gồm các thành phần chính là:triacylglycerol (chiếm phần lớn, ~ 75%), acid béo tự do, sterol, tocopherol và diterpene(gồm kaweol và cafestol).7
Trong quá trình rang, triacylglycerol không thay đổi, tạo thành chất mang giữ lấy cáchợp chất vòng thơm dễ bay hơi trong cà phê.3 (Hình 3)
N
N
Trang 172
Trang 18Hình 3 Công thức cấu tạo của triacylglycerol
1.3 Các hợp chất tạo vị ngọt – Carbohydrate và phản ứng Maillard
Carbohydrate là thành phần chính trong cà phê (chiếm ít nhất 50% khối lượng càphê) Carbohydrate góp phần tạo nên mùi hương cho cà phê sau khi trải qua những thayđổi phức tạp (phản ứng với các acid amin, tức là phản ứng Maillard) trong quá trình rang.8Các phân tử đường khử tương tác với các sulfur amino acid, cystine, cysteine vàmethionine trong phân tử protein hình thành phản ứng Maillard tạo thành sản phẩm ởdạng đại phân tử polymer, màu nâu đặc trưng của cà phê - melanoidin.8
Trang 193
Trang 20Hình 4 Sự hình thành các phân tử Melanoidin trong quá trình rang 8
1.4 Các hợp chất tạo vị chua – Các acid hữu cơ
Chlorogenic acid (CGA) bao gồm một nhóm các hợp chất phenolic, là các ester hòatan trong nước giữa trans-cinnamic acid (như cafeic, ferulic và p-coumaric) và (-) quinicacid.7
Ngoài bản chất acid đóng góp vị chua cho cà phê, CGA còn tham gia vào hình thànhquá trình tạo hợp chất có vị đắng cho cà phê Trong quá trình rang, một phần CGA bịphân hủy và chuyển thành cafeic acid và quinic acid, cấu trúc quinic acid chuyển vị hìnhthành chlorogenic lactone (quinine) là sản phẩm gây ra vị đắng chủ yếu của cà phê Mộtphần quinine tham gia vào phản ứng Maillard.8
Trang 214
Trang 22Hình 5 Phản ứng phân hủy CGA trong quá trình rang
Hình 6 Phản ứng hình thành Chlorogenic lactone từ CGA
2 Phân loại cà phê
Cà phê chủ yếu được phân loại thành 2 dòng đặc trưng là Arabica và Robusta Sựkhác biệt giữa Arabica và Robusta là do thành phần hóa học của chúng Các hợp chất tạohương thơm chính trong Arabica là 3-mercapto-3-methylbutylformate, sotolon, abhexon,2-methyl-3-furanthiol, 3-mercapto-3-furanthiol, phenylacetaldehyde, 2-/3-methylbutanoic acid và linalool, tạo cho loại cà phê này có mùi caramel và vị ngọt dịu.Đối với Robusta, các hợp chất tạo hương chiếm ưu thế là 2,3-diethyl-5- methylpyrazine,4-ethylguaiacol, 3-methyl-2-buten-1-thiol có mùi hơi cay và mùi đất.9
2.1 Phân biệt theo cảm quan
Hình 7 Hình dạng hạt Arabica và Robusta
Trang 235
Trang 24Về hình dạng, hạt cà phê Arabica có hình dang bầu dục, rãnh sâu, rãnh có hình chữ Strong khi đó hạt cà phê Robusta có hình hơi tròn, không dài, rãnh thẳng.
Về vị giác, vị của Arabica hơi chua, đây cũng được xem như một đặc điểm cảm quancủa loại cà phê này Vị của Robusta nằm trong khoảng từ trung tính cho đến đắng gắt
Về tính chất sau khi rang, Robusta nở nhiều hơn, tính chất nguyên hạt của Robustamềm hơn Arabica cứng hơn Robusta sau khi rang, độ nở kém hơn
2.2 Phân biệt theo thành phần hóa học chính
Một trong các chỉ tiêu phổ biến nhất để phân biệt hai giống Arabica và Robusta làcaffeine và chlorogenic acid Arabica thường có ít caffeine và chlorogenic acid hơnRobusta
Bảng 2 Thành phần caffeine và chlorogenic acid trong hạt cà phê rang 10
.2
2.2Chlorogenic acid 5.5 – 8.0 7.0 – 10.0
3 Các phương pháp phân tích cà phê
Hiện nay việc đánh giá cà phê rang xay tại Việt Nam chủ yếu dựa trên hàm lượngcaffeine, có thể được thực hiện bằng phương pháp sắc ký lỏng hiệu năng cao với đầu dò
UV (HPLC-UV) hoặc sắc ký khí bằng đầu dò ion hóa ngọn lửa (GC-FID) Ngoài ra, phép
đo phổ NIR kết hợp với chemometrics có thể trực tiếp xác định bán định lượng cà phê ởdạng bột mà không cần xử lý mẫu.11
3.1 Phương pháp sắc kí lỏng hiệu năng cao HPLC-UV (theo TCVN 9723:2013) 12
Đối tượng áp dụng: cà phê nhân; cà phê rang; cà phê hòa tan, loại thông thường vàloại đã tách caffeine; các sản phẩm cà phê hòa tan hỗn hợp (ví dụ: hỗn hợp cà phê/chicory(rễ rau diếp xoăn) hoặc đồ uống từ cà phê kiểu capuccino)
Nguyên tắc: dựa trên hàm lượng caffeine để xác định hàm lượng cà phê trong hỗnhợp
Trang 256
Trang 26Quy trình chuẩn:
Hình 8 Quy trình phân tích caffeine bằng phương pháp HPLC-UV
Phương pháp này có ưu điểm là độ chính xác cao, phân tích được nhiều loại sảnphẩm có chứa caffeine Tuy nhiên, phải sử dụng dung môi hữu cơ đắt tiền, gây ô nhiễmmôi trường như MeOH, chi phí đầu tư thiết bị lớn cũng như đòi hỏi phân tích viên cótrình độ cao
3.2 Phương pháp sắc ký khí đầu dò ion hóa ngọn lửa GC-FID 13
Phương pháp có thể áp dụng trên các dạng mẫu thực phẩm có chứa caffeine, dựa trênhàm lượng caffeine để xác định hàm lượng cà phê trong hỗn hợp
Quy trình: Trong phương pháp này, caffeine được chiết xuất từ các mẫu cà phê bằngnước sôi, dịch chiết được pha loãng đến nồng độ thích hợp với dung dịch đệm citrate pH3.0/benzen và sau đó một phần thể tích benzene được đem đi thổi khô Cuối cùng mẫuđược hòa tan với chloroform trước khi được xác định bởi GC-FID
Phương pháp này có ưu điểm là thích hợp cho phòng thí nghiệm nhưng vẫn còn một
số khuyết điểm như phải xử lý lấy mẫu rất phức tạp với nhiều bước, phải kiểm soát vấn đềnhiệt độ, sử dụng dung môi hữu cơ đắt tiền và độc hại (chloroform, benzen) Tương tựphương pháp HPLC-UV, phương pháp này cũng đòi hỏi chi phí đầu tư thiết bị lớn vàphân tích viên có trình độ cao
3.3 Phương pháp NIR kết hợp với chemometrics 11
Đối tượng áp dụng: mẫu cà phê dạng bột với thành phần trộn là lúa mạch
Nguyên tắc: phân tích mẫu trực tiếp mà không qua bất kì giai đoạn hóa học/vật lýnào Mẫu được xây dựng theo tỉ lệ tăng dần (từ 2 - 20%) của thành phần trộn (lúa mạch)vào cà phê Đo phổ NIR và đưa vào mô hình chemometrics PLS để dự đoán thành phầnmẫu
Kết quả phương pháp cho giá trị RMSE (Root Mean Square Error) của bộ chuẩn và
bộ kiểm chứng là 0.80 % và 1.40 %
Trang 277
Trang 28So với hai phương pháp trước phương pháp này có ưu điểm vượt trội là đo bột cà phêtrực tiếp mà không cần xử lý mẫu giúp tiết kiệm thời gian, đồng thời có thể cho phép lưumẫu vì đây là phương pháp không phá hủy mẫu Tuy nhiên vì mẫu hỗn hợp (cà phê, đậutương và ngô) ở dạng rắn nên rất khó để đồng nhất mẫu và kết quả phụ thuộc nhiều vào
độ mịn của bột và cách thiết kế hệ thống NIR trong khi lấy dữ liệu
4 Giới thiệu phương pháp phân tích dữ liệu đa biến
Phân tích dữ liệu đa biến MVDA (Multivariate Data Analysis) là một hệ thống cácphương pháp và thuật toán tập trung tìm hiểu mối quan hệ giữa các biến trong một tập dữliệu với nhau, trong đó mỗi biến bất kì có thể được biểu diễn bằng một hàm số đối với cácbiến khác Nói cách khác, phân tích dữ liệu đa biến là một công cụ thống kê và toán họcdùng để khai thác thông tin từ tập dữ liệu lớn mà không thể được xử lý bằng tay
Có ba chức năng cơ bản mà công cụ phân tích dữ liệu đa biến có thể được áp dụng(Hình 9), ba chức năng này cũng phản ánh các giai đoạn chính của việc phân tích dữ liệu
đa biến
(i) Tổng quan một bảng dữ liệu: Mô hình thành phần chính (Principal ComponentAnalysis - PCA) được sử dụng để tìm ra giữa các biến (Variables) có mối quan hệ gì vớinhau, hoặc tìm mối quan hệ giữa các biến và các điểm quan sát (Observations) và xem xétcác điểm lệch thô
(ii) Phân loại, phân nhóm các nhóm dữ liệu: Các mô hình hồi quy được thiết lập để
dự đoán phân loại của các điểm quan sát Ví dụ: phân loại các nhóm I, II, III của các quansát
(iii) Mô hình hồi quy giữa hai khối dữ liệu (X và Y): đây là chức năng định lượngcủa phân tích dữ liệu đa biến, một mô hình hồi quy được thiết lập bằng cách sử dụngphương pháp bình phương tối thiểu từng phần (Partial Least Square by Projection toLatent Structures - PLS) giữa hai khối dữ liệu X và Y để dự đoán Y từ X cho các mẫumới
Trang 298
Trang 30Hình 9 Ba loại vấn đề phân tích dữ liệu khác nhau có thể được giải quyết bằng MVDA
Mô hình dữ liệu đa biến được áp dụng trong nhiều lĩnh vực khác nhau, để mô phỏng
số lượng lớn các biến dữ liệu (K biến) của nhiều mẫu (N mẫu), được mô tả dựa trênphương pháp cơ bản là phép chiếu Khi đó, mỗi biến là một chiều tọa độ (X1, X2, X3, )
và mỗi mẫu là một điểm trong không gian chứa các tọa độ đó Tập hợp N mẫu đặt vàokhông gian tọa độ K biến dữ liệu, thực hiện phép chiếu N mẫu này lên số chiều thấp hơn,được gọi là các biến ngầm (Latent Variables).14
Khi áp dụng mô hình đa biến vào hóa học phân tích, số điểm mẫu đại diện cho sốđiểm quan sát và số biến dữ liệu là số liệu đo đạc từ hệ thống các thiết bị đo lường phântích như: bước sóng, số sóng trong dữ liệu phổ (UV-VIS, FTIR, NIR), diện tích các mũisắc kí (LC, GC), các biến số về chỉ tiêu hóa/lý học (nhiệt độ, độ hòa tan, pH, COD, BOD,nồng độ các chất phân tích, ), …
4.1 Phương pháp thành phần chính PCA (Principal Component Analysis).
PCA là một thuật toán biến đổi một số lượng lớn các biến (có thể) tương quan vớinhau trong một bộ dữ liệu thành một số lượng nhỏ hơn các biến không tương quan đượcgọi là thành phần chính (PC) nhưng vẫn chứa nhiều thông tin nhất của tập lớn Nói cáchkhác, PCA là một công cụ giảm số biến Các thành phần chính là sự kết hợp tuyến tínhcủa các biến ban đầu có trọng số (weight) bởi sự đóng góp của chúng để giải thíchphương sai trong một chiều trực giao cụ thể Kết quả là, các quan sát không thể hình dungđược vì số chiều của kích thước quá lớn (số lượng kích thước lớn nhất mà chúng ta có thểthấy là 3) bây giờ có thể được hiển thị trong một mặt phẳng 2 chiều hoặc không gian 3chiều Nó được gọi là phương pháp chiếu như trong Hình 10
Trang 319
Trang 32Hình 10 Mô phỏng phương pháp chiếu trong mô hình PCA
Phương pháp cơ bản của phân tích dữ liệu đa biến là dựa trên phép chiếu tọa độ trongmặt phẳng không gian K chiều (K biến dữ liệu) nên khi một biến có giá trị quá cao sẽ cókhả năng áp đảo những biến có giá trị quá thấp Do đó, ở giai đoạn ban đầu khi đưa dữliệu vào mô hình, các biến dữ liệu thường được quy đồng về cùng một phương sai,phương sai ở đây được hiểu là kích thước và chiều dài khoảng cách giữa hai điểm tọa độtrên chiều tọa độ của biến đó 14
Sau khi đã chiếu các điểm mẫu lên các chiều dữ liệu đã được đồng quy phương sai,gốc tọa độ của hệ trục tọa độ được kéo đến điểm trung bình (trung bình của tập hợpđiểm), được gọi là cân bằng trung điểm
Hình 11 Mô phỏng cân bằng trung điểm
Mô hình PCA là mô hình giúp phân loại các nhóm trên tập hợp các điểm mẫu Mối
Trang 33liên quan chặt chẽ giữa các quan sát và các biến có thể được tìm ra dựa vào biểu
10
Trang 34đồ “Score” (“Score Plot”), một cách tương đối Những mẫu có tính chất giống nhau hoặctương tự nhau sẽ phân bố gần nhau trên biểu đồ “Score” được tạo bởi mặt phẳng chiếucủa hai trong số các vector biến ngầm (thành phần chính PC – Principal Component).14
4.2 Phương pháp bình phương tối thiểu từng phần PLS (Projection to Latent
Structures - Partial Least Square)
Mô hình PLS còn được gọi là mô hình hồi quy đa biến tuyến tính từng phần, làphương pháp mô tả mối liên hệ giữa hai ma trận: ma trận X gồm các biến yếu tố và matrận Y gồm các biến đáp ứng.14 Các biến yếu tố thường là các biến liên tục (như các biếnbước sóng của phổ, được ghi liên tục và phụ thuộc vào nhau), biến đáp ứng thường là cácgiá trị kết quả như nồng độ, phần trăm mẫu,…
Chuẩn đa biến (multivariate calibration) là một cụm từ được dùng để mô tả cách xâydựng đường chuẩn trong phương pháp phân tích dữ liệu đa biến, trong chuẩn đa biến, bộ
dữ liệu được chia thành hai phần:
- Bộ chuẩn (training data set): các điểm mẫu chuẩn được đưa vào mô hình dưới dạngchuẩn và được đánh giá thông qua giá trị RMSEE
- Bộ kiểm chứng (test data set): các điểm mẫu được đưa vào mô hình dưới dạngmẫu, dùng để kiểm tra kết quả dự đoán từ mô hình (mô hình dựa trên cơ sở các điểm mẫuchuẩn trong bộ chuẩn để dự đoán kết quả cho các điểm mẫu của bộ kiểm chứng), đượcđánh giá thông qua thông số RMSEP
Như vậy, PLS tổng kết đồng thời 2 bảng dữ liệu (X: các biến dự đoán, Y: các biếnđáp ứng) và tìm ra mối quan hệ giữa chúng để xây dựng mô hình Sau khi mô hình đượcthiết lập bằng cách sử dụng các mẫu chuẩn hoặc bộ chuẩn, nó sẽ được sử dụng để dự đoáncác thuộc tính của mẫu mới hoặc bộ kiểm chứng (Hình 12)
Trang 3511
Trang 36Hình 12 Hai giai đoạn của mô hình PLS
4.3 Các công cụ mô tả trong mô hình dữ liệu đa biến.
4.3.1 Lựa chọn số PC tối ưu và hiện tượng Overfitting
Giá trị R2 của 1 PC thể hiện cho năng lực giải thích, khả năng để mô tả tập hợp cácđiểm mẫu chuẩn của PC đó Giá trị Q2 của 1 PC thể hiện cho năng lực dự đoán, khả năng
dự đoán giá trị kết quả các biến đáp ứng của bộ dữ liệu chuẩn R2 (cum) và Q2 (cum) làgiá trị tích lũy R2 và Q2 ứng với PC cuối cùng R2 (cum) và Q2 (cum) của PC2 sẽ tích lũy
cả giá trị R2 và Q2 của PC1, tương tự PC3 sẽ tích lũy R2 và Q2 của PC1 và PC2.14
Giá trị R2 (cum) tăng và tiến dần đến 1 khi tăng số PC, trong khi đó giá trị Q2 (cum)tiến đến một giá trị cực đại (Q2 < 1) và giảm dần khi càng tăng số PC Như vậy ta cần lựachọn số PC tối ưu mô tả cho mô hình khi giá trị Q2 (cum) đạt cực đại.14
Hình 13 Sự đánh đổi giữa năng lực giải thích R 2 và năng lực dự đoán Q 2 A:
Số biến ngầm (PC)
Trang 3712
Trang 38Trong một số trường hợp, khi số PC tăng đến giá trị Q2 (cum) cực đại, khả năng dựđoán các điểm mẫu trong bộ kiểm chứng trở nên tệ hơn (thể hiện qua giá trị RMSEP).Điều này được giải thích dựa trên hiện tượng Overfitting.
Hình 14 Mô phỏng hiện tượng Overfitting
Hiện tượng Overfitting xảy ra khi mô hình quá phức tạp, có quá nhiều thông số để mô
tả cho các điểm mẫu, khi đó, mô hình sẽ tập trung mô tả các điểm dữ liệu bằng cách “bắtchước”, thay vì tìm ra xu hướng chung giữa các điểm mẫu chuẩn trong bộ chuẩn thì môhình lại tìm cách để đạt đến độ sai lệch thấp nhất với giá trị thiết kế mà người dùng đưavào (giá trị kết quả của biến đáp ứng, thông qua giá trị RMSEE) Việc xây dựng đườngchuẩn bằng cách “ghi nhớ” này giúp cho các điểm chuẩn khi càng tăng số PC thì càngđược ước tính tốt (giá trị RMSEE càng giảm), nhưng với các điểm mẫu mới (như cácđiểm mẫu trong bộ kiểm chứng) khả năng dự đoán lại trở nên tệ hơn (giá trị RMSEPtăng) Vì vậy, cần kiểm tra giá trị RMSEP kèm theo giá trị Q2 (cum) để lựa chọn số PCphù hợp cho mô hình
4.3.2 Một số công cụ mô tả khác cho mô hình MVDA
Bảng 3 Một số công cụ mô tả cho mô hình MVDA
Cơ sở chọn lọc biến bằng VIP:
Trang 3913
Trang 40- VIP < 0.5: đóng góp kémvào mô hình, gây ảnh hưởng xấuđến kết quả dự đoán
- VIP > 0.7: đóng góp vàokết quả dự đoán
- VIP > 1.0: đóng góp đáng kểvào kết quả dự đoán
DModX và Hotelling’s T2Range PC
A,PLS
Phát hiện những điểm mẫu lệchthô có khả năng ảnh hưởng lên khảnăng giải thích và dự đoán của môhình, tiến hành loại bỏ chúng rakhỏi bộ dữ liệu chuẩn trong chuẩn
đa biến
Một điểm là lệch thô khi:
- DModX: vượt ngưỡng Crit (0.05)
D Hotelling’ T2Range:
vượtT2Crit (95%) và T2Crit (99%)