Bằng cách sử dụng các thuật toán machine learning tiên tiến, chúng em kỳ vọng sẽ xây dựng được một mô hình dự đoán chính xác, vượt trội hơn so với các phương pháp dựa trên phương trình t
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH
KHOA KỸ THUẬT ĐỊA CHẤT & DẦU KHÍ
Trang 2ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH
KHOA KỸ THUẬT ĐỊA CHẤT & DẦU KHÍ
ĐỒ ÁN KỸ THUẬT 1 ỨNG DỤNG MACHINE LEARNING VÀO
DỰ ĐOÁN HỆ SỐ FUGACITY CỦA KHÍ CO 2
Sinh viên - MSSV: Lâm Nguyễn Minh Khôi – 2211677
Mai Nguyễn Nhật Tâm – 2213025
GVHD: Th.S Trần Nguyễn Thiện Tâm
Thành phố Hồ Chí Minh – 5/2025
Trang 3Chúng em xin bày tỏ lòng biết ơn sâu sắc đến Khoa Kỹ thuật Địa chất và Dầu khí, Trường Đại học Bách Khoa - Đại học Quốc gia TP.HCM, nơi đã cung cấp cho chúng em một môi trường học tập và nghiên cứu chuyên nghiệp, hiện đại Các thầy cô trong khoa đã truyền đạt những kiến thức nền tảng vững chắc về kỹ thuật, đồng thời tạo điều kiện thuận lợi về cơ sở vật chất, tài liệu nghiên cứu và các công cụ hỗ trợ, giúp chúng em triển khai
đồ án một cách hiệu quả và đạt được những kết quả đáng ghi nhận
Bên cạnh đó, chúng em xin tri ân gia đình, những người luôn ở bên, động viên và tiếp thêm sức mạnh để chúng em vượt qua những áp lực trong quá trình học tập và thực hiện nghiên cứu kỹ thuật Sự ủng hộ vô điều kiện từ gia đình đã giúp chúng em có thêm quyết tâm để hoàn thành tốt nhiệm vụ được giao
Cuối cùng, chúng em nhận thức rằng đồ án kỹ thuật này vẫn có thể còn những thiếu sót do hạn chế về kinh nghiệm và thời gian Chúng em rất mong nhận được những ý kiến đóng góp, nhận xét quý báu từ các thầy cô, các bạn và những người quan tâm đến đề tài để chúng em có thể hoàn thiện hơn trong tương lai
Trang 4Mục lục
MỞ ĐẦU 1
1 Tính cấp thiết và ý nghĩa của đề tài 2
2 Mục tiêu của đề tài 4
3 Nhiệm vụ 5
4 Ý nghĩa khoa học và thực tiễn 6
5 Phương pháp nghiên cứu 7
CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU VỀ MACHINE LEARNING VÀ DỰ ĐOÁN HỆ SỐ FUGACITY CỦA KHÍ CO2 9
1.1 Khái niệm và lịch sử nghiên cứu machine learning 9
1.1.1 Các quan điểm về machine Learning 9
1.1.1.1 Đổi mới 9
1.1.1.2 Các quan điểm về Machine Learning 11
1.1.1.3 Thảo luận về machine learning trong ngành công nghiệp dầu khí 16
1.2 Khái niệm và lịch sử nghiên cứu hệ số Fugacity của khí CO2 17
1.3 Các nghiên cứu liên quan đến đề tài 19
1.3.1 Tổng quan nghiên cứu ngoài nước 19
1.3.2 Tổng quan nghiên cứu trong nước 20
1.4 Cơ sở lý thuyết về các mô hình học máy 21
1.4.1 Mô hình Random Forest (RF) 21
1.4.2 Mô hình Gradient Boosting (XGBoost) 22
1.4.3 Mô hình Decision Tree (DT) 24
1.4.4 Các chỉ số đánh giá mô hình (R², MAE, RMSE) 26
CHƯƠNG 2: PHƯƠNG PHÁP NGHIÊN CỨU 30
2.1 Quy trình nghiên cứu tổng quát 30
2.2 Dữ liệu sử dụng trong mô hình 32
2.2.1 Nguồn dữ liệu 32
2.2.2 Đặc điểm dữ liệu 34
2.2.3 Tiền xử lý dữ liệu 35
Trang 52.3 Mô hình huấn luyện và kiểm tra 36
2.3.1 Quy trình huấn luyện 36
2.3.2 Thử nghiệm với từng mô hình 38
2.3.3 Cross-validation và kiểm định 40
2.4 Các mô hình thực nghiệm dùng để so sánh 41
2.4.1 Mô hình Duan et al (2006) 41
2.4.2 Mô hình Spycher and Reed (1988) 42
CHƯƠNG 3: KẾT QUẢ VÀ THẢO LUẬN 43
3.1 Kết quả huấn luyện và kiểm tra của các mô hình 43
3.1.1 Kết quả mô hình Decision Tree 43
3.1.2 Kết quả mô hình Random Forest 43
3.1.3 Kết quả mô hình XGBoost 44
3.2 So sánh với kết quả thực tế 44
3.2.1 Kết quả so sánh 44
3.2.2 Lựa chọn mô hình phù hợp nhất 48
3.3 So sánh chi tiết với mô hình thực nghiệm 49
3.5 Kết luận 51
TÀI LIỆU THAM KHẢO 52
PHỤ LỤC 54
Trang 6DANH MỤC HÌNH ẢNH
Hình 2.1 Sơ đồ khối quy trình nghiên cứu cho đề tài 30
Hình 3.1 Biểu đồ so sánh giá trị thực tế và kết quả mô hình DT 46
Hình 3.2 Biểu đồ so sánh giá trị thực tế và kết quả mô hình RF 47
Hình 3.3 Biểu đồ so sánh giá trị thực tế và kết quả mô hình XGB 47
Hình 3.4 Biểu đồ so sánh giá trị thực nghiệm và kết quả mô hình RF 49
Trang 7DANH MỤC BẢNG
Bảng 2.1 Một phần dữ liệu dùng để so sánh với giá trị thực tế 32
Bảng 2.2 Một phần dữ liệu so sánh fugacity giữa các mô hình 33
Bảng 3.1 Một phần dự đoán của mô hình DT với thực tế 43
Bảng 3.2 Một phần dự đoán của mô hình RF với thực tế 44
Bảng 3.3 Một phần dự đoán của mô hình XGB với thực tế 44
Bảng 3.4 Bảng so sánh MSE và R² của các mô hình 45
Bảng 3.5 Bảng kết quả dự đoán của các mô hình so với giá trị thực tế 45
Trang 8DANH SÁCH CÁC CHỮ VIẾT TẮT VÀ THUẬT NGỮ
Trang 9MỞ ĐẦU
Trong bối cảnh cách mạng công nghiệp 4.0, trí tuệ nhân tạo (AI) đang định hình lại cách tiếp cận các bài toán kỹ thuật phức tạp trong nhiều lĩnh vực, đặc biệt là ngành công nghiệp dầu khí Là một nhánh quan trọng của AI, machine learning (ML) đã trở thành công
cụ không thể thiếu trong việc phân tích và xử lý các bộ dữ liệu lớn, mang lại những giải pháp tối ưu cho các vấn đề liên quan đến khai thác, quản lý tài nguyên và bảo vệ môi trường Các thuật toán machine learning, dù đã được phát triển từ nhiều thập kỷ trước, nhưng chỉ thực sự bùng nổ nhờ sự tiến bộ của công nghệ tính toán hiện đại, cho phép xử
lý dữ liệu với tốc độ và độ chính xác cao Trong ngành dầu khí, machine learning không chỉ là chủ đề thảo luận sôi nổi tại các hội thảo công nghệ mà còn là lĩnh vực cạnh tranh khốc liệt giữa các doanh nghiệp, nơi các công ty lớn sử dụng ML để thu thập, chuẩn bị, phân tích dữ liệu, xây dựng mô hình dự đoán và triển khai các ứng dụng thực tiễn nhằm tối
ưu hóa hiệu quả kinh tế và giảm thiểu rủi ro
Về bản chất, machine learning là một công cụ mạnh mẽ giúp phát hiện các mẫu ẩn trong dữ liệu và đưa ra các dự đoán chính xác mà không bị ảnh hưởng bởi các thành kiến của con người Khác với các phương pháp thống kê truyền thống, nơi các công thức toán học được xây dựng thủ công, ML tận dụng sức mạnh tính toán để tự động khám phá các mối quan hệ phức tạp thông qua các quá trình lặp lại Các thuật toán ML được lựa chọn dựa trên đặc điểm của bài toán và loại dữ liệu, sau đó xử lý dữ liệu để tạo ra một mô hình
dự đoán hiệu quả Trong ngành dầu khí, ML đã được ứng dụng rộng rãi trong các lĩnh vực như phân tích địa chất, tối ưu hóa quy trình khai thác, và quản lý môi trường Một trong những ứng dụng nổi bật là dự đoán hệ số fugacity của CO2 trong dung dịch muối, một yếu
tố quan trọng trong việc đánh giá khả năng lưu trữ CO2 dưới lòng đất để giảm thiểu phát thải khí nhà kính (Bhattacherjee et al., 2023)
Trong đồ án kỹ thuật này, chúng em tập trung vào việc ứng dụng machine learning để
dự đoán hệ số fugacity của CO2 trong môi trường nước muối, chịu ảnh hưởng của các yếu
Trang 10tố như áp suất, nhiệt độ và độ mặn Hệ số fugacity là một thông số quan trọng, phản ánh hành vi nhiệt động lực học của CO2 trong các điều kiện địa chất phức tạp, từ đó hỗ trợ việc thiết kế và tối ưu hóa các dự án lưu trữ CO2 Bằng cách sử dụng các thuật toán machine learning tiên tiến, chúng em kỳ vọng sẽ xây dựng được một mô hình dự đoán chính xác, vượt trội hơn so với các phương pháp dựa trên phương trình trạng thái truyền thống như Redlich-Kwong hay Peng-Robinson, vốn thường gặp khó khăn trong việc mô phỏng chính xác ở các điều kiện cận tới điểm tới hạn Nghiên cứu này không chỉ góp phần nâng cao hiểu biết về hành vi của CO2 trong các hệ thống địa chất mà còn mở ra tiềm năng ứng dụng
ML trong các bài toán kỹ thuật phức tạp khác của ngành dầu khí, hướng tới một tương lai bền vững hơn
1 Tính cấp thiết và ý nghĩa của đề tài
Biến đổi khí hậu do hiệu ứng nhà kính đang là một trong những thách thức lớn nhất của nhân loại trong thế kỷ 21 Khí CO₂ – chiếm hơn 75% lượng khí nhà kính nhân tạo – chủ yếu phát thải từ các ngành công nghiệp năng lượng như nhiệt điện, lọc hóa dầu, sản xuất xi măng và khai thác dầu khí Do đó, các giải pháp nhằm giảm phát thải và xử lý khí CO₂ đang trở thành xu hướng tất yếu trên toàn cầu Trong đó, thu giữ và lưu trữ carbon (CCS) và tái sử dụng CO₂ trong thu hồi dầu tăng cường (CO₂-EOR) là hai hướng tiếp cận
chiến lược, đặc biệt quan trọng trong ngành dầu khí [1]
Tuy nhiên, để thiết kế, vận hành và mô phỏng các hệ thống CCS hoặc CO₂-EOR hiệu quả, điều kiện tiên quyết là cần hiểu rõ hành vi nhiệt động lực học của CO₂ trong môi trường nước mặn (brine) dưới điều kiện nhiệt độ và áp suất cao Một trong những đại lượng cốt lõi trong mô phỏng cân bằng pha và tính độ hòa tan CO₂ chính là hệ số fugacity (fugacity coefficient) – đại diện cho mức độ phi lý tưởng của CO₂ trong hệ thống [1]
Truyền thống, các mô hình như Peng–Robinson (PR) hoặc Soave–Redlich–Kwong (SRK) thường được sử dụng để tính hệ số fugacity Tuy nhiên, việc sử dụng phương trình trạng thái (EOS) này đòi hỏi thuật toán phức tạp, tốn thời gian và có thể bị ảnh hưởng bởi
Trang 11sai số số học ở điều kiện siêu tới hạn Ngoài ra, các mô hình này cần hiệu chỉnh cho từng
điều kiện cụ thể, làm hạn chế khả năng áp dụng linh hoạt [2]
Trong bối cảnh đó, các mô hình học máy (Machine Learning – ML) đã nổi lên như một giải pháp thay thế tiềm năng ML có khả năng học và dự đoán các mối quan hệ phi tuyến tính giữa các biến đầu vào (như áp suất, nhiệt độ, nồng độ muối, thành phần ion ) với hệ số fugacity mà không cần giả định mô hình vật lý cụ thể Nghiên cứu của Bhamare
và cộng sự (2023) đã chứng minh rằng các mô hình như Random Forest, XGBoost và SVR
có thể dự đoán hệ số fugacity CO₂ với độ chính xác cao, thậm chí có thể thay thế phương pháp truyền thống trong nhiều điều kiện vận hành khác nhau
Đặc biệt, nghiên cứu này sử dụng mô hình của Duan et al (2006) và Spycher & Reed (1988) như một “tiêu chuẩn thực nghiệm” để huấn luyện và kiểm chứng các mô hình học máy Đây là hai mô hình bán thực nghiệm đã được hiệu chuẩn bằng nhiều dữ liệu thực nghiệm và hiện đang được sử dụng phổ biến trong mô phỏng CO₂–brine cho các hệ CCS
- Về mặt thực tiễn: Dự đoán chính xác hệ số fugacity giúpt ính toán độ hòa tan CO₂ trong brine nhanh hơn, hỗ trợ mô phỏng quá trình CO₂-EOR và CCS; tối ưu hóa chi phí thiết kế và vận hành bơm ép CO₂ dưới lòng đất; mở rộng áp dụng mô hình cho các điều kiện địa chất đặc thù, như vỉa có độ mặn cao hoặc áp suất sâu
Trang 12Trong bối cảnh ngành dầu khí đang định hướng phát triển bền vững và tăng cường
tự động hóa mô hình hóa, việc xây dựng và kiểm chứng mô hình ML cho fugacity CO₂ không chỉ có giá trị thực hành mà còn góp phần định hướng tương lai nghiên cứu và vận hành các hệ thống lưu trữ CO₂ hiệu quả
2 Mục tiêu của đề tài
Mục tiêu chính của đề tài là phát triển và đánh giá các mô hình học máy (machine learning) có khả năng dự đoán chính xác hệ số fugacity của CO₂ trong dung dịch nước muối (brine) dưới các điều kiện áp suất và nhiệt độ khác nhau Việc xác định hệ số fugacity một cách nhanh chóng và chính xác đóng vai trò rất quan trọng trong mô phỏng cân bằng pha, tính độ hòa tan CO₂, thiết kế hệ thống lưu trữ carbon (CCS) và thu hồi dầu tăng cường bằng CO₂ (CO₂-EOR) Tuy nhiên, các phương pháp truyền thống như sử dụng phương trình trạng thái Peng–Robinson (PR-EOS) hoặc Soave–Redlich–Kwong (SRK-EOS) thường yêu cầu giải hệ phương trình phi tuyến và cần hiệu chỉnh kỹ lưỡng cho từng điều
kiện, điều này làm tăng đáng kể chi phí tính toán trong mô phỏng kỹ thuật [2]
Trên cơ sở đó, đề tài hướng đến việc áp dụng các thuật toán học máy hiện đại như Decision Tree, Random Forest và XGBoost để thay thế hoặc bổ trợ cho các mô hình vật lý truyền thống Các mô hình này sẽ được huấn luyện bằng dữ liệu đã được xây dựng từ bài báo nghiên cứu của Bhamare và cộng sự (2023), trong đó các giá trị hệ số fugacity của CO₂
đã được tính toán từ phương trình trạng thái và mô hình Duan [3] Sau khi mô hình được
huấn luyện, hệ số fugacity do các thuật toán học máy dự đoán sẽ được so sánh với kết quả
từ hai mô hình bán thực nghiệm phổ biến và đáng tin cậy là Duan et al (2006) và Spycher
& Reed (1988), vốn đã được hiệu chỉnh từ dữ liệu thực nghiệm và đang được sử dụng rộng rãi trong các phần mềm mô phỏng địa kỹ thuật và EOR [3] [4]
Việc xây dựng một mô hình học máy chính xác và có khả năng khái quát hóa tốt không chỉ giúp giảm chi phí và thời gian tính toán trong mô phỏng mỏ mà còn có thể mở rộng để áp dụng cho các điều kiện địa chất đa dạng như vỉa có độ mặn cao, vùng áp suất
Trang 13sâu hoặc các hệ đa thành phần Đồng thời, mô hình học máy có thể dễ dàng tích hợp vào các phần mềm kỹ thuật hiện đại và phục vụ như một công cụ dự đoán nhanh trong thực tế vận hành mỏ, từ đó nâng cao hiệu quả sản xuất và kiểm soát phát thải khí nhà kính trong công nghiệp dầu khí
lục của bài nghiên cứu Bhamare et al (2023) [1], trong đó hệ số fugacity đã được tính toán
bằng mô hình Duan – một mô hình bán thực nghiệm đã được kiểm chứng rộng rãi trong
nghiên cứu nhiệt động học của hệ CO₂–nước–muối [3]
Tiếp theo, đề tài tiến hành xây dựng các mô hình học máy bao gồm Decision Tree, Random Forest và XGBoost để huấn luyện với tập dữ liệu đã xử lý Các mô hình được thiết lập và điều chỉnh tham số (hyperparameter tuning) thông qua các kỹ thuật như Grid Search và Cross-Validation nhằm đảm bảo độ chính xác và tính ổn định của dự đoán
Sau khi huấn luyện xong, đề tài thực hiện đánh giá hiệu suất dự đoán của từng mô hình thông qua các chỉ số như hệ số tương quan R², sai số trung bình tuyệt đối (MAE), và sai số bình phương trung bình (RMSE) Các giá trị dự đoán sau đó sẽ được so sánh trực tiếp với giá trị tính toán từ hai mô hình thực nghiệm tham chiếu là Duan et al (2006) và Spycher & Reed (1988) để phân tích độ sai lệch và xu hướng dự đoán dưới các điều kiện
địa chất khác nhau [2] [4]
Cuối cùng, đề tài sẽ tiến hành lựa chọn mô hình dự đoán tối ưu dựa trên hiệu quả tổng thể, mức độ khái quát hóa và khả năng triển khai thực tiễn trong các hệ mô phỏng địa chất hoặc mô hình CCS/EOR Từ đó, đề xuất một hướng phát triển mô hình học máy có
Trang 14thể áp dụng cho các bài toán liên quan đến hệ CO₂–nước–muối trong điều kiện đa dạng của các tầng chứa dầu khí và tầng chứa nước muối sâu
4 Ý nghĩa khoa học và thực tiễn
Về mặt khoa học, đề tài góp phần mở rộng phương pháp luận trong việc ứng dụng trí tuệ nhân tạo – cụ thể là các mô hình học máy (Machine Learning) – để giải quyết một bài toán vốn có tính chất vật lý – nhiệt động học phức tạp: dự đoán hệ số fugacity của CO₂ trong môi trường nước muối (brine) Thay vì sử dụng các phương trình trạng thái truyền thống như Peng–Robinson hay Soave–Redlich–Kwong vốn đòi hỏi giải các hệ phương trình phi tuyến, đề tài cho thấy khả năng của các thuật toán học máy như Random Forest, XGBoost hay Decision Tree trong việc học từ dữ liệu đã tính toán bằng mô hình chuẩn và cho ra kết quả có độ chính xác tương đương, thậm chí vượt trội trong một số trường hợp
[1] [2]
Việc áp dụng các mô hình học máy vào các bài toán cân bằng pha, mô phỏng hệ khí – chất lỏng đã được nghiên cứu trong nhiều ngành như hóa dầu, địa chất và khai thác mỏ Trong đó, một xu hướng hiện nay là sử dụng Machine Learning để dự đoán các tính chất PVT (Pressure–Volume–Temperature) và các tham số nhiệt động như fugacity, hoạt độ (activity) hoặc độ hòa tan (solubility) thay cho mô hình vật lý truyền thống nhằm giảm thiểu độ phức tạp tính toán và nâng cao tính thích nghi của mô hình với dữ liệu thực tế [5] Theo quan điểm của Faghihi & Rashidi (2021), trong môi trường có nhiều yếu tố ảnh hưởng phi tuyến như hệ nước – muối – CO₂, các mô hình ML có khả năng nắm bắt mối quan hệ phức tạp giữa các biến mà mô hình vật lý khó diễn tả một cách đầy đủ [6]
Về mặt thực tiễn, đề tài có thể được ứng dụng trực tiếp vào các mô hình mô phỏng cho quá trình thu hồi dầu tăng cường bằng CO₂ (CO₂-EOR) và lưu giữ CO₂ dưới lòng đất (CCS) Trong các mô phỏng EOR hoặc CCS, việc xác định đúng hệ số fugacity là bước bắt buộc để tính toán độ hòa tan CO₂ vào nước vỉa hoặc nước muối – yếu tố quyết định
hiệu quả bơm ép và dự báo phân bố CO₂ sau khi bơm vào vỉa [3] Do đó, mô hình học máy
được đề xuất trong đề tài có thể được tích hợp vào các phần mềm mô phỏng dòng chảy và
Trang 15địa hóa như TOUGH2, CMG-GEM, hay các công cụ tự phát triển để tăng tốc tính toán mà
vẫn đảm bảo độ chính xác trong phân tích kết quả [4]
Ngoài ra, trong bối cảnh ngành dầu khí đang chuyển dịch theo hướng chuyển đổi số
và ứng dụng các công nghệ AI/ML vào quy trình khai thác, giám sát và tối ưu hóa vận hành, đề tài còn mang lại giá trị đào tạo và chuyển giao tri thức cho sinh viên kỹ thuật, góp phần tạo nền tảng cho việc tiếp cận công nghệ mô hình hóa hiện đại và xây dựng tư duy liên ngành giữa công nghệ số và kỹ thuật truyền thống
5 Phương pháp nghiên cứu
Đề tài sử dụng phương pháp nghiên cứu kết hợp giữa mô hình hóa dữ liệu và thuật toán học máy (Machine Learning – ML) nhằm xây dựng một hệ thống dự đoán chính xác
hệ số fugacity của CO₂ trong môi trường nước muối (brine) Phương pháp nghiên cứu được triển khai qua các bước chính như sau:
- Trước tiên, dữ liệu đầu vào được thu thập từ bài báo của Bhamare et al (2023) [1], trong đó hệ số fugacity CO₂ được tính toán bằng mô hình Duan et al (2006) – một mô hình bán thực nghiệm đã được xác nhận bởi nhiều nghiên cứu trong lĩnh vực nhiệt động học và
địa hóa học [3] Dữ liệu bao gồm các biến nhiệt động học như: áp suất (P), nhiệt độ (T),
nồng độ muối và các đại lượng liên quan đến thành phần pha Các giá trị fugacity được coi
là đầu ra (output) để phục vụ mục tiêu huấn luyện mô hình
- Sau đó, dữ liệu được xử lý bằng các bước tiền xử lý số liệu như loại bỏ giá trị thiếu hoặc bất thường, chuẩn hóa giá trị đầu vào (min–max scaling hoặc z-score), và chia thành hai tập: tập huấn luyện và tập kiểm tra theo tỷ lệ thích hợp (thường là 80/20 hoặc 70/30)
Kỹ thuật chia chéo (k-fold cross-validation) được áp dụng nhằm đảm bảo tính ổn định và khả năng khái quát hóa của mô hình trên dữ liệu chưa từng thấy
Về mặt mô hình hóa, đề tài lựa chọn và triển khai ba thuật toán học máy có hiệu quả cao trong các bài toán hồi quy phi tuyến là Decision Tree Regressor (DT), Random Forest Regressor (RF) và Extreme Gradient Boosting (XGBoost) Các mô hình này không chỉ có
Trang 16khả năng xử lý tốt dữ liệu nhiều chiều mà còn cho phép đánh giá mức độ quan trọng của từng biến đầu vào (feature importance), từ đó cung cấp thông tin giá trị về mức độ ảnh
hưởng của các điều kiện địa chất đến fugacity CO₂ [7]
Mô hình được đánh giá dựa trên các chỉ số chuẩn trong học máy bao gồm: R² (hệ
số xác định), MAE (sai số tuyệt đối trung bình), RMSE (sai số bình phương gốc trung bình) Sau khi mô hình được huấn luyện và đánh giá nội bộ, kết quả dự đoán sẽ được so sánh với kết quả tính toán từ các mô hình thực nghiệm kinh điển là Duan et al (2006) và Spycher & Reed (1988) [3] [4], từ đó phân tích độ sai lệch và xác định điều kiện mà mô hình ML hoạt động hiệu quả nhất
Cuối cùng, mô hình có hiệu suất dự đoán tối ưu sẽ được lựa chọn dựa trên độ chính xác, độ tin cậy và khả năng ứng dụng thực tiễn, đặc biệt trong các hệ mô phỏng địa chất phục vụ tính độ hòa tan CO₂, thiết kế bơm ép CO₂ trong EOR hoặc lưu trữ CO₂ trong tầng nước mặn sâu (saline aquifer)
Trang 17CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU VỀ MACHINE LEARNING VÀ DỰ ĐOÁN HỆ SỐ FUGACITY CỦA KHÍ
CO2 1.1 Khái niệm và lịch sử nghiên cứu machine learning
Ngày nay, thời kỳ chuyển đổi số đáng kể, trí tuệ nhân tạo, ML, và deep learning đã
và đang định hình lại các doanh nghiệp Machine Learning là một tập hợp con của AI, việc
sử dụng các thuật toán thống kê để cung cấp cho máy tính khả năng học hỏi từ các nguồn
dữ liệu có sẵn và áp dụng những kiến thức vào các tình huống mới Machine learning là một lĩnh vực nghiên cứu trí tuệ nhân tạo AI liên quan đến việc phát triển và nghiên cứu các thuật toán thống kê có thể học từ dữ liệu và tổng quan hóa cho dữ liệu chưa thấy, từ đó thực hiện các nhiệm vụ không cần hướng dẫn rõ rang [8]
1.1.1 Các quan điểm về machine Learning
Trong ngành công nghiệp dầu khí, machine learning được sử dụng cho phân tích và
mô hình hóa cho công nghiệp khoan, khai thác, dự đoán các nhu cầu bảo trì, tối ưu hóa chuỗi cung ứng và tối ưu hóa nguồn lực tài chính Nhờ vào việc ứng dụng machine learning trong các mảng hoạt động của ngành đã góp phần nâng cao năng suất và tăng giá trị cho toàn ngành
1.1.1.1 Đổi mới
Cũng như các ngành công nghiệp khác, ngày nay ngành công nghiệp dầu khí cũng ngày càng có những “đổi mới” và việc “đổi mới” này ngày càng trở nên quan trọng trong quá trình duy trì và tái định hình ngành Như vậy, khái niệm “đổi mới” ở đây là một khái niệm phức tạp được coi là nguồn phát triển cho các công ty và nền kinh tế, nó liên quan đến sản phẩm, quy trình hoặc dịch vụ, công nghệ hay các yếu tố có khả năng phát triển (Cooper, 1998) Theo các tổ chức, “đổi mới” lại được định nghĩa là sự phát triển các sản phẩm hoặc là dịch vụ mới (Jackson, 2011) Còn theo Schumpeter (1947) lại cho rằng “đổi mới” đơn giản là “làm những việc đang được làm theo một cách mới” Ngoài ra, theo Porter
Trang 18(1990) thì “đổi mới” như một quá trình dựa trên những nghiên cứu toàn diện ban đầu, sau
đó được phát triển từ đó, lặp lại quá trình cho đến khi vấn đề được giải quyết Vì “đổi mới” cũng có thể là cả quá trình phát triển và triển khai các ý tưởng mới và “đổi mới” được sử dụng đặc trưng cho các quá trình sử dụng công nghệ và kiến thức mới để cải tiến quy trình
và sản phẩm Nếu như quá trình “đổi mới” được thực hiện đúng cách trong đổi mới mô hình kinh doanh, giúp các công ty có thể đứng vững hơn trong thời kỳ biến đổi và các quy trình đổi mới đã được phát triển có thể góp phần vào tăng trưởng (Christensen et al., 2016)
Và đổi mới cũng được định nghĩa là chuyển hóa một ý tưởng thành sản phẩm và dịch vụ khả thi [9]
Ngoài ra, Christensen (2004) lại cho rằng có 2 loại đổi mới: duy trì và đột phá Theo ông Christensen, đổi mới duy trì có nghĩa là các công ty doanh nghiệp thực hiện các quy trình đổi mới những duy trì cho các sản phẩm, các dịch vụ hiện tại tốt hơn và đổi mới đốt phá thì mang lại cho các doanh nghiệp, các công ty sự dịch chuyển, sự chuyển đổi mới đột phá mô hình hóa Tuy nhiên, sau đó ông thêm một hạng mục thứ ba là đổi mới hiểu quả bao gồm các biện pháp như cắt giảm chi phí nơi một công ty có thể đạt được nhiều hơn với
ít nguồn lực hơn [9]
Qua đó, “đổi mới” có thể được định nghĩa theo nhiều nghĩa khác nhau, qua những quan điểm ở trên “đổi mới” có thể được định nghĩa là những thay đổi, chuyển đổi mới, những bước chuyển đột phá trong ngành, những cải thiện trong các hoạt động tuy nhiên các doanh nghiệp duy trì những sản phẩm, dịch vụ hiện tại Các công ty, các doanh nghiệp dầu khí cần tích hợp các hoạt động đổi mới, đưa ra những hướng cải thiện khả năng trong việc phân tích, đưa ra những dự đoán chính xác hơn trong việc thăm dò, khai thác dầu khí, chuỗi chế biến và cung ứng dầu khí
Hiện nay, trong ngành công nghiệp dầu khí việc sử dụng trí tuệ nhân tạo và machine learning ngày càng được phổ biến và cũng góp phần đa dạng hóa nền công nghiệp dầu khí nói riêng và nền kinh tế nói chung Ở Việt Nam, hiện nay công nghệ đổi mới cũng đã góp phần vào mọi lĩnh vực từ công nghệ khai thác đến các ngành công nghiệp năng lượng liên
Trang 19quan Trí tuệ nhân tạo được định nghĩa là “khoa học và kỹ thuạt tạo ra máy thông minh, đặc biệt là các chương trình máy tính thông minh” Liên quan đến nhiệm vụ tương tự là sử dụng máy tính để hiểu trí tuệ con người, nhưng trí tuệ nhân tạo không nhất thiết phải giới hạn mình trong các phương pháp có thể quan sát được về mặt sinh học” (McCarthy, 2007) Nhưng theo Russel và Norvig (2009) lại định nghĩa trí tuệ nhân tạo là máy móc (hoặc máy tính) bắt chước các chức năng của con người về mặt nhận thức, gắn với trí não của con người, học cách giải quyết vấn đề như con người Như vậy, định nghĩa này cũng không quá khác so với định nghĩa về trí tuệ nhân tạo do John McCarthy giải thích vào năm 1956
là “khoa học và kỹ thuật tạo ra máy thông minh” [9]
Machine Learning là một tập hợp con của trí tuệ nhân tạo, vậy machine learning là gì? Machine learning là một trong những ứng dụng của trí tuệ nhân tạo, nó liên quan đến vấn đề xây dựng các chương trình máy tính tự động cải thiện dựa trên những những kinh nghiệm Machine learning nghiên cứu về những thuật toán và mô hình thống kê được sử dụng bởi máy tính để thực hiện các các tác vụ tự động, đưa ra những dự đoán bằng mô hình và rút ra “quyết định” dựa trên mô hình dự đoán và suy ra kết luận Như vậy, machine learning là một máy hoặc chương trình thực hiện các tác vụ giống con người, nó tự động học hỏi từ dữ liệu của chính nó Ngày nay, nhiều công ty ở nhiều ngành, nhiều lĩnh vực sẽ phải áp dụng máy móc vì nó yêu cầu tồn tại trong thời kỳ hiện nay
1.1.1.2 Các quan điểm về Machine Learning
Trong phần này, trình bày về những quan điểm của các tổ chức Chính phủ trong lĩnh vực dầu khí về machine learning Để phân tích, đánh giá và trình bày một cách trực quan về những quan điểm của các tổ chức Chính phủ, của các doanh nghiệp và các công
ty dầu khí có liên quan Với các chuyên gia của các tổ chức dầu khí ở Na Uy Đầu tiên, trình bày quan điểm của tổ chúc Chính phủ Na Uy - Cơ quan Dầu khí và Petoro Tiếp theo,
đi đến 2 công ty khác nhau là 2 tập đoàn dầu khí lớn như Shell và Lundin để đại diện cho các tập đoàn dầu khí nhỏ khác Cuối cùng là phần quan điểm của công ty dữ liệu thông qua Cognite của Aker BP Và trong phần báo cáo này dựa trên phần tìm kiếm và phần tích
Trang 20thông tin, dữ liệu trên các trang web được sử dụng để cung cấp những thông tin cần thiết cho thông tin của phỏng vấn
a NPD – Quan điểm của Chính Phủ
Chính phủ Na Uy là nơi đóng vai trò quan trong trọng trong Ngành dầu khí ở Na
Uy (NOGI) kể từ khi Na Uy giành được quyền kiểm soát thăm dò và khai thác trên bờ biển
Na Uy (NCS) vào năm 1963 (Janicke, 1984) Năm 1971, Nhà nước Na Uy thành lập Cơ quan Dầu khí Na Uy (NPD) sau khi ngườn dầu đầu tiền được đưa vào sản xuất Và cho đến ngày nay, NPD đã có những khuyến nghị đến cấp trên về vấ đề cấp phép trên NCS và chịu trách nhiệm về các phân tích công nghệ và địa chất dài hạn theo quy định của luật pháp Na
Uy Các cơ quan điều hành quản lý tấn suất thăm dò và sản xuất tại các mỏ của Na Uy Như vậy, vai trò của chính phủ Na Uy rất quan trọng đối với ngành dầu khí của Na Uy, cũng như những quan điểm, đánh giá về tình hình trong ngành và vấn đề đổi mới trong ngành thì cũng ảnh hưởng lớn đến cách mà Ngành Dầu khí Na Uy được định hình trong tương lai [9]
Cựu Giám đốc Cơ quan Dầu khí Na Uy sau khi nhận bằng thạc sĩ về công nghệ tài nguyên và địa chất, ông làm việc ở ngoài khơi và sau đó được đưa vào NPD đảm nhận với nhiều vai trò khác nhau với tư cách là Giám đốc NPD Ông đã nhận thấy và đưa ra dự đoán
là xu hướng chính ngày nay của NOGI là tập trung vào phát triển nhanh với trọng tâm là
sử dụng công nghệ để giảm chi phí cũng như cải thiện được chuỗi cung ứng bằng cách nâng cao hiệu suất và hiệu quả trong mỗi quá trình từ khâu khai thác đến khau đưa ra thị trường Theo lời ông nói: “ Tất cả các bước trong quá trình khai thác, sản xuất và phân phối dầu đều tốn kém, vì vậy tập trung rất lớn vào việc giảm các chi phí đó, công nghệ đang được phát triển và khám phá ngày nay cho thấy rằng công nghệ hiện có không chỉ thức đẩy qyas trình nhanh hơn mà còn giúp khám phá thêm các mỏ dầu khí có tính khả thi Hiệu quả chi phí của công nghệ mới cho phép các công ty tìm thấy nhiều tài nuyên thiên nhiên hơn
và khai thác hiệu quả hơn.” (Cựu Giám độc NPD, 12/2019) Và ông cũng đưa ra đánh giá rằng: “Không gian cho sự phát triển của ngành công nghiệp khiến việc đổi mới là điều cần
Trang 21thiết, vì nếu tụt hậu có thể dẫn đến những tổn thất lớn Tìm kiếm cơ hội mới và cải thiện chuỗi cung ứng không chỉ thúc đẩy công nghiệp phát triển mà còn đồng thời đưa công nghệ tiến lên phía trước.” Qua đây, chúng ta có thể nhận thấy được quan điểm của Cựu Giám độc NPD đã nhận thấy sự phát triển của công nghệ thời nay, ông còn cho biết công nghệ
và ML có tiềm năng làm cho khai thác dầu hiệu quả hơn, đồng thời bảo vệ môi trường một cách hiệu quả [9]
Một vấn đề lớn trong ngành công nghiệp dầu khí hiện nay đang phải đối mặt hiện nay là các thách thức trong việc kiểm soát môi trường trong việc thăm dò, khai thác và sản xuất dầu khí Với ứng dụng ML có thể giúp tăng khả năng tìm kiếm và thăm dò dầu khí, cũng như cải thiện phân tích dữ liệu địa chấn và nâng cao phương pháp khai thác hiệu quả
ơn Thông qua công nghệ và ML, hy vọng rằng với các phương pháp cải thiện, nó có thể làm cho các quá trình khác nhau thân thiện với môi trường hơn (Cựu Giám đốc NPD cho hay, 12/2019) NPD coi môi trường là một trong những thách thức lớn nhất trong việc cải thiện các quá trình chuỗi cung ứng Các quá trình cần phải đáp ứng được những yêu cầu bền vững của chính phủ và NPD và khẳng định tính bền vững là ưu tiên hàng đầu Mục tiêu chính của NPD hiện nay là giảm thiệt hại môi trường tối thiểu và ít tai nạn nhất có thể
Vì NPD có vai trò là đưa ra những lời khuyên để đảm bảo các công ty đang khai thác và sản xuất dầu một cách “thông minh” và NPD phê duyệt các địa điểm và phụ trách cấp phép khai thác cho việc khai thác dầu khí ở Na Uy Trong tương lai, không chỉ họ và cả các cơ qua chính phủ của các quốc gia khác cũng phải tập trung vào việc cân bằng lợi nhuận và môi trường Để làm được điều đó như thế nào? Điều đó đòi hỏi phải thay đổi những gì? Và công nghệ mới có thể dấn đến việc tìm kiếm các nguồn tài nguyên mới hay không? AI và
ML là đổi mới duy trì hay đổi mưới phá vỡ? Theo cựu giám đốc của NPD tin rằng AI và
ML vừa có thể là cả đổi mới duy trì, vừa là đổi mới phá vỡ Như vậy có thể nói ông cho rằng việc cải thiện các hoạt động khai thác đang diễn ra, chẳng hạn như cải thiện quá trình khoan và sử dụng dữ liệu địa chất thì AI và ML chắc chắn là đổi mới duy trì; ví dụ như hệ thống đối phó với tối độ gió thì AI và ML có thể tạo ra các công nghệ đột phá trong toàn
bộ ngành [9]
Trang 22b Petoro – Quan điểm của Chính phủ II
Petoro là một công ty thuộc sở hữu nhà nước, thành lập vào năm 2001 và có vai trò quản lý danh mục giấy phép thăm dò và khai thác dầu khí của Chính phủ trên thềm lục địa
Na Uy, được gọi là Lợi ích tài chính trực tiếp Petoro có vai trò trung tâm trong NOGI khi nhiệm vụ của họ là quản lý lợi ích của nhà nước trong tất cả các dự án của nhà nước tham gia giám sóa việc tiếp thị dầu khí của Equinor và đảm bảo tất cả các điều cần tuân thủ các hướng dẫn của Bộ Dầu khí và Năng lượng Na Uy và cuối cùng là lưu giữ sổ sách các khoản tham gia trực tiếp của nhà nước Petoro là một lực lượng thúc đẩy tăng lợi thế cạnh tranh tạo ra sự chắc chắn về trữ lượng, thúc đẩy các hoạt động lành mạnh, cũng như tối ưu hóa các giải pháp hiệu quả về chi phí trên toàn bộ Nhằm mục đích tạo ra mối quan hệ công bằng và minh bạch xoay quanh các giấy phép khác, công nghệ, cơ quan quản lý và cộng đồng [9]
Tiềm năng của ML trong Petoro hợp tác với Schlumberger để sử dụng dữ liệu một cách hiệu quả nhất, giúp lập kế hoạch mỏ dầu và các công trình xây dựng giao tiếp với nhau, chủ yếu họ phát triển ML để hỗ trợ dữ liệu địa chấn và tìm kiếm AI và ML có thể giúp với các mô hình vỉa, các tham số và tạo ra những giải pháp sáng tạo về sử dụng và thực thi tạo ra lượng lớn dữ liệu Ngành công nghiệp dầu khí có nhiều không gian phát triển là đổi mới hay tư duy mới là vô cùng quan trọng Trong việc tìm kiếm những cơ hội mới và đưa công nghệ đi lên trước, tuy nhiên AI và ML có giới hạn của nó, vì nó không thể suy nghĩ giống như một doanh ngiệp và cân nhắc toàn bộ hoàn cảnh và tác động Theo Giám đôc Kỹ thuật số của Petoro (12/2019), ông cho rằng tính minh bạch tuyệt đối là then chốt Tóm lại, công nghệ có vai trò đổi mới đột phá và đổi mới duy trì, công nghệ có thể đưa ra những đánh gá chính xác về bề mặt cho thăm dò, thay vì khoan giếng thăm dò thì công nghệ đưa lên một bước ngoặt lớn về chi phí và môi trường [9]
c Shell – Quan điểm của tập đoàn dầu khí lớn
Trên trang web của Shell, công nghệ được sử dụng để thúc đẩy nỗ lực bảo trì dự báo và cung cấp năng lượng cho các ứng dụng trên toàn công ty Mục tiêu của Shell là
Trang 23mang ML và các công cụ khác dến sự sẵn sàng bằng cách phát triển và triển khai các ứng dụng AI với quy mô lớn, các nỗ lực chính bao gồm công nghệ cảm biến cụ thể và trình đánh giá Microsoft dự đoán khi nào cần bảo trì van máy nén và thiết bị khác Điều này là
hỗ trợ dẫn đường các mũi khoan qua các lớp vỏ, cải thiện an toàn và hỗ trợ phát hiện bất thường
Shell hiện đã và đang sử dụng các công cụ AI trong hoạt động dầu khí của họ, điển hình như công cụ AI từ Bonsai (một công ty phần mềm được Microsoft mua lại vào 2018)
để xây dựng phần mềm chạy tự động Mục tiêu của họ là giảm chi phí, nâng cao sản lượng
và quán lý tài sản hiệu quả hơn bằng cách tận dụng tốt dữ liệu chảy qua các hệ thống và thiết bị doanh nghiệp Điều này sẽ giúp nhận dạng được hình ảnh, phân tích video để cảnh báo quản lý trạm xăng khi có khách hàng làm điều gì đó không an toàn Các ứng dụng công nghệ cảm biến cũng sẽ giúp bảo trì dự đoán, phát hiện gian lân và tối ưu hóa chuỗi cung ứng Shell tách biệt với các nhiệm vụ đổi mới và thực thi vận hành các ứn dụng số hóa đã hoàn thành, với những nhiệm vụ cuối cùng được Trung tâm Dịch vụ Kinh doanh cua Shell thực hiện Và điểm chính ở đây là đổi mới thường gây xáo trộn và mang lại giá trị lâu dài trong khi hoạt động liên tục tự nhiên tìm kiếm sự liên tuch và các thực hành tốt nhất đã được chứng minh trước đó
Theo Kiến trúc sư Trưởng dự án và Công nghệ tại Shell, ông cho biết cái đổi mới của Shell có thể được phân loại thành 5 hạng mục khác nhau: AI và ML, robot, IOT (cảm biến sử dụng dữ liệu), blockchain (tăng khả năng truy xuất nguồn gốc của dầu khí) và camera Theo BLAPT cho rằng, ML có thể đóng vai trò trong việc giúp cải tiện nhiều khau của chuỗi cung ứng Việc sử dụng ML, giúp cho việc tối ưu hóa và xây dựng các mô hình tối ưu hóa là rất quan trọng cho việc đổi mới liên tục và cải thiện chuỗi cung ứng [9]
d Lundin – quan điểm của một công ty dầu khí nhỏ
Lundin Petroleum là một công ty phát triển và sản xuất, hoạt động trên Thềm lục địa Na Uy từ năm 2003 Hiện nay, họ là một trong những chủ sỡ hữu diện tích hoạt động lớn nhất ở Na Uy
Trang 24Giám đốc sản xuất của Lundin Petroleum tin rằng việc đổi mới và ML trong NOGI đặc biệt quan trọng vì giấy phép hoạt động và HSE (sức khỏe, an toàn và môi trường) Mục tiêu chunhs là tự động hóa càng nhiều càng tốt để có ít người hơn ở ngoài khơi, vì điều này
có thể là một rủi ro đối với HSE Trong việc khoan và khai thác trên giàn, HSE phải được
ưu tiên hàng đầu, nếu xảy ra sai sót trên giàn khoan con người sẽ chết Khi nói đến ML, mọi người đều đan làm những việc tương tựm nhưng chỉ là về việc thực hiện nhanh hơn Điều quan trọng là phải đầu tư vào đổi mới tạo ra các hợp tác có giá trị và khuyến khích đổi mới trong công ty giữa nhân viên Và ML và việc tối đa hóa sử dụng dữ liệu lớn sẽ gây rối loạn trong ngành và thay đổi ngành, các quy trình và chuỗi cung ứng một cách đáng kể (Giám đốc sản xuất của Lundin Petroleum, 12/2019) Nhận thấy được tiềm năng của dữ liệu, họ kết hợp cấu trúc công ty nhỏ và tinh thần đổi mới Lundin với chuyên môn dữ liệu của Cognite giúp cho việc số hóa chuỗi cung ứng một cách nhanh chóng và hiệu quả [9]
e Cognite – Quan điểm của công ty dữ liệu
Cognite hợp tác với cả Lundin và Aker BP tại Na Uy để cung cấp các giải pháp kỹ thuật số tùy chỉnh cho các nền tảng dầu khí Cốt lõi của những gì họ làm là thu thập và tổ chức tất cả dữ liệu hoạt động tại một nơi Họ thu thập thông tin từ bất kỳ ứng dụng nào và cải thiện các quy trình bảo trì bằng cách xem xét mối quan hệ giữ các nguồn dữ liệu Họ cho biết việc tối ưu hóa sản xuất này loại bỏ các ràng buộc không cần thiết và tăng sản lượng bằng cách nâng cao hiệu quả và tự động hóa một phần của chuỗi cung ứng [9]
1.1.1.3 Thảo luận về machine learning trong ngành công nghiệp dầu khí
Qua những quan điểm trên, phân tích và thảo luận việc sử dụng dữ liệu, phân tích trí tuệ nhân tạo khác tạo nên cơ hội để định nghĩa cơ bản về cách và nơi thực hiện công việc trong ngành công nghệ dầu khí Na Uy (NOGI) Trong trường hợp của trí tuệ nhân tạo
ở NOGI, và cụ thể là ML có tiềm năng đáng kể để mang lại một bước ngoặt, tăng cường lợi thế cạnh tranh trong toàn ngành và cũng cải thiện được ít nhiều quá trình công nghệ
Trang 25Trước khi bắt đầu nghiên cứu, chúng ta đưa ra kết luận giả định về ML là một yếu
tố làm gián đoạn trong ngành công nghiệp dầu khí Sau khi qua thảo luận và phân tích từ các chuyên gia đã đánh giá đưa ra quan điểm là ML có thể không là tác nhân thay đổi? Như các ngành công nghệ khác, khi công nghệ ML được lên ngôi thì đã làm thay đổi về nhân
sự trong ngành Tuy nhiên, việc phát triển công nghệ ML có thể mang đến những lợi ích cho các ngành vì tự động hóa các quy trình nguy hiểm, không an toàn và không bền vững
và đồng thời tăng hiệu quả chi phí và sản xuất thông qua phát hiện các bất thường và các quy trình địa chấn Các chủ thể chính phủ có những lo ngại và ưu tiên khác nhau so với các công ty dầu khí và công nghệ Quan ngại của họ tập trung vào dữ liệu địa chấn, để tận dụng tối đa tất cả các nguồn lực và tính bền vững Trái lại, Shell, Lundin và Cognite tập trung vào cách và theo những cách thức nào ML có thể thay đổi các quy trình để tăng hiệu quả chi phí, an toàn và bảo mật Qua các tài liệu tham khảo cũng như các quan điểm trên đã cho thấy Na Uy đã và đang duy trì được sức hấp dẫn của ngành đối với các công ty tư nhân, đồng thời đặt ra các quy định nghiêm ngặt và đánh thuế nặng đối với doanh thu dầu khí Điều này đã được thực hiện thông qua việc phân chia rõ ràng các nhiệm vụ và trách nhiệm giữa chính phủ, các công ty khai thác, các công ty cung cấp và nay là các công ty dữ liệu trong cơ cấu của NOGI
1.2 Khái niệm và lịch sử nghiên cứu hệ số Fugacity của khí CO2
Những nghiên cứu ban đầu tập trung vào việc đo lường trực tiếp fugacity thông qua các thí nghiệm Ví dụ, Bruno (1965) đã sử dụng phương pháp đo lường thể tích ở nhiệt độ không đổi và áp suất thay đổi để xác định fugacity của CO₂ Frost và Wood (1997) cũng thực hiện các thí nghiệm tương tự, nhằm thu thập dữ liệu thực nghiệm về hành vi của CO₂
ở các điều kiện áp suất và nhiệt độ khác nhau Những phương pháp này, mặc dù chính xác, nhưng rất tốn thời gian và tài nguyên, đặc biệt khi cần mở rộng phạm vi điều kiện thí nghiệm, như áp suất cao hoặc nhiệt độ cực đoan Để giảm sự phụ thuộc vào thí nghiệm, các nhà khoa học đã phát triển các mô hình toán học gọi là phương trình trạng thái (EOS) nhằm dự đoán fugacity một cách hiệu quả hơn Một số mô hình nổi bật bao gồm: Redlich-Kwong EOS, Peng-Robinson EOS, Virial EOS, Tuy nhiên Các mô hình EOS này đã cải
Trang 26thiện đáng kể khả năng dự đoán, nhưng vẫn tồn tại thách thức, đặc biệt là độ phức tạp tính toán và hạn chế ở các điều kiện gần điểm phân ly, nơi độ chính xác giảm Với sự phát triển của công nghệ học máy, các nhà nghiên cứu đã bắt đầu áp dụng các thuật toán như Extreme Gradient Boost (XGB) để dự đoán hệ số fugacity của CO₂ Kết quả cho thấy mô hình XGB
có hiệu suất tốt hơn hoặc ngang bằng với các mô hình EOS, nhưng với ưu điểm là tính toán nhanh hơn, rất phù hợp cho các ứng dụng như CCS, nơi cần ước tính nhanh độ tan CO₂ trong nước mặn [1]
Hệ số fugacity của CO₂ là một khái niệm cốt lõi trong nhiệt động học, đóng vai trò quan trọng trong việc hiểu hành vi của khí CO₂ trong các hệ thống phức tạp, đặc biệt ở điều kiện áp suất và nhiệt độ cao Nghiên cứu về chủ đề này đã trải qua nhiều giai đoạn, từ đo lường thực nghiệm ban đầu đến các mô hình toán học hiện đại và gần đây là ứng dụng học máy
Hệ số fugacity (φ) là một đại lượng vô chiều, được sử dụng để điều chỉnh áp suất thực tế của khí để phản ánh hành vi không lý tưởng, đặc biệt dưới áp suất cao Đối với khí
lý tưởng, áp suất (P) và thể tích (V) tuân theo phương trình PV = nRT, nhưng với khí thực
tế như CO₂, do có sự tương tác giữa các phân tử, áp suất thực tế có thể khác với áp suất lý tưởng [10] Fugacity (f) là một đại lượng có tính chất tương tự áp suất, nhưng được điều chỉnh để phản ánh tính không lý tưởng của khí thực so với khí lý tưởng [3]
Hệ số fugacity được định nghĩa như sau:
𝜑 = 𝑓𝑃Trong đó:
• f là fugacity của khí
• P là áp suất thực tế
Trang 271.3 Các nghiên cứu liên quan đến đề tài
1.3.1 Tổng quan nghiên cứu ngoài nước
Trong bối cảnh biến đổi khí hậu toàn cầu và nhu cầu cấp thiết về lưu trữ CO₂ nhằm giảm thiểu phát thải nhà kính, việc hiểu rõ các đặc tính nhiệt động học của CO₂, đặc biệt là
hệ số fugacity và độ hòa tan trong các môi trường khác nhau, trở thành một lĩnh vực nghiên cứu có ý nghĩa thiết thực và cấp bách Trong nhiều thập kỷ, các nhà khoa học đã phát triển các mô hình phân tích định lượng dựa trên các phương trình trạng thái (EOS) để ước tính fugacity của CO₂, chẳng hạn như mô hình Redlich-Kwong, Peng-Robinson và Virial EOS Tuy nhiên, các mô hình này thường gặp phải giới hạn khi áp dụng trong điều kiện áp suất
và nhiệt độ cao hoặc trong các dung dịch muối có tính phi tuyến mạnh mẽ
Các nghiên cứu của Duan et al (1992) với phương trình Virial bậc năm là một trong những nỗ lực đáng kể nhằm nâng cao độ chính xác của mô hình fugacity Mô hình của họ cho phép ước tính hệ số fugacity của CO₂ trong điều kiện nhiệt độ lên đến 1000 °C và áp suất đến 3500 bar, và đã được áp dụng thành công để mô phỏng độ hòa tan CO₂ trong nước tinh khiết và dung dịch NaCl (Duan & Sun, 2003) Tuy nhiên, điểm hạn chế của phương pháp này là tính toán phức tạp và yêu cầu nhiều tham số thực nghiệm khó xác định trong thực tế [6]
Để khắc phục các nhược điểm trên, những năm gần đây đã chứng kiến sự bùng nổ của các phương pháp học máy (machine learning – ML) như một công cụ thay thế đầy tiềm năng cho các mô hình truyền thống Machine learning cho phép khai thác các bộ dữ liệu thực nghiệm và bán thực nghiệm để xây dựng mô hình dự báo nhanh và chính xác với chi phí tính toán thấp Nhiều thuật toán như Linear Regression, Decision Tree, Random Forest, Support Vector Machine (SVM) và đặc biệt là Extreme Gradient Boosting (XGB) đã được
áp dụng để huấn luyện mô hình dự đoán hệ số fugacity của CO₂ trong nhiều điều kiện khác nhau
Cụ thể, Bhattacherjee et al (2023) đã sử dụng năm thuật toán học máy để dự đoán
hệ số fugacity của CO₂ dựa trên dữ liệu thực nghiệm và dữ liệu từ mô hình Duan Trong
Trang 28đó, mô hình XGB đã thể hiện hiệu suất vượt trội với sai số bình phương trung bình (MSE) chỉ 0.0002 và độ lệch trung bình dưới 1.3% so với dữ liệu thử nghiệm độc lập Khi so sánh với các mô hình truyền thống như của Spycher & Reed (1988) và Duan (1992), mô hình XGB cho kết quả tương đương nhưng với độ phức tạp tính toán thấp hơn đáng kể Không chỉ dừng lại ở việc dự đoán fugacity, dữ liệu đầu ra từ mô hình học máy còn được sử dụng
để tính độ hòa tan CO₂ trong nước muối (NaCl), đạt độ lệch tối đa chỉ 3.2% so với dữ liệu thực nghiệm – một kết quả cho thấy tiềm năng áp dụng rộng rãi của học máy trong lĩnh vực lưu trữ CO₂ và nghiên cứu địa nhiệt [11]
Ngoài ra, các nghiên cứu khác như của Zhang et al (2018), Jirasek et al (2020) và Amar et al (2020) đã ứng dụng mạng nơ-ron nhân tạo, SVM, và các mô hình hồi quy để
dự đoán các tính chất nhiệt động học khác như độ nhớt, mật độ và hệ số hoạt độ của CO₂ trong môi trường nước muối hoặc các dung môi hữu cơ Những thành tựu này chứng minh rằng các phương pháp học máy không chỉ là công cụ phụ trợ mà còn có khả năng thay thế đáng tin cậy cho các phương pháp truyền thống trong nhiều điều kiện phức tạp
1.3.2 Tổng quan nghiên cứu trong nước
Tại Việt Nam, các nghiên cứu liên quan đến hệ số fugacity và độ hòa tan CO₂ chủ yếu tập trung vào khía cạnh địa chất, hóa lý và kỹ thuật khai thác trong các mỏ dầu khí, với phương pháp tiếp cận truyền thống là chủ yếu Các mô hình như Arps, Redlich-Kwong hay Peng-Robinson vẫn được sử dụng rộng rãi trong các nghiên cứu và giảng dạy Tuy nhiên, việc áp dụng học máy trong các bài toán địa kỹ thuật và nhiệt động học, đặc biệt là liên quan đến CO₂, vẫn còn khá mới mẻ
Trong thời gian gần đây, một số nhóm nghiên cứu đã bắt đầu khai thác sức mạnh của trí tuệ nhân tạo và học máy nhằm nâng cao độ chính xác và hiệu quả của các mô hình tính toán Đáng chú ý là nghiên cứu hiện tại đã đóng vai trò tiên phong trong việc ứng dụng các mô hình học máy để xây dựng mô hình dự báo hệ số fugacity của CO₂ trong điều kiện nhiệt độ từ 0 đến 1000 °C và áp suất đến 2000 bar Mô hình được phát triển trên cơ sở tập
dữ liệu lớn gồm 640 điểm dữ liệu tổng hợp từ dữ liệu thực nghiệm và bán thực nghiệm
Trang 29Quá trình đánh giá hiệu suất mô hình cho thấy Extreme Gradient Boosting là phương pháp
ưu việt nhất, với sai số thấp và khả năng khái quát hóa tốt trên tập dữ liệu kiểm định [6]
Không chỉ dừng lại ở mô hình fugacity, nhóm nghiên cứu còn mở rộng ứng dụng bằng cách sử dụng kết quả mô hình để tính toán độ hòa tan CO₂ trong nước muối với nồng
độ khác nhau, từ đó đánh giá tiềm năng lưu giữ CO₂ trong các tầng chứa nước mặn sâu và
mỏ dầu khí đã cạn kiệt – một chủ đề đang nhận được sự quan tâm đặc biệt trong chiến lược năng lượng và môi trường của Việt Nam
1.4 Cơ sở lý thuyết về các mô hình học máy
1.4.1 Mô hình Random Forest (RF)
Mô hình Random Forest (RF) là một thuật toán học máy thuộc nhóm ensemble learning, được phát triển bởi Leo Breiman và Adele Cutler, và được đăng ký thương hiệu vào năm 2006 [11] Nó là một phương pháp học có giám sát, phù hợp cho cả phân loại và hồi quy, dựa trên việc kết hợp nhiều cây quyết định (decision trees) để đưa ra dự đoán chính xác hơn RF hoạt động bằng cách xây dựng một "rừng" gồm nhiều cây, mỗi cây được huấn luyện trên một tập hợp con ngẫu nhiên của dữ liệu (bootstrap sampling) và sử dụng một tập hợp con ngẫu nhiên của các đặc trưng tại mỗi nút phân chia Kết quả cuối cùng được quyết định bằng cách kết hợp dự đoán từ tất cả các cây: đối với phân loại, lấy bỏ phiếu đa số; đối với hồi quy, lấy trung bình của các dự đoán
1.4.1.1 Nguyên lý hoạt động
Tạo nhiều cây quyết định: Mỗi cây được huấn luyện trên một tập hợp con ngẫu nhiên của dữ liệu (bagging) và sử dụng một tập hợp con ngẫu nhiên của các đặc trưng tại mỗi nút phân chia, giúp tăng tính đa dạng và giảm tương quan giữa các cây
Kết hợp kết quả: Đối với phân loại, kết quả cuối cùng là lớp được chọn bởi đa số các cây; đối với hồi quy, kết quả là trung bình của các dự đoán Phương pháp này giúp giảm hiện tượng quá khớp, một vấn đề thường gặp ở cây quyết định đơn lẻ [2]
Trang 301.4.1.2 Ưu và nhược điểm
RF có nhiều ưu điểm nổi bật:
− Độ chính xác cao: Nhờ kết hợp nhiều cây, RF giảm thiểu hiện tượng quá khớp, đặc biệt hiệu quả với dữ liệu lớn và phức tạp [12]
− Xử lý dữ liệu phức tạp: RF hoạt động tốt với dữ liệu có nhiều đặc trưng, dữ liệu bị nhiễu, hoặc mất cân bằng, và không yêu cầu chuẩn hóa dữ liệu [2]
− Tính ổn định: Nhờ tính ngẫu nhiên, mô hình ít nhạy cảm với các thay đổi nhỏ trong
− Khó diễn giải: So với một cây quyết định đơn, RF phức tạp hơn và khó trực quan hóa, làm giảm khả năng giải thích cho người dùng [2]
− Hiệu suất kém với dữ liệu tuyến tính: RF không phù hợp với các bài toán mà mối quan hệ giữa đặc trưng và mục tiêu mang tính tuyến tính rõ ràng
1.4.2 Mô hình Gradient Boosting (XGBoost)
XGBoost, hay eXtreme Gradient Boosting, là một thuật toán học máy thuộc nhóm ensemble learning, được phát triển bởi Tianqi Chen vào năm 2014 Nó là một triển khai tối
ưu hóa của gradient boosting, sử dụng cây quyết định làm base learner và kết hợp chúng qua phương pháp boosting để cải thiện độ chính xác XGBoost nổi tiếng với hiệu suất cao, tốc độ nhanh, và khả năng xử lý dữ liệu lớn, trở thành lựa chọn hàng đầu trong các cuộc
Trang 31thi machine learning như Kaggle Nghiên cứu cho thấy XGBoost đã trở nên phổ biến từ giữa những năm 2010, khi nó được nhiều đội chiến thắng sử dụng, và đã nhận được các giải thưởng như John Chambers Award (2016) và High Energy Physics meets Machine Learning award (2016) [7]
1.4.2.1 Nguyên lý hoạt động
XGBoost hoạt động bằng cách xây dựng một chuỗi các cây quyết định, mỗi cây được huấn luyện để sửa lỗi của các cây trước đó Quá trình bao gồm:
− Khởi tạo với một giá trị ban đầu (thường là một giá trị hằng, F₀(x))
− Huấn luyện các cây quyết định tuần tự, mỗi cây được fit trên residuals (sai số) của
mô hình trước, sử dụng gradient descent để minimize một hàm loss cụ thể, như Mean Squared Error (MSE) cho hồi quy hoặc log loss cho phân loại
− Kết quả cuối cùng là tổng hợp của các dự đoán từ tất cả các cây, với trọng số được điều chỉnh qua learning rate
1.4.2.2 Ưu và nhược điểm
- XGBoost có nhiều ưu điểm nổi bật:
− Độ chính xác cao: Thường vượt trội hơn các thuật toán khác nhờ khả năng kết hợp nhiều cây quyết định và tối ưu hóa loss function
− Khả năng mở rộng: Được thiết kế để xử lý các tập dữ liệu lớn, với hàng triệu dòng
và cột, nhờ xử lý song song và hỗ trợ GPU
− Hiệu quả tính toán: Tận dụng tài nguyên hệ thống như CPU, GPU, và tính toán phân phối, với tối ưu hóa bộ nhớ cache và xử lý song song
− Linh hoạt: Phù hợp cho nhiều loại bài toán, bao gồm regression, classification, và ranking, với nhiều hàm loss và metric đánh giá
Trang 32− Regularization: Sử dụng L1 và L2 regularization để ngăn ngừa overfitting, giúp mô hình tổng quát hóa tốt hơn
− Điểm số quan trọng của đặc trưng: Cung cấp feature importance scores, hỗ trợ việc diễn giải mô hình [13]
− Mã nguồn mở: Có cộng đồng lớn, hỗ trợ nhiều ngôn ngữ như Python, R, Java, Scala,
và được tích hợp với các framework như scikit-learn, Apache Spark [7]
1.4.3 Mô hình Decision Tree (DT)
Decision Tree (DT) là một trong những thuật toán học máy cơ bản, được sử dụng
từ những năm 1980, với các nghiên cứu nền tảng như CART (Classification and Regression Trees) của Breiman et al (1984) DT thuộc nhóm học có giám sát, phù hợp cho cả phân loại và hồi quy, và được ưa chuộng nhờ tính đơn giản và khả năng diễn giải Nó thường được dùng như một mô hình độc lập hoặc làm thành phần trong các mô hình ensemble như Random Forest và Gradient Boosting [4]
1.4.3.1 Nguyên lý hoạt động
DT hoạt động bằng cách chia không gian đặc trưng thành các vùng dựa trên các ngưỡng của đặc trưng Quá trình xây dựng cây bao gồm:
Trang 33− Chọn đặc trưng và điểm chia: Tại mỗi nút, DT chọn đặc trưng và ngưỡng tốt nhất dựa trên tiêu chí như:
Gini impurity (cho phân loại): Đo độ không thuần khiết của một nút, với công thức:
− Tính diễn giải: Cấu trúc cây dễ hiểu, có thể được biểu diễn dưới dạng quy tắc
"if-then-else", phù hợp cho các lĩnh vực cần giải thích rõ ràng như y tế hoặc tài chính [14]
− Xử lý dữ liệu đa dạng: Có thể làm việc với cả đặc trưng số và phân loại mà không
cần xử lý trước phức tạp
− Hiệu quả tính toán: DT huấn luyện nhanh trên các tập dữ liệu nhỏ hoặc trung bình
− Ứng dụng linh hoạt: Hỗ trợ cả phân loại đa lớp, hồi quy, và thậm chí các bài toán
multi-output
Trang 34Nhược điểm
− Quá khớp: DT dễ học cả nhiễu trong dữ liệu huấn luyện nếu không được giới hạn,
dẫn đến hiệu suất kém trên dữ liệu kiểm tra
− Nhạy cảm với dữ liệu: Những thay đổi nhỏ trong dữ liệu có thể dẫn đến cấu trúc cây
hoàn toàn khác, làm giảm tính ổn định
− Hiệu suất hạn chế: So với các mô hình ensemble như Random Forest hoặc XGBoost,
DT thường kém chính xác hơn trên các tập dữ liệu phức tạp
− Thiên vị đặc trưng: Có xu hướng ưu tiên các đặc trưng có nhiều giá trị, có thể dẫn
đến các quyết định không tối ưu
1.4.4 Các chỉ số đánh giá mô hình (R², MAE, RMSE)
Trong học máy, các chỉ số đánh giá như R² (R-squared), RAE (Relative Absolute Error), và RMSE (Root Mean Squared Error) được sử dụng để đo lường hiệu suất của mô hình hồi quy, giúp đánh giá mức độ chính xác của dự đoán so với giá trị thực tế Mỗi chỉ
số có đặc điểm riêng, phù hợp với các khía cạnh khác nhau của bài toán
1.4.4.1 R 2
Định nghĩa: R² đo lường tỷ lệ phương sai của biến phụ thuộc (giá trị thực tế) được
giải thích bởi mô hình Nó cho biết mô hình phù hợp với dữ liệu đến mức nào
Trang 35- R² = 0: Mô hình không giải thích được phương sai nào (tương đương với dự đoán bằng trung bình)
Ưu điểm:
− Dễ diễn giải, cung cấp cái nhìn tổng quát về mức độ phù hợp của mô hình
− Không phụ thuộc vào đơn vị của dữ liệu
Nhược điểm:
− Không nhạy với các lỗi lớn riêng lẻ
− R² tăng khi thêm biến vào mô hình (dù biến không quan trọng), trừ khi dùng
Adjusted R²
1.4.4.2 RAE
Định nghĩa: RAE đo lường tỷ lệ giữa tổng lỗi tuyệt đối và tổng sai lệch tuyệt đối
của giá trị thực tế so với trung bình của chúng
− RAE = 0: Dự đoán hoàn hảo
− RAE cung cấp một cách đánh giá tương đối, so sánh lỗi của mô hình với lỗi của
một mô hình đơn giản (dự đoán bằng trung bình)
Ưu điểm:
− Dễ tính toán và diễn giải