CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ và tên tác giả luận văn: Nguyễn Văn Tới Đề tài luận văn: Thiết kế hệ thống ch
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
HÀ NỘI, 2022
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Chữ ký của GVHD
Trang 3CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn: Nguyễn Văn Tới
Đề tài luận văn: Thiết kế hệ thống chẩn đoán lỗi và cảnh báo tự động
để nâng cao chất lượng vận hành hệ thống lọc bụi tĩnh điện
Chuyên ngành: Kỹ thuật điều khiển và tự động hóa
Mã số SV: 20202788M
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày 31/10/2022 với các nội dung sau:
- Tác giả cần rà soát lại các lỗi chính tả và sửa chữa, chỉnh sửa lại cách
sử dụng các thuật ngữ khoa học cho chính xác và nhất quán
- Các ví dụ minh họa khi trình bày về các thuật toán học máy nhất là hai thuật toán được sử dụng trong luận văn cần gắn với đối tượng là hệ thống lọc bụi
- Cần bổ sung bảng các lỗi thường gặp trong hệ thống và phân tích mối liên hệ giữa các lỗi đó với các thông số cần thu thập, kỹ thuật chẩn đoán lỗi, và liên quan gì đến phần dự báo
Trang 4LỜI CẢM ƠN
Qua đây, tác giả xin gửi lời cảm ơn đến TS Phạm Quang Đăng, người
hướng dẫn tác giả hoàn thành luận văn thạc sĩ Xin cảm ơn các kỹ sư vận hành tại nhà máy nhiệt điện Hải Phòng đã cung cấp cho tác giả bộ dữ liệu về hoạt động của bộ lọc bụi tĩnh điện của nhà máy
Lời cuối cùng, xin cảm ơn toàn thể các thầy cô tham gia giảng dạy khóa cao học 20202 cũng như các thầy cô trong bộ môn Tự động hoá công nghiệp, các cán
bộ trong viện Kỹ thuật điều khiển và tự động hóa Trường Đại học Bách khoa Hà Nội đã giúp tác giả tích lũy được nhiều kiến thức quý báu, phục vụ cho công tác nghiên cứu hiện tại và sau này trong lĩnh vực Điều khiển và Tự động hóa
Xin chân thành cảm ơn!
Tác giả
Nguyễn Văn Tới
Trang 5Tóm t ắt nội dung luận văn
Đề tài: “Thiết kế hệ thống chẩn đoán lỗi và cảnh báo tự động để nâng cao chất lượng vận hành hệ thống lọc bụi tĩnh điện” có mục tiêu là xây dựng được mô hình
có khả năng học từ các dữ liệu đã thu thập, từ đó đưa ra kết quả dự đoán của những đối tượng muốn theo dõi để hỗ trợ người vận hành trong quá trình vận hành hệ
thống
a) N ội dung luận văn giải quyết các vấn đề sau:
Phân tích vấn đề xảy ra đối với hệ thống lọc bụi tĩnh điện của nhà máy nhiệt điện Giới thiệu kỹ thuật máy học máy và thuật toán sử dụng trong luận văn
Trực quan hóa dữ liệu để đánh giá những mối tương quan của từng đặc tính xét đến, thực hiện huấn luyện mô hình học máy để đưa ra dự đoán hiệu quả lọc bụi đầu ra dựa trên dữ liệu đã thu thập từ nhà máy Đánh giá mô hình và khả năng ứng
dụng vào thực tiễn
b) Phương pháp nghiên cứu và công cụ sử dụng
Phương pháp nghiên cứu: Kết hợp phương pháp phân tích lý thuyết và mô phỏng
dựa trên dữ liệu thực tế Chương trình mô phỏng được phát triển trên nền tảng mã nguồn mở Anaconda Navigator trong môi trường tích hợp Jupyter Notebook
c) K ết quả
Luận văn phù hợp với yêu cầu đặt ra, có tính khoa học và ứng dụng thực tiễn đối với tình hình nghiên cứu trong nước Hướng mở rộng của luận văn là giải quyết, hoàn thiện một hệ thống thân thiện với người dùng và đa dụng hơn cho nhiều hệ thống
Học Viên
Nguyễn Văn Tới
Trang 6
M ỤC LỤC
Chương 1 TỔNG QUAN VỀ BỘ LỌC BỤI TĨNH ĐIỆN 1
1.1 Giới thiệu chung 1
1.2 Nguyên nhân tạo thành bụi 1
1.3 Các phương pháp lọc bụi trong công nghiệp 2
1.3.1 Lọc bụi theo phương pháp trọng lực 2
1.3.2 Lọc bụi theo phương pháp ly tâm 2
1.3.3 Lọc bụi theo phương pháp ẩm 2
1.3.4 Lọc bụi theo phương pháp qua túi vải – màng vải 3
1.3.5 Lọc bụi tĩnh điện 3
1.4 Nguyên lý làm việc của bộ lọc bụi tĩnh điện 3
1.5 Lựa chọn loại điện áp các cực trong lọc bụi tĩnh điện 5
1.6 Các yếu tố ảnh hưởng đến hiệu suất của thiết bị lọc bụi tĩnh điện 6
1.7 Hệ thống lọc bụi tĩnh điện nhà máy nhiệt điện Hải Phòng 6
1.7.1 Mô tả chung 6
1.7.2 Thông số kỹ thuật 8
1.7.3 Một số lỗi trường lọc bụi 9
Chương 2 TỔNG QUAN VỀ HỌC MÁY 11
2.1 Giới thiệu về học máy 11
2.2 Phân loại các phương pháp học máy 11
2.2.1 Học có giám sát (Supervised Learning) 12
2.2.2 Học không giám sát (Unsupervised Learning) 12
2.2.3 Học bán giám sát (Semi-Supervised Learning) 13
2.2.4 Học tăng cường (Reinforcement Learning) 13
2.2.5 Học sâu (Deep Learning) 14
2.3 Một số thuật toán học máy thông dụng 15
2.3.1 Phân cụm K-means (K-means Clustering) 15
2.3.2 KNN (K-nearest neighbor) 16
2.3.3 Cây quyết định (Decision Tree) 17
Trang 7Chương 3 THUẬT TOÁN CÂY QUYẾT ĐỊNH VÀ RỪNG NGẪU NHIÊN
19
3.1 Decision Tree (Cây quyết định) 19
3.1.1 Iterative Dichotomiser 3 (ID3) 20
3.1.2 Thuật toán ID3 22
3.1.3 Ví dụ 23
3.1.4 Điều kiện dừng 24
3.1.5 Pruning 25
3.2 Random Forest (Rừng ngẫu nhiên) 26
3.2.1 Giới thiệu về phương pháp Ensemble Learning (Học cộng đồng) 27
3.2.2 Xây dựng thuật toán Random Forest 29
3.2.3 Đánh giá thuật toán Random Forest 31
Chương 4 MÔ HÌNH HỆ THỐNG VÀ CHƯƠNG TRÌNH THỰC NGHIỆM 33
4.1 Thu thập số liệu từ PLC 34
4.1.1 Giao thức truyền thông (Communiction) 34
4.1.2 Thu thập số liệu từ PLC 43
4.2 Môi trường và ngôn ngữ lập trình 51
4.3 Xây dựng chương trình 55
4.3.1 Một số mã lỗi thông dụng 55
4.3.2 Cấu trúc chương trình 57
K ẾT LUẬN 65
TÀI LI ỆU THAM KHẢO 67
PH Ụ LỤC 69
Trang 9DANH M ỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
ESP Electrostatic Precipitator Bộ lọc bụi tĩnh điện
SCADA Supervisory Control And Data
Internet Protocol
Giao thức điều khiển để truyền
nhận liên mạng
AI Artificial Intelligence Trí tuệ nhân tạo
ID3 Iterative Dichotomiser 3
KNN K-nearest neighbor K láng giềng gần nhất
SVM Support Vector Machine Máy véc-tơ hỗ trợ
CNN Convolutional Neural Networks Mạng neuron tích chập
DBN Deep Belief Network Mạng niềm tin sâu
RNN Recurrent Neural Network Mạng nơ ron tái phát
LSTM Long Short Term Memory Mạng bộ nhớ dài ngắn hạn
Trang 10DANH M ỤC BẢNG BIỂU
Bảng 1.1 Các nhánh của hệ thống lọc bụi tĩnh điện [4] 7
Bảng 1.2 Các nhóm trường của hệ thống lọc bụi tĩnh điện [4] 7
Bảng 1.3 Thông số kỹ thuật của bộ lọc bụi [4] 8
Bảng 1.4 Thông số khí thải cho phép [4] 9
Bảng 1.5 Lỗi trường lọc bụi và cách xử lý [4] 9
Bảng 3.1 Ví dụ về dữ liệu huấn luyện cây quyết định 24
Bảng 3.2 Tập dữ liệu Dataset D 28
Bảng 3.3 Tập dữ liệu Dataset trong học cộng đồng 28
Bảng 3.4 Ví dụ chẩn đoán của Rừng ngẫu nhiên 31
Bảng 3.5 Sự tương đồng giữa Random Forest và ý tưởng Wisdom of Crowds [13] .32
Bảng 4.1 Bảng tóm tắt các giao thức của một số nhà sản xuất 34
Bảng 4.2 Bảng tóm tắt các chức năng được thực hiện trong mỗi lớp của OSI [14] .36
Bảng 4.3 Bảng tóm tắt các giao thức thông dụng ứng với từng lớp trong OSI [14] .37
Bảng 4.4 Bảng tóm tắt các chức năng của các lớp trong TCP/IP [15] 39
Bảng 4.5 Bảng tóm tắt một số giao thức tương ứng từng lớp [15] 39
Bảng 4.6 Mã chức năng và các loại dữ liệu được hổ trợ bởi Modbus [16] 43
Bảng 4.7 Các loại tin nhắn của truyền thông Serial [17] 45
Bảng 4.8 Ý nghĩa các thành phần trong câu lệnh [17] 46
Bảng 4.9 Các loại tin nhắn của truyền thông Ethernet [17] 49
Bảng 4.10 Ý nghĩa các thành phần trong câu lệnh [17] 50
Bảng 4.11 Một số mã lỗi thông dụng 55
Bảng 4.12 Các thuộc tính của hệ thống lọc bụi 58
Trang 11DANH M ỤC HÌNH VẼ
Hình 1.1 Nguyên lý tích và lắng bụi trong thiết bị lọc bụi tĩnh điện [2] 4
Hình 1.2 Sự di chuyển của ion từ cực âm đến cực lắng 5
Hình 1.3 Hệ thống lọc bụi tĩnh điện nhà máy nhiệt điện Hải Phòng [4] 7
Hình 2.1 Các mô hình học máy 11
Hình 2.2 Ví dụ về phân cụm K-mean [6] 15
Hình 2.3 Ví dụ về bài toán K-nearest neighbor [8] 16
Hình 3.1 Ví dụ về bài toán phân lớp sử dụng Decision Tree [9] 19
Hình 3.2 Đồ thị của hàm entropy với n = 2 [9] 22
Hình 3.3 Decision tree cho bài toán dự đoán nồng độ bụi 24
Hình 3.4 Sơ đồ hoạt động của phương pháp học cộng đồng 1 27
Hình 3.5 Sơ đồ hoạt động của phương pháp học cộng đồng 2 28
Hình 3.6 Mô tả thuật toán Rừng ngẫu nhiên [12] 29
Hình 3.7 Tạo Bootstrap Dataset trong Random Forest 30
Hình 3.8 “Cây quyết định” trong “Rừng ngẫu nhiên” 30
Hình 3.9 Dataset trong Rừng ngẫu nhiên 30
Hình 4.1 Cấu hình hệ thống lọc bụi kết hợp mô hình học máy 33
Hình 4.2 Các bước triển khai mô hình máy học 33
Hình 4.3 Minh họa quá trình đóng gói dữ liệu [14] 35
Hình 4.4 Mô hình OSI 7 lớp [14] 35
Hình 4.5 Mô hình TCP/IP và các giao thức tiêu biểu [15] 38
Hình 4.6 Mô hình TCP/IP bốn lớp [15] 38
Hình 4.7 Mô hình phân lớp Modbus [16] 41
Hình 4.8 Cấu trúc khung thông điệp Modbus [16] 42
Hình 4.9 Mô tả hệ thống thu thập số liệu từ thiết bị ngoại vi [17] 43
Hình 4.10 Giao thức truyền thông MELSEC với nhiều thiết bị [17] 44
Hình 4.11 Quá trình truyền nhận dữ liệu [17] 44
Hình 4.12 Cấu trúc truyền nhận dữ liệu đối với 4C frame [17] 45
Hình 4.13 Cấu trúc truyền nhận dữ liệu đối với 3C frame [17] 46
Hình 4.14 Đọc giá trị từ PLC đối với 3C frame [17] 47
Trang 12Hình 4.15 Đọc giá trị từ PLC đối với 4C frame [17] 47
Hình 4.16 Kết quả trả về đối với 3C frame [17] 47
Hình 4.17 Kết quả trả về đối với 4C frame [17] 48
Hình 4.18 Ghi giá trị xuống PLC đối với 3C frame [17] 48
Hình 4.19 Ghi giá trị xuống PLC đối với 4C frame [17] 49
Hình 4.20 Cấu trúc truyền nhận dữ liệu với truyền thông Ethernet [17] 50
Hình 4.21 Đọc giá trị từ PLC qua Ethernet [17] 50
Hình 4.22 Nhận kết quả từ PLC qua Ethernet [17] 51
Hình 4.23 Ghi giá trị xuống PLC [17] 51
Hình 4.24 Bộ dữ liệu của hệ thống lọc bụi 57
Hình 4.25 Dữ liệu sau khi được loại bỏ 58
Hình 4.26 Mô tả dữ liệu 59
Hình 4.27 Thông tin của các đặc tính trong bộ dữ liệu 59
Hình 4.28 Sự phụ thuộc của nồng độ bụi theo điệp áp các trường 60
Hình 4.29 Sự phụ thuộc của nồng độ bụi theo dòng điệp các trường 60
Hình 4.30 Quá trình huấn luyện với số cây n=500 62
Hình 4.31 Kết quả dự đoán của mô hình 62
Hình 4.32 Nồng độ bụi thực tế và nồng độ bụi dự đoán 62
Trang 13Chương 1 TỔNG QUAN VỀ BỘ LỌC BỤI TĨNH ĐIỆN
1.1 Gi ới thiệu chung
Khí thải trong công nghiệp là nguồn gây ô nhiễm nghiêm trọng với môi trường Một trong những yếu tố gây ô nhiễm của khí thải công nghiệp là bụi và chính phủ Việt Nam đã ban hành các quy chuẩn về bụi trong trong khí thải công nghiệp bao gồm “QCVN 19:2009/BTNMT quy chuẩn quốc gia về khí thải công nghiệp đối với bụi và các chất vô cơ” và “QCVN23:2009/BTMT quy chuẩn quốc gia về khí thải công nghiệp sản xuất xi măng”
Ngày nay, các thiết bị lọc bụi làm sạch khí được nghiên cứu thành công như xiclon, thiết bị lọc túi vải, ống venturi, thiết bị lọc bụi tĩnh điện Trong các thiết
bị lọc bụi, thiết bị lọc bụi tĩnh điện với những ưu điểm vượt trội được đánh giá mang lại hiệu suất thu bụi cao, và chi phí hoạt động thấp được ứng dụng rộng rãi trong nhiều ngành công nghiệp khác nhau
Tuy nhiên, bài toán khi vận hành trong thiết bị lọc bụi tĩnh điện có rất nhiều
hiện tượng xảy ra như điện trường giữa các cực, quá trình ion chất khí, phóng điện
vầng quang, tích điện cho các hạt bụi… và ảnh hưởng của các nhân tố khác đến thiết bị lọc bụi điện như loại điện cực, khoảng cách các cực, đòi hỏi thiết bị lọc bụi tĩnh điện phải được điều khiển để đạt được hiệu quả làm việc cao nhất
Để đạt được hiệu suất thu bụi cao, đảm bảo cho thiết bị vận hành an toàn, tin
cậy, việc xem xét và giải quyết các vấn đề trên là hết sức cần thiết Nhằm ngày càng nâng cao hiệu suất thiết bị, phát huy những ưu điểm vốn có của thiết bị lọc
bụi tĩnh điện
1.2 Nguyên nhân t ạo thành bụi
Bụi có trong không khí do nhiều nguyên nhân, ở đây ta chỉ đề cập đến nguyên nhân bụi trong công nghiệp Bụi được sinh ra trong không khí chủ yếu do quá trình
sản xuất luyện kim, công nghiệp hóa chất, hầm mỏ, nhà máy nhiệt điện…
Nguyên nhân tạo thành bụi là do:
- Các hạt rắn bị nghiền nhỏ
- Khi dùng khí để vận chuyển hạt, các hạt nhỏ bị khí cuốn theo
- Trong quá trình ủ hoặc nung vật liệu bị vỡ vụn
Trang 14Ở một vài quá trình khi tăng nhiệt độ có thể tạo ra khả năng sinh bụi là do
giảm liên kết giữa các hạt trong vật rắn Mặt khác, khi ngưng tụ hơi của các quá trình thăng hoa và các phản ứng hóa học
1.3 Các phương pháp lọc bụi trong công nghiệp
1.3.1 L ọc bụi theo phương pháp trọng lực
Các hạt bụi đều có khối lượng, dưới tác dụng của trọng lực các hạt có xu hướng chuyển động từ trên xuống dưới (đáy thiết bị lọc bụi) Tuy nhiên, đối với các hạt
bụi nhỏ ngoài tác dụng của trọng lực còn có lực chuyển động của dòng khí và lực
ma sát môi trường Như đã biết các lực này phụ thuộc vào nhiều nhân tố, trong đó
có kích thước hạt bụi do vậy sẽ ảnh hưởng đến tốc độ lắng của hạt bụi Vì vậy, lọc
bụi theo phương pháp trọng lực chỉ áp dụng với hạt bụi có kích thước lớn
1.3.2 L ọc bụi theo phương pháp ly tâm
Khi dòng chuyển động đổi hướng hay chuyển động theo đường cong, ngoài
trọng lực tác dụng lên hạt bụi còn có lực quán tính, lực này lớn hơn nhiều lần so
với trọng lực Dưới ảnh của lực quán tính, hạt có xu hướng chuyển động thẳng nghĩa là các hạt có khả năng tách ra khỏi dòng khí Hiện tượng này được sử dụng trong các thiết bị lọc bụi Xiclon, tấm chớp, … Các thiết bị này chỉ có khả năng tách bụi có kích thước > 10µm nên dùng để lắng hạt bụi có kích thước nhỏ không
hiệu quả
1.3.3 L ọc bụi theo phương pháp ẩm
Khi hạt bụi tiếp xúc với bề mặt dịch thể (giọt dịch thể) các hạt bụi sẽ bám trên
bề mặt dựa trên nguyên tắc đó có thể tách hạt bụi ra khỏi dòng khí Sự tiếp xúc với
bề mặt dịch có thể xảy ra, dựa trên nguyên tắc đó có thể tách hạt bụi ra khỏi dòng khí Sự tiếp xúc giữa các hạt bụi với bề mặt dịch thể có thể xảy ra nếu trọng lực tác dụng lên hạt bụi theo hướng đến bề mặt dịch thể Các lực đó gồm: lực va đập,
trọng lực, lực ly tâm (quán tính)
Thực nghiệm cho thấy, theo phương pháp này chỉ thu hồi các hạt bụi có kích thước > 3÷5µm Các hạt bụi nhỏ, đặc biệt hạt bụi tạo thành do quá trình thăng hoa thì lọc bụi theo phương pháp ẩm sẽ kém hiệu quả do tính chất tự nhiên của các hạt
bụi dễ bị bôi trơn bằng dịch thể Hiện tượng này là do các hạt bụi nhỏ có trong dòng khí, khi gặp dịch thể (giọt dịch thể hay bề mặt ẩm) thì chúng không bị thấm ướt còn chỗ dòng khí bị tiếp xúc với dịch thể các hạt bụi có chuyển động uốn cong nên khả năng thẩm ướt hạt bụi kém
Trang 151.3.4 L ọc bụi theo phương pháp qua túi vải – màng vải
Khí chứa đầy bụi, dẫn qua màng vải, bụi được giữ lại trên đó khi tốc độ khí không lớn Lọc bụi bằng màng vải được ứng dụng phổ biển trong luyện kim, hóa
chất xây dựng Một số trường hợp cần thu hồi bụi không dùng lọc túi vải mà dùng
giấy carton, bông, lớp vật liệu xốp hoặc các vật liệu dạng cục (cát, đá cuội, hạt
cốc) Một số vật liệu trong đó như giấy, bông được áp dụng trong phòng thí nghiệm
1.3.5 L ọc bụi tĩnh điện
Thiết bị có cấu tạo gồm một dây kim loại nhẵn, có tiết diện nhỏ, được căng theo trục của ống kim loại nhờ có đối trọng Dây kim loại được nạp dòng điện một chiều có điện thế cao khoảng 50-100kV, còn gọi là cực âm hay cực ion hóa của thiết bị Cực dương là ống kim loại được bao quanh cực âm và nối đất hay còn gọi
là cực lắng Khi cấp điện thế cao vào cực âm thì tạo ra một điện trường mạnh bên trong ống cực dương và khi dòng khí mang bụi đi qua các phân tử khí sẽ bị ion hóa và truyền điện tích âm cho các hạt bụi do tác dụng va chạm hoặc khếch tán ion Các hạt bụi bị nhiễm điện âm sẽ di chuyển về cực dương (cực lắng) và đọng
lại trên bề mặt bên trong của ống hình trụ, mất điện tích và rơi xuống phễu thu bụi Ngoài ra còn có thiết bị lọc bụi tĩnh điện kiểu tấm, là loại thiết bị mà cực dương
là các tấm dạng bảng được đặt song song hai bên các cực âm [1]
Phương pháp này có thể đạt hiệu quả lọc lên đến 99,5% Thiết bị lọc bụi kiểu tĩnh điện rất hiệu quả đối với các loại bụi kích cỡ từ 0,5 đến 8µm Khi các hạt bụi
có kích cỡ khoảng 10µm và lớn hơn thì hiệu quả giảm Có thể làm việc trong môi trường có nhiệt độ cao lên đến 500ºC, làm việc trong phạm vi áp suất cao hoặc áp
suất chân không và có khả năng tách bụi có độ ẩm cao, cả dạng lỏng hoặc rắn
1.4 Nguyên lý làm vi ệc của bộ lọc bụi tĩnh điện
Như đã tìm hiểu ở trên, trong các phương pháp lọc bụi thì phương pháp lọc
bụi tĩnh điện phù hợp với các nhà máy ở Việt Nam như nhà máy sản xuất xi măng, nhà máy nhiệt điện, và đạt hiệu quả tối đa cho việc phòng chống ô nhiễm không khí đảm bảo sức khỏe của người dân ở xung quanh khu công nghiệp khi đạt hiệu
quả lọc bụi lên đến 99% Chính vì vậy, phương pháp lọc bụi tĩnh điện sẽ được tác
giả lựa chọn để nghiên cứu
Trang 16Hình 1.1 Nguyên lý tích và l ắng bụi trong thiết bị lọc bụi tĩnh điện [2]
Hình 1.1 trình bày nguyên lý tích và lắng bụi trong thiết bị lọc bụi tĩnh điện Khí thải cần lọc bụi được thổi qua hệ thống hai điện cực: điện cực nối đất được
gọi là điện cực lắng vì bụi được lắng chủ yếu trên điện cực này, điện cực thứ hai
gọi là điện cực quầng sáng (điện cực phóng), điện cực này được cung cấp dòng điện một chiều có điện thế cao, do điện thế cao nên cường độ điện trường xung quanh có giá trị lớn và gây ra hiện tượng va đập ion mãnh liệt biểu hiện là nhìn
thấy một quầng sáng bao phủ xung quanh điện cực này Tại điện cực phóng, quầng sáng không lan rộng ra toàn bộ không gian giữa hai điện cực mà yếu đi và tắt dần theo phương tới điện cực lắng, điện trường giữa hai điện cực là điện trường không đều, các ion được tạo ra chủ yếu trong vùng quầng sáng [3]
Dưới tác dụng của lực điện trường các ion sẽ dịch chuyển dịch về phía điện
cực trái dấu của chúng, ion dương chuyển dịch về phía cực âm (cực quầng sáng), các ion âm dịch chuyền về phía cực dương (cực lắng) sự dịch chuyển dòng khí tạo
ra dòng điện thể hiện qua hình 1.2 Dòng điện này gọi là dòng điện quầng sáng, khi thổi khí thải có chứa bụi bẩn qua không gian giữa hai điện cực thì các ion sẽ bám dính lên bề mặt của các hạt bụi và các hạt bụi đã tích điện sẽ chuyển dịch tới các điện cực trái dấu với điện tích chúng tích được, khi tới các điện cực các hạt
bụi được lắng lại trên bề mặt điện cực Lượng bụi được lắng chủ yếu trên bề mặt các điện cực lắng Trên bề mặt các điện cực quầng sáng cũng có lắng bụi lại nhưng lượng bụi này nhỏ không đáng kể so với lượng bụi lắng trên điện cực lắng Tùy theo mức độ tích tụ bụi trên bề mặt điện cực, hệ thống rung lắc sẽ rung lắc định kỳ các điện cực hoặc xối nước rửa điện cực và lấy bụi [3]
Trang 17e e
-
-Ionization boundary E/N = 120 Td
Plasma boundary E/N = 80 Td
Ngoài ra, trên thực tế thiết bị lọc bụi tĩnh điện khi hoạt động thường xảy ra quá trình phóng điện khi điện trường vượt ngưỡng nhất định, hoặc sự tích tụ quá
lớn các hạt bụi bám trên điện cực lắng Ngưỡng giới hạn này của thiết bị lọc bụi tĩnh điện phụ thuộc rất nhiều yếu tố bên ngoài mà các yếu tố đó cũng liên quan
trực tiếp đến hiệu suất của thiết bị lọc bụi tĩnh điện
1.5 L ựa chọn loại điện áp các cực trong lọc bụi tĩnh điện
Để tạo thành hiện tượng phóng ion hay được gọi là sự “tạo thành corona” có
thể sử dụng:
- Corona âm
- Corona dương
Tuy nhiên, đối với các thiết bị lọc bụi tĩnh điện trong công nghiệp thường sử
dụng corona âm vì các lý do:
- Hầu hết là các khí trong công nghiệp mang electron âm trong tự nhiên, như
là các khí như SO2, CO2, O2, H2O, … chúng thường tạo nên thành phần khí thải (khói lò) công nghiệp có khả năng hấp thụ (hút) electron tự do tốt nhất
- Quầng sáng âm: các ion âm có độ linh động hơn so với độ linh động của các ion dương
(Độ linh động của ion là tốc độ mà ion có được trong điện trường khi cường
độ bằng một đơn vị nghĩa là /
/
cm s
Trang 18- Ngưỡng phát tia lửa điện trong corona âm cao hơn corona dương, do vậy đạt điện trường cao hơn
- Điện áp phát sinh corona khi mũi nhọn có cực tính dương cao hơn khi mũi
nhọn có cực tính âm
Điện áp DC thay cho AC trong thiết bị lọc bụi tĩnh điện, vì điện áp AC làm cho các phân tử tích điện bị dao động, ngược lại điện áp DC sinh một lực cố định
về phía cực nối đất
1.6 Các y ếu tố ảnh hưởng đến hiệu suất của thiết bị lọc bụi tĩnh điện
Những yếu tố ảnh hưởng đến chất lượng đầu ra của thiết bị lọc bụi tĩnh điện [4]:
- Điện áp và dòng điện cấp cho hệ thống lọc bụi tĩnh điện;
- Tốc độ dòng khói đi qua các trường của hệ thống lọc bụi tĩnh điện;
- Nồng độ, kích thước tro, bụi trong khói;
- Nhiệt độ khói vào hệ thống lọc bụi tĩnh điện;
- Độ ẩm của khói vào hệ thống lọc bụi tĩnh điện;
- Mức tro trong các phễu tro của hệ thống lọc bụi tĩnh điện
Các yếu tố ảnh hưởng này dẫn tới ngưỡng cường độ điện trường (hay điện áp
giữa các bản cực lọc bụi) gây ra hiện tượng phóng điện thay đổi và nhiệm vụ điều khiển đối với điện áp các cực lọc bụi tĩnh điện là duy trì điện áp này ở mức cao
nhất có thể mà không xảy ra phóng tia lửa điện trong buồng lọc bụi tĩnh điện [4]
1.7 H ệ thống lọc bụi tĩnh điện nhà máy nhiệt điện Hải Phòng
1.7.1 Mô t ả chung
Hệ thống lọc bụi tĩnh điện (ESP) có nhiệm vụ:
- Tách tro bay khỏi sản phẩm cháy để bảo vệ môi trường
- Tránh mài mòn cánh các quạt khói
- Giảm nhẹ điều kiện làm việc của hệ thống khử lưu huỳnh trong khói (FGD)
Trang 19Hình 1.3 H ệ thống lọc bụi tĩnh điện nhà máy nhiệt điện Hải Phòng [4]
Hệ thống lọc bụi tĩnh điện sử dụng loại 2LZC312-4 hãng Luzhou do Trung
Quốc sản xuất [4] Mỗi tổ máy có 2 nhánh lọc bụi (Nhánh A, Nhánh B), có cấu trúc tương tự nhau Mỗi nhánh gồm 8 trường và được tổ hợp trong các khoang riêng rẽ Cụ thể như sau:
Nhánh A D11, D12, D13, D14
D21, D22, D23, D24
D51, D52, D53, D54 D61, D62, D63, D64
Tương tự ESP1
Tương tự ESP2
Nhánh B D31, D32, D33, D34
D41, D42, D43, D44
D71, D72, D73, D74 D81, D82, D83, D84
Tương tự ESP1
Tương tự ESP2
Theo chiều của dòng khói, 16 trường lọc bụi chia thành các nhóm trường sau:
Nhóm
trường 1 D11, D21, D31, D41 D51, D61, D71, D81 Tương tự ESP1
Tương tự ESP2
Nhánh
trường 2 D12, D22, D32, D42 D52, D62, D72, D82 Tương tự ESP1
Tương tự ESP2
Nhóm
trường 3 D13, D23, D33, D43 D53, D63, D73, D83 Tương tự ESP1
Tương tự ESP2
Nhóm
trường 4 D14, D24, D34, D44 D54, D64, D74, D84 Tương tự ESP1
Tương tự ESP2
Trang 20Mỗi nhánh được lắp sau bộ sấy không khí kiểu quay, sản phẩm cháy sau khi được tách tro, bụi được đưa tới đầu hút của quạt khói [4] Các cực phóng và cực
lắng đặt cách nhau và song song với nhau theo chiều đi của khói thải Cực phóng
nối với cực âm, có cấu trúc treo được cấu tạo là các khung có lắp các dây gai hoặc
trơn Cực lắng nối với cực dương, được làm dưới dạng tấm có cấu trúc kiểu treo đảm bảo khoảng cách giữa các tấm cực nằm trong phạm vi cho phép [4] Với mỗi
trường, các cực phóng và cực lắng được bố trí xen kẽ nhau
Tại đầu vào của mỗi bộ lọc bụi có tấm đục lỗ làm bằng thép để phân dòng khói vào các trường lọc bụi cho đều Trên mỗi trường có các hệ thống rung, hệ thống
gõ tương ứng số trường Cực phóng cách điện với vỏ bằng sứ cách điện, sứ cách điện có thiết bị gia nhiệt Dưới trường lọc bụi có các phễu tro sử dụng để gom tro bay tách ra từ khói thải Các phễu tro có bộ gia nhiệt bằng hơi và các vòi sục khí nóng để tránh tắc và giúp cho việc thải tro dễ dàng [4]
Khi tro bay đi qua các điện cực, các hạt tro được tích điện âm bị hút về phía
cực lắng, một số ít hạt bám vào cực phóng do nhiễm điện tích dương Tro bám trên các bản cực được các búa gõ định kỳ rơi xuống phễu tro và được hút về các Silô tro
1.7.2 Thông s ố kỹ thuật
4 Số trường lọc bụi Trường 16 (8 trường/nhánh)
6 Lưu lượng khói lớn nhất m³/h 2×743430
Trang 2112 Tổng độ lọt gió ESP % ≤ 3
13 Tổn thất áp suất qua ESP Pa ≤ 200
15 Nồng độ bụi còn lại sau
1 Nồng đồ NOx mg/Nm3 < 680
2 Nồng độ SOx mg/Nm3 < 340
5 Nhiệt độ t0 Chỉ đo giá trị
6 Lưu lượng m3/h Chỉ đo giá trị
1.7.3 M ột số lỗi trường lọc bụi
Một số lỗi thường xảy ra ở trường lọc bụi và cách xử lý được liệt kê tại Bảng 1.5
Điện áp thứ cấp
thấp, điện áp
thứ cấp quá cao
1 Cách điện phần cao áp không tốt
2 Khoảng cách giữa cực dương và cực âm nhỏ
3 Có vật kim loại và phi kim
4 Hộp cách nhiệt hay nhiệt
độ nơi cách ly cực âm không
5 Cải tiến cáp và các điều
kiện cách ly đầu
Dòng điện thứ
cấp thay đổi
định kỳ
1 Tuột đĩa đỡ thiết bị rung
2 Phần thừa của dây điện đứt dao động trong khu vực khung đỡ
Trang 225 Điện áp đầu ra kết nối điện không tốt
Loại trừ hiện tượng lọt khí, thay đổi nhiệt độ đầu vào lọc
bụi, vệ sinh sứ cách điện
Trang 23Chương 2 TỔNG QUAN VỀ HỌC MÁY
2.1 Gi ới thiệu về học máy
Những năm gần đây, Trí tuệ nhân tạo (AI - Artificial Intelligence) và học máy (Machine Learning) nổi lên như một bằng chứng của cuộc cách mạng công nghiệp 4.0 AI đang len lỏi vào mọi lĩnh vực trong đời sống và sản xuất Xe tự hành của Google và Tesla, hệ thống tự tag khuôn mặt trong ảnh của Facebook, trợ lý ảo Siri
của Apple, hệ thống gợi ý sản phẩm của Amazon, hệ thống gợi ý phim của Netflix, máy chơi cờ vây AlphaGo của Google DeepMind, …, chỉ là một vài trong vô vàn
những ứng dụng của AI/Machine Learning
Khi mà khả năng tính toán của các máy tính được nâng lên một tầm cao mới
và lượng dữ liệu khổng lồ được thu thập bởi các hãng công nghệ lớn, Học máy đã
tiến thêm một bước dài và một lĩnh vực mới được ra đời gọi là Học sâu (Deep Learning) Học sâu đã giúp máy tính thực thi những việc tưởng chừng như không
thể vào 10 năm trước: phân loại cả ngàn vật thể khác nhau trong các bức ảnh, tự
tạo chú thích cho ảnh, bắt chước giọng nói và chữ viết của con người, giao tiếp
với con người, hay thậm chí cả sáng tác văn hay âm nhạc
2.2 Phân lo ại các phương pháp học máy
Theo phương thức học, các thuật toán Machine Learning thường được chia làm 4 nhóm: Học có giám sát (Supervised learning), Học không giám sát (Unsupervised learning), Học bán giám sát (Semi-supervised learning) và học tăng cường (Reinforcement learning)
Trang 242.2.1 H ọc có giám sát (Supervised Learning)
Học có giám sát là thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước Cặp dữ liệu này còn được gọi là (data, label), tức (dữ liệu, nhãn) Supervised learning là nhóm phổ
biến nhất trong các thuật toán học máy
Một cách toán học, học có giám sát là khi chúng ra có một tập hợp biến đầu vào X ={x x1, 2, ,x N} và một tập hợp nhãn tương ứng Y ={y y1, 2, ,y N}, trong
đó x y i, i là các vector [5] Các cặp dữ liệu biết trước (x y i, i)∈ × được gọi là X Y
tập training data (dữ liệu huấn luyện) Từ tập training data này, chúng ta cần tạo
ra một hàm số ánh xạ mỗi phần tử từ tập X sang một phần tử (xấp xỉ) tương ứng
của tập Y :
( ); 1, 2, ,
Mục đích là xấp xỉ hàm số f thật tốt để khi có một dữ liệu x mới, chúng ta có
thể tính được nhãn tương ứng của nó y= f x( )
Thuật toán học có giám sát còn được tiếp tục chia nhỏ ra thành hai loại [5]:
a) Classification (Phân l ớp)
Một bài toán được gọi là classification nếu các label của input data được chia thành một số hữu hạn nhóm Ví dụ: Gmail xác định xem một email có phải là spam hay không; các hãng tín dụng xác định xem một khách hàng có khả năng thanh toán nợ hay không
b) Regression (H ồi quy)
Nếu label không được chia thành các nhóm mà là một giá trị thực cụ thể Ví
dụ: một căn nhà rộng x 2
có giá là bao nhiêu?
2.2.2 H ọc không giám sát (Unsupervised Learning)
Trong thuật toán này, chúng ta không biết được outcome hay label mà chỉ có
dữ liệu đầu vào Thuật toán học không giám sát sẽ dựa vào cấu trúc của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính toán
Một cách toán học, học không giám sát là khi chúng ta chỉ có dữ liệu vào X mà không biết nhãn Y tương ứng [5]
Trang 25Những thuật toán loại này được gọi là học không giám sát vì không giống như Học giám sát, chúng ta không biết câu trả lời chính xác cho mỗi dữ liệu đầu vào [5] Giống như khi ta học, không có thầy cô giáo nào chỉ cho ta biết đó là chữ A hay chữ B Cụm không giám sát được đặt tên theo nghĩa này
Các bài toán học không giám sát được tiếp tục chia nhỏ thành hai loại [5]:
Một bài toán phân nhóm toàn bộ dữ liệu X thành các nhóm nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm Ví dụ: phân nhóm khách hàng dựa trên hành vi mua hàng Điều này cũng giống như việc ta đưa cho một đứa trẻ rất nhiều mảnh ghép với các hình thù và màu sắc khác nhau, ví dụ tam giác, vuông, tròn với màu xanh và đỏ, sau đó yêu cầu trẻ phân chúng thành từng nhóm Mặc dù không cho trẻ biết mảnh nào tương ứng với hình nào hoặc màu nào, nhiều khả năng chúng vẫn có thể phân loại các mảnh ghép theo màu hoặc hình dạng
b) Association
Là bài toán khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều dữ liệu cho trước Ví dụ: những khách hàng nam mua quần áo thường có xu hướng mua thêm đồng hồ hoặc thắt lưng; những khán giả xem phim Spider Man thường
có xu hướng xem thêm phim Bat Man, dựa vào đó tạo ra một hệ thống gợi ý khách hàng (Recommendation System), thúc đẩy nhu cầu mua sắm
2.2.3 H ọc bán giám sát (Semi-Supervised Learning)
Các bài toán khi chúng ta có một lượng lớn dữ liệu X nhưng chỉ một phần trong chúng được gán nhãn được gọi là Học bán giám sát Những bài toán thuộc nhóm này nằm giữa hai nhóm được nêu bên trên [5]
Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh hoặc văn bản được gán nhãn (ví dụ bức ảnh về người, động vật hoặc các văn bản khoa học, chính trị)
và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thu thập từ internet [5] Thực tế cho thấy rất nhiều các bài toán học máy thuộc vào nhóm này
vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được (ảnh y học chẳng hạn) Ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp từ internet
2.2.4 H ọc tăng cường (Reinforcement Learning)
Học tăng cường là các bài toán giúp cho một hệ thống tự động xác định hành
vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất (maximizing the performance)
Trang 26Hiện tại, Học tăng cường chủ yếu được áp dụng vào Lý Thuyết Trò Chơi (Game Theory), các thuật toán cần xác định nước đi tiếp theo để đạt được điểm số cao nhất
2.2.5 H ọc sâu (Deep Learning)
Học sâu là một chi của ngành máy học dựa trên một tập hợp các thuật toán
để cố gắng mô hình dữ liệu trừu tượng hóa ở mức cao bằng cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi phi tuyến
Học sâu là một phần của một họ các phương pháp học máy rộng hơn dựa trên đại diện học của dữ liệu Một quan sát (ví dụ như, một hình ảnh) có thể được biểu diễn bằng nhiều cách như một vector của các giá trị cường độ cho mỗi điểm ảnh, hoặc một cách trừu tượng hơn như là một tập hợp các cạnh, các khu vực hình dạng cụ thể, vv Một vài đại diện làm khiến việc học các nhiệm vụ dễ dàng hơn (ví dụ, nhận dạng khuôn mặt hoặc biểu hiện cảm xúc trên khuôn mặt) từ các ví dụ Một trong những hứa hẹn của học sâu là thay thế các tính năng thủ công bằng các thuật toán hiệu quả đối với học không có giám sát hoặc nửa giám sát và tính năng phân cấp
Các nghiên cứu trong lĩnh vực này cố gắng thực hiện các đại diện tốt hơn và tạo ra các mô hình để tìm hiểu các đại diện này từ dữ liệu không dán nhãn quy mô lớn Một số đại diện được lấy cảm hứng bởi những tiến bộ trong khoa học thần kinh và được dựa trên các giải thích của mô hình xử lý và truyền thông thông tin trong một hệ thống thần kinh, chẳng hạn như mã hóa thần kinh để cố gắng để xác định các mối quan hệ giữa các kích thích khác nhau và các phản ứng liên quan đến thần kinh trong não
Nhiều kiến trúc học sâu khác nhau như mạng neuron sâu, mạng neuron tích chập sâu (CNN), mạng niềm tin sâu (DBN) và mạng hồi tiếp (RNN, LSTM, Transformers…) đã được áp dụng cho các lĩnh vực như thị giác máy tính, tự động nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên, nhận dạng âm thanh ngôn ngữ và tin sinh học, chúng đã được chứng minh là tạo ra các kết quả rất tốt đối với nhiều nhiệm vụ khác nhau
Trang 272.3 M ột số thuật toán học máy thông dụng
Trong thuật toán K-means clustering, chúng ta không biết nhãn (label) của từng điểm dữ liệu Mục đích là làm thế nào để phân dữ liệu thành các cụm (cluster) khác nhau sao cho dữ liệu trong cùng một cụm có tính chất giống nhau [6]
Ý tưởng đơn giản nhất về cluster (cụm) là tập hợp các điểm ở gần nhau trong một không gian nào đó (không gian này có thể có rất nhiều chiều trong trường hợp thông tin về một điểm dữ liệu là rất lớn) Hình bên dưới là một ví dụ về 3 cụm dữ
liệu (viết gọn là cluster)
Giả sử mỗi cluster có một điểm đại diện (center) màu vàng Và những điểm xung quanh mỗi center thuộc vào cùng nhóm với center đó Một cách đơn giản
nhất, xét một điểm bất kỳ, ta xét xem điểm đó gần với center nào nhất thì nó thuộc
về cùng nhóm với center đó Tới đây, chúng ta có một bài toán thú vị: Trên một
Trang 282.3.2 KNN (K-nearest neighbor)
K-nearest neighbor là một trong những thuật toán học giám sát đơn giản nhất (mà hiệu quả trong một vài trường hợp) trong Machine Learning Khi training, thuật toán này không học một điều gì từ dữ liệu training (đây cũng là lý do thuật toán này được xếp vào loại lazy learning) [7], mọi tính toán được thực hiện khi nó
cần dự đoán kết quả của dữ liệu mới K-nearest neighbor có thể áp dụng được vào
cả hai loại của bài toán học giám sát là Phân lớp (Classification) và Hồi quy (Regression) [7] KNN còn được gọi là một thuật toán Instance-based hay Memory-based learning
Với KNN, trong bài toán Phân lớp, label của một điểm dữ liệu mới (hay kết quả của câu hỏi trong bài thi) được suy ra trực tiếp từ K điểm dữ liệu gần nhất trong training set Label của một test data có thể được quyết định bằng major voting (bầu chọn theo số phiếu) giữa các điểm gần nhất, hoặc nó có thể được suy
ra bằng cách đánh trọng số khác nhau cho mỗi trong các điểm gần nhất đó rồi suy
Trang 29Ví dụ trên đây là bài toán Classification với 3 classes: Đỏ, Lam, Lục Mỗi điểm dữ liệu mới (test data point) sẽ được gán label theo màu của điểm mà nó thuộc về Trong Hình 2.3, có một vài vùng nhỏ xem lẫn vào các vùng lớn hơn khác màu Ví dụ có một điểm màu Lục ở gần góc 11 giờ nằm giữa hai vùng lớn với nhiều dữ liệu màu Đỏ và Lam Điểm này rất có thể là nhiễu Dẫn đến nếu dữ liệu test rơi vào vùng này sẽ có nhiều khả năng cho kết quả không chính xác
2.3.3 Cây quy ết định (Decision Tree)
Decision tree là một mô hình học giám sát, có thể được áp dụng vào cả hai bài toán Classification (Phân lớp) và Regression (Hồi quy) Việc xây dựng một Decision Tree (DT) trên dữ liệu huấn luyện cho trước là việc đi xác định các câu
hỏi và thứ tự của chúng Một điểm đáng lưu ý của DT là nó có thể làm việc với các đặc trưng (trong các tài liệu về DT, các đặc trưng thường được gọi là thuộc
tính – attribute) d ạng categorical, thường là rời rạc và không có thứ tự Ví dụ: mưa,
nắng hay xanh, đỏ, DT cũng làm việc với dữ liệu có vector đặc trưng bao gồm cả thuộc tính dạng categorical và liên tục (numeric) Một điểm đáng lưu ý nữa là DT
ít yêu cầu việc chuẩn hoá dữ liệu
Phần nghiên cứu chuyên sâu về thuật toán Cây quyết định sẽ được trình bày ở Chương 3
Trang 31Chương 3 THU ẬT TOÁN CÂY QUYẾT ĐỊNH VÀ RỪNG NGẪU NHIÊN
3.1 Decision Tree (Cây quy ết định)
Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary), Định danh (Nominal),
Thứ tự (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có
kiểu dữ liệu là Binary hoặc Ordinal [9]
Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes)
của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các dữ liệu chưa biết
Việc quan sát, suy nghĩ và ra các quyết định của con người thường được bắt đầu từ các câu hỏi Machine Learning cũng có một mô hình ra quyết định dựa trên các câu hỏi Mô hình này có tên là cây quyết định (Decision Tree)
Trong Decision Tree, các ô màu xám, lục, đỏ trên Hình 3.1b được gọi là
các node Các node th ể hiện đầu ra (màu lục và đỏ) được gọi là node lá (leaf
một leaf node hoặc một non-leaf node khác Các child node có cùng bố mẹ được
gọi là sibling node Nếu tất cả các non-leaf node chỉ có hai child node, ta nói rằng
đó là một binary decision tree (cây quyết định nhị phân) Các câu hỏi trong binary
mà một leaf node có nhiều child node cũng có thể được đưa về dạng một binary
Trang 32decision tree Điều này có thể đạt được vì hầu hết các câu hỏi đều có thể được đưa
về dạng câu hỏi đúng sai
Ví dụ, ta có thể áp dụng đối với hệ thống lọc bụi như cách xác định giá trị điện
áp nằm ngoài ngưỡng cho phép hay chưa dựa trên nhiều câu hỏi đúng sai dạng: giá trị điện áp lớn hơn xx không? Giá trị điện áp nhỏ hơn xx không? (Đây chính
là thuật toán tìm kiếm nhị phân – binary search)
Quay trở lại với nhiệm vụ chính của việc xây dựng một Decision Tree: các câu
hỏi nên được xây dựng như thế nào, và thứ tự của chúng ra sao Các câu hỏi này thường được áp dụng lên từng thuộc tính, hoặc một tổ hợp tuyến tính của các thuộc tính Cách thứ nhất, áp dụng lên từng thuộc tính, được sử dụng nhiều hơn vì tính
đơn giản của nó Với các thuộc tính dạng categorical, câu hỏi sẽ là Nó rơi vào
category nào? hoặc Nó có rơi vào category nào đó không? với trường hợp nhị phân Với các thuộc tính dạng liên tục, câu hỏi có thể là Nó nằm vào khoảng giá
trị nào? hoặc Nó có lớn hơn một ngưỡng nào đó không?
Chúng ta sẽ làm quen với một thuật toán xây dựng Decision Tree ra đời từ rất
sớm và rất phổ biến: Iterative Dichotomiser 3 (ID3)
Iterative Dichotomiser 3 (ID3) là một thuật toán Decision Tree được áp dụng cho các bài toán Classification mà tất cả các thuộc tính đều ở dạng categorical
3.1.1 Iterative Dichotomiser 3 (ID3)
Iterative Dichotomiser 3 (ID3) là một thuật toán Decision Tree được áp dụng cho các bài toán Classification mà tất cả các thuộc tính đều ở dạng categorical [9]
a) Ý tưởng
Trong ID3, chúng ta cần xác định thứ tự của thuộc tính cần được xem xét tại
mỗi bước Với các bài toán có nhiều thuộc tính và mỗi thuộc tính có nhiều giá trị khác nhau, việc tìm được nghiệm tối ưu thường là không khả thi Thay vào đó,
một phương pháp đơn giản thường được sử dụng là tại mỗi bước, một thuộc tính tốt
nhất sẽ được chọn ra dựa trên một tiêu chuẩn nào đó (chúng ta sẽ bàn sớm) Với
mỗi thuộc tính được chọn, ta chia dữ liệu vào các child node tương ứng với các giá trị của thuộc tính đó rồi tiếp tục áp dụng phương pháp này cho mỗi child node
Việc chọn ra thuộc tính tốt nhất ở mỗi bước như thế này được gọi là cách
chọn greedy (tham lam) Cách chọn này có thể không phải là tối ưu, nhưng trực giác cho chúng ta thấy rằng cách làm này sẽ gần với cách làm tối ưu Ngoài ra, cách làm này khiến cho bài toán cần giải quyết trở nên đơn giản hơn
Trang 33Sau mỗi câu hỏi, dữ liệu được phân chia vào từng child node tương ứng với các câu trả lời cho câu hỏi đó Câu hỏi ở đây chính là một thuộc tính, câu trả lời chính là giá trị của thuộc tính đó Để đánh giá chất lượng của một cách phân chia, chúng ta cần đi tìm một phép đo
Trước hết, thế nào là một phép phân chia tốt? Bằng trực giác, một phép phân chia là tốt nhất nếu dữ liệu trong mỗi child node hoàn toàn thuộc vào một class–khi đó child node này có thể được coi là một leaf node, tức ta không cần phân chia thêm nữa Nếu dữ liệu trong các child node vẫn lẫn vào nhau theo tỉ lệ lớn, ta coi
rằng phép phân chia đó chưa thực sự tốt Từ nhận xét này, ta cần có một hàm số
đo độ tinh khiết (purity), hoặc độ vẩn đục (impurity) của một phép phân chia Hàm
số này sẽ cho giá trị thấp nhất nếu dữ liệu trong mỗi child node nằm trong cùng
một class (tinh khiết nhất), và cho giá trị cao nếu mỗi child node có chứa dữ liệu thuộc nhiều class khác nhau
Một hàm số có các đặc điểm này và được dùng nhiều trong lý thuyết thông tin
là hàm entropy
Cho một phân phối xác suất của một biến rời rạc x có thể nhận n giá trị
khác nhau x x1, 2, ,x n Giả sử rằng xác suất để x nhận các giá trị này là
Trong đó log là logarit tự nhiên (Một số tài liệu dùng logarit cơ số 2, nhưng giá
Xét một ví dụ với n=2 được cho trên Hình 3.3 Trong trường hợp p là tinh
khiết nhất, tức một trong hai giá trị p i bằng 1, giá trị kia bằng 0, entropy của phân phối này là ( ) 0H p = Khi p là vẩn đục nhất, tức cả hai giá trị p i =0.5, hàm entropy đạt giá trị cao nhất
Trang 34Hình 3.2 Đồ thị của hàm entropy với n = 2 [9]
Tổng quát lên với n>2, hàm entropy đạt giá trị nhỏ nhất nếu có một giá trị 1
i
p = , đạt giá trị lớn nhất nếu tất cả cácp i bằng nhau (việc này có thể được chứng minh bằng Phương pháp nhân tử Lagrange)
Những tính chất này của hàm entropy khiến nó được sử dụng trong việc đo độ
vẩn đục của một phép phân chia của ID3 Vì lý do này, ID3 còn được gọi
là entropy-based decision tree
3.1.2 Thu ật toán ID3
Trong ID3, tổng có trọng số của entropy tại các leaf-node sau khi xây dựng
Decision Tree được coi là hàm mất mát của Decision Tree đó Các trọng số ở đây
tỉ lệ với số điểm dữ liệu được phân vào mỗi node Công việc của ID3 là tìm các
cách phân chia hợp lý (thứ tự chọn thuộc tính hợp lý) sao cho hàm mất mát cuối cùng đạt giá trị càng nhỏ càng tốt Như đã đề cập, việc này đạt được bằng cách chọn ra thuộc tính sao cho nếu dùng thuộc tính đó để phân chia, entropy tại mỗi bước giảm đi một lượng lớn nhất Bài toán xây dựng một Decision Tree bằng ID3
có thể chia thành các bài toán nhỏ, trong mỗi bài toán, ta chỉ cần chọn ra thuộc tính giúp cho việc phân chia đạt kết quả tốt nhất Mỗi bài toán nhỏ này tương ứng
với việc phân chia dữ liệu trong một non-leaf node Chúng ta sẽ xây dựng phương
pháp tính toán dựa trên mỗi node này
Xét một bài toán với C class khác nhau Giả sử ta đang làm việc với một
rằng thêm trong số N điểm dữ liệu này, N C , c=1,2,…C điểm thuộc vào class C
Trang 35Xác suất để mỗi điểm dữ liệu rơi vào một class c được xấp xỉ bằng N C
Tiếp theo, giả sử thuộc tính được chọn là x Dựa trên x các điểm dữ liệu trong
S được phân ra thành K child node , , , S S1 2 S K với số điểm trong mỗi child node
là tổng có trọng số entroy của mỗi child node–được tính tương tự như công thức
PT 3.2 Việc lấy trọng số này là quan trọng vì các node thường có số lượng điểm
khác nhau
Tiếp theo, ta định nghĩa information gain dựa trên thuộc tính x:
( , ) ( ) ( , )
Trong ID3, tại mỗi node, thuộc tính được chọn được xác định dựa trên:
arg max ( , ) arg min ( , )
x x
tức thuộc tính khiến cho information gain đạt giá trị lớn nhất
Câu hỏi tiếp theo là khi nào thì dừng cách phân chia? Câu trả lời sẽ được đề cập sau mục ví dụ dưới đây
trị của bốn cột còn lại
Trang 36B ảng 3.1 Ví dụ về dữ liệu huấn luyện cây quyết định
Như vậy, cây quyết định cho bài toán này sẽ có dạng như trong Hình 3.3
Trang 37nhiều leaf node chỉ có một vài điểm dữ liệu Như vậy, nhiều khả năng overfitting
sẽ xảy ra
Để tránh overfitting, một trong số các phương pháp sau có thể được sử dụng
Tại một node, nếu một trong số các điều kiện sau đây xảy ra, ta không tiếp tục
phân chia node đó và coi nó là một leaf node [9]:
- Nếu node đó có entropy bằng 0, tức mọi điểm trong node đều thuộc một class
- Nếu node đó có số phần tử nhỏ hơn một ngưỡng nào đó Trong trường hợp này, ta chấp nhận có một số điểm bị phân lớp sai để tránh overfitting Class cho leaf node này có thể được xác định dựa trên class chiếm đa số trong node
- Nếu khoảng cách từ node đó đến root node đạt tới một giá trị nào đó Việc
hạn chế chiều sâu của tree này làm giảm độ phức tạp của tree và phần nào giúp
tránh overfitting
- Nếu việc phân chia node đó không làm giảm entropy quá nhiều
(information gain nhỏ hơn một ngưỡng nào đó)
Ngoài các phương pháp trên, một phương pháp phổ biến khác được sử dụng
để tránh overfitting là pruning, tạm dịch là cắt tỉa
3.1.5 Pruning
Pruning là một kỹ thuật regularization để tránh overfitting cho Decision Tree nói chung Trong pruning, một decision tree sẽ được xây dựng tới khi mọi điểm trong training set đều được phân lớp đúng Sau đó, các leaf node có chung một
class tương ứng với class chiếm đa số trong số mọi điểm được phân vào node đó
Việc cắt tỉa cây quyết định này có thể được xác định dựa vào các cách sau [9]
Cách 1:
Dựa vào một validation set Trước tiên, training set được tách ra thành một training set nhỏ hơn và một validation set Decision tree được xây dựng trên training set cho tới khi mọi điểm trong training set được phân lớp đúng Sau đó, đi ngược từ các leaf node, cắt tỉa các sibling node của nó và giữ lại node bố mẹ nếu
độ chính xác trên validation set được cải thiện Khi nào độ chính xác trên validation set không được cải thiện nữa, quá trình pruning dừng lại Phương pháp này còn
được gọi là reduced error pruning
Trang 38Cách 2:
Dựa vào toàn bộ data set Trong phương pháp này, ta không tách tập training ban đầu ra mà sử dụng toàn bộ dữ liệu trong tập này cho việc xây dựng decision tree Một ví dụ cho việc này là cộng thêm một đại lượng regularization vào hàm
mất mát Đại lượng regularization sẽ lớn nếu số leaf node là lớn Cụ thể, giả sử decision tree cuối cùng có K leaf node, tập hợp các điểm huấn luyện rơi vào mỗi
leaf node lần lượt là , , ,S S1 2 S [8] K Khi đó, regularized loss của ID3 có thể được tính tương tự như PT 3.10:
1
( )
k k k
nhỏ (entropy tại mỗi node là thấp) và regularization - số hạng thứ hai - cũng nhỏ (số leaf node là ít) Vì hàm mất mát trong PT 3.10 là một hàm rời rạc, rất khó để
trực tiếp tối ưu hàm này Việc tối ưu có thể được thực hiện thông qua pruning như sau Trước hết, xây dựng một decision tree mà mọi điểm trong tập huấn luyện đều được phân loại đúng (toàn bộ các entopy của các node bằng 0) Lúc này data loss
bằng 0 nhưng regularization có thể lớn, khiến cho L lớn Sau đó, ta có thể tỉa dần các leaf node sao cho L gi ảm Việc cắt tỉa được lặp lại đến khi L không thể giảm
được nữa
Random forest là thuật toán Học có giám sát (Supervised learning), có thể giải quyết cả bài toán Hồi quy (Regression) và Phân lớp (Classification)
Random là ngẫu nhiên, Forest là rừng, nên ở thuật toán Random Forest chúng
ta sẽ xây dựng nhiều Cây bằng thuật toán Decision Tree, tuy nhiên mỗi Cây quyết định sẽ khác nhau (có yếu tố random) Sau đó kết quả dự đoán được tổng hợp từ các cây quyết định, càng nhiều Cây trong Rừng, độ chính xác sẽ cao hơn
Thuật toán rừng ngẫu nhiên là một phương pháp học cộng đồng (Ensemble Learning)
Trang 393.2.1 Gi ới thiệu về phương pháp Ensemble Learning (Học cộng đồng)
Ensemble Learning có nghĩa là kết hợp nhiều mô hình [11]
Ví dụ: Giả sử một người đang bối rối trong việc chọn khóa học nào đó, không
biết có nên tham gia nó không Do đó người này chọn một giải pháp đó là hỏi bạn
bè của bạn để gợi ý Nhưng, liệu gợi ý của anh ấy / cô ấy có đủ để người này lựa
chọn một khóa học phù hợp? Vì vậy, người này sẽ hỏi nhiều người, như giáo viên, cha mẹ, bạn bè, người thân hoặc bất kỳ ai khác, và kết quả là người này có thêm nhiều đề xuất
Tương tự, Ensemble Learning kết hợp nhiều mô hình, training các mô hình này qua các dữ liệu Và sau đó sử dụng dự đoán của tất cả các mô hình để đưa ra
kết quả cuối cùng
Ensemble Learning không phụ thuộc vào một mô hình duy nhất Tính năng này của Ensemble Learning làm cho nó chính xác hơn Bởi vì kết quả của nó không
phụ thuộc vào một mô hình [5]
Ensemble Learning có ba kỹ thuật: Bagging (hay Bootstrap Aggregation), Boosting, Stacking
- Các mô hình 1, 2, 3 và 4 đang sử dụng dữ liệu từ dữ liệu đào tạo
- Mô hình 1 có thể là SVM, Mô hình 2 có thể là thuật toán Naive Bayes, Mô hình 3 có thể là Cây quyết định, và Mô hình 4 có thể là KNN
- Một mô hình cơ bản có thể yếu, nhưng khi chúng ta kết hợp tất cả những
mô hình đơn độc, nó sẽ trở thành một mô hình mới với độ chính xác và ít lỗi hơn
Training Data
Dataset “D” là tập dữ liệu ban đầu
- Trong kỹ thuật Bagging, ta chọn ngẫu nhiên một số data từ 𝐷𝐷 và tạo Boostrap
dataset D1
- Theo cách tương tự, ta tạo mới dataset D1,D2,…,Dn
- Chúng ta có thể tạo một Bootstrap mới với lựa chọn và thay thế ngẫu nhiên
Trang 40Dataset “D”
Model 1
Final model
“Thay thế" ở đây nghĩa là một số bản ghi có thể có trong nhiều hơn một Dataset Nó có thể ở trong D1 và D2
Vì vậy, theo Hình 3.2 ta có nhiều bộ dữ liệu D2,D3, ,Dn Và nó được gọi
Data Set D2 Row 1 Row 3 Row 6 Row 5 Row 3 Tóm lại, chúng ta train các mô hình khác nhau với các bộ dữ liệu khác nhau,
và không cùng cùng một tập dữ liệu sau đó ta kết hợp các mô hình này để tạo ra
một mô hình mới