Thiết kế hệ thống chẩn đoán lỗi và cảnh báo tự động để nâng cao chất lượng vận hành hệ thống lọc bụi tĩnh điện

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ và tên tác giả luận văn: Nguyễn Văn Tới Đề tài luận văn: Thiết kế hệ thống ch

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

HÀ NỘI, 2022

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Chữ ký của GVHD

Trang 3

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ

Họ và tên tác giả luận văn: Nguyễn Văn Tới

Đề tài luận văn: Thiết kế hệ thống chẩn đoán lỗi và cảnh báo tự động

để nâng cao chất lượng vận hành hệ thống lọc bụi tĩnh điện

Chuyên ngành: Kỹ thuật điều khiển và tự động hóa

Mã số SV: 20202788M

Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày 31/10/2022 với các nội dung sau:

- Tác giả cần rà soát lại các lỗi chính tả và sửa chữa, chỉnh sửa lại cách

sử dụng các thuật ngữ khoa học cho chính xác và nhất quán

- Các ví dụ minh họa khi trình bày về các thuật toán học máy nhất là hai thuật toán được sử dụng trong luận văn cần gắn với đối tượng là hệ thống lọc bụi

- Cần bổ sung bảng các lỗi thường gặp trong hệ thống và phân tích mối liên hệ giữa các lỗi đó với các thông số cần thu thập, kỹ thuật chẩn đoán lỗi, và liên quan gì đến phần dự báo

Trang 4

LỜI CẢM ƠN

Qua đây, tác giả xin gửi lời cảm ơn đến TS Phạm Quang Đăng, người

hướng dẫn tác giả hoàn thành luận văn thạc sĩ Xin cảm ơn các kỹ sư vận hành tại nhà máy nhiệt điện Hải Phòng đã cung cấp cho tác giả bộ dữ liệu về hoạt động của bộ lọc bụi tĩnh điện của nhà máy

Lời cuối cùng, xin cảm ơn toàn thể các thầy cô tham gia giảng dạy khóa cao học 20202 cũng như các thầy cô trong bộ môn Tự động hoá công nghiệp, các cán

bộ trong viện Kỹ thuật điều khiển và tự động hóa Trường Đại học Bách khoa Hà Nội đã giúp tác giả tích lũy được nhiều kiến thức quý báu, phục vụ cho công tác nghiên cứu hiện tại và sau này trong lĩnh vực Điều khiển và Tự động hóa

Xin chân thành cảm ơn!

Tác giả

Nguyễn Văn Tới

Trang 5

Tóm t ắt nội dung luận văn

Đề tài: “Thiết kế hệ thống chẩn đoán lỗi và cảnh báo tự động để nâng cao chất lượng vận hành hệ thống lọc bụi tĩnh điện” có mục tiêu là xây dựng được mô hình

có khả năng học từ các dữ liệu đã thu thập, từ đó đưa ra kết quả dự đoán của những đối tượng muốn theo dõi để hỗ trợ người vận hành trong quá trình vận hành hệ

thống

a) N ội dung luận văn giải quyết các vấn đề sau:

Phân tích vấn đề xảy ra đối với hệ thống lọc bụi tĩnh điện của nhà máy nhiệt điện Giới thiệu kỹ thuật máy học máy và thuật toán sử dụng trong luận văn

Trực quan hóa dữ liệu để đánh giá những mối tương quan của từng đặc tính xét đến, thực hiện huấn luyện mô hình học máy để đưa ra dự đoán hiệu quả lọc bụi đầu ra dựa trên dữ liệu đã thu thập từ nhà máy Đánh giá mô hình và khả năng ứng

dụng vào thực tiễn

b) Phương pháp nghiên cứu và công cụ sử dụng

Phương pháp nghiên cứu: Kết hợp phương pháp phân tích lý thuyết và mô phỏng

dựa trên dữ liệu thực tế Chương trình mô phỏng được phát triển trên nền tảng mã nguồn mở Anaconda Navigator trong môi trường tích hợp Jupyter Notebook

c) K ết quả

Luận văn phù hợp với yêu cầu đặt ra, có tính khoa học và ứng dụng thực tiễn đối với tình hình nghiên cứu trong nước Hướng mở rộng của luận văn là giải quyết, hoàn thiện một hệ thống thân thiện với người dùng và đa dụng hơn cho nhiều hệ thống

Học Viên

Nguyễn Văn Tới

Trang 6

M ỤC LỤC

Chương 1 TỔNG QUAN VỀ BỘ LỌC BỤI TĨNH ĐIỆN 1

1.1 Giới thiệu chung 1

1.2 Nguyên nhân tạo thành bụi 1

1.3 Các phương pháp lọc bụi trong công nghiệp 2

1.3.1 Lọc bụi theo phương pháp trọng lực 2

1.3.2 Lọc bụi theo phương pháp ly tâm 2

1.3.3 Lọc bụi theo phương pháp ẩm 2

1.3.4 Lọc bụi theo phương pháp qua túi vải – màng vải 3

1.3.5 Lọc bụi tĩnh điện 3

1.4 Nguyên lý làm việc của bộ lọc bụi tĩnh điện 3

1.5 Lựa chọn loại điện áp các cực trong lọc bụi tĩnh điện 5

1.6 Các yếu tố ảnh hưởng đến hiệu suất của thiết bị lọc bụi tĩnh điện 6

1.7 Hệ thống lọc bụi tĩnh điện nhà máy nhiệt điện Hải Phòng 6

1.7.1 Mô tả chung 6

1.7.2 Thông số kỹ thuật 8

1.7.3 Một số lỗi trường lọc bụi 9

Chương 2 TỔNG QUAN VỀ HỌC MÁY 11

2.1 Giới thiệu về học máy 11

2.2 Phân loại các phương pháp học máy 11

2.2.1 Học có giám sát (Supervised Learning) 12

2.2.2 Học không giám sát (Unsupervised Learning) 12

2.2.3 Học bán giám sát (Semi-Supervised Learning) 13

2.2.4 Học tăng cường (Reinforcement Learning) 13

2.2.5 Học sâu (Deep Learning) 14

2.3 Một số thuật toán học máy thông dụng 15

2.3.1 Phân cụm K-means (K-means Clustering) 15

2.3.2 KNN (K-nearest neighbor) 16

2.3.3 Cây quyết định (Decision Tree) 17

Trang 7

Chương 3 THUẬT TOÁN CÂY QUYẾT ĐỊNH VÀ RỪNG NGẪU NHIÊN

19

3.1 Decision Tree (Cây quyết định) 19

3.1.1 Iterative Dichotomiser 3 (ID3) 20

3.1.2 Thuật toán ID3 22

3.1.3 Ví dụ 23

3.1.4 Điều kiện dừng 24

3.1.5 Pruning 25

3.2 Random Forest (Rừng ngẫu nhiên) 26

3.2.1 Giới thiệu về phương pháp Ensemble Learning (Học cộng đồng) 27

3.2.2 Xây dựng thuật toán Random Forest 29

3.2.3 Đánh giá thuật toán Random Forest 31

Chương 4 MÔ HÌNH HỆ THỐNG VÀ CHƯƠNG TRÌNH THỰC NGHIỆM 33

4.1 Thu thập số liệu từ PLC 34

4.1.1 Giao thức truyền thông (Communiction) 34

4.1.2 Thu thập số liệu từ PLC 43

4.2 Môi trường và ngôn ngữ lập trình 51

4.3 Xây dựng chương trình 55

4.3.1 Một số mã lỗi thông dụng 55

4.3.2 Cấu trúc chương trình 57

K ẾT LUẬN 65

TÀI LI ỆU THAM KHẢO 67

PH Ụ LỤC 69

Trang 9

DANH M ỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

ESP Electrostatic Precipitator Bộ lọc bụi tĩnh điện

SCADA Supervisory Control And Data

Internet Protocol

Giao thức điều khiển để truyền

nhận liên mạng

AI Artificial Intelligence Trí tuệ nhân tạo

ID3 Iterative Dichotomiser 3

KNN K-nearest neighbor K láng giềng gần nhất

SVM Support Vector Machine Máy véc-tơ hỗ trợ

CNN Convolutional Neural Networks Mạng neuron tích chập

DBN Deep Belief Network Mạng niềm tin sâu

RNN Recurrent Neural Network Mạng nơ ron tái phát

LSTM Long Short Term Memory Mạng bộ nhớ dài ngắn hạn

Trang 10

DANH M ỤC BẢNG BIỂU

Bảng 1.1 Các nhánh của hệ thống lọc bụi tĩnh điện [4] 7

Bảng 1.2 Các nhóm trường của hệ thống lọc bụi tĩnh điện [4] 7

Bảng 1.3 Thông số kỹ thuật của bộ lọc bụi [4] 8

Bảng 1.4 Thông số khí thải cho phép [4] 9

Bảng 1.5 Lỗi trường lọc bụi và cách xử lý [4] 9

Bảng 3.1 Ví dụ về dữ liệu huấn luyện cây quyết định 24

Bảng 3.2 Tập dữ liệu Dataset D 28

Bảng 3.3 Tập dữ liệu Dataset trong học cộng đồng 28

Bảng 3.4 Ví dụ chẩn đoán của Rừng ngẫu nhiên 31

Bảng 3.5 Sự tương đồng giữa Random Forest và ý tưởng Wisdom of Crowds [13] .32

Bảng 4.1 Bảng tóm tắt các giao thức của một số nhà sản xuất 34

Bảng 4.2 Bảng tóm tắt các chức năng được thực hiện trong mỗi lớp của OSI [14] .36

Bảng 4.3 Bảng tóm tắt các giao thức thông dụng ứng với từng lớp trong OSI [14] .37

Bảng 4.4 Bảng tóm tắt các chức năng của các lớp trong TCP/IP [15] 39

Bảng 4.5 Bảng tóm tắt một số giao thức tương ứng từng lớp [15] 39

Bảng 4.6 Mã chức năng và các loại dữ liệu được hổ trợ bởi Modbus [16] 43

Bảng 4.7 Các loại tin nhắn của truyền thông Serial [17] 45

Bảng 4.8 Ý nghĩa các thành phần trong câu lệnh [17] 46

Bảng 4.9 Các loại tin nhắn của truyền thông Ethernet [17] 49

Bảng 4.10 Ý nghĩa các thành phần trong câu lệnh [17] 50

Bảng 4.11 Một số mã lỗi thông dụng 55

Bảng 4.12 Các thuộc tính của hệ thống lọc bụi 58

Trang 11

DANH M ỤC HÌNH VẼ

Hình 1.1 Nguyên lý tích và lắng bụi trong thiết bị lọc bụi tĩnh điện [2] 4

Hình 1.2 Sự di chuyển của ion từ cực âm đến cực lắng 5

Hình 1.3 Hệ thống lọc bụi tĩnh điện nhà máy nhiệt điện Hải Phòng [4] 7

Hình 2.1 Các mô hình học máy 11

Hình 2.2 Ví dụ về phân cụm K-mean [6] 15

Hình 2.3 Ví dụ về bài toán K-nearest neighbor [8] 16

Hình 3.1 Ví dụ về bài toán phân lớp sử dụng Decision Tree [9] 19

Hình 3.2 Đồ thị của hàm entropy với n = 2 [9] 22

Hình 3.3 Decision tree cho bài toán dự đoán nồng độ bụi 24

Hình 3.4 Sơ đồ hoạt động của phương pháp học cộng đồng 1 27

Hình 3.5 Sơ đồ hoạt động của phương pháp học cộng đồng 2 28

Hình 3.6 Mô tả thuật toán Rừng ngẫu nhiên [12] 29

Hình 3.7 Tạo Bootstrap Dataset trong Random Forest 30

Hình 3.8 “Cây quyết định” trong “Rừng ngẫu nhiên” 30

Hình 3.9 Dataset trong Rừng ngẫu nhiên 30

Hình 4.1 Cấu hình hệ thống lọc bụi kết hợp mô hình học máy 33

Hình 4.2 Các bước triển khai mô hình máy học 33

Hình 4.3 Minh họa quá trình đóng gói dữ liệu [14] 35

Hình 4.4 Mô hình OSI 7 lớp [14] 35

Hình 4.5 Mô hình TCP/IP và các giao thức tiêu biểu [15] 38

Hình 4.6 Mô hình TCP/IP bốn lớp [15] 38

Hình 4.7 Mô hình phân lớp Modbus [16] 41

Hình 4.8 Cấu trúc khung thông điệp Modbus [16] 42

Hình 4.9 Mô tả hệ thống thu thập số liệu từ thiết bị ngoại vi [17] 43

Hình 4.10 Giao thức truyền thông MELSEC với nhiều thiết bị [17] 44

Hình 4.11 Quá trình truyền nhận dữ liệu [17] 44

Hình 4.12 Cấu trúc truyền nhận dữ liệu đối với 4C frame [17] 45

Hình 4.13 Cấu trúc truyền nhận dữ liệu đối với 3C frame [17] 46

Hình 4.14 Đọc giá trị từ PLC đối với 3C frame [17] 47

Trang 12

Hình 4.15 Đọc giá trị từ PLC đối với 4C frame [17] 47

Hình 4.16 Kết quả trả về đối với 3C frame [17] 47

Hình 4.17 Kết quả trả về đối với 4C frame [17] 48

Hình 4.18 Ghi giá trị xuống PLC đối với 3C frame [17] 48

Hình 4.19 Ghi giá trị xuống PLC đối với 4C frame [17] 49

Hình 4.20 Cấu trúc truyền nhận dữ liệu với truyền thông Ethernet [17] 50

Hình 4.21 Đọc giá trị từ PLC qua Ethernet [17] 50

Hình 4.22 Nhận kết quả từ PLC qua Ethernet [17] 51

Hình 4.23 Ghi giá trị xuống PLC [17] 51

Hình 4.24 Bộ dữ liệu của hệ thống lọc bụi 57

Hình 4.25 Dữ liệu sau khi được loại bỏ 58

Hình 4.26 Mô tả dữ liệu 59

Hình 4.27 Thông tin của các đặc tính trong bộ dữ liệu 59

Hình 4.28 Sự phụ thuộc của nồng độ bụi theo điệp áp các trường 60

Hình 4.29 Sự phụ thuộc của nồng độ bụi theo dòng điệp các trường 60

Hình 4.30 Quá trình huấn luyện với số cây n=500 62

Hình 4.31 Kết quả dự đoán của mô hình 62

Hình 4.32 Nồng độ bụi thực tế và nồng độ bụi dự đoán 62

Trang 13

Chương 1 TỔNG QUAN VỀ BỘ LỌC BỤI TĨNH ĐIỆN

1.1 Gi ới thiệu chung

Khí thải trong công nghiệp là nguồn gây ô nhiễm nghiêm trọng với môi trường Một trong những yếu tố gây ô nhiễm của khí thải công nghiệp là bụi và chính phủ Việt Nam đã ban hành các quy chuẩn về bụi trong trong khí thải công nghiệp bao gồm “QCVN 19:2009/BTNMT quy chuẩn quốc gia về khí thải công nghiệp đối với bụi và các chất vô cơ” và “QCVN23:2009/BTMT quy chuẩn quốc gia về khí thải công nghiệp sản xuất xi măng”

Ngày nay, các thiết bị lọc bụi làm sạch khí được nghiên cứu thành công như xiclon, thiết bị lọc túi vải, ống venturi, thiết bị lọc bụi tĩnh điện Trong các thiết

bị lọc bụi, thiết bị lọc bụi tĩnh điện với những ưu điểm vượt trội được đánh giá mang lại hiệu suất thu bụi cao, và chi phí hoạt động thấp được ứng dụng rộng rãi trong nhiều ngành công nghiệp khác nhau

Tuy nhiên, bài toán khi vận hành trong thiết bị lọc bụi tĩnh điện có rất nhiều

hiện tượng xảy ra như điện trường giữa các cực, quá trình ion chất khí, phóng điện

vầng quang, tích điện cho các hạt bụi… và ảnh hưởng của các nhân tố khác đến thiết bị lọc bụi điện như loại điện cực, khoảng cách các cực, đòi hỏi thiết bị lọc bụi tĩnh điện phải được điều khiển để đạt được hiệu quả làm việc cao nhất

Để đạt được hiệu suất thu bụi cao, đảm bảo cho thiết bị vận hành an toàn, tin

cậy, việc xem xét và giải quyết các vấn đề trên là hết sức cần thiết Nhằm ngày càng nâng cao hiệu suất thiết bị, phát huy những ưu điểm vốn có của thiết bị lọc

bụi tĩnh điện

1.2 Nguyên nhân t ạo thành bụi

Bụi có trong không khí do nhiều nguyên nhân, ở đây ta chỉ đề cập đến nguyên nhân bụi trong công nghiệp Bụi được sinh ra trong không khí chủ yếu do quá trình

sản xuất luyện kim, công nghiệp hóa chất, hầm mỏ, nhà máy nhiệt điện…

Nguyên nhân tạo thành bụi là do:

- Các hạt rắn bị nghiền nhỏ

- Khi dùng khí để vận chuyển hạt, các hạt nhỏ bị khí cuốn theo

- Trong quá trình ủ hoặc nung vật liệu bị vỡ vụn

Trang 14

Ở một vài quá trình khi tăng nhiệt độ có thể tạo ra khả năng sinh bụi là do

giảm liên kết giữa các hạt trong vật rắn Mặt khác, khi ngưng tụ hơi của các quá trình thăng hoa và các phản ứng hóa học

1.3 Các phương pháp lọc bụi trong công nghiệp

1.3.1 L ọc bụi theo phương pháp trọng lực

Các hạt bụi đều có khối lượng, dưới tác dụng của trọng lực các hạt có xu hướng chuyển động từ trên xuống dưới (đáy thiết bị lọc bụi) Tuy nhiên, đối với các hạt

bụi nhỏ ngoài tác dụng của trọng lực còn có lực chuyển động của dòng khí và lực

ma sát môi trường Như đã biết các lực này phụ thuộc vào nhiều nhân tố, trong đó

có kích thước hạt bụi do vậy sẽ ảnh hưởng đến tốc độ lắng của hạt bụi Vì vậy, lọc

bụi theo phương pháp trọng lực chỉ áp dụng với hạt bụi có kích thước lớn

1.3.2 L ọc bụi theo phương pháp ly tâm

Khi dòng chuyển động đổi hướng hay chuyển động theo đường cong, ngoài

trọng lực tác dụng lên hạt bụi còn có lực quán tính, lực này lớn hơn nhiều lần so

với trọng lực Dưới ảnh của lực quán tính, hạt có xu hướng chuyển động thẳng nghĩa là các hạt có khả năng tách ra khỏi dòng khí Hiện tượng này được sử dụng trong các thiết bị lọc bụi Xiclon, tấm chớp, … Các thiết bị này chỉ có khả năng tách bụi có kích thước > 10µm nên dùng để lắng hạt bụi có kích thước nhỏ không

hiệu quả

1.3.3 L ọc bụi theo phương pháp ẩm

Khi hạt bụi tiếp xúc với bề mặt dịch thể (giọt dịch thể) các hạt bụi sẽ bám trên

bề mặt dựa trên nguyên tắc đó có thể tách hạt bụi ra khỏi dòng khí Sự tiếp xúc với

bề mặt dịch có thể xảy ra, dựa trên nguyên tắc đó có thể tách hạt bụi ra khỏi dòng khí Sự tiếp xúc giữa các hạt bụi với bề mặt dịch thể có thể xảy ra nếu trọng lực tác dụng lên hạt bụi theo hướng đến bề mặt dịch thể Các lực đó gồm: lực va đập,

trọng lực, lực ly tâm (quán tính)

Thực nghiệm cho thấy, theo phương pháp này chỉ thu hồi các hạt bụi có kích thước > 3÷5µm Các hạt bụi nhỏ, đặc biệt hạt bụi tạo thành do quá trình thăng hoa thì lọc bụi theo phương pháp ẩm sẽ kém hiệu quả do tính chất tự nhiên của các hạt

bụi dễ bị bôi trơn bằng dịch thể Hiện tượng này là do các hạt bụi nhỏ có trong dòng khí, khi gặp dịch thể (giọt dịch thể hay bề mặt ẩm) thì chúng không bị thấm ướt còn chỗ dòng khí bị tiếp xúc với dịch thể các hạt bụi có chuyển động uốn cong nên khả năng thẩm ướt hạt bụi kém

Trang 15

1.3.4 L ọc bụi theo phương pháp qua túi vải – màng vải

Khí chứa đầy bụi, dẫn qua màng vải, bụi được giữ lại trên đó khi tốc độ khí không lớn Lọc bụi bằng màng vải được ứng dụng phổ biển trong luyện kim, hóa

chất xây dựng Một số trường hợp cần thu hồi bụi không dùng lọc túi vải mà dùng

giấy carton, bông, lớp vật liệu xốp hoặc các vật liệu dạng cục (cát, đá cuội, hạt

cốc) Một số vật liệu trong đó như giấy, bông được áp dụng trong phòng thí nghiệm

1.3.5 L ọc bụi tĩnh điện

Thiết bị có cấu tạo gồm một dây kim loại nhẵn, có tiết diện nhỏ, được căng theo trục của ống kim loại nhờ có đối trọng Dây kim loại được nạp dòng điện một chiều có điện thế cao khoảng 50-100kV, còn gọi là cực âm hay cực ion hóa của thiết bị Cực dương là ống kim loại được bao quanh cực âm và nối đất hay còn gọi

là cực lắng Khi cấp điện thế cao vào cực âm thì tạo ra một điện trường mạnh bên trong ống cực dương và khi dòng khí mang bụi đi qua các phân tử khí sẽ bị ion hóa và truyền điện tích âm cho các hạt bụi do tác dụng va chạm hoặc khếch tán ion Các hạt bụi bị nhiễm điện âm sẽ di chuyển về cực dương (cực lắng) và đọng

lại trên bề mặt bên trong của ống hình trụ, mất điện tích và rơi xuống phễu thu bụi Ngoài ra còn có thiết bị lọc bụi tĩnh điện kiểu tấm, là loại thiết bị mà cực dương

là các tấm dạng bảng được đặt song song hai bên các cực âm [1]

Phương pháp này có thể đạt hiệu quả lọc lên đến 99,5% Thiết bị lọc bụi kiểu tĩnh điện rất hiệu quả đối với các loại bụi kích cỡ từ 0,5 đến 8µm Khi các hạt bụi

có kích cỡ khoảng 10µm và lớn hơn thì hiệu quả giảm Có thể làm việc trong môi trường có nhiệt độ cao lên đến 500ºC, làm việc trong phạm vi áp suất cao hoặc áp

suất chân không và có khả năng tách bụi có độ ẩm cao, cả dạng lỏng hoặc rắn

1.4 Nguyên lý làm vi ệc của bộ lọc bụi tĩnh điện

Như đã tìm hiểu ở trên, trong các phương pháp lọc bụi thì phương pháp lọc

bụi tĩnh điện phù hợp với các nhà máy ở Việt Nam như nhà máy sản xuất xi măng, nhà máy nhiệt điện, và đạt hiệu quả tối đa cho việc phòng chống ô nhiễm không khí đảm bảo sức khỏe của người dân ở xung quanh khu công nghiệp khi đạt hiệu

quả lọc bụi lên đến 99% Chính vì vậy, phương pháp lọc bụi tĩnh điện sẽ được tác

giả lựa chọn để nghiên cứu

Trang 16

Hình 1.1 Nguyên lý tích và l ắng bụi trong thiết bị lọc bụi tĩnh điện [2]

Hình 1.1 trình bày nguyên lý tích và lắng bụi trong thiết bị lọc bụi tĩnh điện Khí thải cần lọc bụi được thổi qua hệ thống hai điện cực: điện cực nối đất được

gọi là điện cực lắng vì bụi được lắng chủ yếu trên điện cực này, điện cực thứ hai

gọi là điện cực quầng sáng (điện cực phóng), điện cực này được cung cấp dòng điện một chiều có điện thế cao, do điện thế cao nên cường độ điện trường xung quanh có giá trị lớn và gây ra hiện tượng va đập ion mãnh liệt biểu hiện là nhìn

thấy một quầng sáng bao phủ xung quanh điện cực này Tại điện cực phóng, quầng sáng không lan rộng ra toàn bộ không gian giữa hai điện cực mà yếu đi và tắt dần theo phương tới điện cực lắng, điện trường giữa hai điện cực là điện trường không đều, các ion được tạo ra chủ yếu trong vùng quầng sáng [3]

Dưới tác dụng của lực điện trường các ion sẽ dịch chuyển dịch về phía điện

cực trái dấu của chúng, ion dương chuyển dịch về phía cực âm (cực quầng sáng), các ion âm dịch chuyền về phía cực dương (cực lắng) sự dịch chuyển dòng khí tạo

ra dòng điện thể hiện qua hình 1.2 Dòng điện này gọi là dòng điện quầng sáng, khi thổi khí thải có chứa bụi bẩn qua không gian giữa hai điện cực thì các ion sẽ bám dính lên bề mặt của các hạt bụi và các hạt bụi đã tích điện sẽ chuyển dịch tới các điện cực trái dấu với điện tích chúng tích được, khi tới các điện cực các hạt

bụi được lắng lại trên bề mặt điện cực Lượng bụi được lắng chủ yếu trên bề mặt các điện cực lắng Trên bề mặt các điện cực quầng sáng cũng có lắng bụi lại nhưng lượng bụi này nhỏ không đáng kể so với lượng bụi lắng trên điện cực lắng Tùy theo mức độ tích tụ bụi trên bề mặt điện cực, hệ thống rung lắc sẽ rung lắc định kỳ các điện cực hoặc xối nước rửa điện cực và lấy bụi [3]

Trang 17

e e

-

-Ionization boundary E/N = 120 Td

Plasma boundary E/N = 80 Td

Ngoài ra, trên thực tế thiết bị lọc bụi tĩnh điện khi hoạt động thường xảy ra quá trình phóng điện khi điện trường vượt ngưỡng nhất định, hoặc sự tích tụ quá

lớn các hạt bụi bám trên điện cực lắng Ngưỡng giới hạn này của thiết bị lọc bụi tĩnh điện phụ thuộc rất nhiều yếu tố bên ngoài mà các yếu tố đó cũng liên quan

trực tiếp đến hiệu suất của thiết bị lọc bụi tĩnh điện

1.5 L ựa chọn loại điện áp các cực trong lọc bụi tĩnh điện

Để tạo thành hiện tượng phóng ion hay được gọi là sự “tạo thành corona” có

thể sử dụng:

- Corona âm

- Corona dương

Tuy nhiên, đối với các thiết bị lọc bụi tĩnh điện trong công nghiệp thường sử

dụng corona âm vì các lý do:

- Hầu hết là các khí trong công nghiệp mang electron âm trong tự nhiên, như

là các khí như SO2, CO2, O2, H2O, … chúng thường tạo nên thành phần khí thải (khói lò) công nghiệp có khả năng hấp thụ (hút) electron tự do tốt nhất

- Quầng sáng âm: các ion âm có độ linh động hơn so với độ linh động của các ion dương

(Độ linh động của ion là tốc độ mà ion có được trong điện trường khi cường

độ bằng một đơn vị nghĩa là /

/

cm s

Trang 18

- Ngưỡng phát tia lửa điện trong corona âm cao hơn corona dương, do vậy đạt điện trường cao hơn

- Điện áp phát sinh corona khi mũi nhọn có cực tính dương cao hơn khi mũi

nhọn có cực tính âm

Điện áp DC thay cho AC trong thiết bị lọc bụi tĩnh điện, vì điện áp AC làm cho các phân tử tích điện bị dao động, ngược lại điện áp DC sinh một lực cố định

về phía cực nối đất

1.6 Các y ếu tố ảnh hưởng đến hiệu suất của thiết bị lọc bụi tĩnh điện

Những yếu tố ảnh hưởng đến chất lượng đầu ra của thiết bị lọc bụi tĩnh điện [4]:

- Điện áp và dòng điện cấp cho hệ thống lọc bụi tĩnh điện;

- Tốc độ dòng khói đi qua các trường của hệ thống lọc bụi tĩnh điện;

- Nồng độ, kích thước tro, bụi trong khói;

- Nhiệt độ khói vào hệ thống lọc bụi tĩnh điện;

- Độ ẩm của khói vào hệ thống lọc bụi tĩnh điện;

- Mức tro trong các phễu tro của hệ thống lọc bụi tĩnh điện

Các yếu tố ảnh hưởng này dẫn tới ngưỡng cường độ điện trường (hay điện áp

giữa các bản cực lọc bụi) gây ra hiện tượng phóng điện thay đổi và nhiệm vụ điều khiển đối với điện áp các cực lọc bụi tĩnh điện là duy trì điện áp này ở mức cao

nhất có thể mà không xảy ra phóng tia lửa điện trong buồng lọc bụi tĩnh điện [4]

1.7 H ệ thống lọc bụi tĩnh điện nhà máy nhiệt điện Hải Phòng

1.7.1 Mô t ả chung

Hệ thống lọc bụi tĩnh điện (ESP) có nhiệm vụ:

- Tách tro bay khỏi sản phẩm cháy để bảo vệ môi trường

- Tránh mài mòn cánh các quạt khói

- Giảm nhẹ điều kiện làm việc của hệ thống khử lưu huỳnh trong khói (FGD)

Trang 19

Hình 1.3 H ệ thống lọc bụi tĩnh điện nhà máy nhiệt điện Hải Phòng [4]

Hệ thống lọc bụi tĩnh điện sử dụng loại 2LZC312-4 hãng Luzhou do Trung

Quốc sản xuất [4] Mỗi tổ máy có 2 nhánh lọc bụi (Nhánh A, Nhánh B), có cấu trúc tương tự nhau Mỗi nhánh gồm 8 trường và được tổ hợp trong các khoang riêng rẽ Cụ thể như sau:

Nhánh A D11, D12, D13, D14

D21, D22, D23, D24

D51, D52, D53, D54 D61, D62, D63, D64

Tương tự ESP1

Tương tự ESP2

Nhánh B D31, D32, D33, D34

D41, D42, D43, D44

D71, D72, D73, D74 D81, D82, D83, D84

Tương tự ESP1

Tương tự ESP2

Theo chiều của dòng khói, 16 trường lọc bụi chia thành các nhóm trường sau:

Nhóm

trường 1 D11, D21, D31, D41 D51, D61, D71, D81 Tương tự ESP1

Tương tự ESP2

Nhánh

Tương tự ESP2

Nhóm

Tương tự ESP2

Nhóm

Tương tự ESP2

Trang 20

Mỗi nhánh được lắp sau bộ sấy không khí kiểu quay, sản phẩm cháy sau khi được tách tro, bụi được đưa tới đầu hút của quạt khói [4] Các cực phóng và cực

lắng đặt cách nhau và song song với nhau theo chiều đi của khói thải Cực phóng

nối với cực âm, có cấu trúc treo được cấu tạo là các khung có lắp các dây gai hoặc

trơn Cực lắng nối với cực dương, được làm dưới dạng tấm có cấu trúc kiểu treo đảm bảo khoảng cách giữa các tấm cực nằm trong phạm vi cho phép [4] Với mỗi

trường, các cực phóng và cực lắng được bố trí xen kẽ nhau

Tại đầu vào của mỗi bộ lọc bụi có tấm đục lỗ làm bằng thép để phân dòng khói vào các trường lọc bụi cho đều Trên mỗi trường có các hệ thống rung, hệ thống

gõ tương ứng số trường Cực phóng cách điện với vỏ bằng sứ cách điện, sứ cách điện có thiết bị gia nhiệt Dưới trường lọc bụi có các phễu tro sử dụng để gom tro bay tách ra từ khói thải Các phễu tro có bộ gia nhiệt bằng hơi và các vòi sục khí nóng để tránh tắc và giúp cho việc thải tro dễ dàng [4]

Khi tro bay đi qua các điện cực, các hạt tro được tích điện âm bị hút về phía

cực lắng, một số ít hạt bám vào cực phóng do nhiễm điện tích dương Tro bám trên các bản cực được các búa gõ định kỳ rơi xuống phễu tro và được hút về các Silô tro

1.7.2 Thông s ố kỹ thuật

4 Số trường lọc bụi Trường 16 (8 trường/nhánh)

6 Lưu lượng khói lớn nhất m³/h 2×743430

Trang 21

12 Tổng độ lọt gió ESP % ≤ 3

13 Tổn thất áp suất qua ESP Pa ≤ 200

15 Nồng độ bụi còn lại sau

1 Nồng đồ NOx mg/Nm3 < 680

2 Nồng độ SOx mg/Nm3 < 340

5 Nhiệt độ t0 Chỉ đo giá trị

6 Lưu lượng m3/h Chỉ đo giá trị

1.7.3 M ột số lỗi trường lọc bụi

Một số lỗi thường xảy ra ở trường lọc bụi và cách xử lý được liệt kê tại Bảng 1.5

Điện áp thứ cấp

thấp, điện áp

thứ cấp quá cao

1 Cách điện phần cao áp không tốt

2 Khoảng cách giữa cực dương và cực âm nhỏ

3 Có vật kim loại và phi kim

4 Hộp cách nhiệt hay nhiệt

độ nơi cách ly cực âm không

5 Cải tiến cáp và các điều

kiện cách ly đầu

Dòng điện thứ

cấp thay đổi

định kỳ

1 Tuột đĩa đỡ thiết bị rung

2 Phần thừa của dây điện đứt dao động trong khu vực khung đỡ

Trang 22

5 Điện áp đầu ra kết nối điện không tốt

Loại trừ hiện tượng lọt khí, thay đổi nhiệt độ đầu vào lọc

bụi, vệ sinh sứ cách điện

Trang 23

Chương 2 TỔNG QUAN VỀ HỌC MÁY

2.1 Gi ới thiệu về học máy

Những năm gần đây, Trí tuệ nhân tạo (AI - Artificial Intelligence) và học máy (Machine Learning) nổi lên như một bằng chứng của cuộc cách mạng công nghiệp 4.0 AI đang len lỏi vào mọi lĩnh vực trong đời sống và sản xuất Xe tự hành của Google và Tesla, hệ thống tự tag khuôn mặt trong ảnh của Facebook, trợ lý ảo Siri

của Apple, hệ thống gợi ý sản phẩm của Amazon, hệ thống gợi ý phim của Netflix, máy chơi cờ vây AlphaGo của Google DeepMind, …, chỉ là một vài trong vô vàn

những ứng dụng của AI/Machine Learning

Khi mà khả năng tính toán của các máy tính được nâng lên một tầm cao mới

và lượng dữ liệu khổng lồ được thu thập bởi các hãng công nghệ lớn, Học máy đã

tiến thêm một bước dài và một lĩnh vực mới được ra đời gọi là Học sâu (Deep Learning) Học sâu đã giúp máy tính thực thi những việc tưởng chừng như không

thể vào 10 năm trước: phân loại cả ngàn vật thể khác nhau trong các bức ảnh, tự

tạo chú thích cho ảnh, bắt chước giọng nói và chữ viết của con người, giao tiếp

với con người, hay thậm chí cả sáng tác văn hay âm nhạc

2.2 Phân lo ại các phương pháp học máy

Theo phương thức học, các thuật toán Machine Learning thường được chia làm 4 nhóm: Học có giám sát (Supervised learning), Học không giám sát (Unsupervised learning), Học bán giám sát (Semi-supervised learning) và học tăng cường (Reinforcement learning)

Trang 24

2.2.1 H ọc có giám sát (Supervised Learning)

Học có giám sát là thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước Cặp dữ liệu này còn được gọi là (data, label), tức (dữ liệu, nhãn) Supervised learning là nhóm phổ

biến nhất trong các thuật toán học máy

Một cách toán học, học có giám sát là khi chúng ra có một tập hợp biến đầu vào X ={x x1, 2, ,x N} và một tập hợp nhãn tương ứng Y ={y y1, 2, ,y N}, trong

đó x y i, i là các vector [5] Các cặp dữ liệu biết trước (x y i, i)∈ × được gọi là X Y

tập training data (dữ liệu huấn luyện) Từ tập training data này, chúng ta cần tạo

ra một hàm số ánh xạ mỗi phần tử từ tập X sang một phần tử (xấp xỉ) tương ứng

của tập Y :

( ); 1, 2, ,

Mục đích là xấp xỉ hàm số f thật tốt để khi có một dữ liệu x mới, chúng ta có

thể tính được nhãn tương ứng của nó y= f x( )

Thuật toán học có giám sát còn được tiếp tục chia nhỏ ra thành hai loại [5]:

a) Classification (Phân l ớp)

Một bài toán được gọi là classification nếu các label của input data được chia thành một số hữu hạn nhóm Ví dụ: Gmail xác định xem một email có phải là spam hay không; các hãng tín dụng xác định xem một khách hàng có khả năng thanh toán nợ hay không

b) Regression (H ồi quy)

Nếu label không được chia thành các nhóm mà là một giá trị thực cụ thể Ví

dụ: một căn nhà rộng x 2

có giá là bao nhiêu?

2.2.2 H ọc không giám sát (Unsupervised Learning)

Trong thuật toán này, chúng ta không biết được outcome hay label mà chỉ có

dữ liệu đầu vào Thuật toán học không giám sát sẽ dựa vào cấu trúc của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính toán

Một cách toán học, học không giám sát là khi chúng ta chỉ có dữ liệu vào X mà không biết nhãn Y tương ứng [5]

Trang 25

Những thuật toán loại này được gọi là học không giám sát vì không giống như Học giám sát, chúng ta không biết câu trả lời chính xác cho mỗi dữ liệu đầu vào [5] Giống như khi ta học, không có thầy cô giáo nào chỉ cho ta biết đó là chữ A hay chữ B Cụm không giám sát được đặt tên theo nghĩa này

Các bài toán học không giám sát được tiếp tục chia nhỏ thành hai loại [5]:

Một bài toán phân nhóm toàn bộ dữ liệu X thành các nhóm nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm Ví dụ: phân nhóm khách hàng dựa trên hành vi mua hàng Điều này cũng giống như việc ta đưa cho một đứa trẻ rất nhiều mảnh ghép với các hình thù và màu sắc khác nhau, ví dụ tam giác, vuông, tròn với màu xanh và đỏ, sau đó yêu cầu trẻ phân chúng thành từng nhóm Mặc dù không cho trẻ biết mảnh nào tương ứng với hình nào hoặc màu nào, nhiều khả năng chúng vẫn có thể phân loại các mảnh ghép theo màu hoặc hình dạng

b) Association

Là bài toán khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều dữ liệu cho trước Ví dụ: những khách hàng nam mua quần áo thường có xu hướng mua thêm đồng hồ hoặc thắt lưng; những khán giả xem phim Spider Man thường

có xu hướng xem thêm phim Bat Man, dựa vào đó tạo ra một hệ thống gợi ý khách hàng (Recommendation System), thúc đẩy nhu cầu mua sắm

2.2.3 H ọc bán giám sát (Semi-Supervised Learning)

Các bài toán khi chúng ta có một lượng lớn dữ liệu X nhưng chỉ một phần trong chúng được gán nhãn được gọi là Học bán giám sát Những bài toán thuộc nhóm này nằm giữa hai nhóm được nêu bên trên [5]

Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh hoặc văn bản được gán nhãn (ví dụ bức ảnh về người, động vật hoặc các văn bản khoa học, chính trị)

và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thu thập từ internet [5] Thực tế cho thấy rất nhiều các bài toán học máy thuộc vào nhóm này

vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được (ảnh y học chẳng hạn) Ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp từ internet

2.2.4 H ọc tăng cường (Reinforcement Learning)

Học tăng cường là các bài toán giúp cho một hệ thống tự động xác định hành

vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất (maximizing the performance)

Trang 26

Hiện tại, Học tăng cường chủ yếu được áp dụng vào Lý Thuyết Trò Chơi (Game Theory), các thuật toán cần xác định nước đi tiếp theo để đạt được điểm số cao nhất

2.2.5 H ọc sâu (Deep Learning)

Học sâu là một chi của ngành máy học dựa trên một tập hợp các thuật toán

để cố gắng mô hình dữ liệu trừu tượng hóa ở mức cao bằng cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi phi tuyến

Học sâu là một phần của một họ các phương pháp học máy rộng hơn dựa trên đại diện học của dữ liệu Một quan sát (ví dụ như, một hình ảnh) có thể được biểu diễn bằng nhiều cách như một vector của các giá trị cường độ cho mỗi điểm ảnh, hoặc một cách trừu tượng hơn như là một tập hợp các cạnh, các khu vực hình dạng cụ thể, vv Một vài đại diện làm khiến việc học các nhiệm vụ dễ dàng hơn (ví dụ, nhận dạng khuôn mặt hoặc biểu hiện cảm xúc trên khuôn mặt) từ các ví dụ Một trong những hứa hẹn của học sâu là thay thế các tính năng thủ công bằng các thuật toán hiệu quả đối với học không có giám sát hoặc nửa giám sát và tính năng phân cấp

Các nghiên cứu trong lĩnh vực này cố gắng thực hiện các đại diện tốt hơn và tạo ra các mô hình để tìm hiểu các đại diện này từ dữ liệu không dán nhãn quy mô lớn Một số đại diện được lấy cảm hứng bởi những tiến bộ trong khoa học thần kinh và được dựa trên các giải thích của mô hình xử lý và truyền thông thông tin trong một hệ thống thần kinh, chẳng hạn như mã hóa thần kinh để cố gắng để xác định các mối quan hệ giữa các kích thích khác nhau và các phản ứng liên quan đến thần kinh trong não

Nhiều kiến trúc học sâu khác nhau như mạng neuron sâu, mạng neuron tích chập sâu (CNN), mạng niềm tin sâu (DBN) và mạng hồi tiếp (RNN, LSTM, Transformers…) đã được áp dụng cho các lĩnh vực như thị giác máy tính, tự động nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên, nhận dạng âm thanh ngôn ngữ và tin sinh học, chúng đã được chứng minh là tạo ra các kết quả rất tốt đối với nhiều nhiệm vụ khác nhau

Trang 27

2.3 M ột số thuật toán học máy thông dụng

Trong thuật toán K-means clustering, chúng ta không biết nhãn (label) của từng điểm dữ liệu Mục đích là làm thế nào để phân dữ liệu thành các cụm (cluster) khác nhau sao cho dữ liệu trong cùng một cụm có tính chất giống nhau [6]

Ý tưởng đơn giản nhất về cluster (cụm) là tập hợp các điểm ở gần nhau trong một không gian nào đó (không gian này có thể có rất nhiều chiều trong trường hợp thông tin về một điểm dữ liệu là rất lớn) Hình bên dưới là một ví dụ về 3 cụm dữ

liệu (viết gọn là cluster)

Giả sử mỗi cluster có một điểm đại diện (center) màu vàng Và những điểm xung quanh mỗi center thuộc vào cùng nhóm với center đó Một cách đơn giản

nhất, xét một điểm bất kỳ, ta xét xem điểm đó gần với center nào nhất thì nó thuộc

về cùng nhóm với center đó Tới đây, chúng ta có một bài toán thú vị: Trên một

Trang 28

2.3.2 KNN (K-nearest neighbor)

K-nearest neighbor là một trong những thuật toán học giám sát đơn giản nhất (mà hiệu quả trong một vài trường hợp) trong Machine Learning Khi training, thuật toán này không học một điều gì từ dữ liệu training (đây cũng là lý do thuật toán này được xếp vào loại lazy learning) [7], mọi tính toán được thực hiện khi nó

cần dự đoán kết quả của dữ liệu mới K-nearest neighbor có thể áp dụng được vào

cả hai loại của bài toán học giám sát là Phân lớp (Classification) và Hồi quy (Regression) [7] KNN còn được gọi là một thuật toán Instance-based hay Memory-based learning

Với KNN, trong bài toán Phân lớp, label của một điểm dữ liệu mới (hay kết quả của câu hỏi trong bài thi) được suy ra trực tiếp từ K điểm dữ liệu gần nhất trong training set Label của một test data có thể được quyết định bằng major voting (bầu chọn theo số phiếu) giữa các điểm gần nhất, hoặc nó có thể được suy

ra bằng cách đánh trọng số khác nhau cho mỗi trong các điểm gần nhất đó rồi suy

Trang 29

Ví dụ trên đây là bài toán Classification với 3 classes: Đỏ, Lam, Lục Mỗi điểm dữ liệu mới (test data point) sẽ được gán label theo màu của điểm mà nó thuộc về Trong Hình 2.3, có một vài vùng nhỏ xem lẫn vào các vùng lớn hơn khác màu Ví dụ có một điểm màu Lục ở gần góc 11 giờ nằm giữa hai vùng lớn với nhiều dữ liệu màu Đỏ và Lam Điểm này rất có thể là nhiễu Dẫn đến nếu dữ liệu test rơi vào vùng này sẽ có nhiều khả năng cho kết quả không chính xác

2.3.3 Cây quy ết định (Decision Tree)

Decision tree là một mô hình học giám sát, có thể được áp dụng vào cả hai bài toán Classification (Phân lớp) và Regression (Hồi quy) Việc xây dựng một Decision Tree (DT) trên dữ liệu huấn luyện cho trước là việc đi xác định các câu

hỏi và thứ tự của chúng Một điểm đáng lưu ý của DT là nó có thể làm việc với các đặc trưng (trong các tài liệu về DT, các đặc trưng thường được gọi là thuộc

tính – attribute) d ạng categorical, thường là rời rạc và không có thứ tự Ví dụ: mưa,

nắng hay xanh, đỏ, DT cũng làm việc với dữ liệu có vector đặc trưng bao gồm cả thuộc tính dạng categorical và liên tục (numeric) Một điểm đáng lưu ý nữa là DT

ít yêu cầu việc chuẩn hoá dữ liệu

Phần nghiên cứu chuyên sâu về thuật toán Cây quyết định sẽ được trình bày ở Chương 3

Trang 31

Chương 3 THU ẬT TOÁN CÂY QUYẾT ĐỊNH VÀ RỪNG NGẪU NHIÊN

3.1 Decision Tree (Cây quy ết định)

Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary), Định danh (Nominal),

Thứ tự (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có

kiểu dữ liệu là Binary hoặc Ordinal [9]

Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes)

của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các dữ liệu chưa biết

Việc quan sát, suy nghĩ và ra các quyết định của con người thường được bắt đầu từ các câu hỏi Machine Learning cũng có một mô hình ra quyết định dựa trên các câu hỏi Mô hình này có tên là cây quyết định (Decision Tree)

Trong Decision Tree, các ô màu xám, lục, đỏ trên Hình 3.1b được gọi là

các node Các node th ể hiện đầu ra (màu lục và đỏ) được gọi là node lá (leaf

một leaf node hoặc một non-leaf node khác Các child node có cùng bố mẹ được

gọi là sibling node Nếu tất cả các non-leaf node chỉ có hai child node, ta nói rằng

đó là một binary decision tree (cây quyết định nhị phân) Các câu hỏi trong binary

mà một leaf node có nhiều child node cũng có thể được đưa về dạng một binary

Trang 32

decision tree Điều này có thể đạt được vì hầu hết các câu hỏi đều có thể được đưa

về dạng câu hỏi đúng sai

Ví dụ, ta có thể áp dụng đối với hệ thống lọc bụi như cách xác định giá trị điện

áp nằm ngoài ngưỡng cho phép hay chưa dựa trên nhiều câu hỏi đúng sai dạng: giá trị điện áp lớn hơn xx không? Giá trị điện áp nhỏ hơn xx không? (Đây chính

là thuật toán tìm kiếm nhị phân – binary search)

Quay trở lại với nhiệm vụ chính của việc xây dựng một Decision Tree: các câu

hỏi nên được xây dựng như thế nào, và thứ tự của chúng ra sao Các câu hỏi này thường được áp dụng lên từng thuộc tính, hoặc một tổ hợp tuyến tính của các thuộc tính Cách thứ nhất, áp dụng lên từng thuộc tính, được sử dụng nhiều hơn vì tính

đơn giản của nó Với các thuộc tính dạng categorical, câu hỏi sẽ là Nó rơi vào

category nào? hoặc Nó có rơi vào category nào đó không? với trường hợp nhị phân Với các thuộc tính dạng liên tục, câu hỏi có thể là Nó nằm vào khoảng giá

trị nào? hoặc Nó có lớn hơn một ngưỡng nào đó không?

Chúng ta sẽ làm quen với một thuật toán xây dựng Decision Tree ra đời từ rất

sớm và rất phổ biến: Iterative Dichotomiser 3 (ID3)

Iterative Dichotomiser 3 (ID3) là một thuật toán Decision Tree được áp dụng cho các bài toán Classification mà tất cả các thuộc tính đều ở dạng categorical

3.1.1 Iterative Dichotomiser 3 (ID3)

Iterative Dichotomiser 3 (ID3) là một thuật toán Decision Tree được áp dụng cho các bài toán Classification mà tất cả các thuộc tính đều ở dạng categorical [9]

a) Ý tưởng

Trong ID3, chúng ta cần xác định thứ tự của thuộc tính cần được xem xét tại

mỗi bước Với các bài toán có nhiều thuộc tính và mỗi thuộc tính có nhiều giá trị khác nhau, việc tìm được nghiệm tối ưu thường là không khả thi Thay vào đó,

một phương pháp đơn giản thường được sử dụng là tại mỗi bước, một thuộc tính tốt

nhất sẽ được chọn ra dựa trên một tiêu chuẩn nào đó (chúng ta sẽ bàn sớm) Với

mỗi thuộc tính được chọn, ta chia dữ liệu vào các child node tương ứng với các giá trị của thuộc tính đó rồi tiếp tục áp dụng phương pháp này cho mỗi child node

Việc chọn ra thuộc tính tốt nhất ở mỗi bước như thế này được gọi là cách

chọn greedy (tham lam) Cách chọn này có thể không phải là tối ưu, nhưng trực giác cho chúng ta thấy rằng cách làm này sẽ gần với cách làm tối ưu Ngoài ra, cách làm này khiến cho bài toán cần giải quyết trở nên đơn giản hơn

Trang 33

Sau mỗi câu hỏi, dữ liệu được phân chia vào từng child node tương ứng với các câu trả lời cho câu hỏi đó Câu hỏi ở đây chính là một thuộc tính, câu trả lời chính là giá trị của thuộc tính đó Để đánh giá chất lượng của một cách phân chia, chúng ta cần đi tìm một phép đo

Trước hết, thế nào là một phép phân chia tốt? Bằng trực giác, một phép phân chia là tốt nhất nếu dữ liệu trong mỗi child node hoàn toàn thuộc vào một class–khi đó child node này có thể được coi là một leaf node, tức ta không cần phân chia thêm nữa Nếu dữ liệu trong các child node vẫn lẫn vào nhau theo tỉ lệ lớn, ta coi

rằng phép phân chia đó chưa thực sự tốt Từ nhận xét này, ta cần có một hàm số

đo độ tinh khiết (purity), hoặc độ vẩn đục (impurity) của một phép phân chia Hàm

số này sẽ cho giá trị thấp nhất nếu dữ liệu trong mỗi child node nằm trong cùng

một class (tinh khiết nhất), và cho giá trị cao nếu mỗi child node có chứa dữ liệu thuộc nhiều class khác nhau

Một hàm số có các đặc điểm này và được dùng nhiều trong lý thuyết thông tin

là hàm entropy

Cho một phân phối xác suất của một biến rời rạc x có thể nhận n giá trị

khác nhau x x1, 2, ,x n Giả sử rằng xác suất để x nhận các giá trị này là

Trong đó log là logarit tự nhiên (Một số tài liệu dùng logarit cơ số 2, nhưng giá

Xét một ví dụ với n=2 được cho trên Hình 3.3 Trong trường hợp p là tinh

khiết nhất, tức một trong hai giá trị p i bằng 1, giá trị kia bằng 0, entropy của phân phối này là ( ) 0H p = Khi p là vẩn đục nhất, tức cả hai giá trị p i =0.5, hàm entropy đạt giá trị cao nhất

Trang 34

Hình 3.2 Đồ thị của hàm entropy với n = 2 [9]

Tổng quát lên với n>2, hàm entropy đạt giá trị nhỏ nhất nếu có một giá trị 1

i

p = , đạt giá trị lớn nhất nếu tất cả cácp i bằng nhau (việc này có thể được chứng minh bằng Phương pháp nhân tử Lagrange)

Những tính chất này của hàm entropy khiến nó được sử dụng trong việc đo độ

vẩn đục của một phép phân chia của ID3 Vì lý do này, ID3 còn được gọi

là entropy-based decision tree

3.1.2 Thu ật toán ID3

Trong ID3, tổng có trọng số của entropy tại các leaf-node sau khi xây dựng

Decision Tree được coi là hàm mất mát của Decision Tree đó Các trọng số ở đây

tỉ lệ với số điểm dữ liệu được phân vào mỗi node Công việc của ID3 là tìm các

cách phân chia hợp lý (thứ tự chọn thuộc tính hợp lý) sao cho hàm mất mát cuối cùng đạt giá trị càng nhỏ càng tốt Như đã đề cập, việc này đạt được bằng cách chọn ra thuộc tính sao cho nếu dùng thuộc tính đó để phân chia, entropy tại mỗi bước giảm đi một lượng lớn nhất Bài toán xây dựng một Decision Tree bằng ID3

có thể chia thành các bài toán nhỏ, trong mỗi bài toán, ta chỉ cần chọn ra thuộc tính giúp cho việc phân chia đạt kết quả tốt nhất Mỗi bài toán nhỏ này tương ứng

với việc phân chia dữ liệu trong một non-leaf node Chúng ta sẽ xây dựng phương

pháp tính toán dựa trên mỗi node này

Xét một bài toán với C class khác nhau Giả sử ta đang làm việc với một

rằng thêm trong số N điểm dữ liệu này, N C , c=1,2,…C điểm thuộc vào class C

Trang 35

Xác suất để mỗi điểm dữ liệu rơi vào một class c được xấp xỉ bằng N C

Tiếp theo, giả sử thuộc tính được chọn là x Dựa trên x các điểm dữ liệu trong

S được phân ra thành K child node , , , S S1 2 S K với số điểm trong mỗi child node

là tổng có trọng số entroy của mỗi child node–được tính tương tự như công thức

PT 3.2 Việc lấy trọng số này là quan trọng vì các node thường có số lượng điểm

khác nhau

Tiếp theo, ta định nghĩa information gain dựa trên thuộc tính x:

( , ) ( ) ( , )

Trong ID3, tại mỗi node, thuộc tính được chọn được xác định dựa trên:

arg max ( , ) arg min ( , )

x x

tức thuộc tính khiến cho information gain đạt giá trị lớn nhất

Câu hỏi tiếp theo là khi nào thì dừng cách phân chia? Câu trả lời sẽ được đề cập sau mục ví dụ dưới đây

trị của bốn cột còn lại

Trang 36

B ảng 3.1 Ví dụ về dữ liệu huấn luyện cây quyết định

Như vậy, cây quyết định cho bài toán này sẽ có dạng như trong Hình 3.3

Trang 37

nhiều leaf node chỉ có một vài điểm dữ liệu Như vậy, nhiều khả năng overfitting

sẽ xảy ra

Để tránh overfitting, một trong số các phương pháp sau có thể được sử dụng

Tại một node, nếu một trong số các điều kiện sau đây xảy ra, ta không tiếp tục

phân chia node đó và coi nó là một leaf node [9]:

- Nếu node đó có entropy bằng 0, tức mọi điểm trong node đều thuộc một class

- Nếu node đó có số phần tử nhỏ hơn một ngưỡng nào đó Trong trường hợp này, ta chấp nhận có một số điểm bị phân lớp sai để tránh overfitting Class cho leaf node này có thể được xác định dựa trên class chiếm đa số trong node

- Nếu khoảng cách từ node đó đến root node đạt tới một giá trị nào đó Việc

hạn chế chiều sâu của tree này làm giảm độ phức tạp của tree và phần nào giúp

tránh overfitting

- Nếu việc phân chia node đó không làm giảm entropy quá nhiều

(information gain nhỏ hơn một ngưỡng nào đó)

Ngoài các phương pháp trên, một phương pháp phổ biến khác được sử dụng

để tránh overfitting là pruning, tạm dịch là cắt tỉa

3.1.5 Pruning

Pruning là một kỹ thuật regularization để tránh overfitting cho Decision Tree nói chung Trong pruning, một decision tree sẽ được xây dựng tới khi mọi điểm trong training set đều được phân lớp đúng Sau đó, các leaf node có chung một

class tương ứng với class chiếm đa số trong số mọi điểm được phân vào node đó

Việc cắt tỉa cây quyết định này có thể được xác định dựa vào các cách sau [9]

Cách 1:

Dựa vào một validation set Trước tiên, training set được tách ra thành một training set nhỏ hơn và một validation set Decision tree được xây dựng trên training set cho tới khi mọi điểm trong training set được phân lớp đúng Sau đó, đi ngược từ các leaf node, cắt tỉa các sibling node của nó và giữ lại node bố mẹ nếu

độ chính xác trên validation set được cải thiện Khi nào độ chính xác trên validation set không được cải thiện nữa, quá trình pruning dừng lại Phương pháp này còn

được gọi là reduced error pruning

Trang 38

Cách 2:

Dựa vào toàn bộ data set Trong phương pháp này, ta không tách tập training ban đầu ra mà sử dụng toàn bộ dữ liệu trong tập này cho việc xây dựng decision tree Một ví dụ cho việc này là cộng thêm một đại lượng regularization vào hàm

mất mát Đại lượng regularization sẽ lớn nếu số leaf node là lớn Cụ thể, giả sử decision tree cuối cùng có K leaf node, tập hợp các điểm huấn luyện rơi vào mỗi

leaf node lần lượt là , , ,S S1 2 S [8] K Khi đó, regularized loss của ID3 có thể được tính tương tự như PT 3.10:

1

( )

k k k

nhỏ (entropy tại mỗi node là thấp) và regularization - số hạng thứ hai - cũng nhỏ (số leaf node là ít) Vì hàm mất mát trong PT 3.10 là một hàm rời rạc, rất khó để

trực tiếp tối ưu hàm này Việc tối ưu có thể được thực hiện thông qua pruning như sau Trước hết, xây dựng một decision tree mà mọi điểm trong tập huấn luyện đều được phân loại đúng (toàn bộ các entopy của các node bằng 0) Lúc này data loss

bằng 0 nhưng regularization có thể lớn, khiến cho L lớn Sau đó, ta có thể tỉa dần các leaf node sao cho L gi ảm Việc cắt tỉa được lặp lại đến khi L không thể giảm

được nữa

Random forest là thuật toán Học có giám sát (Supervised learning), có thể giải quyết cả bài toán Hồi quy (Regression) và Phân lớp (Classification)

Random là ngẫu nhiên, Forest là rừng, nên ở thuật toán Random Forest chúng

ta sẽ xây dựng nhiều Cây bằng thuật toán Decision Tree, tuy nhiên mỗi Cây quyết định sẽ khác nhau (có yếu tố random) Sau đó kết quả dự đoán được tổng hợp từ các cây quyết định, càng nhiều Cây trong Rừng, độ chính xác sẽ cao hơn

Thuật toán rừng ngẫu nhiên là một phương pháp học cộng đồng (Ensemble Learning)

Trang 39

3.2.1 Gi ới thiệu về phương pháp Ensemble Learning (Học cộng đồng)

Ensemble Learning có nghĩa là kết hợp nhiều mô hình [11]

Ví dụ: Giả sử một người đang bối rối trong việc chọn khóa học nào đó, không

biết có nên tham gia nó không Do đó người này chọn một giải pháp đó là hỏi bạn

bè của bạn để gợi ý Nhưng, liệu gợi ý của anh ấy / cô ấy có đủ để người này lựa

chọn một khóa học phù hợp? Vì vậy, người này sẽ hỏi nhiều người, như giáo viên, cha mẹ, bạn bè, người thân hoặc bất kỳ ai khác, và kết quả là người này có thêm nhiều đề xuất

Tương tự, Ensemble Learning kết hợp nhiều mô hình, training các mô hình này qua các dữ liệu Và sau đó sử dụng dự đoán của tất cả các mô hình để đưa ra

kết quả cuối cùng

Ensemble Learning không phụ thuộc vào một mô hình duy nhất Tính năng này của Ensemble Learning làm cho nó chính xác hơn Bởi vì kết quả của nó không

phụ thuộc vào một mô hình [5]

Ensemble Learning có ba kỹ thuật: Bagging (hay Bootstrap Aggregation), Boosting, Stacking

- Các mô hình 1, 2, 3 và 4 đang sử dụng dữ liệu từ dữ liệu đào tạo

- Mô hình 1 có thể là SVM, Mô hình 2 có thể là thuật toán Naive Bayes, Mô hình 3 có thể là Cây quyết định, và Mô hình 4 có thể là KNN

- Một mô hình cơ bản có thể yếu, nhưng khi chúng ta kết hợp tất cả những

mô hình đơn độc, nó sẽ trở thành một mô hình mới với độ chính xác và ít lỗi hơn

Training Data

Dataset “D” là tập dữ liệu ban đầu

- Trong kỹ thuật Bagging, ta chọn ngẫu nhiên một số data từ 𝐷𝐷 và tạo Boostrap

dataset D1

- Theo cách tương tự, ta tạo mới dataset D1,D2,…,Dn

- Chúng ta có thể tạo một Bootstrap mới với lựa chọn và thay thế ngẫu nhiên

Trang 40

Dataset “D”

Model 1

Final model

“Thay thế" ở đây nghĩa là một số bản ghi có thể có trong nhiều hơn một Dataset Nó có thể ở trong D1 và D2

Vì vậy, theo Hình 3.2 ta có nhiều bộ dữ liệu D2,D3, ,Dn Và nó được gọi

Data Set D2 Row 1 Row 3 Row 6 Row 5 Row 3 Tóm lại, chúng ta train các mô hình khác nhau với các bộ dữ liệu khác nhau,

và không cùng cùng một tập dữ liệu sau đó ta kết hợp các mô hình này để tạo ra

một mô hình mới

Tiêu đề	Thiết kế hệ thống chẩn đoán lỗi và cảnh báo tự động để nâng cao chất lượng vận hành hệ thống lọc bụi tĩnh điện
Tác giả	Nguyễn Văn Tới
Người hướng dẫn	TS. Phạm Quang Đăng
Trường học	Trường Đại học Bách Khoa Hà Nội
Chuyên ngành	Kỹ thuật Điều khiển và Tự động hóa
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	85
Dung lượng	1,99 MB