1. Trang chủ
  2. » Giáo Dục - Đào Tạo

thiết lập giao thức nhận dạng và phân loại lỗi trong hệ thống phức tạp

79 32 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 4,22 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRẦN NGỌC HOÀNGDANH MỤC CÁC HÌNH VÀ BIỂU ĐỒ Hình I.2 Sơ đồ cấu trúc tháp điều khiển CIM 5 Hình I.3 Sơ đồ cấu trúc các thành phần điều khiển 7 Hình I.5 Mô hình mô tả các bước của quá trì

Trang 1

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG

THIẾT LẬP GIAO THỨC NHẬN DẠNG VÀ PHÂN LOẠI LỖI

TRONG HỆ THỐNG PHỨC TẠP

Mã số: T2019-06-131

Chủ nhiệm đề tài: TS Trần Ngọc Hoàng

Đà Nẵng, Tháng 6/2020

Trang 2

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG

THIẾT LẬP GIAO THỨC NHẬN DẠNG VÀ PHÂN LOẠI LỖI

TRONG HỆ THỐNG PHỨC TẠP

Mã số: T2019-06-131

Trang 3

1 Trần Ngọc Hoàng

DANH SÁCH ĐƠN VỊ PHỐI HỢP CHÍNH

1 Trường Đại học Sư phạm Kỹ thuật - Đại học Đà Nẵng

Trang 4

THỰC HIỆN: TS TRẦN NGỌC HOÀNG

DANH MỤC CÁC BẢNG

Bảng 4.5 Các biến sử dụng trong mô hình chuẩn đoán 45 Bảng 4.6 Các giá trị rời rạc hoá của các biến 48

Trang 5

THỰC HIỆN: TS TRẦN NGỌC HOÀNG

DANH MỤC CÁC HÌNH VÀ BIỂU ĐỒ

Hình I.2 Sơ đồ cấu trúc tháp điều khiển CIM 5 Hình I.3 Sơ đồ cấu trúc các thành phần điều khiển 7

Hình I.5 Mô hình mô tả các bước của quá trình quan sát và

theo dõi sức khoẻ thiết bị sản xuất 11 Hình II.1 Phân loại các phương pháp phân loại biến 20

Hình III.2 Ví dụ về cấu trúc mạng Bayes tăng lên 29

Hình III.4 Sơ đồ khối của mô hình chuẩn đoán 35 Hình IV.1 Sơ đồ qui trình sản xuất hơi công nghiệp TEP 40 Hình IV.2 Quy trình phương pháp chuẩn đoán lỗi bằng mạng

Hình IV.3 Mô hình được xây dừng và các mối quan hệ của các biến được xác nhận 47 Hình IV.4 Mô hình chuẩn đoán mạng Bayesian trên Matlab 47 Hình IV.5 Dữ liệu của các biến và lỗi F6 biến thiên theo thời gian 49 Hình IV.6 Xác suất có điều kiện của các biến điều khiển 50

Trang 6

FMEA Failure Mode and Effects Analysis

SPC Statistical Process Control

Trang 7

0

Table of Contents

PHẦN MỞ ĐẦU 2

CHƯƠNG I TỔNG QUAN NGHIÊN CỨU 3

1.1 Hệ thống sản xuất tự động (Automated Manufacturing System – AMS) 3

1.1.1 Cấu trúc vật lý 3

1.1.2 Hệ thống điều khiển 4

1.2 Giám sát sản xuất 6

1.2.1 Bảo trì công nghiệp 6

1.2.2 Quá trình điều khiển 7

1.3 Hệ thống thông tin 9

1.4 Vấn đề của đề tài 11

CHƯƠNG II CƠ SỞ LÝ THUYẾT PHƯƠNG PHÁP NGHIÊN CỨU 14

2.1 Các phương pháp xử lý biến dữ liệu 15

2.1.1 Phương pháp Lọc dữ liệu - Filter 15

2.1.2 Phương pháp Tương quan dữ liệu - Correlation 15

2.1.3 Phương pháp Phân loại - Classification 17

2.1.4 Phương pháp Hồi qui - Regression 17

2.1.5 Phương pháp Xếp hạng và lựa chọn biến 18

2.1.6 Phương pháp Rừng ngẫu nhiên 19

2.2 Các phương pháp phân loại dữ liệu 19

2.2.1 Phương pháp phân loại giám sát 20

2.2.2 Phương pháp phân loại không giám sát 20

2.3 Các phương pháp mô hình hoá 21

2.3.1 Xác định các tiêu chuẩn 22

2.3.2 Phương pháp K hàng xóm gần nhất 23

2.3.3 Phương pháp Mạng Nơron 23

2.3.4 Phương pháp Cây quyết định 24

2.3.5 Phương pháp Mạng Bayes 25

CHƯƠNG III QUÁ TRÌNH THIẾT LẬP BAYESIAN ĐỂ CHUẨN ĐOÁN LỖI 26

3.1 Tổng quan về mạng Bayes (hoặc Bayesian) 26

3.1.1 Định nghĩa và tính chất 26

3.1.2 Học hỏi và Suy luận 30

3.2 Mô hình hoá 33

3.3 Phần mềm ứng dụng 36

CHƯƠNG IV ỨNG DỤNG VÀ KẾT QUẢ 38

4.1 Giới thiệu trường hợp ứng dụng 38

4.1.1 Quy trình TEP 38

4.1.2 Đề xuất mô hình chuẩn đoán trên TEP theo Mạng Bayesian phân cấp 44

4.2 Kết quả chuẩn đoán lỗi 48

KẾT LUẬN VÀ KIẾN NGHỊ 52

Trang 8

1

Trang 9

2

PHẦN MỞ ĐẦU

Ngày nay, quá trình công nghiệp hoá đẩy các doanh nghiệp vào một sự cạnh tranh khốc liệt Trong bối cảnh đó, sự thành công phụ thuộc vào chất lượng sản xuất lẫn chất lượng sản phẩm Do đó, các nhà sản xuất phải tối đa hoá hiệu suất và chất lượng sản xuất thông qua ba tiêu chí: vòng đời sản phẩm, giá và hiệu quả Để đạt được những điều đó, họ thường tập trung vào việc tăng khả năng sẵn sàng của thiết

bị sản xuất thông qua một kế hoạch bảo trì bảo dưỡng chặt chẽ và hiệu quả

Nghiên cứu này nhằm phát triển một mô hình chuẩn đoán và phân loại lỗi để

hỗ trợ con người trong quá trình thiết lập một quá trình bảo dưỡng thiết bị và công

cụ sản xuất Phương pháp mô hình hoá được chọn lựa dựa trên cơ sở phân tích và học thuật các phương pháp phân loại và học dữ liệu từ cổ điển đến hiện đại Theo

đó các phương pháp học mạng Bayes được giới thiệu và thực hiện theo các bước mô hình hoá với các thuật toán chính của nó Trên nền dữ liệu mô phỏng từ một quy trình sản xuất dược phẩm, mô hình chuẩn đoán lỗi thể hiện kết quả chuẩn đoán có giá trị và được so sánh với kết quả thực nghiệm Cuối cùng, một số bàn luận và định hướng phát triển sẽ được đưa ra để phát triển đề tài

Trang 10

3

CHƯƠNG I TỔNG QUAN NGHIÊN CỨU 1.1 Hệ thống sản xuất tự động (Automated Manufacturing System – AMS)

1.1.1 Cấu trúc vật lý

Hệ thống sản xuất tập hợp tất cả các yếu tố (vật liệu, con người, phần cứng

và phần mềm) tham gia vào quá trình sản xuất Một quy trình điều chỉnh các đặc tính vật lý của sản phẩm thông qua các hoạt động đúc, gia công, rèn và lắp ráp trong lĩnh vực sản xuất hoặc như quá trình khử, tách, tinh chế trong lĩnh vực hóa học hoặc

xử lý nước Hệ thống sản xuất được tạo thành từ hệ thống điều khiển và trạm sản xuất (xem hình I.1)

Figure I.1 Sơ đồ AMS tổng quát [1]

Theo đó, các thành phần của một hệ thống sản xuất được mô tả như dưới đây:

Phần vận hành : bộ thiết bị biến đổi sản phẩm Cũng được gọi là trạm sản

xuất (hoặc trạm làm việc), chúng tạo thành yếu tố cơ bản để thực hiện các hoạt động sản xuất Theo tiêu chuẩn [35], các yếu tố này là máy móc (robot, máy tiện, máy phay, ), đơn vị vận chuyển, v.v hoặc thậm chí là người vận hành Trong thực tế, các trạm sản xuất này có thể hoàn toàn tự động, hoàn toàn thủ công hoặc thậm chí

là kết hợp Hiệu suất của trạm phụ thuộc vào những yếu tố đó

Dòng sản phẩm đại diện cho tất cả các thực thể trải qua quá trình chuyển đổi

trong hệ thống sản xuất (nguyên liệu thô, chế biến, lắp ráp, sản phẩm hoàn thiện)

Trang 11

4

Trong quá trình này, một sản phẩm rời khỏi một trạm sản xuất cuối cùng trở thành một sản phẩm bước vào trạm làm việc tiếp theo Trong suốt các giai đoạn sản xuất, sản phẩm có thể được chuyển đến các trạm đo lường để kiểm tra, (với độ trễ) xác định rằng tất cả hoặc một phần của các biến đổi đã được thực hiện thành công hay không Do đó, trạm này giúp kiểm soát tốt hơn năng suất tổng thể của hệ thống sản xuất bằng cách chẩn đoán sự phù hợp của chúng và do đó chất lượng của chúng trong suốt chu kỳ chuyển đổi sản phẩm

Hệ thống điều khiển của một thiết bị : vai trò của nó là làm cho bộ phận hoạt

động tuân theo các quy luật vận hành được định trước (luật kiểm soát) để đáp ứng các yêu cầu của cấp cao hơn thường được gọi là Lệnh kiểm soát tương ứng với sản xuất (OF) Chúng đi kèm với các thông số cụ thể như loại chuyển đổi sẽ được thực hiện, công thức, thời gian xử lý, số lượng cần chuyển đổi, v.v [34] Ngoài hoạt động chính của biến đổi, hệ thống điều khiển của một thiết bị có thể tích hợp các chức năng khác như theo dõi quá trình biến đổi theo mức độ tiến trình (khả năng quan sát) theo ý của mình để cho phép, một “posteriori”, chẩn đoán nguyên nhân, điều chỉnh cài đặt máy hoặc thậm chí đối thoại với người vận hành hoặc với hệ thống giám sát Khi một số phần của thiết bị (máy móc) góp phần chuyển đổi cùng một sản phẩm, cần phải mở rộng khái niệm về hệ thống điều khiển thiết bị để tối thiểu hóa đồng bộ hóa tất cả các trạm sản xuất để đáp ứng mục tiêu sản xuất chung

1.1.2 Hệ thống điều khiển

Một số kiến trúc thí điểm đã được đề xuất trong [36] theo các tiêu chí khác nhau (độ phức tạp, tính biến đổi, kết nối, v.v.) Những kiến trúc quản lý này được phân biệt theo tính chất tập trung, phân cấp, phân tán, v.v

Tuy nhiên, điểm chuẩn trong lĩnh vực của chúng tôi vẫn là cấu trúc lái phân cấp được chia thành sáu cấp độ Nó được gọi tên là “Computer Integrated Manufacturing” (CIM) hoặc "Sản xuất tích hợp máy tính" (xem hình I.2)

Trang 12

5

Figure I.2 Sơ đồ cấu trúc tháp điều khiển CIM

Mô hình CIM hình kim tự tháp này xác định phân tích mô đun và phân cấp của Hệ thống sản xuất tự động thành năm cấp độ:

Cấp 5: Chiến lược (Quản lý chung của công ty), Công ty sản xuất, lập kế hoạch (Phân bổ tải cho nhà máy);

Cấp độ 4: Sản xuất nhà máy, lập kế hoạch (Quản lý vận hành nhà máy), Lập

Trang 13

6

Trong những năm gần đây, các cấp độ thí điểm một quy trình công nghiệp này đã được tổng hợp theo 3 cấp độ, đặc biệt từ quan điểm của các hệ thống thông tin hỗ trợ các hoạt động thí điểm Họ giới thiệu các khái niệm về ERP (Lập kế hoạch nguồn lực doanh nghiệp, bao gồm các cấp độ CIM 4 và 5), MES (Hệ thống thực thi sản xuất bao gồm cấp độ 3) và cuối cùng là kiểm soát công nghiệp (cấp độ 2, 1 và 0); ERP và MES dựa vào các mức thời gian khác nhau, dựa trên cơ sở dữ liệu được định hướng tương ứng với dữ liệu của công ty để hỗ trợ toàn bộ quá trình quản lý đơn đặt hàng của khách hàng và dữ liệu cần thiết để thí điểm và giám sát của sản xuất, đại diện cho cuộc sống của quá trình sản xuất

Công việc nghiên cứu của chúng tôi được định vị ở cấp 2 Phần sau đây chi tiết đặc điểm của nó

1.2 Giám sát sản xuất

Trong bối cảnh cạnh tranh của nền công nghiệp hiện đại hoá hiên tại, các khái niệm chính về giám sát sản xuất đã nhanh chóng được đề xuất để tối đa hóa sự sẵn

có của thiết bị và liên tục cải thiện chất lượng sản phẩm và quy trình sản xuất Đây

là chức năng "bảo trì công nghiệp" và chức năng "điều khiển quá trình" trong số đó

1.2.1 Bảo trì công nghiệp

Bảo trì được định nghĩa là "tập hợp tất cả các hành động kỹ thuật, quản trị và quản lý trong vòng đời của một tài sản, nhằm duy trì hoặc khôi phục nó trong trạng thái có thể thực hiện chức năng được yêu cầu [2] Theo định nghĩa này, bảo trì có tác động trên ba phương diện của sản xuất: năng suất, về tính sẵn có của thiết bị sản xuất và chất lượng sản phẩm Đối với hầu hết các lĩnh vực công nghiệp, chúng tôi phân biệt hai loại bảo trì công nghiệp trong chất bán dẫn [3]:

- Bảo trì khắc phục (Chạy chương trình bảo trì khi phát hiện thất bại/ sự cố):

áp dụng sau khi phát hiện lỗi hoặc khi xảy ra lỗi và nó nhằm mục đích sửa chữa, khôi phục hoặc thay thế một yếu tố bị lỗi Các thiết bị bị ảnh hưởng có một tình trạng thời gian chết đột xuất Nhược điểm chính của bảo trì sửa chữa là sự xuống cấp của tuyến tính của hoạt động sản xuất Sự sẵn có của thiết bị trở nên khó lường

và do đó rất khác nhau, điều đó có nghĩa là tổn thất về mặt công suất

Trang 14

7

- Bảo trì phòng ngừa có hệ thống: được thực hiện theo chu kỳ đều đặn và trước khi xảy ra lỗi Nó dựa trên việc thay thế hoặc sửa chữa một vật phẩm để ngăn chặn sự không có sẵn ngoài dự kiến Các thiết bị liên quan có một tình trạng thời gian chết theo lịch trình Ưu điểm chính của bảo trì phòng ngừa so với phương pháp khắc phục là thời gian ngừng hoạt động của thiết bị về mặt lý thuyết được kiểm soát,

do đó khả năng giảm độ biến thiên Điều này đòi hỏi sự đồng bộ hóa mạnh mẽ các nguồn lực sẵn có (máy móc, kỹ thuật viên, phụ tùng, v.v.) Và một trong những nhược điểm chính của phương pháp phòng ngừa là chi phí tương đối cao (ví dụ, thay thế một bộ phận vẫn còn hoạt động)

1.2.2 Quá trình điều khiển

Để cung cấp các mô hình hỗ trợ quyết định cho bảo trì và kiểm tra, các phương pháp thống kê (phân tích và định lượng) hoặc / và phương pháp (miền chất lượng) được phát triển [4] Trong ngành công nghiệp sản xuất phức tạp, các thành phần chính của quá trình giám sát điều khiển là:

Figure I.3 Sơ đồ các thành phần chính của giám sát điều khiển [1]

Trang 15

8

a) Kiểm soát quá trình thống kê (SPC): hệ thống này cho phép các dây chuyền sản xuất được kiểm soát bằng các chỉ số hiệu suất như độ dày, chiều cao, chiều dài, định tâm [5] SPC được áp dụng cho ba loại biện pháp:

• Các phép đo vật lý: trên một mẫu vật, chẳng hạn chiều cao kích thước các tấm silicon như một thiết bị đo lường có thể kiểm tra, với độ trễ, rằng những

gì đã được thực hiện đã được thực hiện tốt / hoặc không tốt với một tiêu chuẩn

Các phép đo này được liên kết với hai loại giới hạn:

Giới hạn đặc điểm kỹ thuật: không được vượt qua cho tốt hoạt động mạch

Giới hạn kiểm soát: rào cản để đủ điều kiện tốt hoạt động của hoạt động sản xuất b) Phát hiện lỗi và phân loại (FDC): hệ thống này cho phép theo dõi các thay đổi về thông số thiết bị (nhiệt độ, áp suất, v.v.) trong thời gian thực [6] Trong suốt các giai đoạn sản xuất, các thông số thiết bị được thu thập cho mỗi sản phẩm đang được sản xuất Mục tiêu là để kiểm soát tốt hơn các thiết bị vận hành dị thường hay không

c) Run-to-Run (R2R): các vòng điều khiển nhằm đảm bảo sự ổn định của các quy trình sản xuất trong suốt vòng đời của thiết bị [37] Các vòng điều khiển được sử dụng để liên kết hai thành phần SPC và FDC

Ngành công nghiệp sản xuất phức tạp được đặc trưng bởi một chủ đề bối cảnh cho hoạt động không chắc chắn Các chính sách bảo trì khác nhau, hệ thống điều khiển trực tuyến, phương pháp phát hiện và phân loại, thử nghiệm tham số, đo điện, vòng phản ứng giúp giảm một phần biến thiên, để kiểm soát tốt hơn các vết trôi thiết bị

và nâng cao chất lượng sản phẩm Nhưng nhiều vấn đề gặp phải trong các xưởng sản xuất (giảm sản lượng) là để nhắc nhở chúng ta rằng không phải mọi thứ đều được quan sát và quan sát được và do đó không có rủi ro bằng không

Trang 16

9

1.3 Hệ thống thông tin

Như chúng ta đã thấy, những hạn chế về công nghệ liên quan đến việc đặt cảm biến trong thiết bị sản xuất chắc chắn gây ra sự chậm trễ trong việc phát hiện lỗi sản phẩm Để tham gia xử lý vấn đề như vậy, vẫn cần có thể truy cập thông tin từ hội thảo để xem xét, ví dụ, suy luận thống kê, xác định hoặc xác suất Do đó, có vẻ như đây là cơ hội để chúng tôi trình bày ở đây tổ chức chung của cơ sở dữ liệu mà từ đó chúng ta có thể rút ra thông tin cần thiết cho mô hình hóa Dữ liệu được thu thập bằng các thiết bị đo và / hoặc máy đo lường

a) Dữ liệu – Database (DB) được liên kết với thiết bị: Phân tích dữ liệu kỹ thuật trên máy tính của DB-EDA (Data Base- Engineering Data Analyse) là kho lưu trữ dữ liệu quá trình Phát hiện và phân loại lỗi của FTC cho phép theo dõi thời gian thực sự phát triển của các thông số thiết bị, DB -TGV Công cụ trực quan Toàn cầu Hiển thị trực tiếp dữ liệu bảo trì, do đó tạo điều kiện cho việc trích xuất của họ

Figure I.4 Ví dụ về DataBase EDA b) BD được liên kết với sản phẩm: BD-Inline chứa tất cả các phép đo vật lý được thực hiện trên các bóng bán dẫn trong các hoạt động sản xuất (trên một mẫu các tấm wafer), Bộ phân phối wafer điện BD-EWS, nhóm các phép đo điện được thực hiện trên mỗi các mạch tích hợp ở cuối dây chuyền sản xuất, "Thử nghiệm tham số" của BD-PT tập hợp các phép đo điện được thực hiện trên các cấu trúc thử nghiệm nằm xung quanh mạch (đối với tất cả các tấm wafer), "Defectivity" của BD-DEF tập trung vào thông tin tương đối sự hiện diện của các hạt trên bề mặt của wafer để kiểm tra xem nó có bị nhiễm bẩn hay không

Trang 17

10

Trong một nhà máy sản xuất mạch tích hợp, một số loại sản phẩm được xử lý (sản xuất hàng loạt), các công nghệ rất tiên tiến và với mức độ tích hợp ngày càng tăng Khiếm khuyết nhỏ nhất trên sản phẩm (hoặc phế liệu) là tương đối cao Vấn đề về khả năng quan sát của một lỗi vào đúng thời điểm chiếm một vị trí quan trọng trong việc tìm kiếm cải thiện hiệu suất Để khắc phục vấn đề này, hai phương pháp thường được đề xuất trong môi trường công nghiệp: đo lường thực và đo lường ảo

Hệ thống đo lường: một giải pháp đầu tiên bao gồm việc cài đặt thiết bị đo lường thực trong chuỗi sản xuất để đảm bảo các bước kiểm soát cần thiết để giám sát chất lượng sản phẩm Trong thực tế, điều này thường kèm theo chi phí bổ sung đáng kể,

cả về mặt đầu tư, bảo trì và tăng thời gian chu kỳ Ngoài ra, và với các dòng sản phẩm quan trọng đặc trưng cho các vị trí sản xuất này, điều quan trọng cần lưu ý là các bước đo lường không thể được thực hiện một cách có hệ thống trên tất cả các sản phẩm, chỉ có một vài mẫu được kiểm tra; điều này cũng đặt ra vấn đề về sự liên quan của việc lựa chọn mẫu cần kiểm tra và thời gian thích hợp để kiểm tra

Những hạn chế liên quan đến sự tích hợp của các máy đo lường (từ quan điểm sản phẩm) đã dẫn đến sự phát triển tự nhiên của đo lường ảo (Virtual Metrology VM) với mục tiêu giảm thiểu số lượng tấm sản phẩm được kiểm tra trong khi cải thiện cả thông thạo các thông số công nghệ, sản lượng và thời gian chu kỳ Do đó, VM được định nghĩa là một kỹ thuật mới để dự đoán các giá trị đo lường trên các sản phẩm không được đo lường vật lý (Chen et al., 2005) Nguyên tắc cơ bản của nó dựa trên khả năng dự đoán các giá trị tham số trong thời gian thực từ thông tin được thu thập

về sản xuất và đo lường thực tế

Tuy nhiên, chúng tôi sẽ lưu ý rằng đo lường ảo tập trung vào hiệu suất và chất lượng sản xuất của các tấm silicon Tuy nhiên, nguồn phát hành sản phẩm chính được cho

là do trôi dạt thiết bị (ước tính từ 50% đến 70%) Do đó, cần phải phát triển các giải pháp bổ sung để tối ưu hóa hơn nữa việc sử dụng thiết bị về số lượng, chất lượng của kết quả và năng suất tổng thể Đó là cốt lõi của quan sát này mà vấn đề nghiên cứu của chúng tôi được định vị Chúng tôi đề xuất đóng góp của chúng tôi trong khuôn khổ chính xác là cải thiện tính khả dụng của thiết bị sản xuất, đặc biệt là thông

Trang 18

11

qua dự đoán về sự trôi dạt của chúng và do đó giảm thiểu, hoặc thậm chí hủy bỏ, trì hoãn phát hiện lỗi sản phẩm

1.4 Vấn đề của đề tài

Ngày nay, tất cả các khâu trên thiết bị sản xuất đều được trang bị cảm biến

để đo và phản hồi kết quả vì lý do kỹ thuật lẫn lý do đầu tư sản xuất Do vậy, quá trình sản xuất luôn luôn tồn tại rất nhiều rủi ro của việc không thể quan sát được các nhiễu loạn hoặc trôi dạt mà ở đó máy móc không hoạt động đúng như chúng ta yêu cầu, tạo nên những ảnh hưởng tới chất lượng sản phẩm Trong khi đó thiết bị sản xuất gần như không có một cơ chế nội tại nào để xác định vấn đề đến từ đâu nếu sản phẩm đưa ra không chất lượng Do đó, trên thực tế rất nhiều sự trôi dạt hoạt động (sự sai lệch hoạt động khiến cho thiết bị sản xuất không thể đem lại được kết quả chất lượng sản phẩm như dự kiến) không thể tránh khỏi trong quá trình sản xuất Trong bối cảnh đó, vấn đề này lại trở nên nghiêm trọng hơn khi mà thời đại công nghiệp 4.0 tạo nên một khối lượng đồ sộ dữ liệu sản xuất (con người, cảm biến, công thức, vật liệu…) Quy trình phân tích khối dữ liệu đó để trích xuất những thông tin cần thiết cho quá trình giám sát và theo dõi thiết bị được mô tả tổng quát như hình

1

Hình I.5 Mô hình mô tả các bước của quá trình quan sát và theo dõi sức khoẻ thiết bị

sản xuất

Trang 19

12

Trong bối cảnh đó, kỹ thuật học máy (ML) là một lĩnh vực của trí tuệ nhân tạo, theo

đó thuật ngữ này đề cập đến khả năng các hệ thống công nghệ thông tin có thể độc lập tìm giải pháp cho các vấn đề bằng cách nhận ra các mẫu trong cơ sở dữ liệu Nói cách khác, ML cho phép các hệ thống máy tính nhận dạng các mẫu trên cơ sở các thuật toán và bộ dữ liệu hiện có và để phát triển các khái niệm giải pháp phù hợp

ML là kiến thức nhân tạo được tạo ra trên cơ sở kinh nghiệm

Sự phát triển của các chương trình máy tính có thể truy cập dữ liệu và sử dụng nó để tự học là những tính năng chính của kỹ thuật học máy Quy trình học bắt đầu bằng các quan sát hoặc thống kê, chẳng hạn như các ví dụ, hướng dẫn hoặc kinh nghiệm trực tiếp, để tìm kiếm các mẫu trong dữ liệu và đưa ra quyết định nâng cao Mục đích quan trọng nhất là cho phép máy tính học robot mà không cần sự trợ giúp hay can thiệp của con người và điều chỉnh hành động cho phù hợp [38, 39, 40]

Kỹ thuật học máy giải thuật các bài toán theo năm bước cơ bản:

- Tìm kiếm, trích xuất và tóm tắt dữ liệu liên quan

- Đưa ra dự đoán dựa trên dữ liệu phân tích

- Tính xác suất cho kết quả cụ thể

- Thích ứng với sự phát triển nhất định một cách tự chủ

- Tối ưu hóa các quy trình dựa trên các mẫu được công nhận

Các thuật toán học máy được giám sát được áp dụng để dự đoán các sự kiện trong tương lai dựa trên những gì đã được học trong quá khứ với dữ liệu mới bằng cách sử dụng các ví dụ được gắn nhãn Bắt đầu từ nghiên cứu của một tập dữ liệu đào tạo đã biết, một hàm được suy ra để đưa ra dự đoán về m giá trị đầu ra được phát triển với thuật toán học tập Chương trình này có thể cung cấp các mục tiêu sau khi đào tạo đủ cho bất kỳ đầu vào nào Thuật toán học máy cũng có thể đánh giá đầu

ra của nó một cách chính xác, dự định để điều chỉnh mô hình cho phù hợp và hỗ trợ trong việc tìm kiếm lỗi Công việc trong bài viết này của tác giả tập trung vào quá trình trích xuất dữ liệu và đưa ra mô hình chuẩn đoán lỗi cho thiết bị máy móc sản xuất

Để làm rõ được điều đó, báo cáo này sẽ được tổ chức như sau: trong chương 2, tác giả trình bày một cơ sở phân tích lý thuyết xung quanh các kỹ thuật xủ lý biến dữ

Trang 20

13

liệu, học máy (machine learning), từ đó chọn ra và áp dụng kỹ thuật học mạng Bayesian Mục 3 trên cơ sở đó trình bày một chu trình ứng dụng mạng Bayesian vào quá trình học dữ liệu từ hệ thống sản xuất Tiếp đó, mục 4 trình bày trường hợp ứng dụng của phương pháp này và đưa ra kết quả chuẩn đoán nguyên nhân lỗi áp dụng trong một ví dụ mô phỏng quá trình sản xuất lò hơi Tenessse Eastman Cuối cùng, kết luận và thảo luận của đề tài sẽ đóng lại cáo cáo này

Trang 21

14

CHƯƠNG II CƠ SỞ LÝ THUYẾT PHƯƠNG PHÁP NGHIÊN CỨU

Sau khi trình bày bối cảnh công việc của chúng tôi và đặt ra vấn đề mà công việc của chúng tôi đóng góp, chúng tôi đề xuất trong chương II này xem xét lý thuyết

về các phương pháp được sử dụng nhiều nhất trong các lĩnh vực phân tích rủi ro và

an toàn: phương pháp định tính và định lượng

Các hoạt động công nghiệp, như các mối rủi ro sản xuất tự nhiên, có thể gây

ra rủi ro dưới nhiều hình thức, hoặc thậm chí dẫn đến các sự kiện thất bại lớn Để giảm những rủi ro này xuống mức chấp nhận được, để hạn chế chi phí nhân lực, vật chất và tài chính của họ, cần phải đánh giá chúng, ngăn chặn sự xuất hiện của chúng (phòng ngừa) và hạn chế tác động (bảo vệ) của chúng Chính trong bối cảnh này, các ngành công nghiệp vũ khí, hàng không và hạt nhân đã phát triển các phương pháp phân tích rủi ro dự báo [41] Ngành công nghiệp bán dẫn hoặc dược phẩm được coi là đặc biệt nhạy cảm với các tình huống bất ngờ và hạn chế hoạt động, và tính đến rủi ro là một yếu tố quan trọng Vì lý do này, sự quan tâm đặc biệt đã được dành cho các phương pháp phân tích rủi ro bằng cách điều chỉnh chúng phù hợp với hoạt động của chúng

Rủi ro là xác suất xảy ra lỗi, nó được đặc trưng bởi mức độ nghiêm trọng, sự xuất hiện và phát hiện của nó (SOD) Một rủi ro công nghiệp đại diện cho những thất bại tiềm tàng có thể có tác động đến sản phẩm, thiết bị hoặc quy trình sản xuất Các thiệt hại gây ra có thể là mất năng suất, thời gian chu kỳ hoặc chi phí

Về phần mình, an toàn vận hành là một môn khoa học kỹ thuật nhằm đảm bảo hoạt động đúng đắn của một hệ thống SdF tích hợp các khía cạnh về độ tin cậy, khả năng bảo trì, tính sẵn sàng và bảo mật (Villemeur, 1988) Trong lĩnh vực công nghiệp, yêu cầu của khách hàng về chất lượng rất mạnh Sự phát triển không ngừng của các công nghệ và sự phức tạp của các quy trình sản xuất là nguồn gốc của những thay đổi trong phân tích rủi ro và phương pháp an toàn vận hành Tùy thuộc vào bản chất của hệ thống, loại vấn đề được nghiên cứu và các mục tiêu tìm kiếm, các phương pháp khác nhau được áp dụng

Trang 22

15

2.1 Các phương pháp xử lý biến dữ liệu

2.1.1 Phương pháp Lọc dữ liệu - Filter

Lọc là một phương pháp xử lý để làm sạch tín hiệu bằng cách loại bỏ càng nhiều nhiễu càng tốt trong khi bảo tồn càng nhiều thông tin càng tốt Ngoài ra, thông tin chứa trong tín hiệu không nhất thiết phải hoàn toàn phù hợp: cần phải chọn thông tin hữu ích theo cách sử dụng mà người ta muốn tạo ra nó [15] Phương pháp này được áp dụng trong lĩnh vực điện tử Trong điện tử, bộ lọc kỹ thuật số là một yếu tố thực hiện lọc bằng cách sử dụng một chuỗi các phép toán trên tín hiệu rời rạc Đó

là, nó sửa đổi nội dung phổ của tín hiệu đầu vào bằng cách làm giảm hoặc loại bỏ một số thành phần phổ không mong muốn Về mặt lý thuyết, các bộ lọc kỹ thuật số

có thể đạt được tất cả các hiệu ứng lọc có thể được xác định bởi các hàm hoặc thuật toán toán học Tuy nhiên, hai hạn chế chính của bộ lọc kỹ thuật số là tốc độ và chi phí

Ngoài ra, còn có Lọc tuyến tính đặc trưng cho việc lọc tín hiệu bằng một hệ thống tuyến tính bất biến theo thời gian Do đó, bất kỳ tín hiệu nào đi qua bộ lọc sẽ thấy độ phân giải của nó (hoặc chất lượng của nó giảm) Trong một bộ lọc điện tử, nguyên tắc là giống hệt nhau Luôn có sự mất thông tin trong hoạt động tích chập [16]

2.1.2 Phương pháp Tương quan dữ liệu - Correlation

Mục đích của phương pháp tương quan là xác định mối quan hệ giữa hai chuỗi hiện tượng đo được, để tìm xác suất của nguyên nhân chung hoặc mối quan

hệ nguyên nhân và kết quả trực tiếp giữa các biến Có một mối tương quan giữa hai biến nếu có mối quan hệ giữa chúng Ví dụ, người ta có thể dễ dàng tìm thấy mối tương quan của thông tin độ tuổi và một biến giải thích liên quan (ví dụ: tiêu thụ kẹo) Nghiên cứu mối tương quan giữa các biến, đó là nghiên cứu về sức mạnh của kết nối có thể tồn tại giữa các biến này

1 Nguồn: Tương quan (thống kê) Hồi (http: //fr.wikipedia.org/wiki/Correlation)

Một thước đo của mối tương quan này có được bằng cách tính hệ số tương quan tuyến tính Hệ số này bằng với tỷ lệ hiệp phương sai của chúng và các biến

Trang 23

16

khác không của độ lệch chuẩn của chúng Hệ số tương quan nằm trong khoảng -1 đến 1 Giá trị -1.00 biểu thị mối tương quan âm hoàn hảo trong khi giá trị +1.00 thể hiện mối tương quan dương hoàn hảo Giá trị 0,00 biểu thị sự vắng mặt của mối tương quan (hoặc tính độc lập giữa các biến) Hệ số tương quan được biết đến nhiều nhất là hệ số r của Pearson, còn được gọi là hệ số tương quan tuyến tính Loại tương quan này được cung cấp trong mô-đun Thống kê Tiểu học Thật vậy, chúng ta dễ hiểu trong ví dụ về Xử lý ảnh Mối tương quan xuất phát từ xử lý tín hiệu và một

"mức độ khớp" nhất định được yêu cầu để so sánh tín hiệu kiểm tra với tín hiệu đã biết Kết quả được chuẩn hóa: 1 cho một kết hợp hoàn hảo và 0 cho không khớp Trong xử lý hình ảnh, tín hiệu là hai chiều (x, y) và kết quả của hoạt động tương quan hai hình ảnh sẽ là một hình ảnh khác được chuẩn hóa giữa 0 và 1 Tối đa tương quan, tại một điểm nhất định, cho thấy lớn sự tương đồng giữa hai hình ảnh, khi chúng được đặt chồng lên nhau tại điểm này

Ưu điểm cụ thể của mối tương quan là độ chính xác định vị của nó Phương pháp này đã trải qua nhiều phát triển, để làm cho nó phù hợp hơn cho các ứng dụng

cụ thể Có lẽ quan trọng nhất trong số này là "tương quan chuẩn hóa", giúp giảm độ nhạy của thuật toán với các biến đổi của ánh sáng và độ tương phản Với kỹ thuật này, có thể hoạt động ổn định trong các ứng dụng có độ sáng thay đổi Ngoài ra, tốc

độ cũng là lợi thế của nó Tương quan là một hoạt động tích chập, có nghĩa là tốc độ thực hiện tỷ lệ thuận với số pixel của mô hình được tìm thấy Có thể tăng tốc độ bằng cách sử dụng phương pháp kim tự tháp đa độ phân giải Mặt khác, độ chính xác định vị được giảm theo Ngày nay, những phát triển này mang đến kỹ thuật tương quan cổ điển, làm cho nó đáng tin cậy hơn nhiều, nhưng không khắc phục được tất cả các nhược điểm của nó

Tương quan đưa ra một phương pháp khớp hình dạng rất chính xác nhưng cũng có một số nhược điểm nhất định: Đó là độ nhạy đối với các thay đổi về độ tương phản và độ nhạy đối với các thay đổi của tỷ lệ (khoảng cách làm việc và kích thước của các đối tượng phải là đã sửa).Độ nhạy với những thay đổi về ngoại hình: bất kỳ sửa đổi nào, dù là nhỏ, của cảnh so với mô hình đều làm giảm đáng kể điểm phát hiện Tóm lại, kỹ thuật tương quan chỉ phù hợp, nếu nó được đảm bảo rằng các hình ảnh thử nghiệm rất giống với các mô hình

Trang 24

17

2.1.3 Phương pháp Phân loại - Classification

Do đó, phân loại là một quá trình cho phép tổ chức dữ liệu thành các lớp đồng nhất, nó nhằm mục đích đơn giản hóa việc biểu diễn dữ liệu ban đầu Tính đồng nhất trong bối cảnh có nghĩa là các phần tử thuộc cùng một lớp có nhiều đặc điểm chung

và do đó chúng giống nhau [11]

Vấn đề của phân loại bao gồm việc gán các đối tượng của tập A cho các danh mục hoặc lớp được xác định trước Loại câu hỏi này là một trong những vấn đề phân loại [17] Các phương pháp phân loại đề cập đến sự tồn tại của các nhóm hoặc các lớp dữ liệu và chúng được chia thành hai nhóm: phương pháp phân loại tự động (còn gọi là phương pháp phân cụm), đây là các phương pháp dựa trên khái niệm không học: được giám sát, bao gồm việc nhóm các đối tượng thuộc một tập hợp thành các lớp bị hạn chế sao cho các đối tượng của cùng một lớp được phân tán càng ít càng tốt Và các phương thức gán (còn được gọi là "phân loại") dựa trên khái niệm học tập có giám sát: các phương thức sử dụng một tập hợp các ví dụ trong đó các lớp thành viên được biết trước Từ bộ này, các tiêu chuẩn phân bổ (hoặc quy tắc) sẽ được xác định Chúng tôi sẽ phát triển các phương pháp khác nhau này sau, nêu bật một số ưu điểm và nhược điểm của chúng trong các phần sau

Với các phương pháp phân loại, có những lợi thế cho từng phương pháp tiếp cận Vì vậy, nó là một phương pháp có nhiều ưu điểm với nhiều cách tiếp cận, ví dụ

k phương pháp lân cận gần nhất, phương pháp Bayes, phương pháp phân tích phân biệt, phương pháp mạng thần kinh, phương pháp tiếp cận cây ra quyết định về cách tiếp cận này mang lại lợi thế cho việc kiểm soát phân loại, quản lý các bộ biến, tham

số, với thời gian tính toán, lợi thế về hiệu suất, ngoài ra, chúng cho phép phân loại các bộ lớn, ngoài ra nó cho phép xử lý nhanh nhóm lớn các cá nhân Tuy nhiên, có những hạn chế Với số lượng tập hợp khác nhau, thời gian tính toán được giảm xuống

và lượng tính toán được phát triển theo tỷ lệ phức tạp của chúng Ngoài ra, các mô hình phân loại đã trở nên quá lớn

2.1.4 Phương pháp Hồi qui - Regression

Hồi quy bội là một trong những phương pháp quan trọng nhất trong thống kê Mục tiêu của nó là nghiên cứu và mô hình hóa mối quan hệ giữa một bộ biến trả lời

Trang 25

18

và một số biến giải thích Hồi quy là một phương pháp dự báo toán học được sử dụng rộng rãi trong kinh tế Từ một tập hợp các giá trị thử nghiệm, được biểu thị bằng các điểm trên biểu đồ, chúng tôi cố gắng tính toán đường cong tái tạo tốt nhất các biến thể của đại lượng cần nghiên cứu, nghĩa là một điểm đi qua tất cả các điểm hoặc càng gần càng tốt

Hồi quy bội có thể được sử dụng cho nhiều mục đích và có lợi thế Đầu tiên anh ta có thể tìm ra phương trình tuyến tính dự đoán tốt nhất (mô hình) và đánh giá

độ chính xác và ý nghĩa của nó Ngoài ra, chúng ta có thể ước tính sự đóng góp tương đối của hai hoặc nhiều biến giải thích về sự biến đổi của một biến được giải thích; phát hiện bổ sung hoặc ngược lại, hiệu ứng đối kháng giữa các biến giải thích khác nhau và đánh giá tầm quan trọng tương đối của một số biến giải thích đối với biến phụ thuộc liên quan đến lý thuyết nguyên nhân trong nghiên cứu

Trong thực tế, hiệu suất của các phương pháp phân tích hồi quy phụ thuộc vào hình thức của quá trình tạo dữ liệu Thông thường, hình thức thực sự của quá trình tạo dữ liệu không được biết đến, vì vậy trong phân tích hồi quy người ta thường đưa ra các giả định về quy trình này Những giả thuyết này có thể kiểm chứng được nếu có nhiều dữ liệu Các mô hình hồi quy để dự báo thường hữu ích ngay cả khi các giả định có ý nghĩa, mặc dù chúng có thể không hoạt động tối ưu Tuy nhiên, trong nhiều ứng dụng, đặc biệt với các câu hỏi về quan hệ nhân quả dựa trên dữ liệu quan sát, phương pháp hồi quy cho kết quả sai lệch

Hồi quy toán học Tạp chí của trang web (http://www.techno-science.net) Nguồn Wikipedia được xuất bản theo giấy phép CC-BY-SA 3.0

Nguồn: Phân tích hồi quy (http://en.wikipedia.org/wiki/Regression_analysis)

2.1.5 Phương pháp Xếp hạng và lựa chọn biến

Như chúng ta đã thảo luận, bởi vì không phải tất cả các biến đo được sử dụng

để hiểu và xây dựng các bài học Do đó, giảm kích thước thường được sử dụng để cung cấp các lợi ích của việc giảm thời gian học tập, đo lường và lưu trữ Với việc giảm kích thước, xếp hạng biến là một phương pháp thường được sử dụng, nó là phương pháp tham chiếu để lựa chọn các tính năng Lựa chọn tính năng liên quan đến việc đánh giá các tính năng khác nhau bằng cách sử dụng các chỉ mục để chọn

Trang 26

2.1.6 Phương pháp Rừng ngẫu nhiên

Rừng ngẫu nhiên (Random Forrest) kết hợp một số lượng lớn K cây quyết định nhị phân được xây dựng trên các mẫu đào tạo Những kỹ thuật học tập tổng hợp mô hình này rất phổ biến và được sử dụng trong các ứng dụng từ nhiều lĩnh vực khác nhau [21] RF bao gồm 4 bước:

Bước 1: Các quan sát được chia từ tập dữ liệu gốc và dữ liệu còn lại (dữ liệu huấn luyện)

Bước 2: Ví dụ kv bootstrapping trực tiếp từ dữ liệu đào tạo và tạo cây quyết định cho cây quyết định k

Bước 3: Tổng hợp các cây k theo phiếu bầu đa số có trọng số và sử dụng kết quả được bình chọn để xếp hạng hoặc dự đoán phản ứng của mục mới

Bước 4: Đánh giá độ chính xác của phân loại hoặc dự đoán của bước 3 để xác định xem cây k có đủ không Nếu không, lặp lại bước 2 và 3

Lưu ý hai quy tắc trong bước 1: cây quyết định không yêu cầu cắt tỉa và đối với cây ở mỗi nút, các yếu tố được chọn ngẫu nhiên Và trong thực tế, chúng ta thường chọn một số yếu tố 𝑁 = 𝑙𝑜𝑔2(𝑝) + 1 ou 𝑃/2 [22]

2.2 Các phương pháp phân loại dữ liệu

Như chúng tôi đã chỉ ra, phương pháp phân loại chỉ đơn giản là phân loại dữ liệu, nghĩa là quản lý tài liệu, sắp xếp thông tin Trong phân loại, hai cách tiếp cận được phân biệt theo quy ước: phân loại có giám sát và phân loại không giám sát

Trang 27

20

Chúng tôi sẽ trình bày chi tiết trong Hình II.1 bên dưới với một số phương pháp phân loại

Figure II.1 Phân loại các phương pháp phân loại biến

2.2.1 Phương pháp phân loại giám sát

Ngày nay, các quy trình ngày càng tự động hơn, chúng cung cấp cho chúng

ta ngày càng nhiều dữ liệu, chủ yếu được thu thập bởi các cảm biến Rất nhiều dữ liệu được phục hồi khi quá trình hoạt động bình thường, nhưng cũng có khi quá trình

bị lỗi (hoặc lỗi) Khi những lỗi này đã được chẩn đoán (nguyên nhân của sự thất bại

đã được xác định), dữ liệu được thu thập có thể được phân loại theo các nguyên nhân khác nhau liên quan đến sự cố Khi một lỗi khác chưa được chẩn đoán, người ta có thể đạt được phân loại bằng cách tìm kiếm một phân loại cơ sở mới khác các lớp đã biết Điều này được gọi là phân loại giám sát Mục tiêu chính của nó là tìm kiếm, từ các ví dụ đã được phân loại (được gọi là bộ học tập), một mô hình để dự đoán các lớp dữ liệu mới

2.2.2 Phương pháp phân loại không giám sát

Như chúng ta đã thảo luận, khi các lớp tồn tại và chúng ta có một số lượng lớn tài liệu đã được phân loại, chúng ta có thể sử dụng chúng để phân loại các tài liệu mới, vì vậy chúng ta nói về phân loại có giám sát Nhưng khi các thuật toán phân loại không giám sát thường được sử dụng để nghiên cứu dữ liệu có ít thông tin Không giống như phân loại có giám sát, phân loại không giám sát không có bộ học tập Do đó, cái sau tìm cách phân chia và phân loại một tập hợp dữ liệu sao cho các lớp càng đồng nhất càng tốt [11] Có hai họ chính của phân loại không giám sát:

Trang 28

2.3 Các phương pháp mô hình hoá

Như chúng tôi đã trình bày, trong các trường hợp của chúng tôi, để tiếp cận bối cảnh sản xuất phức tạp, chúng tôi đã trình bày cho mình một số đặc điểm quan trọng Các đặc điểm là tiêu chí để tìm một phương pháp phân loại

Trong bối cảnh mà hệ thống sản xuất được đặc trưng bởi sự phức tạp cao và

sự không chắc chắn bởi nhiều yếu tố rủi ro Sản xuất công nghiệp thậm chí còn phức tạp hơn với nhiều chu trình sản xuất cùng chạy trên một dây chuyền sản xuất với khối lượng các bước thực hiện sản xuất rất lớn (đặc biệt trong môi trường bán dẫn

và công nghiệp dược phẩm) và thời gian sản xuất cũng kéo dài (có khi lên đến 8 đến

10 tuần sản xuất) Do đó, môi trường sản xuất trong công nghiệp hàm chứa nhiều yếu tố không chắc chắn nhất định (sự sai lệch hoạt động của thiết bị sản xuất, sai sót của người vận hành ) có thể ảnh hưởng đến quá trình điều khiển và bối cảnh bảo trì

Trang 29

22

Do đó, tác giả phân tích những phương pháp học máy phổ biến dựa trên các tiêu chuẩn được định ra để phù hợp với bối cảnh sản xuất công nghiệp 4.0 như dưới đây

dự đoán, tiên lượng lỗi, truy xuất nguyên nhẫn lỗi

Quản lý sự đa dạng của các loại tham số: (rời rạc, liên tục, định tính, định lượng) Trong quy trình thực, thường có nhiều loại tham số, ví dụ như thời gian, số liệu, mẫu hoặc khái niệm logic

• Quản lý nhiều lớp thông số phân cấp đến từ thiết bị (cảm biến, động cơ Máy) và sản phẩm Thời gian tính toán là một yếu tố quan trọng để cải thiện hiệu suất của nó Nó không quá dài khi có một mốc lớn Bạn cần có nhiều lớp với các trọng số khác nhau để thiết lập mức độ ưu tiên của lớp

• Quản lý sự đa dạng của các loại biến: (biến quan sát và biến không quan sát) Trong quy trình sản xuất phức tạp, thường có các biến quan sát (đo lường được)

và tiềm ẩn (không quan sát được) Bạn phải sử dụng một công cụ có thể đại diện cho hai loại biến

Trang 30

23

• Mối tương quan giữa các biến trong dữ liệu hoặc liên kết nhân quả giữa các

sự kiện (của cùng một thiết bị) Tương quan là khác nhau với mối quan hệ của các biến Phân tích mối tương quan của các biến có thể tìm thấy tính nhân quả của các biến Điều này có vai trò quan trọng trong việc tạo một bộ phân loại để phân loại nguyên nhân lỗi

• Xử lý dữ liệu không chắc chắn và dữ liệu bị thiếu (dữ liệu hoàn chỉnh và dữ liệu không đầy đủ) Tất cả các phân loại này nhạy cảm với thông tin của các biến

mô tả (của dữ liệu) Tuy nhiên, hiệu suất của chúng bị giảm bởi các biến mô tả không thông tin

• Khả năng thích ứng: Khả năng mô hình hóa tính linh hoạt của hệ thống cho các sản phẩm khác nhau

• Thời gian tính toán của các phân phối biến (Hiệu suất phương thức)

2.3.2 Phương pháp K hàng xóm gần nhất

Phương pháp Vùng lân cận gần nhất, hoặc kNN Phương pháp này khác với các phương pháp học tập truyền thống vì không có mô hình nào chỉ được suy ra từ các ví dụ Dữ liệu vẫn như cũ: nó được lưu trữ đơn giản trong bộ nhớ Ý tưởng của phương pháp này là quan sát k hàng xóm gần nhất của một quan sát mới để quyết định lớp thành viên của quan sát mới này [30] Để dự đoán lớp của một biến mới, thuật toán tìm kiếm K lân cận gần nhất của trường hợp mới này và dự đoán (nếu chọn) phản ứng thường xuyên nhất của các K lân cận gần nhất này Do đó phương thức sử dụng hai tham số: số K và ký tự tương tự để so sánh trường hợp mới với các trường hợp đã được phân loại

Phương pháp này được sử dụng trên dữ liệu liên tục Cũng có thể tính đến dữ liệu nhị phân (biến rời rạc với 2 phương thức), nhưng không phải là đa phương thức (biến rời rạc có nhiều hơn 2 phương thức) [27] Ngoài ra, K gần nhất chọn lớp chủ yếu được đại diện bởi K hàng xóm gần nhất Rất khó để tìm thấy lớp trong trường hợp các lớp lớn, không có ưu tiên giữa các lớp và thời gian tính toán là quá nhiều vì phương pháp này cần rất nhiều ví dụ cho việc học

2.3.3 Phương pháp Mạng Nơron

Trang 31

24

Mạng nơ-ron nhân tạo, còn được gọi là mạng nơ-ron thần kinh, là một kỹ thuật dự đoán dữ liệu phi tuyến tính, chúng tôi sẽ gọi chúng là mạng thần kinh Sự liên kết của một số tế bào thần kinh tạo ra một mạng lưới thần kinh Mạng có các đầu vào từ bên ngoài được kết nối với một số nơ-ron nhất định và sau đó mạng cung cấp một hoặc nhiều đầu ra (đầu ra của một hoặc nhiều nơ-ron trong mạng) ra bên ngoài Do đó, một tế bào thần kinh làm cho nó có thể mô hình hóa một số lượng đáng kể các hành vi theo các trọng số synap Tuy nhiên, các mạng thần kinh hầu như chỉ xử lý các biến liên tục

Mặc dù số lượng tế bào thần kinh của lớp đầu vào và đầu ra được áp đặt bởi

số lượng đầu vào của hệ thống cũng như bởi sự mã hóa của các lớp khác nhau (đối với lớp đầu ra), không có quy tắc toán học nào có thể xác định số lượng của các lớp

ẩn cũng như số lượng tế bào thần kinh trong mỗi lớp này Tuy nhiên, thông thường

sử dụng một lớp ẩn duy nhất bao gồm khoảng một nửa số nơ-ron trong hệ thống cộng với một (Mạng thần kinh: Phương pháp và ứng dụng Eyrolles, 2004) Vì vậy,

để quản lý dữ liệu bị thiếu là cần thiết nhất định có điều kiện [22]

Ưu điểm chính của việc xác định bằng mạng thần kinh tái phát là cho phép

mô hình hóa các quá trình đa biến phi tuyến Thật vậy, sức mạnh của mạng nằm trên cấu trúc của nó và trên các trọng số synap được áp dụng cho các kết nối của nó, nhưng do đó, nó không được phép tính đến "khả năng thích ứng"

2.3.4 Phương pháp Cây quyết định

Cây quyết định là một công cụ được công nhận để phân biệt giữa một số lớp

Ưu điểm chính của cây quyết định là chúng có thể dễ dàng được chuyển đổi thành các quy tắc dễ hiểu Do đó, đường dẫn (logic) dẫn cây đến một quyết định rất rõ ràng đối với người dùng Nếu thuộc tính là nhị phân, chúng ta có hai quyết định có thể, trong khi nếu thuộc tính có phương thức k, chúng ta có k quyết định có thể Thật vậy, mặc dù việc thực hiện nhanh, nhưng việc xây dựng cây tự nó tốn nhiều thời gian hơn Do đó, khả năng quản lý các lớp tham số Cây quyết định không mạnh

- Cây quyết định vẫn còn một vài nhược điểm: Đầu tiên là chúng không thực

sự hỗ trợ các giá trị liên tục Luôn luôn có thể phân biệt chúng nhưng điều này sau

đó đặt ra vấn đề phân biệt tối ưu (mất càng ít thông tin càng tốt so với biến ban đầu)

Trang 32

25

Ngoài ra, cây quyết định rất nhạy cảm với nhiễu dữ liệu Điều này sau đó có thể ngăn chặn một sự khái quát tốt của bộ học tập và sau đó dẫn đến kết luận sai về các quan sát trong tương lai sẽ được phân loại Vì vậy, thật dễ dàng để tìm thấy các tiêu chí mà cây quyết định cho phép tính đến (nhưng không tốt và hoàn toàn) [2]

2.3.5 Phương pháp Mạng Bayes

Có thể nói, chỉ có một công cụ có thể xử lý cả trường hợp biến rời rạc và biến liên tục: mạng Bayes (BN) Bởi vì, chúng ta có thể xây dựng BNvới biểu đồ của mô hình trên dữ liệu của các biến rời rạc hoặc các bảng xác suất của từng biến liên tục

Ngoài ra, thông thường, chúng tôi thường đưa ra giả định rằng dữ liệu được truy xuất là dành cho mục đích đào tạo Nhưng mức độ phức tạp của quá trình tính toán của họ phụ thuộc vào lượng dữ liệu BN có thể biểu diễn nhiều biến (theo nút)

và các lớp phân cấp (với BNphân cấp ngây thơ) Việc tính toán xác suất được thực hiện bằng thuật toán ước tính tối ưu (Tối đa hóa khả năng và Tối đa hóa kỳ vọng)

có thể biểu thị mối tương quan giữa các nút Hơn nữa, lợi thế hơn nữa của các mạng Bayes là khả năng thích ứng Các mạng Bayes cho phép tính đến khía cạnh thời gian nhờ các mạng Bayesian động [2] Thật vậy, cấu trúc và tham số của nó không thay đổi theo thời gian, nhưng có thể sửa đổi với BN hướng đối tượng

Trong công việc của chúng tôi, chúng tôi đã trình bày chi tiết về phương pháp này trong chương 3

Trang 33

26

CHƯƠNG III QUÁ TRÌNH THIẾT LẬP BAYESIAN ĐỂ CHUẨN ĐOÁN LỖI

3.1 Tổng quan về mạng Bayes (hoặc Bayesian)

3.1.1 Định nghĩa và tính chất

Mạng Bayes là một hệ thống đại diện cho kiến thức và cho phép tính toán các xác suất có điều kiện cung cấp giải pháp cho các loại vấn đề khác nhau Cấu trúc của loại mạng này rất đơn giản: một biểu đồ trong đó các nút đại diện cho các biến ngẫu nhiên và các cung (do đó là đồ thị được định hướng) kết nối chúng được gắn với xác suất có điều kiện (không chắc chắn về kiến thức) (Jensen, 1996) Có lẽ biểu diễn đồ họa trực quan nhất về ảnh hưởng của một sự kiện, thực tế hoặc biến số khác

là kết nối nguyên nhân và kết quả với một mũi tên chỉ Các biến này có thể rời rạc (TP - Xác suất bảng, TPC - Xác suất bảng có điều kiện) hoặc liên tục (phân phối bình thường), có thể quan sát hoặc không quan sát được, được phát hiện hoặc không được phát hiện

Trong trường hợp chung, X = {X1, X2, , Xn}, hàm phân phối chung P (X) được viết như sau:

P X

P

1

))(/

1 1

2

/ /

X P

X P X X P X X

P = [2]

- P (X1) là xác suất tiên nghiệm (hoặc cận biên) của X1

- P (X2 / X1) là xác suất sau của X2 khi biết X1

- P (X1 / X2) là hàm khả năng của X1 biết X2

Phân phối biên của P (X2) được tính theo công thức:

P( )X2 =P(X2/X1).P(X1) +P(X2/X1).P(X1) [3]

Trang 34

27

Hình 2 cho thấy một ví dụ đơn giản về mạng

Bayes, nó bao gồm A và B là các sự kiện, có thể hoặc

không thể quan sát được, đúng hay sai, điều quan trọng

là phải hiểu rằng mặc dù mũi tên đang chỉ từ A đến B,

tuy nhiên nó có thể hoạt động theo cả hai hướng, ngay

cả khi mối quan hệ nhân quả là nghiêm ngặt

Đặt X, Y và Z là ba biến ngẫu nhiên, X độc lập có điều kiện với Y biết Z khi

và chỉ khi P (X / Y, Z) = P (X / Z) Tính chất này dẫn đến thực tế là biết trạng thái

Z, trạng thái của Y không ảnh hưởng đến trạng thái của X

♦ Điều kiện Markov:

Cho một mạng Bayes B = {G,}, bất kỳ biến Xi ∈ X = {X1, X2, khắc Xn} của

B đều độc lập với tập Nd (Xi) / i, được tạo bởi tập hợp không phải của nó - con cháu

ở G bị mất cha mẹ, được cho là người sau: ∀Xi G, Xi y {Nd (Xi) / Πi} i

Một hậu duệ của một biến Xi trong đồ thị G được định nghĩa là một đỉnh có thể tiếp cận từ Xi bằng một đường dẫn có định hướng Do đó, điều kiện Markov cục

bộ cho phép phát hiện một tập hợp độc lập xác suất tối thiểu giữa các đỉnh và không phải con cháu của chúng, ngụ ý trong số những điều khác mà hai đỉnh không liền kề

Xi và Xj của G là độc lập có điều kiện với tập con thứ ba, chứa trong U / {Xi, Xj}

Trang 35

28

Đây là ứng dụng của điều kiện Markov cục bộ cho phép chúng ta viết xác suất chung của các biến của miền dưới dạng bao thanh toán:

𝑃(𝑋) = 𝑃(𝑋1, 𝑋2… 𝑋𝑛) = ∏𝑛𝑖=1𝑃(𝑋𝑖/𝑃𝑎𝑟𝑒𝑛𝑡𝑠(𝑋𝑖) [8]

Mạng lưới Naive Bayesian:

Trình phân loại Bayes với cấu trúc đơn giản nhất là Mạng Naive Bayesian, còn được gọi là phân loại Bayes Nó đủ tiêu chuẩn là ngây thơ vì nó đưa ra giả định rất mạnh mẽ rằng mỗi biến mô tả là, có điều kiện trên lớp, độc lập với các biến khác Khi tất cả các biến mô tả được kết hợp vào mô hình, chúng ta nói về một cấu trúc ngây thơ hoàn chỉnh Trình phân loại này cực kỳ nổi tiếng vì hiệu suất của nó, đặc biệt trong trường hợp tất cả các biến là rời rạc [2] Mạng Naive Bayesian là mạng đơn giản nhất, Mạng Bayes được tăng cường bởi bất kỳ cấu trúc hoặc cấu trúc cây nào và tương tự Mạng Bayes có cấu trúc đơn giản và độc đáo bao gồm hai cấp độ Cấp độ đầu tiên chứa một nút cha và một số con thứ hai với giả định ngây thơ mạnh

mẽ về sự độc lập có điều kiện của trẻ em (X) có điều kiện đối với cha mẹ Chúng được sử dụng rộng rãi để giải quyết các vấn đề phân loại Thể hiện bằng công thức:

𝑃(𝐶𝑖, 𝑥1, … 𝑥𝑛) = 𝑃(𝐶𝑖) ∏𝑛𝑗=1𝑃(𝑥𝑗/𝐶𝑖) [9]

Trong đó: Ci là nút lớp và i là lớp thứ i Xj là các nút của các thuộc tính và j

là thuộc tính hoặc tham số thứ j Trình phân loại này được biết đến với hiệu suất của

nó mặc dù đơn giản

Do đó, với sự có mặt của tập huấn luyện, thao tác duy nhất cần làm là tính toán xác suất có điều kiện bằng cách áp dụng quy tắc quyết định "d" của Bayes như sau:

𝑑(𝑋) = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐𝑙𝑎𝑠𝑠𝑒𝑃(𝐶𝑙𝑎𝑠𝑠𝑒/𝑋)

= 𝑎𝑟𝑔𝑚𝑎𝑥𝑐𝑙𝑎𝑠𝑠𝑒𝑃(𝑋𝑗/𝐶𝑙𝑎𝑠𝑠𝑒)𝑃(𝑐𝑙𝑎𝑠𝑠𝑒) = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐𝑙𝑎𝑠𝑠𝑒𝑃(𝐶𝑗) ∏𝑛𝑗=1𝑃(𝑋𝑗/𝐶𝑖)

Giả định độc lập giữa các thuộc tính được sử dụng trong BR ngây thơ nói chung là sai (giả định ngây thơ) Có nhiều kỹ thuật khác nhau để thư giãn giả thuyết này [13] Chúng bao gồm trong việc xác định các phụ thuộc có điều kiện giữa các thuộc tính Sau đó, chúng tôi có được một cấu trúc tối ưu trên các quan sát hình cây

Trang 36

Trong đó Ci là nút lớp, i là lớp thứ i, Xj là các nút thuộc tính và m là số lượng thuộc tính hoặc tham số Xác suất hậu sinh của mỗi lớp được biểu thị bằng phương trình sau:

Trong đó Pa (xij): là cha mẹ của xj đối với lớp i nếu nó tồn tại

Mạng Bayes hướng đối tượng

Mạng hướng đối tượng Bayes là công cụ mô hình hóa kiến thức mạnh mẽ cho các hệ thống lớn Chúng cho phép tái sử dụng các yếu tố nhất định của mạng, cũng như trực quan hóa đồ họa tốt hơn về mạng Mạng Bayes hướng đối tượng cho phép đơn giản hóa biểu diễn đồ họa của Mạng Bayes theo nghĩa là một số phần nhất định của Mạng Bayes được nhóm thành một đối tượng gọi là một thể hiện [23] Các

mô hình này đặc biệt phù hợp để thể hiện Mạng động hoặc Mạng Bayes mạng Bayes

đa tác nhân Họ cũng cho phép mô hình hóa các hệ thống phức tạp mà cùng một chế

độ lý luận xuất hiện trong các hệ thống con khác nhau

Mạng Naive Bayesian phân cấp

Trong thực tế, kiến thức được cung cấp bởi một chuyên gia cũng có thể dẫn đến việc tạo ra các biến tiềm ẩn giữa hai hoặc nhiều nút, đặt ra câu hỏi về giả thuyết

về sự đầy đủ nguyên nhân Đây là trường hợp, ví dụ, với các vấn đề phân loại không được giám sát trong đó lớp không bao giờ được đo Do đó, có thể đề xuất tương

X 1

C i

Trang 37

… Figure III.3 Cấu trúc mạng bayes phân cấp

Việc học thông số cho mô hình tiềm ẩn hoặc mô hình tiềm ẩn phân cấp phụ thuộc rất nhiều vào thuật toán và thuật toán phân loại không giám sát Bayes sử dụng thuật toán EM

3.1.2 Học hỏi và Suy luận

Trang 38

"Thuật toán EM trải qua hai giai đoạn: bước Kỳ vọng cho phép tính toán các

kỳ vọng của biến không quan sát được và bước Tối đa hóa, tính toán cộng với khả năng tối đa của các tham số với các kỳ vọng trước đó Thuật toán này rất đơn giản:

𝜃(𝑡) = {𝜃𝑖,𝑗,𝑘(𝑡) } là các tham số của mạng Bayes tại lần lặp t [24]

Thông thường cấu trúc được xác định bởi các chuyên gia Khi đây không phải

là trường hợp, có thể sử dụng các thuật toán để xây dựng mạng Trong số các thuật toán này, có những thuật toán bao gồm tìm kiếm các mối quan hệ nhân quả khác nhau tồn tại giữa các biến và các thuật toán khác cố gắng định lượng mức độ đầy đủ

Trang 39

Định lý Bayes có thể được suy ra đơn giản bằng cách tận dụng tính đối xứng của quy tắc nhân: 𝑝(𝐴|𝐵) =p(B|A)p(A)

p(B)

Định lý Bayes cho phép bạn đảo ngược xác suất Đó là nói từ nguyên nhân suy ra hậu quả Hay nói cách khác, bắt đầu từ một hậu quả để quay trở lại nguyên nhân, xem điều gì là đúng và bác bỏ những hậu quả tiềm ẩn của những nguyên nhân khác [25] Suy luận mạng Bayes nổi tiếng nhất là chẩn đoán Để biết lỗi, một hệ

Ngày đăng: 07/12/2020, 08:51

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w