1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thuật toán phát hiện phần tử ngoại lai và Ứng dụng

75 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Thuật Toán Phát Hiện Phần Tử Ngoại Lai Và Ứng Dụng
Tác giả Loicam Doan
Người hướng dẫn TS. Lê Văn Phùng
Trường học Đại học Thái Nguyên
Chuyên ngành Công nghệ thông tin
Thể loại luận văn
Năm xuất bản 2016
Thành phố Thái Nguyên
Định dạng
Số trang 75
Dung lượng 2,89 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Như minh hoa trong trường hợp này, giá trị ngoại lai có thể chỉ ra các điểm dữ liệu mà thuộc về một dân số khác biệt so với phần còn lại của tập hợp mẫu.. Khải niệm ngoại lai trong co sỡ

Trang 1

không sao chép từ các kết quả của các luận văn, luận án khác

Trang 2

Tôi cũng xin gửi lời cảm ơn đến các giảng viên trường Đại học công nghệ thông tin và truyền thông - Dai học Thái Nguyén, céc thay Viện công nghệ thông tin - Viện hàn lâm khoa học công nghệ Việt Nam da ging dạy, truyền đạt những kiến thức và giúp đỡ tôi trong suốt quá trình học tập của mình

Tôi cũng xin gửi lời cảm ơn tới Phòng giáo duc và đảo tạo huyện Văn Yen, tinh Yên Bái, đã tạo mọi điều kiện thuận lợi cho tôi tham gia khóa học

và trong suốt quá trình hoàn thành luận văn

Cuối cùng, tôi xin cảm ơn những người thân, bạn bè và gia đình đã luôn

cổ vũ động viên tôi hoàn thành luận văn tốt nghiệp này

Mặc dù đã hết sức cố gắng hoàn thành luận văn với tất cả sự nỗ lực của

"bản thân, nhưng luận văn không tránh khỏi những thiểu sót Kính mong nhận được những ý kiến đồng góp của quý thẫy cô và bạn bê, đồng nghiệp

Tôi xin chân thành cảm ơn!

Thái Nguyên, ngày 05 thang 05 năm 2016

Hạc viên

Phạm Hồng Hải

Trang 3

1.2 MỘT sO KHAINIEM LIEN QUAN DEN PHAN TUNGOAILAI 7

1.2.2 Khai niém ngoai lai tong cơ sở dữ liệu 9 1.3 Phát hiện các phần tử ngoại la trong dữ liệu 12

CHƯƠNG2 CÁC THUẬT TOÁN TÌM KIỀM PHẢN TỪ NGOẠI LAI

THEO TY LE KHÁC BIỆT DB@CT,DMIN)

2.1 Định nghĩa các phần tử ngoại lai theo tỷ lệ khác biệt a

Trang 4

2.2 Thuật toán đánh giá theo 6 2

2.2.2 Thuật toán FindAlIOutsM cho các tập dữ liệu trong bộ nhớ chính 24

2.2.2.2 Mô tả thuật toán FindAllOutsM (Eind All Outliers in Memory) 26 2.2.2.3 Danh giá độ phức tạp thuật toán trong không gian hai chiều 28 2.2.2.4 Tổng quất cho trường hợp nhiều chiều 30 2.2.2.5 Danh giá độ phức tạp trong không gian nhiều chiều 31 2.3 Phát hiện các phần tử ngoại lai DB(pct,Dmin) trong các tập dữ liệu lớn, ở

2.4.4 Thay đổi chiều đữ liệu và số lượng ô 42

3.2 Cài đặt thuật toán và chạy chương trình 46

Trang 5

3.2.1.3 Một số qui luật xác định ngoại lai 48

Trang 6

DANH MUC CAC TU VIET TAT

ECG(Electrocardiograms) Điện tâm đỏ

Electroencephalograms Điện não đỏ

ADN ~ Aciddeoxyribonuclic Chuỗi phân tử

DB (Distance Based) "Dựa theo khoảng cách

Trang 7

Thi dụ phân tích dữ liệu ngoại

Minh họa- giá trị ngoại lai trong một bộ dữ

'ác thành phần chính liên quan đến kỹ thuật phát

Trang 8

thông tin va di

thực Tuy nhiên với số lượng dữ liệu được tập trung và lưu trữ trong cơ sở đữ liệu ngày càng lớn thì việc tìm kiếm các phần tử ngoại lệ hoặc các phản tử ngoại lai trong quả trình sử dụng và khai thác thông tin ngày càng được chú trọng

Do tính hấp đẫn của khai phá đữ liệu, đặc biệt là các thuật toán phát hiện phần tử ngoại lai, tôi đã chọn đề tài “Thuật toán phát hiện phin tử ngoại lai và ứng dụng” là luận văn cao học của mình Hiện nay lĩnh vực giáo đục đang phát triển mạnh mẽ, hệ thống trường lớp ngày càng được mở rộng, việc

áp dụng công nghệ thông tin trong quản lý và ging day, học tập ngày cảng được chú trọng, trong đồ có quản lý diém thi trong kỷ thí học sinh giỏi các môn văn hóa do phòng giáo duc và đào tạo huyện Văn Yên, tỉnh Yên Bái tổ chức Với mong muốn phát hiện tự động những sai sốt trong bảng dữ liệu thí học sinh giỗi tại huyện Văn Yén, Yên Bái, từ đó sit dung phần mềm phát hiện 'tự động các ngoại lai, rồi điều chỉnh theo ý kiến chuyên gia giáo đục

“Xuất phát từ thực tế đó, luận văn này được trình bày nhằm mục đích:

1 Tìm hiễu các khái niệm về khai phá đỡ liệu và phát hiện trỉ thức, một số khái niệm liên quan đến phân tử ngoại lai, phát hiện phần

tử ngoại lai trong cơ sở đữ liệu và ứng dung

Trang 9

3 Kiểm tra thuật toán FindAllOutD cho các phần tử ngoại lai nim trong bộ nhớ ngoài trên đữ liệu thực tế.

Trang 10

(CHUONG 1 PHAN TU NGOAI LAI VA UNG DUNG TRONG

KHAI PHA DU LIEU 'Nội dung của chương này giới thiệu quá trình phát hiện trí thức, khai phá đữ liệu, trình bày một số khái niệm liên quan đến phần tử ngoại lai và phát hiện phần tử ngoại lai trong cơ sỡ đữ liệu

Tr thức hay kiến thức bao gồm những dữ kiện, thông tin, sự mô tả, hay

kỹ năng có được nhờ trải nghiệm hay thông qua giáo đục Trong tiếng Việt,

cả "ti" lẫn "thức" đều có nghĩa là biết Trỉ thức có thể chỉ sự hiểu biết về một đối tượng, về mặt lý thuyết hay thực hành Nó có thể tiềm ẩn, chẳng hạn những kỹ năng hay năng lực thực hành, hay tường minh, như những hiểu biết 1ý thuyết về một đối tượng, nô có thé ít nhiều mnang tính hình thức hay có tính

hệ thống Mặc đù có nhiều lý thuyết về tri thức, nhưng hiện không có một định nghĩa nào về tri thức được tất cả mọi người chấp nhận

Thành tựu trí thức liên quan đến những quá tỉnh nhận thức phức tạp: trí giác, truyền đạt, liên hệ, và suy luận Trong triết học, ngành nghiên cứu về trí thức được gọi là trì thức luận

1.12 Khai phá dữ liệu

“Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập

Trang 11

phân tích các đữ liệu và sử dụng các kỹ thuật đề tìm ra các mẫu tri thức trong

Cö rất nhiều ứng dung trong các lĩnh vực khác nhau sử đụng các kỹ thuật khai phá đữ liệu nhằm hỗ trợ cho mục đích sử đụng Ví đụ: trong thương mại, một công ty hay một tổ chức sử đụng các kỹ thuật khai thác dữ liệu để tặng khuyến mãi cho các khách hàng dựa vào tần suất truy cập website, kiểu khách hàng, số lượng hàng đã mua ở các lần trước Trong ngân hàng sit dung các kỹ thuật khai thác đữ liệu để xác định rủi ro về thẻ tín đụng Trong các công ty bảo hiểm thủ xác định các lỗi và các trường hợp rủi ro cao có thể xây

ta Các tổ chức chồng tội phạm sử dụng các kỹ thuật khai thác dữ liệu để tìm kiếm, nhận đạng tội phạm Các công cụ tìm kiếm trang web áp đụng các kỹ thuật thông minh để có thể tìm kiếm được những trang web theo yêu cầu của người sử dụng với độ chính xác cao Các kỹ thuật khai thác đữ liệu còn được

áp đụng trong các lĩnh vực khác như phân tích thị trường chứng khoản, dy 'báo tỷ lệ thay đổi ngoại tệ, mô hình hóa Protein, tìm kiếm các gene trong các chuỗi DNA, đự báo thời tiết, nhận dạng ảnh và văn bản

Do kai pha dif ligu được ứng dụng rộng rãi nên nó có thể làm việc với tất nhiều kiêu đữ liệu khác nhau:

+ Cơ sỡ dữ liệu quan hệ

Trang 12

Kho di ligu

Co sé đữ liệu giao dich

"Dữ liệu không gian và thời gian

"Dữ liệu chuỗi thời gian

Cơ sở dữ liệu đa phương tiện 1.1.3 Phát hiện trí thức

'Với sự tiền bộ của khoa học kỹ thuật và nhu cầu con người ngày càng tăng đã tạo nên một thời đại bùng nỗ thông tia trong mọi lĩnh vực của đời

ới lượng thông tin "không lễ" đó thì cần có các kỹ thuật khai phá dir liệu hiệu quả đễ lầy ra những thông tin hữu ích Một số các ngôn ngữ truy như SQL được sử dụng nhằm lấy ra những thông tin theo yêu cầu của người

sử đụng, nhưng hẳu hết các ngôn ngữ này chỉ lấy ra được dữ liệu theo những sống V

yêu cầu đơn giản Các kiểu dữ liệu đa phương tiện được một số các hệ thối

cơ sở đữ liệu hỗ trợ như: Dữ liệu âm thanh, hình ảnh không thê đáp ứng được khi các yêu cầu của người sử dụng ngày càng cao và phức tạp

1

Hình 1.1 Vai trò cũa trì thức

Do đó, với nhu cầu tìm kiếm tri thức trong cơ sở dữ liệu đã hình thành

một lĩnh vực mới: Phát hiện trỉ thức trong cơ sỡ dữ liệu Phát hiện trỉ thức là toàn bộ quá trình tìm kiếm tr thức từ đữ liệu, bao các Đước sau:

1 Chuẩn { đữ liệu: Dữ liệu được tập trung vào trong các cơ sỡ dữ liệu, các

Trang 13

dữ liệu được làm sạch để loại bô các đữ liệu không phù hợp, dỡ liệu không liên quan Công việc này có thể được tiến hành trước hoặc sau khi phất

hiện đữ liệu bị nhiễm bản

làm giàu để bổ sung những thông tin cần thiết Sau đó đữ liệu được biến đổi theo các dang phi hợp đễ thực hiện quá trình khai thác đữ liệu

Khai thác dữ liệu: Kkhai thắc đỡ liệu là một bước quan trọng trong quá

ig thai, sau khi được làm sạch, dữ liệu được

trình khám phá trỉ thức Bước này sử dụng các kỹ thuật, các phương thức thông minh để xác định các mẫu đữ liệu theo yêu câu

Khai thác dữ liệu được định nghĩa là quá trinh khai thác, khám phá những thong tin hitu ích, chưa được biết trước, tiềm Ân và kiông tầm thường từ những tập dữ liệu lớn

“Khai thác dỡ liệu có thể bao gồm:

© Tìm kiếm các luật kết hợp: Sử đụng các luật đơn giãn để biểu diễn tri thức Tìm kiếm những mỗi quan hệ có ích của đữ liệu

®_ Dự báo: Xác định các hàm hỏi quy

© Nhận dạng và phân lớp mẫu: tìm kiếm, xác định các mẫu theo yêu cầu, phân chia các mẫu thành các lớp nhằm phục vụ cho mục đích sit dung

© _ Phát hiện phần tử ngoại lệ : Tìm kiếm và xác định các đối tượng

dữ liệu lỗi, bất thường, và các phẩn tử ngoại lai

"Môi trường khám phá trí thức nhằm mục đích hỗ trợ quá trình khai thác

dữ liệu Do đồ, hai thuật ngữ “khai phá đữ liệu" và “phát hiện trí thức thường được sit dung đễ thay thé cho nhau

3 Đánh giá: Bước đánh giá bao gồm đánh giá mẫu và biểu diễn tri thức

"Đánh giá mẫu là tìm ra nhữ

1g mẫu quan tâm từ các mẫu đã có trong bước

Trang 14

khai phá đữ liệu Có thể sử dụng các ngưỡng cân thiết để lọc ra các mẫu cần khai phá Biểu diễn trì thức là quá trình cho phép người sử đụng tương

tác với hệ thống bằng các nhiệm vụ hoặc các truy vấn tìm kiếm dữ liệu cụ thể Cung cấp thông tin nhằm mục đích trợ giúp việc tìm kiếm và thực hiện khai thác đữ liệu chỉ tiết đựa trên dữ liệu đã được khai thác Ngoài ra 'biểu điễn trí thức cho phép người sử dụng trình đuyệt các lược đỗ cơ sở đữ liệu và kho dữ liệu hoặc các cầu trúc đỡ liệu [3]

Cấu trúc của quá trình phát hiện tri thức trong cơ sở dữ liệu:

iệm liên quan đến phân tử ngoại

1.2.1 Khái niệm về ngoại lai

'Từ điễn kinh tế, học đã xác định khái niệm ngoại lai

Ảnh hưỡng ngoại lai, trong kinh tế học, là ảnh hưởng gây ra bởi hoạt

động của một chủ thể kinh tế này và tác động trực tiếp tới chủ thể kinh tế khác (nghĩa là không thông qua cơ chế thị trường) Nếu chủ thể kinh tế chịu tác động bị tin thất, thì có ảnh hưỡng ngoại lai tiêu cực Còn nếu chủ thể kinh

tế chịu tác động được lợi, thì có ảnh hưởng ngoại lai tích cực Ô nhiễm môi trường đo chất thải của một nhà máy đối với dan cư trong khu vực là ví dụ về ảnh hưởng ngoại lai tiêu cực Sự dé chịu do cảnh đẹp ở vườn nhà hàng xóm tới nhà mình là ví dụ về ảnh hưởng ngoại lai tích cực Ảnh hưởng ngoại lai

Trang 15

được gọi là các biện pháp nội bộ hóa ảnh hưởng ngoại la

Phần tử ngoại lai có thể có nhiều nguyên nhân bắt thường Một bộ máy vật lý cho lấy số đo có thể đã phải chịu đựng một sự có thoáng qua Có thể có một lỗi trong truyền dữ liệu hoặc sao chép Ngoại lai phát sinh do sự thay đổi trong hệ thống hành vi, hành vi gian lận, lỗi của con người, lỗi công cụ, hay chỉ đơn giản là thông qua độ lệch tự nhiên trong quần thể Một mẫu có thể đã 'bị nhiễm các yếu tổ từ bên ngoài dân số được kiểm tra Ngoài ra, một ngoại lai cô thể là kết quả của một lỗ hổng trong lý thuyết giã định, kêu gọi tiếp tục điều tra bởi các nhà nghiên cứu

Phần tử ngoại lai là quan sát xa nhất, cô thể bao gồm tối đa hoặc tối thiểu mẫu, hoặc cả hai, tùy thuộc vào việc phần tử đô cao hay thấp Tuy nhiên, tối đa và tối thiêu mẫu không phải lúc nào cũng là giá trị ngoại lai bởi

vi có thể không có bất thường xa với quan sắt khác Giải thích của các số liệu 'thống kê từ các tập đữ liệu bao gồm các giá trị ngoại lai có thê gây hiểu nhằm

‘Vi du: Néu mét người tính toán nhiệt độ trung bình cia 10 đối tượng trong một căn phòng, và chín trong số đó là từ 20°C đến 25°C, nhưng một đối tượng ỡ 175°C, trung bình của các dữ liệu sẽ được giữa 20°C và 25°C, nhưng nhiệt độ trung bình sẽ vào khoảng 35,5°C va 40°C Trong trường hợp này trung bình tốt hơn phản ánh nhiệt độ của một đối tượng lấy mẫu ngẫu nhiên hơn so với trung bình Tuy nhiên giải thích nghĩa là "một mẫu điễn hình", tương đương với mức trung bình, là không chính xác Như minh hoa trong trường hợp này, giá trị ngoại lai có thể chỉ ra các điểm dữ liệu mà thuộc về một dân số khác biệt so với phần còn lại của tập hợp mẫu Ước lượng kha năng đối phô với các ngoại lệ được cho là mạnh mẽ [9]

Trang 16

1.2.2 Khải niệm ngoại lai trong co sỡ dữ liệu

"Trong các tập dữ liệu thường tổn tại các đối tượng dữ liệu không tuân theo một hình thức hoặc một mô hình dữ liệu chung, các đối tượng dữ liệu ma giá trị

đữ liệu được xem là nằm ngoài phạm vi hoặc không liên quan tới tập đữ liệu còn lại Những đối tượng có đặc tính trên được gọi là các phần từ ngoại lai

Phần tử ngoại lai của một tập dữ liệu là các phần tử mà theo một cách nhìn nào đó có các đặc tính không giống với tập hợp đa số còn lại của tập đữ liệu Chẳng hạn trong hình cho thấy một phần tử ngoại lai theo vị trí hình học

phang cé gia tri tung độ y nhỏ hơn hãn các phần tử khác của tập hợp

Các phần tử ngoại lai có thể là ngoại lại gây ra bởi lỗi thực hiện hoặc là lỗi phép đo Ví đụ việc hiển thị một người có tuổi 199 có thể là đo việc thiết lập mặc định chương trình không giới hạn tuổi dữ liệu Mặt khác, các phan tit ngoại lai có thể là kết quả của quá trình tự nhiên

Có nhiều thuật toán khai thác đữ liệu cố gắng làm cực tiêu hoá sự ảnh hưởng của các phần tử ngoại lai, loại bô chúng cùng một lúc Tuy nhiên, điều

đồ cô thể làm mất những thông tin tiềm ẩn quan trọng khi “nhiễu của người này lại là tín hiệu của người khác” Nói khác đi, các phần tử ngoại lai có thể trở thành một lĩnh vực cụ thể như là trong công việc phát hiện lỗi nơi các phần tử ngoại lai đóng vai trò là lỗi Do dé, việc phân tích và phát hiện phần

Trang 17

tử ngoại lại là một công việc khai thác dữ liệu thú vị được đề cập tới như là khai thác phẩn tử ngoại lai [1]

“Có nhiều định nghĩa được đưa ra đề định nghĩa phần tử ngoại lai như định nghĩa của Barnet và Levis “Một phần tử ngoại lai là một đối tượng xuất hiện không nhất quán với tập dữ liệu con Iai” [4] Hawkins mô tả định nghĩa trực quan về phần tử ngoại lai cô thể là “ Một đối tượng mà nó lệch hướng rất nhiều với đối tượng khác do đô đẫn đến sự nghi ngờ rằng chúng được tạo ra bởi một kỹ thuật khác” Nồi khác đi, các đối tượng không cùng một mô hình thực hiện với tập đữ liệu còn lại được xem là các phần tử ngoại lai [7]

Có nhiều cách định nghĩa và hiểu khác nhau về phần tử ngoại lai Tuy nhiên chúng cô diém chung là: Một phin tử ngoại lai là những quan trắc mà

có sự khác biệt đáng kể đối với những quan trắc còn lại

Có nhiều công tình nghiên cứu về phát hiện phần tử ngoại lai Các phương pháp chính đề phát hiện phần tử ngoại lai bao gồm:

1 Xác định phần tử ngoại lai theo khoăng cách (Distance — Based):

Theo hướng tiếp cận này cần phải xác định một hàm đo khoảng cách(metric) giữa các phản tử trong tập đữ liệu Các phần tử ngoại lai là những phần tử nằm khá xa với tập các phản tử còn lại Điển

"hình cho hướng tiếp cận này là các tác giả Knorr and Ng [5]

2 Xác định theo thống kê (Statistical ~ Based):

Hướng nghiên cứu này dựa trên việc xác định các mô hình phân phối thống kê mà các phần tử phải tuân theo(phân phối chuẩn, phân phối X? ) Phần tử ngoại lai là những phần tử không tuân theo luật này Điễn hình cho hướng tiếp cận này là các tác giả Bamett and lewis[4]

Trang 18

ul

3 Xác định theo độ khác biét (Deviation — Based):

Hướng nghiên cứu này dựa trên những đặc trưng cơ bản của các phân tử trong một tập các phần tử Các phần tử có những đặc trưng khác biệt quá lớn so với các phần tử còn lại thì là các phần

tử ngoại lai Dién hình cho hướng tiếp cận này là các tác giả Aming, Agrawal, Raghaval [1]

"Một phần tử ngoại lai có thể là một đối tượng dữ liệu trong các trường hợp sau:

1 Nằm trong một phân bổ khác với phân bổ của tập đữ liệu còn lại

2 Là một đối tượng cô giá trị hợp lệ nhưng không phải là đối tượng

nhưng chúng cô giá trị không mong muốn Chúng không cân thiết phải loại

bỏ khôi tập dữ liệu nhưng các đối tượng này phải được xác định hay nhận đạng Draper và Smith nhận xét rằng một phần tử ngoại lai có thể “cung cấp thông tin mà các đối tượng khác không thé béi vi nd xuất hiện từ sự kết hợp bat bình thường của một số trường hợp có thể là thực sự cần thiết” [4] Có

Trang 19

thể các phần tử ngoại lai thực sự liên quan tới một mô hình xác xuất cụ thé hoặc cũng có thê là nằm trong mô hình cần được làm mịn

'Nếu một phần tử ngoại lai không phải là một đối tượng hợp lệ (có thể là

đo nó được đánh giá và đưa vào không đúng) Thì nó có thể phải được phát hiện, khắc phục và đánh giá trong miễn chuyên gia Do đó, phụ thuộc vào từng ngữ cảnh các phần tử ngoại lai có thể được loại bỏ tử tập đữ liệu để làm tăng tinh thuần nhất của dữ liệu còn lại Vi du, trong một cơ sở đữ liệu đáp

‘ing thời gian thực cho hệ thống giao địch trực tuyến, các phần tử ngoại lai có thể là những giá trị cực đại trong các phiên giao dịch mà các kết nối mạng phục vụ Các phiên giao tiếp được xem như là không thành công trong hệ thống trực tuyến Đây là một trường hợp có ý nghĩa là loại bỏ giá trị ngoại lai

để tránh sự vượt quá thời gian đáp ứng trung bình của các phiên giao địch

"Nồi tôm lại, các phần tử ngoại lai là những đối tượng đủ khác với hầu, hết các điểm khác Tuy nhiên, không có một định nghĩa về phần tử ngoại lai sào được chấp nhận rộng rãi Các phần tử ngoại lai thường được xem xét là các điểm không thoả mãn đưới mô hình của dữ liệu Việc phần tử ngoại lai có 'bị loại bỗ hay không còn phụ thuộc vào từng chương trình ứng dụng và quyết định từ chuyên gia

1.3 Phát hiện các phần tử ngoại lai trong dữ liệu

Phát hiện phần tử ngoại lai là các mẫu trong đữ liệu mà không phù hợp với một định nghĩa khái niệm về hành vỉ bình thường Hình 1.5 minh họa giá trị ngoại lai trong một bộ dữ liệu hai chiều đơn giãn Những dữ liệu có hai khu vực bình thường N1 và N2, vì hầu hết các quan sát nằm ở hai vùng này Điểm đó là đủ xa cách xa các khu vực ví đụ: chỉ o1 và o2, và điểm trong khu vực O8, là giá trị ngoại lai x y N1 N2 o1 o2 O3

Trang 20

B

Tình1.5: Minh họa- giá trị ngoại lai trong một bộ dữ liệu 2 chiéu don giãn

“Những khó khăn trong việc phát hiện phần tử ngoại lai trong cơ sỡ dữ liệu:

© Bao gồm việc xác định mọi hành vi bất bình thường có thể có trong khu vực cơ sở đỡ liệu

« Chỉ ra được ranh giới không chính xác giữa bình thường và ngoại lại

© Mỗi một lĩnh vực thì khái niệm phần tử ngoại lai có thể khác nhau Chính vì vậy lĩnh vực ứng dụng đễ áp dụng kỹ thuật tìm kiếm phát hiện phần tử ngoại lai là rất khó khăn

Do những thách thức trên, vấn đề phát hiện phần tử ngoại lai ở đạng chung nhất của nó, không phải là đễ đàng để giải quyết Trong thực tế, hầu tiết các phần tử ngoại lai hiện các kỹ thuật phát hiện giải quyết cụ thể xây đựng vấn đề được gây ra bởi các yếu tổ khác nhau Chẳng hạn như tính chất của dỡ liệu, sẵn có của dữ liệu được đán nhãn, loại các giá trị ngoại lai được phát hiện Thông thường những

thể Hình 16 cho sự quan trọng nêu trên các thành phần liên quan đến

Trang 21

bat ky phat hién ngoai lai

Lĩnh vực nghiên cứu:

Hạc máy khai phá dỡ liệu

Lý thuyết thông tin Số liệu thống kế

'Hình 1.6: Các thành phân chính liên quan đến kỹ thuật phát hiện ngoại lai

Nếu một thê hiện đữ liệu cá nhân có thể được coi là bất thường đối với phần còn lại của đữ liệu, được gọi là một ngoại lai điểm Đây là đơn giản nhất ngoại lai và là trọng tâm của phản lớn các nghiên cứu về phát hiện ngoại lai [9]

Trang 22

Vidu: Trong hinh 1.1 , céc diém O1 và o2 cũng nhự các điểm trong khu vực O3 nằm ngoài ranh giới của khu vực bình thường, và đo đô có giá trị ngoại lai điểm từ họ là khác nhau từ các điểm đữ liệu bình thường

`Ví dụ: Nếu chúng ta phát hiện xem xét gian lận thể tín dụng với tập đữ liệu tương ứng với thể tín đụng của một cá nhân giao dich, gia sử đữ liệu bởi chỉ cô một tính năng là số tiền chỉ Một giao địch mà số tiền bỏ ra là rất cao so với mức bình thường chỉ tiêu cho người đó sẽ là một ngoại lai diém

'Nếu một trường đữ liệu là bất thường trong một văn bản cụ thể (nhưng không khác), sau đồ nó được gọi là một ngoại lai theo ngữ nghĩa Các khái niệm về một bối cảnh được gây ra bởi cấu trúc trong thiết lập dữ liệu và có được quy định như một phần của việc xây dựng vấn đẻ

Dữ liệu được định nghĩa sử đụng hai bộ của các thuộc tính, theo ngữ cảnh

và thuộc tính Các thuộc tính ngữ cảnh được sử đụng đễ xác định các nội dung

Vi du: Trong bộ dữ liệu không gian, kinh độ và vĩ độ của một vị trí là các thuộc tính ngữ cảnh Trong chuỗi thời gian dữ liệu, thời gian là một thuộc tính ngữ cảnh mà xác định vị trí của một trường hợp trên toàn bộ chuỗi Các thuộc tính về hành vi xác định những đặc tính phi ngữ cảnh

Vi dụ: Trong một tập hợp dữ liệu không gian mô tả lượng mưa trung bình của toàn thể giới, lượng mưa ở bất kỹ vị trí nào là một thuộc tính hành

vi Các hành vi bất thường được xác định bằng cách sử đụng các giá trị cho các thuộc tính về hành vỉ trong một bối cảnh cụ thể Một dữ liệu cô thể là một ngoại lai theo ngữ cảnh trong một định bối cảnh, nhưng một thể hiện dữ liệu giống hệt nhau (về thuộc tính hành vi) có thể được xem là bình thường trong

một bối cảnh khác nhau.

Trang 23

Monthly Temp

nhiệt độ hàng thang của một khu vực trong năm Nhiệt độ 35° F có thể là bình thường trong suốt mùa đông (tại thời điểm tl) tai nơi đó, nhưng giá trị như nhau trong mùa hề (tại thời điểm 12) sẽ là một ngoại lai Một vi đụ tương tự

ối cảnh là

có thê được tìm thấy trong các gian lận thẻ tín dụng phát hiện với

thời điểm mua hàng Giả sử một cá nhân thường có một hóa đơn mua sắm hàng tuần 100% ngoại trừ trong tuần Giáng sinh, khi nó đạt đến 10008 Mét

lần mua mới 1000$ trong một tuần vào tháng nào đó sẽ được coi là một ngoại lai theo ngữ cảnh, vì nỗ không phù hợp để các hành vi bình thường của cá nhân trong bối cảnh thời gian (mặc đù cùng một số lượng đã tiêu hết trong tuần Giáng sinh sẽ được xem là bình thường ).[9]

1.4 Ứng dụng phát hiện phân tử ngoại lai

Trang 24

+ Tỷ lệ báo động sai: Tỷ lệ phần trăm nhỏ nhất của báo động sai trong

số hàng triệu đối tượng đữ liệu có thể làm cho là quá sức đối với một nhà phân tích

+ Được gán nhãn dữ liệu thường không có sẵn cho xâm nhập: Đây sẽ ưu tiên cho ban giám sát và phát hiện ngoại lai không có giám sát kỹ thuật Hệ thống phát hiện xâm nhập đã được phân loại vào máy chủ dựa và mạng dựa trên hệ thống phát hiện xâm nhập

1.4.2 Phát hiện gian lận

Gian lận liên quan đến hoạt động tội phạm xảy ra trong các tổ chức thương mại, các tổ chức như ngân hàng, các công ty thẻ tín đụng, cơ quan bão hiểm, các công ty điện thoại di động, thị trường chứng khoán Người sit đụng độc hại có thể là khách hàng thực tế của tổ chức hoặc phải đùng đến hành vi trộm cấp danh tính (giã làm khách hàng) Các hoạt động phát hiện nhằm mục đích phát hiện tiêu thụ trái phép các nguôn tài nguyên được cung cấp bởi tổ chức để ngăn chặn thiệt hại kinh tế Một cách tiếp cận chung để phat hiện ngoại lai ở đây sẽ liên quan duy trì một cấu hình sử đụng cho từng khách hàng và theo dõi các cấu hình để phát hiện bắt kỹ sai lệch được gọi là hoạt động giám sát Một số ứng đụng cụ thể của phát hiện gian lận

- Phát hiện thể tin đụng gian lận: Kỹ thuật phát hiện ngoại lai được áp dụng để phát hiện gian lận đối với thể tín dung Điều này cũng tương tự như việc phát hiện gian lận bão hiểm Cách sử dụng gian lận cũa thế tín dụng: Kết hợp với các vụ trộm cấp thẻ tín dung Các hỗ sơ dữ liệu được xác định trên một số phương diện như nhận điện người sử đụng, đã đành số tiền, thời gian

Trang 25

giữa các lần liên tiếp sử dụng thẻ Các gian lận thường được phản anh trong

hỗ sơ giao địch (giá trị ngoại lai điểm) và tương ứng với thanh toán cao, tốc

độ cao, mua các mặt hàng không bao giờ mua bởi người sử đụng trước, sẵn

cô của ghỉ nhãn là không có ví

có săn Hơn nữa, dữ liệu rơi vào sự khác biệt dựa vào người sử đụng thể tín dung Vi thé các kỹ thuật trên thường được sử dung trong lĩnh vực này Phat

đề vi các công ty tin dụng có day đủ dữ liệu

hiện trực tuyến lữa đão ngay sau khi giao dịch gian lận xây ra là một thách thức trong việc phát hiện thế tin dụng trái phép hiện nay

1.4.3 Phát hiện bão hiểm yêu cầu bôi thường gian lận

Một vấn đề quan trọng trong ngành công nghiệp bảo hiểm là các hành vi gian lận: ví đụ xe hơi gian lận bảo hiểm Các cá nhân và tổ chức bên yêu sách

và các nhà cung cấp yêu cầu bôi thường hệ thống xử lý cho các tuyên bổ trái phép và bat hop pháp Các đữ liệu trong lĩnh vực này dé phat hiện gian lận đến từ các văn bản trình của các bên tranh chấp

Các kỹ thuật trích xuất các tính năng khác nhau (cã phân loại cũng như liên tục) từ các tà liệu này Thông thường , điều chỉnh các yêu cầu và điều tra đánh giá những tuyên bố cho gian lận Những điều tra bằng tay trường hợp được sử dụng như trường hợp đán nhãn cũa giám sát và kỹ thuật giám sát cho gian lận bảo hiểm phát hiện Phát hiện bảo hiểm bồi thường gian lận là khá thường xuyên xử lý như một vấn đề giám sát hoạt động chung, kỹ thuật dựa trên mạng lưới thần kinh cũng đã được áp dụng để xác định yêu cầu bão hiểm 'bắt thường

Trang 26

đồ các kỹ thuật áp dung giám sát tiếp cận Một hình thức khác của dit liệu xử lý bi ngoại lai kỹ thuật phát hiện trong lĩnh vực này là đữ liệu chuỗi thời gian, chẳng hạn như điện tâm đỏ CG) và điện não đỏ (EEG) Kỹ thuật phát hiện ngoại lai đã được áp dung đễ phát hiện giá trị ngoại lai trong dữ liệu như vậy Một số kỹ thuật cũng có tập trung vào việc phát hiện địch bệnh ở

một khu vực cụ thể Vì vậy việc phát hiện ngoại lai là rất quan trọng vấn đề trong lĩnh vực này và đồi hỏi mức độ cao và chính xác Các khía cạnh thách thức nhất của việc phát hiện ngoại lai là vấn đề trong lĩnh vực này là chỉ phí phân loại một ngoại lai như bình thường có thê rất cao

1.4.5 Phát hiện thiệt hại công nghiệp

Các nhà máy công nghiệp bị thiệt hại do liên tục sử dụng và hao mòn thông thường, thiệt hại như vậy cần phải được phát hiện sớm để ngăn chặn sự leo thang hơn nữa và gây tôn thất đẫn đến thiệt hại Các đữ liệu trong phạm vi này thường là cảm biến dữ liệu được ghỉ bằng các cảm biển khác nhau và thu thập cho phân tích

‘Vi du: Phát hiện lỗi trong đơn vị cơ khí và thành phần như động cơ, tua bin, đầu chảy trong đường ống, Các vết nứt trong dầm, thủng trong khung máy

"bay, dữ liệu không lường trước được sử đụng cho lỗi phát hiện ở các nhà máy

cơ khí

1.446 Xứ lý hình ảnh

Phát hiện ngoại lai ở đây nhằm phát hiện những thay đổi trong một

"hình ảnh theo thời gian (phát hiện chuyển động) hoặc trong các khu vực mà xuất hiện bất thường trên hình ảnh tĩnh Tên miền này bao gồm các hình ảnh

vệ tinh, công nhận chữ số, quang phổ, hình ảnh X quang vú, và giám sát

Trang 27

video Các yếu tố được gây ra bởi chuyên động hoặc chèn đối tượng hoặc thiết bị lỗi Các đữ liệu có không gian cũng như đặc điểm thời gian Mỗi điểm

đữ liệu có một vài các thuộc tính liên tục như mnàu sắc, kết cấu, .Các giá trị ngoại lai thú vị là những điểm hoặc bất thường hoặc khu vực trong ảnh (điểm

và sự chênh lệch theo ngữ cảnh) Một trong những thách thức quan trọng trong lĩnh vực này là kích thước lớn của đầu vào Thách thức lớn khi giao địch với đữ liệu video, va các kỹ thuật phát hiện trực tuyển là cần thiết

1.4.7 Mang căm biển

‘Mang cảm biến gần đây đã trở thành một chủ đề quan trọng nghiên cứu từ góc độ phân tích đữ liệu, kể từ các dữ liệu thu thập được từ các cảm biển không đây khác nhau có một số đặc điểm độc đáo Ngoại lai trong dit liệu đó thu thập hoặc có thể bao hàm một hoặc nhiều căm biến bị lỗi (Các ứng đụng cảm biến phát hiện lỗi), hoặc các cảm biến sự kiện phát hiện (ứng đụng phát hiện xâm nhập) là thú vị cho các nhà phân tích Một mạng lưới cảm biến

đuy nhất có thể bao gồm một hỗn hợp của cảm biến thu thập các loại đữ liệu khác nhau : Chẳng hạn như nhị phân, rời rạc, liên tục, âm thanh, video dit liệu được tạo ra trong một chế độ trực tuyến và thu thập đữ liệu thường chứa tiếng ôn và mất giá trị đo hạn chế áp đặt bởi triển khai môi trường và kênh truyền thông Điều này đặt ra một tập hợp các thách thức đuy nhất Các luồng

dữ liệu các cuộc gọi cho kỹ thuật phát hiện bên ngoài đễ hoạt độ

cách tiếp cận trực tuyến Các nguồn tài nguyên nghiêm trong han chế gọi cho

kỹ thuật phát hiện trọng lượng nhẹ Các dữ liệu thu thập được trong một thời gian phân phối cuộc gọi, phương pháp khai thác đữ liệu đễ phân tích các dit liệu Cuối cùng sự hiện điện của tiếng ôn trong đữ liệu cảm biển làm cho phát hiện ngoại lai khô khăn hơn, vì nô cô đến bây giờ phân biệt giữa giả trị ngoại

lg trong một

lai thú vị và giá trị mong muốn (tiếng ôn / giá trị bi mat)

Trang 28

21

CHUONG 2 CAC THU: N TÌM KIEM PHAN TU

THEO TY LE KHAC BIET DB(pct.Dmin) 'Với mục đích của luận văn là tìm hiểu các thuật tốn phát hiện phần tử

GOẠI LAI

ngoại lai Do đĩ, trong chương này sẽ trình bày khái niệm các phần tử ngoại lai theo tỷ lệ khác biệt Đồng thời giới thiệu hai phiên bản của thuật tốn đánh giá theo ơ tim kiếm các phần tử ngoại lai trên các tập dữ liệu lớn, nhiều chiều nằm trong bộ nhớ trong hoặc nằm trong bộ nhớ ngồi Ngồi ra đi sâu tìm hiểu thuật tốn phát hiện phần tử ngoại lai FindAliOutsD để chương 3 viết chương trình demo ứng dung vào bài tốn thực tế Đưa ra đánh giá độ phức tạp về thời gian của các thuật tốn, trình bày thực nghiệm cũa Kno[6] dé đánh giá và so sánh thời gian thực hiện của các thuật tốn

2.1 Định nghĩa các phần tữ ngoại lai theo tỷ lệ khác biệt

Cho N là số lượng các đối tượng trong tập dữ liệu D Gọi đ là hàm khoảng cách giữa một cặp đối tượng bất kỳ trong tập dữ liệu Với một đối tượng p, gọi S(p) là tập các lân cận của p bao gồm tắt cả các đối tượng q thưa mãn điều kiện: địp.q)< Dmin, trong đĩ Dmin là tham số đầu vào

“Cĩ nghĩa là:Š(g)= {q€D| đíp.q)< Dmin }

S(p) được gọi là tập các lân cận của điểm p theo khộng cách Dmin Định nghĩa: Một đối tượng p trong một tập cơ sỡ dữ liệu D được gọi 1à một phần tử ngoại lai theo tỷ lệ khác biệt DB(pct, Dmin) nếu cĩ ít nhất pet (percentage) phần trăm các đối tượng trong D mã khoảng cách giữa chúng với

p lớn hơn Dmin Điều đồ cĩ nghĩa là lực lượng của tập hợp Sí(p) là như hơn hoặc bằng (100-pc)% cỡ của D

Goi M là số lượng lớn nhất các đối tượng thuộc S(p) mà một đối tượng ngoại lai cơ thễ cơ

Theo định nghĩa các phần tử ngoại lai theo tỷ lệ khác biệt DB(pct Dmin) thì M=(1-pcÐ*N Việc tìm kiếm tất cả các phần tử ngoại lai sẽ được

Trang 29

‘bit đầu từ việc tìm kiếm các đối tượng thuộc S(p) của tất cã các điểm P trong tập đữ liệu Trong quá trình tìm kiếm nếu số lượng của S(p) lớn hơn M thì p được gọi là không ngoại lai Ngược lai sau khi kết thúc quá trình tìm kiếm ma lực lượng của S(p) <M thì thông báo p là phan tử ngoại lai

2.2 Thuật toán đánh giá theo ô

Đề minh họa cho ý tưởng và các đánh giá khác nhau của thuật toán đánh giá theo ô Đầu tiên, một phiên ban đơn giãn của thuật toán sẽ được xem xét Phiên bản này giả sử rằng cả cấu trúc ô nhiều chiều và toàn bộ cơ sở đữ liệu đều có thể lưu được trong bộ nhớ chính Để đễ đàng cho việc tỉnh bay, thuật toán được mô tả để thực hiện với các tập dữ liệu trong không gian hai chiều, và sau đó xử lí trong Kí chiều Trong phẩn 2.3.2 sẽ trình bay phiên ban diy đủ của thuật toán đánh giá theo ô tìm kiếm các phin tử ngoại lai trên các tập dữ liệu lớn nằm trong bộ nhớ ngoài

2.2.1 Các khái niệm và tỉnh chất liên quan

'Với chiến lược tìm kiểm tắt cả các phần tử ngoại lai theo tỷ lệ khác biệt đựa vào ô, mỗi một đối tượng trong tập đữ liệu được ánh xạ hoặc lượng tử

hóa tới các ô có cạnh I=Dmin /2Ý 2

Trang 30

2B

Bảng 2.1 : Các ơ của cấu trúc ơ trong khơng gian hai chiều, xem xét ơ

trung tâm ơ C|4,4] được ký hiệu bởi dấu * Các ơ thuộc L1 được đánh

dấu là số 1 Các ơ thuộc L2 được đánh dấu là số 2

2ZT7T7T7T7T7T2 212]2|2]2]2]|2 2z]211|1]1]2]|2

"Thường thỉ L1 của một ơ bao gồm cĩ 8 ơ Chỉ loại trữ những 6 ở gin

biên của cấu trúc 6

Tính chất 1: Bat ky một cặp đối tượng trong cùng một ơ thì khoảng cách giữa chúng lớn nhất là Dmin /2

ếu Cu,v là một ơ thuộc L1(Cx,y) thì với mỗi p€Cu,v và với mọi q€Cx.y ta luơn cĩ khộng cách giữa chúng lớn nhất là Dmin

Tinh chất 1 là đúng đắn bối vì khoảng cách giữa hai điểm bắt kỹ trong, cing một ơ luơn nhỏ hơn độ dài đường chéo của ơ cĩ cạnh bằng I+ Dmin

Goi L2(Cx.y) là tầng các lân cận thứ hai của ơ Cx.y bao gồm các ơ Cu„y thỏa mãn điều kiện:

L2(Cx;y)=(Cu,xi (0-x:<3)^(v 7<9* (0-x#1)( Cu,

Cx}

Trang 31

Cha 7 ring khoang cach gitta mét sé diém nim trong L2 va cac diém nằm trong Cxy là bé hon khoảng cách Dmin ( ví dụ so sánh khoảng cách các

0 ô, chỉ

điểm q và s trong hình 2.1) Thông thường L2 của một ô có 72.3

loại trừ những ô ở trên hoặc ở gần biên của cấu trúc ô Trong không gian hai chiều L1 có độ đây bằng 1 và L2 có độ đầy bằng 2 L2 được định nghĩa theo cách này đề thõa mãn các tính chất sau đây

Tĩnh chất 3: Nêu Cu,v#Cx.y cũng không thuộc L1 và L2 cũa ô Cx.y thi mọi đối tượng p€Cx.y và mọi đối tượng q€Cu,v khoảng cách giữa chúng luôn lớn hon Din

Do tổng độ đầy của LI và L2 là 3 ô nên khoảng cách d(p,g) phải lớn hon Dmin (2v 2> Dmin Ví đụ như là các điểm p và điểm q ở trên hình 2.1 Tĩnh chất 4:

Tính chất 4(a) và 4(b) là hệ quả trực tiếp từ tính chất 1 và tính chất 2

‘Va tinh chat 4(c) được suy ra tử tính chất 3

2.2.2 Thuật toán FinÄ4IIOusM cho các tập dữ liệu trong bộ nhớ chính 2.2.2.1 Tự tưởng thuật toán

Cac đối tượng dữ liệu trong tập dữ liệu được ánh xạ tới các Ô phù hợp Trong quá trình ánh xạ số lượng các phản tử trong mỗi ô sẽ được lưu lại Với những ô có số lượng phản tử lớn hơn M thì sẽ được tô màu “đỏ” Điều này chứng tô rằng tất cả các phần tử trong các ô đồ lã không ngoại lai Với những

ô Cũ„v thuộc tầng các lân cận thứ nhất của các ô "đö” mà Cu,v chưa được tô

Trang 32

mau 6 sé dugc t6 mau “héng” Theo tinh chat 4b tat ca cic déi tuong nim

4b hig 6 Cx.y thỏa mãn điều kiện : số lượng các phân tử thuộc Cx.yU LI(Cxy)

"Những ô không thỏa mãn các trường hợp trên Tức là, số lượng các đối tượng đữ liệu trong CxyULI(Cxy) UL2(Cxy) lớn hơn M nhưng CxyUL1(Cx,y) nh hon M thì thuật toán sẽ lưu lại số lượng (sI) các phần tử trong Cx,yUL1(Cx,y) Với mỗi đối tượng p trong ô Cx.y, thuật toán tiền hành tính toán khoảng cách đ(p,q) với q là các đối tượng nằm trong ô thuộc L2(Cxy) Với những điểm q thỏa mãn điều kiện d(p.q) < Dmin (tức là 4£S(p)) giá trị s sẽ được tăng lên một đơn vị Ngay khi si lớn hom M thi thông báo p là không ngoại lai Ngược lại, sau khi tiền hành tính toán khoảng cách với tất cả các đối tượng thuộc L2(Cx,y) mà sĩ vẫn nhỏ hơn M thì thông

‘bao p ngoại lại

Một vĩ dụ về cách chọn cấu trúc ô được trình bay ở hình 2.2.a Các ô

đồ là các ô có số lượng lớn hơn 4 điểm những ô đô không chứa phân tử ngoại lại Hơn nữa, tắt cả các ô liền kề tức là những ô thuộc vào L1 cũng sẽ không chứa phin tử ngoại lai và được tô màu hồng Hinh 2.2.b có thêm 3 ô màu hồng được các hình mũi tên chỉ tới Trong hình 22.c, chúng ta có một phần

tử ngoại lai khả nghỉ bởi vì không có điểm nào nằm trong các ô thuộc LI Hình 2.2.4 cho biét ring phần tử ngoại lai tiềm Ân đồ thực chất là phần ti ngoại lai bởi vì chỉ có 3 điểm nằm trong các ô thuộc vào L2 Trong đó L2 là vùng giới hạn bởi L1 và các đoạn thẳng được gán nhãn L2 ( xem hình vẽ ) Cuối cùng, chú ý rằng điểm nằm trong ô [6,4] và điểm nằm ở ô[7,5] có nhiều hơn 4 điểm trong các L2 tương ứng Nhưng điều đó không có nghĩa rằng hai

Trang 33

điểm đô không thể là ngoại lai Nó còn phụ thuộc vào có bao nhiêu điểm trong L2 thực sự nằm trong tập các lân cận tương ứng của chúng Vi vậy, ứng với mỗi điểm trong các ô [6,4] và [7,5] phải tiến hành quá trình tính khoảng cách giữa các cặp điểm với số lượng các điểm ít nhất có thể được trong L2 của mỗi ô

2.2.2.2 M6 td thudt todin FindAUOutsM (Find All Outliers in Memory)

Trong bước 2 của thuật toán FindAllOutsM lượng hóa mỗi đối tượng

dữ liêu vào trong ô phù hợp với nó Bước 3 sẽ gán nhãn tắt cả các ô cô

lượng các đối tượng lớn hơn M đối tượng bằng màu đỏ Điều này tương ing với tính chất 4.a Các ô là thuộc L1 của 6 dé sé được gán nhãn là màu hồng trong bước 4 và chúng cũng không chứa phần tử ngoại lai vỉ tính chit 4.b Những ô khác tha mãn tính chất 4.b sẽ được gán nhãn là màu hỏng trong bước 5.b Cuối cùng trong bước 5.c.2 của thuật toán, các ô thöa mãn tinh chat

5 for( mỗi ô màu trắng Cw) đo:

2 county

if (Countys>M) Chong celse {

county+Fiez 6m) Count;

Trang 34

2

1 countys=countyr+Sieiae count;

2.if(countys<M) gan tat cA cdc déi tuong trong Cy la ngoại

{

i county=county

ii for(gEL2(Cy)) if(đist(p.q)<Dmin)

iii, pngoai lai; } }

‘Noi tom lai, tất cã các tính chất trong phin 2.2.1 dugc sit dung dé tro giúp việc xác định các phần tử ngoại lai và không ngoại lai trên cơ sở quan hệ 6-6 và hơn nữa trên cơ sở tính toán khoảng cách giữa các cặp đối tượng Điều này làm giảm thời gian thực hiện một cách đáng kể bởi vì có thể loại bỏ một cách nhanh chóng một số lượng lớn các đối tượng không phải là ngoại lai Đối với các ô không thỏa mãn các tính chất 4 thuật toán tiền hành tính toán khoảng cách cho các đối tượng ứng với các ô đó Đó là các ô đánh đấu là các

ô trắng(Cw) Trong bước 5.c.3 của thuật toán FindAllOutsM, mỗi đối tượng

Cu phải so sánh với mọi đối tượng q trong các ô thuộc vào L2 ciia 6 Cw để

có thể xác định có bao nhiêu điểm thực sự nằm trong tập các lân cận của p ( S(p) ) Ngay khi số lượng S(p) vượt quá M,, thì chúng ta sẽ khai báo p không phải là ngoại lai Còn nếu sau khi kết thúc quả trình tính toán mà số lượng tập các lân cận không lớn hơn M thì chúng ta khai báo p là ngoại lai

Trang 35

2.2.2.3 Đánh giá độ phúc tạp thuật toán trong không gian hai chiều

Bay gid, chúng ta sẽ đánh giá độ phức tạp của thuật toán FindAllOutsM cho không gian hai chiều Bước 1 mất O(m) thời gian, với m

là tổng số các ô và m nhỏ hơn rất nhiều so với N Bước 2 và bước 3 mất O(N)

‘va O(m) thời gian tương ứng với mỗi bước Với M là số lượng lớn nhất các đối tượng có thể xuất hiện trong tập các lân cận ( S(p)) của một phần tử ngoại

li vì vậy cô nhiều nhất là N/CM+1) ô đỏ Do đồ, bước 4 mắt O(N/M) thời gian Độ phức tạp của bước 5 là rắc rối nhất Trong trường hợp tôi nhất: (0)

không cô ô nào được gần nhãn là ô đỗ hoặc ô hồng trong các bước trước và (0 bước 5c là cần thiết cho tất cả các ô Nếu không cô ô nào được tô màu ( đô hoặc hồng ) thì mỗi ô chứa nhiều nhất là M đối tượng Do đó, trong bước 5c

ô có nhiều ô màu đỏ và màu hồng Do đó, có rất ít khoảng cách giữa các cặp đối tượng được so sánh Do đó, bước 5.c trở thành kém lợi thế và thuật toán yêu cầu thời gian tính toán nhỏ.

Trang 37

Khí áp đụng thuật toán FindAllOutsM thực hiện với các tập dữ liệu lớn, nhiều chiều Các tính chất 1 đến tính chất 4 được nêu ra trong phần

Ngày đăng: 24/12/2024, 16:43

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[7]. Hawkins. “Indentification of Outliers”. Chapman and Hall, London,1980 Sách, tạp chí
Tiêu đề: Indentification of Outliers
[1]. Hoàng Xuân Huấn, Phạm Ha Thủy (2006), Phát hiện phân tử ngoại lại trong cơ sở dữ liệu nhờ phân tích hét quy. Tap chí tin học và điềukhiển T22(1) trang 45-52 Khác
[2]. Phạm Hạ Thủy (2007), Nghiên cứu phần tử ngoại lai rong cơ sở dit liệu và img dung. Luận án tiễn sỹ. Viện Công nghệ thông tin. Viện Hàn lâm khoa học và công nghệ Việt Nam.B. Tiếng Anh Khác
[3]. Dieter Adriaans, Dolf Zanting (1996), Data mining. Addision- Wesley Khác
[4]. Bamett, V. and Lewis T.(1994), Outliners i Statiscal Data, Jonh Wiley, 3* edition Khác
[5]. Edwin M. Knorr (2002), Outliers And Datamining: Finding Exceptions In Data. Phb. Disertation, University of British Cotumbia,2002 Khác
[6]. Edwin MKnor (1998), Algorithms for Mining Distance-Based Outliers in Large Datasets. In Proc. VLDB Pages 211-222 Khác
[8]. JiaWei Han, Michiline Kember (2001), Datamining. MorGan. KauFmann Publishers. Academic. Press Khác
[9]. Karanjit Singh and Dr. Shuchita Upadhyaya (2012) Outlier Detection: Applications And Techniques Khác

HÌNH ẢNH LIÊN QUAN

Hình  1.2.  Phát  hiện  trì  thức - Thuật toán phát hiện phần tử ngoại lai và Ứng dụng
nh 1.2. Phát hiện trì thức (Trang 7)
Hình  1.1.  Vai  trò  cũa  trì  thức - Thuật toán phát hiện phần tử ngoại lai và Ứng dụng
nh 1.1. Vai trò cũa trì thức (Trang 12)
Hình  12.  Phát  hiện  trí  thức - Thuật toán phát hiện phần tử ngoại lai và Ứng dụng
nh 12. Phát hiện trí thức (Trang 14)
Bảng  2.1  :  Các  ô  của  cấu  trúc  ô  trong  không  gian  hai  chiều,  xem  xét  ô - Thuật toán phát hiện phần tử ngoại lai và Ứng dụng
ng 2.1 : Các ô của cấu trúc ô trong không gian hai chiều, xem xét ô (Trang 30)
Hình  2.4  trình bày  các  hàm  phân  trăm  các  ô trắng,  hồng,  đỏ,  và  các  ô - Thuật toán phát hiện phần tử ngoại lai và Ứng dụng
nh 2.4 trình bày các hàm phân trăm các ô trắng, hồng, đỏ, và các ô (Trang 49)
'Hình 32. Bảng điểm đã điều chỉnh, cho  phù hợp với  yêu cầu tin học  hóa. - Thuật toán phát hiện phần tử ngoại lai và Ứng dụng
Hình 32. Bảng điểm đã điều chỉnh, cho phù hợp với yêu cầu tin học hóa (Trang 54)
Hình 35: Các danh mục. - Thuật toán phát hiện phần tử ngoại lai và Ứng dụng
Hình 35 Các danh mục (Trang 59)
Hình 39.  Kết quả  âm phân tử ngoại lai  Trong  phần  mềm  có chức năng lưu ra tệp Excel  các  phân  tử  ngoại lai  để  giúp  cho  việc  thống  kê,  chỉnh  sửa  dữ  liệu - Thuật toán phát hiện phần tử ngoại lai và Ứng dụng
Hình 39. Kết quả âm phân tử ngoại lai Trong phần mềm có chức năng lưu ra tệp Excel các phân tử ngoại lai để giúp cho việc thống kê, chỉnh sửa dữ liệu (Trang 61)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w