BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU ĐÁNH GIÁ XE

Đối tượng và phương pháp nghiên cứu Đề tài tập chung vào nghiên cứu kỹ thuật phân lớp trong khai phá dữu liệucụ thể là nghiên cứu thuật toán Naive bayes để áp dụng vào việc phân tích cơ

KHAI PHÁ DỮ LIỆU

Tổng quan về kỹ thuật Khai phá dữ liệu (Data Mining)

2.1.1 Khái niệm về Khai phá dữ liệu

Khai phá dữ liệu (data mining) là quá trình tính toán nhằm phát hiện các mẫu ẩn trong các bộ dữ liệu lớn, liên quan đến các phương pháp của máy học, thống kê và hệ quản trị cơ sở dữ liệu Mục tiêu chính của khai thác dữ liệu là trích xuất thông tin hữu ích từ dữ liệu và biến nó thành các cấu trúc dễ hiểu để sử dụng tiếp tục Quá trình này không chỉ bao gồm phân tích thô mà còn liên quan đến quản lý dữ liệu, xử lý dữ liệu trước, xây dựng mô hình và suy luận thống kê, xuất kết quả theo dạng hình ảnh và cập nhật trực tuyến Khai thác dữ liệu là bước quan trọng trong quá trình "khám phá kiến thức trong cơ sở dữ liệu" (KDD), giúp chuyển đổi dữ liệu thành kiến thức giá trị cho các ứng dụng thực tiễn.

Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge Discovery Process), bao gồm:

• Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding).

Effective data preparation is essential for successful analytics, encompassing key processes such as data cleaning to eliminate inaccuracies, data integration to combine multiple sources seamlessly, data selection to focus on relevant information, and data transformation to convert data into suitable formats for analysis.

Khai thác dữ liệu (Data mining) là quá trình xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật phù hợp để phân tích dữ liệu Quá trình này cho ra một nguồn tri thức thô, giúp doanh nghiệp và tổ chức hiểu rõ hơn về dữ liệu của mình Việc khai thác dữ liệu đóng vai trò quan trọng trong việc khám phá thông tin hữu ích và hỗ trợ ra quyết định chính xác.

• Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được.

Quá trình khai thác tri thức không chỉ là một chu trình tuần tự từ bước đầu tiên đến bước cuối cùng, mà còn là một quá trình lặp lại, có sự quay trở lại các bước đã qua để tối ưu hóa và nâng cao hiệu quả Quá trình này đòi hỏi sự liên tục điều chỉnh và cải tiến để khai thác tri thức một cách sâu sắc và toàn diện hơn Chính nhờ tính chất lặp đi lặp lại này, quá trình khai thác tri thức ngày càng trở nên hiệu quả và phù hợp với những thay đổi diễn ra trong môi trường dữ liệu.

2.1.2 Quy trình khai phá dữ liệu

Trong quá trình sử dụng Data mining, việc nghiên cứu lĩnh vực cụ thể giúp xác định các tri thức cần thiết để tập trung lọc dữ liệu chính xác Điều này giúp định hướng rõ ràng, tránh lãng phí thời gian vào những tri thức không phù hợp hoặc không cần thiết Việc lựa chọn đúng dữ liệu sẽ tối ưu hóa hiệu quả của quá trình phân tích, góp phần nâng cao chất lượng quyết định Nghiên cứu lĩnh vực kỹ lưỡng là bước quan trọng để đảm bảo rằng các tri thức extracted từ Data mining phù hợp và giá trị cho tổ chức.

2.1.2.2 Tạo tập tin dữ liễu đầu vào

Ta xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính có thể lưu trữ và xử lý.

2.1.2.3 Tiền xử lý, làm sạch, mã hóa Ở bước này ta tiến hành bỏ bớt những dữ liệu rườm rà, không cần thiết, tinh chỉnh lại cấu trúc của dữ liệu và mã hóa chúng để tiện cho quá trình xử lý

Trong xử lý dữ liệu, tập dữ liệu có chiều lớn thường sinh ra lượng dữ liệu khổng lồ, với ví dụ n chiều sẽ có đến 2^n nguyên tổ hợp Chính vì vậy, giảm số chiều dữ liệu là bước quan trọng giúp tiết kiệm tài nguyên trong quá trình khai thác tri thức Một phương pháp phổ biến để thực hiện điều này là sử dụng Rough Set, một kỹ thuật giúp giảm chiều dữ liệu hiệu quả, từ đó tối ưu hóa quá trình xử lý và phân tích dữ liệu.

2.1.2.5 Chọn tác vụ khai thác dữ liệu Để đạt được mục đích ta cần, ta chọn được tác vụ khai thác dữ liệu sao cho phù hợp.Thông thường có các tác vụ sau:

2.1.2.6 Chọn các thuật giải khai thác dữ liệu

2.1.2.7 Khai thác dữ liệu: Tìm kiếm tri thức

Sau khi tiến hành các bước trên thì đây là bước chính của cả quá trình , ta sẽ tiến hành khai thác và tìm kiếm tri thức.

2.1.2.8 Đánh giá mẫu tìm được

Ta cần đánh giá lại trong các tri thức tìm được , ta sẽ sử dụng được những tri thức nào , những tri thức nào dư thừa,không cần biết

Biểu diễn tri thức là quá trình chuyển đổi kiến thức thu thập được thành dạng ngôn ngữ tự nhiên và hình thức phù hợp, nhằm giúp người dùng dễ dàng hiểu và sử dụng những tri thức đó Đây là bước quan trọng để đảm bảo thông tin được truyền đạt một cách rõ ràng, dễ tiếp cận và ứng dụng trong các hệ thống trí tuệ nhân tạo Việc biểu diễn tri thức hiệu quả không chỉ nâng cao khả năng hiểu biết mà còn hỗ trợ tối ưu hóa quá trình xử lý dữ liệu và ra quyết định tự động.

2.1.2.10 Sử dụng các tri thức vừa khám phá

Ta có thể tham khảo tiến trình KDD( Knowledge Discovery in Databases) để hiểu rõ hơn về khai phá dữu liệu:

Hình 2.1: Knowledge Discovery in Databases

Data preparation is a crucial step in the data analysis process, involving data cleaning to remove inconsistencies and errors, data integration to combine information from multiple sources, data selection to identify the most relevant data, and data transformation to convert data into suitable formats for analysis Proper data preparation ensures high-quality, reliable data that enhances the accuracy and effectiveness of subsequent data analysis and machine learning models.

Trong quá trình khai thác dữ liệu, việc xác định nhiệm vụ phù hợp và lựa chọn kỹ thuật khai thác dữ liệu là bước đầu tiên để tạo ra nguồn tri thức sơ bộ Tiếp theo, quá trình đánh giá dựa trên các tiêu chí rõ ràng giúp kiểm tra và lọc nguồn tri thức thu được, đảm bảo kết quả cuối cùng chính xác và hữu ích cho các mục đích phân tích và ra quyết định.

Quá trình khai thác tri thức không phải là một chuỗi các bước tuyến tính mà là một quá trình lặp đi lặp lại, có sự quay trở lại các bước đã thực hiện để hoàn thiện kiến thức Việc này giúp đảm bảo chất lượng và độ chính xác của tri thức được khai thác một cách hiệu quả nhất Quá trình này đòi hỏi sự linh hoạt và liên tục cập nhật, nhằm phát hiện các kiến thức mới và cải thiện các bước đã qua Nhờ vào phương pháp này, doanh nghiệp có thể tối ưu hóa quá trình khai thác tri thức, từ đó nâng cao năng lực cạnh tranh và thúc đẩy sự phát triển bền vững.

2.1.3 Ứng dụng của Khai phá dữ liệu

Kinh tế ứng dụng trong các lĩnh vực kinh doanh, tài chính, tiếp thị bán hàng, bảo hiểm, thương mại và ngân hàng giúp đưa ra các báo cáo chi tiết, phân tích sâu sắc trước khi xây dựng chiến lược phát triển Việc này cho phép doanh nghiệp phân loại khách hàng chính xác, từ đó xác định rõ thị trường mục tiêu và thị phần phù hợp Nhờ các phân tích kinh tế chính xác, doanh nghiệp có thể định hướng chiến lược kinh doanh hiệu quả, tối ưu hóa sản xuất và mở rộng thị trường Đáp ứng nguyên tắc SEO, nội dung này giúp tăng cường hiển thị trực tuyến và nâng cao khả năng tiếp cận khách hàng tiềm năng.

Khoa học: Thiên văn học - dự đoán đường đi các thiên thể, hành tinh, ; Công nghệ sinh học – tìm ra các gen mới, cây con giống mới,…

Web: các công cụ tìm kiếm.

Tổng quan về hệ hỗ trợ ra quyết định

Hệ thống hỗ trợ ra quyết định là một thành phần quan trọng của hệ thống thông tin, nhằm cung cấp các thông tin cần thiết để hỗ trợ quá trình ra quyết định Hệ thống này phục vụ cả cá nhân lẫn tổ chức, giúp họ giải quyết vấn đề một cách hiệu quả Ngoài ra, hệ thống hỗ trợ ra quyết định có thể hoạt động theo phương thức hỗ trợ trực tiếp hoặc gián tiếp, tùy thuộc vào nhu cầu và mục tiêu của người dùng.

Hình 2.2: Sơ đồ hệ hỗ trợ quyết định

Bài toán phân lớp trong khai phá dữ liệu

2.3.1 Khái niệm về phân lớp

Phân lớp là phương pháp phân tích dữ liệu nhằm xác định các mô hình mô tả các lớp trong dữ liệu Các mô hình này, còn gọi là mô hình phân lớp (classifier hoặc classification), được sử dụng để dự đoán nhãn lớp dựa trên dữ liệu mới Phân lớp đặc biệt hữu ích trong việc phân loại các đối tượng dữ liệu theo các nhãn có tính phân loại (categorical), không có thứ tự rời rạc và rõ ràng.

2.3.2 Quá trình phân lớp dữ liệu

Một quá trình phân lớp dữ liệu gồm 2 bước:

 Bước thứ nhất: Học/Huấn luyện:

Quá trình học trong xây dựng mô hình phân lớp (Classifier) nhằm xác định các lớp dữ liệu dựa trên tập dữ liệu đã được xác định trước Giai đoạn huấn luyện sử dụng các thuật toán phân loại (Classification Algorithms) để phân chia các bản ghi dữ liệu thành các lớp mục tiêu Tập huấn luyện là tập dữ liệu có cấu trúc rõ ràng, gồm các thuộc tính và các bộ dữ liệu liên quan, giúp mô hình học hỏi và dự đoán chính xác hơn.

Ở bước thứ hai (Hình 2.3), mô hình phân lớp đã được xây dựng ở bước trước sẽ được sử dụng để phân loại các dữ liệu mới, giúp xác định nhãn lớp chính xác cho từng bản ghi Quá trình này diễn ra qua việc sử dụng tập kiểm tra gồm các bản ghi kiểm tra và nhãn lớp tương ứng để so sánh kết quả đầu ra của bộ phân lớp, từ đó đánh giá hiệu quả của mô hình Các bản ghi kiểm tra này chưa được dùng để xây dựng mô hình phân lớp ban đầu, mà chỉ để kiểm tra độ chính xác và khả năng phân loại của mô hình đã có.

1 Kết quả mô hình phân lớp như sơ đồ sau:

Hình 2.3: Kết quả quá trình phân lớp

IF a = n and c = y and d = y then class x

Một số vấn đề cho bộ phân lớp cần quan tâm giải quyết:

 Độ chính xác: Độ tin cậy của một luật dựa vào độ chính xác khi phân lớp.

 Tốc độ: Trong một số tình huống, tốc độ phân lớp được xem như là một yếu tố quan trọng.

Một bộ phân lớp dễ hiểu giúp tăng độ tin cậy của người dùng đối với hệ thống, đồng thời giảm thiểu các hiểu lầm về kết quả do luật được hệ thống đưa ra.

 Đơn giản: Kết quả đưa ra cây quyết định liên quan kích thước của nó.

Thời gian học ngắn là yếu tố then chốt khi hệ thống hoạt động trong môi trường liên tục thay đổi Để duy trì hiệu quả, hệ thống cần học nhanh các luật phân lớp mới hoặc điều chỉnh các luật đã học một cách linh hoạt phù hợp với thực tế Điều này giúp hệ thống thích nghi nhanh chóng với các biến đổi của môi trường và cải thiện hiệu suất ra quyết định.

Các kỹ thuật phân lớp:

 Mô hình phân lớp dùng cây quyết định (Decision tree classification)

 Phân lớp dùng mạng Neural

 Phân lớp dùng mạng Bayes

 Phân lớp với K-nearest neighbor classifier

 Các thuật toán di truyền

 Phương pháp tập thô (Rough set Approach)

XÂY DỰNG MÔ HÌNH DỮ LIỆU SỬ DỤNG NAIVE BAYES

Cơ sở dữ liệu xây dựng mô hình

Sau khi thu thập dữ liệu ta cần xây dựng cơ sở dữ liệu lưu trữ các thông tin cần thiết cho bộ điều khiển theo mô hình sau:

Hình 3.1: Mô hình xây dựng dự đoán trang web lừa đảo

Phương pháp Bayes sử dụng trong khai phá dữ liệu

3.2.1 Giới thiệu về phương pháp Bayes trong khai phá dữ liệu

Phân loại là quá trình gắn nhãn phù hợp nhất cho các phần tử mới dựa trên biến quan sát của chúng, đóng vai trò quan trọng trong nhận dạng không giám sát của thống kê Đây là một lĩnh vực ứng dụng rộng rãi trong nhiều ngành, bao gồm xã hội học, sinh học và y học Hiện nay, có ba phương pháp chính được sử dụng để giải quyết bài toán phân loại: phương pháp Fisher, phương pháp hồi quy logistic và phương pháp Bayes.

Phương pháp hồi quy logistic hiện nay là phương pháp phổ biến nhất để phân loại dữ liệu Tuy nhiên, nó chỉ áp dụng cho dữ liệu rời rạc và chỉ phù hợp với các bài toán phân loại nhị phân, tức là phân loại thành hai nhóm chính.

Fisher áp dụng phương pháp cho dữ liệu rời rạc, nhưng yêu cầu giả thiết về ma trận hiệp phương sai bằng nhau của các tổng thể Phương pháp Bayes có khả năng phân loại cho nhiều hơn hai tổng thể và được xem là phương pháp tối ưu về lý thuyết, nhờ khả năng tính xác suất sai lầm (sai số Bayes), được chứng minh là nhỏ nhất trong các phương pháp phân loại Gần đây, các nghiên cứu tập trung nâng cao hiệu quả của phương pháp Bayes, mặc dù việc tính toán sai số Bayes gặp nhiều khó khăn trong thực tế do dữ liệu rời rạc và lượng lớn dữ liệu Tuy nhiên, xác định hàm mật độ xác suất phù hợp là bước nền tảng để phân loại bằng Bayes, đồng thời, đề tài này giới thiệu công thức tính Sai số Bayes thay thế, giúp thuận tiện hơn trong tính toán và áp dụng phương pháp Bayes trong các lĩnh vực thực tế.

Phương pháp phân lớp Naive Bayes dựa trên Định lý Bayes, cho phép tính xác suất của một lớp học dựa trên các đặc trưng quan sát được Định lý Bayes giúp ước lượng xác suất xảy ra của sự kiện A khi biết sự kiện liên quan B đã xảy ra, ký hiệu là P(A|B), tức là "xác suất của A nếu có B" Phương pháp này sử dụng xác suất có điều kiện để dự đoán chính xác lớp của dữ liệu mới dựa trên các đặc điểm đã biết, giúp nâng cao hiệu quả trong các nhiệm vụ phân loại và xử lý dữ liệu.

Trong lý thuyết xác suất, xác suất xảy ra của sự kiện A dựa trên thông tin đã biết về sự kiện B được xác định theo định lý Bayes, trong đó giá trị của A phụ thuộc vào giá trị của B hoặc có liên hệ chặt chẽ với nó Theo định lý Bayes, xác suất xảy ra của A khi biết B phụ thuộc vào ba yếu tố quan trọng, giúp cải thiện độ chính xác trong các dự đoán và phân tích tình huống Những yếu tố này bao gồm xác suất trước của A, xác suất của B và khả năng xảy ra của B khi A xảy ra, từ đó tối ưu hoá các phép tính xác suất có điều kiện Áp dụng định lý Bayes giúp nâng cao hiệu quả trong các lĩnh vực như thống kê, trí tuệ nhân tạo và phân tích dữ liệu, đáp ứng các yêu cầu về tối ưu hoá thông tin và dự đoán chính xác.

Xác suất xảy ra A độc lập với B, được ký hiệu là P(A), tượng trưng cho xác suất biên duyên hoặc xác suất tiên nghiệm (prior) Xác suất này đề cập đến khả năng xảy ra của A mà không cần xem xét dữ liệu hoặc thông tin về B, thể hiện tính "tiên nghiệm" của nó trong quá trình phân tích xác suất.

Xác suất xảy ra B độc lập với A, ký hiệu là P(B), còn gọi là xác suất của B Đây là đại lượng cố định hay còn gọi là hằng số chuẩn hóa, vì luôn giữ giá trị không đổi, không phụ thuộc vào sự kiện A mà chúng ta muốn biết.

Xác suất xảy ra B khi biết A đã xảy ra, ký hiệu là P(B|A), được gọi là xác suất có điều kiện của B khi A xảy ra Đây là đại lượng đo lường khả năng xảy ra của B trong điều kiện đã biết A đã xảy ra, giúp xác định mức độ liên hệ giữa hai biến Lưu ý không nhầm lẫn giữa khả năng xảy ra A khi biết B và xác suất xảy ra B khi biết A, vì đây là hai khái niệm khác nhau trong lý thuyết xác suất.

Khi biết ba đại lượng trên, xác suất của A khi biết B cho bởi công thức:

Khi có n giả thuyết thì:

Phương pháp Nạve Bayes phù hợp các bài tốn cĩ yêu cầu về chi phí xuất hiện của các giá trị thuộc tính.

- Thiết kế hệ thống phân lớp thường dễ dàng hơn so với các phương pháp khác.

- Các thuộc tính trong tập mẫu học phải độc lập với điều kiện.

- Độ chính xác thuật toán phân lớp phụ thuộc nhiều vào tập dữ liệu học ban đầu.

Nguyên tắc hoạt động của bộ phân lớp Nạve Bayes:

1 Cho D là tập dữ liệu huấn luyện cùng với các nhãn lớp tương ứng Như thường lệ, mỗi bộ dữ liệu được mô tả bởi n thuộc tính và được diễn đạt dưới dạng vector n chiều X = (x1, x2,x3,…,xn).

2 Giả sử rằng có m nhãn lớp khác nhau gồm C1, C2,…, Cm Cho một bộ dữ liệu

X, bộ phân lớp sẽ dự đoán X thuộc về phân lớp có xác suất hậu nghiệm cao nhất.

3 Do P(X) không đổi, nên ta chỉ cần cực đại hóa giá trị P(X|Ci)P(Ci).

Ví dụ: Dữ liệu được minh họa như hình:

Có 2 lớp: xanh và đỏ; N: tổng số đối tượng

Với các xác suất tiên nghiệm đã xác định ở trên: P(xanh) và P(đỏ) hãy xác định nhãn lớp cho các đối tượng x mới trên hình.

Lấy x làm tâm, vẽ vòng tròn giới hạn các đối tượng lân cận với x, tính:

P(x|xanh) = |xanh lân cận|/|xanh| = 1/40

P(x|đỏ) = |đỏ lân cận|/|đỏ| = 3/20

P(đỏ|x) = P(x|đỏ).P(đỏ) = (3/20 * 20/60) = 1/20 x được gán nhãn đỏ.

3.2.2 Thuật toán Bayes a, Phân loại một phần tử mới

Trong nguyên tắc phân loại dựa trên phương pháp Bayes, tổng thể gồm các lớp w1, w2, , wk có hàm mật độ xác suất xác định lần lượt là f1(x), f2(x), , fk(x), với xác suất tiên nghiệm q1, q2, , qk sao cho tổng q1 + q2 + + qk = 1 Để phân loại phần tử mới có đặc trưng quan sát x, ta tính tỷ số g(x) = q_i * f_i(x) và chọn lớp wj khi giá trị của g(x) đạt cực đại, tức là x được gán vào lớp wj nếu g_j(x) = max {g1(x), g2(x), , gk(x)} Trong đó, qi là xác suất tiên nghiệm của lớp i, và g(x) phản ánh khả năng phần tử thuộc từng lớp dựa trên dữ liệu quan sát Sai số Bayes liên quan đến khả năng phân loại sai lệch khỏi nhãn thực của phần tử, ảnh hưởng lớn đến hiệu quả của các thuật toán phân loại dựa trên lý thuyết Bayes.

Trong trường hợp không quan tâm đến xác suất tiên nghiệm q của w1 , ta có:

1  = P(w2|w1) = qf  dx n R x  2 1 : xác suất phân loại một phần tử vào w2 khi nó thuộc w1

 = P(w1|w2) = q f  dx n R x   1 2 ( : xác su 1 ) ất phân loại một phần tử vào w1 khi nó thuộc w2

Xác suất sai lầm trong phân loại Bayes được gọi là sai số Bayes và được xác định bởi công thức:

Khi quan tâm đến xác suất tiên nghiệm q của w1 thì 1  trở thành 1   và 2  trở thành 2   với:

Trong đó: Đặt (q)  (q, 1 q), khi đó sai số Bayes xác định bởi:

 và 2  ; 1   và 2   được gọi chung là hai thành phần của sai số Bayes.

 Trường hợp nhiều hơn 2 tổng thể:

Trong phân loại k tổng thể, sai số Bayes được xác định bởi một biểu thức rõ ràng nhằm đo lường mức độ chính xác của mô hình Để thuận tiện hơn trong việc tính toán sai số Bayes, người ta thường tính xác suất của phân loại đúng, từ đó dễ dàng xác định sai số Bayes là mức độ sai lệch so với các dự đoán chính xác Việc hiểu rõ cách xác định và tính toán sai số Bayes giúp cải thiện độ chính xác của các mô hình phân loại trong thống kê và học máy.

Thuật tốn Nạve Bayes trong giải quyết bài tốn khai phá dữ liệu về ô tô kém chất lượng

3.3.1 Lý do chọn thuật tốn Nạve Bayes

Theo thống kê, 99% thông tin trên Web là vô ích đối với 99% người dùng Các phần của trang Web không được quan tâm thường bị đẩy vào kết quả tìm kiếm, gây khó khăn trong việc truy cập thông tin chất lượng cao Để tối ưu hóa quá trình khai phá Web, cần tìm hiểu cách xác định và khai thác dữ liệu phù hợp với tiêu chuẩn của người dùng Việc tìm kiếm trên Internet khác biệt so với tìm kiếm trong cơ sở dữ liệu truyền thống, đặt ra những thách thức lớn trong nghiên cứu khai phá và sử dụng tài nguyên trực tuyến Thông tin trên các trang Web đa dạng, đòi hỏi các phương pháp tìm kiếm thông minh để lọc và cung cấp nội dung hữu ích nhất cho người dùng.

Trong lĩnh vực này, sự đa dạng về nội dung và hình thức của các website mang lại nhiều lợi ích, nhưng cũng phát sinh vấn đề về các trang web lừa đảo Một trong những thách thức lớn đối với nghiên cứu là thiếu hụt dữ liệu đào tạo đáng tin cậy để phát triển các mô hình phân loại chính xác Thực tế, đây là thách thức chung mà mọi nhà nghiên cứu đều phải đối mặt khi làm việc trong lĩnh vực này.

3.3.2 Tập dữ liệu ô tô kém chất lượng

Một trong những thách thức lớn trong nghiên cứu của chúng tôi là thiếu các bộ dữ liệu đào tạo đáng tin cậy, điều này cũng là vấn đề chung của nhiều nhà nghiên cứu trong lĩnh vực này Mặc dù đã có nhiều bài viết về dự đoán trang web lừa đảo dựa trên các kỹ thuật khai thác dữ liệu, hiện vẫn chưa có tập dữ liệu đào tạo chính thức nào được công bố, có thể do thiếu sự thống nhất về các tính năng đặc trưng rõ ràng của các trang web lừa đảo Thách thức này làm cho việc xây dựng một tập dữ liệu toàn diện, phản ánh đầy đủ các đặc điểm của các trang web lừa đảo trở nên khó khăn.

Trong bài viết này, chúng tôi đã làm sáng tỏ các tính năng quan trọng đã được chứng minh là hợp lý và hiệu quả trong việc dự đoán các trang web lừa đảo, giúp nâng cao khả năng nhận diện và phòng chống các mối đe dọa trực tuyến.

Tập dữ liệu này gồm các thuộc tính như sau:

Các thuộc tính trên thanh địa chỉ:

Việc sử dụng địa chỉ IP thay thế cho tên miền trong URL, như http://125.98.3.123/fake.html hoặc mã thập phân như http://0x58.0xCC.0xCA.0x62/2/paypal.ca/index.html, có thể giúp người dùng nhận biết rằng các hacker đang cố gắng lừa đảo hoặc lấy cắp thông tin cá nhân của họ Điều này nhấn mạnh tầm quan trọng của việc kiểm tra kỹ URL để đảm bảo an toàn khi truy cập các trang web.

Cybercriminals often use long, complex URLs to hide suspicious or malicious content in the address bar, making it harder for users to recognize phishing attempts For example, they may include lengthy, obscured URLs like "http://federmacedoadv.com.br/3f/aze/ab51e2e319e51502f416dbe46b773a5e/?" with encoded parameters to mask their true intent Using such lengthy URLs can deceive users into clicking malicious links, highlighting the importance of scrutinizing web addresses for signs of phishing Recognizing these tactics is essential for online safety and avoiding cyber scams.

Rút ngắn URL là phương pháp giúp giảm độ dài của URL trên Web, giúp việc chia sẻ liên kết trở nên dễ dàng hơn Dịch vụ rút ngắn URL như TinyURL sử dụng phương tiện chuyển hướng HTTP để biến các URL dài thành các liên kết ngắn hơn, dễ nhớ và tiện lợi Ví dụ, URL dài như http://portal.hud.ac.uk/ có thể được rút ngắn thành dạng bit.ly/19DXSk4, vẫn dẫn đến đúng trang web ban đầu Việc này không chỉ tiết kiệm dung lượng mà còn cải thiện trải nghiệm người dùng khi chia sẻ liên kết trên các nền tảng mạng xã hội.

Trong URL, việc sử dụng ký tự "@" thường gây ra sự nhầm lẫn vì trình duyệt sẽ bỏ qua phần trước biểu tượng này và truy cập trực tiếp vào địa chỉ thực sau ký tự "@" Điều này có thể ảnh hưởng đến hiển thị và chức năng của liên kết, khiến người dùng gặp khó khăn trong việc truy cập chính xác nội dung mong muốn Việc hiểu rõ tác động của ký tự "@" trong URL giúp tối ưu hóa cấu trúc liên kết và nâng cao trải nghiệm người dùng.

Trong URL, việc sử dụng ký hiệu “//” thể hiện việc chuyển hướng đến một trang web khác Cụ thể, tên // // trong đường dẫn URL cho biết người dùng sẽ được chuyển hướng từ URL ban đầu sang một trang web mới Ví dụ về URL chứa ký hiệu này là: http://www.legitimate.com//http://www.phishing.com, trong đó phần sau của URL thể hiện một trang web lừa đảo cần cảnh giác khi truy cập.

Việc thêm tiền tố hoặc hậu tố phân tách bằng dấu gạch ngang (-) vào tên miền thường được kẻ lừa đảo sử dụng để tạo ra các URL giả mạo trông giống trang web hợp pháp Dấu gạch ngang trong URL hiếm khi xuất hiện trong các tên miền chính thống, nhưng các đối tượng xấu lợi dụng để đánh lừa người dùng Một ví dụ phổ biến là địa chỉ URL như http://www.Confirme-paypal.com/ khiến người truy cập dễ nhầm lẫn và tin rằng đó là trang web chính thức của PayPal Điều này giúp kẻ gian dễ dàng lừa đảo, lấy cắp thông tin cá nhân hoặc tài chính của người dùng Vì vậy, người dùng cần cẩn trọng khi truy cập các URL có chứa dấu gạch ngang hoặc các yếu tố gây nghi ngờ để tránh bị lừa đảo trực tuyến.

Sub Domain and Multi Sub Domains: ví dụ như liên kết sau: http://www.hud.ac.uk/students/.

Https: Sự tồn tại của HTTPS rất quan trọng về tính hợp pháp của trang web.

Thời gian đăng ký tên miền là yếu tố quan trọng để đánh giá mức độ tin cậy của website Các trang web lừa đảo thường có thời gian tồn tại ngắn, chỉ trong vòng một năm, trong khi các tên miền đáng tin cậy thường được trả trước đăng ký từ vài năm để đảm bảo sự ổn định Trong dữ liệu phân tích, chúng tôi nhận thấy rằng tên miền lừa đảo có thời gian sử dụng tối đa chỉ trong một năm, phản ánh tính chất tạm thời và không đáng tin cậy của các trang web này.

Favicon là biểu tượng đồ họa liên kết với trang web, giúp người dùng nhận diện dễ dàng trong thanh địa chỉ trình duyệt Việc hiển thị favicon từ một tên miền khác có thể gây nhầm lẫn và làm tăng nguy cơ lừa đảo, do đó, favicon là một yếu tố quan trọng trong nhận diện thương hiệu và đảm bảo an toàn cho người truy cập.

Các thuộc tính bất thường:

Yêu cầu URL cho phép kiểm tra xem các đối tượng bên ngoài như hình ảnh, video và âm thanh có được tải từ tên miền khác hay không Trong các trang web hợp pháp, địa chỉ trang web và các đối tượng nhúng trong trang thường chia sẻ cùng một tên miền, đảm bảo tính xác thực và bảo mật cho người dùng Việc kiểm tra các đối tượng từ các tên miền khác giúp phát hiện các yếu tố khả nghi hoặc không đáng tin cậy, góp phần nâng cao an toàn khi duyệt web.

Các trang web hợp pháp thường sử dụng thẻ để cung cấp dữ liệu siêu dữ liệu quan trọng về tài liệu HTML, đồng thời việc sử dụng các thẻ và giúp liên kết với các tài nguyên mở rộng như CSS, JavaScript và các tài liệu liên quan, từ đó đảm bảo hoạt động hiệu quả của trang web.

để tạo tập lệnh phía máy khách; và các thẻ để lấy các tài nguyên web khác.

Server Form Handler (SFH) là các dạng xử lý mẫu gửi dữ liệu từ người dùng, trong đó các SFH chứa chuỗi trống hoặc khoảng trống, điều này có thể là dấu hiệu đáng ngờ vì dữ liệu gửi đi thường cần có thông tin rõ ràng Ngoài ra, nếu tên miền của SFH khác với tên miền chính của trang web, đây cũng là một dấu hiệu cảnh báo về khả năng trang web đó có hoạt động đáng ngờ, vì thông tin gửi đi thường được xử lý bởi các tên miền nội bộ đáng tin cậy.

Submitting Information to Email Bắt đăng nhập bằng email.

Abnormal URL: địa chỉ bất thường.

Các tính năng dựa trên HTML và JavaScript:

THỰC NGHIỆM VÀ ĐÁNH GIÁ

Xây dựng mơ hình Nạve Bayes bằng Weka

Hình 4.1: Nhập dữ liệu vào Weka

Hình 4.3: Đầu ra phân lớp

Chế độ kiểm tra: Xác thực chéo 10 lần.

Hình 4.4: Đầu ra phân lớp bằng Nạve Bayes thuộc tính buying

Kết quả kiểm tra Nạve bayes

Trường hợp phân loại chính xác

Trường hợp phân loại không chính xác

Lỗi tương đối tuyệt đối 100.1788%

Lỗi bình phương gốc tương đối 100.1868%

Hình 4.5: Đầu ra phân lớp bằng Nạve Bayes thuộc tính safety

Kết quả kiểm tra Nạve bayes

Trường hợp phân loại chính xác

% Trường hợp phân loại không chính xác

Lỗi tương đối tuyệt đối 100.2009%

Lỗi bình phương gốc tương đối 100.21%

Tiêu đề	Khai Phá Dữ Liệu Đánh Giá Xe
Tác giả	Phạm Văn Đạt, Nguyễn Thanh Tùng, Đỡ Đăng Tuệ
Người hướng dẫn	TS. Vũ Văn Định
Trường học	Trường Đại học Điện lực
Chuyên ngành	Công nghệ Thông tin
Thể loại	Báo cáo chuyên đề học phần
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	34
Dung lượng	834,46 KB