1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động

42 920 6

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 42
Dung lượng 1,11 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Qua một thời gian tìm hiểu, em chọn đề tài cho bài thu hoạch của mình là: “Tìm hiểu,xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phươngpháp Bayes trong b

Trang 1

MỤC LỤC LỜI CÁM ƠN 1

LỜI MỞ ĐẦU 2

PHẦN 1: CƠ SỞ LÝ THUYẾT 4

1.1 Quá trình khám phá tri thức: 4

1.2 Khái niệm Text Mining: 6

1.2.1 Khai phá dữ liệu (Data Mining): 6

1.2.2 Kiến trúc của một hệ thống khai phá dữ liệu: 8

1.2.3 Ý nghĩa và vai trò của khai phá dữ liệu: 9

1.2.4 Khai phá dữ liệu văn bản (Text Mining): 10

1.3 Bài toán phân loại văn bản (Text categorization): 13 1.3.1 Khái niệm phân loại văn bản: 13

1.3.2 Các phương pháp phân loại văn bản: 13

1.3.2.1 Nguyên mẫu: 13

1.3.2.2 Mô hình xác suất Naive Bayes: 14

1.3.2.3 Phương pháp dựa trên cây quyết định 15

1.3.2.4 Phương pháp phân loại văn bản K-NN (K – Nearest Neighbor) 15

1.3.2.5 Phương pháp Support Vector Machine: 15

1.3.2.6 Sử dụng từ điển phân cấp chủ đề: 17

1.4 Bài toán thu thập thông tin (Information retrieval - IR) 18 1.4.1 Khái niệm thu thập thông tin: 18

1.4.2 Các phương pháp thu thập thông tin: 19

1.4.2.1 Các phương pháp chuẩn: 20

1.4.2.1.1 Mô hình Boolean: 20

1.4.2.1.1.1 Các hàm so sánh: 20

1.4.2.1.1.2 Tìm kiếm tuần tự: 21

1.4.2.1.1.3 Thực hiện: 21

1.4.2.1.2 Mô hình không gian vec-tơ (Vector space model - VSM) 22

1.4.2.1.2.1 Tiếp cận phương thức TF * IDF: 23

1.4.2.1.2.2 Độ tương đồng (similarity) 24

1.4.2.1.2.3 Thực hiện: 25

1.4.2.2 Các phương pháp dựa trí tuệ nhân tạo (AI-based method): 26

Trang 2

1.4.2.2.1 Kỹ thuật mạng Nơ-ron (Neural network) 26

1.4.2.2.2 Tổng quan về mạng nơ-ron 27

1.4.2.2.3 Mô hình truyền ngược ba lớp 28

1.4.2.2.4 Chức năng của mạng: 30

PHẦN 2: MỘT SỐ ỨNG DỤNG KHAI PHÁ DỮ LIỆU VĂN BẢN 33 2.1 Ứng dụng phương pháp NAIVE BAYES trong bộ lọc thư rác tự động: 33 2.1.1 Các công nghệ lọc thư rác hiện nay 33

2.1.2 Quá trình hoạt động của bộ lọc thư rác Bayes 34

2.1.3 Sự hoạt động của các bộ lọc thư rác thực tế 35

2.1.4 Các ưu điểm của bộ lọc thư rác Bayes 35 2.2 Cài đặt và thử nghiệm ứng dụng khai phá dữ liệu văn bản trong một bệnh viện: 35

KẾT LUẬN 38

TÀI LIỆU THAM KHẢO 39

Trang 4

LỜI CÁM ƠN



Trong thời gian thực hiện đề tài, em đã nhận được rất nhiều sự động viên, khích lệ

và hỗ trợ từ phía thầy cô, cha mẹ và bạn bè

Con xin gửi tất cả lòng biết ơn và sự kính trọng của con đến cha mẹ cùng toàn thểgia đình, những người đã sinh thành, dưỡng dục và luôn ở bên con, ủng hộ và giúp đỡcon trong quá trình học tập

Em cảm ơn khoa Công nghệ Thông tin, trường Đại học Công nghệ Thông tin đã tạođiều kiện cho em thực hiện đề tài

Em xin gửi lời cảm ơn tới các thầy cô trong khoa công nghệ thông tin nói chung, bộmôn khoa học máy tính nói riêng đã tạo điều kiện giúp đỡ, truyền đạt những kiến thức và

kỹ năng cần thiết để em hoàn thành nhiệm vụ học tập của mình

Xin chân thành cảm ơn thầy PGS.TS Đỗ Phúc đã tận tình giảng dạy và hướng dẫn

để em hoàn thành đề tài này Em cũng xin chân thành cảm ơn các bạn trong lớp đã độngviên và chia sẻ kinh nghiệm trong học tập nghiên cứu và giúp đỡ trong quá trình làm đềtài Tuy nhiên vì thời gian cũng như tri thức còn hạn chế, nên đề tài không tránh khỏinhững thiếu sót nhất định Rất mong nhận được mọi sự đóng góp ý kiến từ quý thầy cô vàbạn bè

Trang 5

LỜI MỞ ĐẦU

Bước sang thế kỷ 21, nhân loại đã chuyển từ xã hội công nghiệp sang xã hội thôngtin Với mạng Internet tốc độ cao ngày càng được mở rộng trên toàn thế giới, với việcứng dụng công nghệ thông tin ngày càng sâu hơn trong nhiều lĩnh vực, nhu cầu và khảnăng kết nối, chia sẻ thông tin của con người đang trở nên lớn hơn bao giờ hết Để không

bị tụt hậu lại phía sau, mọi quốc gia, mọi tổ chức kinh tế xã hội đều nhận thức được vaitrò quan trọng không thể thiếu của công nghệ thông tin trong việc nâng cao hiệu quả hoạtđộng, thúc đẩy sự phát triển của quốc gia, tổ chức mình

Tuy nhiên, trong thời đại của công nghệ thông tin nơi mà dữ liệu đa dạng và phongphú Người dùng thường bị choáng ngợp bởi lượng thông tin vô cùng to lớn và do đókhông thể tiếp nhận tất cả những lợi ích mà thông tin mang tới Khoa học máy tính đã bịthách thức để khám phá ra những cách tiếp cận mà có thể sắp xếp được lượng dữ liệu vôtận hiện có và tìm ra những đặc trưng thiết yếu cần có để phục vụ cho lợi ích của ngườidùng Những cách tiếp cận này phải có thể xử lí những lượng lớn dữ liệu trong thời giannhanh và loại bỏ những dữ liệu không liên quan hay không chính xác để trích xuất ranhững thông tin, tri thức quý báu cho chúng ta

Trong bối cảnh thông tin đang bùng nổ như hiện nay Khai thác dữ liệu và phát hiệntri thức sao cho có hiệu quả là điều cần thiết Kỹ thuật khai phá dữ liệu và phát triển trithức đã và đang được các nhà khoa học nghiên cứu, ứng dụng trong nhiều lĩnh vực Kỹthuật này có nhiều mô hình, giải thuật cũng như các phần mềm đã được nghiên cứu vàphát triển để khai phá dữ liệu và phát hiện tri thức tìm ẩn

Ở Việt Nam, việc ứng dụng công nghệ thông tin nói chung và khai phá dữ liệu nóiriêng vẫn còn hạn chế, lý do chủ yếu có thể là do hạ tầng mạng, công nghệ của Việt Namcòn chưa thực sự phát triển Tuy nhiên trong những năm trở lại đây tình hình đã được cảithiện rất tích cực

Trang 6

Qua một thời gian tìm hiểu, em chọn đề tài cho bài thu hoạch của mình là: “Tìm hiểu,xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phươngpháp Bayes trong bộ lọc thư rác tự động”.

Đồ án tập trung tìm hiểu về lý thuyết, một số kĩ thuật liên quan đến khai phá dữ liệuvăn bản và ví dụ về ứng dụng khai phá dữ liệu văn bản bằng phương pháp Naive Bayes

Trang 7

PHẦN 1: CƠ SỞ LÝ THUYẾT

Trong thời đại cơng nghệ thơng tin ngày nay, các cơng nghệ lưu trữ dữ liệu ngàycàng phát triển tạo điều kiện cho các cơng ty lưu trữ dữ liệu tốt hơn Đặc biệt trong lĩnhvực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng của việc nắm bắt và

xử lý thơng tin, nhằm giúp các chủ doanh nghiệp trong việc vạch ra các chiến lược kinhdoanh kịp thời mang lại những lợi nhuận to lớn cho doanh nghiệp của mình Chính vì lý

do đĩ mà các kho dữ liệu của các cơng ty ngày càng lớn và tiềm ẩn nhiều thơng tin cĩích Kỹ thuật khai phá dữ liệu (Data mining) ra đời như một kết quả thiết yếu nhằm đápứng các nhu cầu biến thơng tin thành tri thức cĩ ích

Ngồi ra, khai phá dữ liệu trong đĩ cĩ lĩnh vực khai phá dữ liệu văn bản (Textmining) là một lĩnh vực khoa học liên ngành mới xuất hiện gần đây nhằm đáp ứng nhucầu này Nhiều kỹ thuật khai phá dữ liệu văn bản đã được nghiên cứu và phát triển nhưNạve Bayes, cây quyết định, phương pháp Support vector machine,…

1.1 Quá trình khám phá tri thức:

Hình 1: Quá trình khám phá tri thức

Trang 8

Khám phá tri thức trong cơ sở dữ liệu là quy trình trọng yếu của nhận dạng hợp lệ,

tiểu thuyết, tiềm ẩn hữu ích, và mẫu hình dễ hiểu cuối cùng trong dữ liệu.( Frawley, W J

et al (1991))

Khám phá tri thức từ cơ sở dữ liệu là quy trình sử dụng cơ sở dữ liệu cùng với bất kỳlựa chọn yêu cầu, tiền xử lý, nhóm - lấy mẫu, và biến đổi nó ; để áp dụng phương phápkhai phá dữ liệu (thuật toán) để liệt kê mẫu hình từ nó; và để đánh giá sản phẩm của khai

phá dữ liệu để nhận dạng tập hợp con của mẫu hình liệt kê cho là kiến thức.( Fayyad,

U.M et al (1996) Advances in Knowledge Discovery and Data Mining MIT Press).Quá trình khám phá tri thức là một chuỗi lặp gồm các bước:

 Data cleaning (làm sạch dữ liệu)

 Data integration (tích hợp dữ liệu)

 Data selection (chọn lựa dữ liệu)

 Data transformation (biến đổi dữ liệu)

 Data mining (khai phá dữ liệu)

 Pattern evaluation (đánh giá mẫu)

 Knowledge presentation (biểu diễn tri thức)

Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với:

 Data sources (các nguồn dữ liệu)

 Data warehouse (kho dữ liệu)

 Task-relevant data (dữ liệu cụ thể sẽ được khai phá)

 Patterns (mẫu kết quả từ khai phá dữ liệu)

 Knowledge (tri thức đạt được)

Trang 9

Hình 2: Quá trình khám phá tri thức được thực thi 1.2 Khái niệm Text Mining:

1.2.1 Khai phá dữ liệu (Data Mining):

Khai phá dữ liệu là phân tích các dữ liệu và sử dụng các kỹ thuật để trích xuất tri thức

từ lượng dữ liệu rất lớn

Tri thức đạt được từ quá trình khai phá:

 Tri thức đạt được có thể có tính mô tả hay dự đoán tùy thuộc vào quá trình khaiphá cụ thể

o Mô tả (Descriptive): có khả năng đặc trưng hóa các thuộc tính chung của dữliệu được khai phá (Tình huống 1)

o Dự đoán (Predictive): có khả năng suy luận từ dữ liệu hiện có để dự đoán(Tình huống 2, 3, và 4)

 Tri thức đạt được có thể có cấu trúc, bán cấu trúc, hoặc phi cấu trúc

 Tri thức đạt được có thể được | không được người dùng quan tâm -> các độ đođánh giá tri thức đạt được

Trang 10

 Tri thức đạt được có thể được dùng trong việc hỗ trợ ra quyết định, điều khiển quytrình, quản lý thông tin, xử lý truy vấn …

Hình 3: tri thức đạt được từ quá trình khai phá dữ liệu

Hình 4: Khai phá dữ liệu là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết

và công nghệ.

Trang 11

1.2.2 Kiến trúc của một hệ thống khai phá dữ liệu:

Hình 5: Kiến trúc của một hệ thống khai phá dữ liệu

1 Database, data warehouse, World Wide Web, và information repositories:

 Thành phần này là các nguồn dữ liệu/thông tin sẽ được khai phá

 Trong những tình huống cụ thể, thành phần này là nguồn nhập (input) của các kỹ thuật tích hợp và làm sạch dữ liệu

2 Database hay data warehouse server:

 Thành phần chịu trách nhiệm chuẩn bị dữ liệu thích hợp cho các yêu cầu khai phá

Trang 12

 Thành phần chứa các khối chức năng thực hiện các tác vụ khai phá dữ liệu.

5 Pattern evaluation module:

 Thành phần này làm việc với các độ đo (và các ngưỡng giá trị) hỗ trợ tìm kiếm và đánh giá các mẫu sao cho các mẫu được tìm thấy là những mẫu được quan tâm bởingười sử dụng

 Thành phần này có thể được tích hợp vào thành phần Data mining engine

6 User interface:

 Thành phần hỗ trợ sự tương tác giữa người sử dụng và hệ thống khai phá dữ liệu

 Người sử dụng có thể chỉ định câu truy vấn hay tác vụ khai phá dữ liệu

 Người sử dụng có thể được cung cấp thông tin hỗ trợ việc tìm kiếm, thực hiện khaiphá dữ liệu sâu hơn thông qua các kết quả khai phá trung gian

 Người sử dụng cũng có thể xem các lược đồ cơ sở dữ liệu/kho dữ liệu, các cấu trúc

dữ liệu; đánh giá các mẫu khai phá được; trực quan hóa các mẫu này ở các dạng khác nhau

1.2.3 Ý nghĩa và vai trò của khai phá dữ liệu:

Hình 6: Sự tiến hóa của công nghệ hệ cơ sở dữ liệu

Trang 13

Công nghệ hiện đại trong lĩnh vực quản lý thông tin:

Hiện diện khắp nơi (ubiquitous) và có tính ẩn (invisible) trong nhiều khía cạnh củađời sống hằng ngày như: làm việc, mua sắm, tìm kiếm thông tin, nghỉ ngơi, …

Được áp dụng trong nhiều ứng dụng thuộc nhiều lĩnh vực khác nhau

Hỗ trợ các nhà khoa học, giáo dục học, kinh tế học, doanh nghiệp, khách hàng

1.2.4 Khai phá dữ liệu văn bản (Text Mining):

Khai phá dữ liệu văn bản hay phát hiện tri thức từ các cơ sở dữ liệu văn bản (textualdatabases) đề cập đến tiến trình trích lọc các mẫu hình thông tin (pattern) hay tri thức(knowledge) đáng quan tâm hoặc có giá trị (non-trivial) từ các tài liệu văn bản phi cấutrúc Quá trình này là việc mở rộng kỹ thuật khai phá dữ liệu truyền thống hướng tới việcphát hiện tri thức từ các cơ sở dữ liệu có cấu trúc

Thông tin được lưu trữ dưới dạng văn bản Có thể thấy rằng dữ liệu tồn tại dưới dạngvăn bản còn có khối lượng lớn hơn rất nhiều so với các dữ liệu có cấu trúc khác Nhữngtài liệu nghiên cứu gần đây đã cho thấy có đến 80% thông tin của một cơ quan, tổ chức,đơn vị nằm dưới dạng văn bản Đó là các công văn giấy tờ, các biểu mẫu hồ sơ bệnh án,các phiếu đặt hàng, các thư tín điện tử (email), các thông tin điện tử trên các websitethương mại Sau gần 50 năm phát triển cơ sở dữ liệu, người dùng vẫn dùng các hệ thốnglưu trữ ở dạng văn bản và có xu hướng dùng thường xuyên hơn Tuy nhiên các kỹ thuậtkhai phá dữ liệu văn bản phức tạp hơn nhiều so với các kỹ thuật khai phá dữ liệu truyềnthống bởi vì phải thực hiện trên dữ liệu văn bản vốn đã ở dạng phi cấu trúc và có tính mờ(fuzzy)

Bài toán khai phá dữ liệu văn bản là một bài toán nghiên cứu đa lĩnh vực, bao gồmrất nhiều kỹ thuật cũng như các hướng nghiên cứu khác nhau: thu thập thông tin(information retrieval), phân tích văn bản (text analysis), chiết xuất thông tin (informationextraction), lập đoạn (clustering), phân loại văn bản (categorization), hiển thị trực quan(visualization), công nghệ cơ sở dữ liệu, học máy (machine learning) và các kỹ thuật khaiphá dữ liệu cơ sở

Trang 14

Các nghiên cứu mới chỉ dừng lại ở bước tìm hiểu, khảo sát, so sánh hai bài toán cụthể, đó là bài toán phân loại dữ liệu văn bản (Text categorization) và bài toán thu thậpthông tin (information retrieval) tạo tiền đề cho các nghiên cứu cụ thể sau này.

- Các khó khăn trong khai phá dữ liệu văn bản:

Tính đa chiều (high dimensonality): Số thuật ngữ trong một văn bản lớn dẫn đến sốchiều của không gian vector sẽ rất lớn

Tính khả cỡ (scability): Các CSDL lớn thường chứa hàng trăm nghìn văn bản

Tính chính xác (accuracy): Bất kỳ ngôn ngữ nào cũng đều có sự nhập nhằng

Tri thức tiên nghiệm: Trong nhiều bài toán chẳng hạn như bài toán lập nhóm văn bảnthì người sử dụng phải xác định trước một số tham số đầu vào như số nhóm văn bản cầnlập

- Với một hệ thống khai phá văn bản thường bao gồm ba bước chính:

- Bước tiền xử lý: hệ thống sẽ chuyển văn bản từ dạng phi cấu trúc về dạng có cấutrúc Ví dụ: với văn bản tòa nhà này to quá, hệ thống sẽ cố gắng phân tích thành tòa nhà|này|to|quá Các từ được lưu riêng rẽ một cách có cấu trúc để tiện cho việc xử lý

- Loại bỏ các thông tin không cần thiết Bộ phân tích tìm cách loại bỏ các thông tin

vô ích từ văn bản Bước này phụ thuộc rất nhiều vào ngôn ngữ đang được phân tích và kỹthuật sẽ được dùng để phân tích ở bước tiếp theo Ví dụ: nếu kỹ thuật phân tích văn bảnchỉ dựa vào xác suất xuất hiện từ khoá, khi đó ta có thể loại bỏ các từ phụ như: nếu, vậy,tuy nhiên, như vậy…

- Khai phá dữ liệu đã được giản lược với các kỹ thuật khai phá dữ liệu (data mining)truyền thống

Có rất nhiều kỹ thuật và phương pháp tốt được sử dụng cho Text Mining để tìm racác kiến trúc mới, các mẫu mới, và các liên kết mới Các bước tiền xử lý là các kỹ thuậtrất phức tạp nhằm phân tích một phân lớp đặc biệt thành các thuộc tính đặc biệt, sau đótiến hành áp dụng các phương pháp khai phá dữ liệu kinh điển tức là phân tích thống kê

Trang 15

và phân tích các liên kết Các bước còn lại sẽ khai phá cả văn bản đầy đủ từ tập các vănbản, ví dụ như phân lớp văn bản.

Mục tiêu cuối cùng của Text Mining thường là đường lối hiệu quả, hoàn thiện, và đặctrưng để trình diễn và tìm kiếm các tập hợp thông tin rộng lớn của các văn bản Do đó,các kỹ thuật chính của Text Mining có thể được phân ra thành các nhiệm vụ khi xử lýkhai phá văn bản: loại thông tin có thể trích ra và loại phân tích được thực hiện

- Các nhãn: Giả sử, được liên kết với mỗi văn bản là tập các nhãn các thao tác khaiphá tri thức được thực hiện trên các nhãn của mỗi văn bản Nói chung, các nhãn tươngứng với các từ khoá, mỗi một từ khoá có quan hệ với một chủ đề cụ thể nào đó

- Các từ: Ở đây giả sử rằng một văn bản được gán nhãn với từng từ xuất hiện trongvăn bản đó

- Các thuật ngữ: Ở đây với mỗi văn bản tìm thấy các chuỗi từ, chuỗi từ đó thuộc vềmột lĩnh vực nào đó và do đó việc tìm khai phá văn bản được thực hiện trên các kháiniệm được gán nhãn cho mỗi văn bản Ưu điểm của phương pháp này là các thuật ngữđược tách ra ít và có xu hướng tập trung vào các thông tin quan trọng của văn bản hơn haiphương pháp trước đây

- Kết hợp thông thường: Một số thuật toán trước đây giả sử rằng dữ liệu nguyên mẫuđược tạo lập để trợ giúp cho các kỹ thuật xử lý ngôn ngữ tự nhiên Các cấu trúc có chúdẫn trên thực tế có thể được sử dụng như một cơ sở cho việc xử lý khai phá tri thức

- Các phân cấp thuật ngữ: Ở đây mỗi văn bản được đính với các thuật ngữ lấy ra từmột phân cấp các thuật ngữ Sau đó, một hệ thống sẽ phân tích sự phân bố nội dung củacác thuật ngữ hậu duệ của từng thuật ngữ liên quan đến các hậu duệ khác do các phân bốliên kết và các phép đo khác nhằm khai thác các quan hệ mới giữa chúng Loại liên kếtnày có thể cũng được sử dụng để lọc và tổng hợp chủ đề của các tin tức

Trang 16

- Khai phá văn bản đầy đủ: Không giống như loại liên kết thông thường thực hiệnthao tác mù quáng trên các chú dẫn của văn bản, kỹ thuật này sử dụng lợi thế của nộidung nguyên mẫu của các văn bản Kỹ thuật này được gọi là “trích văn bản nguyên mẫu”.

1.3 Bài toán phân loại văn bản (Text categorization):

1.3.1 Khái niệm phân loại văn bản:

Phân loại văn bản (Text categorization) là xử lý nhóm các tài liệu thành các lớp khácnhau hay các phân nhóm (categories) Đây là một tác vụ phân lớp liên quan đến việc raquyết định xử lý Với mỗi xử lý phân nhóm, khi đưa ra một tài liệu, một quyết định đượcđưa ra có thuộc một lớp nào hay không Nếu nó thuộc một phân lớp nào đó thì phải chỉ raphân lớp mà nó thuộc vào Ví dụ: đưa ra một chủ đề về thể thao, cần phải đưa ra quyếtđịnh rằng chủ đề đó thuộc các phân lớp cờ vua, quần vợt, cầu lông, bơi lội hay bất cứ mộtmôn thể thao nào khác Các hệ thống phân loại văn bản thường làm việc với một thuậttoán tự học (learning algorithm) Thuật toán đó được cung cấp một tập mẫu để phục vụcho việc dạy học Tập mẫu này bao gồm một tập các thực thể có gán nhãn được phân lớptrước có dạng (x, y) ở đó x là thực thể được phân lớp, y là nhãn (hay phân lớp) được gáncho nó Với cơ cấu cơ sở như vậy, khi một thực thể được cung cấp cho hệ thống, nó sẽ cốgắng suy ra một hàm toán học từ tập đào tạo mẫu và ánh xạ thực thể mới đó vào mộtphân lớp Phân lớp văn bản là bài toán hay và đang có những bước phát triển hết sứcquan trọng mà nguyên nhân chủ yếu do sự phát triển mạnh mẽ gần đây của các thông tintrực tuyến

1.3.2 Các phương pháp phân loại văn bản:

1.3.2.1 Nguyên mẫu:

Nguyên mẫu (prototype) có thể là phương pháp đơn giản nhất được áp dụng trongphân loại văn bản Mỗi văn bản đầu vào là một vector (w1, w2 ,… wk ) trong đó mỗichiều wi đặc trưng cho một từ loại (term) Một tập tài liệu mẫu sẽ được phân chia làm cáclớp văn bản khác nhau và được đặc trưng bởi đại lượng cj (categorization) Có thể cónhiều tài liệu Di trong một lớp tài liệu cj, tuy nhiên để đơn giản người ta xác định trong ci

Trang 17

một vector trung bình ( ) Và sử dụng cosin của góc tạo bởi hai vector (một vector biểudiễn văn bản cần phân loại D, một vector biểu diễn lớp văn bản ci) làm độ đo sự phù hợpgiữa văn bản D với loại văn bản ci.

D sẽ được xác định thuộc vào loại văn bản ci nào mà cosin( , ) là lớn nhất

1.3.2.2 Mô hình xác suất Naive Bayes:

Cơ sở của phương pháp phân loại văn bản Naive Bayes là chủ yếu dựa trên các giảđịnh của Bayes Với mỗi văn bản D (document), người ta sẽ tính cho mỗi loại một xácsuất mà tài liệu D có thể thuộc vào lớp tài liệu đó bằng việc sử dụng luật Bayes

Xác suất P(Ci| D) gọi là xác suất mà tài liệu D có khả năng thuộc vào lớp văn bản Ci

được tính toán như sau:

Theo giả định của Naive Bayes xác suất của mỗi từ trong tài liệu D là độc lập với ngữcảnh xuất hiện các từ đồng thời cũng độc lập với vị trí của các từ trong tài liệu Xác suấtP(D|Ci) được tính toán từ tần suất xuất hiện của các từ đơn wj (word) trong D

l là tổng số từ w trong tài liệu D

Giá trị lớn nhất của xác suất P(Ci | D) được đưa ra bởi nguời làm công tác phân loại.Tài liệu D sẽ được gán cho loại văn bản nào có xác suất hậu nghiệm cao nhất nên đượcbiểu diễn bằng công thức:

trong đó N là tổng số tài liệu

Trang 18

1.3.2.3 Phương pháp dựa trên cây quyết định

Hình 7: Một ví dụ về cây quyết định

Đây là phương pháp học xấp xỉ các hàm mục tiêu có giá trị rời rạc Cây quyết địnhnày được tổ chức như sau: Các nút trung gian được gán nhãn bởi các thuật ngữ, nhãn củacác cung tương ứng với trọng số của thuật ngữ trong tài liệu mẫu, nhãn của các lá tươngứng với nhãn của các lớp Cho một tài liệu dj, ta sẽ thực hiện so sánh các nhãn của cungxuất phát từ một nút trung gian (tương ứng với một thuật ngữ nào đó) với trọng số củathuật ngữ này trong dj, để quyết định nút trung gian nào sẽ được duyệt tiếp Quá trình nàyđược lặp từ nút gốc của cây, cho tới khi nút được duyệt là một lá của cây Kết thúc quátrình này, nhãn của nút lá sẽ là nhãn của lớp được gán cho văn bản

Các giải thuật ID3 và cải tiến của nó là C45 được đánh giá là hiệu quả và được sửdụng phổ biến nhất

1.3.2.4 Phương pháp phân loại văn bản K-NN (K – Nearest Neighbor)

Tư tưởng chính của giải thuật này là tính toán độ phù hợp của văn bản đang xét vớitừng nhóm chủ đề dựa trên K văn bản mẫu có độ tương tự gần nhất Giải thuật này cònđược sử dụng trong bài toán tìm kiếm văn bản và bài toán tóm tắt văn bản

1.3.2.5 Phương pháp Support Vector Machine:

Trang 19

Giả sử dữ liệu huấn luyện bao gồm n mẫu được cho dưới dạng < , yi> , i=1…n,trong đó là véctơ bao gồm m phần tử chứa giá trị của m thuộc tính hay đặc trưng và

yi là nhãn phân loại có thể nhận giá trị +1 hoặc -1 Có thể hình dung dữ liệu như các điểmtrong không gian ơclit m chiều và được gán nhãn SVM được xây dựng trên cơ sở hai ýtưởng chính

Ý tưởng thứ nhất là ánh xạ dữ liệu gốc sang một không gian mới gọi là không gianđặc trưng với số chiều lớn hơn sao cho trong không gian mới có thể xây dựng một siêuphẳng cho phép phân chia dữ liệu thành hai phần riêng biệt, mỗi phần bao gồm các điểm

có cùng nhãn phân loại

Ý tưởng thứ hai là trong số những siêu phẳng như vậy cần lựa chọn siêu phẳng có lềlớn nhất Lề ở đây là khoảng cách từ siêu phẳng tới các điểm gần nhất nằm ở hai phía củasiêu phẳng (mỗi phía tương ứng với một nhãn phân loại) Lưu ý rằng siêu phẳng nằmcách đều các điểm gần nhất với nhãn khác nhau

Ta sử dụng một phương pháp gọi là thủ thuật nhân bằng cách tìm một hàm nhân(kernel function) K sao cho:

Sử dụng phương pháp nhân tử Lagrăng và thay thế tích vô hướng của hai vectơ bằnggiá trị hàm nhân

Quá trình huấn luyện SVM là quá trình xác định Sau khi huấn luyện xong, giá trịnhãn phân loại cho một ví dụ mới sẽ được tính bởi:

Đối với bài toán phân loại thư điện tử, là vectơ đặc trưng biểu diễn cho nội dungthư như trong phần phân loại Bayes và yi là nhãn phân loại đối với dữ liệu huấn luyện.Thư mới được phân loại theo công thức: giá trị âm là thư bình thường, trong khi giá trịdương tương ứng với thư rác

Trang 20

1.3.2.6 Sử dụng từ điển phân cấp chủ đề:

Một phương pháp thống kê phân lớp văn bản được điều khiển bởi một từ điển chủ đề

có phân cấp được đề xuất Phương pháp này sử dụng một từ điển với một cấu trúc đơngiản Từ điển này có thể dạy được dễ dàng trên một tập hợp tài liệu được phân lớp bằngtay và có thể dịch được tự động sang nhiều ngôn ngữ khác nhau

Có một vấn về xuất hiện là độ tối ưu, hay độ hợp lý, độ chi tiết cho phân loại nhưvậy Ví dụ: khi phân loại tin tức trên internet với một người đọc “bình thường”, nhữngphân loại như các loài động vật hoặc nghành công nghiệp thì khá phù hợp, trong khi phânlớp các chủ đề về động vật học giống như một cuốn từ điển như vậy sẽ đưa ra một câutrả lời chung chung rằng tất cả các chủ đề đó đều nói về động vật Hay nói cách khác, vớimột người đọc tin tức trên internet bình thường, thật không thích hợp dùng để phân loạinhững tài liệu với những chủ đề chi tiết hơn như những động vật có vú, động vật cóxương sống, động vật thân nhiệt…

- Giải thuật phân lớp và phân cấp chủ đề:

Vào năm 1997 và 1998, hai ông Guzmán và Arenas đề xuất việc sử dụng một từ điển

có phân cấp để xác định những đề tài chính của một tài liệu Về mặt kỹ thuật, một từ điểngồm 2 phần: các nhóm từ khóa đại diện cho các chủ đề riêng biệt và một biểu diễn phâncấp cho chủ đề này

Một nhóm từ khóa là một danh sách từ hoặc các biểu thức liên quan đến tình trạngtham chiếu bởi tên của chủ đề Ví dụ: chủ đề về tôn giáo liệt kê các từ như: nhà thờ, chùa,thầy tu, kinh thánh, phật tử … Những từ này không được liên kết với đầu mục tôn giáohay liên kết với nhau bởi bất kỳ quan hệ ngữ nghĩa nào

Cây chủ đề được tổ chức thành một phân cấp hay nói chung tổ chức thành một mạng(khi đó một số chủ đề có thể thuộc một vài nút của cây phân cấp)

Trang 21

Giải thuật tìm kiếm cây chủ đề trên từ điển cũng gồm 2 phần: tìm kiếm chủ đề đơn và

sự truyền lan trọng số của chủ đề trên cây

Phần thứ hai của giải thuật có trách nhiệm lan truyền các tần suất tìm thấy trên cây

1.4 Bài toán thu thập thông tin (Information retrieval - IR)

1.4.1 Khái niệm thu thập thông tin:

Thu thập thông tin (Information retrieval) là một trong những bài toán khai phá dữliệu văn bản Bài toán này chủ yếu tập trung vào việc tìm ra các tài liệu trong một tập hợpcác tài liệu có sẵn theo một điều kiện nào đó Các điều kiện này có thể là một truy vấnhay là một văn bản

Khi điều kiện đưa vào là một truy vấn, bài toán sẽ đưa ra các suy luận để tìm ra đặctrưng của câu truy vấn đó, sau đó so sánh với các đặc trưng của các tài liệu có sẵn để tìm

ra các tài liệu phù hợp nhất với câu truy vấn đó Bài toán thu thập thông tin được pháttriển ở mức độ cao hơn so với bài toán Search Engine Đối với bài toán Search Enginecâu truy vấn đưa vào là tập hợp các niệm Nhưng với bài toán thu thập thông tin, câu truyvấn đưa vào có thể là một câu văn có ngữ nghĩa Hệ thống sẽ tìm cách phân tích ngữnghĩa của câu truy vấn để tìm ra đặc trưng của nó.

Thông tin cần thiết

Công thức hóa lại

Ngày đăng: 10/04/2015, 00:24

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
4. “Text Categorization Using a Hierarchical Topic Dictionary” - Alexander Gelbukh, Grigori Sidorov, Adolfo Guzmán-Arenas Sách, tạp chí
Tiêu đề: Text Categorization Using a Hierarchical Topic Dictionary
5. “Machine Learning in Automated Text Categorization” - Fabrizio Sebastiani Sách, tạp chí
Tiêu đề: Machine Learning in Automated Text Categorization
7. “Ngư phap tiêng Viêt” – Trung tâm Khoa hoc xa hôi va Nhân văn quôc gia – Nha xuât ban Khoa hoc va xa hôi – Ha nôi 2000[4] “Information retrieval: standard and AI - based methods” - Ilya Baraev Sách, tạp chí
Tiêu đề: Ngư phap tiêng Viêt” – Trung tâm Khoa hoc xa hôi va Nhân văn quôc gia – Nha xuât ban Khoa hoc va xa hôi – Ha nôi 2000[4] “Information retrieval: standard and AI - based methods
3. Trang web http://en.wikipedia.org/wiki/Data_mining Link
1. Bài giảng khai phá dữ liệu và kho dữ liệu – PGS.TS. Đỗ Phúc Khác
2. Giáo trình khai phá dữ liệu – PGS.TS. Đỗ Phúc Khác

HÌNH ẢNH LIÊN QUAN

Hình 1: Quá trình khám phá tri thức - Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động
Hình 1 Quá trình khám phá tri thức (Trang 6)
Hình 2: Quá trình khám phá tri thức được thực thi 1.2  Khái niệm Text Mining: - Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động
Hình 2 Quá trình khám phá tri thức được thực thi 1.2 Khái niệm Text Mining: (Trang 8)
Hình 3: tri thức đạt được từ quá trình khai phá dữ liệu - Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động
Hình 3 tri thức đạt được từ quá trình khai phá dữ liệu (Trang 9)
Hình 4: Khai phá dữ liệu là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết và công nghệ. - Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động
Hình 4 Khai phá dữ liệu là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết và công nghệ (Trang 9)
Hình 5: Kiến trúc của một hệ thống khai phá dữ liệu - Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động
Hình 5 Kiến trúc của một hệ thống khai phá dữ liệu (Trang 10)
Hình 6: Sự tiến hóa của công nghệ hệ cơ sở dữ liệu - Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động
Hình 6 Sự tiến hóa của công nghệ hệ cơ sở dữ liệu (Trang 11)
Hình 7: Một ví dụ về cây quyết định - Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động
Hình 7 Một ví dụ về cây quyết định (Trang 17)
Hình 9: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các tài liệu D1, D2. - Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động
Hình 9 Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các tài liệu D1, D2 (Trang 25)
Hình 10. Mạng nơ-ron: toán tử AND (a) và toán tử OR (b) - Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động
Hình 10. Mạng nơ-ron: toán tử AND (a) và toán tử OR (b) (Trang 30)
Hình 11. Mạng nơ-ron với lớp ẩn: toán tử NOR - Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động
Hình 11. Mạng nơ-ron với lớp ẩn: toán tử NOR (Trang 30)
Hình 12: Mô hình biểu diễn mạng nơ-ron - Tìm hiểu, xây dựng khai phá dữ liệu văn bản hồ sơ bệnh án của một bệnh viện và ứng dụng phương pháp Bayes trong bộ lọc thư rác tự động
Hình 12 Mô hình biểu diễn mạng nơ-ron (Trang 31)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w