Đó là các giải pháp phát huy khả năng tính toán nhanh, hiệu quả của máy tính; ứng dụng những kết quả nghiên cứu về xử lý ngôn ngữ tự nhiên; những kết quả nghiên cứu các giải thuật học; n
Trang 2LỜI CẢM ƠN
Lời đầu tiên tôi xin chân thành cảm ơn TS Nguyễn Hồng Sơn đã tận tình hướng dẫn, gợi mở và động viên tôi suốt quá trình học tập và thực hiện luận văn này
Tôi xin chân thành cảm ơn quý thầy cô Khoa Công nghệ thông tin Trường Đại học Khoa học tự nhiên Tp Hồ Chí Minh đã tận tình giảng dạy, truyền đạt, giúp đỡ
và tạo điều kiện thuận lợi cho tôi thực hiện tốt luận văn
Tôi xin chân thành cảm ơn các thầy, các cô Khoa Sau đại học Trường Đại học Khoa học tự nhiên đã tạo điều kiện thuận lợi và giúp đỡ tôi trong quá trình học tập
và thực hiện tốt các thủ tục cần thiết cho luận văn
Tôi xin gửi lời cám ơn đến tất cả bạn bè, người thân đã hỗ trợ động viên tôi trong quá trình thực hiện luận văn
Tôi xin chân thành cảm ơn!
Trang 3MỤC LỤC
LỜI CẢM ƠN 1
MỤC LỤC 2
DANH MỤC CÁC BẢNG 5
DANH MỤC HÌNH VẼ 6
CHƯƠNG 1: TỔNG QUAN 8
1.1 Bùng nổ thông tin 8
1.2 Bài toán phân loại tài liệu 8
1.3 Mô hình thuyết vạn vật hấp dẫn 9
1.4 Mục tiêu của đề tài 9
1.5 Cấu trúc của luận văn 9
CHƯƠNG 2: THUYẾT VẠN VẬT HẤP DẪN 11
2.1 Giả thiết về chuyển động của các hành tinh 11
2.2 Thực nghiệm của Tycho Brahe [1] 11
2.3 Các định luật Kepler 12
2.3.1 Định luật 1 (1609) 12
2.3.2 Định luật 2 (1609) 12
2.3.3 Định luật 3 (1619) 13
2.4 Các định luật cơ bản của Newton 14
2.4.1 Định luật 1 14
2.4.2 Định luật 2 14
2.4.3 Định luật 3 15
2.5 Định luật vạn vật hấp dẫn 15
2.6 Trường lực thế - Trường hấp dẫn 17
2.6.1 Khái niệm và tính chất của trường lực thế 17
Trang 42.6.2 Ví dụ về trường thế 18
2.7 Thế năng và cơ năng trong trường lực thế 20
2.8 Định luật bảo toàn cơ năng trong trường thế 21
2.9 Thế năng của chất điểm trong không gian 22
CHƯƠNG 3: CÂY PHÂN LOẠI (TAXONOMY) 24
3.1 Khái niệm 24
3.2 Ý nghĩa của Taxonomy 24
3.3 Các loại taxonomy 25
3.3.1 Cây phân loại phẳng (flat taxonomy) 25
3.3.2 Cây phân loại phân cấp (Hierachical Taxonomy) 26
3.3.3 Cây phân loại diện (facet taxonomy) 27
3.3.4 Mạng phân loại (Network Taxonomy) 27
3.4 Siêu dữ liệu (Metadata) 28
3.5 Xây dựng taxonomy 30
3.6 Ứng dụng taxonomy cho bài toán phân loại 31
CHƯƠNG 4: BÀI TOÁN PHÂN LOẠI TÀI LIỆU 32
4.1 Khái niệm phân loại 32
4.1.1 Khái niệm 32
4.1.2 Các trường hợp phân loại 32
4.2 Bài toán phân loại tài liệu tự động 34
4.2.1 Hướng tiếp cận 34
4.2.2 Tiền xử lý 37
4.2.3 Biểu diễn tài liệu 41
4.2.4 Chọn đặc trưng 44
Trang 54.2.5 Huấn luyện và phân loại 48
4.2.6 Ước lượng 56
4.2.7 Phân loại tài liệu 58
CHƯƠNG 5: 60
PHÂN LOẠI THEO MÔ HÌNH THUYẾT VẠN VẬT HẤP DẪN 60
5.1 Xây dựng kiến trúc phân cấp từ website http://dir.yahoo.com 60
5.1.1 Kiến trúc và nội dung thể hiện 61
5.1.2 Siêu dữ liệu cho nút 62
5.1.3 Xây dựng taxonomy 64
5.1.4 Đặc trưng hóa cho nút 65
5.2 Xây dựng mô hình không gian 67
5.2.1 Không gian vật chất 68
5.2.2 Khối lượng 68
5.2.3 Khoảng cách giữa các hành tinh 69
5.2.4 Thế năng 72
5.3 Giải thuật phân loại theo mô hình 73
5.4 Thử nghiệm và kết quả 75
5.4.1 Công cụ sử dụng 75
5.4.2 Tập dữ liệu thử nghiệm 75
5.4.3 Kết quả thử nghiệm 78
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 81
PHỤ LỤC: DANH MỤC STOPWORD 83
TÀI LIỆU THAM KHẢO 85
Trang 6DANH MỤC CÁC BẢNG
Bảng 4.1: Các trường hợp gán tập tài liệu vào lớp ci và nhãn của nó 57 Bảng 4.2 : Các độ đo cho toàn không gian phân loại 57 Bảng 5.1: Tổng hợp các thông số tập dữ liệu download bằng wget 75
Bảng 5.5: Kết quả thử nghiệm phân loại 900 test trên toàn không gian 78 Bảng 5.6: So sánh kết quả thử nghiệm với bộ phân loại Telltale 79
Trang 7DANH MỤC HÌNH VẼ
Hình 2.1: Quỹ đạo của các hành tinh là một elip và mặt trời là một tiêu điểm 12
Hình 2.2: Phần diện tích quét được là như nhau 13
Hình 2.3 Tên lửa phóng lên được bằng cách đẩy khí cháy ra phía sau 15
Hình 2.4 Đồ thị độ lớn Feb đo lực hấp dẫn của Trái đất tác dụng lên vật b (mb= 1 kg) theo khoảng cách r tính từ tâm trái đất 17
Hình 2.5: Công vi phân khi dịch chuyển điện tích q0 từ điểm A đến điểm B 18
Hình 2.6 Đồ thị biểu diễn thế năng của chất điểm phụ thuộc vào tọa độ x 23
Hình 3.1: Ví dụ về taxonomy của website yahoo 24
Hình 3.2: Ví dụ flat taxonomy 25
Hình 3.3: Cây phân loại phân cấp 26
Hình 3.4: Cây phân loại diện (facet taxonomy) – kiến trúc hình sao 27
Hình 3.5: Ví dụ về mạng phân loại (network taxonomy ) 28
Hình 3.6: Một meta data cho khái niệm của taxonomy 29
Hình 3.7: Sự không có cấu trúc và có cấu trúc trước và sau khi xây dựng taxonomy 30
Hình 4.1: Các loại phân loại tài liệu 33
Hình 4.2 : Mô hình phân loại tài liệu tự động 37
Hình 4.3: Tiền xử lý trang web 39
Hình 4.4: Một không gian vecto 2 chiều mỗi chiều tương ứng với 1 từ 41
Hình 4.5: Tài liệu được biểu diễn trên không gian 42
Hình 4.6: Mô hình xây dựng bộ phân loại tài liệu 49
Hình 4.7: Ví dụ phương pháp SVM 54
Hình 4.8: Sơ đồ phân loại một tài liệu dnew mới vào lớp ci 58
Hình 5.1: Các link tương ứng với chủ đề và link tương ứng với cấp con 62
Hình 5.2: Danh sách các lớp (hay nút) ở mức 1của kiến trúc dir.yahoo.com 63
Hình 5.3: Các bước xây dựng taxonomy của site http://dir.yahoo.com 65
Hình 5.4: Lượng hóa đặc trưng nút 66
Hình 5.5: Các giai đoạn cần thiết cho quá trình lựa chọn đặc trưng 66
Trang 8Hình 5.6 : Khoảng cách từ nút cha đến các nút con trực tiếp 70
Hình 5.7 : Khoảng cách giữa chất điểm đưa vào nút và chính nút đó 70
Hình 5.8 : Khoảng cách giữa 2 nút con có cùng nút cha trực tiếp 70
Hình 5.9 : Khoảng cách từ nút cha đến các nút con dưới k cấp 71
Hình 5.10 : Khoảng cách từ nút con đến nút cha k cấp 71
Hình 5.11 : Khoảng cách từ nút đến các nút khác có chung nút cha và khoảng cách tới nút cha lần lượt là k và l 72
Hình 5.12 : Thống kê số nút và số đặc trưng của nút 77
Hình 5.13 : Đồ thị biểu diễn độ chính xác của 900 thử nghiệm 78
Hình 5.14 : Đồ thị biểu diễn số thử nghiệm cho kết quả và số đặc trưng giống với tài liệu mới đưa vào của nút kết quả 79
Trang 9CHƯƠNG 1: TỔNG QUAN
1.1 Bùng nổ thông tin
Trong những năm gần đây, sự phát triển mạnh mẽ của hạ tầng công nghệ thông tin, phát triển các ứng dụng số và nhu cầu số hóa tài liệu phục công việc, truyền tải thông tin đã làm nên cuộc cách mạng mới – cách mạng thông tin Lượng thông tin trên internet tăng lên một cách nhanh chóng Theo thống kê của đại học Berkeley thì mỗi ngày thông tin trên internet tăng 7 tỉ trang [11] Với lượng thông tin đồ sộ như vậy, một yêu cầu lớn đặt ra đối với chúng ta là làm sao tổ chức, lưu trữ và tìm kiếm thông tin có hiệu quả nhất Bài toán phân loại tài liệu tự động được đặt ra nhằm giải quyết vấn đề này một cách có hiệu quả Mặc dù là bài toán không mới tuy nhiên với sự bùng nổ nhanh lượng thông tin, tính thời sự thông tin, tính phức tạp của ngôn ngữ tự nhiên thì những kết quả đạt được vẫn chưa làm hài lòng người sử dụng
1.2 Bài toán phân loại tài liệu
Lịch sử phân loại thông tin gắn liền với lịch sử phát triển của ngành thư viện Nhưng với thực tế hiện nay khi khối lượng thông tin cần xử lý ngày càng lớn, việc phân loại dữ liệu theo cách truyền thống của người thủ thư gặp nhiều khó khăn ảnh hưởng đến độ chính xác cũng như tốc độ
Giải pháp rất hiệu quả và đã được ứng dụng thành công đó là phân loại thông tin tự động Đó là các giải pháp phát huy khả năng tính toán nhanh, hiệu quả của máy tính; ứng dụng những kết quả nghiên cứu về xử lý ngôn ngữ tự nhiên; những kết quả nghiên cứu các giải thuật học; những kết quả nghiên cứu giải thuật phân loại
… Tuy nhiên với các bài toán đặt yếu tố thời sự trên khối lượng thông tin cần tính toán lớn thì tốc độ xử lý của máy tính vẫn một trong những yêu cầu quan trọng Với bài toán phân loại tài liệu tự động, con người còn phải giải quyết được bài toán về
sự đa dạng, phong phú, phức tạp của ngôn ngữ tự nhiên
Theo thống kê hiện thì trên thế giới có khoảng 5600 ngôn ngữ nhưng thông tin truyền tải trên internet và lưu trữ dưới dạng số hóa chủ yếu tập trung trên 34 ngôn ngữ chính, trong đó chủ yếu là tiếng Anh [3] Nhiều ứng dụng rất thành công cho
Trang 10các bài toán áp dụng cho ngôn ngữ tiếng Anh như: dịch tự động, tóm tắt văn bản, phân loại văn bản, hiểu văn bản, giao tiếp người – máy tính, kiểm lỗi văn bản Ngoài ra kể đến những ngôn ngữ khác và có những thành công nhất định
1.3 Mô hình thuyết vạn vật hấp dẫn
Để giải quyết bài toán phân loại tự động, trong khuôn khổ luận văn này tôi đề xuất một giải thuật phân loại dựa trên mô hình hóa mô hình lý thuyết vật lý làm giải
thuật phân loại Mô hình vật lý lý thuyết áp dụng là “Thuyết vạn vật hấp dẫn” Đây
là mô hình vật lý lý thuyết do Issac Newton đề xuất Trên có sở những lý thuyết của Kepler, Galileo cùng với những công trình toán học của mình, Isaac Newton đã
phát minh ra định luật vạn vật hấp dẫn – Được giới thiệu trong tập 3 của tác phẩm
Philosophiae Naturalis Principia Mathematica (Các Nguyên lý Toán học của Triết
lý về Tự nhiên) năm 1688
Thuyết vạn vật hấp dẫn hay mô hình hấp dẫn do Issac Newton đưa ra có liên
quan gì đến bài toán phân loại tài liệu Mô hình ứng dụng nào được áp dụng … Cơ
sở lý thuyết này được trình bày cụ thể trong chương 2, và chương 5 của luận văn
1.4 Mục tiêu của đề tài
Trên cơ sở nghiên cứu lý thuyết bài toán phân loại tài liệu tự động, lý thuyết xây dựng mô hình phân loại dựa vào kiến trúc phân cấp, lý thuyết mô hình không gian của thuyết vạn vật hấp dẫn Luận văn đề xuất giải thuật phân loại tài liệu vào kiến trúc có phân cấp
Luận văn xây dựng modul thử nghiệm lý thuyết đề ra với tập dữ liệu từ website http://dir.yahoo.com
1.5 Cấu trúc của luận văn
Luận văn được trình bày trong 5 chương
Chương 2: Cơ sở lý thuyết về thuyết vạn vật hấp dẫn Trong chương này Sẽ khái quát những lý thuyết vật lý cơ bản của định luật vạn vật hấp dẫn như lực hấp dẫn, trường hấp dẫn, thế năng hấp dẫn …
Chương 3: Những cơ sở lý thuyết về cây phân loại (Taxonomy), cách thức xây dựng một kiến trúc cây phân loại hoàn chỉnh phục vụ nhu cầu phân loại thông tin
Trang 11Chương 4: Đề cập đến bài toán phân loại văn bản, trình bày những khái niệm căn bản về phân loại văn bản, tiền xử lý, cách thức trích chọn đặc trưng, biểu diễn tài liệu, …
Để chỉ ra được mức độ hiệu quả, thử nghiệm độ chính xác lý thuyết đề xuất, chương 5 đề cập đến các bước mô hình hóa lý thuyết đề xuất cho bài toán phân loại tài liệu Quá trình mô tả sẽ được thử nghiệm bằng một modul phân loại tài liệu Trong khuôn khổ luận văn này tôi đề xuất mô hình phân loại tài liệu cho ngôn ngữ tiếng Anh
Trang 12
CHƯƠNG 2: THUYẾT VẠN VẬT HẤP DẪN
Con đường khám phá ra lực hấp dẫn là một quá trình dài nhưng được xem là một hình tượng của nghiên cứu khoa học kỹ thuật hiện đại Gồm các bước chủ yếu sau: (1) Các giả thiết về sự chuyển động của các hành tinh của nhà toán học, thiên
văn học Nicolaus Copercnicus (1473 - 1543); (2) Các phép đo thực nghiệm kỹ lưỡng về vị trí của mặt trời và các hành tinh của nhà thiên văn học Tycho Brahe
(1546 - 1601); (3) Phân tích các số liệu và đưa ra công thức về các định luật thực
nghiệm của Johanes Kepler (1571 - 1601); (4) Phát triển thành một lý thuyết tổng quát của Isaac Newton
2.1 Giả thiết về chuyển động của các hành tinh
Trong cuốn sách “De Revolutionibus Obitum Coelestium” (về chuyển động của các thiên cầu), Copercnicus đã khẳng định mô hình địa tâm mà nhiều nhà khoa
học Châu Âu tin tưởng trong nhiều thế kỉ là không đủ sức thuyết phục Trong cuốn sách này Ông cũng đề xuất ra một hệ trong đó sử dụng các giả thiết sau đây:
i, Trái đất tự quay quanh nó mỗi ngày một vòng
ii, Trái đất quay xung quanh mặt trời cùng các hành tinh khác
iii, Khoảng cách từ trái đất đến các ngôi sao xa hơn nhiều so với khoảng cách
từ trái đất đến mặt trời và đến các hành tinh khác
2.2 Thực nghiệm của Tycho Brahe [1]
Các công trình của Tycho Brahe là một ví dụ điển hình của nền tảng căn bản của nghiên cứu thực nghiệm “Nếu muốn biết một cái gì đó hoạt động như thế nào thì bạn hãy theo dõi một cách cẩn thận hành vi của nó” Ông đã tiến hành đo đạc số
liệu về vị trí của mặt trời và các hành tinh trong suốt 20 năm cuối cuộc đời Các phép đo của ông đã cung cấp số liệu một cách đầy đủ, chính xác (nâng độ chính xác
so với các phép đo thực nghiệm trước đây từ 10 phút lên tới 1 phút) cho ai muốn làm sáng tỏ những bí ẩn về chuyển động của các thiên thể Những số liệu của Tycho
Brahe để lại là những số liệu quan trọng cho những tính toán của Kepler và sau này
là Newton chứng minh được những giả thiết do Copercnicus đưa ra là đúng
Trang 132.3 Các định luật Kepler
Kepler là nhà toán học, thiên văn học có năng lực tính toán xuất sắc Ông đã dũng kỹ năng tính toán của mình để xử lý số liệu đồ sộ do Tycho Brahe để lại (Kepler là học trò của Tycho Brahe) Trên cơ sở những tính toán (lên tới 900 trang tính toán) [5] này Kepler đã xác định được quỹ đạo của Trái đất và sao Hỏa Các
công trình nghiên cứu của ông được đúc kết ở 3 định luật sau:
r là bán kính từ tiêu điểm đến vị trí của các hành tinh
là góc tạo bởi vị trí của hành tinh và trục nối 2 tiêu điểm elip
2.3.2 Định luật 2 (1609)
Định luật về diện tích: Đường nối bất kỳ hành tinh nào với mặt trời đều quyét
cose1
pr
Trang 14những diện tích bằng nhau trong khoảng thời gian bằng nhau [2],[4],[5]
Hay: Tốc độ diện tích mà bán kính vecto của hành tinh quét được một là hằng
a: bán trục lớn của quỹ đạo elip
T: là thời gian cần thiết để một hành tinh quay một vòng quanh Mặt trời - Chu kỳ chuyển động của hành tinh
33a
33T32a
22T
a T
(2.3)
Trang 15Với 3 định luật này, Kepler đã đưa ra nhiều đặc điểm chính xác của hệ mặt
trời Ông cũng đã khởi xướng những tư duy mới để mô tả, giải thích các hiện tượng
tự nhiên Các định luật của Ông rất ngắn gọn, súc tích có khả năng ứng dụng rộng
rãi Cách nghiên cứu của Kepler đã nuôi dưỡng một lý thuyết nghiên cứu khoa học hiện đại là “Cách mô tả đúng đắn các hiện tượng tự nhiên là cách mô tả đơn giản nhất nhưng phù hợp với số liệu thực nghiệm” [2],[4],[5]
2.4 Các định luật cơ bản của Newton
Trước khi đưa ra thuyết vạn vật hấp dẫn hay định luật vạn vật hấp dẫn, Newton đã đưa ra các định luật về chuyển động Đây là những định luật vật lý căn bản và là nền tảng của cơ học chất điểm
2.4.1 Định luật 1
“Trong hệ qui chiếu quán tính chất điểm không chịu tác dụng của ngoại lực sẽ giữ nguyên trạng thái đứng yên hoặc chuyển động thẳng đều”
Định luật 1 của Newton đúng cho mọi hệ quy chiếu chuyển động thẳng đều đối
với hệ quy chiếu quán tính Về khái niệm của hệ quy chiếu quán tính chúng ta có
thể hiểu như sau: “Là hệ quy chiếu mà với một vật có hợp lực ∑ = 0 thì gia tốc của nó a=0”.[5]
Trên cơ sở định luật 1, ta có các khái niệm
Các lực được cộng như là các vecto được gọi là nguyên lý chồng chập Điều
này có nghĩa là khi tính lực tổng hợp cùng tác động lên một vật thì ta xét như là tính
tổng vecto của các lực cùng tác động đó
2.4.2 Định luật 2
Gia tốc của một vật tỉ lệ thuận với hợp lực tác dụng lên vật đó, và khối lượng
Trang 16của vật là hệ số tỉ lệ [5]
∑ = (2.6) Trong đó:
m là khối lượng của vật
∑ là tổng các lực tác dụng lên nó
a là gia tốc của khối tâm của vật
2.4.3 Định luật 3
Định luật xét đến sự tương tác giữa các vật:
Nếu một vật A tác động lên một vật B một lực thì vật B tác dụng lại vật A một lực bằng và ngược hướng lên vật A [5]
FAB = - FBA (2.7) Các lực xuất hiện thành từng cặp, không thể tồn tại chỉ một lực Khi hai vật tác dụng các lực lên nhau ta nói rằng chúng có tồn tại một tương tác giữa các vật Định luật 3 cho mối quan hệ giữa 2 lực là một kết quả của tương tác
Hai lực FAB, FBA thường được gọi là lực tác dụng – phản tác dụng
Hình 2.3 Tên lửa phóng lên được bằng cách đẩy khí cháy ra phía sau
Định luật 3 Newton nói rằng nếu tên lửa tác dụng một lực ra phía sau lên
không khí, thì không khí phải tạo ra một lực bằng như vậy tác dụng lên tên lửa
Chính vì vậy dộng cơ tên lửa có thể hoạt động ở trong bầu khí quyển
2.5 Định luật vạn vật hấp dẫn
Trước Newton các nhà thiên văn không giải thích được nguyên nhân của
Trang 17chuyển động của các hành tinh quanh Mặt trời Copernic cho rằng Mặt trời đã được
"phú bẩm" cho một "khả năng hút" Kepler cho rằng các vật có khả năng hút nhau như nam châm Galileo cho rằng đã có một lực "kéo theo" nào đó khiến hành tinh chuyển động theo quỹ đạo Elip Đến thế kỷ XVII, hai nhà bác học là Borelli và Hooke đã đi đến những ý tưởng về lực hấp dẫn Nhưng chỉ có Newton mới phát biểu
được thành định luật hoàn chỉnh
Dựa vào các định luật cơ học cơ bản của mình, Newton suy luận: Từ định luật
1 ông cho rằng nếu không có lực tác dụng thì các hành tinh sẽ đứng yên hoặc chuyển động với vận tốc không đổi trong hệ quy chiếu có tâm là Mặt trời Nhưng các hành tinh đã không chuyển động theo đường thẳng mà thay đổi Sự thay đổi này theo định luật 2 phải do một lực nào đó tác dụng Lực đó hướng từ hành tinh về tâm Mặt trời, có bản chất giống trọng lực, tức tỷ lệ nghịch với bình phương khoảng cách Qua đó ông phát biểu thành định luật vạn vật hấp dẫn hoàn chỉnh
- Dấu trừ thể hiện lực hấp dẫn luôn là lực hút)
- Có phương là đường thẳng nối 2 hạt, chiều phụ thuộc vào lực đặt ở hạt nào
Biểu thức véc tơ của lực:
(2.9)
21 2 2 1
r
m m G
2 2 1
r
m m G
Trang 18Hình 2.4 Đồ thị độ lớn Feb đo lực hấp dẫn của Trái đất tác dụng lên vật b (mb=
1 kg) theo khoảng cách r tính từ tâm trái đất
Định luật vạn vật hấp dẫn của Newton ra đời đã giúp cho các nhà khoa học
giải thích được các hiện tượng rơi tự do, hiện tượng thủy triều, sự chuyển động của các hành tinh
2.6 Trường lực thế - Trường hấp dẫn
2.6.1 Khái niệm và tính chất của trường lực thế
Một chất điểm được gọi là chuyển động trong một trường lực nếu tại mỗi vị trí của chất điểm đều có một lực ⃗ tác dụng lên chất điểm ấy
Lực ⃗ tác dụng lên chất điểm nói chung phụ thuộc vào vị trí của chất điểm, là một hàm của tọa độ của chất điểm và cũng có thể là một hàm của thời gian
t Ở đây ta chỉ xét trường hợp ⃗ chỉ phụ thuộc vào vị trí của chất điểm mà không
phụ thuộc vào thời gian t
⃗ = ⃗(⃗) = ⃗(x, y, z) (2.10) Khi chất điểm chuyển động trong trường lực từ vị trí M đến vị trí N bất kỳ thì công của lực ⃗ bằng:
AMN = ∫ ⃗ ⃗ (2.11)
Trong trường hợp công A MN của lực ⃗ không phụ thuộc đường dịch chuyển
Trang 19MN mà chỉ phụ thuộc vị trí của điểm M và điểm N thì ta nói rằng: ⃗ là lực của một
trường thế
2.6.2 Ví dụ về trường thế
2.6.2.1 Trường tĩnh điện Coulomb
Tại điểm O cố định, đặt một điện tích +q, điện tích này sẽ sinh ra một điện trường chung quanh nó Một điện tích q0 tại vị trí bất kỳ cách q một khoảng r Điện tích q0 sẽ chịu tác dụng một lực điện Coulomb ⃗12 có phương là đường thẳng nối
qq0, và có độ lớn :
Giả sử q0>0: F⃗ là lực đẩy, giả sử q0 dịch chuyển từ M đến N, ta tính công của
lực Coulomb F⃗ trong dịch chuyển này như sau:
Công vi phân trong chuyển dời nhỏ AB=ds là
dA = ⃗d⃗ = F.AB.Cosα = F.AH (2.13)
AH là hình chiếu của AB trên phương của ⃗
Hình 2.5: Công vi phân khi dịch chuyển điện tích q0 từ điểm A đến điểm B
OA = r, OB = r + dr ≈ OH
AH ≈ OB – OA = dr
dA = F.dr =
dr.r
qqk
12 r
r
q q
k
Trang 20AMN = ∫ = ∫ dr
r
Từ công thức (2.14) ta thấy công AMN chỉ phụ thuộc vào điểm đầu và điểm
cuối, vậy trường tĩnh điện Coulomb là trường thế
2.6.2.2 Chuyển động trong trọng trường đều [2],[ 5]
Xét một chất điểm m luôn luôn chịu tác dụng của trọng lực:
⃗ = m ⃗ Trong phạm vi không gian không lớn, ⃗ (gia tốc rơi tự do trong trường trọng lực) luôn thẳng đứng hướng xuống và có độ lớn không đổi, lúc này ta có trọng trường đều
Công của trọng lực ⃗ khi chất điểm chuyển động từ M đến N
AMN = ∫ ⃗ ⃗ (2.15) Trong di chuyển nhỏ AB⃗ = ds⃗
Công vi phân
dA = ⃗d⃗ = P AB Cosα
dA = P AC = -Pdz
dz = zA – zB dấu trừ ở vế thứ 2 cho biết dz < 0 (độ cao giảm) thì dA >0
Công của trọng lực khi dịch chuyển chất điểm từ M đến N là:
AMN = ∫ − = P(zM - zN)
AMN = mg(zM - zN) (2.16)
Từ công thức (2.16) cho thấy công dịch chuyển chỉ phụ thuộc vào zM và zN
nghĩa là chỉ phụ thuộc vào điểm đầu M và điểm cuối N Vậy trọng lực đều là một trường lực thế
Từ 2.6.2.1 và 2.6.2.2 ta thấy trường tĩnh điện và trường trọng lực là các trường thế
Trang 212.7 Thế năng và cơ năng trong trường lực thế
Trong trường lực thế, khi một chất điểm dịch chuyển từ vị trí M sang vị trí N thì công AMN của trường lực chỉ phụ thuộc vào vị trí của M, N Lực tác dụng vào chất điểm trong trường hợp này chỉ phụ thuộc vào vị trí của chất điểm, ta gọi là lực bảo toàn Công của lực bằng hiệu số giữa hai số hạng Ep(x,y,z) phụ thuộc vào vị trí điểm đầu và điểm cuối Một cách tổng quát ta viết :
AMN = ∫ ⃗ ⃗ = Ep(M) – Ep(N) (2.17)
Đại lượng E p (x,y,z) được gọi là thế năng của chất điểm
Thế năng của một chất điểm trong trường lực thế là một hàm Ep(x,y,z) phụ thuộc vào vị trí của chất điểm sao cho:
AMN = Ep(M) – Ep(N) (2.18) Nói cách khác: Thế năng là một hàm số của tọa độ, sao cho hiệu số giá trị của
nó ở vị trí đầu và vị trí cuối trong một trường lực thế bằng công của trường lực thực hiện khi làm dịch chuyển chất điểm từ vị trí đầu đến vị trí cuối [5]
Từ định nghĩa này ta thấy rằng nếu đồng thời cộng EP(M) và EP(N)
với cùng một hằng số thì hệ thức (2.18) vẫn không đổi: Thế năng của một chất điểm tại một vị trí được định nghĩa sai khác một hằng số
Ví dụ: Trong trọng trường đều, dựa vào biểu thức (2.16) ta suy ra biểu thức thế năng của chất điểm tại vị trí có độ cao z là:
EP(z) = mgz + C
Trong điện trường Coulomb dựa vào biểu thức (2.14) ta suy ra biểu thức thế
năng của điện tích q0 tại vị trí cách q một khoảng r:
Ep(r) = + C Vậy thế năng tại một vị trí được xác định sai khác một hằng số cộng nhưng hiệu thế năng giữa hai vị trí thì hoàn toàn xác định Giữa công của trường lực và thế năng có hệ thức sau:
AMN = ∫ ⃗ ⃗ = Ep(M) – Ep(N) Nếu cho chất điểm dịch chuyển theo một vòng tròn kín (điểm M trùng với N)
Trang 22thì hệ thức trên trở thành:
AMN = ∫ ≡ ⃗ ⃗ = Ep(M) – Ep(N) = 0 (2.19)
Ý nghĩa của thế năng: Thế năng là một dạng năng lượng đặc trưng cho tương tác, ví dụ dạng thế năng của chất điểm trong trọng trường của quả đất là năng lượng đặc trưng cho tương tác giữa quả đất với chất điểm Thế năng của điện tích
q0 trong điện trường Coulomb của điện tích q là thế năng tương tác giữa q và q0
2.8 Định luật bảo toàn cơ năng trong trường thế
Khi một chất điểm khối lượng m chuyển động từ vị trí M đến vị trí N trong một trường lực thế, thì công của trường lực là (theo 2.18):
E = (EP + Ek) = EP(x,y,z) + mv2/2 (2.21)
Trong đó:
m: là khối lượng của chất điểm
v: vận tốc của chất điểm tại vị trí đang xét
Và ta có định luật bảo toàn cơ năng: Khi chất điểm chuyển động trong một trường thế mà không chịu tác dụng của một lực nào thì cơ năng của chất điểm được bảo toàn [5]
Ví dụ: trong trường hợp chất điểm rơi tự do trong trọng trường đều, cơ năng
của chất điểm m tại độ cao z là:
Trang 232.9 Thế năng của chất điểm trong không gian
Đặt chất điểm có khối lượng m tại hành tinh tại vị trí A(x,y,z) trong không gian vũ trụ V(p 1 , p 2 , … p n ) với p i là hành tinh thứ i có khối lượng tương ứng là M i
Khi đó chất điểm m sẽ chịu lực hấp dẫn của tất cả các hành tinh thuộc V Và như vậy tại mỗi vị trí có tọa độ A(x,y,z), ta có công thức tính thế năng của m đối với không gian V như sau:
Tại các điểm B (thế năng có giá trị cực tiểu) và D (thế năng có giá trị cực đại) ứng với = 0 Theo công thức 2.24 thì ta có ⃗ = − = 0 và do đó tại B và
D có tổng hợp lực tác dụng lên chất điểm m = 0 Nghĩa là tại các vị trí B và D chất điểm có thể nằm cân bằng Tuy nhiên vị trí B là vị trí cân bằng bền, vì khi làm lệch
Trang 24chất điểm khỏi vị trí đó sẽ xuất hiện lực kéo nó trở về vị trí cân bằng, còn vị trí D là
vị trí cân bằng không bền, vì khi chất lệch khỏi vị trí đó sẽ xuất hiện lực kéo nó đi khỏi vị trí cân bằng Vì mọi vật đều có xu hướng trở về trạng thái có thế năng cực tiểu, nên có thể nói:
Hình 2.6 Đồ thị biểu diễn thế năng của chất điểm phụ thuộc vào tọa độ x
Điều kiện cân bằng của một hệ cơ học cô lập là thế năng của nó phải cực tiểu.[4]
Đây chính là điều kiện xác định vị trí cân bằng bền của chất điểm trong không gian của một hệ cơ học độc lập Là cơ sở xác định lớp phân loại thuộc về của một tài liệu mới trong kiến trúc phân cấp của luận văn
Trang 25CHƯƠNG 3: CÂY PHÂN LOẠI (TAXONOMY)
Xây dựng kiến trúc phục vụ phân loại là một trong các bước đầu tiên của bài toán phân loại tài liệu tự động Hầu hết các kiến trúc phân loại đang sử dụng đều được xây dựng thủ công do nhóm các chuyên gia thực hiện Kiến trúc phân loại này
trên thực tế được sử dụng với khái niệm cây phân loại hay taxonomy
3.1 Khái niệm
Botanist Linnaeus (1707-1778) là nhà y học người Thụy Điển đưa ra định nghĩa khá hoàn chỉnh về Taxonomy Các khái niệm về hệ thống, về đặt tên, xếp
hạng, tổ chức phân loại của ông hiện vẫn còn được sử dụng rộng rãi Ông đưa ra
khái niệm về taxonomy đơn giản như sau:
“Một hệ thống phân loại hoàn chỉnh các khái niệm phân biệt, được đặt tên và đặt vào một kiến trúc có phân cấp” [11]
Hình 3.1: taxonomy của website http://dir.yahoo.com
3.2 Ý nghĩa của Taxonomy
- Taxonomy cung cấp một cấu trúc để tổ chức, lưu trữ và tìm kiếm thông tin một cách có hiệu quả (Cách phân loại của hệ thống phân loại Dewey Decimal được các thư viện trên toàn thế giới sử dụng là một ứng dụng taxonomy)
- Taxonomy có cấu trúc rõ ràng, có logic và duy nhất cho tất cả các khái niệm,
các khái niệm còn được làm rõ hơn nhờ tham chiếu, mối liên hệ đến các khái niệm
khác Cho nên với cách này taxonomy đã tổ chức các thuật ngữ thỏa mãn yêu cầu
của con người
Trang 26- Cách tổ chức linh hoạt có thể cho phép thay đổi, bổ sung cũng như phát triển Chính vì vậy người dùng có thể tùy biến cấu trúc theo ý của mình Có thể mở rộng hoặc phát triển cả về chiều sâu lẫn chiều rộng…
3.3 Các loại taxonomy
Khi xây dựng cây phân loại, tùy vào cách lưu trữ và tổ chức thông tin mà chọn hướng xây dựng cây phân loại khác nhau Về cơ bản có 4 loại sau:
3.3.1 Cây phân loại phẳng (flat taxonomy)
Khái niệm: Là một cấu trúc mà các tài liệu được gán vào tập xác định các lớp hoặc nhóm (categories), giữa các lớp không có mối liên hệ nào và các lớp ngang bằng nhau
Hình 3.2: Ví dụ flat taxonomy
Đặc điểm:
- Là một tập các lớp khác nhau
- Mức độ quan trọng của các lớp là như nhau
- Không có sự liên hệ giữa các lớp với nhau
- Mỗi lớp chỉ có một nút cha là root
Ứng dụng trong các trường hợp sau:
- Danh sách các chủ đề, vấn đề theo thứ tự Alphabetical
- Danh sách các quốc gia hoặc các vùng địa lý
- Danh sách các nhóm sản phẩm nào đó
Từ các đặc điểm của flat taxonomy cho thấy flat taxonomy là loại taxonomy
đơn giản nhất Trong quá trình xây dựng, ta không phải quan tâm tới độ phức tạp
trong thiết kế Flat taxonomy chủ yếu được áp dụng với số lớp nhỏ hơn 30, trong
Trang 27trường hợp số lớp nhiều hơn thì mục tiêu của việc phân loại cần rõ ràng, dễ hiểu và trực quan đối với người sử dụng … Thông thường với trường hợp này người ta sử
dụng cây phân loại có phân cấp
3.3.2 Cây phân loại phân cấp (Hierachical Taxonomy)
Khái niệm: Được biểu diễn như một cấu trúc cây dữ liệu trong các ứng dụng
về cơ sở dữ liệu Cấu trúc cây gồm các nút và mối liên hệ giữa chúng
Hình 3.3: Cây phân loại phân cấp
Đặc điểm:
- Là một cấu trúc cây phân cấp có nhiều mức
- Mỗi nút chỉ có liên kết với nút cha của nó và nút con của nó
- Mối liên hệ giữa nút cha và các nút con có thể hiểu đơn giản là các nút con là các thành phần được chia nhỏ từ nút cha do chúng có những đặc trưng riêng khác nhau
- Từ nút con lên nút cha thì có thể hiểu được là đang mở rộng phạm vi chủ đề nút con đề cập tới
- Từ nút cha xuống nút con có thể hiểu là đang giới hạn phạm vi
Ứng dụng:
- Dùng như là một kiến trúc phân loại các chủ đề
- Cấu trúc quản trị phân cấp các hồ sơ lưu trữ
- Cấu trúc tham chiếu nguồn của các chủ đề
Có nhiều cách để xây dựng một hierachical taxonomy như là: Phát triển mở
rộng từ một website như yahoo hay ebay; Phân tầng hoặc mở rộng các menu, popup menu như website Tuy nhiên cần đảm bảo tất cả các lớp, nút đều phải có nội dung;
nếu có nút con thì phải có ít nhất là 2 nút con Điều này có nghĩa là hierachical taxonomy cần có sự cân đối
Trang 283.3.3 Cây phân loại diện (facet taxonomy)
Khái niệm: Được biểu diễn như một cấu trúc hình sao, mỗi nút được liên kết tới một nút trung tâm Nút bất kỳ có thể liên kết tới nút khác trong cấu trúc hình sao khác.[15]
Hình 3.4: Ví dụ về facet taxonomy – kiến trúc hình sao Đặc điểm:
- Có mối liên hệ giữa các lớp
- Với kỹ thuật dạng sao thì mỗi diện (facet) trong facet taxonomy đều là
đối tượng trung tâm
- Tất cả các facet liên quan tới một đối tượng (mô tả bằng thuộc tính
hoặc giá trị, hay một khía cạnh khác của chủ đề)
- Mỗi diện có thể liên quan đến các diện khác thuộc về nhánh cây khác
Ví dụ như là một facet mô tả một cuốn sách có thể có mối liên hệ tới một facet
mô tả một quốc gia thuộc một nhánh cây khác
Vấn đề quan trọng nhất trong thiết kế facet taxonomy là phù hợp với mục đích
của nó tức là phải chứa đựng khía cạnh cần thiết và rõ ràng; những đặc trưng của
facet phải được định nghĩa đầy đủ, rành mạch; với các facet liên quan tới một facet trung tâm thì các facet này phải độc lập
3.3.4 Mạng phân loại (Network Taxonomy)
Khái niệm: Là một cấu trúc dữ liệu rối rắm Mỗi nút có thể có nhiều nút cha, bất kỳ thành phần nào trong cấu trúc này có thể được liên kết tới các thành phần khác Các liên kết giữa các nút có thể có ý nghĩa hoặc là khác biệt.[15]
Trang 29Hình 3.5: Ví dụ về network taxonomy Đặc điểm:
- Vừa có dạng phân cấp, vừa có dạng kết hợp
- Về trực quan giống như một mạng máy tính
- Các mối liên hệ giữa các nút có thể có nhiều ý nghĩa khác nhau
- Mỗi lớp có thể có nhiều hơn một lớp cao hơn
- Bất kỳ lớp nào cũng có thể được kết nối tới nút khác
Ứng dụng:
- Xây dựng cấu trúc ontology
- Mạng ngữ nghĩa (semantic network)
- Tham chiếu chéo trong từ vựng, chủ đề từ nguồn kiến thức này sang nguồn kiến thức khác …
Do tính chất phức tạp của cấu trúc này nên trong quá trình xây dựng network
taxonomy người ta thường chia nhỏ để tiện sử dụng và quản lý; với nhiều loại liên kết thì tách rời ra thành nhiều network taxonomy ứng với từng loại liên kết …
3.4 Siêu dữ liệu (Metadata)
“Siêu dữ liệu (metadata hoặc meta data) là dữ liệu của dữ liệu” [6] Trong xử
lý dữ liệu thì metadata của một dữ liệu nào đó được định nghĩa là một dữ liệu cung
cấp các thông tin, thuộc tính, cấu trúc hoặc những dữ liệu khác về dữ liệu đó – hay còn gọi là “siêu dữ liệu”
Mục đích đầu tiên và yêu cầu của metadata là góp phần mô tả một cách có
hiệu quả các đối tượng Sự phát triển mạnh mẽ của Internet đã tạo ra sự bùng nổ của các loại dữ liệu số (văn bản, âm thanh, hình ảnh, tài liệu đa phương tiện) Những tài
Trang 30liệu hay các đối tượng này có thể truy cập được trên mạng Internet, song việc tổ chức lưu trữ hay tìm kiếm chúng một cách hiệu quả và khoa học là hết sức khó
khăn Để giải quyết vấn đề này người ta đã đưa ra giải pháp sử dụng metadata
Với chuẩn cấu trúc mô tả đơn giản (RDF - Resource Description Format; DC
– Dublin Core, MARC21/UNIMARC, ISO-2709, …)[6],[12] nên metadata được sử
dụng rộng rãi cho nhiều hệ thống cũng như ngôn ngữ Tuy nhiên trong các ứng
dụng tin học, người ta không xây dựng metadata theo chuẩn quy định nào đó (như
chuẩn hay dùng trong lĩnh vực thư viện là Dublin Core có 15 thành phần) mà cấu trúc lại những thành phần phục vụ cho các xử lý nghiệp vụ của ứng dụng
Theo như các định nghĩa 3.3, các nút của taxonomy tương ứng là các khái
niệm độc lập, có định nghĩa đầy đủ, có những thông tin đi kèm rõ ràng Để đảm bảo
được điều đó ta xây dựng các metadata cho các nút của taxonomy Ví dụ hình 3.6 là một dạng metadata gồm chỉ có các thành phần đơn giản
Hình 3.6: Một metadata cho khái niệm của taxonomy Trong đó thuật ngữ (term) tương ứng với khái niệm trong taxonomy, có một
mã (code) duy nhất trong cấu trúc, được định nghĩa (definition) và một số thông tin tham chiếu khác Bên cạnh đó metadata này cũng chứa dữ liệu liên quan đến hình thành cấu trúc cây như mã code của nút cha …
Trang 31Các bước cơ bản xây dựng một taxonomy (dựa vào cách thức xây dựng
taxonomy của hệ thống XBRL)
Bước 1 Nguồn (Source): Thu thập các tài liệu mô tả taxonomy
Bước 2 Cấu trúc (structure): Xác định cách biểu diễn thông tin như là các
thành phần trong taxonomy Những mối liên hệ giữa các thành phần thông tin đó
Bước 3 Thu thập (collect): Tập hợp các thông tin có và chuẩn hóa biểu diễn
dưới dạng mà hệ thống có thể xử lý được Thực hiện xây dựng các metadata cho
các thông tin đó
Bước 4 Nhập liệu (enter): Sau bước thu thập các tài liệu, định dạng về loại dữ
liệu, xây dựng metadata Thực hiện nhập (hoặc import) dữ liệu đã thu thập được vào các ứng dụng như taxonomy builder, notepad … để xây dựng taxonomy
Bước 5 Lọc (scrub): lọc các thông tin để kiểm tra tính ổn định, sửa lỗi … Bước 6 Kiểm tra (test): Thử và mô tả thông tin dưới định dạng XML
Trang 323.6 Ứng dụng taxonomy cho bài toán phân loại
flat taxonomy thông thường được sử dụng với số lớp lên tới 30 Trong một số
trường hợp đặc biệt số lớp có thể nhiều hơn như phân loại theo quốc gia , tuy nhiên
mục tiêu chính của flat taxonomy này chỉ hạn chế trong một số chủ đề nào đó Khi
yêu cầu phân loại cần có nhiều chủ đề, trong mỗi chủ đề lại có sự chia nhóm, phân
cấp thì chúng ta phải sử dụng hierarchical taxonomy
Có nhiều giải thuật và các phương pháp áp dụng hiệu quả trên hierarchical taxonomy như là các giải thuật duyệt cây, chia để trị, … Qua đó bài toán lớn có thể
phân rã thành các vấn đề nhỏ hơn Việc giải quyết các vấn đề nhỏ sẽ giúp cải thiện được độ chính xác, thời gian và tài nguyên máy tính
Với nhiều ưu thế so với flat taxonomy, luận văn chọn hướng tiếp cận phân loại theo sử dụng hierarchical classification làm hướng xây dựng giải thuật phân loại
của mình
Trang 33CHƯƠNG 4: BÀI TOÁN PHÂN LOẠI TÀI LIỆU
Tiến trình phân loại văn bản tự động là một tập các bước xử lý nối tiếp nhau
Từ văn bản mới đầu vào, hệ thống sẽ xác định xem tài liệu mới đó thuộc về lớp nào trong số các lớp có sẵn Do vậy tài liệu mới cần được trích chọn những đặc trưng cần thiết và phù hợp với hệ thống phân loại Trong chương này luận văn trình bày các khái niệm cơ bản, các tiến trình xử lý của một hệ thống phân loại
4.1 Khái niệm phân loại
4.1.1 Khái niệm
Khái niệm phân loại tài liệu đơn giản như sau:
“Phân loại văn tài liệu là việc gán các nhãn phân loại lên một tài liệu mới dựa trên mức độ tương tự của tài liệu đó so với các tài liệu đã được gán nhãn trong tập huấn luyện”[24]
Cho:
D: không gian các tài liệu mẫu D(d 1 , d 2 , ,d s )
C: tập đã định nghĩa các loại tài liệu C(c 1 , c 2 , c |C| )
Với cặp (d i , c j ) ∈ DxC nhận giá trị Boolean (T,F), với giá trị T ứng với trường hợp tài liệu d i thuộc về nhóm tài liệu c j và với giá trị F ứng với trường hợp
tài liệu di không thuộc về nhóm tài liệu c j
Khái niệm phân loại tài liệu ở trên trở thành xây dựng hàm Ф:
Giá trị true hoặc false dựa trên việc lựa chọn ngưỡng và hàm Ф chính là
hàm Φ ( ) Lựa chọn ngưỡng và hàm Ф được trình bày dưới đây với 3 trường hợp cụ thể
4.1.2 Các trường hợp phân loại
Khi xem xét sự phụ thuộc của tài liệu d j D vào lớp tài liệu c i C thì người
ta lại chia ra làm 3 loại như sau:
Phân loại nhị phân - Binary case TC: là trường hợp phân loại mà tài liệu phân
loại chỉ thuộc về một trong 2 lớp có sẵn
Φ : → { , } (4.2)
Trang 34Phân loại đa lớp - Multi class case TC: là trường hợp phân loại mà tài liệu d j
chỉ thuộc về duy nhất một lớp c i nào đó
Φ : → (4.3)
Phân loại thuộc về nhiều nhãn - Multi label case TC: là trường hợp phân loại
mà tài liệu d j có thể thuộc về nhiều lớp tài liệu c i
Φ : → 2 (4.4)
Hình 4.1: Các loại phân loại tài liệu
Ví dụ: một tài liệu nói về môn thể thao ”đi bộ” có thể là nhánh con của lớp
”điền kinh” thuộc nhánh lớn ”oplimpic” cũng có thể là nhánh con của lớp ”các môn phục hồi chức năng” thuộc nhánh lớn ”y học”
Trong hai hướng tiếp cận phân loại multi-class và multi label thông thường người ra vẫn sử dụng hướng tiếp cận binary case làm bước căn bản Từ bước căn bản này hệ thống sẽ thu được các số đo về sự phụ thuộc của tài liệu vào và lớp xem xét Các số đo này sẽ được xếp hạng theo thứ tự từ lớn trở xuống Với hệ thống chỉ
chọn giá trị lớn nhất thì ta có multi class case, với hệ thống chọn ngưỡng chấp nhận thì ta có một tập các lớp chấp nhận và do đó hệ thống trở thành multi label Cụ thể
Trang 35Φ = ế Φ ( ) >
ế ượ ạ (4.6)
Φ ( ) = max {Φ ( ), ∀ ∈ } (4.7)
Φ ( ) = { ∈ , Φ ( ) > , ∀ ∈ } (4.8) Mục tiêu luận văn đề ra giải thuật phân loại được mô hình theo thuyết vạn vật hấp dẫn Mối liên hệ của tài liệu mới đưa vào và kiến trúc phân loại được xác định dựa theo việc lựa vị trí cân bằng bền cho chất điểm (theo mục 2.9) Luận văn chọn hướng tiếp cận bài toán phân loại đa lớp
4.2 Bài toán phân loại tài liệu tự động
Từ khái niệm phân loại tài liệu theo 4.1.1 ta có khái niệm đơn giản về bài toán
phân loại tài liệu tự động: “Phân loại văn tài liệu tự động là việc gán các nhãn phân loại lên một tài liệu mới một cách tự động dựa trên mức độ tương tự của tài liệu đó so với các tài liệu đã được gán nhãn trong tập huấn luyện”
Nhiều giải thuật, phương pháp phân loại tài liệu tự động đề xuất như là các
giải thuật dựa trên mô hình vecto (Centroid vector, Rocchio ), giải thuật k-NN, các giải thuật dựa trên xác xuất Naive Bayer Mỗi giải thuật hay phương pháp đề ra
đều có một hướng tiếp cận giải quyết vấn đề khác nhau
4.2.1 Hướng tiếp cận
4.2.1.1 Tiếp cận toàn cục và cục bộ
Khi xem xét bài toán ở giai đoạn phân loại, ta có hai cách phân loại như sau:
Hướng tiếp cận cục bộ: Chia bài toán phân loại thành nhiều bài toán phân loại
con cục bộ Hướng tiếp cận cục bộ được thực hiện bằng cách chọn các đặc trưng một cách độc lập đối với mỗi nút của cây phân cấp (kiến trúc phân cấp) và xây dựng
bộ phân loại riêng cho mỗi nút chỉ với các đặc trưng cục bộ Khi đó số lượng bộ phân loại bằng với số nút của cây và có thể lên tới hàng trăm Tuy nhiên cách này lại có lợi ở giai đoạn phân loại và xây dựng vecto đặc trưng
Hướng tiếp cận toàn cục: Xây dựng bộ phân loại duy nhất trên phạm vi toàn
cục Đặc trưng hóa từng nút được thực hiện trên toàn không gian đặc trưng, không phụ thuộc vào số lượng đặc trưng ở nút cha Tiến trình phân loại theo hướng tiếp
Trang 36cận này được thực hiện một cách độc lập ở từng nút Hướng tiếp cận này có nhiều
ưu điểm hơn so với hướng tiếp cận cục bộ ở các điểm sau:
- Bộ phân loại toàn cục chứa thông tin của tất cả các lớp nên tránh được những sai sót ở mức cao hơn
- Các đặc trưng được chọn để đặc trưng hóa nút không phụ thuộc vào nút cha
và như vậy bộ phân loại trở nên tin cậy hơn
Hướng tiếp cận toàn cục cũng cho phép xây dựng bộ phân loại có xét đến mối liên quan của nút cha và nút con cũng như các nút anh em trong kiến trúc cây phân loại
4.2.1.2 Tiếp cận máy học
Bắt đầu nghiên cứu các phương pháp phân loại tài liệu tự động từ thập kỷ 60 của thế kỷ 20 nhưng mãi đến thập kỷ 90 thì các lời giải mới đạt được những bước tiến quan trọng Cuối thập kỷ 80, hướng tiếp cận phổ biến cho bài toán phân loại tự
động là “kỹ thuật tri thức” (knowledge engineering – KE) [14] Kỹ thuật này chỉ đơn giản là định nghĩa một cách thủ công các luật tổng hợp từ tri thức cho phép phân loại một tài liệu thuộc về lớp tương ứng Trong thập kỷ 90 hướng tiếp cận này
ít phát triển mà chuyển sang hướng tiếp cận theo mô hình máy học – là mô hình gồm các bước liên tục xây dựng bộ phân loại tự động theo phương pháp học từ tập các tài liệu đã được phân lớp Tức chuyển từ hướng tiếp cận truyền thống dựa trên
luật (rule based – xây dựng thủ công các bộ luật văn phạm, luật suy diễn, cơ sở tri thức) sang hướng tiếp cận dựa trên ngữ liệu (corpus based – học các luật) [3], [14]
Tiến trình thực hiện là lặp đi lặp lại nhiều lần xây dựng bộ phân loại tự động cho
lớp c i dựa trên các đặc trưng của tập tài liệu đã được gán nhãn vào lớp c i hoặc - còn gọi là học có thầy Thay vì xây dựng các bộ phân loại như hướng tiếp cận KE thì xây dựng cách tạo ra các bộ phân loại đó Việc xây dựng này hoàn toàn tự
động dựa trên ngữ liệu có sẵn
Nguyên nhân của sự chuyển biến đó là:
- Sự phát triển nhanh chóng và phổ biến các kho ngữ liệu trên hạ tầng internet Bên cạnh đó còn là thói quen sử dụng tài liệu số hóa trong lưu trữ hoặc truyền tải
Trang 37thơng tin
- Sự tiến bộ vượt bậc của phần cứng máy tính, phần mềm xử lý cũng như các giải pháp xử lý văn bản tự động cho phép ta lưu trữ, xử lý một khối lượng lớn các tính tốn trên kho ngữ liệu với tốc độ nhanh và chính xác
- Những nghiên cứu mới nhất, những kết quả thử nghiệm thành cơng trong lĩnh vực máy học
Với hướng tiếp cận máy học, phân loại tài liệu tự động cĩ độ chính xác cĩ thể
so sánh được với các chuyên gia phân loại, tiết kiệm được nhiều cơng sức, khơng cần đến nhiều tri thức cũng như các chuyên gia lĩnh vực trong việc xây dựng các bộ phân loại …
Các dạng học
Cĩ nhiều hướng tiếp cận máy học, nhìn chung ta cĩ thể phân loại thành 3 loại như sau [3],[14]:
1 Học theo ký hiệu: dạng học phù hợp nhất với các bài tốn xử lý ngơn ngữ ở
mức kí hiệu bao gồm cây quyết định (decision tree), danh sách quyết định (decision lists), học dựa theo luật cải biến (transformation based learning), bộ luật phân tách tuyến tính (linear separator), học dựa theo trường hợp (instance based learning), suy diễn logic (inductive logic programming)
2 Học theo xác suất (stochastic, statistical hoặc probabilistic): Mơ hình này
được mơ tả như là một mạng xác suất (probabilistic network) trong đĩ mơ tả các phụ thuộc xác suất giữa các biến cố với nhau Mỗi nút trong đồ thị là một phân phối, và từ các phân phối độc lập đĩ ta tính được phân phối kết hợp của dữ liệu quan tâm Cĩ nhiều hướng tiếp cận để đạt được mạng xác suất ví dụ như Nạve Bayes, Maximum Entropy, Mơ hình Markov ẩn (Hidden Markov Model) Expectation Maximum (EM), log-linear …
3 Học theo tiểu ký tự (subsymbolic): như mạng neural, thuật giải di truyền
(genetic algorithm) Dạng học này phù hợp với việc học trên ngữ liệu ngơn ngữ cấp thấp như nhận dạng tiếng nĩi, …
Trang 38Hình 4.2 : Mô hình phân loại tài liệu tự động
4.2.2 Tiền xử lý
4.2.2.1 Khái niệm
Tài liệu mẫu huấn luyện hay tài liệu cần phân loại thường là tài liệu thô Dữ liệu văn bản thường được biểu diễn ở các định dạng khác nhau, tùy theo cấu trúc format của file lưu trữ như pdf, doc, xml, txt … Với những dữ liệu có cách biểu diễn phức tạp thì cấu trúc file sẽ có nhiều ký tự cấu trúc mô tả văn bản, kí tự điều khiển, Đối với hệ thống phân loại tài liệu, cái chúng ta cần không phải là các ký
tự mô tả cấu trúc … trong trường hợp này những ký tự đó gọi là nhiễu văn bản hay những kí tự không có ý nghĩa cho bài toán phân loại Để giảm thiểu số chiều không gian đặc trưng, tiết kiệm tài nguyên của hệ thống chúng ta cần phải loại bỏ nhiễu văn bản này Tùy vào loại văn bản đầu vào khác nhau mà ta có giải pháp xử lý nhiễu khác nhau Trong khuôn khổ luận văn này, tôi không tham vọng xử lý nhiễu các định dạng khác nhau, mà chỉ tập trung xử lý nhiễu đối với định dạng trang web
- file html [3],[14]
4.2.2.2 Tiền xử dữ liệu html
Trang web (web page hoặc webpage) được tổ chức dưới dạng text file (định
dạng HTML hoặc HTM) Các ký tự điều khiển hỗ trợ việc hiện thị nội dung trang web cũng được định dạng luôn trong nội dung trang file html Do vậy ta cần có một
bước để loại bỏa nhiễu dạng này - “Nhiễu điều khiển” Giải thuật loại bỏ nhiễu
Huấn luyện
Phân loại
Kết quả
Trang 39điều khiển khá đơn giản do những ký tự điều khiển đều được quy định chuẩn định dạng html Trong mộ số trường hợp ta có thể tận dụng các ký tự điều khiển để gán trọng số cho các đặc trưng chích chọn được sau này Ví dụ từ khóa trong thẻ <B>,
<I>, <Strong> … thì sẽ có ý nghĩa hơn so với các từ khóa không thuộc thẻ đặc biệt nào Ngoài ra việc nhận dạng trang web thuộc loại nào dưới đây (theo cách phân
loại của Dublin Core [6],[12]) sẽ rất là hữu ích cho modul tiền xử lý lựa chọn giải
thuật phù hợp
Trang chủ đề - Topic page:là webpage chứa nội dung cụ thể về chủ đề nào đó Trang trung tâm - Hub page: là webpage không trình bày một nội dung cụ thể nào đó mà là một tập các đường link tới các webpage liên quan đến chủ đề của
trang web này Trang web http://www.yahoo.com là một ví dụ cụ thể của trường hợp này
Trang đa phương tiện - Multimedia page: nội dung chính của trang web được
biểu diễn bằng hình ảnh, âm thanh, … thay cho văn bản Thông thường với loại
webpage này thì mỗi nội dung (hình ảnh, âm thanh) thường có những thông tin đi
kèm mô tả sơ bộ về nội dung này
Nhiễu nội dung
Thông tin trong nội dung của webpage thường kèm theo một số lượng lớn
“nhiễu nội dung” điều này khác biệt rất nhiều so với dữ liệu văn bản truyền thống
Nhiễu này có thể chia làm 2 loại:
Nhiễu toàn cục (Global noise): Nhiễu này chiếm một số lượng lớn, thông
thường là một bản sao một trang web Nhiễu này không những làm xáo trộn việc thu thập và xếp hạng của các máy tìm kiếm mà còn tiêu tốn nhiều tài nguyên hệ thống trong việc lưu trữ một bản sao của trang web
Nhiễu cục bộ (Local noise): Đây là các nhiễu nội dung trong trang web Loại
nhiễu này thường là các nội dung quảng cáo, thông tin về bản quyền trang web, bản quyền bài viết, … Loại nhiễu này gây nhiều khó khăn cho các chương trình thu thập nội dung chính của trang web
Ta gọi tiến trình loại bỏ local noise là làm sạch trang web (webpage cleaning),
Trang 40và tiến trình loại bỏ global noise là loại bỏ bản sao (Replica Removal) Trên thực tế
sử dụng người ta dùng kết quả của tiến trình webpage cleaning là đầu vào của loại tiến trình replica removal Một nhiệm vụ quan trọng nữa trong giai đoạn tiền xử lý này là trích xuất được siêu dữ liệu của webpage thô đầu vào
Hình 4.3: Tiền xử lý trang web
Từ hình 4.3 cho thấy sau bước làm sạch trang web, tất cả các nội dung
webpage đã được làm sạch nhiễu cục bộ Và sau bước loại bỏ bản sao thì tất cả các bản sao webpage nào đó đã được loại bỏ Dữ liệu lúc này có thể đáp ứng làm dữ
liệu đầu vào của các modul xử lý giải thuật khác
4.2.2.3 Làm sạch trang web
Là bước loại bỏ nhiễu cục bộ của trang web, đây cũng là tiến trình trích xuất nội dung chủ đề của trang web Dựa trên cây đánh dấu theo chuẩn quy định cho htm, trích xuất nội dung chủ đề và các link có liên quan
Nhận dạng loại trang web: Dựa vào các thẻ điều khiển ta có thể xác định
được những điểm khác nhau chính của của thuật ngữ, siêu liên kết (hyperlink) và
các nội dung đa phương tiện Trên thực tế ta thấy nội dung trang web có độ quan trọng khác nhau thì sẽ được biểu diễn hoặc bố trí ở những vị trí có tầm quan trọng khác nhau trên trang web Do vậy để xác định loại trang web thay vì hệ thống quan tâm tới toàn bộ trang thì hệ thống chỉ quan tâm tới những vị trí quan trọng trên trang web
Làm sạch trang web: với một webpage cho trước, đầu tiên xác định cây đánh
dấu Dựa trên cây đánh dấu, tiến trình trích xuất xuất nội dung chủ điểm qua một số bước tương ứng với đặc trưng của loại trang web
Với loại trang chủ đề: trong trang chủ điểm, nội dung được biểu diễn bằng các
Trang
web
Nội dung thuần
Đầu vào chọn lọc
Siêu dữ liệu Trích chọn