Báo cáo máy học Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ Cần demo Liên hệ facebook. Input: chọn cùng 1 văn bản vào 2 ô textNhấn so sánhKhoảng cách sẽ ra 0 do đầu vào là 2 văn bản giống hệt nhauKết luận đưa ra là 2 văn bản có sự sao chép 100%...
Trang 1Xin gửi lời cảm ơn chân thành đến gia đình, và bè bạn vì đã luôn là nguồn độngviên to lớn, giúp đỡ em vượt qua những khó khăn trong suốt quá trình học tập
Mặc dù đã cố gắng hoàn thiện đồ án với tất cả sự nỗ lực của bản thân, nhưng chắcchắn không thể tránh khỏi những thiếu sót Kính mong quý Thầy Cô tận tình chỉ bảo Một lần nữa, em xin chân thành cảm ơn và luôn mong nhận được sự đóng góp quýbáu của tất cả mọi người
Hà Nội, tháng 12 năm 2014 Sinh viên thực hiện
Trang 2NHẬN XÉT
···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
MỤC LỤC
Trang 4LỜI MỞ ĐẦU
1 Tính cấp thiết của đề tài
Trong thời đại công nghệ số như hiện nay, các nguồn tài liệu là vô cùng phongphú Việc “sao chép tài liệu” theo nghĩa tiêu cực như đạo văn, sao chép các luận án,luận văn, đồ án trở nên phổ biến và đang là vấn nạn Ở qui mô rộng hơn, các thư việnđiện tử ngày càng nhiều, một tài liệu có thể được phát hành trên internet nhiều lầntrong những thư viện điện tử khác nhau, trên các trang web khác nhau
Làm thế nào để phát hiện sự sao chép tài liệu theo nghĩa tiêu cực? Làm thế nàongăn chặn việc sao chép trái phép, đạo văn, đạo nhạc, đạo luận văn, đồ án? Chủ đề này
đã được nghiên cứu từ khoảng hơn 10 năm qua Hiện tại, đã có một số giải pháp choviệc phát hiện sao chép và một vài công cụ phần mềm cho phép phát hiện một tài liệu(gọi là văn bản kiểm tra) có sao chép từ một tập hợp các tài liệu nguồn hay không Tậphợp các tài liệu nguồn có thể là đóng- tức là các tài liệu tập hợp trước trong một thưviện điện tử- hoặc là mở, chẳng hạn như tập các tài liệu văn bản trên internet
Đã có một số nghiên cứu đề xuất các phương pháp khác nhau để xác định xemmột đoạn văn bản của một tài liệu có nằm trong một tài liệu nào khác hay không Cácphương pháp này chủ yếu dựa trên tìm kiếm và so khớp chuỗi Tuy nhiên, các phươngpháp so khớp chuỗi chỉ có hiệu quả nếu việc sao chép là “nguyên văn” Do vậy mộtyêu cầu cấp bách đặt ra là làm thế nào để phát hiện việc sao chép khi có sửa đổi đôichút như thay thế một số từ bằng từ đồng nghĩa hay thay đổi một ít trong thứ tự cáccâu trong văn bản
Chính vì vậy, đề tài “Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương
tự giữa từ với từ” được chọn làm đề tài luận văn tốt nghiệp của tôi
2 Mục tiêu của đề tài
Vận dụng các phương pháp tính độ tương tự giữa từ với từ để tính độ tương đồngngữ nghĩa giữa hai văn bản giúp phát hiện một văn bản có được sao chép từ văn bảnkia hay không
3 Đối tượng và nhiệm vụ của đề tài:
• Tập các văn bản trong bộ dữ liệu mẫu
• Tập các tài liệu trên Internet
Trang 5Nhiệm vụ: đề tài tập trung vào tính độ tương tự ngữ nghĩa văn bản dựa trên tậpngữ liệu có sẵn Trong đó có tận dụng tối đa các đặc điểm của kho ngữ liệu, đến độtương tự giữa từ với từ và tập các từ đồng nghĩa
4 Phương pháp và nội dung nghiên cứu
• Nghiên cứu lý thuyết về độ tương tự, các cách tính độ tương tự giữa từ với từ
• Nghiên cứu về kho ngữ liệu, hiện tượng từ đồng nghĩa
• Tìm hiều các cách tách từ trong văn bản tiếng Việt
• Nghiên cứu các phương pháp tính độ tương tự ngữ nghĩa văn bản dựa trên độ tương
tự giữa từ với từ
5 Kết cấu của báo cáo
Nội dung chính của luận văn gồm 4 chương:
• Chương I: Khái niệm độ tương tự
• Chương II: Độ tương tự từ-từ
• Chương III: Độ tương tự văn bản-văn bản
• Chương IV: Tính độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ
Trang 7CHƯƠNG 1 KHÁI NIỆM ĐỘ TƯƠNG TỰ
1.1 Tổng quan về độ tương tự
Nghiên cứu “sự tương tự” (thường ở dạng đối ngẫu của nó là “khoảng cách”)thuộc phạm vi toán học, chẳng hạn trong lý thuyết tôpô và xấp xỉ; nhưng trong khoahọc máy tính và các ứng dụng máy tính có phần khác Trong khoa học máy tính, phéptính xấp xỉ thường được sử dụng theo một lối không có tính hệ thống (non-systematic)
và không theo thể thức (ad-hoc) Trong ngữ cảnh này, khái niệm “sự tương tự” xuấthiện ở nhiều dạng, diễn xuất, và nhiều ứng dụng
Khái niệm “sự tương tự” có nhiều dạng khác nhau Bất chấp những khác biệt,chúng đều có điểm chung: “sự tương tự” được sử dụng để so sánh hai (hay nhiều) đốitượng, hai hoàn cảnh, hai vấn đề, v.v… với nhiều nguyên do khác nhau Luôn có mụcđích nào đó với một phép so sánh như thế, bởi vì một hành động tiếp sau đó được thựchiện và cuối cùng thì một vấn đề nào đó phải được giải quyết Vì lý do đó, hai đốitượng được đem so sánh giữ những vai trò khác nhau Đối tượng thứ nhất đang đượcxem xét và được gọi là vấn đề (problem) Đối tượng thứ hai là đã biết và đã lưu;thường được gọi là bản mẫu (prototype) hay tình huống (case)
“Sự tương tự” được sử dụng một cách gián tiếp trong quá trình giải quyết vấn
đề, nổi bật là các phương pháp dựa trên phép loại suy (Analogy), lập luận dựa theotình huống (Case-Based Reasoning), và nhận dạng mẫu (Pattern Recognition) Chúng
có liên hệ với nhau và không có ranh giới rõ ràng giữa phép loại suy và các phươngpháp khác Ở đây, chúng ta chấp nhận quan điểm rằng phép loại suy gắn với các đốitượng thuộc nhiều lĩnh vực, trong khi CBR và nhận dạng mẫu sử dụng độ tương tựtrong cùng một lĩnh vực Một khác biệt cơ bản giữa CBR và phép loại suy là CBRthường (không phải luôn luôn) xét các đối tượng được mô tả theo cùng ngôn ngữ mô
tả và thuật ngữ, trong khi phép loại suy có thể xét các lý thuyết hoàn toàn khác nhau.Dưới đây là một số ngữ cảnh cần đến “sự tương tự”:
• Lập luận dựa theo tình huống (CBR) là một cách rất tổng quát để giải quyết vấn
đề bằng cách sử dụng các kinh nghiệm trước đó Những kinh nghiệm này đượcghi lại trong một cơ sở dữ liệu gọi là kho tình huống Ý tưởng bên dưới nhằm tái
sử dụng những kinh nghiệm là: “Nếu hai vấn đề là tương tự thì chúng có các giảipháp tương tự” CBR cũng có một giả định cơ bản là luôn tồn tại kinh nghiệm
Trang 8Với điều kiện này, CBR có thể được áp dụng cho hầu hết các dạng ứng dụng.Thường thì có rất nhiều kinh nghiệm được lưu trữ và một khía cạnh thiết yếu lànhanh chóng tìm ra những kinh nghiệm hữu ích (bài toán thu hồi)
• Trong cơ sở dữ liệu (Databases), “sự tương tự” cũng có liên quan với tìm kiếm,
và có quan hệ nào đó với CBR Đa phần cơ sở dữ liệu cần so trùng chính xác.Các phép đo độ tương tự giữ một vai trò trong một số cơ sở dữ liệu đặc biệt như
cơ sở dữ liệu không gian (spatial database) hay cơ sở dữ liệu địa lý database)
(geo-• Nhận dạng mẫu (Pattern Recognition) cũng là một vấn đề rất tổng quát, nghiêncứu sự vận hành và thiết kế các hệ thống nhận dạng các mẫu trong dữ liệu Vìnhững mẫu như thế không phải lúc nào cũng giống hệt nhau, khái niệm “sựtương tự” thường đóng một vai trò quyết định
• Trong phân loại (Classification) và phân tích cụm (Cluster Analysis), “sự tươngtự” được sử dụng để phân loại các đối tượng: các đối tượng tương tự thuộc vềcùng một lớp/cụm, các đối tượng không tương tự thuộc về các lớp/cụm khácnhau
• Trong diễn xuất hình ảnh (Image Interpretation), các hình ảnh được diễn xuấttheo ý nghĩa của chúng và chúng được so sánh với nhau Ví dụ, một ảnh y khoathực tế và một ảnh không có bệnh lý nào đó được so sánh với nhau; độ tương tựgiữa những ảnh này được sử dụng để cho biết ảnh thực kia có chứa bệnh lý haykhông Xác minh hình ảnh (Image Identification) cũng thuộc về lĩnh vực này
• Trong tâm lý học nhận thức và xã hội (Cognitive and Social Psychology), “sựtương tự” là cái gì đó chủ quan; ám chỉ thái độ, giá trị, sở thích, và cá tính giữanhững con người tương xứng mức độ nào Có nhiều dạng mô hình về sự tương tựtrong tâm lý học, bốn mô hình nổi bật là hình học (geometric), đặc tính (featural),dựa trên canh lề (alignment-based), và biến đổi (transformational)
• Trong lĩnh vực an ninh, quốc phòng để xác định đối tượng ảnh khi muốn xácđịnh vân tay, kiểm tra những băng đĩa mang những nội dung cần kiểm soát,…
Độ đo tương tự là một trong những phương pháp tốt để máy tính phân biệt đượccác văn bản qua nội dung của chúng Xét trên khía cạnh nào đó, độ tương tự cànglớn, hai văn bản giống nhau càng nhiều
1.2 Khái niệm độ tương tự
Trang 9Độ tương tự là một khái niệm quan trọng và đã được sử dụng rộng rãi Các địnhnghĩa trước đây về độ tương tự được trói buộc trong một ứng dụng cụ thể hoặc một dạngthể hiện của tri thức
Nhiều độ đo độ tương tự đã được đưa ra, chẳng hạn như nội dung thông tin (Resnik,1995b), độ đo thông tin chung(mutual information – Hindle, 1990), độ đo 7 dựa trênkhoảng cách (Lee et al., 1998; Rada et al 1998) và mô hình đặc trưng tương phản(Tversky, 1977) McGill etc đã khảo sát và so sánh 67 độ đo độ tương tự đã sử dụngtrong tìm kiếm thông tin (McGill et al., 1979)
Một vấn đề trong độ đo độ tương tự trước đây là mỗi một trong số chúng bị tróibuộc trong một ứng dụng cụ thể hoặc đảm đương một mô hình cụ thể Ví dụ độ đo về độtương tự giữa các khái niệm dựa trên khoảng cách (Lee et al., 1989; Rada et al.,và môhình đặc trưng tương phản(Tversky,1997).McGill etc đã khảo sát và so sánh 67 độ đo độtương tự đã sử dụng trong tìm kiếm thông tin(McGill et al,1979)
Một vấn đề trong độ đo độ tương tự trước đây là một trong số chúng bị trói buộctrong một ứng dụng cụ thể hoặc đảm đương một mô hình cụ thể Ví dụ độ đo về độ tương
tự giwuax các khái niệm dựa trên khoảng cách(Lê et al,1989;Rada et al,1989)thừa nhậnrằng phạm vi đã được thể hiện trong 1 mạng.Nếu 1 tập các tài liệu không được thể hiệnnhưu 1 mạng,ddoooj đo dựa trên khoaongr cách sẽ không được áp dụng.Hệ số dice(súcsắc) và hệ số cosin chỉ có thể áp dụng khi các đối tượng được thể hiện nhưu các vecto đặctrưng bằng số
Một vấn đề khác với các độ đo độ tương tự trước đây là các điều giả định cơ bảncủa chúng thường không ở trạng thái rõ ràng Ngoài việc biết các giả định này, không thểtạo ra sự tranh luận về mặt lý thuyết hay phản đối bất cứ độ đo cụ thể nào Hầu hết tất cảcác so sánh và đánh giá của các độ đo độ tương tự trước đây đều dựa trên kết quả do kinhnghiệm
Định nghĩa độ tương tự đạt được 2 mục đích:
• Tính phổ biến (universality): Chúng ta định nghĩa độ tương tự trong thuật ngữ lýthuyết thông tin Điều đó có thể được áp dụng miễn là phạm vi có một mô hình xácsuất Từ đó lý thuyết xác suất có thể được tích hợp với nhiều loại thể hiện của tri thức,chẳng hạn như thứ tự logic (Bacchus, 1988) và mạng ngữ nghĩa (Pearl, 1988), địnhnghĩa của chúng ta về độ tương tự có thể được áp dụng cho nhiều loại lĩnh vực mà
Trang 10mỗi độ đo có một giả định riêng trước Hơn nữa, tính phổ biến của định nghĩa còn chophép độ đo được sử dụng trong lĩnh vực không có giả định trước, chẳng hạn như độtương tự giữa các giá trị có thứ tự
• Tính giả định (Theoretical Justification): độ đo độ tương tự không được định nghĩamột cách trực tiếp bởi công thức Hơn nữa, nó được phân phát từ một tập các giả định
về độ tương tự Mặt khác, nếu các giả định được cho là hợp lý, độ đo độ tương tự cầnthiết phải xảy ra
1.2.1.Định nghĩa độ tương tự (Definition of Similarity)
Mục đích của chúng ta là cung cấp định nghĩa chính thức về khái niệm độ tương tự,đầu tiên chúng ta đưa ra các trực giác (intuitions) về độ tương tự
• Trực giác 1: Độ tương tự giữa A và B có liên quan tới sự tương đồng củachúng Sự tương đồng càng nhiều, độ tương tự càng lớn
• Trực giác 2: Độ tương tự giữa A và B có liên quan tới những sự khác biệt giữachúng Càng nhiều sự khác biệt, độ tương tự càng thấp
• Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt được khi A và B giống hệtnhau (đồng nhất - identical)
1.2.2.Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values)
Rất nhiều các đặc trưng có các giá trị ưu tiên Ví dụ, thuộc tính “chất lượng” cóthể mang một trong các giá trị sau: “excellent”, “good”, “average”, “bad”, “awful”.Không có một định nghĩa nào ở trên cung cấp độ đo độ tương tự giữa hai giá trị có thứ tự.Bây giờ chúng ta sẽ chỉ ra cách định nghĩa của chúng ta có thể được áp dụng
Nếu “chất lượng của X là excellent” và “chất lượng của Y là average”, sự mô tả cụthể nhất của cả X và Y là “chất lượng của X và Y ở giữa hai giá trị excellent và average”
Do đó, sự tương đồng giữa hai giá trị ưu tiên được giới hạn bên trong giữa chúng
1.2.3.Độ tương tự chuỗi (String Similarity-A case study)
Xem xét công việc tìm kiếm từ một danh sách từ các từ mà được xuất phát từ cùngmột gốc như là một từ cho sẵn
Ví dụ, cho trước từ “eloquently”, mục đích của chúng ta là để tìm ra các từ liênquan khác như “ineloquent”, “ineloquently”, “eloquent” và “eloquence” Để làm điều đó,
ta có thể định nghĩa độ đo tương tự giữa hai chuỗi và xếp hạng các từ trong danh sách từtheo thứ tự giảm dần của độ tương tự với từ cho sẵn Những từ xuất phát từ cùng một từgốc nên xuất hiện sớm trong bảng xếp hạng
Trang 11Mỗi lĩnh vực khác nhau có các cách để tính độ tương ngữ nghĩa khác nhau Sau đâychúng ta sẽ tìm hiểu các phương pháp tính độ đo tương tự từ-từ và độ đo tương từ giữavăn bản-văn bản.
Trang 12CHƯƠNG 2 ĐỘ TƯƠNG TỰ GIỮA TỪ VÀ TỪ
2.1 Định nghĩa từ
Khái niệm từ nghe rất thông dụng dễ hiểu nhưng định nghĩa chính xác thế nào thìkhông đơn giản Từ trước tới nay cũng có nhiều định nghĩa được đưa ra, tất cả đều đúngnhưng chưa hoàn chỉnh Dưới đây, tôi nêu ra một số định nghĩa về từ
Thời Hy Lạp cổ đại, trường phái ngôn ngữ Alexandre định nghĩa: “Từ là đơn vị nhỏnhất trong chuỗi lời nói” Theo E.Sapir: “Từ là một đoạn nhỏ nhất có ý nghĩa, hoàn toàn
có khả năng độc lập và bản thân có thể làm thành câu tối giản”
Còn với những nhà ngôn ngữ học tiếng Việt, thì theo Lê Văn Lý: “Từ là một tínhiệu ngữ âm có thể cấu tạo bằng một âm vị hay sự kết hợp với âm vị, mà sự phát âm chỉtiến hành trong một lần, hoặc là một âm tiết mà chữ viết biểu thị bằng một đơn vị nhỏnhất trong chuỗi lời nói” Theo E.Sapir: “Từ là một đoạn nhỏ nhất có ý nghĩa, hoàn toàn
có khả năng độc lập và bản thân có thể làm thành câu tối giản”
Còn với những nhà ngôn ngữ học tiếng Việt, thì theo Lê Văn Lý: “Từ là một tínhiệu ngữ âm có thể cấu tạo bằng một âm vị hay sự kết hợp với âm vị, mà sự phát âm chỉtiến hành trong một lần, hoặc là một âm tiết mà chữ viết biểu thị bằng một đơn vị tách rời
có thể hiểu được” Theo Nguyễn Kim Thản thì “Từ là đơn vị cơ bản của ngôn ngữ, có thểtách khỏi các đơn vị khác của lời nói để vận dụng một cách độc lập và là một khối hoànchỉnh về mặt ý nghĩa và cấu tạo” Quan niệm của ông về “đơn vị cơ bản” là những đơn vị
có số lượng hữu hạn để thông báo, trao đổi tư tưởng cho nhau Đơn vị này phải có ýnghĩa, và khi sử dụng, người dùng phải có ý thức về nó Chính vì thế, từ không thể là câu,
và không thể là âm tiết (vì nhiều khi âm tiết không có nghĩa và khi sử dụng, người dùngkhông ý thức về nó)
Có người lại cho rằng “Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm bềnvững, hoàn chỉnh, có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do trong lờinói để tạo câu” Ví dụ: nhà, người, áo, nếu, sẽ, thì, đường sắt, sân bay, dạ dày, đen sì,v.v
Trang 132.2 Cấu trúc từ
Từ tiếng Việt không giống với ngôn ngữ phương Tây khác là không thể tách để xácđịnh từ loại Từ trong tài liệu tiếng Việt có thể là từ đơn (từ có cấu tạo từ một âm tiết)hoặc từ ghép (từ có cấu tạo từ hai âm tiết trở lên)
Việc xác định nghĩa của từ trong văn bản là một trong những thách thức lớn nhấttrong xử lý ngôn ngữ tự nhiên Nghĩa của từ chưa biết thường được suy ra từ văn cảnh sửdụng chúng Sự nhận dạng các từ đồng nghĩa là bước khởi đầu trong việc học định nghĩamột từ