Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị có bố cục thành 3 chương: Chương 1. Bài toán tổng hợp ý kiến góp ý trong hội nghị, chương 2. Các phương pháp tính độ tương đồng câu, Chương 3. Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong Hội nghị.
Trang 1TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP
Ý KIẾN GÓP Ý TRONG HỘI NGHỊ
TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI - 2016
Trang 2MỤC LỤC
MỤC LỤC……….1
MỞ ĐẦU………2
CHƯƠNG 1: BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ……… 4
1 Tổng quan về bài toán tổng hợp ý kiến góp ý trong Hội nghị……4
2 Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội nghị Trung ương………4
3 Xác định bài toán cần giải quyết……….6
CHƯƠNG 2: CÁC PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG CÂU………7
1 Khái niệm độ tương đồng câu……… 7
2 Các phương pháp tính độ tương đồng câu……….7
3 Đánh giá và lựa chọn phương pháp……… 17
CHƯƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ……….17
1 Đề xuất giải pháp phát hiện nội dung giống nhau trong phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ………18
2 Xử lý dữ liệu……….18
3 Thực nghiệm………19
4 Đánh giá kết quả thực nghiệm………21
KẾT LUẬN………22
Tài liệu tham khảo……….23
Trang 3được đưa ra bàn thảo, xin ý kiến các Ủy viên Trung ương trước khi thông qua chính thức Những nhiệm vụ quan trọng của Văn phòng Trung ương Đảng là chuẩn bị, tổ chức, phục vụ về cơ sở vật chất và nội dung, tổng hợp tất cả các ý kiến góp ý của các Hội nghị Trung ương Đảng Hiện nay, ở Văn phòng Trung ương Đảng sử dụng phần mềm hỗ trợ tổng hợp ý kiến thảo luận tổ tại các Hội nghị Trung ương Nhưng phần mềm này chưa có chức năng phát hiện, đánh dấu các ý kiến giống nhau Với mong muốn nâng cao chất lượng phần mềm, luận văn nghiên cứu các giải pháp nhằm giải quyết vấn đề trên
2 Mục tiêu và nhiệm vụ nghiên cứu của luận văn
* Mục tiêu: Nghiên cứu các phương pháp tính toán độ tương
đồng câu Trên cơ sở đó, đề xuất giải pháp xây dựng chức năng phát hiện, đánh dấu những câu, đoạn văn giống nhau về ngữ nghĩa trong các
ý kiến góp ý vào cùng một nội dung của chủ đề được đưa ra bàn thảo tại Hội nghị Trung ương Đảng
* Nhiệm vụ:
- Giới thiệu bài toán tổng hợp ý kiến trong hội nghị
- Tìm hiểu các phương pháp tính độ tương đồng câu
- Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong Hội nghị
3 Tổng quan nghiên cứu vấn đề
Trang 4Trên thế giới, các công trình nghiên cứu về tính toán độ tương đồng giữa các từ, các câu hoặc đoạn văn ngắn đã được nghiên cứu rộng rãi Tại Việt Nam, các thuật toán tính toán độ tương đồng giữa các câu
để áp dụng vào bài toán tóm tắt văn bản cũng đã được nhiều tác giả tìm hiểu, nghiên cứu Đã có tác giả nghiên cứu về bài toán phân lớp ý kiến góp ý trong tổng hợp ý kiến trong Hội nghị [3] Tuy nhiên việc phát hiện nội dung góp ý giống nhau trong một nội dung thảo luận để cảnh báo, lược bỏ thì chưa được nghiên cứu áp dụng
5 Phương pháp nghiên cứu
Các phương pháp nghiên cứu: phương pháp khảo sát; tổng hợp; phân tích, đánh giá; thực nghiệm
6 Nội dung của luận văn
Ngoài phần mở đầu và kết luận, luận văn được bố cục thành 3 chương:
- Chương 1 Bài toán tổng hợp ý kiến góp ý trong hội nghị
- Chương 2 Các phương pháp tính độ tương đồng câu
- Chương 3 Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong Hội nghị
Trang 5Trong luận văn, cụm từ “tổng hợp ý kiến” được hiểu theo khía cạnh là tập hợp các ý kiến góp ý riêng lẻ để thể hiện xu hướng của đại biểu góp ý vào một nội dung của vấn đề Ví dụ như: Đa số ý kiến cho rằng…, Một số ý kiến cho rằng…, Có ý kiến cho rằng…
Có những bài toán được hiểu tương tự bài toán tổng hợp ý kiến theo một khía cạnh nào đó: Bài toán về “khai phá quan điểm”, Bài toán Tóm tắt văn Trong luận văn về “Hệ thống tự động tổng hợp ý kiến góp
ý trong Hội nghị” [3], tác giả có đưa ra mô hình phân lớp ý kiến tổng hợp Nhu cầu đặt ra là cần xây dựng một hệ thống hỗ trợ tổng hợp ý kiến có chức năng tập hợp các ý kiến góp ý, có các tính năng giúp cho người sử dụng tổng hợp nhanh hơn như việc phát hiện, đánh dấu các nội dung giống nhau để qua đó người sử dụng quyết định việc tổng hợp
ý kiến
2 Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội nghị Trung ƣơng
Hiện tại Văn phòng Trung ương Đảng đang sử dụng phần mềm
Hỗ trợ tổng hợp ý kiến thảo luận Tổ tại các Hội nghị Trung ương Phầm mềm đang được sử dụng này có chức năng cơ bản là từ các bản tổng hợp ý kiến thảo luận của Trung ương tại mỗi tổ, phần mềm đã gộp các
ý kiến này theo từng nội dung Kết quả là phần mềm đã giúp cho các chuyên viên tránh được tổng hợp thiếu, sót các ý kiến trong quá trình tổng hợp
Trang 62.1 Quy trình tổng hợp ý kiến thảo luận
Tại mỗi kỳ họp Hội nghị Trung ương, các ủy viên Trung ương được chia thành các tổ để bàn nội dung của Hội nghị Để ghi chép biên bản và tổng hợp ý kiến góp ý ở mỗi tổ, Văn phòng Trung ương Đảng
bố trí : Các tổ thư ký tương ứng với các tổ thảo luận của Trung ương Đảng và một nhóm tổng hợp chung cho chủ đề thảo luận Dựa trên biên bản chi tiết và bản tổng hợp tổ của các thư ký, nhóm tổng hợp chung tổng hợp các ý kiến góp ý của Hội nghị
2.2 Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ
Trên cơ sở khảo sát, nghiên cứu quy trình tổng hợp ý kiến trên giấy, Văn phòng Trung ương Đảng đã xây dựng và áp dụng phần mềm
Hỗ trợ tổng hợp ý kiến với các tiến trình sau:
Hình 1.2 Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến Kết quả chính của phần mềm là bản tổng hợp các ý kiến góp ý cả các tổ
Trang 7Hình 1.3 Kết quả bản tổng hợp các ý kiến góp ý của các Tổ
* Đánh giá chung: Giúp cho việc tổng hợp các ý kiến có chất
lượng hơn, tránh được tình trạng tổng hợp thiếu ý kiến của đại biểu Giúp cho các chuyên viên tổng hợp chung hạn chế tối đa việc “bỏ sót”
ý kiến thảo luận ở tổ Một số hạn chế: phần mềm chỉ mang tính tập hợp các ý kiến các tổ theo các khung mục cho trước mà chưa hỗ trợ đánh dấu, phát hiện ý giống nhau trong các bản tổng hợp tại tổ và bản tổng hợp chung do vậy hiệu quả hỗ trợ chưa được cao
3 Xác định bài toán cần giải quyết
Để hỗ trợ tốt hơn việc tổng hợp ý kiến thảo luận Tổ tại các Hội nghị Trung ương, rất cần thiết phải giải quyết bài toán phát hiện, đánh dấu các nội dung giống nhau trong các ý kiến góp ý vào trong cùng một vấn đề Qua đó, giúp các chuyên viên nhanh chóng nhận biết, lược bỏ các ý kiến giống nhau đã được tổng hợp trước Yêu cầu cần đáp ứng khi giải quyết bài toán là không đòi hỏi phát hiện chính xác nội dung giống nhau (chỉ cần gần giống hoặc tương tự) và giải pháp kỹ thuật không quá phức tạp Người sử dụng sẽ quyết định sự trùng lặp về nội dung và quyết định có lược bỏ hay không Vì vậy, yêu cầu về độ chính xác của giải pháp như trên là đảm bảo nhu cầu sử dụng
Trang 8CHƯƠNG 2 CÁC PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG CÂU
1 Khái niệm độ tương đồng câu
Sự tương đồng là một đại lượng (con số) phản ánh cường độ của mối quan hệ giữa hai đối tượng hoặc hai đặc trưng Đại lượng này thường ở trong phạm vi từ 0 đến 1
Phát biểu bài toán độ tính tương đồng câu của luận văn này như sau: Xét một tài liệu d gồm có n câu: d = s1, s2, …, sn Mục tiêu của bài toán là tìm ra một giá trị của hàm S(si, sj) với S϶ (0,1), và i, j = 1, , n Hàm S(si, sj) được gọi là độ đo tương đồng giữa hai câu si và sj Giá trị càng cao thì sự giống nhau về nghĩa của hai câu càng nhiều
2 Các phương pháp tính độ tương đồng câu
2.1 Phương pháp tính độ tương đồng câu dựa vào WordNet
Ý tưởng chính của phương pháp này là thông qua tập ngữ nghĩa (WordNet) để tính toán độ tương đồng giữa các từ trong các câu, qua
đó tính độ tương đồng của các câu Ngoài ra để tăng thêm phần chính xác còn có kết hợp tính sự tương đồng vị trí xuất hiện các từ của các câu.[12]
Giới thiệu về WordNet: WordNet là kho dữ liệu tiếng Anh, các
từ tiếng Anh được nhóm thành các bộ từ đồng nghĩa được gọi là synset, cung cấp các định nghĩa chung và ngắn gọn, đồng thời ghi lại giá trị quan hệ ngữ nghĩa giữa các bộ đồng nghĩa Phương pháp tính độ tương đồng giữa 2 từ dựa vào độ dài ngắn nhất trên sơ đồ phân cấp
Trang 9Hình 2.1 Sơ đồ phân cấp các từ trong WordNet
Các bước tính độ tương đồng của câu
Hình 2.2 Sơ đồ tính độ tương đồng của câu
- Bước 1: Tiền xử lý dữ liệu
- Bước 2: Tính độ tương đồng của hai từ (dựa vào WordNet)
- Bước 3: Tính độ tương đồng ngữ nghĩa của hai câu
- Bước 4: Tính độ tương đồng thứ tự các từ của hai câu
- Bước 5: Tính độ tương đồng hai câu (kết quả của bước 3, bước 4)
2.2 Phương pháp tính độ tương đồng câu dựa vào Wikipedia
Giới thiệu mạng ngữ nghĩa Wikipedia: Wikipedia là một bách
khoa toàn thư nội dung mở, là kết quả của sự cộng tác của chính những người đọc từ khắp nơi trên thế giới Wikipedia tiếng Việt được thành lập vào tháng 10 năm 2003 Hiện nay đã có 1.149.101 bài viết bằng tiếng Việt với 3.234.593 trang [5]
Trang 10Kiến trúc mạng Wikipedia: Các bài viết của Wikipedia được tổ
chức dưới dạng một mạng các khái niệm liên quan với nhau về mặt ngữ nghĩa Các mục chủ đề (category) được tổ chức trong một cấu trúc phân cấp (taxonomy) được gọi là đồ thị chủ đề Wikipedia (Wikipedia Category Graph - WCG)[20]
Hình 2.3 Đồ thị chủ đề Wikipedia
Tính độ tương đồng của hai từ trong Wikipedia: Có hai phương
pháp tiếp cận để tính toán độ tương đồng dựa trên Wikipedia
(1) Phương pháp tiếp cận Semantic similarity: Phương pháp này
sử dụng các thuật toán xử lý ngôn ngữ tự nhiên để tính toán mối quan
hệ giữa các từ cần xác định độ tương đồng Một trong các thuật toán được đưa ra như sau[18]
Hình 2.4 Mô hình tính độ tương đồng giữa hai từ dựa trên Wikipedia
Để tính độ tương đồng giữa hai từ, người ta dựa trên Wikipedia
để trích một đoạn văn ngắn có liên quan đến từ đó (Wiki Snippet
Trang 11Hình 2.5 Trích xuất tập các từ dựa trên Wikipedia
Sau khi lấy được đoạn văn thì đoạn văn đó được qua các bước
xử lý dữ liệu như là loại bỏ các từ dùng, những từ không có giá trị Kết quả thu được là một tập các từ, sau đó người ta sử dụng các thuật toán
xử lý ngôn ngữ tự nhiên thông qua các độ đo như Cosine, Jaccard để tính toán
(2) Phương pháp tiếp cận Semantic relatedness: Phương pháp tính độ đo SR trên đồ thị WCG bằng cách cải tiến các độ đo tính toán
sự tương đồng ngữ nghĩa của hai từ trên Wordnet Phương pháp này được chia làm hai loại độ đo:
+ Độ đo dựa khoảng cách giữa các khái niệm (path based) Kết quả tính càng nhỏ tức là mối tương đồng càng gần với nhau
+ Độ đo dựa vào thông tin giữa các khái niệm (information content based) Kết quả tính càng lớn mối quan hệ tương đồng càng gần nhau
2.3 Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn (Latent Dirichlet Allocation)
Trang 12Ý tưởng của phương pháp là tính độ tương đồng câu dựa trên mô hình phân tích chủ đề ẩn LDA (Latent Dirichlet Allocation) [2,15] Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn như sau:
Hình 2.6 Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn
+ Đầu vào là một văn bản đơn, sau các bước tiền xử lý văn bản
sẽ thu được một danh sách các câu
+ Suy luận chủ đề cho các câu đã qua tiền xử lý, kết quả thu được một danh sách các câu được thêm chủ đề ẩn
Mô hình LDA dựa trên ý tưởng là giả thuyết mỗi một tài liệu là
sự tổ hợp của một tập các chủ đề (topic) ẩn k với các trọng số p(k|d) (là xác suất xuất hiện của chủ đề k trong tài liệu d), trong đó mỗi chủ đề lại
là sự tổ hợp của một tập các từ vựng xuất hiện trong các tài liệu với các trọng số p(w|k) (là xác suất xuất hiện của từ vựng w trong chủ đề k) Khi đó, dựa trên các thông tin về các chủ đề của từng tài liệu, cụ thể ở đây là p(k|d) có thể tính độ tương đồng của các tài liệu
Trang 13Hình 2.7 Mô hình LDA
α tham số Dirichle; β tham số Dirichle; θd phân phối các chủ đề trong tài liệu thứ d; Zd,n topic index (từ n của tài liệu d); Wd,n từ n của tài liệu d chỉ bởi Zd,n; ɸk (phi) phân phối của các từ được sinh ra bởi
topic Zd,n; K: số chủ đề (topic); D: số tài liệu; N: số lượng các từ trong tập tài liệu D;
Trong LDA được chia làm ba mức: mức tập tài liệu, mức tài liệu,
và mức từ Các tham số (α,β ) là các tham số ở mức tập tài liệu, các biến θd là các biến ở mức tài liệu và các biến Wd,n là các biến ở mức từ
và được xác định với mỗi từ trong mỗi tài liệu Thông qua mô hình LDA ta tính được trọng số của mỗi chủ đề trên tài liệu
k d
k d k
d
, ,
k k d
K k
k p k d p
d Sim
1
2 2
1
1
) ( )
( )
, (
Trang 14Phân tích ngữ nghĩa tiềm ẩn là một thuật toán và phương pháp trích xuất và đại diện nội dung ngữ nghĩa bởi sử dụng tính toán thống
kê với một tập văn bản lớn (Landauer và Dumais, 1997) Ý tưởng cơ bản là lấy tập hợp các từ trong tập văn bản, đưa ra từ xuất hiện hoặc không xuất hiện trong các văn bản thuộc tập văn bản đó, sau đó tính toán sự tương đồng của các từ với các từ khác hoặc của tập từ với tập từ khác [10]
LSA giả định rằng những từ có ngữ nghĩa gần nhau thường xuất hiện trong cùng ngữ cảnh Xuất phát từ bảng dữ liệu D kích thước
n
m , mỗi hàng tượng trưng cho một ký tự, mỗi cột tượng trưng cho một đoạn văn bản, mỗi một ô chứa tần suất mà từ ở dòng ma trận xuất hiện trong đoạn văn bản được biểu diễn tại cột của ma trận Sau đó, LSA sử dụng kỹ thuật phân tích giá trị đơn (Singular Value Decomposition - SVD) rút trích mối tương quan ngữ nghĩa giữa các từ trong tập văn bản, giảm số cột (chiều) về k đặc trưng tiềm ẩn của bảng
dữ liệu, thu được bảng R kích thước m k trong khi vẫn giữ được cấu trúc tương tự của các dòng trong bảng R
Phân tích giá trị đơn (SVD) trong LSA
Trong LSA ma trận biểu diễn mối quan hệ giữa các từ và văn bản
là ma trận Amxn là một ma trận thưa có kích thước lớn Để giảm số chiều của ma trận người ta thường tìm cách xấp xỉ ma trận A (có hạng r) bằng một ma trận Ak có hạng k nhỏ hơn rất nhiều Ma trận xấp xỉ của
A là Ak=UkƩkVk
T
Trang 15
Hình 2.8 SVD trong LSA Việc xấp xỉ này có thể xem như chuyển không gian đang xét (r chiều) về không gian k chiều, với k <<r Về mặt thực hành việc cắt ma trận A về số chiều k còn loại bỏ nhiễu và tăng cường các mối liên kết ngữ nghĩa tiềm ẩn giữa các từ trong tập văn bản [1] Trong LSA các ma trận Ak được gọi là không gian ngữ nghĩa (semantic space) Độ phức tạp của thuật toán SVD là O(n2k3), trong đó n là số từ, k là số chiều trong không gian ngữ nghĩa (khoản ~ 50 đến 350)
Để có thể hiểu rõ hơn về LSA ta xem xét một ví dụ sau [8]
Có 9 câu về công nghệ thông tin
c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system
c4: System and human system engineering testing of EPS
c5: Relation of user perceived response time to error measurement m1: The generation of random, binary, ordered trees
m2: The intersection graph of paths in trees
m3: Graph minors IV: Widths of trees and well-quasi-ordering