1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị

62 406 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 2,82 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục tiêu và nhiệm vụ nghiên cứu của luận văn * Mục tiêu: Với mục đích góp phần giúp các chuyên viên nhanh chóng phát hiện ra những ý kiến thảo luận đã được đề cập đến và bỏ qua chúng t

Trang 1

Ý KIẾN GÓP Ý TRONG HỘI NGHỊ

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2016

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN THANH TÙNG

TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG

GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP

Ý KIẾN GÓP Ý TRONG HỘI NGHỊ

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học Cán bộ hướng dẫn chính: TS Bùi Quang Hưng Cán bộ hướng dẫn phụ: PGS.TS Vũ Duy Lợi

HÀ NỘI - 2016

Trang 3

Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên cứu, tìm hiểu của riêng cá nhân tôi Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của cá nhân tôi hoặc là được tổng hợp

từ nhiều nguồn tài liệu Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình

Hà Nội, ngày 26 tháng 10 năm 2016

Người cam đoan

Trần Thanh Tùng

Trang 4

LỜI CẢM ƠN

Tôi xin chân thành cảm ơn PGS.TS Vũ Duy Lợi, chuyên viên cao cấp Văn phòng Trung ương Đảng và TS Bùi Quang Hưng, giảng viên trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã tận tình giúp đỡ tôi về chuyên môn, định hướng phát triển trong suốt quá trình làm luận văn

Tôi xin gửi lời cám ơn tới các Thầy, Cô giáo của Khoa Công nghệ thông tin, vì đã truyền dạy những kiến thức bổ ích, hiện đại về lĩnh vực Hệ thống thông tin Tôi đã được tiếp cận một môi trường học thuật cao, hiểu được sự vất

vả cũng như thành quả đạt được khi tham gia nghiên cứu khoa học

Tôi xin cảm ơn các bạn trong nhóm Data Mining thuộc Trung tâm Công nghệ tích hợp liên ngành giám sát hiện trường (FIMO center), Đại học Công nghệ Hà Nội, TS Nguyễn Việt Anh và Nhóm Giải pháp dữ liệu, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Cuối cùng, với gia đình, tôi xin gửi lời biết ơn sâu sắc vì gia đình đã luôn ở bên cạnh tôi, mang lại cho tôi nguồn động viên tinh thần to lớn và tạo mọi điều kiện thuận lợi cho tôi trong quá trình học tập và hoàn thành luận văn này

Mặc dù đã rất cố gắng nhưng luận văn sẽ không tránh khỏi những thiếu sót Rất mong nhận được ý kiến đóng góp quý báu của Thầy, Cô giáo và các bạn để luận văn được hoàn thiện hơn

Xin trân trọng cảm ơn!

Trang 5

MỤC LỤC

LỜI CAM ĐOAN 3

LỜI CẢM ƠN 4

MỤC LỤC 5

BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 7

DANH MỤC CÁC HÌNH VẼ 8

MỞ ĐẦU 10

CHƯƠNG 1: BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 14

1 Tổng quan về bài toán tổng hợp ý kiến góp ý trong Hội nghị 14

2 Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội nghị Trung ương 15

2.1 Quy trình tổng hợp ý kiến thảo luận 16

2.2 Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ 19

3 Xác định bài toán cần giải quyết 23

CHƯƠNG 2: CÁC PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG CÂU 25

1 Khái niệm độ tương đồng câu 25

2 Các phương pháp tính độ tương đồng câu 25

2.1 Phương pháp tính độ tương đồng câu dựa vào WordNet 25

2.2 Phương pháp tính độ tương đồng câu dựa vào Wikipedia 30

2.3 Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn (Latent Dirichlet Allocation) 34

2.4 Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) 37

3 Đánh giá và lựa chọn phương pháp 45

Trang 6

CHƯƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU

TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 47

1 Đề xuất giải pháp phát hiện nội dung giống nhau trong phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ 47

2 Xử lý dữ liệu 48

3 Thực nghiệm 48

3.1 Môi trường thực nghiệm 48

3.2 Chương trình phần mềm 49

3.3 Dữ liệu thực nghiệm 50

3.4 Giao diện chương trình thực nghiệm 50

4 Đánh giá kết quả thực nghiệm 52

KẾT LUẬN 53

Tài liệu tham khảo 55

Trang 7

BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

trong văn bản

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Mô tả nghiệp vụ tổng hợp trên giấy 18

Hình 1.2 Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến 21

Hình 1.3 Kết quả bản tổng hợp các ý kiến góp ý của các Tổ 22

Hình 2.1 Sơ đồ phân cấp các từ trong WordNet 26

Hình 2.2 Sơ đồ tính độ tương đồng của câu 27

Hình 2.3 Đồ thị chủ đề Wikipedia 31

Hình 2.4 Mô hình tính độ tương đồng giữa hai từ dựa trên Wikipedia 32

Hình 2.5 Trích xuất tập các từ dựa trên Wikipedia 33

Hình 2.6 Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn 35

Hình 2.7 Mô hình LDA 36

Hình 2.8 SVD trong LSA 40

Hình 2.9 Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu văn, mỗi một từ xuất hiện ít nhất trong 2 câu 41

Hình 2.10 Ma trận U 42

Hình 2.11 Ma trận giá trị đơn với k=2 42

Hình 2.12 Ma trận V 42

Hình 2.13 Ma trận được xây dựng lại với k=2 43

Hình 3.1 Mô hình phát hiện nội dung trùng trong tổng hợp ý kiến 47

Hình 3.2 Giao diện khởi tạo LSA 50

Hình 3.3 Giao diện nhập đoạn văn để so sánh 51

Hình 3.4 Kết quả so sánh 51

Trang 9

DANH MỤC CÁC BẢNG BIỂU

Bảng 3.1 Cấu hình thiết bị môi trường thực nghiệm 48 Bảng 3.2 Các thư viện sử dụng 49

Trang 10

MỞ ĐẦU

1 Đặt vấn đề

Những năm qua, việc ứng dụng công nghệ thông tin trong hoạt động của các cơ quan, tổ chức Đảng, Nhà nước đã giúp cho công tác lãnh đạo, chỉ đạo, điều hành và giải quyết công việc hàng ngày được nhanh chóng, chất lượng hơn, đồng thời đã giúp cho công tác cải cách hành chính ngày càng có hiệu quả Việc ứng dụng công nghệ thông tin giúp các cơ quan nâng cao năng lực quản lý, điều hành, giảm thời gian giải quyết, xử lý công việc, góp phần không nhỏ trong việc tinh giảm tổ chức bộ máy, tiết kiệm chi phí về tài chính

Văn phòng Trung ương Đảng là một cơ quan tham mưu của Đảng, có chức năng tham mưu, giúp việc Ban Chấp hành Trung ương Đảng mà trực tiếp là Bộ Chính trị, Ban Bí thư trong việc tổ chức, điều hành công việc lãnh đạo của Đảng Trong mỗi một nhiệm kỳ hoạt động, Ban Chấp hành Trung ương Đảng tổ chức các Hội nghị Trung ương (thông thường 2 Hội nghị/năm) Tại mỗi Hội nghị, có rất nhiều các chủ trương quan trọng, có tầm ảnh hưởng lớn để lãnh đạo, chỉ đạo đất nước; các nội dung, chuyên đề ấy đều được đưa ra bàn thảo, xin ý kiến các Ủy viên Trung ương trước khi thông qua chính thức Một trong những nhiệm vụ quan trọng của Văn phòng Trung ương Đảng là chuẩn bị, tổ chức, phục vụ về cơ sở vật chất và nội dung của các Hội nghị Trung ương Đảng Đội ngũ chuyên viên của Văn phòng Trung ương Đảng được giao nhiệm vụ ghi biên bản chi tiết và tổng hợp tất cả các ý kiến góp ý, thảo luận của Ủy viên Trung ương Công việc này đòi hỏi tính chính xác, nhanh chóng, đầy đủ và kịp thời, theo đó các cán bộ của Văn phòng phải có khả năng tổng hợp, biên tập văn bản; đồng thời rất cần sự hỗ trợ của công nghệ thông tin để thực hiện tốt công việc Thông thường, một nội dung có rất nhiều ý kiến góp ý giống nhau (trong luận văn còn được sử dụng bằng các từ: tương đồng, trùng thừa) gây trùng lặp nội dung thông tin Điều này đã gây ra những khó khăn cho chuyên viên tổng hợp ý kiến, như mất nhiều thời gian, công sức để đọc, lọc loại bỏ những ý trùng thừa,

Trang 11

hoặc là việc rà soát, đánh dấu để loại bỏ các ý kiến đó không triệt để nên sẽ dễ dẫn đến tình trạng chất lượng, hiệu quả công việc chưa cao

Hiện nay, ở Văn phòng Trung ương Đảng đã sử dụng phần mềm hỗ trợ tổng hợp ý kiến thảo luận tổ tại các Hội nghị Trung ương Tuy nhiên, phần mềm này chưa có chức năng phát hiện, đánh dấu các ý kiến trùng lặp Với mong muốn áp dụng những kiến thức đã được học tập ở trong trường vào cải tiến, nâng cao chất lượng, rút ngắn thời gian tổng hợp các ý kiến tại Hội nghị Ban Chấp hành Trung ương Đảng, tôi đã lựa chọn và nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên, data mining để đưa ra giải pháp nhằm giải quyết vấn đề trên Qua đó, đề xuất xây dựng chức năng tự động phân tích, phát hiện, đánh dấu các nội dung góp ý giống nhau trong phần mềm hỗ trợ tổng hợp ý kiến tại các Hội nghị Trung ương đang được sử dụng tại cơ quan

2 Mục tiêu và nhiệm vụ nghiên cứu của luận văn

* Mục tiêu:

Với mục đích góp phần giúp các chuyên viên nhanh chóng phát hiện ra những ý kiến thảo luận đã được đề cập đến và bỏ qua chúng trong quá trình tổng hợp ý kiến góp ý, mục tiêu của luận văn là:

Nghiên cứu các phương pháp tính toán độ tương đồng câu dựa trên các thuật toán về xử lý ngôn ngữ tự nhiên Trên cơ sở đó, đề xuất giải pháp xây dựng chức năng phát hiện, đánh dấu những câu, đoạn văn giống nhau về ngữ nghĩa trong các ý kiến góp ý vào cùng một nội dung của chủ đề được đưa ra bàn thảo tại Hội nghị Trung ương Đảng

Trang 12

chính xác để có thể đưa vào sử dụng trong thực tế Do đó, nhiệm vụ đặt ra trong luận văn là

- Giới thiệu bài toán tổng hợp ý kiến trong hội nghị

- Tìm hiểu các phương pháp tính độ tương đồng câu

- Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ thống tổng hợp

ý kiến góp ý trong Hội nghị

3 Tổng quan nghiên cứu vấn đề

Trên thế giới, các công trình nghiên cứu về tính toán độ tương đồng giữa các từ, các câu hoặc đoạn văn ngắn đã được nghiên cứu rộng rãi Nhiều thuật toán về tính toán độ tương đồng đã được đưa ra và ngày càng có sự cải thiện về

độ chính xác

Tại Việt Nam, các thuật toán tính toán độ tương đồng giữa các câu để áp dụng vào bài toán tóm tắt văn bản cũng đã được nhiều tác giả tìm hiểu, nghiên cứu Tuy nhiên, việc áp dụng các kết quả nghiên cứu khoa học đó vào thực tiễn chưa thực được nhiều và có hiệu quả tốt, nguyên nhân có thể là do chưa phát

hiện chính xác được các nhu cầu sử dụng cũng như yêu cầu của thực tiễn đặt ra

Tổng hợp ý kiến góp ý tại các Hội nghị là công việc có tính chất đặc biệt thường chỉ diễn ra tại các công ty, tổ chức lớn như các cơ quan nhà nước Công việc cụ thể đó là việc tổ chức Hội nghị với đông đảo người tham gia bàn thảo về một hoặc một số chủ đề cụ thể, sau đó tổng hợp các ý kiến góp ý về chủ đề đó

để đưa ra những kết luận, phương án giải quyết Do đây là một công việc cụ thể lại không mang tính chất đại trà nên các nghiên cứu áp dụng các bài toán tin học vào vấn đề này không có nhiều Đã có tác giả nghiên cứu về bài toán phân lớp ý kiến góp ý trong tổng hợp ý kiến trong Hội nghị [3] Tuy nhiên việc phát hiện nội dung góp ý giống nhau trong một nội dung thảo luận để cảnh báo, lược bỏ

thì chưa được nghiên cứu áp dụng

Trang 13

4 Phạm vi nghiên cứu của luận văn

Với tính chất là một luận văn thạc sỹ, phạm vi nghiên cứu của luận văn là: Nghiên cứu các phương pháp và thực nghiệm một phương pháp tính toán độ tương đồng câu để phát hiện nội dung tương đồng nhau trong tổng hợp ý kiến góp ý tại các kỳ Hội nghị Trung ương Đảng

5 Phương pháp nghiên cứu

Để thực hiện được mục tiêu, nhiệm vụ của luận văn, các phương pháp nghiên cứu được sử dụng như sau:

- Phương pháp khảo sát;

- Phương pháp tổng hợp;

- Phương pháp phân tích, đánh giá;

- Phương pháp thực nghiệm

6 Nội dung của luận văn

Ngoài phần mở đầu và kết luận, luận văn được bố cục thành 3 chương:

- Chương 1 Bài toán tổng hợp ý kiến góp ý trong hội nghị

- Chương 2 Các phương pháp tính độ tương đồng câu

- Chương 3 Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong Hội nghị

Trang 14

CHƯƠNG 1 BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ

1 Tổng quan về bài toán tổng hợp ý kiến góp ý trong Hội nghị

Theo từ điển Lạc Việt, từ “tổng hợp” được định nghĩa là tập hợp các yếu tố riêng lẻ làm thành một chỉnh thể Trong luận văn, cụm từ “tổng hợp ý kiến” được hiểu theo khía cạnh là tập hợp các ý kiến góp ý riêng lẻ để thể hiện xu hướng của đại biểu góp ý vào một nội dung của vấn đề Ví dụ như: Đa số ý kiến cho rằng…, Một số ý kiến cho rằng…, Có ý kiến cho rằng… Qua việc tổng hợp

ý kiến, các cơ quan chủ trì đưa vấn đề ra thảo luận biết được xu hướng của đại biểu, qua đó tiếp thu các ý kiến góp ý phù hợp, giải trình những ý kiến băn khoăn, tranh cãi

Tổng hợp ý kiến góp ý trong Hội nghị là công việc đặc thù thường diễn ra tại các cơ quan nhà nước khi cần tổ chức cuộc họp nhằm bàn bạc, quyết định một vấn đề cụ thể Vì vậy, các nghiên cứu riêng biệt về bài toán tổng hợp ý kiến chưa nhiều Tuy nhiên, cũng có những bài toán được hiểu tương tự bài toán tổng hợp ý kiến theo một khía cạnh nào đó:

Bài toán về “khai phá quan điểm” tập trung vào việc phát hiện xu hướng tình cảm, đánh giá của người sử dụng đối với các sự kiện, sản phẩm Một trong các bài toán áp dụng điển hình là phân lớp quan điểm của người sử dụng về sản phẩm nào đó Điểm giống nhau của bài toán tổng hợp ý kiến và khai phá quan điểm về phương diện nào đó đều đưa ra xu hướng của người sử dụng Điểm khác biệt là tổng hợp ý kiến có tính cụ thể rất cao, ví dụ có ý kiến đề nghị chỉnh sửa một vài nội dung cụ thể trong chủ đề đưa ra

Bài toán Tóm tắt văn bản [4] là tự động trích xuất nội dung từ một nguồn thông tin và trình bày nội dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích đối người sử dụng Bài toán Tóm tắt văn bản trong trường

Trang 15

hợp này có thể được hiểu là bài toán tự động tổng hợp ý kiến góp ý Tuy nhiên việc tự động tổng hợp ý kiến có thể gây thiếu ý do các thuật toán không đảm bảo

độ chính xác tuyệt đối Trong thời điểm hiện nay, các phần mềm ứng dụng chưa thể thay thế hoàn toàn con người trong việc tổng hợp ý kiến góp ý mà chỉ có thể

hỗ trợ, gợi ý còn việc quyết định vẫn do con người trực tiếp thực hiện

Trong luận văn về “Hệ thống tự động tổng hợp ý kiến góp ý trong Hội nghị” [3], tác giả có đưa ra mô hình hệ thống tự động tổng hợp ý kiến Tuy nhiên, mô hình này thực tế là giải quyết bài toán phân lớp ý kiến tổng hợp

Qua các nghiên cứu trên, có thể thấy rằng bài toán tổng hợp ý kiến xuất phát từ nhu cầu thực tế của một số cơ quan Tuy nhiên trong thời điểm hiện nay việc xây dựng một hệ thống tự động tổng hợp ý kiến là không khả thi Việc cần làm là xây dựng một hệ thống hỗ trợ tổng hợp ý kiến có chức năng tập hợp các ý kiến góp ý, có các tính năng giúp cho người sử dụng tổng hợp nhanh hơn như việc phát hiện, đánh dấu các nội dung giống nhau để qua đó người sử dụng quyết định việc tổng hợp ý kiến

2 Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội nghị Trung ƣơng

Ban Chấp hành Trung ương Đảng là cơ quan lãnh đạo cao nhất của Đảng giữa 2 kỳ Đại hội Ban Chấp hành Trung ương Đảng (Trung ương Đảng) có nhiệm vụ tổ chức chỉ đạo thực hiện Cương lĩnh chính trị, Điều lệ Đảng, các Nghị quyết của Đại hội; quyết định những chủ trương, chính sách về đối nội, đối ngoại, công tác quần chúng và công tác xây dựng Đảng Trung ương Đảng làm việc theo chế độ tập thể, định kỳ (hoặc đột xuất) tổ chức họp hội nghị Trung ương để bàn bạc, thông qua các vấn đề lớn liên quan đến lãnh đạo, chỉ đạo đất nước

Để giúp Trung ương Đảng đưa ra được những quyết sách đúng đắn, kịp thời trên cơ sở các ý kiến đóng góp của các đồng chí lãnh đạo Đảng, của các ngành, các cấp, Văn phòng Trung ương Đảng, với chức năng là cơ quan tham

Trang 16

mưu, là trung tâm thông tin tổng hợp, có nhiệm vụ tổng hợp ý kiến góp ý đó một cách chính xác, đầy đủ và nhanh chóng tại mỗi Hội nghị của Trung ương Các đồng chí lãnh đạo Văn phòng, chuyên viên của Văn phòng Trung ương Đảng trực tiếp được giao nhiệm vụ ghi chép biên bản chi tiết tại các tổ thảo luận, tại hội trường, tổng hợp các ý kiến góp ý đó và xây dựng báo cáo tổng hợp, giải trình để trình Trung ương Đảng

Trong những năm trở lại đây, việc ứng dụng công nghệ thông tin vào công tác văn phòng nói chung và công tác thông tin tổng hợp nói riêng tại Văn phòng Trung ương Đảng ngày càng được đẩy mạnh và đã hỗ trợ đắc lực cho lãnh đạo

và chuyên viên trong xử lý, giải quyết công việc Đối với hoạt động tổng hợp ý kiến tại các hội nghị của Trung ương, bên cạnh việc tổng hợp, ghi chép thủ công truyền thống (ghi biên bản và tổng hợp trên giấy), Văn phòng Trung ương Đảng đang sử dụng đồng thời phần mềm Hỗ trợ tổng hợp ý kiến thảo luận ở Tổ tại các Hội nghị Trung ương Phầm mềm đang được sử dụng này có chức năng cơ bản

là từ các bản tổng hợp ý kiến thảo luận của Trung ương tại mỗi tổ, phần mềm đã gộp các ý kiến này theo từng nội dung Kết quả là phần mềm đã giúp cho các chuyên viên tránh được tổng hợp thiếu, sót các ý kiến trong quá trình tổng hợp

2.1 Quy trình tổng hợp ý kiến thảo luận

Tại mỗi kỳ họp Hội nghị Trung ương, các Ủy viên Trung ương sẽ tham dự các buổi thảo luận ở tổ bàn về những vấn đề mà Hội nghị đặt ra Các Ủy viên Trung ương của Hội nghị sẽ được chia thành các tổ để thảo luận (thông thường

là 14 tổ) Để ghi chép biên bản và tổng hợp ý kiến góp ý ở mỗi tổ, Văn phòng Trung ương Đảng bố trí :

+ Một nhóm tổng hợp chung cho tất cả các tổ;

+ Các tổ thư ký tương ứng với các tổ thảo luận của Trung ương Đảng (mỗi

tổ thư ký phụ trách ghi biên bản và tổng hợp ý kiến của một tổ thảo luận của Trung ương Đảng)

Trang 17

* Tổ thư ký bao gồm các chuyên viên của Văn phòng Trung ương, mỗi tổ gồm có 01 tổ trưởng và một số thành viên Cụ thể hoạt động của tổ thư ký như sau:

- Các thành viên trong tổ thư ký sẽ ghi chép chi tiết các ý kiến góp ý vào biên bản tại tổ mình được phân công Các biên bản này được gọi là biên bản chi tiết Các biên bản chi tiết được các thành viên trong tổ thư ký viết bằng tay Biên bản ghi diễn biến cuộc họp từ khi bắt đầu đến giờ nghỉ giải lao, sau đó thư ký tổ

sẽ nộp lại biên bản này (biên bản này gọi là quyển 1); sau giờ giải lao, thư ký tổ

sẽ ghi biên bản vào một quyển mới (quyển 2) cho đến khi kết thúc họp

- Đồng chí tổ trưởng của mỗi tổ thư ký có trách nhiệm tổng hợp các ý kiến góp ý được ghi ở biên bản chi tiết (2 quyển) của tổ mình ngay sau khi Hội nghị kết thúc Các ý kiến ở mỗi tổ được tổng hợp lại vào một bản gọi là bản tổng hợp

tổ Theo quy định, sau 2 tiếng kể từ khi Hội nghị họp xong thì tổ trưởng ở mỗi tổ phải nộp lại bản tổng hợp tổ cho nhóm tổng hợp chung của Văn phòng

* Để tổng hợp các ý kiến tại mỗi tổ thành bản tổng hợp chung của Hội nghị

về riêng một vấn đề (hoặc có thể là một số vấn đề) mà các đồng chí lãnh đạo Đảng đã thảo luận tại các tổ, Văn phòng Trung ương sẽ lập một nhóm tổng hợp chung bao gồm: lãnh đạo Văn phòng, trưởng nhóm tổng hợp chung và các thành viên

- Vai trò của nhóm tổng hợp chung là:

+ Thành viên nhóm tổng hợp chung: có nhiệm vụ tổng hợp các vấn đề tại mỗi tổ (trên cơ sở biên bản tổng hợp tổ) theo khung, mục được giao nhiệm vụ (các khung, mục được bố trí là tùy thuộc vào nội dung, vấn đề được thảo luận) + Trưởng nhóm tổng hợp là người chịu trách nhiệm chính trong việc tổng hợp, phân công cho từng thành viên tổng hợp các ý kiến trong biên bản tổng hợp

tổ thành từng khung, mục cụ thể Sau đó ghép các khung, mục của từng thành viên, chỉnh sửa lại trở thành bản tổng hợp chung Bản tổng hợp này sẽ được trình lãnh đạo Văn phòng phê duyệt

Trang 18

+ Lãnh đạo Văn phòng sẽ xem xét bản tổng hợp chung do đồng chí trưởng nhóm gửi, cho ý kiến để chỉnh sửa, phê duyệt và trình các đồng chí lãnh đạo Đảng được phân công phụ trách vấn đề đó

Hình 1.1 Mô tả nghiệp vụ tổng hợp trên giấy

- Về quy trình và thời gian hoàn thành công việc của nhóm tổng họp chung: + Thành viên nhóm tổng hợp chung bắt đầu làm việc từ khi Hội nghị nghỉ giải lao, khi đó các ý kiến thảo luận được ghi tại biên bản chi tiết (quyển 1) của thư ký các tổ sẽ được sao chụp lại gửi từng thành viên trong nhóm Từng thành viên phải đọc lần lượt biên bản từng tổ để lựa chọn ý kiến về khung, mục mà mình được phụ trách tổng hợp Sau khi Hội nghị họp xong thì các ý kiến thảo luận được ghi tại biên bản chi tiết (quyển 2) của thư ký các tổ sẽ được sao chụp

và gửi đến từng thành viên Các thành viên trong nhóm tiếp tục đọc biên bản từng tổ để lựa chọn ý kiến về khung mục mình được phụ trách tổng hợp

Trang 19

+ Thành viên nhóm tổng hợp chung sau khi nhận được bản tổng hợp tổ thì đọc lần lượt các bản tổng hợp tổ đó, lựa chọn các ý trong phần khung mục mà mình được phân công đối chiếu với những nội dung mà đã tổng hợp (từ các biên bản chi tiết ở mỗi tổ) trước đó Mỗi thành viên tổ tổng hợp chung phải hoàn thành công việc trong vòng 4 tiếng kể từ khi Hội nghị kết thúc

+ Sau đó từng thành viên sẽ gửi cho người trưởng nhóm tổng hợp phần việc của mình Người trưởng nhóm sẽ gộp các phần đó lại và tiến hành chỉnh sửa để thành bản tổng hợp chung Thời gian hoàn thành công việc khoảng 6 tiếng sau khi Hội nghị kết thúc

+ Sau đó bản tổng hợp chung được gửi lên lãnh đạo Văn phòng để cho ý kiến và phê duyệt phát hành

Trong một số trường hợp, nếu xét thấy các nội dung tổng hợp còn có những vấn đề chưa hợp lý hoặc chưa thật sự rõ ràng, Lãnh đạo Văn phòng Trung ương Đảng, trưởng nhóm tổng hợp chung có thể xem xét lại biên bản ghi chi tiết tại các tổ

2.2 Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ

Trên cơ sở khảo sát, nghiên cứu quy trình tổng hợp ý kiến tại các Hội nghị Trung ương Đảng trên giấy, Văn phòng Trung ương Đảng đã xây dựng và áp dụng phần mềm Hỗ trợ tổng hợp ý kiến với các tiến trình sau:

Trang 20

(*) Trong một buổi tổng hợp có thể có hơn một chủ đề được tổng hợp

(**) Trong trường hợp người Tổ trưởng Tổ thư ký tổng hợp ngay tại Hội trưởng (không có kết nội mạng), phần mềm cho phép tổng hợp tại máy tính riêng lẻ sau đó nhập vào phần mềm chung

Trưởng nhóm tổng hợp chung tạo chủ đề, phân công cho các thành viên tổng hợp theo các khung

mục (*)

Tổ trưởng Thư ký tổ nhập nội

dung tổng hợp của tổ mình vào

các mục Người tổ trưởng có

thể in hoặc xuất ra Word nội

dung tổng hợp của tổ (**)

Thành viên nhóm tổng hợp chung tổng hợp các phần được phân công (người trưởng nhóm

có thể tổng hợp một nội dung trong chủ đề)

in ra hoặc xuất ra Word để lưu

Nội dung góp ý của tổ

Nội dung các phần tổng hợp

Trang 21

Hình 1.2 Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến

Về cơ bản, quy trình tổng hợp ý kiến khi sử dụng phần mềm Hỗ trợ tổng hợp ý kiến là giống với quy trình tổng hợp trên giấy Tuy nhiên, biên bản tổng hợp tổ được nhập vào máy và chuyển tới các thành viên của nhóm tổng hợp chung (thay vì sao chụp biên bản của từng tổ đến từng đồng chí) để tổng hợp các nội dung, vấn đề được phân công

Để chuẩn bị cho việc tổng hợp bằng phần mềm, cán bộ kỹ thuật phải phối hợp chặt chẽ với các đồng chí phụ trách tổng hợp chung, tiếp nhận đề cương và danh sách phân công tổng hợp từ đó tạo các khung, mục, phân quyền cho các thành viên trong nhóm tổng hợp chung việc tổng hợp ý kiến bằng phần mềm

Trang 22

Trong quá trình tổng hợp tổ, tổ trưởng thư ký ở các tổ tổng hợp ý kiến theo các khung, mục đã được tạo sẵn Sau đó, phần mềm cũng tự động phân mục tổng hợp cho nhóm tổng hợp chung theo đúng yêu cầu của đồng chí phụ trách tổng hợp chung Các đồng chí trong nhóm tổng hợp chung sẽ sử dụng kết quả đó của phần mềm để tổng hợp các vấn đề, nội dung do mình phụ trách

Hình 1.3 Kết quả bản tổng hợp các ý kiến góp ý của các Tổ

* Đánh giá chung

Việc ứng dụng phần mềm vào trong quy trình tổng hợp ý kiến tại Hội nghị của Trung ương đã tạo có những tác dụng nhất định trong nâng cao hiệu quả công tác của cơ qua, đơn vị, cụ thể là:

- Giúp cho việc tổng hợp các ý kiến có chất lượng hơn, tránh được tình trạng tổng hợp thiếu ý kiến của đại biểu, vì sản phẩm chính của phần mềm là tạo

ra một bản tổng hợp trong đó gộp các ý kiến góp ý của các tổ theo từng mục nội dung đã được tạo dựng sẵn

- Giúp cho các chuyên viên tổng hợp chung không phải mất thời gian, thuận lợi hơn trong việc đọc, biên tập các nội dung được phân công tổng hợp

Trang 23

trong số tất cả biên bản tổng hợp ở các tổ; hạn chế tối đa việc “bỏ sót” ý kiến thảo luận ở tổ

- Góp phần chuẩn hóa biên bản tổng hợp tổ, tạo điều kiện thuận lợi cho lãnh đạo và các đồng chí phụ trách theo dõi, đánh giá chất lượng của kết quả tổng hợp ở tổ

- Việc ứng dụng phần mềm cũng đã có tác dụng làm hạn chế tối đa việc in

ấn, sao chụp, tiết kiệm thời gian, văn phòng phẩm; đồng thời tạo môi trường làm việc khoa học, chuyên nghiệp hơn

Tuy nhiên, trong quá trình sử dụng, vận hành ứng dụng còn một số hạn chế, thiếu linh hoạt và sử dụng còn khó,… Cụ thể, mỗi khi có chủ đề và nội dụng thảo luận, việc thiết lập chủ đề và các nội dung thảo luận phải do cán bộ kỹ thuật thực hiện Việc sử dụng phần mềm Hỗ trợ tổng hợp ý kiến chủ yếu là do cán bộ Trung tâm Công nghệ thông tin vận hành và kết xuất thông tin cho các đồng chí thư ký tổ và nhóm tổng hợp chung, do vậy tính chủ động sử dụng, cập nhật, khai thác, kết xuất thông tin của thư ký tổ và nhóm tổng hợp chung chưa cao Quá trình tổng hợp ý kiến thảo luận tổ không kết thúc cùng một thời điểm, do vậy để kết quả tổng hợp được đầy đủ phải chờ ý kiến tổng hợp của tổ thực hiện cuối cùng do phần mềm chưa có tính năng update ý kiến thảo luận sau vào bản tổng hợp ban đầu

Đặc biệt phần mềm chỉ mang tính tập hợp các ý kiến các tổ theo các khung mục cho trước mà chưa hỗ trợ đánh dấu, phát hiện ý giống nhau trong các bản tổng hợp tại tổ và bản tổng hợp chung do vậy hiệu quả hỗ trợ chưa được cao

3 Xác định bài toán cần giải quyết

Để hỗ trợ tốt hơn việc tổng hợp ý kiến thảo luận Tổ tại các Hội nghị Trung ương, rất cần thiết phải giải quyết bài toán phát hiện, đánh dấu các nội dung giống nhau trong các ý kiến góp ý vào trong cùng một vấn đề Qua đó, giúp các chuyên viên nhanh chóng nhận biết, lược bỏ các ý kiến giống nhau đã được tổng hợp trước Yêu cầu cần đáp ứng khi giải quyết bài toán là không đòi hỏi phát

Trang 24

hiện chính xác nội dung giống nhau (chỉ cần gần giống hoặc tương tự) và giải pháp kỹ thuật không quá phức tạp Người sử dụng sẽ quyết định sự trùng lặp về nội dung và quyết định có lược bỏ hay không Vì vậy, yêu cầu về độ chính xác của giải pháp như trên là đảm bảo nhu cầu sử dụng

Trang 25

CHƯƠNG 2 CÁC PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG CÂU

1 Khái niệm độ tương đồng câu

Sự tương đồng là một đại lượng (con số) phản ánh cường độ của mối quan

hệ giữa hai đối tượng hoặc hai đặc trưng Đại lượng này thường ở trong phạm

vi từ 0 đến 1

Ví dụ, trong mô hình không gian vector, ta sử dụng độ đo cosine để tính

độ tương đồng giữa hai văn bản, mỗi văn bản được biểu diễn bởi một vector Phát biểu bài toán độ tính tương đồng câu của luận văn này như sau: Xét một tài liệu d gồm có n câu: d = s1, s2, …, sn Mục tiêu của bài toán là tìm ra một giá trị của hàm S(si, sj) với S϶ (0,1), và i, j = 1, , n Hàm S(si, sj) được gọi là

độ đo tương đồng giữa hai câu si và sj Giá trị càng cao thì sự giống nhau về nghĩa của hai câu càng nhiều

Độ tương đồng ngữ nghĩa là một giá trị tin cậy phản ánh mối quan hệ ngữ nghĩa giữa hai câu Trên thực tế, khó có thể lấy một giá trị có chính xác cao bởi

vì ngữ nghĩa chỉ được hiểu đầy đủ trong một ngữ cảnh cụ thể.[4]

2 Các phương pháp tính độ tương đồng câu

Hiện nay, trên thế giới và ở Việt Nam đã có nhiều nghiên cứu về bài toán tính độ tương đồng câu, có nhiều phương pháp đã được đưa ra và ngày càng cải thiện tính chính xác Luận văn xin giới thiệu một số phương pháp điển hình Qua

đó, lựa chọn phương pháp phù hợp nhất với điều kiện thực tế khi áp dụng vào bài toán phát hiện ý trùng trong phần mềm Hỗ trợ tổng hợp ý kiến

2.1 Phương pháp tính độ tương đồng câu dựa vào WordNet

Ý tưởng chính của phương pháp này là thông qua tập ngữ nghĩa (WordNet)

để tính toán độ tương đồng giữa các từ trong các câu, qua đó tính độ tương đồng

Trang 26

của các câu Ngoài ra để tăng thêm phần chính xác còn có kết hợp tính sự tương đồng vị trí xuất hiện các từ của các câu.[12]

Giới thiệu về WordNet

WordNet là kho dữ liệu tiếng Anh, các từ tiếng Anh được nhóm thành các

bộ từ đồng nghĩa được gọi là synset, cung cấp các định nghĩa chung và ngắn gọn, đồng thời ghi lại giá trị quan hệ ngữ nghĩa giữa các bộ đồng nghĩa Phương pháp tính độ tương đồng giữa 2 từ dựa vào độ dài ngắn nhất trên sơ đồ phân cấp

Hình 2.1 Sơ đồ phân cấp các từ trong WordNet

Ví dụ:

+ Hai từ boy, girl có độ dài là 4: boy-male-person-female-girl

Person gọi là subsumer của hai từ

+ Hai từ teacher, boy có độ dài :6

Boy, girl có độ tương đồng hơn so với teacher, boy

+ Nhược điểm:

Độ chính xác đôi khi chưa cao

Ví dụ: animal và boy có độ dài ngắn hơn teacher và boy nhưng về ngữ nghĩa từ teacher, boy có tính tương đồng cao hơn

Trang 27

Các bước tính độ tương đồng của câu

Hình 2.2 Sơ đồ tính độ tương đồng của câu

Để tính độ tương đồng của hai câu cần thực hiện các bước sau

• Bước 1: Tiền xử lý dữ liệu

• Bước 2: Tính độ tương đồng của hai từ (dựa vào WordNet)

• Bước 3: Tính độ tương đồng ngữ nghĩa của hai câu

• Bước 4: Tính độ tương đồng thứ tự các từ của hai câu

• Bước 5: Tính độ tương đồng hai câu (kết quả của bước 3, bước 4)

Tính độ tương đồng của hai từ (dựa vào WordNet)

Sau khi xử lý dữ liệu, độ tương đồng giữa hai từ được tính bằng công thức

h h

h h

l

e e

e

e e w

- e: cơ số logarit tự nhiên

- l: độ dài ngắn nhất của từ hai w i ,w j

Trang 28

- h: là độ cao của subsumer của hai từ trong sơ đồ phân cấp

- Đối với WordNet thì tối ưu : α=0.2 và β=0.45

Tính độ tương đồng ngữ nghĩa của hai câu

Gọi Si là vector ngữ nghĩa của mỗi câu Sự tương đồng ngữ nghĩa hai câu là

hệ số cosine giữa hai vector

2 1

s s

s

s

ss

Trong đó vector ngữ nghĩa của câu được biểu diễn như sau:

Cho hai câu T1,T2 có:

Vector ngữ nghĩa của T1 là vector có m chiều với mỗi giá trị được tính bằng công thức

) ( ).

(

~

i i

2 , 1

si  

: là tính tương đồng của từ trong câu T1 với T

Để khắc phục nhược điểm giá trị tính độ tương đồng thường rất nhỏ, sử dụng giá trị trọng số I(w i)của từ w i và ( )

) 1 log(

1 ) (

, { w1 q2 wm

Trang 29

- n: tần xuất của một từ trong bộ ngữ nghĩa

Tính độ tương đồng thứ tự các từ của hai câu

Tuy nhiên trong thực tế xảy ra trường hợp các từ trong câu giống nhau nhưng ngữ nghĩa lại khác nhau Nguyên nhân do vị trí của các từ trong câu Gọi

r là vector thứ tự trong câu Công thức tính độ tương đồng thứ tự các từ trong câu:

2 1

2 1 r

r r

r r

Trong đó vector thứ tự r được biểu diễn như sau:

- Cho hai câu T1,T2 có: T1 T2

- Biểu diễn vector r của T1,T2 dựa vào T

Với mỗi từ wi trong T, tìm trong các từ tương đồng trong T1:

+ Nếu xuất hiện trong T1 thì giá trị là vị trí của từ trong T1

+ Tìm từ tương đồng gần nhất trong T1 vị trí của từ gần nhất là giá trị vector

+ Ngược lại giá trị = 0

Tính độ tương đồng hai câu

Độ tương đồng giữa hai câu được tính dựa trên công thức

,(

2 1

2 1 2

1

2 1 2

1

r r

r r S

S

S S T

T S

Trang 30

- Hiện nay tiếng Việt chưa có bộ ngữ nghĩa WordNet đủ lớn để áp dụng vào bài toán thực tế

- Xây dựng bộ ngữ nghĩa WordNet đòi hỏi nhiều công sức, chi phí cao

2.2 Phương pháp tính độ tương đồng câu dựa vào Wikipedia

Giới thiệu mạng ngữ nghĩa Wikipedia

Wikipedia là một bách khoa toàn thư nội dung mở, là kết quả của sự cộng tác của chính những người đọc từ khắp nơi trên thế giới Trang mạng này có tính chất mở, có nghĩa là tất cả mọi người đều có thể sửa đổi ở bất cứ trang nào bằng cách bấm vào các liên kết “sửa đổi”, hoặc “Sửa đổi trang này”, có ở hầu hết các trang, ngoại trừ các cá nhân bị tước quyền sửa đổi và nhữngtrang bị khóa

Wikipedia chính thức bắt đầu vào ngày 15 tháng 1 năm 2001 nhờ hai người sáng lập Jimmy Wales và Larry Sanger cùng với vài người cộng tác nhiệt thành và chỉ có phiên bản tiếng Anh Hiện tại đã có hơn 4.300.000 bài viết ở riêng phiên bản tiếng Anh, hơn 30.000.000 bài viết ở tất cả phiên bản ngôn ngữ Mỗi ngày hàng trăm nghìn người ghé thăm từ khắp nơi để thực hiện hàng chục nghìn sửa đổi cũng như bắt đầu nhiều bài viết mới

Wikipedia tiếng Việt được thành lập vào tháng 10 năm 2003 Hiện nay đã

có 1.149.101 bài viết bằng tiếng Việt với 3.234.593 trang [5]

Kiến trúc mạng Wikipedia

Các bài viết của Wikipedia được tổ chức dưới dạng một mạng các khái niệm liên quan với nhau về mặt ngữ nghĩa Các mục chủ đề (category) được tổ chức trong một cấu trúc phân cấp (taxonomy) được gọi là đồ thị chủ đề Wikipedia (Wikipedia Category Graph - WCG)[20]

Trang 31

Hình 2.3 Đồ thị chủ đề Wikipedia

Đồ thị bài viết (Article graph): Giữa các bài viết của Wikipedia có các siêu liên kết với nhau, các siêu liên kết này được tạo ra do quá trình chỉnh sửa bài viết của người sử dụng Nếu ta coi mỗi bài viết như là một nút và các liên kết

từ một bài viết đến các bài viết khác là các cạnh có hướng chạy từ một nút đến các nút khác thì ta sẽ có một đồ thị có hướng các bài viết trên Wikipedia

Đồ thị chủ đề (Category graph): Các chủ đề của Wikipedia được tổ chức giống như cấu trúc của một taxonomy Mỗi một chủ đề có thể có một số lượng tùy ý các chủ đề con, mỗi một chủ đề con này thường được xác định bằng mối quan hệ hyponymy (quan hệ giữa hai chủ đề, chủ đề 1 bao chủ đề kia nhưng không ngược lại)

Ví dụ: chủ đề vehicle có các chủ đề con aircraft hoặc watercraft

Tính độ tương đồng của hai từ trong Wikipedia

Có hai phương pháp tiếp cận để tính toán độ tương đồng dựa trên Wikipedia

- Semantic similarity (SS): tính độ tương đồng thông qua mối quan hệ ngữ nghĩa

Ngày đăng: 03/03/2017, 06:10

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Trần Cao Đệ (2011), Chỉ mục ngữ nghĩa tiềm ẩn và ứng dụng, Kỷ yếu Hội nghị tổng kết 5 năm nghiên cứu khoa học & đào tạo Khoa Công nghệ thông tin & truyền thông Đại học Cần Thơ, tr 49-56 Sách, tạp chí
Tiêu đề: Chỉ mục ngữ nghĩa tiềm ẩn và ứng dụng
Tác giả: Trần Cao Đệ
Năm: 2011
2. Đào Quang Minh, Lê Đức Tùng, Lê Đức Hùng, Nguyễn Hữu Đức, Nguyễn Thanh Thủy ( 2011), Xây dựng dịch vụ so khớp tài liệu điện tử trên lưới dữ liệu VNGRID, Chuyên san “Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông”, tr 72 – 81 Sách, tạp chí
Tiêu đề: Xây dựng dịch vụ so khớp tài liệu điện tử trên lưới dữ liệu VNGRID", Chuyên san “Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông
3. Phạm Văn Hà (2014), Hệ thống tự động tổng hợp ý kiến góp ý trong Hội nghị, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr 44 – 46 Sách, tạp chí
Tiêu đề: Hệ thống tự động tổng hợp ý kiến góp ý trong Hội nghị
Tác giả: Phạm Văn Hà
Năm: 2014
4. Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất câu, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Tóm tắt đa văn bản dựa vào trích xuất câu
Tác giả: Trần Mai Vũ
Năm: 2009
6. Văn phòng Trung ương Đảng (2016), Dự án “Xây dựng phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị Trung ương”.Tiếng Anh Sách, tạp chí
Tiêu đề: Xây dựng phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị Trung ương
Tác giả: Văn phòng Trung ương Đảng
Năm: 2016
7. David M.Blei, Andrew Y.Ng, Michael I.Jordan (2003), “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3, pp 993-1022 Sách, tạp chí
Tiêu đề: Latent Dirichlet Allocation”," Journal of Machine Learning Research 3
Tác giả: David M.Blei, Andrew Y.Ng, Michael I.Jordan
Năm: 2003
8. Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W. and Harshman, R.A. (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science, 41(6), pp 391-407 Sách, tạp chí
Tiêu đề: Indexing by latent semantic analysis”, "Journal of the Society for Information Science, 41(6)
Tác giả: Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W. and Harshman, R.A
Năm: 1990
9. Aminul Islam and Diana Inkpen (2008), “Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity”, ACM Transactions on Knowledge Discovery from Data, Vol. 2, No.2, Article 10 Sách, tạp chí
Tiêu đề: Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity”
Tác giả: Aminul Islam and Diana Inkpen
Năm: 2008
11. Thomas K.Landauer, Danielle S.McNamara Simon Dennis and Walter Kintsch (2011), Hand book of Latent Semantic Analysis, pp 13-14 Sách, tạp chí
Tiêu đề: Hand book of Latent Semantic Analysis
Tác giả: Thomas K.Landauer, Danielle S.McNamara Simon Dennis and Walter Kintsch
Năm: 2011
12. Yuhua Li, David McLean, Zuhair A.Bandar, James D.O’Shea, and Keeley Crockett (2006), “Sentence Similarity Based on Semantic Nets and Corpus Statistics”, IEEE transactions on knowledge and data engineering, VOL.18, NO. 8 Sách, tạp chí
Tiêu đề: Sentence Similarity Based on Semantic Nets and Corpus Statistics”," IEEE transactions on knowledge and data engineering, VOL
Tác giả: Yuhua Li, David McLean, Zuhair A.Bandar, James D.O’Shea, and Keeley Crockett
Năm: 2006
14. Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo (2014), “VietNamese Sentence Similarity Based on Concept”, IFIP International Federation for Information Processing 2014 Sách, tạp chí
Tiêu đề: VietNamese Sentence Similarity Based on Concept”
Tác giả: Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo
Năm: 2014
15. Tu C.Nguyen (2008), Hidden Topic discovery toward classification and clustering in Vietnamese web documents, Master Thesis, Universtiy of Engineering and Technology, Vietnam National University, Hanoi Sách, tạp chí
Tiêu đề: Hidden Topic discovery toward classification and clustering in Vietnamese web documents
Tác giả: Tu C.Nguyen
Năm: 2008
18. Sheetal A.Takale, Sushma S.Nandgaonkar (2010), “Measuring Semantic Similarity between Words Using Web Documents”, WWW2007:Track:Semantic Web Sách, tạp chí
Tiêu đề: Measuring Semantic Similarity between Words Using Web Documents”," WWW2007
Tác giả: Sheetal A.Takale, Sushma S.Nandgaonkar
Năm: 2010
10. Thomas K.Landauer, Susan T.Dumais (1997), A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge Khác
13. Rada Mihalcea and Courtney Corley, Carlo Strapparava, Corpus- based and Knowledge-based Measures of Text Semantic Similarity Khác
16. Kenji TAKANO, Makoto NAKAMURA, Yoshiko OYAMA and Akira SHIMAZU (2010), Semantic Analysis of Paragraphs Consisting of Multipel Sentences Khác
17. Nuno Seco, Tony Veale and Jer Hayes (2004), An Intrinic Information Content Metric for Semantic Similarity in WordNet Khác
19. Torsten Zesch, Iryna Gurevych and Max Muhlhauser (2007), Comparing Wikipedia and German WordNet by Evaluating Semantic Relatedness on Multipe Datasets Khác
20. TorstenZesch, IrynaGurevych (2007), Analys is of the Wikipedia Category Graph for NLP Applications Khác

HÌNH ẢNH LIÊN QUAN

BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT (Trang 7)
Hình 1.1. Mô tả nghiệp vụ tổng hợp trên giấy - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 1.1. Mô tả nghiệp vụ tổng hợp trên giấy (Trang 18)
Hình 1.2. Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 1.2. Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến (Trang 21)
Hình 2.1. Sơ đồ phân cấp các từ trong WordNet - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 2.1. Sơ đồ phân cấp các từ trong WordNet (Trang 26)
Hình 2.2. Sơ đồ tính độ tương đồng của câu - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 2.2. Sơ đồ tính độ tương đồng của câu (Trang 27)
Hình 2.3. Đồ thị chủ đề Wikipedia - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 2.3. Đồ thị chủ đề Wikipedia (Trang 31)
Hình 2.4. Mô hình tính độ tương đồng giữa hai từ dựa trên Wikipedia - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 2.4. Mô hình tính độ tương đồng giữa hai từ dựa trên Wikipedia (Trang 32)
Hình 2.5. Trích xuất tập các từ dựa trên Wikipedia - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 2.5. Trích xuất tập các từ dựa trên Wikipedia (Trang 33)
Hình 2.6. Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn  Giải thích mô hình: - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 2.6. Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn Giải thích mô hình: (Trang 35)
Hình 2.9. Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 2.9. Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu (Trang 41)
Hình 2.10. Ma trận U - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 2.10. Ma trận U (Trang 42)
Hình 3.1. Mô hình phát hiện nội dung trùng trong tổng hợp ý kiến - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 3.1. Mô hình phát hiện nội dung trùng trong tổng hợp ý kiến (Trang 47)
Bảng 3.2. Các thư viện sử dụng - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Bảng 3.2. Các thư viện sử dụng (Trang 49)
Hình 3.2. Giao diện khởi tạo LSA - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 3.2. Giao diện khởi tạo LSA (Trang 50)
Hình 3.3. Giao diện nhập đoạn văn để so sánh - Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
Hình 3.3. Giao diện nhập đoạn văn để so sánh (Trang 51)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w