1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm

26 480 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm
Tác giả Lê Mạnh Hùng
Người hướng dẫn TS Nguyễn Hữu Quỳnh
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Truyền dữ liệu và mạng máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2012
Thành phố Hà Nội
Định dạng
Số trang 26
Dung lượng 1,13 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các đóng góp của luận văn - Nghiên cứu, cải tiến một số phương pháp tra cứu đối với văn bản tiếng Anh áp dụng cho tiếng Việt.. - Trên cơ sở phương pháp đã được nghiên cứu, luận văn tiến

Trang 1

-

Lê Mạnh Hùng

Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm

Chuyên Ngàng: Truyền Dữ Liệu Và Mạng Máy Tính

Mã số: 10B60.48.15-0079

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2012

Trang 2

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Ngườihướngdẫnkhoahọc: TS Nguyễn Hữu Quỳnh

Phảnbiện 1: ………

Phảnbiện 2: ………

LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCôngnghệBưuchínhViễnthông

Vàolúc: .giờ ngày tháng năm

Cóthểtìmhiểuluậnvăntại:

- ThưviệncủaHọcviệnCôngnghệBưuchínhViễnthông

Trang 3

MỞ ĐẦU

Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực Hằng ngày có hàng triệu văn bản, trang web được đưa lên hệ thống máy chủ, làm phong phú hệ thống tài nguyên khổng lồ này Tuy nhiên, chúng ta không thể sử dụng thông tin trong hệ thống thông tin khổng lồ này nếu không tổ chức

và khai thác nguồn tài nguyên này hiệu quả

Kỹ thuật tra cứu thông tin đã và đang được nghiên cứu, phát triển trong nhiều lĩnh vực khác nhau như y tế, giáo dục, kinh tế Những kiến thức liên quan đến tra cứu thông tin là rất rộng và tổng hợp, bao gồm thuật toán, cấu trúc dữ liệu, cơ sở dữ liệu, các hệ thống phân tán, tính toán song song, tổ chức tệp (file), khai phá dữ liệu (data mining) Do đó, việc nghiên cứu về tra cứu thông tin sẽ rất hữu ích

Các nghiên cứu đối với tiếng Anh đã có một số công trình công bố và một số

hệ thống được đưa vào ứng dụng [] Tuy nhiên đối với tiếng Việt, hiên nay chỉ có một

số các công trình được công bố [9,10,19] mà chưa có ứng dụng cụ thể đối với tra cứu

tiếng Việt Vấn đề này chính là động lực để luận văn chọn đề tài “Tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm” Các đóng góp của luận văn

- Nghiên cứu, cải tiến một số phương pháp tra cứu đối với văn bản tiếng Anh áp dụng cho tiếng Việt

- Sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên nhằm nâng cao hiệu năng của

hệ thống tra cứu văn bản tiếng Việt

- Trên cơ sở phương pháp đã được nghiên cứu, luận văn tiến hành xây dựng hệ thống tra cứu thông tin và ứng dụng trong tra cứu thông tin tiếng Việt Cấu trúc luận văn gồm có ba chương:

Chương 1: Giới thiệu tổng quan về tra cứu văn bản

Chương 2: Trình bày kỹ thuật tra cứu thông tin sử dụng kỹ thuật phân cụm Chương 3: Trình bày hệ thống tra cứu thông tin và ứng dụng vào tra cứu thông

tin tiếng Việt

Trang 4

Chương 1 TỔNG QUAN VỀ TRA CỨU VĂN BẢN

1.1 Tra cứu thông tin

1.1.1 Giới thiệu

Tra cứu thông tin là một nhánh của khoa học máy tính nhằm mục tiêu lưu trữ và cho phép truy cập nhanh một lượng thông tin lớn Thông tin này có thể là văn bản, đa phương tiện hoặc âm thanh [14, 16] Lược đồ một hệ thống tra cứu thông tin được thể hiện như Hình

1 1

Hinh 1.1 Tổng quan hệ thống tra cứu thông tin

1.1.2 Các mô hình tra cứu thông tin

Mô hình Boole vẫn là một mô hình được sử dụng phổ biến nhất trong các hệ thống tra cứu thông tin thương mại Mô hình này dựa trên lý thuyết tập hợp Các tài liệu được biểu diễn bởi các tập các thuật ngữ và chiến lược tìm kiếm Boole tra cứu các tài liệu khối với truy vấn (có giá trị true)

Mô hình không gian véc tơ dựa trên giải thích không gian của cả các truy vấn và các tài liệu Một cải tiến của biểu diễn tài liệu trên mô hình Boole thu được bởi việc kết hợp mỗi thuật ngữ chỉ số với một giá trị số, gọi là trọng số thuật ngữ chỉ số, biểu thị độ quan trọng

mà thuật ngữ tổng hợp nội dung thông tin của tài liệu

Trang 5

Mô hình xác suất [21] phân hạng các tài liệu theo thứ tự giảm dần của xác suất liên quan của các tài liệu với nhu cầu thông tin của người sử dụng 1.1.3 Một số phương pháp tra cứu thông tin văn bản

1.1.3.1 Quét toàn bộ văn bản

Cách đơn giản nhất để định vị các tài liệu chứa xâu (thuật ngữ) tìm kiếm nào đó là tìm kiếm tất cả các tài liệu với xâu được chỉ ra (kiểm tra xâu con) “Xâu” là một chuỗi các

ký tự Nếu truy vấn là một biểu diễn Boole phức hợp bao gồm nhiều xâu tìm kiếm, chúng ta cần thêm một bước để xác định các đối sánh thuật ngữ có được tìm thấy bởi các kiểmtra chuỗi con thỏa mãn biểu diễn Boole hay không

1.1.3.2 Các tệp dấu hiệu

Cách tiếp cận tệp dấu hiệu đã thu hút nhiều sự quan tâm Trong phương pháp này, mỗi tài liệu sinh ra một xâu bít (‘dấu hiệu’), sử dụng bảng băm trên các từ Các dấu hiệu tài liệu sinh ra được lưu trữ tuần tự trong một tệp rời rạc - tệp dấu hiệu (nhỏ hơn tệp gốc rất nhiều) và có thể được tìm kiếm nhanh hơn nhiều

có trong hầu hết tất cả các hệ thống thương mại [21]

1.2 Các hệ thống tra cứu thông tin dựa vào phân cụm

1.2.1 Các hệ thống tra cứu thông tin dựa vào phân cụm

Tìm kiếm dựa vào phân cụm cần thỏa mãn một truy vấn hiệu quả bởi nhận biết và chỉ tra cứu các cụm đó Phân cụm cải tiến độ chính xác của tra cứu như sinh ra kết quả tra cứu

có số tài liệu liên quan cao [14,16]

1.2.2 Các phương pháp phân cụm

Phương pháp phân cụm phân cấp

Một thuật toán phân cấp có thể bắt đầu bởi xem xét tất cả các tài liệu như một cụm và sau đó tách nó thành các cụm nhỏ hơn (phân cụm chia nhỏ) Thuật toán có thể bắt đầu với các tài liệu riêng lẻ và nhóm chúng lại với nhau thành các cụm lớn hơn (phân cụm gộp)

Trang 6

Phân cụm Heuristic

Thuật ngữ “Heuristic” được sử dụng bởi các tác giả như Rijsbergen [22] đối với các phương pháp mô tả nhận các phím tắt để thu được hiệu quả lớn hơn về mặt đòi hỏi không gian và thời gian

Phân cụm gia tăng

Các phương pháp gia tăng sử dụng một độ đo tương tự nhưng các phương pháp không đòi hỏi các độ tương tự tính toán trước cho tất cả các cặp tài liệu Tất cả các cặp tài liệu chưa sẵn có khi khởi tạo, bởi theo xác định, các phương pháp phân cụm một dòng các tài liệu đến Các độ tương tự được tính toán bằng các tài liệu trong hệ thống phân cụm gia tăng [22]

1.3 Đánh giá tra cứu thông tin

1.3.1 Đánh giá hệ thống tra cứu thông tin

Để đo độ chính xác tra cứu thông tin theo cách chuẩn, chúng ta cần một tập kiểm tra gồm ba thứ:

1 Một tập tài liệu

2 Một bộ kiểm tra nhu cầu thông tin, có thể biểu diễn như các truy vấn

3 Một tập các đánh giá liên quan, một đánh giá nhị phân hoặc liên quan hoặc không liên quan cho mỗi cặp tài liệu truy vấn

Một tài liệu là liên quan nếu nó nói đến nhu cầu thông tin đã được nêu, không phải vì

nó vừa xảy ra để chứa tất cả các từ trong truy vấn Điều khác biệt này thường bị hiểu lầm trong thực hành, bởi vì nhu cầu thông tin không được công khai

1.3.2 Các tập kiểm tra chuẩn

Đây là một danh sách các tập kiểm tra và các chuỗi đánh giá chuẩn Chúng tôi tập trung vào các tập kiểm tra cho đánh giá hệ thống tra cứu thông tin đặc biệt, những cũng đề cập đến một cặp tập kiểm tra tương tự cho phân lớp văn bản

1.3.3 Đánh giá các tập tra cứu không được phân hạng

Những thành phần này được cho trước, độ chính xác hệ thống đo như thế nào? Hai

độ đo cơ sở và thường được sử dụng nhất cho độ chính xác tra cứu là triệu hồi và chính xác Đây là lần đầu tiên được xác định cho trường hợp đơn giản nơi một hệ thống tra cứu trả về một tập các tài liệu cho một truy vấn

Trang 7

Độ chính xác của P - Precision (P) là phần của các tài liệu được tra cứu có liên quan

cuu tra duoc muc cac so tong

cuu tra duoc quan lien muc cac so

Triệu hồi của R - Recall(R) là phần của các tài liệu liên quan được tra cứu

cuu tra muc cac so tong

cuu tra duoc quan lien muc cac so ecall

P PR R

p

Hình 1.2 Biểu đồ so sánh trung bình điều hòa của các trung bình khác nhau

1.4 Đặc điểm của văn bản tiếng Việt

Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ

âm, từ vựng, ngữ pháp

1.4.1 Đặc điểm ngữ âm

Trong tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng" Về mặt ngữ âm, mỗi tiếng là một âm tiết

Trang 8

1.4.2 Đặc điểm từ vựng

Mỗi tiếng, nói chung, là một yếu tố có nghĩa Tiếng là đơn vị cơ sở của hệ thống các đơn

vị có nghĩa của tiếng Việt Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng , chủ yếu nhờ phương thức ghép và phương thức láy

1.4.3 Đặc điểm ngữ pháp

Từ của tiếng Việt không biến đổi hình thái Đặc điểm này sẽ chi phối các đặc điểm ngữ pháp khác Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ và hư từ

1.5 Kết luận chương 1

Trong chương này, luận văn đã trình bày về tổng quan về khai phá dữ liệu văn bản, các phương pháp khai phá văn bản và các phương pháp, các kỹ thuật và quy trình tra cứu văn bản tiếng việt Ngoài ra ở chương 1 luận văn cũng trình bày về các đặc điểm của văn bản tiếng việt Từ những kiến thức tổng quan này chương hai luận văn sẽ lựa trình bày chi tiết về trích rút văn bản tiếng việt với một phương pháp cụ thể

Chương 2 TRA CỨU VĂN BẢN TIẾNG VIỆT DỰA TRÊN KỸ THUẬT PHÂN CỤM

Trong chương này, luận văn giới thiệu các phương pháp biểu diễn văn bản, đồng thời trình bày chi tiết một phương pháp biểu diễn văn bản tiếng Việt có sử dụng giảm chiều vector Dựa trên phương pháp biểu diễn này, luận văn sử dụng phương pháp phân cụm tiếng Việt dựa trên thuật toán cây phân cấp và hệ thống tra cứu văn bản tiếng Việt dựa trên tập dữ liệu văn bản tiếng Việt đã được phân cụm

2.1 Phương pháp biểu diễn văn bản

2.1.1 Khái niệm

Biểu diễn văn bản là phương pháp mô tả nội dung hoặc đặc trưng của văn bản [1] Khi biểu diễn văn bản dưới dạng véc tơ, người ta thường sử dụng thành phần véc tơ biểu diễn tương ứng với các đặc trưng là các từ (thuật ngữ) Với giá trị của mỗi đặc trưng này gọi

là trọng số của từ (thuật ngữ), mô tả tần suất của từ (thuật ngữ) xuất hiện trong văn bản [1]

Trang 9

2.1.1.1 Một số phương pháp biểu diễn văn bản

Mô hình không gian vector

Cách biểu diễn văn bản thông dụng nhất là thông qua vector biểu diễn theo mô hình không gian vector (Vector Space Model) Đây là một cách biểu diễn tương đối đơn giản và hiệu quả Trong các cơ sở dữ liệu văn bản, mô hình vector là mô hình biểu diễn văn bản được sử dụng phổ biến nhất hiện nay Mối quan hệ giữa các trang văn bản được thực hiện thông qua việc tính toán trên các vector biểu diễn vì vậy được thi hành khá hiệu quả

Hình 2.1 Mô hình không gian vector

Mô hình Boolean

Một mô hình biểu diễn vector với hàm f cho ra giá trị rời rạc với duy nhất hai giá trị đúng và sai (true và false, hoặc 0 và 1) gọi là mô hình Boolean Hàm f tương ứng với từ khóa ti sẽ cho ra giá trị đúng nếu và chỉ nếu từ khóa ti xuất hiện trong văn bản đó

Mô hình phân tích cú pháp

Trong mô hình này, mỗi văn bản đều phải được phân tích cú pháp và trả lại thông tin chi tiết về chủ đề của văn bản đó Sau đó, người ta tiến hành đánh chỉ số các chủ đề của từng văn bản Cách đánh chỉ số trên chủ đề cũng giống như khi đánh chỉ số trên văn bản nhưng chỉ đánh chỉ số trên các từ xuất hiện trong chủ đề

Mô hình tần suất

Trong mô hình tần suất, ma trận W = {wij} được xác định dựa trên tần số xuất hiện của từ khóa ti trong văn bản dj hoặc tần số xuất hiện của từ khóa ti trong toàn bộ cơ sở dữ liệu Sau đây là một số phương pháp phổ biến:

- Phương pháp dựa trên tần số từ khóa (TF – Term Frequency)

Trang 10

- Phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document

Frequency)

2.1.1.2 Phương pháp tính trọng số của từ

Trong các cách tiếp cận tính toán trọng số của từ để biểu diễn văn bản hiện nay Phương pháp tính trọng số dựa trên tần suất xuất hiện của từ (thuật ngữ) được sử dụng phổ biến hiện nay

2.1.2 Kỹ thuật giảm chiều vector biểu diễn trong văn bản tiếng Việt

2.1.2.1 Kỹ thuật giảm chiều véc tơ

Xem xét một số ứng dụng ví dụ như trong một hệ thống xử lý dữ liệu (tín hiệu tiếng nói, ảnh hoặc nhận dạng mẫu nói chung) tập các đặc trưng nếu coi là tập hợp các vec tơ giá trị thực Giả thiết rằng, hệ thống chỉ hiệu quả nếu số chiều của mỗi véc tơ riêng lẻ không quá lớn Vấn đề của giảm chiều xuất hiện khi dữ liệu có số chiều lớn hơn khả năng xử lý của hệ thống [17

Hình 2.5 Mô hình giảm chiều véc tơ

2.1.2.2 Kỹ thuật giảm chiều véc tơ trong biểu diễn văn bản tiếng Việt

Khái niệm giảm chiều lần đầu được công bố bởi Bellman (1961) Bellman cho rằng

sẽ rất khó khăn khi tính toán số các đặc trưng khi số lượng từ quá nhiều

Trang 11

Hình 2.7 Một mô hình rút gọn đặc trưng văn bản

2.2 Kỹ thuật phân cụm văn bản tiếng Việt dựa trên thuật toán phân cấp

2.2.1 Phân cụm văn bản

2.2.1.1 Khái niệm phân cụm văn bản

Định nghĩa: Thuật toán phân cụm nhóm tập các văn bản vào các tập con hoặc các cụm Mục đích của thuật toán là tạo ra các nhóm có sự liên kết bên trong, nhưng khác biệt

rõ ràng với các nhóm khác Một cách khác các văn bản trong một cụm có thể có độ tương tự nhau và các văn bản trong một cụm có sự khác biệt với các văn bản khác ở các cụm khác [16]

Hình 2.8 Một ví dụ về tập dữ liệu với cấu trúc phân cụm

Trang 12

2.2.1.2 Độ tương tự giữa hai văn bản

Có một số độ đo được sử dụng như: độ tương tự cosine (cosine similarity), hệ số Jaccard (Jaccard coeficient), khoảng cách Euclidean (Euclidean distance), hệ số Pearson Correlation (Pearson Correlation coeficient) [18],

i i

n

i

i i

B A

B A B

A

B A similarity

1 2 1

2 1

)()(

.)cos(

A

B A B

A Coff Jacard

*)

,(

A ce Dis Euclidean_ tan ( , ) ( )2

Trong luận văn này, sử dụng độ đo Euclide để tính toán độ tương tự giữa các cặp văn bản trong tập hợp dữ liệu

Trang 13

liên tục các cặp của các cụm tới khi tất cả các cụm được hợp thành một cụm duy nhất chứa tất cả các văn bản Phân cụm top-down đề cập một phương pháp phân chia một cụm

Một thuật toán HAC đơn giản được đưa ra trong hình 2.10

HAC(d1, , dN)

1 for n ← 1 to N

2 do for i ← 1 to N

3 do C(n)(i) ← SIM(dn,di)

4 I[n] ← ( keeps track of active clusters)

5 A ← [] ( asembles clustering as a sequence of merges)

6 for k ← 1 do N -1

7 do (i,m) ← arg max{ (i,m) : i ≠m I[i] = 1 I[m] =1}C[i][m]

8 A.APPEND((i,m)) (store merger)

Hình 2.10 Thuật toán HAC

Thuật toán trên được mô tả bởi ví dụ sau:

Trang 14

Hình 2.14 Cây phân cấp thu được sau quá trình phân cụm

2.2.2.2 Phân cụm văn bản tiếng Việt dựa trên thuật toán phân cấp

Dựa trên thuật toán phân cấp đã được trình bày ở mục 2.2.2.1, luận văn trình bày phương pháp phân cụm văn bản tiếng Việt ứng dụng thuật toán phân cấp thành các bước như sơ đồ sau:

Hình 2.15 Hệ thống phân cụm văn bản

Trang 15

2.3 Tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm phân cấp

Một hệ thống tra cứu văn bản thông thường cần liên quan tới các yếu tố sau

- Câu truy vấn

- Kho dữ liệu văn bản

- Quy trình xử lý và phản hồi kết quả

Hình 2.16 dưới đây mô tả qui trình hoạt động của một hệ thống tra cứu văn bản dựa trên kỹ thuật phân cụm

Hình 2.16 Hệ thống tra cứu ứng dụng phân cụm văn bản

Thuật toán trong hình 2.17 dưới đây tính toán trọng số của một danh từ thuộc tập văn bản D

Hình 2.17 Thuật toán tính trọng số của từ phụ thuộc tập văn bản

Trang 16

Hình 2.18 dưới đây mô tả thuật toán biểu diễn văn bản Mỗi văn bản được biểu diễn bởi tập các danh từ và trọng số của nó

Hình 2.18 Thuật toán biểu diễn văn bản

Hình 2.19 dưới đây mô tả thuật toán tính độ tương tự giữa từng cặp văn bản trong cả tập văn bản đầu vào D

Hình 2.19 Thuật toán tính độ tương đồng giữa các văn bản trong tập D

Sau khi mỗi văn bản được gom thành các cụm, luận văn sử dụng phương pháp tính trọng tâm để tính biểu diễn đại diện cho các cụm Đối với mỗi cụm, việc tìm đại diện biểu diễn được mô tả như sau:

Ngày đăng: 17/02/2014, 09:46

HÌNH ẢNH LIÊN QUAN

Hình 1.2   Biểu đồ so sánh trung bình điều hòa của các trung bình khác nhau - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 1.2 Biểu đồ so sánh trung bình điều hòa của các trung bình khác nhau (Trang 7)
Hình 2.1 Mô hình không gian vector. - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 2.1 Mô hình không gian vector (Trang 9)
Hình 2.7. Một mô hình rút gọn đặc trưng văn bản - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 2.7. Một mô hình rút gọn đặc trưng văn bản (Trang 11)
Hình 2.10. Thuật toán HAC - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 2.10. Thuật toán HAC (Trang 13)
Hình 2.14. Cây phân cấp thu được sau quá trình phân cụm. - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 2.14. Cây phân cấp thu được sau quá trình phân cụm (Trang 14)
Hình 2.15 Hệ thống phân cụm văn bản. - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 2.15 Hệ thống phân cụm văn bản (Trang 14)
Hình 2.20. Thuật toán tìm đại diện biểu diễn từng cụm. - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 2.20. Thuật toán tìm đại diện biểu diễn từng cụm (Trang 17)
Hình 2.21 dưới đây mô tả thuật toán biểu diễn câu truy vấn. - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 2.21 dưới đây mô tả thuật toán biểu diễn câu truy vấn (Trang 17)
Hình 3.1 Sơ đồ chức năng hệ thống tra cứu văn bản tiếng Việt - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 3.1 Sơ đồ chức năng hệ thống tra cứu văn bản tiếng Việt (Trang 19)
Hình 3.2 dưới đây mô tả biểu đồ ca sử dụng tổng quát của hệ thống tra cứu - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 3.2 dưới đây mô tả biểu đồ ca sử dụng tổng quát của hệ thống tra cứu (Trang 19)
Hình 3.4 dưới đây mô tả chức năng tra cứu thông tin của người dùng. - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 3.4 dưới đây mô tả chức năng tra cứu thông tin của người dùng (Trang 20)
Hình 3.3 . Biểu đồ ca sử dụng tra cứu - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 3.3 Biểu đồ ca sử dụng tra cứu (Trang 20)
Hình 3.5 dưới đây mô tả một biểu đồ hoạt động của hệ thống. - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 3.5 dưới đây mô tả một biểu đồ hoạt động của hệ thống (Trang 21)
Hình 3.12 Kết quả tra cứu với văn bản. - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 3.12 Kết quả tra cứu với văn bản (Trang 24)
Hình 3.16 Kết quả phân cụm với ngưỡng bằng 0.9 - Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm
Hình 3.16 Kết quả phân cụm với ngưỡng bằng 0.9 (Trang 25)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w