1. Trang chủ
  2. » Thể loại khác

3213-Văn bản của bài báo-6970-1-10-20210805

5 4 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 5
Dung lượng 649,17 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ISSN 1859 1531 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97) 2015, QUYỂN 2 49 NGHIÊN CỨU VÀ XÂY DỰNG MÔI TRƯỜNG QUẢN LÝ, TRUY CẬP TÀI NGUYÊN PHỤC VỤ XỬ LÝ TIẾNG VIỆT VÀ TIẾNG DÂN TỘC THIỂU[.]

Trang 1

ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 49

NGHIÊN CỨU VÀ XÂY DỰNG MÔI TRƯỜNG QUẢN LÝ, TRUY CẬP TÀI NGUYÊN PHỤC VỤ XỬ LÝ TIẾNG VIỆT VÀ TIẾNG DÂN TỘC THIỂU SỐ

RESEARCHING AND BUILDING AN ENVIRONMENT FOR ACCESSING AND MANAGING RESOURCES FOR VIETNAMESE AND ETHNIC MINORITY LANGUAGE PROCESSING

Huỳnh Công Pháp, Văn Đỗ Cẩm Vân

Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng;

hcphap@gmail.com; van156dnvn@gmail.com

Tóm tắt - Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS)

là một lĩnh vực nghiên cứu rất được quan tâm và cấp bách đối với

Việt Nam Vấn đề đặt ra là làm thế nào để tạo điều kiện thuận lợi

cho cộng đồng nghiên cứu về lĩnh vực này nhằm nâng cao và phát

huy hơn nữa hiệu quả quá trình nghiên cứu Bởi lẽ, các nguồn tài

nguyên phục vụ xử lý TV và TDTTS được lưu trữ phân tán, nên

việc khai thác các nguồn tài nguyên này gặp nhiều khó khăn Do

đó, ý tưởng và giải pháp của bài báo trước hết là tập hợp và xây

dựng hệ thống truy cập tập trung các tài nguyên phục vụ xử lý TV

và TDTTS Sau đó, hợp nhất chúng, tạo nên nguồn dữ liệu lớn

hơn Cuối cùng, xây dựng một hệ thống hoạt động theo kiến trúc

hướng dịch vụ (SOA) sao cho việc truy xuất khai thác các tài

nguyên và công cụ xử lý TV và TDTTS dễ dàng và hiệu quả hơn

Abstract - Nowadays, processing Vietnamese and ethnic minority

languages is an urgent and interesting issue for many organizations and individuals However, the resources which are available to the research of processing Vietnamese language as well as some languages of minorities were stored in a discrete way This is the reason why the exploitation and the inheritance of these resources meet a lot of difficulties Therefore, the paper proposes some measures to improve the situation Firstly, collecting and constructing a centralized system of scientific documents on this field Secondly, merging them in order to create the bigger resources Finally, constructing the service – oriented architecture system which allows users to access and exploit the tools of processing Vietnamese and minority languages effectively

Từ khóa - xử lý tiếng Việt; xử lý tiếng dân tộc thiểu số; tập hợp;

môi trường quản lý; hợp nhất; khai thác Key words - process Vietnamese language; process minority languages; collect; management environment; merge; exploit

1 Đặt vấn đề

Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS)

là một trong những nhiệm vụ và hướng nghiên cứu quan

trọng đối với sự phát triển của ngành Công nghệ thông tin

hiện nay Trước xu thế này, nhiều nguồn tài nguyên bao gồm

các tài liệu khoa học, dữ liệu, công cụ phục vụ xử lý TV và

TDTTS được xây dựng và phát triển Tuy nhiên, một trong

những vấn đề lớn tồn tại hiện nay là các nguồn tài nguyên

này tồn tại một cách rời rạc, dưới các dạng khác nhau, dẫn

đến việc sử dụng và khai thác chúng trở nên rất khó khăn,

thậm chí không thể truy cập được Thật vậy, hiện nay nhiều

tài liệu nghiên cứu như bài báo khoa học, luận văn thạc sỹ…

về xử lý TV và TDTTS đã được công bố, nhưng chúng được

lưu trữ và quản lý rải rác, không có hệ thống, nên việc truy

cập và nghiên cứu chúng trở nên rất khó khăn Tương tự, dữ

liệu phục vụ xử lý TV và TDTTS như các kho ngữ liệu, dữ

liệu từ điển cũng đã được xây dựng, nhưng cấu trúc, định

dạng khác biệt của chúng cũng đã dẫn đến việc khai thác

chúng trở nên không hiệu quả Ngoài ra, nhiều tổ chức, cá

nhân nghiên cứu phát triển các công cụ phục vụ xử lý TV và

TDTTS một cách đơn lẻ, rời rạc, đôi lúc trùng lặp như các

bộ từ điển, bộ gõ, công cụ tách đoạn, tách từ, gióng hàng,

làm giàu thông tin… nên việc sử dụng, kế thừa các công cụ

này cũng rất khó khăn và hạn chế

Từ các vấn đề nêu trên, nhằm cho phép khai thác hiệu

quả hơn nữa các nguồn tài nguyên phục vụ xử lý TV và

TDTTS hiện có, giải pháp cấp bách là cần phải nghiên cứu

và xây dựng môi trường quản lý, truy cập tài nguyên xử lý

TV và TDTTS một cách tập trung, có hệ thống Với giải

pháp này, các nguồn tài nguyên xử lý TV và TDTTS sẽ được

tập hợp, quản lý và được tổ chức một cách có hệ thống, cho

phép việc truy cập và khai thác dễ dàng và hiệu quả hơn

2 Tổng quan về tình hình nghiên cứu xử lý TV và TDTTS hiện nay

Trước chủ trương, chính sách và sự quan tâm đặc biệt của Việt Nam về nghiên cứu xử lý TV và TDTTS trên máy tính, nhiều nhà khoa học và tổ chức trong nước đã nghiên cứu, phát triển nhiều nguồn tài nguyên xử lý TV và TDTTS

2.1 Tổng quan về các nhóm nghiên cứu xử lý TV và TDTTS

Trong số rất nhiều tổ chức và cá nhân nghiên cứu về xử lý TV và TDTTS, chúng ta có thể kể đến một số nhóm nghiên cứu nổi bật, đó là: Nhóm nghiên cứu xử lý tại Trung tâm DATIC – Khoa Công nghệ thông tin Trường Đại học Bách khoa và các trường thành viên của Đại học Đà Nẵng; Trung tâm CNTT-TT Sở Thông tin và Truyền thông Gia Lai; Công ty TNHH Công nghệ Tin học tuổi trẻ Lạc Việt; Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ Thông tin Hà Nội; Trung tâm MICA, Đại học Bách khoa Hà Nội; Nhóm nghiên cứu của Khoa CNTT, Trường Đại học Khoa học Tự nhiên TPHCM…

Các nhóm nghiên cứu trên đã thực hiện nhiều công trình nghiên cứu, hướng dẫn nhiều luận văn thạc sĩ và tiến sĩ, công

bố nhiều công trình nghiên cứu cũng như phát triển nhiều sản phẩm, công cụ về xử lý TV và TDTTS [2], [8], [9], [10]

2.2 Tổng quan về tài nguyên xử lý TV và TDTTS

Như đã đề cập ở phần mở đầu, tài nguyên xử lý TV và TDTTS có thể được chia thành 3 loại: tài liệu khoa học về xử lý TV và TDTTS; Dữ liệu phục vụ xử lý TV và TDTTS; công cụ và sản phẩm xử lý TV và TDTTS

2.2.1 Tài liệu khoa học về xử lý TV và TDTTS

Xử lý TV và TDTTS là lĩnh vực nghiên cứu được quan tâm hiện nay tại Việt Nam Chính vì vậy, ngày càng có

Trang 2

50 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân

nhiều tài liệu, công trình nghiên cứu về lĩnh vực này Theo

kết quả thống kê từ hệ thống tìm kiếm Google, hiện có

khoảng 24.500 tài liệu các loại về xử lý TV và 2.000 tài

liệu về xử lý TDTTS trên máy tính Trong đó, đáng kể nhất

là số lượng tài liệu về xử lý tiếng Êđê (1.100 tài liệu)

So với các nguồn tài liệu nghiên cứu về lĩnh vực khác, số

lượng tài liệu nghiên cứu về lĩnh vực này còn khá khiêm tốn

Trong khi đó, các nguồn tài liệu này lại được lưu trữ một

cách rải rác, riêng lẻ, không thuận tiện cho việc nghiên cứu

Do vậy, nếu chúng ta có thể tập hợp các nguồn tài liệu

nghiên cứu này và quản lý tập trung ở một hệ thống tra cứu

dùng chung thì chắc chắn sẽ rất hữu ích cho cộng đồng

những người làm nghiên cứu về lĩnh vực này

2.2.2 Dữ liệu phục vụ xử lý TV và TDTTS

Dữ liệu phục vụ xử lý ngôn ngữ tự nhiên nói chung, TV

và TDTTS nói riêng rất quan trọng Xử lý ngôn ngữ tự

nhiên là lĩnh vực nghiên cứu rất rộng, bao gồm nhiều vấn

đề xử lý khác nhau như: Tóm tắt văn bản, dịch máy, tách

đoạn, nhận dạng thực thể có tên, gán nhãn, phân tích dữ

liệu, hỏi đáp tự động, tìm kiếm, xử lý tiếng nói, từ điển,

đánh giá chất lượng dịch…

Để phục vụ các vấn đề khác nhau trong lĩnh vực xử lý

ngôn ngữ tự nhiên nêu trên, đòi hỏi phải xây dựng nhiều

loại dữ liệu khác nhau Có nhiều cách để phân loại dữ liệu

theo các tiêu chí, mục đích và quan điểm Tuy nhiên, xét

về mặt tổng quan, dữ liệu phục vụ xử lý ngôn ngữ tự nhiên

chủ yếu gồm các kho ngữ liệu, dữ liệu từ điển, treebank

(ngân hàng câu được chú giải cú pháp), ontology

a Kho ngữ liệu TV và TDTTS

Kho ngữ liệu là loại dữ liệu quan trọng và phổ biến nhất

trong lĩnh vực xử lý ngôn ngữ tự nhiên Kho ngữ liệu tồn

tại dưới nhiều dạng khác nhau, có cấu trúc và dịnh dạng rất

đa dạng Hiện nay, trên thế giới đã có nhiều kho ngữ liệu,

nổi tiếng nhất phải kể đến các kho ngữ liệu EuroParl [1],

BTEC [16], ANC [18], ICE [17],…

Cùng với đó, nhiều kho ngữ liệu tiếng Việt và TDTTS

cũng đã được xây dựng, đóng vai trò đáng kể trong lĩnh

vực nghiên cứu này Một số kho ngữ liệu tiếng Việt và

TDTTS phổ biến như: Kho ngữ liệu Vietlex (80 triệu từ);

Kho ngữ liệu Sketch (94 triệu từ) [15]; VietTreebank [3],

Kho ngữ liệu dự án VLPS [5]; các kho ngữ liệu của các

trung tâm nghiên cứu DATIC, MICA; các kho ngữ liệu

tiếng dân tộc Êđê, Chăm, Khơ-me

b Dữ liệu từ điển TV và TDTTS

Từ điển được xem như công cụ đắc lực và cần thiết nhất

trong số các công cụ phục vụ xử lý ngôn ngữ tự nhiên trên

máy tính Chính vì vậy, đã có nhiều từ điển TV và TDTTS

được xây dựng ở các dạng khác nhau như phần mềm độc lập,

ứng dụng web, ứng dụng trên các thiết bị cầm tay

Một số từ điển TV và TDTTS phổ biến như Lạc Việt,

VDict.com, Babylon, VnDic, Hellochao, Google, từ điển

Việt - Chăm, từ điển Việt - Khme, từ điển Việt - Bhnông,

từ điển Việt - Eđê…

Mỗi từ điển có cơ sở dữ liệu với cách tổ chức và định

dạng dữ liệu riêng Mặc dù tồn tại nhiều từ điển khác nhau,

nhưng mỗi từ điển chỉ gồm tập hợp từ vựng và cặp ngôn

ngữ giới hạn Do đó, nếu chúng ta có thể hợp nhất các loại

từ điển này lại với nhau thì có thể tạo được một từ điển với dữ liệu đầy đủ và số cặp ngôn ngữ đa dạng

2.2.3 Công cụ và sản phẩm xử lý TV và TDTTS

Như đã đề cập ở phần trên, xử lý ngôn ngữ tự nhiên bao gồm rất nhiều vấn đề xử lý khác nhau Do đó, hiện nay cũng đã tồn tại nhiều sản phẩm và công cụ xử lý TV và TDTTS khác nhau Trong số nhiều loại sản phẩm và công cụ xử lý

TV và TDTTS, các sản phẩm nổi bật và quan trọng gồm:

a Các bộ mã và bộ gõ TV và TDTTS

Một trong những sản phẩm quan trọng đối với xử lý TV và TDTTS trên máy tính cần kể đến, đó là bộ gõ TV và TDTTS Các bộ gõ TV phổ biến như Vietkey, Unikey, VNKey; các bộ gõ TDTTS như bộ gõ tiếng dân tộc Bahnar, M’nông, Êđê [11], bộ gõ TayNguyenKey [12] phục vụ cho việc soạn thảo 6 loại chữ viết của 6 dân tộc thiểu số là Êđê, Jơrai, Bahnar, Sê đăng, Kơ Ho và Mơ Nông

Nổi bật hơn, đó là nỗ lực đưa bộ mã TV vào bảng mã Unicode cũng như việc tích hợp bàn phím ảo TV vào các hệ điều hành máy tính và điện thoại di động hiện nay

b Các công cụ hỗ trợ chuyển đổi TV và TDTTS

Các công cụ hỗ trợ chuyển đổi TV và TDTTS có thể kể đến gồm các hệ thống từ điển và các hệ thống dịch tự động Như đã đề cập ở phần trên, hiện nay có nhiều hệ thống từ điển với số lượng từ và cặp ngôn ngữ khác nhau Các từ điển phổ biến hiện nay có thể kể đến:

• Lạc Việt từ điển: là hệ thống từ điển TV rất phổ biến ở cả hai dạng phần mềm cài đặt trên máy tính và phiên bản web, gồm 300.000 từ và cụm từ với 5 cặp ngôn ngữ Viêt-Anh, Việt-Pháp, Việt-Hàn, Việt-Nhật, Việt-Trung

• Từ điển VDict.com: là hệ thống từ điển TV trực tuyến khá phổ biến, gồm khoảng 400.000 từ với các cặp ngôn ngữ như Việt-Anh, Việt-Pháp, Việt-Hán

• Từ điển VnDic.net: là hệ thống từ điển TV trực tuyến khá lớn, gồm gần 400.000 từ và cụm từ với nhiều cặp ngôn ngữ Bên cạnh các từ điển TV và tiếng nước ngoài, hiện nay cũng đã có một số từ điển TV – tiếng dân tộc thiểu số ở Việt Nam như từ điển Eđê, Chăm, Việt-Khmer…Tuy nhiên, đa số các từ điển này ở dạng phần mềm trên máy tính, chưa được chia sẽ sử dụng phổ biến như các hệ thống từ điển trực tuyến

Cùng với các từ điển TV và TDTTS là các hệ thống dịch tự động Mặc dù các hệ thống dịch tự động TV hiện nay có chất lượng rất thấp, tuy nhiên chúng vẫn có ích nhất định đối với người sử dụng Một số hệ thống dịch tự động có hỗ trợ TV như:

• Hệ thống dịch của Google: Đây là hệ thống dịch tự động lớn nhất hiện nay, với số lượng 90 ngôn ngữ, trong đó có TV

• Hệ thống dịch tự động Vietgle: Hỗ trợ dịch TV sang tiếng Anh tương đối tốt

• Ngoài ra, còn có các hệ thống như EVTrans, HelloChao cho phép dịch TV sang tiếng Anh

c Các công cụ xử lý văn bản TV khác

Trong số các công cụ xử lý TV, có thể kể đến nhóm các công cụ sau:

• Công cụ tách đoạn văn bản TV

Trang 3

ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 51

+ VnTokenizer là công cụ viết bằng Java dựa trên kĩ

thuật so khớp tối đa, kết hợp sử dụng biểu thức chính quy

Độ chính xác trung bình hệ thống đạt được là gần 94%[9]

+ PVnSeg là công cụ viết bằng Perl, cũng sử dụng kĩ

thuật so khớp tối đa và các biểu thức chính quy tương tự

như vnTokenizer Điểm khác là hệ thống này sử dụng thuật

toán quay lui để tăng hiệu quả Chương trình không xử lí

nhập nhằng mà chỉ chọn phương án ngẫu nhiên Độ chính

xác trung bình hệ thống đạt được là gần 97%[9]

+ JVnSegmenter là công cụ viết bằng Java, sử dụng

cách tiếp cận khác: mô hình hoá bài toán tách từ thành bài

toán gán nhãn, trong đó mỗi âm tiết sẽ được gán một trong

ba nhãn (BW - bắt đầu từ, IW – trong từ, và O - loại khác),

sau đó sử dụng một phương pháp học máy để thực hiện

nhiệm vụ gán nhãn Độ chính xác trung bình hệ thống đạt

được khi thực hiện phương pháp đánh giá chéo trên tập dữ

liệu tách từ mẫu nhỉnh hơn 95% [9], [5], [6]

Hình 1 Cấu trúc các thành phần của JvnTagger

• Công cụ phân loại từ TV

Phân loại từ nhằm xác định từ loại cho các từ trong văn

bản Phần mềm JvnTagger cho phép gán nhãn từ loại TV

được xây dựng dựa trên các phương pháp học máy thống

kê MaxEnt, CRFs và được viết bằng Java

• Công cụ phân tích cú pháp TV

Phân tích cú pháp nhằm giúp cho máy tính xác định được

các thành phần của câu, từ đó máy tính có thể hiểu văn bản

được đưa vào Phần mềm phân tích cú pháp TV BKParser

sử dụng văn phạm HPSG (Head-Driven Phrase Structure

Grammar, Pollard and Sag, 1994) Phần mềm BKParser

dưới dạng mã nguồn mở để người dùng có thể xây dựng ứng

dụng hay tích hợp ứng dụng trên đó dễ dàng [5]

Ngoài các nhóm tài nguyên xử lý TV và DTTS nêu trên,

còn có một số nguồn tài nguyên đang được phát triển hoặc

trong giai đoạn thử nghiệm gồm:

• Kho ngữ vựng đa ngữ Việt – Ê đê gán nhãn theo ngữ

cảnh, kho ngữ liệu đa ngữ Việt - Ê đê với phông chữ Unicode

có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách gán nhãn

theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục về

chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ, v.v…

cho đồng bào các dân tộc thiểu số Việt Nam [10]

• Kho ngữ liệu song ngữ Việt – Ê đê trong xử lý tiếng

Ê đê [14]

• Từ điển điện tử phương ngữ Jrai – Việt của Trung tâm

CNTT Sở Thông tin và Truyền thông Gia Lai và Công ty

TNHH Công nghệ thông tin Tuổi trẻ Lạc Việt xây dựng

Từ điển này cho phép chúng ta tra nghĩa theo từ

• Hệ thống dịch tự động Jrai – Việt và Việt – Jrai Hệ

thống này được xây dựng bằng phương pháp dịch máy dựa trên xác suất thống kê [9]

• Công cụ tách từ tự động trong tiếng Jrai Công cụ này làm tiền đề để tiếp tục nghiên cứu và xây dựng các hệ thống xử lý tiếng Jrai như dịch thuật tự động, tìm kiếm thông tin [8]

• Kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu [13]

3 Ý tưởng và giải pháp xây dựng môi trường quản lý tập trung tài nguyên xử lý TV và TDTTS

Như trình bày ở trên, nguồn tài nguyên xử lý TV và TDTTS đã được quan tâm xây dựng và phát triển Nhiều tài liệu khoa học đã được công bố, nhiều nguồn dữ liệu đã được xây dựng cũng như nhiều loại công cụ, sản phẩm về xử lý TV và TDTTS đã được phát triển Vấn đề là việc khai thác các nguồn tài nguyên này chưa thật sự hiệu quả, bởi lẽ chúng đang được lưu trữ và quản lý một cách phân tán cùng với sự đa dạng về cấu trúc, định dạng của chúng Do đó, để có thể khai thác hiệu quả hơn nữa các nguồn tài nguyên này, ý tưởng và giải pháp trước hết là tập hợp các nguồn tài nguyên này để xây dựng một môi trường quản lý và truy cập tập trung, sau đó tiến hành hợp nhất để cho phép việc quản lý và truy cập chúng theo cùng một cách thức đồng nhất và hiệu quả Để xây dựng được môi trường như vậy, chúng ta cần xây dựng 3 giải pháp cụ thể như sau:

• Trước hết, đối với nguồn tài nguyên là các tài liệu khoa học về lĩnh vực xử lý TV và TDTTS: Giải pháp cụ thể đối với loại tài nguyên này là tìm kiếm, tập hợp và xây dựng hệ thống quản lý tập trung các tài liệu khoa học về lĩnh vực này Trong đó, cần phải tổ chức, phân loại tài liệu theo từng chủ đề, lĩnh vực hẹp cũng như cung cấp các chức năng hiệu quả nhằm hỗ trợ một cách thuận lợi cho người dùng khai thác và nghiên cứu tài liệu Cụ thể, cần xây dựng giải pháp tổ chức dữ liệu một cách thông minh, phân loại cũng như nhóm các tài liệu theo lĩnh vực hẹp, chủ đề, tác giả…, cần nghiên cứu trích rút đặc trưng từ các tài liệu để tổ chức dữ liệu theo hướng ngữ nghĩa, cần cung cấp các chức năng tìm kiếm thông minh, cũng như các chức năng tóm tắt văn bản, thống kê… Giải pháp này được được thể hiện qua mô hình dưới đây:

Hình 2 Mô hình tìm kiếm, tập hợp và xây dựng hệ thống quản

lý tập trung các tài liệu khoa học

+ Bước 1: Nhận diện website xử lý TV và TDTTS Từ các website trên Internet, ta sử dụng PHPCrawl (là một thư viện phát triển cho việc crawling/spidering websites viết bằng ngôn ngữ PHP) để lấy dữ liệu tự động website, tiến hành nhận diện website và tài liệu cần tập hợp Thư viện này được cung cấp tại địa chỉ: http://phpcrawl.cuab.de/ Bước này ta có thể hình dung như là đang xây dựng một con robot

Dịch vụ

Dữ liệu

Trang 4

52 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân

có thể tự động dò tìm trong vô số website thông qua từ khóa

trong metadata của trang web nếu có, sau đó nhận dạng đâu

là website xử lý TV và TDTTS

(a) Lấy URL đầu vào do người dùng nhập kèm theo

thông tin về độ sâụ Độ sâu cho phép xác định số lần tìm

kiếm và xử lý các URL trong mã nguồn của trang web lấy

được, tính từ URL gốc

(b) Từ URL đã có, lấy mã nguồn HTML của trang web

tương ứng

(c) Tìm các URL trong mã nguồn HTML vừa tìm được

(d) Chọn và lưu trữ các URL có chứa từ khóa hoặc file

định dạng cần tìm

+ Bước 2: Nhận diện tài nguyên và trích xuất tài

nguyên Xử lý mỗi URL ở Bước 1 tìm được Mỗi URL

trong HTML đều chứa trong thẻ liên kết với cú pháp:

<a href=”URL” các_thuộc_tính_khác=”giá_trị”>

Nội dung hiển thị</a>

Có nhiều giải pháp để lấy được tất cả URL trong mã

nguồn trang web:

Sử dụng biểu thức chính quy (regular expression) để

quét tất cả các đoạn văn bản có cú pháp như vừa nêu, chẳng

hạn biểu thức chính quy có dạng sau:

<ẳ:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>

Biểu thức này sẽ lấy được các liên kết URL nằm trong thẻ <a>

Sử dụng thư viện yii- Gtreetable và dùng Json để truy vấn

yii-Gtreetable là một thư viện hỗ trợ phân tích cú pháp HTML

dựa trên việc xây dựng bộ đọc/ghi thông tin cây DOM Thư

viện được cung cấp tại địa

https://github.com/gilek/yii-gtreetablẹ Các URL sẽ được lấy thông qua phương thức:

$crawler->setURL($model->link) Yêu cầu tài nguyên là các

file có thể download được như là: *.rar, *.zip, *.pdf, *.doc, …

Các file này được chứa đựng trong thẻ <a

href="http://domain.com/ /filẹextension"></a> với thuộc

tính "href" Vì vậy, có thể lấy được nội dung file trong thuộc

tính "href"

+ Bước 3: Hiển thị

Xây dựng giao diện tìm kiếm và cung cấp thông tin

Người dùng sử dụng hệ thống để tra cứu, tìm kiếm tài liệu

đã được tổng hợp theo từng chủ đề, và có thể trao đổi, bình

luận về các tài liệu quan tâm

• Thứ hai, đối với nguồn tài nguyên là dữ liệu phục vụ

xử lý TV và TDTTS: Giải pháp cụ thể đối với loại tài

nguyên này là tập hợp và tìm cách hợp nhất chúng để tạo

nên các nguồn dữ liệu lớn hơn Cụ thể, các kho ngữ liệu,

các cơ sở dữ liệu từ điển sẽ có định dạng, cấu trúc và cặp

ngôn ngữ khác nhaụ Do đó, để cho phép việc khai thác và

sử dụng các nguồn tài nguyên này một cách hiệu quả, giải

pháp cần thiết là hợp nhất chúng lại với nhau, có nghĩa là

tìm cách trộn, liên kết các nguồn dữ liệu này lại với nhau

để tạo thành một nguồn dữ liệu đa ngữ, đồng nhất về mặt

định dạng và cấu trúc Một cách cụ thể, cần phải nghiên

cứu định dạng và cấu trúc của mỗi loại tài nguyên này, tìm

ra được những đặc điểm chung và riêng, để từ đó đề xuất

một cấu trúc và định dạng chuẩn Sau khi có được cấu trúc

và định dạng chuẩn thì việc xây dựng một nguồn tài nguyên

đồng nhất từ việc tập hợp và chuyển đổi các nguồn tài

nguyên đang tồn tại rất dễ dàng và thuận lợị

• Thứ ba, đối với nguồn tài nguyên là các công cụ và sản phẩm xử lý TV và DTTS: Một thực trạng đối với loại tài nguyên này là chúng được xây dựng và phát triển ở các dạng khác nhau như các ứng dụng độc lập, ứng dụng web, các đoạn script Vấn đề gặp phải đối với người dùng là cần phải cài đặt và tìm hiểu chúng một cách kỹ lưỡng trước khi có thể sử dụng được Do đó, để có thể cho phép sử dụng và khai thác loại tài nguyên này hiệu quả hơn, ý tưởng và giải pháp là cần xây dựng một hệ thống hoạt động theo kiến trúc hướng dịch vụ (SOA), trong đó sao cho việc truy xuất và khai thác các công cụ xử lý TV và TDTTS dễ dàng và trong suốt với người sử dụng Thật vậy, ý tưởng và giải pháp này xuất phát từ mô hình điện toán đám mây hiện nay, trong đó thay vì người dùng phải cài đặt phần mềm để sử dụng thì có thể sử dụng phần mềm như là dịch vụ thông qua môi trường internet

4 Xây dựng môi trường quản lý, truy cập tập trung tài nguyên xử lý TV và TDTTS

Từ giải pháp đã đề xuất ở phần trên, chúng tôi đã tiến hành xây dựng một môi trường quản lý và tập trung tài nguyên xử lý TV và TDTTS tập trung Hệ thống được xây dựng trên nền tảng web, dưới dạng một môi trường cộng tác, không những cho phép người dùng truy xuất và khai thác tài nguyên mà còn cho phép người dùng đóng góp và chia sẽ tài nguyên

Để có thể hiện thực được cả 3 giải pháp cụ thể đã nêu ở phần trên là một quá trình rất dài hơi, do đó chúng tôi đã chọn chiến lược hiện thực theo từng giải pháp một Ở giai đoạn này, chúng tôi đã hiện thực phần lớn giải pháp đối với nguồn tài nguyên là tài liệu khoa học và dữ liệụ

Đối với tài nguyên là tài liệu khoa học, hệ thống được xây dựng bởi ngôn ngữ PHP và hệ quản trị cơ sở dữ liệu SQL Server 2008 Chức năng trích rút tài liệu là chức năng quan trọng của hệ thống Chức năng này cho phép dò tìm các tài liệu về xử lý TV và TDTTS của một trang web cho trước với từ khóa đã được định nghĩạ Sau khi dò tìm, kết quả của việc trích rút sẽ hiển thị các file *.rar, *.zip, *.doc,

*.pdf … trong gridview như Hình 2 Ngoài ra, hệ thống còn cho phép người dùng tìm kiếm, và download các tài liệu đã được phân loại theo từng chủ đề Đồng thời, người dùng có thể upload tài liệu lên hệ thống, làm cho nguồn tài nguyên của hệ thống phong phú và đa dạng hơn

Hình 3 Kết quả của việc trích rút tài liệu

Đối với nguồn tài nguyên là dữ liệu, hệ thống của chúng tôi đã cho phép tập hợp và hợp nhất được một số loại kho ngữ liệu cũng như cung cấp được một số chức năng xử lý

Trang 5

ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 53

ngôn ngữ tự nhiên nói chung, xử lý TV và TDTTS nói riêng

và được truy xuất dưới dạng dịch vụ web

Dưới đây là một số kết quả của môi trường quản lý, truy

cập tập trung tài xử lý nguyên ngôn ngữ tự nhiên nói chung

và xử lý TV và TDTTS nói riêng

Hình 4 Chức năng nạp và hợp nhất kho ngữ liệu

Hình trên là chức năng cho phép nạp và hợp nhất các kho

ngữ liệu để tạo thành một nguồn dữ liệu đa ngữ, lớn hơn

Hình 5 Nhóm các chức năng được truy xuất dưới dạng

dịch vụ web

Bên cạnh chức năng hợp nhất nguồn tài nguyên là các kho

ngữ liệu, chúng tôi cũng đã tiến hành tích hợp nhiều chức năng

xử lý tài nguyên dữ liệu như các chức năng đánh giá, hiển thị,

chỉnh sửa (post-edit), so sánh dưới dạng dịch vụ web

Hình 6 Chức năng gióng hàng

Ngoài ra, chúng tôi cũng đã tích hợp chức năng gióng

hàng văn bản vào hệ thống

5 Kết luận

Xử lý TV và TDTTS là một lĩnh vực nghiên cứu rất được

quan tâm và rất cấp bách đối với Việt Nam Vấn đề đặt ra là

làm thế nào để tạo điều kiện thuận lợi cho cộng đồng nghiên

cứu về lĩnh vực này nhằm nâng cao và phát huy hơn nữa hiệu

quả quá trình nghiên cứu Kết quả của bài báo này đã đóng

góp một phần quan trọng nhằm giải quyết vấn đề đặt ra

Đóng góp thứ nhất của bài báo đó là kết quả nghiên cứu tổng

quan về các nguồn tài nguyên gồm tài liệu khoa học, dữ liệu

và công cụ/sản phẩm về xử lý TV và TDTTS Kết quả này sẽ có vai trò quan trọng cho cộng đồng những người nghiên cứu về lĩnh vực này tham khảo và có cái nhìn tổng quát về lĩnh vực này Đóng góp thứ hai của bài báo là đã đề xuất được các giải pháp cụ thể cho vấn đề làm thế nào tập hợp được các nguồn tài nguyên trên để cho phép người dùng truy cập và khai thác một cách thuận lợi và hiệu quả Đóng góp thứ ba của bài báo là đã bước đầu xây dựng được một môi trường, hiện thực được phần lớn giải pháp hợp nhất tài nguyên là dữ liệu cũng như cung cấp một số chức năng xử lý TV và TDTTS dưới dạng dịch vụ web

Để đạt được mục tiêu và giải pháp tổng thể đã đề xuất, trong thời gian đến chúng tôi sẽ tiếp tục nghiên cứu và triển khai các giải pháp về hợp nhất các loại tài nguyên khác như dữ liệu là từ điển cũng như tiếp tục tích hợp nhiều chức năng khác để có được một môi trường quản lý cho phép truy cập tài nguyên xử lý TV và TDTTS hoàn chỉnh, góp phần thúc đẩy việc nghiên cứu và phát triển lĩnh vực xử lý

TV và TDTTS trên máy tính

TÀI LIỆU THAM KHẢO

[1] Adam Kilgarriff, Phuong Le-Hong, “VietnameseWord Sketches”, In

Workshop on Vietnamese Language and Speech Processing

(IEEE-RIVF 9), 2012

[2] PGS TS Lương Chi Mai, Báo cáo tổng hợp nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, 2009 [3] Nguyễn Phương Thái và các cộng sự, Báo cáo kết quả sản phẩm SP 7.3 – Kho ngữ liệu tiếng Việt có chú giải, KC01/01, Dự án VLSP, 2009 [4] TS Nguyễn Thị Minh Huyền, Báo cáo kết quả sản phẩm SP 8.2 – Nghiên cứu xây dựng công cụ phân đoạn từ Việt, KC01/01, Dự án VLSP, 2009 [5] TS Lê Thanh Hương, Báo cáo kết quả sản phẩm SP 8.5 – Nghiên cứu xây dựng công cụ phân tích câu Việt, KC01/01, Dự án VLSP, 2009 [6] Nguyễn Cẩm Tú, Phan Xuân Hiếu, JVnSegmenter: A Java-based Vietnamese Word Segmentation Tool, http://jvnsegmenter.sourceforge.net, 2007 [7] Hồ Tú Bảo, Lương Chi Mai, Về xử lý tiếng Việt trong Công nghệ Thông tin, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ

tiên tiến Nhật Bản

[8] Nguyễn Thanh Tịnh, Huỳnh Công Pháp, “Nghiên cứu và xây dựng

công cụ tách từ tự động trong tiếng Jrai”, Hội thảo Khoa học Quốc gia, Số 5, Từ trang 307-312, 2013

[9] Huỳnh Công Pháp, Đỗ Thị Thuận, “Nghiên cứu và xây dựng hệ

thống dịch tự động Jrai – Việt và Việt - Jrai”, Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, Số 12(61), Từ trang 97-102, 2012

[10] Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Giải pháp xây dựng kho ngữ

liệu đa ngữ Việt – Ê đê gán nhãn theo ngữ cảnh”, Tạp chí Khoa học

và Công nghệ Đại học Đà Nẵng, Số 1(74), Từ trang 38 – 41, 2014 [11] Trương Đình Tú, Xây dựng bộ gõ tiếng dân tộc, Cuộc thi trí tuệ Việt

Nam, 2003

[12] Y Ghi Niê, KS Võ Ngọc Hiệp, ThS Trần Cát Lâm, Phần mềm gõ chữ dân tộc, Sở Khoa học và Công nghệ tỉnh DakLak, 2003 [13] Đỗ Gia Trinh, Xây dựng kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu, Luận văn Thạc sỹ Kỹ thuật, Đà Nẵng, 2013 [14] Phan Thị Thu Nhân, Xây dựng kho ngữ vựng song ngữ Việt – Ê đê trong xử lý tiếng Ê đê, Luận văn Thạc sỹ Kỹ thuật, Đà Nẵng, 2013

[15] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam Kilgarriff, Siva Reddy, “Nghiên cứu từ vựng tiếng Việt với hệ thống

Sketch Engine”, Tạp chí Tin học Và Điều khiển học, Số 3(27), 2011

[16] Võ Trung Hùng, “Phương pháp và công cụ đánh giá tự động các hệ

thống dịch tự động trên mạng”, Tạp chí Khoa học và Công nghệ, Đại

học Đà Nẵng, Số (18), Từ trang 37- 42, 2007

[17] Kho Ngữ liệu quốc tế Anh Quốc, http://ice-corpora.net/ice [18] Kho Ngữ liệu quốc gia Hoa Kỳ, http://www.anc.org

(BBT nhận bài: 04/08/2015, phản biện xong: 19/12/2015)

Ngày đăng: 02/05/2022, 06:40

HÌNH ẢNH LIÊN QUAN

Hình 2. Mô hình tìm kiếm, tập hợp và xây dựng hệ thống quản - 3213-Văn bản của bài báo-6970-1-10-20210805
Hình 2. Mô hình tìm kiếm, tập hợp và xây dựng hệ thống quản (Trang 3)
Hình 1. Cấu trúc các thành phần của JvnTagger - 3213-Văn bản của bài báo-6970-1-10-20210805
Hình 1. Cấu trúc các thành phần của JvnTagger (Trang 3)
Hình 3. Kết quả của việc trích rút tài liệu - 3213-Văn bản của bài báo-6970-1-10-20210805
Hình 3. Kết quả của việc trích rút tài liệu (Trang 4)
Hình 5. Nhóm các chức năng được truy xuất dưới dạng - 3213-Văn bản của bài báo-6970-1-10-20210805
Hình 5. Nhóm các chức năng được truy xuất dưới dạng (Trang 5)
Hình 4. Chức năng nạp và hợp nhất kho ngữ liệu - 3213-Văn bản của bài báo-6970-1-10-20210805
Hình 4. Chức năng nạp và hợp nhất kho ngữ liệu (Trang 5)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w