3213-Văn bản của bài báo-6970-1-10-20210805

ISSN 1859 1531 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97) 2015, QUYỂN 2 49 NGHIÊN CỨU VÀ XÂY DỰNG MÔI TRƯỜNG QUẢN LÝ, TRUY CẬP TÀI NGUYÊN PHỤC VỤ XỬ LÝ TIẾNG VIỆT VÀ TIẾNG DÂN TỘC THIỂU[.]

Trang 1

ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 49

NGHIÊN CỨU VÀ XÂY DỰNG MÔI TRƯỜNG QUẢN LÝ, TRUY CẬP TÀI NGUYÊN PHỤC VỤ XỬ LÝ TIẾNG VIỆT VÀ TIẾNG DÂN TỘC THIỂU SỐ

RESEARCHING AND BUILDING AN ENVIRONMENT FOR ACCESSING AND MANAGING RESOURCES FOR VIETNAMESE AND ETHNIC MINORITY LANGUAGE PROCESSING

Huỳnh Công Pháp, Văn Đỗ Cẩm Vân

Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng;

hcphap@gmail.com; van156dnvn@gmail.com

Tóm tắt - Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS)

là một lĩnh vực nghiên cứu rất được quan tâm và cấp bách đối với

Việt Nam Vấn đề đặt ra là làm thế nào để tạo điều kiện thuận lợi

cho cộng đồng nghiên cứu về lĩnh vực này nhằm nâng cao và phát

huy hơn nữa hiệu quả quá trình nghiên cứu Bởi lẽ, các nguồn tài

nguyên phục vụ xử lý TV và TDTTS được lưu trữ phân tán, nên

việc khai thác các nguồn tài nguyên này gặp nhiều khó khăn Do

đó, ý tưởng và giải pháp của bài báo trước hết là tập hợp và xây

dựng hệ thống truy cập tập trung các tài nguyên phục vụ xử lý TV

và TDTTS Sau đó, hợp nhất chúng, tạo nên nguồn dữ liệu lớn

hơn Cuối cùng, xây dựng một hệ thống hoạt động theo kiến trúc

hướng dịch vụ (SOA) sao cho việc truy xuất khai thác các tài

nguyên và công cụ xử lý TV và TDTTS dễ dàng và hiệu quả hơn

Abstract - Nowadays, processing Vietnamese and ethnic minority

languages is an urgent and interesting issue for many organizations and individuals However, the resources which are available to the research of processing Vietnamese language as well as some languages of minorities were stored in a discrete way This is the reason why the exploitation and the inheritance of these resources meet a lot of difficulties Therefore, the paper proposes some measures to improve the situation Firstly, collecting and constructing a centralized system of scientific documents on this field Secondly, merging them in order to create the bigger resources Finally, constructing the service – oriented architecture system which allows users to access and exploit the tools of processing Vietnamese and minority languages effectively

Từ khóa - xử lý tiếng Việt; xử lý tiếng dân tộc thiểu số; tập hợp;

môi trường quản lý; hợp nhất; khai thác Key words - process Vietnamese language; process minority languages; collect; management environment; merge; exploit

1 Đặt vấn đề

Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS)

là một trong những nhiệm vụ và hướng nghiên cứu quan

trọng đối với sự phát triển của ngành Công nghệ thông tin

hiện nay Trước xu thế này, nhiều nguồn tài nguyên bao gồm

các tài liệu khoa học, dữ liệu, công cụ phục vụ xử lý TV và

TDTTS được xây dựng và phát triển Tuy nhiên, một trong

những vấn đề lớn tồn tại hiện nay là các nguồn tài nguyên

này tồn tại một cách rời rạc, dưới các dạng khác nhau, dẫn

đến việc sử dụng và khai thác chúng trở nên rất khó khăn,

thậm chí không thể truy cập được Thật vậy, hiện nay nhiều

tài liệu nghiên cứu như bài báo khoa học, luận văn thạc sỹ…

về xử lý TV và TDTTS đã được công bố, nhưng chúng được

lưu trữ và quản lý rải rác, không có hệ thống, nên việc truy

cập và nghiên cứu chúng trở nên rất khó khăn Tương tự, dữ

liệu phục vụ xử lý TV và TDTTS như các kho ngữ liệu, dữ

liệu từ điển cũng đã được xây dựng, nhưng cấu trúc, định

dạng khác biệt của chúng cũng đã dẫn đến việc khai thác

chúng trở nên không hiệu quả Ngoài ra, nhiều tổ chức, cá

nhân nghiên cứu phát triển các công cụ phục vụ xử lý TV và

TDTTS một cách đơn lẻ, rời rạc, đôi lúc trùng lặp như các

bộ từ điển, bộ gõ, công cụ tách đoạn, tách từ, gióng hàng,

làm giàu thông tin… nên việc sử dụng, kế thừa các công cụ

này cũng rất khó khăn và hạn chế

Từ các vấn đề nêu trên, nhằm cho phép khai thác hiệu

quả hơn nữa các nguồn tài nguyên phục vụ xử lý TV và

TDTTS hiện có, giải pháp cấp bách là cần phải nghiên cứu

và xây dựng môi trường quản lý, truy cập tài nguyên xử lý

TV và TDTTS một cách tập trung, có hệ thống Với giải

pháp này, các nguồn tài nguyên xử lý TV và TDTTS sẽ được

tập hợp, quản lý và được tổ chức một cách có hệ thống, cho

phép việc truy cập và khai thác dễ dàng và hiệu quả hơn

2 Tổng quan về tình hình nghiên cứu xử lý TV và TDTTS hiện nay

Trước chủ trương, chính sách và sự quan tâm đặc biệt của Việt Nam về nghiên cứu xử lý TV và TDTTS trên máy tính, nhiều nhà khoa học và tổ chức trong nước đã nghiên cứu, phát triển nhiều nguồn tài nguyên xử lý TV và TDTTS

2.1 Tổng quan về các nhóm nghiên cứu xử lý TV và TDTTS

Trong số rất nhiều tổ chức và cá nhân nghiên cứu về xử lý TV và TDTTS, chúng ta có thể kể đến một số nhóm nghiên cứu nổi bật, đó là: Nhóm nghiên cứu xử lý tại Trung tâm DATIC – Khoa Công nghệ thông tin Trường Đại học Bách khoa và các trường thành viên của Đại học Đà Nẵng; Trung tâm CNTT-TT Sở Thông tin và Truyền thông Gia Lai; Công ty TNHH Công nghệ Tin học tuổi trẻ Lạc Việt; Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ Thông tin Hà Nội; Trung tâm MICA, Đại học Bách khoa Hà Nội; Nhóm nghiên cứu của Khoa CNTT, Trường Đại học Khoa học Tự nhiên TPHCM…

Các nhóm nghiên cứu trên đã thực hiện nhiều công trình nghiên cứu, hướng dẫn nhiều luận văn thạc sĩ và tiến sĩ, công

bố nhiều công trình nghiên cứu cũng như phát triển nhiều sản phẩm, công cụ về xử lý TV và TDTTS [2], [8], [9], [10]

2.2 Tổng quan về tài nguyên xử lý TV và TDTTS

Như đã đề cập ở phần mở đầu, tài nguyên xử lý TV và TDTTS có thể được chia thành 3 loại: tài liệu khoa học về xử lý TV và TDTTS; Dữ liệu phục vụ xử lý TV và TDTTS; công cụ và sản phẩm xử lý TV và TDTTS

2.2.1 Tài liệu khoa học về xử lý TV và TDTTS

Xử lý TV và TDTTS là lĩnh vực nghiên cứu được quan tâm hiện nay tại Việt Nam Chính vì vậy, ngày càng có

Trang 2

50 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân

nhiều tài liệu, công trình nghiên cứu về lĩnh vực này Theo

kết quả thống kê từ hệ thống tìm kiếm Google, hiện có

khoảng 24.500 tài liệu các loại về xử lý TV và 2.000 tài

liệu về xử lý TDTTS trên máy tính Trong đó, đáng kể nhất

là số lượng tài liệu về xử lý tiếng Êđê (1.100 tài liệu)

So với các nguồn tài liệu nghiên cứu về lĩnh vực khác, số

lượng tài liệu nghiên cứu về lĩnh vực này còn khá khiêm tốn

Trong khi đó, các nguồn tài liệu này lại được lưu trữ một

cách rải rác, riêng lẻ, không thuận tiện cho việc nghiên cứu

Do vậy, nếu chúng ta có thể tập hợp các nguồn tài liệu

nghiên cứu này và quản lý tập trung ở một hệ thống tra cứu

dùng chung thì chắc chắn sẽ rất hữu ích cho cộng đồng

những người làm nghiên cứu về lĩnh vực này

2.2.2 Dữ liệu phục vụ xử lý TV và TDTTS

Dữ liệu phục vụ xử lý ngôn ngữ tự nhiên nói chung, TV

và TDTTS nói riêng rất quan trọng Xử lý ngôn ngữ tự

nhiên là lĩnh vực nghiên cứu rất rộng, bao gồm nhiều vấn

đề xử lý khác nhau như: Tóm tắt văn bản, dịch máy, tách

đoạn, nhận dạng thực thể có tên, gán nhãn, phân tích dữ

liệu, hỏi đáp tự động, tìm kiếm, xử lý tiếng nói, từ điển,

đánh giá chất lượng dịch…

Để phục vụ các vấn đề khác nhau trong lĩnh vực xử lý

ngôn ngữ tự nhiên nêu trên, đòi hỏi phải xây dựng nhiều

loại dữ liệu khác nhau Có nhiều cách để phân loại dữ liệu

theo các tiêu chí, mục đích và quan điểm Tuy nhiên, xét

về mặt tổng quan, dữ liệu phục vụ xử lý ngôn ngữ tự nhiên

chủ yếu gồm các kho ngữ liệu, dữ liệu từ điển, treebank

(ngân hàng câu được chú giải cú pháp), ontology

a Kho ngữ liệu TV và TDTTS

Kho ngữ liệu là loại dữ liệu quan trọng và phổ biến nhất

trong lĩnh vực xử lý ngôn ngữ tự nhiên Kho ngữ liệu tồn

tại dưới nhiều dạng khác nhau, có cấu trúc và dịnh dạng rất

đa dạng Hiện nay, trên thế giới đã có nhiều kho ngữ liệu,

nổi tiếng nhất phải kể đến các kho ngữ liệu EuroParl [1],

BTEC [16], ANC [18], ICE [17],…

Cùng với đó, nhiều kho ngữ liệu tiếng Việt và TDTTS

cũng đã được xây dựng, đóng vai trò đáng kể trong lĩnh

vực nghiên cứu này Một số kho ngữ liệu tiếng Việt và

TDTTS phổ biến như: Kho ngữ liệu Vietlex (80 triệu từ);

Kho ngữ liệu Sketch (94 triệu từ) [15]; VietTreebank [3],

Kho ngữ liệu dự án VLPS [5]; các kho ngữ liệu của các

trung tâm nghiên cứu DATIC, MICA; các kho ngữ liệu

tiếng dân tộc Êđê, Chăm, Khơ-me

b Dữ liệu từ điển TV và TDTTS

Từ điển được xem như công cụ đắc lực và cần thiết nhất

trong số các công cụ phục vụ xử lý ngôn ngữ tự nhiên trên

máy tính Chính vì vậy, đã có nhiều từ điển TV và TDTTS

được xây dựng ở các dạng khác nhau như phần mềm độc lập,

ứng dụng web, ứng dụng trên các thiết bị cầm tay

Một số từ điển TV và TDTTS phổ biến như Lạc Việt,

VDict.com, Babylon, VnDic, Hellochao, Google, từ điển

Việt - Chăm, từ điển Việt - Khme, từ điển Việt - Bhnông,

từ điển Việt - Eđê…

Mỗi từ điển có cơ sở dữ liệu với cách tổ chức và định

dạng dữ liệu riêng Mặc dù tồn tại nhiều từ điển khác nhau,

nhưng mỗi từ điển chỉ gồm tập hợp từ vựng và cặp ngôn

ngữ giới hạn Do đó, nếu chúng ta có thể hợp nhất các loại

từ điển này lại với nhau thì có thể tạo được một từ điển với dữ liệu đầy đủ và số cặp ngôn ngữ đa dạng

2.2.3 Công cụ và sản phẩm xử lý TV và TDTTS

Như đã đề cập ở phần trên, xử lý ngôn ngữ tự nhiên bao gồm rất nhiều vấn đề xử lý khác nhau Do đó, hiện nay cũng đã tồn tại nhiều sản phẩm và công cụ xử lý TV và TDTTS khác nhau Trong số nhiều loại sản phẩm và công cụ xử lý

TV và TDTTS, các sản phẩm nổi bật và quan trọng gồm:

a Các bộ mã và bộ gõ TV và TDTTS

Một trong những sản phẩm quan trọng đối với xử lý TV và TDTTS trên máy tính cần kể đến, đó là bộ gõ TV và TDTTS Các bộ gõ TV phổ biến như Vietkey, Unikey, VNKey; các bộ gõ TDTTS như bộ gõ tiếng dân tộc Bahnar, M’nông, Êđê [11], bộ gõ TayNguyenKey [12] phục vụ cho việc soạn thảo 6 loại chữ viết của 6 dân tộc thiểu số là Êđê, Jơrai, Bahnar, Sê đăng, Kơ Ho và Mơ Nông

Nổi bật hơn, đó là nỗ lực đưa bộ mã TV vào bảng mã Unicode cũng như việc tích hợp bàn phím ảo TV vào các hệ điều hành máy tính và điện thoại di động hiện nay

b Các công cụ hỗ trợ chuyển đổi TV và TDTTS

Các công cụ hỗ trợ chuyển đổi TV và TDTTS có thể kể đến gồm các hệ thống từ điển và các hệ thống dịch tự động Như đã đề cập ở phần trên, hiện nay có nhiều hệ thống từ điển với số lượng từ và cặp ngôn ngữ khác nhau Các từ điển phổ biến hiện nay có thể kể đến:

• Lạc Việt từ điển: là hệ thống từ điển TV rất phổ biến ở cả hai dạng phần mềm cài đặt trên máy tính và phiên bản web, gồm 300.000 từ và cụm từ với 5 cặp ngôn ngữ Viêt-Anh, Việt-Pháp, Việt-Hàn, Việt-Nhật, Việt-Trung

• Từ điển VDict.com: là hệ thống từ điển TV trực tuyến khá phổ biến, gồm khoảng 400.000 từ với các cặp ngôn ngữ như Việt-Anh, Việt-Pháp, Việt-Hán

• Từ điển VnDic.net: là hệ thống từ điển TV trực tuyến khá lớn, gồm gần 400.000 từ và cụm từ với nhiều cặp ngôn ngữ Bên cạnh các từ điển TV và tiếng nước ngoài, hiện nay cũng đã có một số từ điển TV – tiếng dân tộc thiểu số ở Việt Nam như từ điển Eđê, Chăm, Việt-Khmer…Tuy nhiên, đa số các từ điển này ở dạng phần mềm trên máy tính, chưa được chia sẽ sử dụng phổ biến như các hệ thống từ điển trực tuyến

Cùng với các từ điển TV và TDTTS là các hệ thống dịch tự động Mặc dù các hệ thống dịch tự động TV hiện nay có chất lượng rất thấp, tuy nhiên chúng vẫn có ích nhất định đối với người sử dụng Một số hệ thống dịch tự động có hỗ trợ TV như:

• Hệ thống dịch của Google: Đây là hệ thống dịch tự động lớn nhất hiện nay, với số lượng 90 ngôn ngữ, trong đó có TV

• Hệ thống dịch tự động Vietgle: Hỗ trợ dịch TV sang tiếng Anh tương đối tốt

• Ngoài ra, còn có các hệ thống như EVTrans, HelloChao cho phép dịch TV sang tiếng Anh

c Các công cụ xử lý văn bản TV khác

Trong số các công cụ xử lý TV, có thể kể đến nhóm các công cụ sau:

• Công cụ tách đoạn văn bản TV

Trang 3

+ VnTokenizer là công cụ viết bằng Java dựa trên kĩ

thuật so khớp tối đa, kết hợp sử dụng biểu thức chính quy

Độ chính xác trung bình hệ thống đạt được là gần 94%[9]

+ PVnSeg là công cụ viết bằng Perl, cũng sử dụng kĩ

thuật so khớp tối đa và các biểu thức chính quy tương tự

như vnTokenizer Điểm khác là hệ thống này sử dụng thuật

toán quay lui để tăng hiệu quả Chương trình không xử lí

nhập nhằng mà chỉ chọn phương án ngẫu nhiên Độ chính

xác trung bình hệ thống đạt được là gần 97%[9]

+ JVnSegmenter là công cụ viết bằng Java, sử dụng

cách tiếp cận khác: mô hình hoá bài toán tách từ thành bài

toán gán nhãn, trong đó mỗi âm tiết sẽ được gán một trong

ba nhãn (BW - bắt đầu từ, IW – trong từ, và O - loại khác),

sau đó sử dụng một phương pháp học máy để thực hiện

nhiệm vụ gán nhãn Độ chính xác trung bình hệ thống đạt

được khi thực hiện phương pháp đánh giá chéo trên tập dữ

liệu tách từ mẫu nhỉnh hơn 95% [9], [5], [6]

Hình 1 Cấu trúc các thành phần của JvnTagger

• Công cụ phân loại từ TV

Phân loại từ nhằm xác định từ loại cho các từ trong văn

bản Phần mềm JvnTagger cho phép gán nhãn từ loại TV

được xây dựng dựa trên các phương pháp học máy thống

kê MaxEnt, CRFs và được viết bằng Java

• Công cụ phân tích cú pháp TV

Phân tích cú pháp nhằm giúp cho máy tính xác định được

các thành phần của câu, từ đó máy tính có thể hiểu văn bản

được đưa vào Phần mềm phân tích cú pháp TV BKParser

sử dụng văn phạm HPSG (Head-Driven Phrase Structure

Grammar, Pollard and Sag, 1994) Phần mềm BKParser

dưới dạng mã nguồn mở để người dùng có thể xây dựng ứng

dụng hay tích hợp ứng dụng trên đó dễ dàng [5]

Ngoài các nhóm tài nguyên xử lý TV và DTTS nêu trên,

còn có một số nguồn tài nguyên đang được phát triển hoặc

trong giai đoạn thử nghiệm gồm:

• Kho ngữ vựng đa ngữ Việt – Ê đê gán nhãn theo ngữ

cảnh, kho ngữ liệu đa ngữ Việt - Ê đê với phông chữ Unicode

có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách gán nhãn

theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục về

chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ, v.v…

cho đồng bào các dân tộc thiểu số Việt Nam [10]

• Kho ngữ liệu song ngữ Việt – Ê đê trong xử lý tiếng

Ê đê [14]

• Từ điển điện tử phương ngữ Jrai – Việt của Trung tâm

CNTT Sở Thông tin và Truyền thông Gia Lai và Công ty

TNHH Công nghệ thông tin Tuổi trẻ Lạc Việt xây dựng

Từ điển này cho phép chúng ta tra nghĩa theo từ

• Hệ thống dịch tự động Jrai – Việt và Việt – Jrai Hệ

thống này được xây dựng bằng phương pháp dịch máy dựa trên xác suất thống kê [9]

• Công cụ tách từ tự động trong tiếng Jrai Công cụ này làm tiền đề để tiếp tục nghiên cứu và xây dựng các hệ thống xử lý tiếng Jrai như dịch thuật tự động, tìm kiếm thông tin [8]

• Kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu [13]

3 Ý tưởng và giải pháp xây dựng môi trường quản lý tập trung tài nguyên xử lý TV và TDTTS

Như trình bày ở trên, nguồn tài nguyên xử lý TV và TDTTS đã được quan tâm xây dựng và phát triển Nhiều tài liệu khoa học đã được công bố, nhiều nguồn dữ liệu đã được xây dựng cũng như nhiều loại công cụ, sản phẩm về xử lý TV và TDTTS đã được phát triển Vấn đề là việc khai thác các nguồn tài nguyên này chưa thật sự hiệu quả, bởi lẽ chúng đang được lưu trữ và quản lý một cách phân tán cùng với sự đa dạng về cấu trúc, định dạng của chúng Do đó, để có thể khai thác hiệu quả hơn nữa các nguồn tài nguyên này, ý tưởng và giải pháp trước hết là tập hợp các nguồn tài nguyên này để xây dựng một môi trường quản lý và truy cập tập trung, sau đó tiến hành hợp nhất để cho phép việc quản lý và truy cập chúng theo cùng một cách thức đồng nhất và hiệu quả Để xây dựng được môi trường như vậy, chúng ta cần xây dựng 3 giải pháp cụ thể như sau:

• Trước hết, đối với nguồn tài nguyên là các tài liệu khoa học về lĩnh vực xử lý TV và TDTTS: Giải pháp cụ thể đối với loại tài nguyên này là tìm kiếm, tập hợp và xây dựng hệ thống quản lý tập trung các tài liệu khoa học về lĩnh vực này Trong đó, cần phải tổ chức, phân loại tài liệu theo từng chủ đề, lĩnh vực hẹp cũng như cung cấp các chức năng hiệu quả nhằm hỗ trợ một cách thuận lợi cho người dùng khai thác và nghiên cứu tài liệu Cụ thể, cần xây dựng giải pháp tổ chức dữ liệu một cách thông minh, phân loại cũng như nhóm các tài liệu theo lĩnh vực hẹp, chủ đề, tác giả…, cần nghiên cứu trích rút đặc trưng từ các tài liệu để tổ chức dữ liệu theo hướng ngữ nghĩa, cần cung cấp các chức năng tìm kiếm thông minh, cũng như các chức năng tóm tắt văn bản, thống kê… Giải pháp này được được thể hiện qua mô hình dưới đây:

Hình 2 Mô hình tìm kiếm, tập hợp và xây dựng hệ thống quản

lý tập trung các tài liệu khoa học

+ Bước 1: Nhận diện website xử lý TV và TDTTS Từ các website trên Internet, ta sử dụng PHPCrawl (là một thư viện phát triển cho việc crawling/spidering websites viết bằng ngôn ngữ PHP) để lấy dữ liệu tự động website, tiến hành nhận diện website và tài liệu cần tập hợp Thư viện này được cung cấp tại địa chỉ: http://phpcrawl.cuab.de/ Bước này ta có thể hình dung như là đang xây dựng một con robot

Dịch vụ

Dữ liệu

Trang 4

52 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân

có thể tự động dò tìm trong vô số website thông qua từ khóa

trong metadata của trang web nếu có, sau đó nhận dạng đâu

là website xử lý TV và TDTTS

(a) Lấy URL đầu vào do người dùng nhập kèm theo

thông tin về độ sâụ Độ sâu cho phép xác định số lần tìm

kiếm và xử lý các URL trong mã nguồn của trang web lấy

được, tính từ URL gốc

(b) Từ URL đã có, lấy mã nguồn HTML của trang web

tương ứng

(c) Tìm các URL trong mã nguồn HTML vừa tìm được

(d) Chọn và lưu trữ các URL có chứa từ khóa hoặc file

định dạng cần tìm

+ Bước 2: Nhận diện tài nguyên và trích xuất tài

nguyên Xử lý mỗi URL ở Bước 1 tìm được Mỗi URL

trong HTML đều chứa trong thẻ liên kết với cú pháp:

Nội dung hiển thị</a>

Có nhiều giải pháp để lấy được tất cả URL trong mã

nguồn trang web:

Sử dụng biểu thức chính quy (regular expression) để

quét tất cả các đoạn văn bản có cú pháp như vừa nêu, chẳng

hạn biểu thức chính quy có dạng sau:

<ẳ:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>

Biểu thức này sẽ lấy được các liên kết URL nằm trong thẻ <a>

Sử dụng thư viện yii- Gtreetable và dùng Json để truy vấn

yii-Gtreetable là một thư viện hỗ trợ phân tích cú pháp HTML

dựa trên việc xây dựng bộ đọc/ghi thông tin cây DOM Thư

viện được cung cấp tại địa

https://github.com/gilek/yii-gtreetablẹ Các URL sẽ được lấy thông qua phương thức:

$crawler->setURL($model->link) Yêu cầu tài nguyên là các

file có thể download được như là: *.rar, *.zip, *.pdf, *.doc, …

Các file này được chứa đựng trong thẻ <a

href="http://domain.com/ /filẹextension"></a> với thuộc

tính "href" Vì vậy, có thể lấy được nội dung file trong thuộc

tính "href"

+ Bước 3: Hiển thị

Xây dựng giao diện tìm kiếm và cung cấp thông tin

Người dùng sử dụng hệ thống để tra cứu, tìm kiếm tài liệu

đã được tổng hợp theo từng chủ đề, và có thể trao đổi, bình

luận về các tài liệu quan tâm

• Thứ hai, đối với nguồn tài nguyên là dữ liệu phục vụ

xử lý TV và TDTTS: Giải pháp cụ thể đối với loại tài

nguyên này là tập hợp và tìm cách hợp nhất chúng để tạo

nên các nguồn dữ liệu lớn hơn Cụ thể, các kho ngữ liệu,

các cơ sở dữ liệu từ điển sẽ có định dạng, cấu trúc và cặp

ngôn ngữ khác nhaụ Do đó, để cho phép việc khai thác và

sử dụng các nguồn tài nguyên này một cách hiệu quả, giải

pháp cần thiết là hợp nhất chúng lại với nhau, có nghĩa là

tìm cách trộn, liên kết các nguồn dữ liệu này lại với nhau

để tạo thành một nguồn dữ liệu đa ngữ, đồng nhất về mặt

định dạng và cấu trúc Một cách cụ thể, cần phải nghiên

cứu định dạng và cấu trúc của mỗi loại tài nguyên này, tìm

ra được những đặc điểm chung và riêng, để từ đó đề xuất

một cấu trúc và định dạng chuẩn Sau khi có được cấu trúc

và định dạng chuẩn thì việc xây dựng một nguồn tài nguyên

đồng nhất từ việc tập hợp và chuyển đổi các nguồn tài

nguyên đang tồn tại rất dễ dàng và thuận lợị

• Thứ ba, đối với nguồn tài nguyên là các công cụ và sản phẩm xử lý TV và DTTS: Một thực trạng đối với loại tài nguyên này là chúng được xây dựng và phát triển ở các dạng khác nhau như các ứng dụng độc lập, ứng dụng web, các đoạn script Vấn đề gặp phải đối với người dùng là cần phải cài đặt và tìm hiểu chúng một cách kỹ lưỡng trước khi có thể sử dụng được Do đó, để có thể cho phép sử dụng và khai thác loại tài nguyên này hiệu quả hơn, ý tưởng và giải pháp là cần xây dựng một hệ thống hoạt động theo kiến trúc hướng dịch vụ (SOA), trong đó sao cho việc truy xuất và khai thác các công cụ xử lý TV và TDTTS dễ dàng và trong suốt với người sử dụng Thật vậy, ý tưởng và giải pháp này xuất phát từ mô hình điện toán đám mây hiện nay, trong đó thay vì người dùng phải cài đặt phần mềm để sử dụng thì có thể sử dụng phần mềm như là dịch vụ thông qua môi trường internet

4 Xây dựng môi trường quản lý, truy cập tập trung tài nguyên xử lý TV và TDTTS

Từ giải pháp đã đề xuất ở phần trên, chúng tôi đã tiến hành xây dựng một môi trường quản lý và tập trung tài nguyên xử lý TV và TDTTS tập trung Hệ thống được xây dựng trên nền tảng web, dưới dạng một môi trường cộng tác, không những cho phép người dùng truy xuất và khai thác tài nguyên mà còn cho phép người dùng đóng góp và chia sẽ tài nguyên

Để có thể hiện thực được cả 3 giải pháp cụ thể đã nêu ở phần trên là một quá trình rất dài hơi, do đó chúng tôi đã chọn chiến lược hiện thực theo từng giải pháp một Ở giai đoạn này, chúng tôi đã hiện thực phần lớn giải pháp đối với nguồn tài nguyên là tài liệu khoa học và dữ liệụ

Đối với tài nguyên là tài liệu khoa học, hệ thống được xây dựng bởi ngôn ngữ PHP và hệ quản trị cơ sở dữ liệu SQL Server 2008 Chức năng trích rút tài liệu là chức năng quan trọng của hệ thống Chức năng này cho phép dò tìm các tài liệu về xử lý TV và TDTTS của một trang web cho trước với từ khóa đã được định nghĩạ Sau khi dò tìm, kết quả của việc trích rút sẽ hiển thị các file *.rar, *.zip, *.doc,

*.pdf … trong gridview như Hình 2 Ngoài ra, hệ thống còn cho phép người dùng tìm kiếm, và download các tài liệu đã được phân loại theo từng chủ đề Đồng thời, người dùng có thể upload tài liệu lên hệ thống, làm cho nguồn tài nguyên của hệ thống phong phú và đa dạng hơn

Hình 3 Kết quả của việc trích rút tài liệu

Đối với nguồn tài nguyên là dữ liệu, hệ thống của chúng tôi đã cho phép tập hợp và hợp nhất được một số loại kho ngữ liệu cũng như cung cấp được một số chức năng xử lý

Trang 5

ngôn ngữ tự nhiên nói chung, xử lý TV và TDTTS nói riêng

và được truy xuất dưới dạng dịch vụ web

Dưới đây là một số kết quả của môi trường quản lý, truy

cập tập trung tài xử lý nguyên ngôn ngữ tự nhiên nói chung

và xử lý TV và TDTTS nói riêng

Hình 4 Chức năng nạp và hợp nhất kho ngữ liệu

Hình trên là chức năng cho phép nạp và hợp nhất các kho

ngữ liệu để tạo thành một nguồn dữ liệu đa ngữ, lớn hơn

Hình 5 Nhóm các chức năng được truy xuất dưới dạng

dịch vụ web

Bên cạnh chức năng hợp nhất nguồn tài nguyên là các kho

ngữ liệu, chúng tôi cũng đã tiến hành tích hợp nhiều chức năng

xử lý tài nguyên dữ liệu như các chức năng đánh giá, hiển thị,

chỉnh sửa (post-edit), so sánh dưới dạng dịch vụ web

Hình 6 Chức năng gióng hàng

Ngoài ra, chúng tôi cũng đã tích hợp chức năng gióng

hàng văn bản vào hệ thống

5 Kết luận

Xử lý TV và TDTTS là một lĩnh vực nghiên cứu rất được

quan tâm và rất cấp bách đối với Việt Nam Vấn đề đặt ra là

làm thế nào để tạo điều kiện thuận lợi cho cộng đồng nghiên

cứu về lĩnh vực này nhằm nâng cao và phát huy hơn nữa hiệu

quả quá trình nghiên cứu Kết quả của bài báo này đã đóng

góp một phần quan trọng nhằm giải quyết vấn đề đặt ra

Đóng góp thứ nhất của bài báo đó là kết quả nghiên cứu tổng

quan về các nguồn tài nguyên gồm tài liệu khoa học, dữ liệu

và công cụ/sản phẩm về xử lý TV và TDTTS Kết quả này sẽ có vai trò quan trọng cho cộng đồng những người nghiên cứu về lĩnh vực này tham khảo và có cái nhìn tổng quát về lĩnh vực này Đóng góp thứ hai của bài báo là đã đề xuất được các giải pháp cụ thể cho vấn đề làm thế nào tập hợp được các nguồn tài nguyên trên để cho phép người dùng truy cập và khai thác một cách thuận lợi và hiệu quả Đóng góp thứ ba của bài báo là đã bước đầu xây dựng được một môi trường, hiện thực được phần lớn giải pháp hợp nhất tài nguyên là dữ liệu cũng như cung cấp một số chức năng xử lý TV và TDTTS dưới dạng dịch vụ web

Để đạt được mục tiêu và giải pháp tổng thể đã đề xuất, trong thời gian đến chúng tôi sẽ tiếp tục nghiên cứu và triển khai các giải pháp về hợp nhất các loại tài nguyên khác như dữ liệu là từ điển cũng như tiếp tục tích hợp nhiều chức năng khác để có được một môi trường quản lý cho phép truy cập tài nguyên xử lý TV và TDTTS hoàn chỉnh, góp phần thúc đẩy việc nghiên cứu và phát triển lĩnh vực xử lý

TV và TDTTS trên máy tính

TÀI LIỆU THAM KHẢO

[1] Adam Kilgarriff, Phuong Le-Hong, “VietnameseWord Sketches”, In

Workshop on Vietnamese Language and Speech Processing

(IEEE-RIVF 9), 2012

[2] PGS TS Lương Chi Mai, Báo cáo tổng hợp nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, 2009 [3] Nguyễn Phương Thái và các cộng sự, Báo cáo kết quả sản phẩm SP 7.3 – Kho ngữ liệu tiếng Việt có chú giải, KC01/01, Dự án VLSP, 2009 [4] TS Nguyễn Thị Minh Huyền, Báo cáo kết quả sản phẩm SP 8.2 – Nghiên cứu xây dựng công cụ phân đoạn từ Việt, KC01/01, Dự án VLSP, 2009 [5] TS Lê Thanh Hương, Báo cáo kết quả sản phẩm SP 8.5 – Nghiên cứu xây dựng công cụ phân tích câu Việt, KC01/01, Dự án VLSP, 2009 [6] Nguyễn Cẩm Tú, Phan Xuân Hiếu, JVnSegmenter: A Java-based Vietnamese Word Segmentation Tool, http://jvnsegmenter.sourceforge.net, 2007 [7] Hồ Tú Bảo, Lương Chi Mai, Về xử lý tiếng Việt trong Công nghệ Thông tin, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ

tiên tiến Nhật Bản

[8] Nguyễn Thanh Tịnh, Huỳnh Công Pháp, “Nghiên cứu và xây dựng

công cụ tách từ tự động trong tiếng Jrai”, Hội thảo Khoa học Quốc gia, Số 5, Từ trang 307-312, 2013

[9] Huỳnh Công Pháp, Đỗ Thị Thuận, “Nghiên cứu và xây dựng hệ

thống dịch tự động Jrai – Việt và Việt - Jrai”, Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, Số 12(61), Từ trang 97-102, 2012

[10] Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Giải pháp xây dựng kho ngữ

liệu đa ngữ Việt – Ê đê gán nhãn theo ngữ cảnh”, Tạp chí Khoa học

và Công nghệ Đại học Đà Nẵng, Số 1(74), Từ trang 38 – 41, 2014 [11] Trương Đình Tú, Xây dựng bộ gõ tiếng dân tộc, Cuộc thi trí tuệ Việt

Nam, 2003

[12] Y Ghi Niê, KS Võ Ngọc Hiệp, ThS Trần Cát Lâm, Phần mềm gõ chữ dân tộc, Sở Khoa học và Công nghệ tỉnh DakLak, 2003 [13] Đỗ Gia Trinh, Xây dựng kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu, Luận văn Thạc sỹ Kỹ thuật, Đà Nẵng, 2013 [14] Phan Thị Thu Nhân, Xây dựng kho ngữ vựng song ngữ Việt – Ê đê trong xử lý tiếng Ê đê, Luận văn Thạc sỹ Kỹ thuật, Đà Nẵng, 2013

[15] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam Kilgarriff, Siva Reddy, “Nghiên cứu từ vựng tiếng Việt với hệ thống

Sketch Engine”, Tạp chí Tin học Và Điều khiển học, Số 3(27), 2011

[16] Võ Trung Hùng, “Phương pháp và công cụ đánh giá tự động các hệ

thống dịch tự động trên mạng”, Tạp chí Khoa học và Công nghệ, Đại

học Đà Nẵng, Số (18), Từ trang 37- 42, 2007

[17] Kho Ngữ liệu quốc tế Anh Quốc, http://ice-corpora.net/ice [18] Kho Ngữ liệu quốc gia Hoa Kỳ, http://www.anc.org

(BBT nhận bài: 04/08/2015, phản biện xong: 19/12/2015)

Định dạng
Số trang	5
Dung lượng	649,17 KB