ISSN 1859 1531 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97) 2015, QUYỂN 2 49 NGHIÊN CỨU VÀ XÂY DỰNG MÔI TRƯỜNG QUẢN LÝ, TRUY CẬP TÀI NGUYÊN PHỤC VỤ XỬ LÝ TIẾNG VIỆT VÀ TIẾNG DÂN TỘC THIỂU[.]
Trang 1ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 49
NGHIÊN CỨU VÀ XÂY DỰNG MÔI TRƯỜNG QUẢN LÝ, TRUY CẬP TÀI NGUYÊN PHỤC VỤ XỬ LÝ TIẾNG VIỆT VÀ TIẾNG DÂN TỘC THIỂU SỐ
RESEARCHING AND BUILDING AN ENVIRONMENT FOR ACCESSING AND MANAGING RESOURCES FOR VIETNAMESE AND ETHNIC MINORITY LANGUAGE PROCESSING
Huỳnh Công Pháp, Văn Đỗ Cẩm Vân
Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng;
hcphap@gmail.com; van156dnvn@gmail.com
Tóm tắt - Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS)
là một lĩnh vực nghiên cứu rất được quan tâm và cấp bách đối với
Việt Nam Vấn đề đặt ra là làm thế nào để tạo điều kiện thuận lợi
cho cộng đồng nghiên cứu về lĩnh vực này nhằm nâng cao và phát
huy hơn nữa hiệu quả quá trình nghiên cứu Bởi lẽ, các nguồn tài
nguyên phục vụ xử lý TV và TDTTS được lưu trữ phân tán, nên
việc khai thác các nguồn tài nguyên này gặp nhiều khó khăn Do
đó, ý tưởng và giải pháp của bài báo trước hết là tập hợp và xây
dựng hệ thống truy cập tập trung các tài nguyên phục vụ xử lý TV
và TDTTS Sau đó, hợp nhất chúng, tạo nên nguồn dữ liệu lớn
hơn Cuối cùng, xây dựng một hệ thống hoạt động theo kiến trúc
hướng dịch vụ (SOA) sao cho việc truy xuất khai thác các tài
nguyên và công cụ xử lý TV và TDTTS dễ dàng và hiệu quả hơn
Abstract - Nowadays, processing Vietnamese and ethnic minority
languages is an urgent and interesting issue for many organizations and individuals However, the resources which are available to the research of processing Vietnamese language as well as some languages of minorities were stored in a discrete way This is the reason why the exploitation and the inheritance of these resources meet a lot of difficulties Therefore, the paper proposes some measures to improve the situation Firstly, collecting and constructing a centralized system of scientific documents on this field Secondly, merging them in order to create the bigger resources Finally, constructing the service – oriented architecture system which allows users to access and exploit the tools of processing Vietnamese and minority languages effectively
Từ khóa - xử lý tiếng Việt; xử lý tiếng dân tộc thiểu số; tập hợp;
môi trường quản lý; hợp nhất; khai thác Key words - process Vietnamese language; process minority languages; collect; management environment; merge; exploit
1 Đặt vấn đề
Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS)
là một trong những nhiệm vụ và hướng nghiên cứu quan
trọng đối với sự phát triển của ngành Công nghệ thông tin
hiện nay Trước xu thế này, nhiều nguồn tài nguyên bao gồm
các tài liệu khoa học, dữ liệu, công cụ phục vụ xử lý TV và
TDTTS được xây dựng và phát triển Tuy nhiên, một trong
những vấn đề lớn tồn tại hiện nay là các nguồn tài nguyên
này tồn tại một cách rời rạc, dưới các dạng khác nhau, dẫn
đến việc sử dụng và khai thác chúng trở nên rất khó khăn,
thậm chí không thể truy cập được Thật vậy, hiện nay nhiều
tài liệu nghiên cứu như bài báo khoa học, luận văn thạc sỹ…
về xử lý TV và TDTTS đã được công bố, nhưng chúng được
lưu trữ và quản lý rải rác, không có hệ thống, nên việc truy
cập và nghiên cứu chúng trở nên rất khó khăn Tương tự, dữ
liệu phục vụ xử lý TV và TDTTS như các kho ngữ liệu, dữ
liệu từ điển cũng đã được xây dựng, nhưng cấu trúc, định
dạng khác biệt của chúng cũng đã dẫn đến việc khai thác
chúng trở nên không hiệu quả Ngoài ra, nhiều tổ chức, cá
nhân nghiên cứu phát triển các công cụ phục vụ xử lý TV và
TDTTS một cách đơn lẻ, rời rạc, đôi lúc trùng lặp như các
bộ từ điển, bộ gõ, công cụ tách đoạn, tách từ, gióng hàng,
làm giàu thông tin… nên việc sử dụng, kế thừa các công cụ
này cũng rất khó khăn và hạn chế
Từ các vấn đề nêu trên, nhằm cho phép khai thác hiệu
quả hơn nữa các nguồn tài nguyên phục vụ xử lý TV và
TDTTS hiện có, giải pháp cấp bách là cần phải nghiên cứu
và xây dựng môi trường quản lý, truy cập tài nguyên xử lý
TV và TDTTS một cách tập trung, có hệ thống Với giải
pháp này, các nguồn tài nguyên xử lý TV và TDTTS sẽ được
tập hợp, quản lý và được tổ chức một cách có hệ thống, cho
phép việc truy cập và khai thác dễ dàng và hiệu quả hơn
2 Tổng quan về tình hình nghiên cứu xử lý TV và TDTTS hiện nay
Trước chủ trương, chính sách và sự quan tâm đặc biệt của Việt Nam về nghiên cứu xử lý TV và TDTTS trên máy tính, nhiều nhà khoa học và tổ chức trong nước đã nghiên cứu, phát triển nhiều nguồn tài nguyên xử lý TV và TDTTS
2.1 Tổng quan về các nhóm nghiên cứu xử lý TV và TDTTS
Trong số rất nhiều tổ chức và cá nhân nghiên cứu về xử lý TV và TDTTS, chúng ta có thể kể đến một số nhóm nghiên cứu nổi bật, đó là: Nhóm nghiên cứu xử lý tại Trung tâm DATIC – Khoa Công nghệ thông tin Trường Đại học Bách khoa và các trường thành viên của Đại học Đà Nẵng; Trung tâm CNTT-TT Sở Thông tin và Truyền thông Gia Lai; Công ty TNHH Công nghệ Tin học tuổi trẻ Lạc Việt; Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ Thông tin Hà Nội; Trung tâm MICA, Đại học Bách khoa Hà Nội; Nhóm nghiên cứu của Khoa CNTT, Trường Đại học Khoa học Tự nhiên TPHCM…
Các nhóm nghiên cứu trên đã thực hiện nhiều công trình nghiên cứu, hướng dẫn nhiều luận văn thạc sĩ và tiến sĩ, công
bố nhiều công trình nghiên cứu cũng như phát triển nhiều sản phẩm, công cụ về xử lý TV và TDTTS [2], [8], [9], [10]
2.2 Tổng quan về tài nguyên xử lý TV và TDTTS
Như đã đề cập ở phần mở đầu, tài nguyên xử lý TV và TDTTS có thể được chia thành 3 loại: tài liệu khoa học về xử lý TV và TDTTS; Dữ liệu phục vụ xử lý TV và TDTTS; công cụ và sản phẩm xử lý TV và TDTTS
2.2.1 Tài liệu khoa học về xử lý TV và TDTTS
Xử lý TV và TDTTS là lĩnh vực nghiên cứu được quan tâm hiện nay tại Việt Nam Chính vì vậy, ngày càng có
Trang 250 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân
nhiều tài liệu, công trình nghiên cứu về lĩnh vực này Theo
kết quả thống kê từ hệ thống tìm kiếm Google, hiện có
khoảng 24.500 tài liệu các loại về xử lý TV và 2.000 tài
liệu về xử lý TDTTS trên máy tính Trong đó, đáng kể nhất
là số lượng tài liệu về xử lý tiếng Êđê (1.100 tài liệu)
So với các nguồn tài liệu nghiên cứu về lĩnh vực khác, số
lượng tài liệu nghiên cứu về lĩnh vực này còn khá khiêm tốn
Trong khi đó, các nguồn tài liệu này lại được lưu trữ một
cách rải rác, riêng lẻ, không thuận tiện cho việc nghiên cứu
Do vậy, nếu chúng ta có thể tập hợp các nguồn tài liệu
nghiên cứu này và quản lý tập trung ở một hệ thống tra cứu
dùng chung thì chắc chắn sẽ rất hữu ích cho cộng đồng
những người làm nghiên cứu về lĩnh vực này
2.2.2 Dữ liệu phục vụ xử lý TV và TDTTS
Dữ liệu phục vụ xử lý ngôn ngữ tự nhiên nói chung, TV
và TDTTS nói riêng rất quan trọng Xử lý ngôn ngữ tự
nhiên là lĩnh vực nghiên cứu rất rộng, bao gồm nhiều vấn
đề xử lý khác nhau như: Tóm tắt văn bản, dịch máy, tách
đoạn, nhận dạng thực thể có tên, gán nhãn, phân tích dữ
liệu, hỏi đáp tự động, tìm kiếm, xử lý tiếng nói, từ điển,
đánh giá chất lượng dịch…
Để phục vụ các vấn đề khác nhau trong lĩnh vực xử lý
ngôn ngữ tự nhiên nêu trên, đòi hỏi phải xây dựng nhiều
loại dữ liệu khác nhau Có nhiều cách để phân loại dữ liệu
theo các tiêu chí, mục đích và quan điểm Tuy nhiên, xét
về mặt tổng quan, dữ liệu phục vụ xử lý ngôn ngữ tự nhiên
chủ yếu gồm các kho ngữ liệu, dữ liệu từ điển, treebank
(ngân hàng câu được chú giải cú pháp), ontology
a Kho ngữ liệu TV và TDTTS
Kho ngữ liệu là loại dữ liệu quan trọng và phổ biến nhất
trong lĩnh vực xử lý ngôn ngữ tự nhiên Kho ngữ liệu tồn
tại dưới nhiều dạng khác nhau, có cấu trúc và dịnh dạng rất
đa dạng Hiện nay, trên thế giới đã có nhiều kho ngữ liệu,
nổi tiếng nhất phải kể đến các kho ngữ liệu EuroParl [1],
BTEC [16], ANC [18], ICE [17],…
Cùng với đó, nhiều kho ngữ liệu tiếng Việt và TDTTS
cũng đã được xây dựng, đóng vai trò đáng kể trong lĩnh
vực nghiên cứu này Một số kho ngữ liệu tiếng Việt và
TDTTS phổ biến như: Kho ngữ liệu Vietlex (80 triệu từ);
Kho ngữ liệu Sketch (94 triệu từ) [15]; VietTreebank [3],
Kho ngữ liệu dự án VLPS [5]; các kho ngữ liệu của các
trung tâm nghiên cứu DATIC, MICA; các kho ngữ liệu
tiếng dân tộc Êđê, Chăm, Khơ-me
b Dữ liệu từ điển TV và TDTTS
Từ điển được xem như công cụ đắc lực và cần thiết nhất
trong số các công cụ phục vụ xử lý ngôn ngữ tự nhiên trên
máy tính Chính vì vậy, đã có nhiều từ điển TV và TDTTS
được xây dựng ở các dạng khác nhau như phần mềm độc lập,
ứng dụng web, ứng dụng trên các thiết bị cầm tay
Một số từ điển TV và TDTTS phổ biến như Lạc Việt,
VDict.com, Babylon, VnDic, Hellochao, Google, từ điển
Việt - Chăm, từ điển Việt - Khme, từ điển Việt - Bhnông,
từ điển Việt - Eđê…
Mỗi từ điển có cơ sở dữ liệu với cách tổ chức và định
dạng dữ liệu riêng Mặc dù tồn tại nhiều từ điển khác nhau,
nhưng mỗi từ điển chỉ gồm tập hợp từ vựng và cặp ngôn
ngữ giới hạn Do đó, nếu chúng ta có thể hợp nhất các loại
từ điển này lại với nhau thì có thể tạo được một từ điển với dữ liệu đầy đủ và số cặp ngôn ngữ đa dạng
2.2.3 Công cụ và sản phẩm xử lý TV và TDTTS
Như đã đề cập ở phần trên, xử lý ngôn ngữ tự nhiên bao gồm rất nhiều vấn đề xử lý khác nhau Do đó, hiện nay cũng đã tồn tại nhiều sản phẩm và công cụ xử lý TV và TDTTS khác nhau Trong số nhiều loại sản phẩm và công cụ xử lý
TV và TDTTS, các sản phẩm nổi bật và quan trọng gồm:
a Các bộ mã và bộ gõ TV và TDTTS
Một trong những sản phẩm quan trọng đối với xử lý TV và TDTTS trên máy tính cần kể đến, đó là bộ gõ TV và TDTTS Các bộ gõ TV phổ biến như Vietkey, Unikey, VNKey; các bộ gõ TDTTS như bộ gõ tiếng dân tộc Bahnar, M’nông, Êđê [11], bộ gõ TayNguyenKey [12] phục vụ cho việc soạn thảo 6 loại chữ viết của 6 dân tộc thiểu số là Êđê, Jơrai, Bahnar, Sê đăng, Kơ Ho và Mơ Nông
Nổi bật hơn, đó là nỗ lực đưa bộ mã TV vào bảng mã Unicode cũng như việc tích hợp bàn phím ảo TV vào các hệ điều hành máy tính và điện thoại di động hiện nay
b Các công cụ hỗ trợ chuyển đổi TV và TDTTS
Các công cụ hỗ trợ chuyển đổi TV và TDTTS có thể kể đến gồm các hệ thống từ điển và các hệ thống dịch tự động Như đã đề cập ở phần trên, hiện nay có nhiều hệ thống từ điển với số lượng từ và cặp ngôn ngữ khác nhau Các từ điển phổ biến hiện nay có thể kể đến:
• Lạc Việt từ điển: là hệ thống từ điển TV rất phổ biến ở cả hai dạng phần mềm cài đặt trên máy tính và phiên bản web, gồm 300.000 từ và cụm từ với 5 cặp ngôn ngữ Viêt-Anh, Việt-Pháp, Việt-Hàn, Việt-Nhật, Việt-Trung
• Từ điển VDict.com: là hệ thống từ điển TV trực tuyến khá phổ biến, gồm khoảng 400.000 từ với các cặp ngôn ngữ như Việt-Anh, Việt-Pháp, Việt-Hán
• Từ điển VnDic.net: là hệ thống từ điển TV trực tuyến khá lớn, gồm gần 400.000 từ và cụm từ với nhiều cặp ngôn ngữ Bên cạnh các từ điển TV và tiếng nước ngoài, hiện nay cũng đã có một số từ điển TV – tiếng dân tộc thiểu số ở Việt Nam như từ điển Eđê, Chăm, Việt-Khmer…Tuy nhiên, đa số các từ điển này ở dạng phần mềm trên máy tính, chưa được chia sẽ sử dụng phổ biến như các hệ thống từ điển trực tuyến
Cùng với các từ điển TV và TDTTS là các hệ thống dịch tự động Mặc dù các hệ thống dịch tự động TV hiện nay có chất lượng rất thấp, tuy nhiên chúng vẫn có ích nhất định đối với người sử dụng Một số hệ thống dịch tự động có hỗ trợ TV như:
• Hệ thống dịch của Google: Đây là hệ thống dịch tự động lớn nhất hiện nay, với số lượng 90 ngôn ngữ, trong đó có TV
• Hệ thống dịch tự động Vietgle: Hỗ trợ dịch TV sang tiếng Anh tương đối tốt
• Ngoài ra, còn có các hệ thống như EVTrans, HelloChao cho phép dịch TV sang tiếng Anh
c Các công cụ xử lý văn bản TV khác
Trong số các công cụ xử lý TV, có thể kể đến nhóm các công cụ sau:
• Công cụ tách đoạn văn bản TV
Trang 3ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 51
+ VnTokenizer là công cụ viết bằng Java dựa trên kĩ
thuật so khớp tối đa, kết hợp sử dụng biểu thức chính quy
Độ chính xác trung bình hệ thống đạt được là gần 94%[9]
+ PVnSeg là công cụ viết bằng Perl, cũng sử dụng kĩ
thuật so khớp tối đa và các biểu thức chính quy tương tự
như vnTokenizer Điểm khác là hệ thống này sử dụng thuật
toán quay lui để tăng hiệu quả Chương trình không xử lí
nhập nhằng mà chỉ chọn phương án ngẫu nhiên Độ chính
xác trung bình hệ thống đạt được là gần 97%[9]
+ JVnSegmenter là công cụ viết bằng Java, sử dụng
cách tiếp cận khác: mô hình hoá bài toán tách từ thành bài
toán gán nhãn, trong đó mỗi âm tiết sẽ được gán một trong
ba nhãn (BW - bắt đầu từ, IW – trong từ, và O - loại khác),
sau đó sử dụng một phương pháp học máy để thực hiện
nhiệm vụ gán nhãn Độ chính xác trung bình hệ thống đạt
được khi thực hiện phương pháp đánh giá chéo trên tập dữ
liệu tách từ mẫu nhỉnh hơn 95% [9], [5], [6]
Hình 1 Cấu trúc các thành phần của JvnTagger
• Công cụ phân loại từ TV
Phân loại từ nhằm xác định từ loại cho các từ trong văn
bản Phần mềm JvnTagger cho phép gán nhãn từ loại TV
được xây dựng dựa trên các phương pháp học máy thống
kê MaxEnt, CRFs và được viết bằng Java
• Công cụ phân tích cú pháp TV
Phân tích cú pháp nhằm giúp cho máy tính xác định được
các thành phần của câu, từ đó máy tính có thể hiểu văn bản
được đưa vào Phần mềm phân tích cú pháp TV BKParser
sử dụng văn phạm HPSG (Head-Driven Phrase Structure
Grammar, Pollard and Sag, 1994) Phần mềm BKParser
dưới dạng mã nguồn mở để người dùng có thể xây dựng ứng
dụng hay tích hợp ứng dụng trên đó dễ dàng [5]
Ngoài các nhóm tài nguyên xử lý TV và DTTS nêu trên,
còn có một số nguồn tài nguyên đang được phát triển hoặc
trong giai đoạn thử nghiệm gồm:
• Kho ngữ vựng đa ngữ Việt – Ê đê gán nhãn theo ngữ
cảnh, kho ngữ liệu đa ngữ Việt - Ê đê với phông chữ Unicode
có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách gán nhãn
theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục về
chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ, v.v…
cho đồng bào các dân tộc thiểu số Việt Nam [10]
• Kho ngữ liệu song ngữ Việt – Ê đê trong xử lý tiếng
Ê đê [14]
• Từ điển điện tử phương ngữ Jrai – Việt của Trung tâm
CNTT Sở Thông tin và Truyền thông Gia Lai và Công ty
TNHH Công nghệ thông tin Tuổi trẻ Lạc Việt xây dựng
Từ điển này cho phép chúng ta tra nghĩa theo từ
• Hệ thống dịch tự động Jrai – Việt và Việt – Jrai Hệ
thống này được xây dựng bằng phương pháp dịch máy dựa trên xác suất thống kê [9]
• Công cụ tách từ tự động trong tiếng Jrai Công cụ này làm tiền đề để tiếp tục nghiên cứu và xây dựng các hệ thống xử lý tiếng Jrai như dịch thuật tự động, tìm kiếm thông tin [8]
• Kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu [13]
3 Ý tưởng và giải pháp xây dựng môi trường quản lý tập trung tài nguyên xử lý TV và TDTTS
Như trình bày ở trên, nguồn tài nguyên xử lý TV và TDTTS đã được quan tâm xây dựng và phát triển Nhiều tài liệu khoa học đã được công bố, nhiều nguồn dữ liệu đã được xây dựng cũng như nhiều loại công cụ, sản phẩm về xử lý TV và TDTTS đã được phát triển Vấn đề là việc khai thác các nguồn tài nguyên này chưa thật sự hiệu quả, bởi lẽ chúng đang được lưu trữ và quản lý một cách phân tán cùng với sự đa dạng về cấu trúc, định dạng của chúng Do đó, để có thể khai thác hiệu quả hơn nữa các nguồn tài nguyên này, ý tưởng và giải pháp trước hết là tập hợp các nguồn tài nguyên này để xây dựng một môi trường quản lý và truy cập tập trung, sau đó tiến hành hợp nhất để cho phép việc quản lý và truy cập chúng theo cùng một cách thức đồng nhất và hiệu quả Để xây dựng được môi trường như vậy, chúng ta cần xây dựng 3 giải pháp cụ thể như sau:
• Trước hết, đối với nguồn tài nguyên là các tài liệu khoa học về lĩnh vực xử lý TV và TDTTS: Giải pháp cụ thể đối với loại tài nguyên này là tìm kiếm, tập hợp và xây dựng hệ thống quản lý tập trung các tài liệu khoa học về lĩnh vực này Trong đó, cần phải tổ chức, phân loại tài liệu theo từng chủ đề, lĩnh vực hẹp cũng như cung cấp các chức năng hiệu quả nhằm hỗ trợ một cách thuận lợi cho người dùng khai thác và nghiên cứu tài liệu Cụ thể, cần xây dựng giải pháp tổ chức dữ liệu một cách thông minh, phân loại cũng như nhóm các tài liệu theo lĩnh vực hẹp, chủ đề, tác giả…, cần nghiên cứu trích rút đặc trưng từ các tài liệu để tổ chức dữ liệu theo hướng ngữ nghĩa, cần cung cấp các chức năng tìm kiếm thông minh, cũng như các chức năng tóm tắt văn bản, thống kê… Giải pháp này được được thể hiện qua mô hình dưới đây:
Hình 2 Mô hình tìm kiếm, tập hợp và xây dựng hệ thống quản
lý tập trung các tài liệu khoa học
+ Bước 1: Nhận diện website xử lý TV và TDTTS Từ các website trên Internet, ta sử dụng PHPCrawl (là một thư viện phát triển cho việc crawling/spidering websites viết bằng ngôn ngữ PHP) để lấy dữ liệu tự động website, tiến hành nhận diện website và tài liệu cần tập hợp Thư viện này được cung cấp tại địa chỉ: http://phpcrawl.cuab.de/ Bước này ta có thể hình dung như là đang xây dựng một con robot
Dịch vụ
Dữ liệu
Trang 452 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân
có thể tự động dò tìm trong vô số website thông qua từ khóa
trong metadata của trang web nếu có, sau đó nhận dạng đâu
là website xử lý TV và TDTTS
(a) Lấy URL đầu vào do người dùng nhập kèm theo
thông tin về độ sâụ Độ sâu cho phép xác định số lần tìm
kiếm và xử lý các URL trong mã nguồn của trang web lấy
được, tính từ URL gốc
(b) Từ URL đã có, lấy mã nguồn HTML của trang web
tương ứng
(c) Tìm các URL trong mã nguồn HTML vừa tìm được
(d) Chọn và lưu trữ các URL có chứa từ khóa hoặc file
định dạng cần tìm
+ Bước 2: Nhận diện tài nguyên và trích xuất tài
nguyên Xử lý mỗi URL ở Bước 1 tìm được Mỗi URL
trong HTML đều chứa trong thẻ liên kết với cú pháp:
<a href=”URL” các_thuộc_tính_khác=”giá_trị”>
Nội dung hiển thị</a>
Có nhiều giải pháp để lấy được tất cả URL trong mã
nguồn trang web:
Sử dụng biểu thức chính quy (regular expression) để
quét tất cả các đoạn văn bản có cú pháp như vừa nêu, chẳng
hạn biểu thức chính quy có dạng sau:
<ẳ:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>
Biểu thức này sẽ lấy được các liên kết URL nằm trong thẻ <a>
Sử dụng thư viện yii- Gtreetable và dùng Json để truy vấn
yii-Gtreetable là một thư viện hỗ trợ phân tích cú pháp HTML
dựa trên việc xây dựng bộ đọc/ghi thông tin cây DOM Thư
viện được cung cấp tại địa
https://github.com/gilek/yii-gtreetablẹ Các URL sẽ được lấy thông qua phương thức:
$crawler->setURL($model->link) Yêu cầu tài nguyên là các
file có thể download được như là: *.rar, *.zip, *.pdf, *.doc, …
Các file này được chứa đựng trong thẻ <a
href="http://domain.com/ /filẹextension"></a> với thuộc
tính "href" Vì vậy, có thể lấy được nội dung file trong thuộc
tính "href"
+ Bước 3: Hiển thị
Xây dựng giao diện tìm kiếm và cung cấp thông tin
Người dùng sử dụng hệ thống để tra cứu, tìm kiếm tài liệu
đã được tổng hợp theo từng chủ đề, và có thể trao đổi, bình
luận về các tài liệu quan tâm
• Thứ hai, đối với nguồn tài nguyên là dữ liệu phục vụ
xử lý TV và TDTTS: Giải pháp cụ thể đối với loại tài
nguyên này là tập hợp và tìm cách hợp nhất chúng để tạo
nên các nguồn dữ liệu lớn hơn Cụ thể, các kho ngữ liệu,
các cơ sở dữ liệu từ điển sẽ có định dạng, cấu trúc và cặp
ngôn ngữ khác nhaụ Do đó, để cho phép việc khai thác và
sử dụng các nguồn tài nguyên này một cách hiệu quả, giải
pháp cần thiết là hợp nhất chúng lại với nhau, có nghĩa là
tìm cách trộn, liên kết các nguồn dữ liệu này lại với nhau
để tạo thành một nguồn dữ liệu đa ngữ, đồng nhất về mặt
định dạng và cấu trúc Một cách cụ thể, cần phải nghiên
cứu định dạng và cấu trúc của mỗi loại tài nguyên này, tìm
ra được những đặc điểm chung và riêng, để từ đó đề xuất
một cấu trúc và định dạng chuẩn Sau khi có được cấu trúc
và định dạng chuẩn thì việc xây dựng một nguồn tài nguyên
đồng nhất từ việc tập hợp và chuyển đổi các nguồn tài
nguyên đang tồn tại rất dễ dàng và thuận lợị
• Thứ ba, đối với nguồn tài nguyên là các công cụ và sản phẩm xử lý TV và DTTS: Một thực trạng đối với loại tài nguyên này là chúng được xây dựng và phát triển ở các dạng khác nhau như các ứng dụng độc lập, ứng dụng web, các đoạn script Vấn đề gặp phải đối với người dùng là cần phải cài đặt và tìm hiểu chúng một cách kỹ lưỡng trước khi có thể sử dụng được Do đó, để có thể cho phép sử dụng và khai thác loại tài nguyên này hiệu quả hơn, ý tưởng và giải pháp là cần xây dựng một hệ thống hoạt động theo kiến trúc hướng dịch vụ (SOA), trong đó sao cho việc truy xuất và khai thác các công cụ xử lý TV và TDTTS dễ dàng và trong suốt với người sử dụng Thật vậy, ý tưởng và giải pháp này xuất phát từ mô hình điện toán đám mây hiện nay, trong đó thay vì người dùng phải cài đặt phần mềm để sử dụng thì có thể sử dụng phần mềm như là dịch vụ thông qua môi trường internet
4 Xây dựng môi trường quản lý, truy cập tập trung tài nguyên xử lý TV và TDTTS
Từ giải pháp đã đề xuất ở phần trên, chúng tôi đã tiến hành xây dựng một môi trường quản lý và tập trung tài nguyên xử lý TV và TDTTS tập trung Hệ thống được xây dựng trên nền tảng web, dưới dạng một môi trường cộng tác, không những cho phép người dùng truy xuất và khai thác tài nguyên mà còn cho phép người dùng đóng góp và chia sẽ tài nguyên
Để có thể hiện thực được cả 3 giải pháp cụ thể đã nêu ở phần trên là một quá trình rất dài hơi, do đó chúng tôi đã chọn chiến lược hiện thực theo từng giải pháp một Ở giai đoạn này, chúng tôi đã hiện thực phần lớn giải pháp đối với nguồn tài nguyên là tài liệu khoa học và dữ liệụ
Đối với tài nguyên là tài liệu khoa học, hệ thống được xây dựng bởi ngôn ngữ PHP và hệ quản trị cơ sở dữ liệu SQL Server 2008 Chức năng trích rút tài liệu là chức năng quan trọng của hệ thống Chức năng này cho phép dò tìm các tài liệu về xử lý TV và TDTTS của một trang web cho trước với từ khóa đã được định nghĩạ Sau khi dò tìm, kết quả của việc trích rút sẽ hiển thị các file *.rar, *.zip, *.doc,
*.pdf … trong gridview như Hình 2 Ngoài ra, hệ thống còn cho phép người dùng tìm kiếm, và download các tài liệu đã được phân loại theo từng chủ đề Đồng thời, người dùng có thể upload tài liệu lên hệ thống, làm cho nguồn tài nguyên của hệ thống phong phú và đa dạng hơn
Hình 3 Kết quả của việc trích rút tài liệu
Đối với nguồn tài nguyên là dữ liệu, hệ thống của chúng tôi đã cho phép tập hợp và hợp nhất được một số loại kho ngữ liệu cũng như cung cấp được một số chức năng xử lý
Trang 5ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 53
ngôn ngữ tự nhiên nói chung, xử lý TV và TDTTS nói riêng
và được truy xuất dưới dạng dịch vụ web
Dưới đây là một số kết quả của môi trường quản lý, truy
cập tập trung tài xử lý nguyên ngôn ngữ tự nhiên nói chung
và xử lý TV và TDTTS nói riêng
Hình 4 Chức năng nạp và hợp nhất kho ngữ liệu
Hình trên là chức năng cho phép nạp và hợp nhất các kho
ngữ liệu để tạo thành một nguồn dữ liệu đa ngữ, lớn hơn
Hình 5 Nhóm các chức năng được truy xuất dưới dạng
dịch vụ web
Bên cạnh chức năng hợp nhất nguồn tài nguyên là các kho
ngữ liệu, chúng tôi cũng đã tiến hành tích hợp nhiều chức năng
xử lý tài nguyên dữ liệu như các chức năng đánh giá, hiển thị,
chỉnh sửa (post-edit), so sánh dưới dạng dịch vụ web
Hình 6 Chức năng gióng hàng
Ngoài ra, chúng tôi cũng đã tích hợp chức năng gióng
hàng văn bản vào hệ thống
5 Kết luận
Xử lý TV và TDTTS là một lĩnh vực nghiên cứu rất được
quan tâm và rất cấp bách đối với Việt Nam Vấn đề đặt ra là
làm thế nào để tạo điều kiện thuận lợi cho cộng đồng nghiên
cứu về lĩnh vực này nhằm nâng cao và phát huy hơn nữa hiệu
quả quá trình nghiên cứu Kết quả của bài báo này đã đóng
góp một phần quan trọng nhằm giải quyết vấn đề đặt ra
Đóng góp thứ nhất của bài báo đó là kết quả nghiên cứu tổng
quan về các nguồn tài nguyên gồm tài liệu khoa học, dữ liệu
và công cụ/sản phẩm về xử lý TV và TDTTS Kết quả này sẽ có vai trò quan trọng cho cộng đồng những người nghiên cứu về lĩnh vực này tham khảo và có cái nhìn tổng quát về lĩnh vực này Đóng góp thứ hai của bài báo là đã đề xuất được các giải pháp cụ thể cho vấn đề làm thế nào tập hợp được các nguồn tài nguyên trên để cho phép người dùng truy cập và khai thác một cách thuận lợi và hiệu quả Đóng góp thứ ba của bài báo là đã bước đầu xây dựng được một môi trường, hiện thực được phần lớn giải pháp hợp nhất tài nguyên là dữ liệu cũng như cung cấp một số chức năng xử lý TV và TDTTS dưới dạng dịch vụ web
Để đạt được mục tiêu và giải pháp tổng thể đã đề xuất, trong thời gian đến chúng tôi sẽ tiếp tục nghiên cứu và triển khai các giải pháp về hợp nhất các loại tài nguyên khác như dữ liệu là từ điển cũng như tiếp tục tích hợp nhiều chức năng khác để có được một môi trường quản lý cho phép truy cập tài nguyên xử lý TV và TDTTS hoàn chỉnh, góp phần thúc đẩy việc nghiên cứu và phát triển lĩnh vực xử lý
TV và TDTTS trên máy tính
TÀI LIỆU THAM KHẢO
[1] Adam Kilgarriff, Phuong Le-Hong, “VietnameseWord Sketches”, In
Workshop on Vietnamese Language and Speech Processing
(IEEE-RIVF 9), 2012
[2] PGS TS Lương Chi Mai, Báo cáo tổng hợp nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, 2009 [3] Nguyễn Phương Thái và các cộng sự, Báo cáo kết quả sản phẩm SP 7.3 – Kho ngữ liệu tiếng Việt có chú giải, KC01/01, Dự án VLSP, 2009 [4] TS Nguyễn Thị Minh Huyền, Báo cáo kết quả sản phẩm SP 8.2 – Nghiên cứu xây dựng công cụ phân đoạn từ Việt, KC01/01, Dự án VLSP, 2009 [5] TS Lê Thanh Hương, Báo cáo kết quả sản phẩm SP 8.5 – Nghiên cứu xây dựng công cụ phân tích câu Việt, KC01/01, Dự án VLSP, 2009 [6] Nguyễn Cẩm Tú, Phan Xuân Hiếu, JVnSegmenter: A Java-based Vietnamese Word Segmentation Tool, http://jvnsegmenter.sourceforge.net, 2007 [7] Hồ Tú Bảo, Lương Chi Mai, Về xử lý tiếng Việt trong Công nghệ Thông tin, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ
tiên tiến Nhật Bản
[8] Nguyễn Thanh Tịnh, Huỳnh Công Pháp, “Nghiên cứu và xây dựng
công cụ tách từ tự động trong tiếng Jrai”, Hội thảo Khoa học Quốc gia, Số 5, Từ trang 307-312, 2013
[9] Huỳnh Công Pháp, Đỗ Thị Thuận, “Nghiên cứu và xây dựng hệ
thống dịch tự động Jrai – Việt và Việt - Jrai”, Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, Số 12(61), Từ trang 97-102, 2012
[10] Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Giải pháp xây dựng kho ngữ
liệu đa ngữ Việt – Ê đê gán nhãn theo ngữ cảnh”, Tạp chí Khoa học
và Công nghệ Đại học Đà Nẵng, Số 1(74), Từ trang 38 – 41, 2014 [11] Trương Đình Tú, Xây dựng bộ gõ tiếng dân tộc, Cuộc thi trí tuệ Việt
Nam, 2003
[12] Y Ghi Niê, KS Võ Ngọc Hiệp, ThS Trần Cát Lâm, Phần mềm gõ chữ dân tộc, Sở Khoa học và Công nghệ tỉnh DakLak, 2003 [13] Đỗ Gia Trinh, Xây dựng kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu, Luận văn Thạc sỹ Kỹ thuật, Đà Nẵng, 2013 [14] Phan Thị Thu Nhân, Xây dựng kho ngữ vựng song ngữ Việt – Ê đê trong xử lý tiếng Ê đê, Luận văn Thạc sỹ Kỹ thuật, Đà Nẵng, 2013
[15] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam Kilgarriff, Siva Reddy, “Nghiên cứu từ vựng tiếng Việt với hệ thống
Sketch Engine”, Tạp chí Tin học Và Điều khiển học, Số 3(27), 2011
[16] Võ Trung Hùng, “Phương pháp và công cụ đánh giá tự động các hệ
thống dịch tự động trên mạng”, Tạp chí Khoa học và Công nghệ, Đại
học Đà Nẵng, Số (18), Từ trang 37- 42, 2007
[17] Kho Ngữ liệu quốc tế Anh Quốc, http://ice-corpora.net/ice [18] Kho Ngữ liệu quốc gia Hoa Kỳ, http://www.anc.org
(BBT nhận bài: 04/08/2015, phản biện xong: 19/12/2015)