1. Trang chủ
  2. » Thể loại khác

DSpace at VNU: Mô hình dữ liệu từ vựng của từ điển tin học tiếng địa phương Nghệ-Tĩnh

13 193 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 5,11 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đặc điểm chung của các CSDL từ vựng là nguồn dữ liệu r ấ t lớn, không cùng cách tổ chức và không cùng cách biếu diễn bên trong máy tính.. Trong các phương pháp p h â n tích và thiết kê c

Trang 1

TAP CHÍ KHOA HỌC ĐHQGHN, KHTN & CN T.xx., Số 1, 2004

M Ò H Ỉ N H D Ử L I Ệ U T Ừ V ự N G C Ủ A T Ừ Đ I E N t i n h ọ c

T I Ế N G Đ Ị A P H Ư Ơ N G N G H Ệ - T Ĩ N H

P h a n H uy K h á n h

Đại học Đà N ă n g

1 Vân để cơ s ở d ữ l iê u từ v ự n g v à t i ế n g đia p h ư ơ n g

Trong lĩnh vực nghiên cứu ứng dụng tin học xử lý ngôn ngữ tự nhiên, người ta phải xây dựng và tích luỹ các cơ sở dữ liệu (CSDL) t ừ vựng (lexical database) đê từ đó khai thác nhờ các t ừ điên chuyên dụng khác nhau Đặc điểm chung của các CSDL từ vựng là nguồn dữ liệu r ấ t lớn, không cùng cách tổ chức và không cùng cách biếu diễn bên trong máy tính Việc bảo trì, cập n h ậ t và khai thác thường gặp r ấ t nhiêu khó khăn Một trong nh ững n gu y ê n n h â n là các nguồn dữ liệu t ừ vựng lấy t ừ nhiều nơi, t ừ các từ điên giấy, hoặc t ừ internet, không đồng n h ấ t về cách tổ chức, không hoàn toàn giông

n h a u về nội dung Lấy ví dụ các từ điển tiếng Việt, mỗi tác giả có một cách riêng đê tố chức và diễn giải các mục từ (entry/headword), nhiều khi r ấ t khác n h a u về qu an niệm,

vê th u ậ t ngữ

Đê có được n h ữ n g từ điên phù hợp vói n h u cầu sử dụng khác n h a u trong máy tính, khi ngày nay các dịch vụ mạng, i nt e rn et được phổ cập rộng rãi, cần có giải pháp tổ chức phù hợp cho các nguồn dữ liệu từ vựng Trong các phương pháp p h â n tích và thiết

kê các hệ thô ng t h ô n g tin (cấu trúc, hay hướng đôi tượng), đè có được đối tượng xử lý là các CSDL vật lý, c ầ n xây dựng mô hình ý niệm dữ liệu (data conceptual model), trưốc khi chuyên đôi về một mô hình lôgic dữ liệu (data logical model) Đây là giai đoạn quan trọng mang tính quyết định chất lượng của một hệ thông thông tin Vì vậy cần có một

mô hình ý niệm dữ liệu khi xây dựng một CSDL t ừ vựng

Hiện nay, n h i ề u từ điển đơn ngữ, đa ngữ về tiếng Việt đã được xây dựng, sử dụng dưới nhiều hì nh th ức như cài đặt tại máy, t r a cứu qua m ạ n g [13] Nhờ các phương tiện tin học, có thế dễ dàng sưu tập và tích luỹ nguồn dữ liệu t ừ vựng phong phú này đế

có được nh ữ n g t ừ điên chuyên dụng đê xử lý tiếng Việt, tuy nhiên vẫ n chưa có n hữ ng từ điên tin học về t iế ng địa phương Như [1] đã chỉ ra, nghiên cứu tiếng địa phương (hay phương ngôn, phương ngữ) không nhữ ng giúp ích cho việc c h u ẩ n hóa, dạy-học và làm phong phú tiêng Việt, mà còn giúp thực hiện các công trình nghiên cứu tiêng địa phương Trong bài báo này, c h ú n g tôi đê x u ấ t giải p h á p xây dựng một mô h ì n h ý niệm

dữ liệu để t ừ đó t ạ o nguồn dữ liệu t ừ vựng cho t ừ điên t iế ng địa phương Nghệ-Tĩnh (TĐPNT) có t ê n là Nghê -Tin h Dialectal Dictionary C h ú n g tôi đã chọn mô h ì n h thực thế-kê t hợp (entity-association model) theo phương p h á p p h â n tích cấu trúc Chú ng tôi đã chọn t iê ng đ ị a phương Nghệ-Tĩnh n h ư là ví dụ m ẫ u đ ầ u t iê n m i n h hoạ quá

t r ì n h t h iế t kê hệ t h ô n g t ừ mô h ì n h dữ liệu đã xây dựng Các t i ế n g địa phư ơ ng v iệt

Trang 2

28 P h a n H u y K h á n h

Na m khác n h ư B ì n h - T r ị - T h i ê n - H u ế , xứ Quảng, N a m T r u n g Bộ, N a m Bộ sẽ tiếp tục được đưa vào một CSDL từ vựng lớn hơn cũng t ừ mô h ì n h này Riêng nhữ ng vấ n

đề về p h á t â m theo đ ú n g giọng địa phương chưa được giải q u y ế t t r o n g p h ạ m vi bài báo

2 X ây d ự n g m ô h ì n h d ữ liệ u t ừ v ự n g

2.1 M ô h ì n h ý n i ê m d ữ liê u

Dựa theo cấu t r ú c của một sô" t ừ điển t iếng Việt (8 , 9, 10, 11, 12) và [1], từ điển

t in học T Đ P N T là một t ậ p hợp các mục từ Mỗi mục t ừ được p h i ê n theo cách viết (phục vụ p h á t âm) và có t ừ một đến n hi ều cách giải nghĩa Mỗi cách giải nghĩa tương ứng với một t ừ loại (word-category) và có t ừ một đế n n h i ề u n g h ĩ a phổ thông (popular meaning) Mỗi n g h ĩ a phổ th ô n g có t h ể có ví d ụ : một hoặc n h i ề u cụm từ,

t h à n h ngữ (phrase), câu (sentence) được trích r a t ừ 5 t h ể loại : ca dao, h á t giặm, h á t phường vải, h á t ví và hò-vè Nghệ -Tĩnh Để đơn giản, các mục t ừ đồng âm n hư ng khác cách giải n g h ĩ a tr on g [1] đều chỉ được xem là một mục từ M ặ t khác, mỗi nghĩa phổ thô n g x u ấ t hi ện t r o n g CSDL được quy ước là “duy n h ấ t ” (dãy ký t ự có m ặt một lần) Các t ừ ngữ phổ th ô n g không đư a vào làm mục từ tr o ng t ừ điển

H ìn h 1 Mô hìn h thực t h ể- k ế t hợp cho từ điển tin học TĐPNT.

Mô h ì n h có 5 thực thể: mục t ừ (NT_ENTRY), cách giải nghĩa (EXPLANATION), n g h ĩ a phổ t hôn g (MEANING), cụm t ừ (NT_PHRASE) và câu (NT_SENTENCE) Mỗi thực t h ể có một khóa là thuộc t í n h được i n đậm, ví dụ NT_Entry Các k ế t hợp giữa các thực t h ể đều là p h â n cấp, có h a i cặp b ả n số là (1-n)

và (1-1) C h ẳ n g hạ n , k ế t hợp giữa h a i thực t h ể NT ENTRY và EXPLANATION được hiểu là : mỗi mục t ừ có tối th iể u 1 và có tối đa n > l cách giải nghĩa, mỗi cách giải ngh ĩa chỉ thuộc về 1 và chỉ 1 mục từ Trong h ì n h 1, mỗi th ực t h ể là một h ì n h chữ nhậ t, môi k ế t hợp p h â n cấp là một h ì n h ôvan nối với thực t h ể b ằ n g các đoạn t h ẳ n g ghi bả n sô" (cặp các sô n g u y ê n 0 , 1, n)

Trang 3

Mô h ì n h d ử liêu từ vư n g củ a từ đ iển tin hoc 29

Ví dụ mục t ừ b ư n g (trong [1] có 4 mục t ừ riêng) có bốn cách giải n g h ĩ a dựa theo mô h ì n h ý ni ệm n h ư s a u :

1 b ứ n g là đ ộ n g t ừ , có một ng hĩ a phổ th ô n g là m ư n g (nói về m ụ n n h ọ t ha y vết

th ươn g sư ng to, p h á t sốt) Ví d ụ bưrtg mủ.

2 b ư n g là d a n h t ừ , có một n ghĩ a phổ th ô ng là tấ m c h e

Ví dụ, vè N g h ệ - T l n h :

L ấ y tơi nón che sương

Đ ất là m bưrtg che gió

3 b ứ n g là độ n g t ừ , có một ng hĩ a phổ th ô n g là che lại, bịt lại.

Ví dụ, h á t giặm N g h ệ - T ĩ n h :

G ánh m ột g á n h đ ấ t Vắt được ba tră m cái nồi Đập m ột con đồi

B ư n g được mười cái trống

4 b ư n g là độ n g t ừ , có ha i nghĩa ph ổ thông.

- bê (dùng t a y n â n g h a y bê lên) Ví dụ, h á t giặm N g h ệ - T ĩ n h :

Cỗ bàn rập rin h

B ư n g ra h a i dã y

Ví d ụ khác, h á t giặm N g h ệ - T ĩ n h :

Cỗ n ă m m ột bưng ra

- khiêng Ví dụ h á t giặm N g h ệ - T ĩ n h :

Hòn đ ấ t to bưng m à nỏ nổi 2.2 M ô h ì n h lô g ic h d ừ liệ u

Bưốc tiếp theo, c h u y ển mô h ì n h ý niệm dữ liệu về mô h ì n h lôgic dữ liệu, dạ ng các b ả ng dữ liệu và môi q u a n hệ (liên kết lôgic) giữa c h ú n g (có t h ể biểu diễn bởi lược

đồ các q u a n hệ)

N T_

PHRASE

NT_

VjSENTENCE^

NT_Sentence

NT_G enre EXPLAN ATIO N

H in h 2 Mô hìn h logic dữ liệu cho từ điển tin học TĐPNT.

Trang 4

30 P h a n H u y K h á n h

Cách c h u y ể n đổi được thực hi ện n h ư s a u : mỗi thực t h ể của mô h ì n h ý n i ệ m dữ liệu trở t h à n h một b ả n g dữ liệu có cùng k h óa với thực thể Kết hợp giữa h a i t h ự c th ể trở t h à n h q u a n hệ giữa h a i b ả n g b ằ n g cách đ ặ t t h ê m vào b ả n g “con” (phía b ả n sô' 1- 1) khóa “ngoại” là k h óa của b ả n g “c h a ” (phía b ả n sô" 1-n) C h ẳ n g h ạ n t h ự c thể EXPLANATION t h à n h b ả n g EXPLANATION có khó a ngoại là N T _ E nt r y Mối q u a n

hệ m ộ t - n h i ề u giữa các b ả n g là các đường m ũ i t ê n t r on g h ì n h 2 với quy ước ch iều đi

từ một đến nhiều

Từ đây, dữ liệu t ừ vựng được cập n h ậ t trự c tiếp vào các b ả n g để n h ặ n được các tệp CSDL v ậ t lý ở một t r o n g các d ạ n g q u e n thuộc t r on g Windows, n h ư Access MDB, FoxPro DBF, h a y Excel XLS Để cập n h ậ t dữ liệu được t h u ậ n t iệ n và sử d ụ n g hệ thôn g k h a i t h á c t ừ điển đ ã có ( t h a m k hả o [2, 4, 5, 6, 7]), c h ú n g tôi đã sử d ụ n g m ẫu

v ăn b ả n WinWord (d oc um e n t t e m p l a t e ) để l àm mô h ì n h logic dữ liệu Mô h ì n h biểu diễn CSDL từ vự ng c ủ a t ừ điển t in học T Đ P N T có đ ạ n g tổng q u á t n h ư s a u :

Cấu trúc mâu văn bản Giải thích

N T_P ronciation P h iê n cá c h v iế t củ a m ụ c từ (đ ề p h á t â m )

NT P hrase 1.1.1 Cụm từ 1 ví dụ cho nghĩa P T 1

N T _P hrase_1 1.K Cụm từ thứ K, K> 0, ví dụ cho nghĩa PT 1

N T_G enre_1.1.1 Thể loại ví dụ cho nghĩa PT 1

N T_Sentence_1.1.1 Câu tương ứng với thể loại 1

•«•

N T G enre 1.1 L Thể loại thứ L, L> 0, ví dụ cho nghĩa PT 1

N T_ S e n te n ce _ 1 1 L C â u tương ứng v ớ i thể lo ạ i L

H ìn h 3 Mẫ u văn b ả n WinWord của từ diển tin học TĐPNT.

M ẫ u v ă n b ả n gồm các d ạ n g th ức (style) Mỗi d ạ n g thức t h ể h iệ n c á c h định

d ạ n g (format) một đ o ạ n v ă n b ả n ( p a r a g r a p h ) là cách sử d ụ n g ph ôn g chữ (font) trong đoạn và t h ể thức t r ì n h bà y đoạn H ì n h 4 dưới đây m in h hoạ nội d u n g c ủ a mục từ bưng

Trang 5

Mô h ì n h d ữ liê u từ v ư n g củ a t ừ đ iển tin hoc 31

tấm che

Lấy tơi nón che sương

Gánh một gánh đất Vắt được ba trăm cái nồi Đập một con đồi

Bung được mười cái trống

N TSentence

Cô bùn rập rình

H ìn h 4 Ví dụ mục từ bưng của t ừ điển tin học TĐPNT.

Từ điển t iế n g địa phương N g h ệ - T ĩ n h [1] có t ấ t cả 5901 đơn vị mục t ừ được sắp xếp theo t h ứ tự của 30 chữ cái : A(53), Ả(43), Â ( l l ) , B(528), C(891), D(312), Đ(395), DZ(54), E(12), Ê(7), G(238), H(204), 1(12), K(238), L(416), M(437), N(678), 0(36), 0(29), ơ(3), P ( 66), Q(40), R(273), S(196), T(397), TL(15), U(14), Ư(22), V(168),

X(113) Các con sô" t r on g cặp d ấ u ngoặc đ ứn g sa u mỗi chữ cái là số lượng mục từ

tương ứng

Từ mô h ì n h lôgic dữ liệu, xây d ựn g được một sơ đồ XML ( e x t e n s i b le M a r k u p

L ang ua ge) [3, 8 , 13] b ằ n g cách sử d ụ n g lại t ê n các d ạ n g t hứ c t r o n g m ẫ u v ă n b ả n WinWord t r ê n đây cho các th ẻ (tag) XML

Trang 6

32 P h a n H u y K h á n h

<?xml ve rsio n = "1 0" ?>

<xsl:stylesheet xm ln s:xsl= "http://w w w w3.org/TRAA/D-xsl" xm ln s= "http://w w w w 3.org/TR /R E C -htm l40" result-ns="" />

<!DO CTYPE dictionary SYSTEM "td d p n r>

<dictionary n a m e - ' T D D P N T" source-language="en" target-lang uage="en,vn">

<dictionary>

<NT_Entry> bưng

<N T_P ronciation> /BUVVNG/ </N T_P ronciation>

<E X P L_N um > 1 </E X P L_N um >

<E X P L_C ategory> động từ </E X P L_C ategory>

<M eaning> m ưng (m ụn nhọt hay vết thương sưng to, phát) </M eaning>

<N T_P hrase> bưng mù </N T_Phrase>

<E X P L_N um > 2 </E X P L_N um >

<E X P L_C ategory> danh từ </E X P L_C ategory>

<M eaning> tấm che </M eaning>

<N T_G enre> vè Nghệ Tĩnh : </N T_G enre>

< N T _ S entence> Lấy tơi nón che sương

Đ ắt làm bưng che gió </N T _ S entence>

</NT_Entry>

</dictionary> _

H ìn h 5 Sơ đồ XML tổ chức dữ liệu cho từ điển tin học TĐPNT.

T rong sơ đồ, s a u p h ầ n tiêu đề k h a i báo p h i ên b ả n của XML và một SC) k h a i báo tuỳ chọn khác, là k h a i báo cấu tr ú c của t ừ điển gồm các k h a i báo mục t ừ n ằ m giữa cặp thẻ là <dictionary> và </dictionary> Mỗi mục từ, n ằ m giữa cặp thẻ

<N T_ E nt ry> và </ NT_Entry>, là một tổ hợp các p h ầ n tử XML tươn g ứ n g vối các đoạn của m ẫ u v ă n b ả n biểu diễn cấu t r úc lôgic của t ừ điển t i n học TĐ PN T Ví dụ

p h ầ n t ử <EXP L_C ate go ry> </EXPL_Category>, V V

Từ cách biểu diễn này, ta n h ậ n được các tệp XML có t ê n tệp (filename) chứa

p h ầ n mở rộng là XML Để gọi được t r ì n h d u y ệ t d u y ệ t xem các tệp XML, cần xây dựng tệp đị nh n g h ĩ a kiểu v ă n b ả n DTD (Document Type Definition) và tệp định nghĩ a kiểu t r ì n h b ày c s s (Cascade Style Sheet)

2.3 C h o n bộ m ã t i ế n g V iêt

Dữ liệu của t ừ điển t in học T Đ P N T là tiếng Việt n ê n cần p h ả i chọn một bộ mã

để biểu diễn Cho đế n nay đã có n h i ề u bộ mã tiến g Việt k há c n h a u được xây dựng và được sử d ụ n g q u e n thuộc ở Việt n a m n h ư TCVN3-ABC, Vi etw are , VNI, BK

T PHCM H ầ u h ế t các bộ m ã nà y đề u được xây d ựn g t r ê n bộ mã ÁS C II (1) mở rộng,

sử dụ ng 128 vị t r í s a u bảng, t ừ 129 đến 256, theo phư ơ ng p h á p "dựng sẵn " (mã hoá

cả 134 chữ Việt viết hoa, viết thường, ghép n g u y ê n â m và d ấ u t h a n h ) Vì chưa có một bộ mã t iế n g Việt th ôn g n h ấ t (2) , việc t r a o đổi tìm ki ếm t h ô n g ti n t r o n g máy tính,

t r ê n các t r a n g Web, gặp n h i ề u khó k h ă n và p h i ề n phức Giải p h á p t r u n g gian của

(!) Hầu hết các bộ mã tiếng Việt hiện nay khác nhau về số bai (byte) sử dụng (1 bai hoặc 2 bai), về cách sắp xếp thú tự các dấu thanh, và về cách bố trí các chữ Việt có dấu (dựng sẵn) trong bộ mã

*2) Nhiều chuyên gia đề nghị sử dụng Unicode để thống nhất tất cả các bộ mã tiếng Việt

Trang 7

Mô h ìn h d ừ liêu từ vitng c ủ a từ đ iển tin hoe 33

ch ú n g tôi là sử d ụ n g một bộ mã trục (pivot code) để ch u y ể n đổi qu a lại dễ d à ng giữa các bộ mã Telex được chọn làm mã trục do telex chỉ sử d ụ n g các ký tự ASCII và

q u e n thuộc với n h i ề u người Ví dụ chuyển từ TC VN3-ABC q u a telex và từ telex qua Unicode, v.v Mã telex đã được chọn để biểu diễn dữ liệu từ vựn g tiế ng Việt của từ điển [4, 5]

2.4 N h ả p n g u ồ n d ử liệ u c h o t ừ đ iê n

Nguồn dữ liệu cho t ừ điển tin học T ĐP N T chủ yếu được lấy t ừ [1] C h ú n g tôi

đã sử d ụ n g phươ ng p h á p đ á n h dấ u quy ước cho tro ng b ả n g 6 dưói đâ y để th ao tác cập n h ậ t được dề d à n g và t ă n g được tốc độ n h ậ p dữ liệu cho nguồn:

Dãy kỷ tự Vị trí Kiêu đoạn (style) Ví dụ gõ vào Kêí quà sau khi xử lý

Lấy tơ i n ó n c h e

s ư ơ n g /Đ ấ t là m

b ư n g c h e g ió

Lấy tơi nón che sương Đất làm bưng che gió

H ìn h 6 Bảng đánh dấu quy ưốc n hậ p dữ liệu.

Người sử d ụ n g (NSD) n h ậ p dữ liệu tiến g Việt b ằ n g ph ươ n g p h á p telex t r ê n một tr ìn h soạn t h ả o v ă n b ả n tù y ý, không n h ấ t t h i ế t đ ị n h d ạ n g (nh ư N ot eP ad , hoặc

NC Ed itor ), hoặc n h ậ p trực tiếp t r ê n các t r a n g v ă n b ả n WinWord theo m ẫ u văn

bả n đã xây d ựn g t r ê n đây Kiểu đoạn của mỗi đoạn được xác đị n h bởi đ ặ t t h ê m một dãy ký tự quy ước tươn g ứng cho trong bảng, hoặc ở vị t r í đ ầ u đoạn, hoặc ở cuối đoạn, rồi k ế t th úc bởi p h í m E n t e r (tương đương với ký h i ệ u p a r a g r a p h - m a r k ìl) Giá trị của n = 1, 2 cho bi ết đó là cách giải n g hĩ a t h ứ m ấ y t r o n g mục từ Các từ loại được quy ưốc viết t ắ t n h ư sa u :

d d a n h t ừ p p h ụ từ, h a y tổ hợp p h ụ từ

dg động t ừ k k ế t từ, h ay tổ hợp k ế t từ

t t í n h từ t r trợ từ, h a y tổ hợp trợ từ

d đại từ th t h á n (cảm) từ, h a y tổ hợp t h á n từ

Giá trị k = 1 5 được quy ước lần lượt là ca dao, h á t giặm, h á t phường vải, h á t

ví và h á t vè N g h ệ - T ĩ n h Ký h iệ u / để n g ắ t dòng các c â u tr íc h đ oạ n ví d ụ tương ứng với t h ể loại k, tương đương vối ký hiệu J ( m a n u a l - l i n e - b r e a k ) Các đoạ n ngh ĩa phổ thôn g được gõ bì n h thường, k hô n g cần đ ặ t các ký tự quy ưỏc Cuối cùng, NSD cũng

kh ôn g cần gõ p h ầ n p h i ê n theo cách viết theo kiểu gõ telex vì sẽ được tạo r a một cách

tự động Toàn bộ dữ liệu được lưu trữ trong 21 tệp có tên là chữ cái đầ u của các mục từ trong tệp lần lượt là A, B, c, D, E, G, H, I, K, L, M, N, o , p, Q, R, s, T, u, V và X Như vậy, CSDL nguồn cho từ điển tin học TĐPNT đã được tạo xong gồm các tệp văn bản đán h dấu quy ước ở d ạ ng mã ASCII Ví dụ một đoạn mã tương ứng với mục từ b ư n g :

Trang 8

34 P h a n H u y K h á n h

@ buwng

1

dg

muwng (m ujn nhojt hay veest thuw ow ng suw ng to, phast)

.buwng mur

2

d

taasm che

.4

Laasy towi nosn che suw ow ng/D D aast lafm buwng Che gios

3

dg

che taji, bijt laji

.2

Gasnh m oojt gasnh d d a a s W a w s t dduw ow jc ba traw m casi noofi/D D aajp m oojt con ddoofi/Buw ng dduw ow jc m uwowfi casi troosng

4

dg

dufng tay naang hay bee leen

.2

Coox bafn raajp rifnh/B uw ng ra hai daxy

.2

Coox naw m m oojt buw ng ra

khieeng

.2

Hofn ddaast to buw ng m af nor noori _

H ình 7 Đoạn dữ liệu nguồn đá n h dấu quy ước của mục từ bưng trong mã telex.

Từ các tệp dữ liệu nguồn đ á n h d ấ u quy ưốc, dễ d à n g viết các t h ủ tục b ằ n g Macro VBA để c hu yển c h ú n g s a n g vă n b ả n WinWord DOC/RTF nhờ một t h u ậ t toán tổng q u á t ở h ì n h 8 Nếu nguồn dữ liệu tiếng Việt đã ở d ạ n g mã telex, có t h ể sử dụ n g

t r ì n h ch uyể n mã của ƯniKey, hoậc VietKey, v.v để c h u yể n từ m ã telex t h à n h mã TCVN3-ABC, Unicode, hoặc c h uy ển san g một bộ mã nào đó mong muôn, trước khi chuyển s a n g vă n b ả n WinWord

Thuật toán 1 : C onvert_S rcT ext_ to_W inw ord_D ocum ent

Khởi tạo các biến làm việc trung gian

Xác định các tệp nguồn

Do While Chưa hết tệp nguồn

M ờ một tệp nguồn

Xác định các tham biên tìm kiếm/thay thế

Xác định kiêu đoạn cần thay thế : R e p la ce m e n t.style = N T_Entry

Do W ith Selection.Find

.Text = Dãy ký tự đánh dấu quy ước, chằng hạn “ k \

R eplacem ent.T ext = " "

.Forw ard = True W rap = w dF indC ontin ue Form at = True

S e lection.F in d.E xecute R eplace := wdReplaceAII Loop Until X ử lý hết các dãy ký tự đánh dấu quy ước

Loop ‘ Hết tệp nguồn

Ket thúc

H ìn h 8 T h u ậ t toán chuyển nguồn sang văn bả n WinWord.

Trang 9

Mô h ìn h d ử liêu từ v ư n g c ủ a t ù điên tin hoc 35

Tu y n hi ên , do việc ch uy ển mã không q u á phức t ạ p n ê n c h ú n g tôi đã xây dựng

t h u ậ t t o á n 2 (Convert_TelexCode_to) để giải qu yế t vấ n đề Các bước xử lý tương tự

t h u ậ t t o á n 1, là xây dự n g một vòng lặp tìm kiếm các đoạ n mã telex của mỗi chữ Việt

có dấ u (nguồn) t r o n g tệp v ă n b ả n đ a n g mở để t h a y t h ế bởi mã (đích) tương ứng Đầu tiên là xử lý (tìm k i ế m / th a y thế) các đoạn m ã telex có độ dài 3, c h ẳ n g h ạ n aaf/ầ,

a a r / ẩ , s a u đó xử lý các đoạ n mã telex có độ dài 2, c h ẳ n g h ạ n aa/â, aw/ă Trong trườn g hợp cần tạo n g u ồ n t ừ dữ liệu tiếng Việt kh ôn g ở m ã telex, t h u ậ t toán 3 (Convert_to_TelexCode) thực h iệ n chu yển từ mã hiện h à n h t h à n h m ã telex Có th ể min h hoạ qu á t r ì n h ch u y ển dữ liệu nguồn đ á n h d ấ u quy ước s a n g các tệp vă n b ả n

W i n W o r d t r o n g m ộ t m ã đ í c h n à o đ ó , c h ẳ n g h ạ n TCVN3-ABC, t r o n g t h u ậ t t o á n s a u :

Xác định các tệp nguồn đánh dấu quy ước

If Mã nguồn là telex

Then C onvert_T ele xC ode_to ‘ X ử lý chuyên mã từ telex sang TCVN3-ABC

Else C onvert_to_ T elexC ode ‘ X ừ lý chuyên mã từ TCVN3-ABC sang telex

End If

Xác định lại các tệp nguồn có mã là TCVN3-ABC

C onvert_S rcT ext_ to_W inw ord_D ocum ent

H ìn h 9 T h u ậ t toán chuyển mã.

S a u khi c h u y ể n n g u ồn đ á n h d ấ u quy ước và c h u y ển mã, c h ú n g tôi n h ậ n được CSDL t ừ vựng của t ừ điển tin học T ĐP N T d ư ớ i d ạ n g các tệp v ă n b ả n W i n W o r d DOC/RTF Từ đây có t h ể in ra giấy t h à n h từ điển t r a cứu theo m ẫu in tùy ý, hoặc chuyển san g HTML/XML để sử dụng các trình duyệt [5, 6], hay cài đặ t tr ê n CD-ROM

3 X â y d ự n g t ừ đ i ể n t i n h ọ c T Đ P N T

Cửa sổ l à m việc c h ín h của t ừ điển t i n học T Đ P N T N g h ê - T i n h Dialectal Dictionary gồm 4 vùng V ùn g 1 có t h a n h tiê u đề ở t r ê n cùn g và t h a n h t r ạ n g t h á i ở dưới cù ng của cửa sổ V ù n g 2 gồm các lệnh Hệ Thông, ThaoTác, và TrợGiúp V ù n g 3 gồm các n ú t l ệ n h dễ n h ậ n b iết sử dụng V ù n g 4 để t r a cứu t ừ điển, gồm cột d a n h sách các mục t ừ b ên t r á i và nội d u n g tương ứ n g ở cột bê n phải Hệ t h ô n g t r a cứu từ điển T Đ P N T được p h á t t r i ể n từ mã nguồn mở của hệ t h ô n g k h a i t h á c CSDL từ vựng

đa ngữ [5, 6 , 7] N g uy ê n tắc h o ạ t động của h ệ t h ô n g n h ư s a u : các tệp dữ liệu văn

b ản DOC được c h u y ể n đổi t h à n h R T F trước k h i ch u yể n đổi s a n g CSDL t r u n g gian Access MDB n h ò các l ệ n h c h u y ển ( da t a import) Tiếp theo, hệ t h ô n g đưa k ế t qu ả lên

m àn h ì n h để p h ụ c vụ t r a cứu

Trang 10

36 P h a n H u y K h á n h

- -— „ > — — ■ — i

Ì É H

bức chì

bức ki

bức má

bức vôi

bứi _

bừng

bựng

bươi

bư&i bị

bư&i đường

bười đường đúc

bười Phúc Trạch

bưỡi Tàu

bứt

bữtcò.bỏ ì&m V

bưng

BUWNO

1

động từ

mưng (mụn nhọt hay vết thương sưng to, phát)

b ư n g m ủ

2

danh từ

tấm che

vè Nghệ Tĩnh : Lây tơi nón che sương Đất lảm bưng che gió

3

động từ

Typ* or click from Hal Box NUM 5:23 PM V «r4on1.1

H ìn h 10 Giao diện ch ín h của t ừ điển tin học T Đ P N T

Các t h a o tá c n h ư s a u : k h i sử d ụ n g N g h ê - T i n h D i a l e c t a l D i c ti o n a r y l ầ n đ ầu tiên, hệ t h ô n g đ ư a r a lời nh ắ c NSD c ần đọc CSDL t ừ vự n g (giai đ o ạ n i m p o r t d a t a to dictionary) t ừ các tệp v ă n b ả n WinWord R T F để c h u y ể n t h à n h CSDL t r u n g gian Access MDB B ằ n g cách gọi lệ n h đơn C h u y ể n dữ liệu, chọn m ục việc Tạo CSDL mới, khi đó, lần lượt các tệp v ă n b ả n RT F ng uồ n được c h u y ển t ả i vào t ừ điển N h ữ n g lần chạy chương t r ì n h s a u này, hệ th ô ng mặc n h i ê n sử d ụ n g C S D L t r u n g gi an MDB đã

có sẵn Tu y nh iê n, NSD v ẫ n có t h ể chọn lệ nh bổ s u n g dữ liệ u mối t ừ m ộ t tệp văn

b ả n nguồn RT F hợp lệ (lệnh Kết nối vào CSDL), hoặc mở lại C S D L MDB đ ã có (lệnh

Mở CSDL có sẵ n) t u ỳ th eo yêu cầu H ì n h 11 m i n h họa hộp t h o ạ i c ủ a l ện h HệThỐng-

Ch u yể n dữ liệu

•ỉa Im port Data

N g u Ổn RTF iDATuDienDPNgheTinhSData'Artf

r

Đích MDB

Chọn việc

Mờ CSDL có Bẩn

Kết nối vào CSDL

r l ạ o CSDLmới

):VT.úD«wPNQhéT inrm DĐPN T MDB

C hấp n h ậ n ị

Hủy

H ìn h 11 Hộp t h o ạ i lệnh đơn đọc dữ liệu n g u ồ n vào t ừ điển.

Ngày đăng: 11/12/2017, 12:47

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm