Đặc điểm chung của các CSDL từ vựng là nguồn dữ liệu r ấ t lớn, không cùng cách tổ chức và không cùng cách biếu diễn bên trong máy tính.. Trong các phương pháp p h â n tích và thiết kê c
Trang 1TAP CHÍ KHOA HỌC ĐHQGHN, KHTN & CN T.xx., Số 1, 2004
M Ò H Ỉ N H D Ử L I Ệ U T Ừ V ự N G C Ủ A T Ừ Đ I E N t i n h ọ c
T I Ế N G Đ Ị A P H Ư Ơ N G N G H Ệ - T Ĩ N H
P h a n H uy K h á n h
Đại học Đà N ă n g
1 Vân để cơ s ở d ữ l iê u từ v ự n g v à t i ế n g đia p h ư ơ n g
Trong lĩnh vực nghiên cứu ứng dụng tin học xử lý ngôn ngữ tự nhiên, người ta phải xây dựng và tích luỹ các cơ sở dữ liệu (CSDL) t ừ vựng (lexical database) đê từ đó khai thác nhờ các t ừ điên chuyên dụng khác nhau Đặc điểm chung của các CSDL từ vựng là nguồn dữ liệu r ấ t lớn, không cùng cách tổ chức và không cùng cách biếu diễn bên trong máy tính Việc bảo trì, cập n h ậ t và khai thác thường gặp r ấ t nhiêu khó khăn Một trong nh ững n gu y ê n n h â n là các nguồn dữ liệu t ừ vựng lấy t ừ nhiều nơi, t ừ các từ điên giấy, hoặc t ừ internet, không đồng n h ấ t về cách tổ chức, không hoàn toàn giông
n h a u về nội dung Lấy ví dụ các từ điển tiếng Việt, mỗi tác giả có một cách riêng đê tố chức và diễn giải các mục từ (entry/headword), nhiều khi r ấ t khác n h a u về qu an niệm,
vê th u ậ t ngữ
Đê có được n h ữ n g từ điên phù hợp vói n h u cầu sử dụng khác n h a u trong máy tính, khi ngày nay các dịch vụ mạng, i nt e rn et được phổ cập rộng rãi, cần có giải pháp tổ chức phù hợp cho các nguồn dữ liệu từ vựng Trong các phương pháp p h â n tích và thiết
kê các hệ thô ng t h ô n g tin (cấu trúc, hay hướng đôi tượng), đè có được đối tượng xử lý là các CSDL vật lý, c ầ n xây dựng mô hình ý niệm dữ liệu (data conceptual model), trưốc khi chuyên đôi về một mô hình lôgic dữ liệu (data logical model) Đây là giai đoạn quan trọng mang tính quyết định chất lượng của một hệ thông thông tin Vì vậy cần có một
mô hình ý niệm dữ liệu khi xây dựng một CSDL t ừ vựng
Hiện nay, n h i ề u từ điển đơn ngữ, đa ngữ về tiếng Việt đã được xây dựng, sử dụng dưới nhiều hì nh th ức như cài đặt tại máy, t r a cứu qua m ạ n g [13] Nhờ các phương tiện tin học, có thế dễ dàng sưu tập và tích luỹ nguồn dữ liệu t ừ vựng phong phú này đế
có được nh ữ n g t ừ điên chuyên dụng đê xử lý tiếng Việt, tuy nhiên vẫ n chưa có n hữ ng từ điên tin học về t iế ng địa phương Như [1] đã chỉ ra, nghiên cứu tiếng địa phương (hay phương ngôn, phương ngữ) không nhữ ng giúp ích cho việc c h u ẩ n hóa, dạy-học và làm phong phú tiêng Việt, mà còn giúp thực hiện các công trình nghiên cứu tiêng địa phương Trong bài báo này, c h ú n g tôi đê x u ấ t giải p h á p xây dựng một mô h ì n h ý niệm
dữ liệu để t ừ đó t ạ o nguồn dữ liệu t ừ vựng cho t ừ điên t iế ng địa phương Nghệ-Tĩnh (TĐPNT) có t ê n là Nghê -Tin h Dialectal Dictionary C h ú n g tôi đã chọn mô h ì n h thực thế-kê t hợp (entity-association model) theo phương p h á p p h â n tích cấu trúc Chú ng tôi đã chọn t iê ng đ ị a phương Nghệ-Tĩnh n h ư là ví dụ m ẫ u đ ầ u t iê n m i n h hoạ quá
t r ì n h t h iế t kê hệ t h ô n g t ừ mô h ì n h dữ liệu đã xây dựng Các t i ế n g địa phư ơ ng v iệt
Trang 228 P h a n H u y K h á n h
Na m khác n h ư B ì n h - T r ị - T h i ê n - H u ế , xứ Quảng, N a m T r u n g Bộ, N a m Bộ sẽ tiếp tục được đưa vào một CSDL từ vựng lớn hơn cũng t ừ mô h ì n h này Riêng nhữ ng vấ n
đề về p h á t â m theo đ ú n g giọng địa phương chưa được giải q u y ế t t r o n g p h ạ m vi bài báo
2 X ây d ự n g m ô h ì n h d ữ liệ u t ừ v ự n g
2.1 M ô h ì n h ý n i ê m d ữ liê u
Dựa theo cấu t r ú c của một sô" t ừ điển t iếng Việt (8 , 9, 10, 11, 12) và [1], từ điển
t in học T Đ P N T là một t ậ p hợp các mục từ Mỗi mục t ừ được p h i ê n theo cách viết (phục vụ p h á t âm) và có t ừ một đến n hi ều cách giải nghĩa Mỗi cách giải nghĩa tương ứng với một t ừ loại (word-category) và có t ừ một đế n n h i ề u n g h ĩ a phổ thông (popular meaning) Mỗi n g h ĩ a phổ th ô n g có t h ể có ví d ụ : một hoặc n h i ề u cụm từ,
t h à n h ngữ (phrase), câu (sentence) được trích r a t ừ 5 t h ể loại : ca dao, h á t giặm, h á t phường vải, h á t ví và hò-vè Nghệ -Tĩnh Để đơn giản, các mục t ừ đồng âm n hư ng khác cách giải n g h ĩ a tr on g [1] đều chỉ được xem là một mục từ M ặ t khác, mỗi nghĩa phổ thô n g x u ấ t hi ện t r o n g CSDL được quy ước là “duy n h ấ t ” (dãy ký t ự có m ặt một lần) Các t ừ ngữ phổ th ô n g không đư a vào làm mục từ tr o ng t ừ điển
H ìn h 1 Mô hìn h thực t h ể- k ế t hợp cho từ điển tin học TĐPNT.
Mô h ì n h có 5 thực thể: mục t ừ (NT_ENTRY), cách giải nghĩa (EXPLANATION), n g h ĩ a phổ t hôn g (MEANING), cụm t ừ (NT_PHRASE) và câu (NT_SENTENCE) Mỗi thực t h ể có một khóa là thuộc t í n h được i n đậm, ví dụ NT_Entry Các k ế t hợp giữa các thực t h ể đều là p h â n cấp, có h a i cặp b ả n số là (1-n)
và (1-1) C h ẳ n g hạ n , k ế t hợp giữa h a i thực t h ể NT ENTRY và EXPLANATION được hiểu là : mỗi mục t ừ có tối th iể u 1 và có tối đa n > l cách giải nghĩa, mỗi cách giải ngh ĩa chỉ thuộc về 1 và chỉ 1 mục từ Trong h ì n h 1, mỗi th ực t h ể là một h ì n h chữ nhậ t, môi k ế t hợp p h â n cấp là một h ì n h ôvan nối với thực t h ể b ằ n g các đoạn t h ẳ n g ghi bả n sô" (cặp các sô n g u y ê n 0 , 1, n)
Trang 3Mô h ì n h d ử liêu từ vư n g củ a từ đ iển tin hoc 29
Ví dụ mục t ừ b ư n g (trong [1] có 4 mục t ừ riêng) có bốn cách giải n g h ĩ a dựa theo mô h ì n h ý ni ệm n h ư s a u :
1 b ứ n g là đ ộ n g t ừ , có một ng hĩ a phổ th ô n g là m ư n g (nói về m ụ n n h ọ t ha y vết
th ươn g sư ng to, p h á t sốt) Ví d ụ bưrtg mủ.
2 b ư n g là d a n h t ừ , có một n ghĩ a phổ th ô ng là tấ m c h e
Ví dụ, vè N g h ệ - T l n h :
L ấ y tơi nón che sương
Đ ất là m bưrtg che gió
3 b ứ n g là độ n g t ừ , có một ng hĩ a phổ th ô n g là che lại, bịt lại.
Ví dụ, h á t giặm N g h ệ - T ĩ n h :
G ánh m ột g á n h đ ấ t Vắt được ba tră m cái nồi Đập m ột con đồi
B ư n g được mười cái trống
4 b ư n g là độ n g t ừ , có ha i nghĩa ph ổ thông.
- bê (dùng t a y n â n g h a y bê lên) Ví dụ, h á t giặm N g h ệ - T ĩ n h :
Cỗ bàn rập rin h
B ư n g ra h a i dã y
Ví d ụ khác, h á t giặm N g h ệ - T ĩ n h :
Cỗ n ă m m ột bưng ra
- khiêng Ví dụ h á t giặm N g h ệ - T ĩ n h :
Hòn đ ấ t to bưng m à nỏ nổi 2.2 M ô h ì n h lô g ic h d ừ liệ u
Bưốc tiếp theo, c h u y ển mô h ì n h ý niệm dữ liệu về mô h ì n h lôgic dữ liệu, dạ ng các b ả ng dữ liệu và môi q u a n hệ (liên kết lôgic) giữa c h ú n g (có t h ể biểu diễn bởi lược
đồ các q u a n hệ)
N T_
PHRASE
NT_
VjSENTENCE^
NT_Sentence
NT_G enre EXPLAN ATIO N
H in h 2 Mô hìn h logic dữ liệu cho từ điển tin học TĐPNT.
Trang 430 P h a n H u y K h á n h
Cách c h u y ể n đổi được thực hi ện n h ư s a u : mỗi thực t h ể của mô h ì n h ý n i ệ m dữ liệu trở t h à n h một b ả n g dữ liệu có cùng k h óa với thực thể Kết hợp giữa h a i t h ự c th ể trở t h à n h q u a n hệ giữa h a i b ả n g b ằ n g cách đ ặ t t h ê m vào b ả n g “con” (phía b ả n sô' 1- 1) khóa “ngoại” là k h óa của b ả n g “c h a ” (phía b ả n sô" 1-n) C h ẳ n g h ạ n t h ự c thể EXPLANATION t h à n h b ả n g EXPLANATION có khó a ngoại là N T _ E nt r y Mối q u a n
hệ m ộ t - n h i ề u giữa các b ả n g là các đường m ũ i t ê n t r on g h ì n h 2 với quy ước ch iều đi
từ một đến nhiều
Từ đây, dữ liệu t ừ vựng được cập n h ậ t trự c tiếp vào các b ả n g để n h ặ n được các tệp CSDL v ậ t lý ở một t r o n g các d ạ n g q u e n thuộc t r on g Windows, n h ư Access MDB, FoxPro DBF, h a y Excel XLS Để cập n h ậ t dữ liệu được t h u ậ n t iệ n và sử d ụ n g hệ thôn g k h a i t h á c t ừ điển đ ã có ( t h a m k hả o [2, 4, 5, 6, 7]), c h ú n g tôi đã sử d ụ n g m ẫu
v ăn b ả n WinWord (d oc um e n t t e m p l a t e ) để l àm mô h ì n h logic dữ liệu Mô h ì n h biểu diễn CSDL từ vự ng c ủ a t ừ điển t in học T Đ P N T có đ ạ n g tổng q u á t n h ư s a u :
Cấu trúc mâu văn bản Giải thích
N T_P ronciation P h iê n cá c h v iế t củ a m ụ c từ (đ ề p h á t â m )
NT P hrase 1.1.1 Cụm từ 1 ví dụ cho nghĩa P T 1
N T _P hrase_1 1.K Cụm từ thứ K, K> 0, ví dụ cho nghĩa PT 1
N T_G enre_1.1.1 Thể loại ví dụ cho nghĩa PT 1
N T_Sentence_1.1.1 Câu tương ứng với thể loại 1
•«•
N T G enre 1.1 L Thể loại thứ L, L> 0, ví dụ cho nghĩa PT 1
N T_ S e n te n ce _ 1 1 L C â u tương ứng v ớ i thể lo ạ i L
H ìn h 3 Mẫ u văn b ả n WinWord của từ diển tin học TĐPNT.
M ẫ u v ă n b ả n gồm các d ạ n g th ức (style) Mỗi d ạ n g thức t h ể h iệ n c á c h định
d ạ n g (format) một đ o ạ n v ă n b ả n ( p a r a g r a p h ) là cách sử d ụ n g ph ôn g chữ (font) trong đoạn và t h ể thức t r ì n h bà y đoạn H ì n h 4 dưới đây m in h hoạ nội d u n g c ủ a mục từ bưng
Trang 5Mô h ì n h d ữ liê u từ v ư n g củ a t ừ đ iển tin hoc 31
tấm che
Lấy tơi nón che sương
Gánh một gánh đất Vắt được ba trăm cái nồi Đập một con đồi
Bung được mười cái trống
N TSentence
Cô bùn rập rình
H ìn h 4 Ví dụ mục từ bưng của t ừ điển tin học TĐPNT.
Từ điển t iế n g địa phương N g h ệ - T ĩ n h [1] có t ấ t cả 5901 đơn vị mục t ừ được sắp xếp theo t h ứ tự của 30 chữ cái : A(53), Ả(43), Â ( l l ) , B(528), C(891), D(312), Đ(395), DZ(54), E(12), Ê(7), G(238), H(204), 1(12), K(238), L(416), M(437), N(678), 0(36), 0(29), ơ(3), P ( 66), Q(40), R(273), S(196), T(397), TL(15), U(14), Ư(22), V(168),
X(113) Các con sô" t r on g cặp d ấ u ngoặc đ ứn g sa u mỗi chữ cái là số lượng mục từ
tương ứng
Từ mô h ì n h lôgic dữ liệu, xây d ựn g được một sơ đồ XML ( e x t e n s i b le M a r k u p
L ang ua ge) [3, 8 , 13] b ằ n g cách sử d ụ n g lại t ê n các d ạ n g t hứ c t r o n g m ẫ u v ă n b ả n WinWord t r ê n đây cho các th ẻ (tag) XML
Trang 632 P h a n H u y K h á n h
<?xml ve rsio n = "1 0" ?>
<xsl:stylesheet xm ln s:xsl= "http://w w w w3.org/TRAA/D-xsl" xm ln s= "http://w w w w 3.org/TR /R E C -htm l40" result-ns="" />
<!DO CTYPE dictionary SYSTEM "td d p n r>
<dictionary n a m e - ' T D D P N T" source-language="en" target-lang uage="en,vn">
<dictionary>
<NT_Entry> bưng
<N T_P ronciation> /BUVVNG/ </N T_P ronciation>
<E X P L_N um > 1 </E X P L_N um >
<E X P L_C ategory> động từ </E X P L_C ategory>
<M eaning> m ưng (m ụn nhọt hay vết thương sưng to, phát) </M eaning>
<N T_P hrase> bưng mù </N T_Phrase>
<E X P L_N um > 2 </E X P L_N um >
<E X P L_C ategory> danh từ </E X P L_C ategory>
<M eaning> tấm che </M eaning>
<N T_G enre> vè Nghệ Tĩnh : </N T_G enre>
< N T _ S entence> Lấy tơi nón che sương
Đ ắt làm bưng che gió </N T _ S entence>
</NT_Entry>
</dictionary> _
H ìn h 5 Sơ đồ XML tổ chức dữ liệu cho từ điển tin học TĐPNT.
T rong sơ đồ, s a u p h ầ n tiêu đề k h a i báo p h i ên b ả n của XML và một SC) k h a i báo tuỳ chọn khác, là k h a i báo cấu tr ú c của t ừ điển gồm các k h a i báo mục t ừ n ằ m giữa cặp thẻ là <dictionary> và </dictionary> Mỗi mục từ, n ằ m giữa cặp thẻ
<N T_ E nt ry> và </ NT_Entry>, là một tổ hợp các p h ầ n tử XML tươn g ứ n g vối các đoạn của m ẫ u v ă n b ả n biểu diễn cấu t r úc lôgic của t ừ điển t i n học TĐ PN T Ví dụ
p h ầ n t ử <EXP L_C ate go ry> </EXPL_Category>, V V
Từ cách biểu diễn này, ta n h ậ n được các tệp XML có t ê n tệp (filename) chứa
p h ầ n mở rộng là XML Để gọi được t r ì n h d u y ệ t d u y ệ t xem các tệp XML, cần xây dựng tệp đị nh n g h ĩ a kiểu v ă n b ả n DTD (Document Type Definition) và tệp định nghĩ a kiểu t r ì n h b ày c s s (Cascade Style Sheet)
2.3 C h o n bộ m ã t i ế n g V iêt
Dữ liệu của t ừ điển t in học T Đ P N T là tiếng Việt n ê n cần p h ả i chọn một bộ mã
để biểu diễn Cho đế n nay đã có n h i ề u bộ mã tiến g Việt k há c n h a u được xây dựng và được sử d ụ n g q u e n thuộc ở Việt n a m n h ư TCVN3-ABC, Vi etw are , VNI, BK
T PHCM H ầ u h ế t các bộ m ã nà y đề u được xây d ựn g t r ê n bộ mã ÁS C II (1) mở rộng,
sử dụ ng 128 vị t r í s a u bảng, t ừ 129 đến 256, theo phư ơ ng p h á p "dựng sẵn " (mã hoá
cả 134 chữ Việt viết hoa, viết thường, ghép n g u y ê n â m và d ấ u t h a n h ) Vì chưa có một bộ mã t iế n g Việt th ôn g n h ấ t (2) , việc t r a o đổi tìm ki ếm t h ô n g ti n t r o n g máy tính,
t r ê n các t r a n g Web, gặp n h i ề u khó k h ă n và p h i ề n phức Giải p h á p t r u n g gian của
(!) Hầu hết các bộ mã tiếng Việt hiện nay khác nhau về số bai (byte) sử dụng (1 bai hoặc 2 bai), về cách sắp xếp thú tự các dấu thanh, và về cách bố trí các chữ Việt có dấu (dựng sẵn) trong bộ mã
*2) Nhiều chuyên gia đề nghị sử dụng Unicode để thống nhất tất cả các bộ mã tiếng Việt
Trang 7Mô h ìn h d ừ liêu từ vitng c ủ a từ đ iển tin hoe 33
ch ú n g tôi là sử d ụ n g một bộ mã trục (pivot code) để ch u y ể n đổi qu a lại dễ d à ng giữa các bộ mã Telex được chọn làm mã trục do telex chỉ sử d ụ n g các ký tự ASCII và
q u e n thuộc với n h i ề u người Ví dụ chuyển từ TC VN3-ABC q u a telex và từ telex qua Unicode, v.v Mã telex đã được chọn để biểu diễn dữ liệu từ vựn g tiế ng Việt của từ điển [4, 5]
2.4 N h ả p n g u ồ n d ử liệ u c h o t ừ đ iê n
Nguồn dữ liệu cho t ừ điển tin học T ĐP N T chủ yếu được lấy t ừ [1] C h ú n g tôi
đã sử d ụ n g phươ ng p h á p đ á n h dấ u quy ước cho tro ng b ả n g 6 dưói đâ y để th ao tác cập n h ậ t được dề d à n g và t ă n g được tốc độ n h ậ p dữ liệu cho nguồn:
Dãy kỷ tự Vị trí Kiêu đoạn (style) Ví dụ gõ vào Kêí quà sau khi xử lý
Lấy tơ i n ó n c h e
s ư ơ n g /Đ ấ t là m
b ư n g c h e g ió
Lấy tơi nón che sương Đất làm bưng che gió
H ìn h 6 Bảng đánh dấu quy ưốc n hậ p dữ liệu.
Người sử d ụ n g (NSD) n h ậ p dữ liệu tiến g Việt b ằ n g ph ươ n g p h á p telex t r ê n một tr ìn h soạn t h ả o v ă n b ả n tù y ý, không n h ấ t t h i ế t đ ị n h d ạ n g (nh ư N ot eP ad , hoặc
NC Ed itor ), hoặc n h ậ p trực tiếp t r ê n các t r a n g v ă n b ả n WinWord theo m ẫ u văn
bả n đã xây d ựn g t r ê n đây Kiểu đoạn của mỗi đoạn được xác đị n h bởi đ ặ t t h ê m một dãy ký tự quy ước tươn g ứng cho trong bảng, hoặc ở vị t r í đ ầ u đoạn, hoặc ở cuối đoạn, rồi k ế t th úc bởi p h í m E n t e r (tương đương với ký h i ệ u p a r a g r a p h - m a r k ìl) Giá trị của n = 1, 2 cho bi ết đó là cách giải n g hĩ a t h ứ m ấ y t r o n g mục từ Các từ loại được quy ưốc viết t ắ t n h ư sa u :
d d a n h t ừ p p h ụ từ, h a y tổ hợp p h ụ từ
dg động t ừ k k ế t từ, h ay tổ hợp k ế t từ
t t í n h từ t r trợ từ, h a y tổ hợp trợ từ
d đại từ th t h á n (cảm) từ, h a y tổ hợp t h á n từ
Giá trị k = 1 5 được quy ước lần lượt là ca dao, h á t giặm, h á t phường vải, h á t
ví và h á t vè N g h ệ - T ĩ n h Ký h iệ u / để n g ắ t dòng các c â u tr íc h đ oạ n ví d ụ tương ứng với t h ể loại k, tương đương vối ký hiệu J ( m a n u a l - l i n e - b r e a k ) Các đoạ n ngh ĩa phổ thôn g được gõ bì n h thường, k hô n g cần đ ặ t các ký tự quy ưỏc Cuối cùng, NSD cũng
kh ôn g cần gõ p h ầ n p h i ê n theo cách viết theo kiểu gõ telex vì sẽ được tạo r a một cách
tự động Toàn bộ dữ liệu được lưu trữ trong 21 tệp có tên là chữ cái đầ u của các mục từ trong tệp lần lượt là A, B, c, D, E, G, H, I, K, L, M, N, o , p, Q, R, s, T, u, V và X Như vậy, CSDL nguồn cho từ điển tin học TĐPNT đã được tạo xong gồm các tệp văn bản đán h dấu quy ước ở d ạ ng mã ASCII Ví dụ một đoạn mã tương ứng với mục từ b ư n g :
Trang 834 P h a n H u y K h á n h
@ buwng
1
dg
muwng (m ujn nhojt hay veest thuw ow ng suw ng to, phast)
.buwng mur
2
d
taasm che
.4
Laasy towi nosn che suw ow ng/D D aast lafm buwng Che gios
3
dg
che taji, bijt laji
.2
Gasnh m oojt gasnh d d a a s W a w s t dduw ow jc ba traw m casi noofi/D D aajp m oojt con ddoofi/Buw ng dduw ow jc m uwowfi casi troosng
4
dg
dufng tay naang hay bee leen
.2
Coox bafn raajp rifnh/B uw ng ra hai daxy
.2
Coox naw m m oojt buw ng ra
khieeng
.2
Hofn ddaast to buw ng m af nor noori _
H ình 7 Đoạn dữ liệu nguồn đá n h dấu quy ước của mục từ bưng trong mã telex.
Từ các tệp dữ liệu nguồn đ á n h d ấ u quy ưốc, dễ d à n g viết các t h ủ tục b ằ n g Macro VBA để c hu yển c h ú n g s a n g vă n b ả n WinWord DOC/RTF nhờ một t h u ậ t toán tổng q u á t ở h ì n h 8 Nếu nguồn dữ liệu tiếng Việt đã ở d ạ n g mã telex, có t h ể sử dụ n g
t r ì n h ch uyể n mã của ƯniKey, hoậc VietKey, v.v để c h u yể n từ m ã telex t h à n h mã TCVN3-ABC, Unicode, hoặc c h uy ển san g một bộ mã nào đó mong muôn, trước khi chuyển s a n g vă n b ả n WinWord
Thuật toán 1 : C onvert_S rcT ext_ to_W inw ord_D ocum ent
Khởi tạo các biến làm việc trung gian
Xác định các tệp nguồn
Do While Chưa hết tệp nguồn
M ờ một tệp nguồn
Xác định các tham biên tìm kiếm/thay thế
Xác định kiêu đoạn cần thay thế : R e p la ce m e n t.style = N T_Entry
Do W ith Selection.Find
.Text = Dãy ký tự đánh dấu quy ước, chằng hạn “ k \
R eplacem ent.T ext = " "
.Forw ard = True W rap = w dF indC ontin ue Form at = True
S e lection.F in d.E xecute R eplace := wdReplaceAII Loop Until X ử lý hết các dãy ký tự đánh dấu quy ước
Loop ‘ Hết tệp nguồn
Ket thúc
H ìn h 8 T h u ậ t toán chuyển nguồn sang văn bả n WinWord.
Trang 9Mô h ìn h d ử liêu từ v ư n g c ủ a t ù điên tin hoc 35
Tu y n hi ên , do việc ch uy ển mã không q u á phức t ạ p n ê n c h ú n g tôi đã xây dựng
t h u ậ t t o á n 2 (Convert_TelexCode_to) để giải qu yế t vấ n đề Các bước xử lý tương tự
t h u ậ t t o á n 1, là xây dự n g một vòng lặp tìm kiếm các đoạ n mã telex của mỗi chữ Việt
có dấ u (nguồn) t r o n g tệp v ă n b ả n đ a n g mở để t h a y t h ế bởi mã (đích) tương ứng Đầu tiên là xử lý (tìm k i ế m / th a y thế) các đoạn m ã telex có độ dài 3, c h ẳ n g h ạ n aaf/ầ,
a a r / ẩ , s a u đó xử lý các đoạ n mã telex có độ dài 2, c h ẳ n g h ạ n aa/â, aw/ă Trong trườn g hợp cần tạo n g u ồ n t ừ dữ liệu tiếng Việt kh ôn g ở m ã telex, t h u ậ t toán 3 (Convert_to_TelexCode) thực h iệ n chu yển từ mã hiện h à n h t h à n h m ã telex Có th ể min h hoạ qu á t r ì n h ch u y ển dữ liệu nguồn đ á n h d ấ u quy ước s a n g các tệp vă n b ả n
W i n W o r d t r o n g m ộ t m ã đ í c h n à o đ ó , c h ẳ n g h ạ n TCVN3-ABC, t r o n g t h u ậ t t o á n s a u :
Xác định các tệp nguồn đánh dấu quy ước
If Mã nguồn là telex
Then C onvert_T ele xC ode_to ‘ X ử lý chuyên mã từ telex sang TCVN3-ABC
Else C onvert_to_ T elexC ode ‘ X ừ lý chuyên mã từ TCVN3-ABC sang telex
End If
Xác định lại các tệp nguồn có mã là TCVN3-ABC
C onvert_S rcT ext_ to_W inw ord_D ocum ent
H ìn h 9 T h u ậ t toán chuyển mã.
S a u khi c h u y ể n n g u ồn đ á n h d ấ u quy ước và c h u y ển mã, c h ú n g tôi n h ậ n được CSDL t ừ vựng của t ừ điển tin học T ĐP N T d ư ớ i d ạ n g các tệp v ă n b ả n W i n W o r d DOC/RTF Từ đây có t h ể in ra giấy t h à n h từ điển t r a cứu theo m ẫu in tùy ý, hoặc chuyển san g HTML/XML để sử dụng các trình duyệt [5, 6], hay cài đặ t tr ê n CD-ROM
3 X â y d ự n g t ừ đ i ể n t i n h ọ c T Đ P N T
Cửa sổ l à m việc c h ín h của t ừ điển t i n học T Đ P N T N g h ê - T i n h Dialectal Dictionary gồm 4 vùng V ùn g 1 có t h a n h tiê u đề ở t r ê n cùn g và t h a n h t r ạ n g t h á i ở dưới cù ng của cửa sổ V ù n g 2 gồm các lệnh Hệ Thông, ThaoTác, và TrợGiúp V ù n g 3 gồm các n ú t l ệ n h dễ n h ậ n b iết sử dụng V ù n g 4 để t r a cứu t ừ điển, gồm cột d a n h sách các mục t ừ b ên t r á i và nội d u n g tương ứ n g ở cột bê n phải Hệ t h ô n g t r a cứu từ điển T Đ P N T được p h á t t r i ể n từ mã nguồn mở của hệ t h ô n g k h a i t h á c CSDL từ vựng
đa ngữ [5, 6 , 7] N g uy ê n tắc h o ạ t động của h ệ t h ô n g n h ư s a u : các tệp dữ liệu văn
b ản DOC được c h u y ể n đổi t h à n h R T F trước k h i ch u yể n đổi s a n g CSDL t r u n g gian Access MDB n h ò các l ệ n h c h u y ển ( da t a import) Tiếp theo, hệ t h ô n g đưa k ế t qu ả lên
m àn h ì n h để p h ụ c vụ t r a cứu
Trang 1036 P h a n H u y K h á n h
- -— „ > — — ■ — i
Ì É H
bức chì
bức ki
bức má
bức vôi
bứi _
bừng
bựng
bươi
bư&i bị
bư&i đường
bười đường đúc
bười Phúc Trạch
bưỡi Tàu
bứt
bữtcò.bỏ ì&m V
bưng
BUWNO
1
động từ
mưng (mụn nhọt hay vết thương sưng to, phát)
b ư n g m ủ
2
danh từ
tấm che
vè Nghệ Tĩnh : Lây tơi nón che sương Đất lảm bưng che gió
3
động từ
Typ* or click from Hal Box NUM 5:23 PM V «r4on1.1
H ìn h 10 Giao diện ch ín h của t ừ điển tin học T Đ P N T
Các t h a o tá c n h ư s a u : k h i sử d ụ n g N g h ê - T i n h D i a l e c t a l D i c ti o n a r y l ầ n đ ầu tiên, hệ t h ô n g đ ư a r a lời nh ắ c NSD c ần đọc CSDL t ừ vự n g (giai đ o ạ n i m p o r t d a t a to dictionary) t ừ các tệp v ă n b ả n WinWord R T F để c h u y ể n t h à n h CSDL t r u n g gian Access MDB B ằ n g cách gọi lệ n h đơn C h u y ể n dữ liệu, chọn m ục việc Tạo CSDL mới, khi đó, lần lượt các tệp v ă n b ả n RT F ng uồ n được c h u y ển t ả i vào t ừ điển N h ữ n g lần chạy chương t r ì n h s a u này, hệ th ô ng mặc n h i ê n sử d ụ n g C S D L t r u n g gi an MDB đã
có sẵn Tu y nh iê n, NSD v ẫ n có t h ể chọn lệ nh bổ s u n g dữ liệ u mối t ừ m ộ t tệp văn
b ả n nguồn RT F hợp lệ (lệnh Kết nối vào CSDL), hoặc mở lại C S D L MDB đ ã có (lệnh
Mở CSDL có sẵ n) t u ỳ th eo yêu cầu H ì n h 11 m i n h họa hộp t h o ạ i c ủ a l ện h HệThỐng-
Ch u yể n dữ liệu
•ỉa Im port Data
N g u Ổn RTF iDATuDienDPNgheTinhSData'Artf
r
Đích MDB
Chọn việc
Mờ CSDL có Bẩn
Kết nối vào CSDL
r l ạ o CSDLmới
):VT.úD«wPNQhéT inrm DĐPN T MDB
C hấp n h ậ n ị
Hủy
H ìn h 11 Hộp t h o ạ i lệnh đơn đọc dữ liệu n g u ồ n vào t ừ điển.