Thuật toán kiểm lỗi... Đánh giá và thảo luận... Giá hoán vị; không phân biệt gì cả int TransCost char cl, char c2.
Trang 2M ụ c l ụ c
1 B à i to á n k i ể m l ỗ i c h í n h t ả 5
2 G iớ i t h iệ u c á c p h ư ơ n g p h á p k iể m l ỗ i c h í n h t ả 5
3 T iế p c ậ n c ủ a c h ú n g t ô i 7
4 M ộ t s ố p h ư ơ n g p h á p h ọ c m á y t h ố n g k ê t r o n g N L P 8
4 1 H à m p h â n l o ạ i B a y e s " n g â y t h ơ " 9
4 2 D a n h s á c h q u y ế t đ ị n h 9
4 3 N ộ i s u y 1 0 C h ư ơ n g 2 : M ộ t s ố đ ặ c đ i ể m 1 1 1 Đ ặ c đ iể m t i ế n g V i ệ t 11
2 C á c đ ơ n v ị c ủ a t iế n g V i ệ t 11
2 1 T i ế n g 11
2 2 T ừ 7 1 2 2 3 C â u 1 2 3 M ộ t s ố đ ố i tư ợ n g n g ô n n g ữ m à lu ậ n v ã n sẽ k h a i t h á c 1 2 3 1 T i ế n g 13
3 2 T ừ v à từ l o ạ i 13
C h ư ơ n g 3 : C O R P U S 1 4 1 C á c y ê u c ầ u c h í n h c h o c ô n g v iệ c S N L P 1 4 2 X ử l ý v ă n b ả n 15
3 Đ á n h d ấ u d ữ l i ệ u 1 9 4 T ạ o c o r p u s t h ô từ I n t e r n e t 1 9 C h ư ơ n g 4 : K i ể m l ỗ i c h í n h t ả d ự a v à o từ đ i ể n 2 2 1 T ậ p n h ầ m lẫ n â m t i ế t 2 2 1.1 N h ầ m lẫ n d o đ á n h m á y s a i 2 2 1 2 N h ầ m lẫ n d o p h á t â m 2 4 1 3 N h ầ m lẫ n c ủ a c á c h ệ n h ậ n d ạ n g c h ữ 2 6 2 K i ể m l ỗ i c h í n h tả d ự a v à o từ đ i ể n 2 6 2 1 T h u ậ t t o á n 2 7 2 2 Đ á n h g i á 2 7 C h ư ơ n g 5 : K i ể m l ỗ i c h í n h t ả s ử d ụ n g d a n h s á c h q u y ế t đ ị n h 2 9 1 G i ớ i t h i ệ u 2 9 2 C á c t h u ộ c t í n h 2 9 2 1 T ừ g h é p 3 0 2 2 C o l l o c a t i o n 3 0 Chương 1: Giới thiệu 5
3
Trang 32 3 T ừ n g ữ c ả n h
2 4 H u ấ n l u y ệ n
3 T h u ậ t to á n k i ể m l ỗ i
3 1 T h u ậ t to á n k i ể m l ỗ i
3 2 Đ á n h g iá đ ộ p h ứ c t ạ p
4 Đ á n h g i á
4 1 B ộ t e s t
4 2 Đ ộ đ o
4 3 K ế t q u ả v à th ả o l u ậ n
C h ư ơ n g 6 : K i ể m l ỗ i c h í n h t ả s ử d ụ n g h à m p h â n l ớ p B a y e s 4 2 1 G iớ i t h i ệ u
2 T h u ậ t t o á n
3 Đ á n h g iá v à th ả o l u ậ n
K ế t l u ậ n 4 5
T à i l i ệ u t h a m k h ả o 4 6
P h ụ l ụ c 4 9
31
3 2
3 3
3 3
3 4
3 5
3 6
3 8
3 8
,4 2 4 2 4 4
Trang 4n h iề u p h ư ơ n e p h á p k iể m l ỗ i c h í n h tả t iế n g A n h b ằ n g t h ố n g k ê đ ã đ ư ợ c đ ề x u ấ t
N h ữ n g p h ư ơ n g p h á p n à y x e m x é t v ấ n đ ề k iể m l ỗ i c h í n h tả h o ặ c t r ự c t iế p , h o ặ c g iá n
t iế p b ằ n g c á c h q u i n ó v ề b à i to á n x ử l ý n h ậ p n h ằ n g từ v ự n e
5
Trang 6C á c p h ư ơ n g p h á p k iể m l ỗ i c h í n h tả t iế n g V i ệ t d ự a t r ê n lu ậ t đ ư ợ c n g h iê n c ứ u k h á
n h iề u , ở m ứ c â m t iế t , p h ư ơ n g p h á p sử d ụ n g lu ậ t c ấ u tạ o â m t i ế t k ế t h ợ p v ớ i từ đ iể n
á m t iế t c h o k ế t q u ả t ố t n h ấ t ( P h ạ m H ồ n g N g u y ê n , 1 9 9 8 ) Â m t i ế t v à o sẽ đ ư ợ c p h â n
lo ạ i b ằ n g c á c h p h â n t í c h c ấ u tạ o v à tr a từ đ iể n , c á c lo ạ i c ó th ể c ó là : sai cấu tạo ,
đúng cảu tạo nhưng không có trong từ điển , có trong từ điển, sai cấu tạo nhưng có thể là lừ tiếng nước ngoài.
Trang 112.2 T ừ
T ừ là đ ơ n v ị đ ể đ ặ t c â u T ừ t iế n a V i ệ t c ó đ ặ c tr ư n g là đ a â m t iế t X u n g q u a n h v iệ c
x á c đ ịn h t h ế n à o là từ t iế n g V i ệ t c ò n n h iề u tr a n h c ã i T u y n h iê n c ó c á c đ iể m s a u
Trang 18đ c đ i ể m l à v i ế t h a c ữ c á i đ u n ê d n h n b i ết h ơ n s o v i d a h t ừ r i ê n t r o n
c c n e n n g t ư ợ n h ì n h n h t i ế n T r u n Q u c , N h t , v v C h ư ơ n g t r ì nh c ủ a c h ú g
t ô i n h n d ạ g d a h t ừ r i ên d ự a v à h e ur i s t i c s
Vi du:
" s ố l i ệ u t h ố g k ê t ừ Trung tâm Thông tin Thương mại {Bộ Thươììg mại)"
" c u ộc h ọ v ớ i U ỷ ban Kinh t ế và Ngân sách Quốc h ội "
" đ i ề u t r a c ủ a Hiệp hội Thuốc lá VN"
Trang 27B á l ỗ i : bằ g t a y - > bà n t a y
C h n g t ồ i s ẽ t r ì n h b y k t q u t h í n g h i ệ m c o b i ế t đ ộ c í n h x á c ủ p h ư ơ n ph á
n y c ù n g v ớ i c á p h ơ n p h á k h c ở p h n s a u
Trang 3031
Trang 323 Thuật toán kiểm lỗi
Trang 36< s > T r on k h i c á c c n # c n g # & & c n _ ụ & & c ụ t ì m k i ế m đ ợ c c ả i t i ế n r ấ t t ố t t h ì
t r ún # # h n g # & & c ú n & & l ạ i c ò n k h i ế m kh y t đá g k i n h ngạ c : k h n t h ể b ổ s un
t h ê m c ư n t r ì n h t ì m k i ế m và o da h s á c h v ớ i 9 c ư ơ g t r ì n h m ặ n i ê n m à M i c r o s o f t
đ a r a </ S >
< s > M i c r os o f t t h ừa n ậ l à h đả # # đ # # & & đ & & p á v n ữ g n u ê t ắ c t r ô n g
# t r o n 2# & & t r o ne & & v i ệ c đ ặ t g i á ch h ệ đ i ề u h à n h < / S>
Trang 433 Đánh giá và thảo luận
Trang 46[ 2 3 ] W J T e h a , Y i n g i n g W e , R o d g e r M c N a b , I a n H W i t t en 2 0 A
c m p r e s i o n -b a s e al g o r i t h m f or C h i n e s e w o r d e m e t a t i o n C o m p u ta tio n a l Lingu istics, v o l u m e 2 6 , n u m b e r 3
Trang 47[ 3 6 ] ủ y b n k h a h c x ã hộ i V i ệt N a m 1 8 N g ữ p h á t i ế n V i ệ t N h à x ất b ả
K h a h ọ c X ã h ộ i — H à N ộ i , 1 8
Trang 48for ( i =l ; i<=m; i++ ) d istance[i][0] = d ista n c e[i-l][0 ] + D elC ost( s o u r c e [ i- l] );
for ( j = l ; j<=n; j++ ) distance[0][j] = d ista n ce[0 ][j-l] + InsCost( t a r g e t [ j - l] );
for ( i =l ; i<=m; i++ )
f o r ( j =l ; j<=n; j + + ) Ị
49
Trang 49distance[i][j] = 1000;
i f ( d is ta n c e [i][j-l]+ In sC o st( ta r g e t[j-l] ) < d is t a n c e [ i] [ j ] ) / / ch en
d ista n ce[i][j] = d is ta n c e [i][j -l] + ln s C o s t( ta r g e t[j-l] );
i f ( d is ta n c e [i-l] [j- l]+ S u b s tC o s t2 (s o u r c e [i- l], ta r g e t [ j - l] ) < d is t a n c e [ i] [ j ] ) / / thay
d ista n ce[i][j] = d is t a n c e [ i - l] [ j - l] + S u b stC o sl2 ( s o u r c e [ i- l] , ta r g e t[j-l] );
i f ( d is ta n c e ^ -l][j ]+ D e lC o s t( s o u r c e [ i- l] )< d ista n c e [i][j] ) / / x o a
d ista n ce[i][j] = d is ta n c e [i-l] [j] + D e lC o st( s o u r c e [ i - l ] );
i f ( i > l & & j > l ) / / hoan vi
if ( s o u r c e [i-l]= = ta r g e t[j-2 ] & & so u r c e Ịi-2 ]= = ta r g e t[j-1 ] )
Trang 50Giá hoán vị; không phân biệt gì cả
int TransCost( char cl, char c2 )