1. Trang chủ
  2. » Thể loại khác

Kiểm lỗi chính tả cảm ngữ cảnh tiếng Việt

51 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 51
Dung lượng 16,76 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thuật toán kiểm lỗi... Đánh giá và thảo luận... Giá hoán vị; không phân biệt gì cả int TransCost char cl, char c2.

Trang 2

M ụ c l ụ c

1 B à i to á n k i ể m l ỗ i c h í n h t ả 5

2 G iớ i t h iệ u c á c p h ư ơ n g p h á p k iể m l ỗ i c h í n h t ả 5

3 T iế p c ậ n c ủ a c h ú n g t ô i 7

4 M ộ t s ố p h ư ơ n g p h á p h ọ c m á y t h ố n g k ê t r o n g N L P 8

4 1 H à m p h â n l o ạ i B a y e s " n g â y t h ơ " 9

4 2 D a n h s á c h q u y ế t đ ị n h 9

4 3 N ộ i s u y 1 0 C h ư ơ n g 2 : M ộ t s ố đ ặ c đ i ể m 1 1 1 Đ ặ c đ iể m t i ế n g V i ệ t 11

2 C á c đ ơ n v ị c ủ a t iế n g V i ệ t 11

2 1 T i ế n g 11

2 2 T ừ 7 1 2 2 3 C â u 1 2 3 M ộ t s ố đ ố i tư ợ n g n g ô n n g ữ m à lu ậ n v ã n sẽ k h a i t h á c 1 2 3 1 T i ế n g 13

3 2 T ừ v à từ l o ạ i 13

C h ư ơ n g 3 : C O R P U S 1 4 1 C á c y ê u c ầ u c h í n h c h o c ô n g v iệ c S N L P 1 4 2 X ử l ý v ă n b ả n 15

3 Đ á n h d ấ u d ữ l i ệ u 1 9 4 T ạ o c o r p u s t h ô từ I n t e r n e t 1 9 C h ư ơ n g 4 : K i ể m l ỗ i c h í n h t ả d ự a v à o từ đ i ể n 2 2 1 T ậ p n h ầ m lẫ n â m t i ế t 2 2 1.1 N h ầ m lẫ n d o đ á n h m á y s a i 2 2 1 2 N h ầ m lẫ n d o p h á t â m 2 4 1 3 N h ầ m lẫ n c ủ a c á c h ệ n h ậ n d ạ n g c h ữ 2 6 2 K i ể m l ỗ i c h í n h tả d ự a v à o từ đ i ể n 2 6 2 1 T h u ậ t t o á n 2 7 2 2 Đ á n h g i á 2 7 C h ư ơ n g 5 : K i ể m l ỗ i c h í n h t ả s ử d ụ n g d a n h s á c h q u y ế t đ ị n h 2 9 1 G i ớ i t h i ệ u 2 9 2 C á c t h u ộ c t í n h 2 9 2 1 T ừ g h é p 3 0 2 2 C o l l o c a t i o n 3 0 Chương 1: Giới thiệu 5

3

Trang 3

2 3 T ừ n g ữ c ả n h

2 4 H u ấ n l u y ệ n

3 T h u ậ t to á n k i ể m l ỗ i

3 1 T h u ậ t to á n k i ể m l ỗ i

3 2 Đ á n h g iá đ ộ p h ứ c t ạ p

4 Đ á n h g i á

4 1 B ộ t e s t

4 2 Đ ộ đ o

4 3 K ế t q u ả v à th ả o l u ậ n

C h ư ơ n g 6 : K i ể m l ỗ i c h í n h t ả s ử d ụ n g h à m p h â n l ớ p B a y e s 4 2 1 G iớ i t h i ệ u

2 T h u ậ t t o á n

3 Đ á n h g iá v à th ả o l u ậ n

K ế t l u ậ n 4 5

T à i l i ệ u t h a m k h ả o 4 6

P h ụ l ụ c 4 9

31

3 2

3 3

3 3

3 4

3 5

3 6

3 8

3 8

,4 2 4 2 4 4

Trang 4

n h iề u p h ư ơ n e p h á p k iể m l ỗ i c h í n h tả t iế n g A n h b ằ n g t h ố n g k ê đ ã đ ư ợ c đ ề x u ấ t

N h ữ n g p h ư ơ n g p h á p n à y x e m x é t v ấ n đ ề k iể m l ỗ i c h í n h tả h o ặ c t r ự c t iế p , h o ặ c g iá n

t iế p b ằ n g c á c h q u i n ó v ề b à i to á n x ử l ý n h ậ p n h ằ n g từ v ự n e

5

Trang 6

C á c p h ư ơ n g p h á p k iể m l ỗ i c h í n h tả t iế n g V i ệ t d ự a t r ê n lu ậ t đ ư ợ c n g h iê n c ứ u k h á

n h iề u , ở m ứ c â m t iế t , p h ư ơ n g p h á p sử d ụ n g lu ậ t c ấ u tạ o â m t i ế t k ế t h ợ p v ớ i từ đ iể n

á m t iế t c h o k ế t q u ả t ố t n h ấ t ( P h ạ m H ồ n g N g u y ê n , 1 9 9 8 ) Â m t i ế t v à o sẽ đ ư ợ c p h â n

lo ạ i b ằ n g c á c h p h â n t í c h c ấ u tạ o v à tr a từ đ iể n , c á c lo ạ i c ó th ể c ó là : sai cấu tạo ,

đúng cảu tạo nhưng không có trong từ điển , có trong từ điển, sai cấu tạo nhưng có thể là lừ tiếng nước ngoài.

Trang 11

2.2 T ừ

T ừ là đ ơ n v ị đ ể đ ặ t c â u T ừ t iế n a V i ệ t c ó đ ặ c tr ư n g là đ a â m t iế t X u n g q u a n h v iệ c

x á c đ ịn h t h ế n à o là từ t iế n g V i ệ t c ò n n h iề u tr a n h c ã i T u y n h iê n c ó c á c đ iể m s a u

Trang 18

đ c đ i ể m l à v i ế t h a c ữ c á i đ u n ê d n h n b i ết h ơ n s o v i d a h t ừ r i ê n t r o n

c c n e n n g t ư ợ n h ì n h n h t i ế n T r u n Q u c , N h t , v v C h ư ơ n g t r ì nh c ủ a c h ú g

t ô i n h n d ạ g d a h t ừ r i ên d ự a v à h e ur i s t i c s

Vi du:

" s ố l i ệ u t h ố g k ê t ừ Trung tâm Thông tin Thương mại {Bộ Thươììg mại)"

" c u ộc h ọ v ớ i U ỷ ban Kinh t ế và Ngân sách Quốc h ội "

" đ i ề u t r a c ủ a Hiệp hội Thuốc lá VN"

Trang 27

B á l ỗ i : bằ g t a y - > bà n t a y

C h n g t ồ i s ẽ t r ì n h b y k t q u t h í n g h i ệ m c o b i ế t đ ộ c í n h x á c ủ p h ư ơ n ph á

n y c ù n g v ớ i c á p h ơ n p h á k h c ở p h n s a u

Trang 30

31

Trang 32

3 Thuật toán kiểm lỗi

Trang 36

< s > T r on k h i c á c c n # c n g # & & c n _ ụ & & c ụ t ì m k i ế m đ ợ c c ả i t i ế n r ấ t t ố t t h ì

t r ún # # h n g # & & c ú n & & l ạ i c ò n k h i ế m kh y t đá g k i n h ngạ c : k h n t h ể b ổ s un

t h ê m c ư n t r ì n h t ì m k i ế m và o da h s á c h v ớ i 9 c ư ơ g t r ì n h m ặ n i ê n m à M i c r o s o f t

đ a r a </ S >

< s > M i c r os o f t t h ừa n ậ l à h đả # # đ # # & & đ & & p á v n ữ g n u ê t ắ c t r ô n g

# t r o n 2# & & t r o ne & & v i ệ c đ ặ t g i á ch h ệ đ i ề u h à n h < / S>

Trang 43

3 Đánh giá và thảo luận

Trang 46

[ 2 3 ] W J T e h a , Y i n g i n g W e , R o d g e r M c N a b , I a n H W i t t en 2 0 A

c m p r e s i o n -b a s e al g o r i t h m f or C h i n e s e w o r d e m e t a t i o n C o m p u ta tio n a l Lingu istics, v o l u m e 2 6 , n u m b e r 3

Trang 47

[ 3 6 ] ủ y b n k h a h c x ã hộ i V i ệt N a m 1 8 N g ữ p h á t i ế n V i ệ t N h à x ất b ả

K h a h ọ c X ã h ộ i — H à N ộ i , 1 8

Trang 48

for ( i =l ; i<=m; i++ ) d istance[i][0] = d ista n c e[i-l][0 ] + D elC ost( s o u r c e [ i- l] );

for ( j = l ; j<=n; j++ ) distance[0][j] = d ista n ce[0 ][j-l] + InsCost( t a r g e t [ j - l] );

for ( i =l ; i<=m; i++ )

f o r ( j =l ; j<=n; j + + ) Ị

49

Trang 49

distance[i][j] = 1000;

i f ( d is ta n c e [i][j-l]+ In sC o st( ta r g e t[j-l] ) < d is t a n c e [ i] [ j ] ) / / ch en

d ista n ce[i][j] = d is ta n c e [i][j -l] + ln s C o s t( ta r g e t[j-l] );

i f ( d is ta n c e [i-l] [j- l]+ S u b s tC o s t2 (s o u r c e [i- l], ta r g e t [ j - l] ) < d is t a n c e [ i] [ j ] ) / / thay

d ista n ce[i][j] = d is t a n c e [ i - l] [ j - l] + S u b stC o sl2 ( s o u r c e [ i- l] , ta r g e t[j-l] );

i f ( d is ta n c e ^ -l][j ]+ D e lC o s t( s o u r c e [ i- l] )< d ista n c e [i][j] ) / / x o a

d ista n ce[i][j] = d is ta n c e [i-l] [j] + D e lC o st( s o u r c e [ i - l ] );

i f ( i > l & & j > l ) / / hoan vi

if ( s o u r c e [i-l]= = ta r g e t[j-2 ] & & so u r c e Ịi-2 ]= = ta r g e t[j-1 ] )

Trang 50

Giá hoán vị; không phân biệt gì cả

int TransCost( char cl, char c2 )

Ngày đăng: 23/09/2020, 23:09

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w