Trong những năm gần đây, lĩnh vực xử lý ngôn ngữ tự nhiên thì xử lý ngữ nghĩa chiếm vai trò quyết định tính chính xác của các mô hình xử lý ngôn ngữ tự nhiên.. Một từ điển có chất lượng
Trang 1KHOA CÔNG NGHỆ THÔNG TIN
-
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC
Tên đồ án:
XÂY DỰNG PHẦN MỀM
TỪ ĐIỂN TỪ LOẠI TIẾNG VIỆT
Sinh viên thực hiện : Nguyễn Thị Thanh – 1051070463 Lớp : 51K1 - CNTT
Giáo viên hướng dẫn: ThS Nguyễn Thị Uyên
Nghệ An, tháng 12 năm 2014
Trang 2LỜI CẢM ƠN
Trước hết em xin gửi lời cảm ơn đến cô Ths Nguyễn Thị Uyên, người đã hướng
dẫn em rất nhiều trong suốt quá trình tìm hiểu nghiên cứu và hoàn thành đồ án này từ
lý thuyết đến ứng dụng Sự hướng dẫn của cô đã giúp em có thêm được những hiểu biết về xử lý từ điển từ loại tiếng Việt và ứng dụng của từ điển trong thực tiễn
Đồng thời em cũng xin cảm ơn các thầy cô trong khoa công nghệ thông tin – trường Đại Học Vinh, những người đã nhiệt tình giảng dạy và truyền đạt nhưng kiến thức cần thiết trong suốt thời gian em học tập tại trường để em có thể hoàn thành tốt đồ
án tốt nghiệp này
Sau cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè đã tạo mọi điều kiện
để em xây dựng thành công đồ án này
Em xin chân thành cảm ơn !
Vinh, ngày 10 tháng 12 năm 2014
Người viết báo cáo
Nguyễn Thị Thanh
Trang 3LỜI MỞ ĐẦU
Ngày nay, cùng với sự phát triển của đất nước ngành Công nghệ thông tin đã có những bước phát triển mạnh mẽ không ngừng và tin học đã trở thành chiếc chìa khóa dẫn đến thành công cho nhiều cá nhân trong nhiều lĩnh vực, hoạt động Với những ứng dụng của mình, ngành Công nghệ thông tin đã góp phần mang lại nhiều lợi ích mà không ai có thể phủ nhận được Đặc biệt là trong lĩnh vực xử lý ngôn ngữ tự nhiên, tin học đã góp phần tạo ra sự thay đổi nhanh chóng cho bộ mặt xã hội Trong những năm gần đây, lĩnh vực xử lý ngôn ngữ tự nhiên thì xử lý ngữ nghĩa chiếm vai trò quyết định tính chính xác của các mô hình xử lý ngôn ngữ tự nhiên Để xử lý ngữ nghĩa chúng ta phải có cơ sở tri thức ngữ nghĩa từ vựng của ngôn ngữ cần xử lý Trong xử lí ngôn ngữ
tự nhiên từ điển là một dạng tài nguyên thiết yếu phục vụ cho các bài toán phân tích ngôn ngữ từ đơn giản đến phức tạp Một từ điển có chất lượng phải cung cấp được các
thông tin ngôn ngữ ở nhiều tầng bậc khác nhau như hình thái, ngữ pháp, ngữ nghĩa
cho các hệ thống xử lý ngôn ngữ tự nhiên ở mức đơn ngữ, và cao hơn nữa có thế phục
vụ cho cả xệ thống xử lý đa ngữ
“Xây dựng phần mềm từ điển từ loại tiếng Việt” là một đề tài mới, bắt kịp sự
phát triển của công nghệ thông tin nó đáp ứng nhu cầu ngày càng cao của xã hội Mục tiêu của đề tài này là thiết kế một bộ công cụ để xây dựng dữ liệu cho từ điển từ loại tiếng Việt
Đồ án được chia thành các phần như sau:
Chương I: Tổng quan về từ điển tiếng Việt
Chương II: Phân tích hệ thống
Chương III: Chương trình minh họa từ điển
Trang 4MỤC LỤC
Trang
LỜI CẢM ƠN 1
LỜI MỞ ĐẦU 2
Chương I TỔNG QUAN VỀ TỪ ĐIỂN TIẾNG VIỆT 5
1 Từ điển tiếng Việt 5
1.1 Khái niệm 5
1.2 Các đặc tính tiêu biểu của từ điển 5
1.3 Trật tự sắp xếp từ vựng trong từ điển tiếng Việt 6
2 Ngữ pháp tiếng Việt 8
2.1 Động từ 8
2.2 Danh từ 8
2.3 Tính từ 9
2.4 Đại từ 9
3 Hình vị 9
3.1 Về giá trị ngữ âm 9
3.2 Về bình diện chữ viết 9
3.3 Về giá trị ngữ nghĩa 9
3.4 Về giá trị ngữ pháp 10
4 Từ 10
4.1 Từ 10
4.2 Nghĩa của từ 10
5 Quan hệ đồng âm, đồng nghĩa 11
5.1 Từ đồng âm 11
5.2 Từ đồng nghĩa 12
Chương II PHÂN TÍCH HỆ THỐNG 13
1 Phân tích dữ liệu hệ thống 13
2 Phân tích chức năng của hệ thống 13
2.1 Chức năng tổng quát 13
2.2 Các chức năng 13
Trang 5Chương III CHƯƠNG TRÌNH TỪ ĐIỂN 15
1 Tìm hiểu về ngôn ngữ lập trình C# 15
2 Sơ đồ hoạt động của chương trình 15
3 Thiết kế cơ sở dữ liệu 16
3.1 Thiết kế logic cơ sở dữ liệu 16
3.2 Thiết kế cơ sở dữ liệu mức vật lý 16
3.3 Mô hình liên kết cơ sở dữ liệu 18
3.4 Thiết kế giao diện của chương trình 19
Đánh giá đề tài và hướng phát triển đề tài 23
1 Đánh giá đề tài 23
2 Hướng phát triển 23
KẾT LUẬN 24
TÀI LIỆU THAM KHẢO 25
Trang 6Chương I TỔNG QUAN VỀ TỪ ĐIỂN TIẾNG VIỆT
1 Từ điển tiếng Việt
1.1 Khái niệm
Khái niệm: Từ điển là danh sách các từ, ngữ được sắp xếp theo trật từ thành
các từ vị chuẩn Một từ điển thường cung cấp phần giải nghĩa các từ ngữ đó hoặc các
từ ngữ tương đương trong một hay nhiều thứ tiếng khác nhau Ngoài ra còn có thể có thêm thông tin về cách phát âm, các chú ý ngữ pháp, các dạng biến thể của từ, tính lịch
sử hay từ nguyên, cách sử dụng hay các câu ví dụ, trích dẫn
Đối với các ngôn ngữ sử dụng ký tự Latin thì các từ có thể được sắp xếp theo thứ tự chữ cái Đối với các ngôn ngữ tại Đông Á chịu ảnh hưởng của chữ Hán Thông thường từ điển được trình bày dưới dạng sách, ngày nay từ điển còn được số hóa và cung cấp dưới dạng phần mềm máy tính hay truy cập trực tuyến trên web, trên trình nhắn tin nhanh, hay có trong các thiết bị số như điện thoại…
Từ điển là nơi giải thích thông tin về ngôn ngữ của con người một cách dễ hiểu
và khách quan nhất Từ điển có nhiệm vụ, nhất là từ điển bách khoa toàn thư, giúp người xem hiểu và vận dụng (sử dụng) chính xác một từ, ngữ, thuật ngữ, thành ngữ, khái niệm, phạm trù hay một vấn đề cụ thể trong đời sống xã hội con người Từ nhiệm vụ này, từ điển đã được hình thành dưới nhiều dạng thức tồn tại khác nhau, góp phần giải quyết (hay đáp ứng) một hoặc nhiều nhu cầu khác nhau trong đời sống xã hội loài người Đến nay, đã có các dạng thức từ điển như: từ điển bách khoa toàn thư, từ điển luật học, từ điển triết học, từ điển thành ngữ, từ điển song ngữ, từ điển thần học, từ điển tiếng lóng, từ điển ngôn ngữ phụ nữ
1.2 Các đặc tính tiêu biểu của từ điển
Tính chuẩn mực
Từ điển là nơi cung cấp thông tin hoặc giải thích một sự vật hay hiện tượng một cách ngắn gọn và chính xác nhất Trừ phương pháp định nghĩa theo lối hàn lâm, bác học, phương pháp kiến giải của hầu hết từ điển là luôn dùng những ngôn từ đơn giản
và phổ biến nhất trong xã hội Thông tin trong từ điển luôn được kiểm chứng và thừa nhận rộng rãi trong cộng đồng xã hội
Tính tương đối
Từ điển chứa đựng những thông tin đã có, đã được kiểm chứng - do đó, nó luôn
bị thay đổi hoặc bổ sung theo thời gian, cùng với sự thăng trầm của sự vật hoặc hiện
Trang 7tượng mà nó đã đề cập Từ điển luôn đi sau những thay đổi hoặc tiến bộ của xã hội loài người
Từ điển mang đậm phong cách của nhóm tác giả biên soạn ra nó Tính tương đối của từ điển còn có nguyên nhân từ sự khác biệt của mỗi nền văn hóa - văn minh, ngôn ngữ, dân tộc, quốc gia trên thế giới Mỗi thành tố trên có thể lý giải về cùng một hiện tượng xã hội theo nhiều quan điểm, tư tưởng hay chính kiến khác nhau Do đó, có thể cùng một khái niệm, nhưng tùy theo mỗi nền văn hóa khác nhau, có thể có cách sử dụng (vận dụng) khác nhau
Như vậy, tính tương đối của từ điển có thể xuất phát từ sự chậm trễ khi cập nhật, sự phân lập của các nhà từ điển học hoặc sự khác biệt của các nền vãn hóa trên Trái Ðất
Tính đa dạng
Thông tin trong từ điển ghi nhận tất cả sự nhìn nhận, đánh giá, sử dụng hay vận dụng một khái niệm (phạm trù) theo nhiều hướng khác nhau Sự đa dạng này có nguồn gốc từ sự khác biệt giữa các nền văn hóa, văn minh và tiến bộ của các cộng đồng, dân tộc hoặc các quốc gia trên thế giới
Tính trung lập
Tính đa dạng của từ điển bắt buộc nó phải thể hiện quan điểm trung lập trong tất cả các vấn đề mà nó đã đề cập Bản thân sự đa dạng luôn hàm chứa nhiều mâu thuẫn hay đối lập nhau Do đó, tính trung lập của từ điển còn nhằm tránh các xung đột có thể xảy ra giữa các nền văn hóa, văn minh trên Trái Đất Trừ từ điển của các nước có mô hình một đảng chính trị lãnh đạo, hầu hết các từ điển khác đều tôn trọng nguyên tắc trung lập này
Tính lịch sử
Trong từ điển luôn chứa đựng đầy đủ sự hình thành và phát triển của một khái niệm hay phạm trù mà nó lưu giữ Ở đó, người xem tiếp cận được cả cách sử dụng từ ngữ từ lúc sơ khai cho đến hiện tại
1.3 Trật tự sắp xếp từ vựng trong từ điển tiếng Việt
1.3.1 Các đơn vị từ đƣợc sắp xếp theo thứ tự các chữ cái
a ă â b c d đ e ê g h i k l m n o ô ơ p q r s t u ư v x y
1.3.2 Thứ tự các dấu giọng của nguyên âm đơn
Thứ tự dấu giọng của nguyên âm đơn: không dấu, huyền, hỏi, ngã, sắc, nặng Trật tự trên được sắp xếp như sau:
Trang 8 a à ả ã á ạ ă ằ ẳ ẵ ắ ặ â ầ ẩ ẫ ấ ậ (ai, ài, ải )
e è ẻ ẽ é ẹ ê ề ể ễ ế ệ (eo, èo, ẻo )
i ì ỉ ĩ í ị (iêu, iều, iểu )
o ò ỏ õ ó ọ ô ồ ổ ỗ ố ộ ơ ờ ở ỡ ớ ợ (ôi, ồi, ổi )
u ù ủ ũ ú ụ ư ừ ử ữ ứ ự (ui, ùi, ủi )
y ỳ ỷ ỹ ý ỵ
1.3.3 Quy luật ưu tiên trước sau
Ưu tiên ngắn-dài
Từng khối chữ (tổ hợp các con chữ) được sắp xếp trước – sau theo thứ tự sau:
- Đơn tiết xếp trước đa tiết (tính từ trái sang phải)
- Các khối chữ viết thường xếp trước khối chữ viết hoa
Ví dụ: a xếp trước A; c xếp trước C
Theo đó, dạng ưu tiên ngắn – dài này được thể hiện như sau: khối chữ nào có ít con chữ hơn (thường là âm tiết) thì được xếp trước khối chữ có nhiều chữ hơn
Ví dụ: “ta” xếp trước “tay”; “ho” xếp trước “hoang”
Ưu tiên chứ trước - dấu sau
- Đối với từ đơn tiết, được ưu tiên sắp xếp theo thứ tự các chữ khác nhau đầu tiên, bất kể nó mng dấu gì
Ví dụ: “thanh” xếp trước “thành”, “tai” xếp trước “tay”
- Đối với từ đa tiết, chúng ta căn cứ vào thứ tự của từng âm tiết từ trái sang phải
để sắp xếp, sau đó mới căn cứ vào thanh điệu
Ví dụ: “đa đa” xếp trước “đa giác”, “xa xa” xếp trước “xã giao”
- Đối với những hình thức ghi cách phát âm phổ biến của mục từ vay mượn tiếng nước ngoài như ba-ga, a-xit…, thì dấu ghạch ngang được xem như khoảng trắng
và xếp bình thường như một từ đa tiết
Ví dụ: “ba ba” xếp trước “ba ga”
Khi phiên âm các đơn vị từ vựng nưới ngoài, về nguyên tắc, dấu gạch ngang (-) được quy ước như là khoảng trắng, nhưng theo luận lý thì nó vẫn phải xếp sau đơn vị
từ vựng có cùng khối chữ nhưng cách nhau bằng khoảng trắng thực sự
Ví dụ: “ba lô” xếp trước “ba-lô”; “a lô” xếp trước “a-lô”
- Ưu tiên các ký hiệu và số:
Trang 9Các ký hiệu và chữ số thì xếp trước kí tự Ví dụ: !, #, $, %, &, @ , 0, 1, 2, 3, 9 luôn luôn đứng trước a, b, c; B1 xếp trước B2 và ba, v.v
Tóm lại, thứ tự sắp xếp ưu tiên là: khối chữ (nghĩa trọn vẹn của khối chữ) xếp trước, sau đến các kí hiệu nằm ngoài khối chữ (trước và sau khối chữ), tiếp đến nội bộ khối chữ (các dấu gạch ngang, dấu phẩy, dấu ba chấm )
Danh từ: Là chỉ người, sự vật, hiện tượng, khái niệm
Ví dụ: con gà, con mèo, giáo viên …
Danh từ riêng là tên riêng của từng người, từng vật, từng địa phương,
Ví dụ: Thanh, Yến, Vinh, Đô Lương,…
2.2.2 Danh từ chỉ đơn vị
Danh từ chỉ đơn vị nêu tên đơn vị dùng để tính đếm, đo lường sự vật
Ví dụ: nắm, lít, bầy,
Trang 10Ví dụ: xanh nhạt, xanh xao, vàng nhạt,…
2.3.2 Tính từ chỉ đặc điểm tương đối
Là những từ có thể kết hợp với nhưng từ chỉ mức độ
Ví dụ: hiền, tốt, xấu
2.4 Đại từ
Đại từ: Là một từ dùng để thay thế cho một danh từ hoặc một đại từ khác
Ví dụ: anh, tôi, chị, em…
3 Hình vị
Hình vị: là đơn vị ngôn ngữ nhỏ nhất có nghĩa và có giá trị (chức năng) về mặt
ngữ pháp Trong tiếng Việt đơn vị này còn được gọi là tiếng Về các mặt ngữ âm ngữ nghĩa, ngữ pháp nó đều có giá trị quan trọng
3.1 Về giá trị ngữ âm
Đứng về mặt ngữ âm thì hình vị thường trùng với âm tiết Xét về mặt ngữ âm,
âm tiết là đơn vị ngữ âm rất dễ nhận diện, vì nó là đơn vị phát âm tự nhiên ứng với sự
căng lên và trùng xuống của dây thanh, và được phân cách bởi một khoảng ngắt hơi
3.2 Về bình diện chữ viết
Trong chữ quốc ngữ tức chữ Việt hiện nay, mỗi âm tiết được ghi thành một chữ, nên ở mặt chữ viết, âm tiết cũng dễ được nhận ra Mỗi âm tiết trong tiếng Việt đều có một thanh
3.3 Về giá trị ngữ nghĩa
Đứng về mặt ngữ nghĩa thì hình vị cũng là đơn vị nhỏ nhất có thể có nghĩa Đơn vị ngữ âm ở bậc thấp hơn, là âm vị, thì không thể có nghĩa, mà chỉ có giá
Trang 11nó chỉ có giá trị khu biệt nghĩa: ta-ma-xa-na ; ta-tu-ti-to thanh điệu cũng có giá trị như một âm vị tự nó không có nghĩa nhưng nếu được kết hợp lại thành tiếng hoàn chỉnh , thành âm tiết như ta hay tạ, má hay ma thì có thể thành những đơn vị nhỏ nhất có nghĩa
3.4 Về giá trị ngữ pháp
Ngữ pháp bao gồm những quy tắc cấu tạo từ, cấu tạo câu Hình vị là đơn vị ngữ pháp được dùng để cấu tạo từ
Có một số trường hợp cấu tạo từ sau đây:
- Cấu tạo từ một tiếng Đây là một trường hợp một hình vị độc lập được dùng làm một từ Chẳng hạn: nước là một hình vị được dùng làm từ Có thể dùng từ một tiếng này để cấu tạo câu Ví dụ: có thể nói câu tôi uống nước hay nói nước rất trong
- Cấu tạo từ hai tiếng hay nhiều tiếng Đó là trường hợp có sự kết hợp giữa hai thành tố, mà hai thành tố này có thể là hai hình vị độc lập, hoặc không độc lập, hay không có nghĩa tự thân kết hợp với nhau, và có sự gán bó tương dối chặt chẽ về mặt nội dung và hình thức Chẳng hạn: Nhà nước, xóm làng, quàn áo; giang sơn, khách khứa Cũng có những trường hợp hơn hai tiến kết hợp với nhau thành từ Ví dụ: hợp tác xã, câu lạc bộ,
4 Từ
4.1 Từ
Là đơn vị sẵn có trong ngôn ngữ Từ là đơn vị nhỏ nhất, cấu tạo ổn định, mang nghĩa hoàn chỉnh, được dùng để cấu thành nên câu Từ có thể làm tên gọi của sự vật (danh từ), chỉ các hoạt động (động từ), trạng thái, tính chất (tính từ) Từ là công cụ
biểu thị khái niệm của con người đối với hiện thực
4.2 Nghĩa của từ
Từ là tín hiệu, nó phải nói lên, phải đại diện cho, phải được người sử dụng quy chiếu về một cái gì đó Khi một người nghe hoặc nói một từ nào đó, họ gán nó vào đúng sự vật có tên gọi là từ đó như cả cộng đồng vẫn gọi Đồng thời ít nhiều họ cũng biết được những đặc trưng, bản chất của sự vật đó và họ sử dụng nó trong giao tiếp đúng với các mẹo luật mà ngôn ngữ có từ cho phép Ta nói rằng họ hiểu được nghĩa của từ đó
Ví dụ: Một người Việt hoặc không phải người Việt, nói hoặc nghe một từ “Xe” chẳng hạn, thì họ có thể:
- Quy chiếu, gắn từ Xe vào bất kỳ cái gì trong thực tại đời sống
Trang 12- Ít nhiều có thể biết được như: Xe là vật mà được dùng để làm phương tiện đi
lại Ví dụ: xe đạp, xe máy…
- Dùng từ Xe trong giao tiếp, phát ngôn đúng với các quy tắc tiếng Việt
Ta nói rằng: họ có thể hiểu được từ Xe trong tiếng Việt
Mỗi khi học nghĩa của một từ, chúng ta đều học bằng cách liên hệ từ với những cái mà từ đó chỉ ra (trước hết là sự vật, hiện tượng, hành động hoăc thuộc tính… mà từ
đó làm tên gọi cho nó) Mặt khác, nghĩa của từ cũng được học thông qua hoặc liên quan với vô vàn tình huống giao tiếp ngôn ngữ mà từ đó được sử dụng Nói chung, nghĩa của từ là những liên hệ được xác lập trong nhận thức của chúng ta giữa từ và những cái mà nó (từ) chỉ ra (những cái mà nó làm tín hiệu cho)
5 Quan hệ đồng âm, đồng nghĩa
5.1 Từ đồng âm
Từ đồng âm: Là những từ trùng nhau về hình thức ngữ âm nhưng khác nhau về
nghĩa Ví dụ: nhóm đồng âm: đường (sắt), đường (ăn) trong tiếng Việt Hiện tượng
đồng âm xảy ra chủ yếu giữa các từ với nhau, ít khi nào quan sát được hiện tượng này
ở các cụm từ với nhau Từ đồng âm có mặt trong ngôn ngữ là một tất yếu vì số lượng
âm thanh mà con người phát ra được và dùng làm vỏ ngữ âm cho các từ, dù có nhiều đến mấy cũng chỉ có giới hạn của nó
Trong tiếng Việt, do đặc trưng loại hình đơn lập của tiếng Việt quy định nên nó
Tiếng anh
- Đồng âm, đồng tự, như: can (có thể) – can (đóng hộp)
- Đồng âm, không đồng tự, như: son – sun
- Đồng tự, không đồng âm, như: tear (xé) – tear (nước mắt)
Tiếng Việt
- Đồng âm từ giới từ, như: đường (con đường)- đường (ăn) (về mặt từ vựng)
và chỉ (khâu)- chỉ (trỏ) (về mặt từ vựng - ngữ pháp)
Trang 13- Đồng âm tiếng với tiếng: như “than” trong câu: “nhà của đề lầm than con thơ trẻ lấy ai rèn cặp”
Các nhóm từ đồng âm có thể không tìm được lý do hay tìm được lý do (từ vay mượn, tách nghĩa cảu từ đa nghĩa, biến đổi ngữ âm) Ta cần phân biệt từ đa nghĩa với
từ đồng âm:
- Đồng âm: khác nguồn gốc nhưng trùng ngữ âm
- Đa nghĩa: cùng nguồn gốc và trùng ngữ âm
Việc nghiên cứu và khảo sát kỹ các từ đồng âm cả về lý thuyết và thực tiễn đều rất cần thiết Đặc biệt trong lĩnh vực từ điển và dịch máy
5.2 Từ đồng nghĩa
Là những từ tương đồng nhau về nghĩa; khác nhau về âm thanh và có phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong cách…nào đó, hoặc đồng thời cả hai Ví dụ các nhóm đồng nghĩa, trong:
Tiếng Anh: start, begin, commence (bắt đầu)
Tiếng Việt: cố, gắng, cố gắng
Những từ đồng nghĩa với nhau không nhất thiết phải tương đương nhau về số lượng nghĩa, các từ đồng nghĩa thường chỉ đồng nghĩa ở một nghĩa nào đó, vì vậy các
từ đa nghĩa có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau Trong mỗi nhóm
đồng nghĩa, thường có một từ trung tâm Ví dụ: nhóm: “yếu, yếu ớt, yếu đuối, ” có từ
“yếu” là từ trung tâm