1. Trang chủ
  2. » Luận Văn - Báo Cáo

Giải pháp xây dựng kho ngữ liệu và hệ thống dịch song ngữ Anh - Việt các lỗi lập trình hỗ trợ học sinh THPT

25 55 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 0,94 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Từ đó tôi xác định lựa chọn đề tài “Giải pháp xây dựng kho ngữ liệu và hệ thống dịch song ngữ Anh - Việt các lỗi lập trình hỗ trợ học sinh THPT” 2.. Mục đích nghiên cứu - Đề xuất giải

Trang 1

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

ĐẶNG XUÂN HÙNG

GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU

VÀ HỆ THỐNG DỊCH SONG NGỮ ANH - VIỆT CÁC LỖI LẬP TRÌNH HỖ TRỢ HỌC SINH THPT

Chuyên ngành: Khoa Học Máy Tính

Mã số: 60.48.01 01

TÓM TẮT LUẬN VĂN THẠC SĨ

KHOA HỌC MÁY TÍNH

Đà Nẵng - Năm 2018

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐH ĐÀ NẴNG

-

Người hướng dẫn khoa học: PGS, TS Huỳnh Công Pháp

Phản biện 1: PGS TS Nguyễn Thanh Bình

Phản biện 2: TS Nguyễn Quang Thanh

Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn

tốt nghiệp thạc sĩ Khoa học máy tính họp tại Trường Đại học Bách khoa vào ngày 08 tháng 12 năm 2018

Có thể tìm hiểu luận văn tại:

Trung tâm Học liệu, Đại học Đà Nẵng tại Trường Đại

học Bách khoa

Thư viện Khoa Công nghệ Thông tin, Trường Đại họcBách khoa - ĐHĐN

Trang 3

MỞ ĐẦU

1 Lý do chọn đề tài

“Cách mạng công nghiệp 4.0” đang diễn ra tại nhiều nước phát triển Nó mang đến cho nhân loại cơ hội để thay đổi bộ mặt các nền kinh tế Nhu cầu của xã hội ngày càng lớn cùng với sự phát triển của khoa học kỹ thuật đã kéo theo sự phát triển như vũ bão của tin học Sự phát triển của tin học đã đem lại hiệu quả to lớn cho hầu hết các lĩnh vực của xã hội, hơn thế nữa nó còn đi sâu vào đời sống của con người Nền tin học của một quốc gia được xem là sự phát triển nếu nó đóng góp được phần đáng kể vào nền kinh tế quốc dân và vào kho tàng tri thức chung của thế giới

Do vậy, ngành giáo dục đào tạo phải đầu tư phát triển về mọi mặt Đặc biệt là nguồn nhân lực tri thức tức là phải đào tạo ra một thế

hệ trẻ năng động, thông minh, độc lập, sáng tạo, nắm vững tri thức khoa học công nghệ để làm chủ trong mọi hoàn cảnh công tác và hoạt động xã hội nhằm đáp ứng được nhu cầu trong thời kì công nghiệp hoá, hiện đại hoá đất nước

Để đáp ứng được các yêu cầu trên, môn Tin học đã được đưa vào giảng dạy ở các trường phổ thông với vai trò là môn học chính khóa Tin học là một môn học mới và tương đối khó đối với học sinh THPT trong đó môn ngôn ngữ lập trình trong chương trình lớp 11 lại càng khó Ở hầu hết các trường THPT trên địa bàn tỉnh Quảng Ngãi

đề sử dụng ngôn ngữ lập trình Pascal để dạy ngôn ngữ lập trình Để viết được một chương trình hoàn chỉnh thỏa mãn yêu cầu của bài toán đặt ra trên máy tính thì học sinh phải có tư duy lôgic về thuật toán, khả năng sử dụng máy tính thành thạo, sử dụng các câu lệnh và khai báo kiểu dữ liệu một cách hợp lý Đặc biệt nó đòi hỏi sự tuân thủ nghiêm ngặt về cú pháp Hầu hết các ngôn ngữ lập trình đều sử dụng ngôn ngữ

Trang 4

Tiếng Anh, mà đặc điểm của học sinh khu vực miền trung là yếu về Tiếng Anh

Do đó, việc học ngôn ngữ lập trình của học sinh phổ thông hiện nay còn gặp rất nhiều khó khăn, đặc biệt là hiểu và sửa các lỗi lập trình, điều này làm ảnh hưởng không nhỏ đến kết quả học tập, việc chọn lựa nghề nghiệp của các em

Trong hơn 20 năm phát triển gần đây của lĩnh vực dịch máy, tuy đã có những bước phát triển đáng kể trong đó có thể nói đến Google dịch, Vdist, … Tuy nhiên đến nay kết quả của các hệ thống dịch máy vẫn còn là một khoảng cách xa so với các bảng dịch do con

người thực hiện Error! Reference source not found đặc biệt là các

lĩnh vực chuyên ngành như y tế, kỹ thuật, pháp luật, … đặc biệt là Tin học Các hệ thống dịch không dịch đúng các khái niệm chuyên môn nên bảng dịch trở nên khó hiểu, không có giá trị Nên không giúp được nhiều cho việc học lập trình của học sinh

Là một giáo viên giảng dạy bộ môn Tin học tại trường THPT trong nhiều năm, tôi nhận thấy rằng cần phải thực hiện nhiều biện pháp, đổi mới về phương pháp dạy học và hơn cả là xây dựng công cụ

trợ giúp học tập cho các em Từ đó tôi xác định lựa chọn đề tài “Giải pháp xây dựng kho ngữ liệu và hệ thống dịch song ngữ Anh - Việt các lỗi lập trình hỗ trợ học sinh THPT”

2 Mục đích nghiên cứu

- Đề xuất giải pháp xây dựng kho ngữ liệu các lỗi lập trình

- Xây dựng hệ thống dịch các lỗi lập trình để hỗ trợ học sinh THPT

Trang 5

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu:

- Các ngôn ngữ lập trình phổ biến như Pascal, C; đặc biệt là ngôn ngữ lập trình Pascal (ngôn ngữ lập trình chủ yếu sử dụng dạy học cho học sinh khối lớp 11 THPT)

- Các phương pháp, giải thuật về dịch tự động, trích rút, phân lớp dữ liệu, …

 Xây dựng chương trình demo

 Kiểm thử tính hiệu quả của chương trình

 Khảo sát độ phù hợp của chương trình đối với học sinh THPT

5 Ý nghĩa của đề tài

5.1 Ý nghĩa khoa học:

Đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết để làm rõ về các phương pháp và kỹ thuật dịch tự động, trích rút, phân lớp dữ liệu

Trang 6

và kỹ năng chuyên nghiệp trong học lập trình

6 Cấu trúc luận văn

Nội dung của luận văn được chia thành các phần như sau:

Mở đầu

Chương 1 - Tổng quan Chương này trình bày một số vấn đề liên quan về: Xử lý ngôn ngữ tự nhiên và xử lý tiếng Việt; Dịch tự động và dịch tự động tiếng Việt; Kho ngữ liệu xử lý ngôn ngữ tự nhiên; Thực trạng học lập trình tại các trường trung học phổ thông

Chương 2 - Xây dựng kho ngữ liệu song ngữ Anh - Việt các lỗi lập trình Chương này trình bày một số vấn đề liên quan về: Tập dữ liệu lỗi của một số ngôn ngữ lập trình phổ biến; Các giải pháp thu thập

và xây dựng kho ngữ liệu; Giải pháp xây dựng kho ngữ liệu các lỗi lập trình Anh - Việt

Chương 3 - Xây dựng hệ thống dịch song ngữ Anh - Việt các lỗi lập trình Chương này trình bày một số vấn đề liên quan về: Dịch

tự động sử dụng mạng nơ ron; Cài đặt chương trình xây dựng kho ngữ liệu song ngữ Anh - Việt các lỗi lập trình theo hướng mạng nơ ron; Cài đặt chương trình và môi trường xây dựng hệ thống dịch song ngữ Anh - Việt các lỗi lập trình sử dụng mạng nơ ron

Trang 7

CHƯƠNG 1 - TỔNG QUAN 1.1 Xử lý ngôn ngữ tự nhiên và xử lý tiếng Việt

1.1.1 Khái niệm xử lý ngôn ngữ tự nhiên

1.1.2 Các bước xử lý ngôn ngữ tự nhiên

1.1.5 Một số công trình và ứng dụng xử lý tiếng Việt

tiêu biểu Error! Reference source not found.

1.2 Dịch tự động và dịch tự động tiếng Việt

1.2.1 Khái niệm dịch tự động

1.2.2 Các phương pháp dịch tự động phổ biến

1.2.2.1 Dịch máy dựa trên luật

1.2.2.2 Dịch máy dựa trên thống kê

Trang 8

1.2.2.3 Dịch máy dựa trên ví dụ

1.3 Kho ngữ liệu xử lý ngôn ngữ tự nhiên

1.3.1 Khái niệm kho ngữ liệu

1.3.2 Các loại kho ngữ liệu

1.3.3 Một số kho ngữ liệu phổ biến

1.3.3.1 Kho ngữ liệu Anh Mỹ (Brown Copus)

1.3.3.2 Kho ngữ liệu tiếng Anh (BNC - The British

National Corpus) 1.3.3.3 Kho ngữ liệu quốc gia Mỹ (ANC - The American

National Corpus) 1.3.3.4 Kho ngữ liệu Anh Mỹ hiện đại (COCA - The

Copus of Contemporary American English) 1.3.3.5 Ngân hàng cây cú pháp PENN

1.3.3.6 Ngân hàng cây cú pháp TIGER tiếng Đức 1.3.3.7 Ngân hàng cây cú pháp tiếng Trung (Chinese

Treebank)

1.3.4 Một số ứng dụng của kho ngữ liệu

1.3.4.1 Ứng dụng trong ngôn ngữ học – thống kê 1.3.4.2 Ứng dụng trong ngôn ngữ học so sánh

1.3.4.3 Ứng dụng trong giảng dạy ngoại ngữ

1.3.4.4 Ứng dụng trong việc nghiên cứu dịch thuật

Trang 9

1.4 Thực trạng học lập trình tại các Trường trung học phổ thông

1.4.1 Tình hình đào tạo và ứng dụng công nghệ thông tin

tại các Trường THPT hiện nay 1.4.2 Thực trạng và những vấn đề bất cập trong việc

giảng dạy và học lập trình tại các trường THPT

1.4.2.1 Vấn đề về cơ sở vật chất

1.4.2.2 Vị thế của môn Tin học trong các trường THPT 1.4.2.3 Vấn đề của học sinh khi học lập trình Pascal 1.4.2.4 Vấn đề của giáo viên

1.4.3 Một số giải pháp nâng cao chất lượng đào tạo công

nghệ thông tin tại các trường THPT

1.4.3.1 Đối với giáo viên:

1.4.3.2 Đối với học sinh:

Kết luận chương 1: Trong chương 1, chúng ta đã nghiên cứu

về các kiến thức tổng quan liên quan đến xử lý ngôn ngữ tự nhiên và

xử lý tiếng Việt; Dịch tự động và dịch tự động tiếng Việt; Kho ngữ liệu xử lý ngôn ngữ tự nhiên; Thực trạng học lập trình tại các trường trung học phổ thông

Trang 10

CHƯƠNG 2 - XÂY DỰNG KHO NGỮ LIỆU SONG NGỮ

ANH - VIỆT CÁC LỖI LẬP TRÌNH

2.1 Giới thiệu

2.2 Tổng quan về lỗi lập trình

2.2.1 Lỗi cú pháp

2.2.2 Lỗi chính tả

2.2.3 Lỗi thời gian (timing error)

2.2.4 Lỗi chia cho 0

2.3.1.1 Giới thiệu về ngôn ngữ lập trình Pascal

2.3.1.2 Tập dữ liệu lỗi của ngôn ngữ lập trình Pascal

2.3.2 Ngôn ngữ lập trình C

2.3.2.1 Giới thiệu về ngôn ngữ lập trình C

2.3.2.2 Tập dữ liệu lỗi của ngôn ngữ lập trình C

2.4 Các giải pháp thu thập và xây dựng kho ngữ liệu Error! Reference source not found

2.4.1 Giải pháp thu thập và xây dựng kho ngữ liệu từ

các tài nguyên đa ngữ

2.4.1.1 Thu thập dữ liệu

2.4.1.2 Xử lý ngôn ngữ tự nhiên

2.4.1.3 Xử lý đầu vào

Trang 11

a Phương pháp phân lớp dữ liệu Bayes

b Phương pháp cây quyết định

c Phương pháp mạng nơ ron nhân tạo

d Phương pháp sinh luật quyết định theo tiếp cận tập thô

e Phương pháp SVM

2.4.3 Giải pháp hợp nhất để xây dựng kho ngữ liệu lớn

và đồng nhất

2.4.3.1 Tồn tại các cặp ngữ liệu ở cả hai kho ngữ liệu

a Giống nhau hoàn toàn

b Khác nhau về ngữ nghĩa

cho ngữ liệu đó trong nguồn tài nguôn dữ liệu chung

2.4.3.2 Cặp ngữ liệu chỉ tồn tại ở một trong hai kho ngữ

liệu 2.4.3.3 Thuật toán hợp nhất các kho ngữ liệu song ngữ

2.5 Giải pháp xây dựng kho ngữ liệu các lỗi lập trình Anh - Việt

2.5.1 Giải pháp thu thập lỗi lập trình tiếng Anh

2.5.1.1 Giải pháp thu thập từ các nguồn dữ liệu thô 2.5.1.2 Giải pháp trích từ các từ điển điện tử

2.5.2 Giải pháp dịch tập lỗi lập trình tiếng Anh sang

tiếng Việt

Trang 12

2.5.3 Giải pháp xây dựng kho ngữ liệu lỗi lập trình

Anh - Việt phục vụ xây dựng hệ thống dịch tự động sử dụng mạng nơ ron

Kết luận chương 2: Trong chương này đã trình bày Tập dữ

liệu lỗi của các ngôn ngữ lập trình phổ biến giảng dạy tại các trường THPT; Các giải pháp thu thập và xây dựng kho ngữ liệu; Giải pháp

xây dựng kho ngữ liệu các lỗi lập trình Anh - Việt

Trang 13

CHƯƠNG 3 - XÂY DỰNG HỆ THỐNG DỊCH SONG NGỮ

ANH - VIỆT CÁC LỖI LẬP TRÌNH

3.1 Dịch tự động sử dụng mạng nơ ron Error! Reference source not found

3.1.1 Tổng quan dịch máy sử dụng mạng nơ ron

Bản dịch máy đã được phổ biến rộng rãi trong các ứng dụng

và trang web kể từ giữa những năm 2000

Trong nhiều năm (từ những năm 1960), các nhà khoa học máy tính đã cố gắng xây dựng các hệ thống dịch máy dựa trên các quy tắc

và cấu trúc ngữ pháp của từng ngôn ngữ Trong hầu hết các trường hợp, kết quả là, hãy nói rằng, ít hơn tuyệt vời

Bước đột phá đến khi một khái niệm mới, học máy, được áp dụng cho dịch máy Sử dụng một lượng lớn dữ liệu được dịch trước bởi các dịch giả chuyên nghiệp, các thuật toán mạnh mẽ sẽ tìm hiểu cách dịch các từ được đưa ra trong một số ngữ cảnh hạn chế và các bản dịch đã có sẵn này

Tất cả các sản phẩm dịch máy (trang web hoặc ứng dụng) có sẵn cho đến cuối năm 2016 đều dựa trên thuật toán sử dụng các phương pháp thống kê để thử đoán bản dịch tốt nhất có thể cho một từ nhất định Công nghệ này được gọi là dịch máy thống kê

Tuy nhiên, một trong những hạn chế của dịch máy thống kê là

nó chỉ dịch các từ trong ngữ cảnh của một vài từ trước và sau từ được dịch Đối với các câu nhỏ, nó hoạt động khá tốt Đối với những cái dài hơn, chất lượng bản dịch có thể thay đổi từ rất tốt đến, trong một số trường hợp, đường biên không vô nghĩa Nó gần như luôn luôn có thể nhìn thấy nó đã được máy tạo ra

Vào cuối những năm 2000, một công nghệ học máy mới gọi

là học sâu hoặc mạng thần kinh sâu, một công cụ tìm cách bắt chước

Trang 14

bộ não con người hoạt động (ít nhất một phần), trở thành một lựa chọn khả thi để làm việc trên nhiều khó khăn tiến bộ cả về phía nghiên cứu (cách xây dựng, đào tạo và điều hành các mạng nơron lớn) và ở phía tính toán với sự xuất hiện của sức mạnh tính toán quy mô cực lớn của đám mây

Cụ thể, các mạng nơron cho dịch máy gần đây đã trở thành có thể và mặc dù vẫn còn ở giai đoạn đầu, nó đã cung cấp các bản dịch tốt hơn so với bản dịch máy thống kê cũ hơn 10 năm làm cho nhiều ngôn ngữ

3.1.2 Các bước triển khai xây dựng hệ thống dịch máy

 Giai đoạn thứ hai sau đó dịch mô hình từ này (không phải

từ chính nó mà là mô hình mà mạng nơron đã xây dựng nó), trong ngữ cảnh của câu, sang ngôn ngữ khác

Một cách để suy nghĩ về dịch thuật dựa trên mạng thần kinh

có thể là suy nghĩ của một người nói thông thạo ngôn ngữ khác mà sẽ nhìn thấy một từ, nói "con chó" Điều này sẽ tạo ra hình ảnh của một con chó trong não của mình, sau đó hình ảnh này sẽ được liên kết với,

ví dụ "le chien" bằng tiếng Pháp Mạng lưới thần kinh về bản chất sẽ biết rằng từ "chien" là nam tính bằng tiếng Pháp ("le" không phải là

"la") Nhưng, nếu câu nói là “con chó vừa sinh ra sáu con chó”, nó sẽ hình dung cùng một con chó với con chó đang cho con bú và sau đó

sẽ tự động sử dụng “la chienne” (dạng nữ của “le chien”) khi dịch câu

Trang 15

Cách tiếp cận này cung cấp kết quả tốt hơn vì nó:

 Đưa vào tài khoản câu đầy đủ, không chỉ một vài từ liên tiếp

 Có thể xử lý các biến thể vô hạn của ngôn ngữ thông qua nhận dạng mẫu giống như não

 Tìm hiểu sự tinh tế của các ngôn ngữ dựa trên các đặc điểm của mỗi ngôn ngữ như giới tính, hình thức, v.v

Do cách tiếp cận này, các câu được tạo ra từ một bản dịch máy dựa trên mạng thần kinh thường tốt hơn các máy thống kê nhưng cũng

âm thanh trôi chảy và tự nhiên hơn, như thể một người đã dịch chúng

chứ không phải máy Error! Reference source not found

3.1.3 Một số hệ thống dịch máy sử dụng mạng nơ ron

Hệ thống dịch máy sử dụng mạng nơron của Google: Kết nối khoảng cách giữa con người và máy dịch

3.2 Cài đặt chương trình xây dựng kho ngữ liệu song ngữ Anh - Việt các lỗi lập trình theo hướng mạng nơ ron Error!

Reference source not found

3.2.1 Tách từ mạng nơ ron các tập dữ liệu của kho ngữ

liệu lỗi lập trình

Trong bài toán dịch tự động giữa tiếng Việt và các ngôn ngữ khác, vấn đề xây dựng kho ngữ liệu có chất lượng đóng vai trò quan trọng Đối với các phương pháp dịch tối ưu nhất hiện nay là phương pháp dịch thống kê và phương pháp dịch sử dụng trí tuệ nhân tạo thông qua mạng nơ ron, trong quá trình huấn luyện dữ liệu, mô hình dịch sẽ thống kê và tạo lập bộ từ điển của ngôn ngữ nguồn và ngôn ngữ đích trên cơ sở liệt kê các từ xuất hiện với mặc định các từ được phân cách nhau bởi khoảng trắng Chính vì vậy, nếu dữ liệu không được tiền xử

lý với phương pháp tách từ, từ điển được tạo ra sẽ bao gồm các từ đơn

Trang 16

vô nghĩa hoặc kết hợp n-gram tạo thành những cụm từ vô nghĩa nhưng vẫn được thống kê và đánh trọng số làm ảnh hưởng đến kết quả dịch Chẳng hạn nội dung của các tập tin từ điển được hiển thị tại Hình 3.1

khi sử dụng mô hình dịch thống kê (hình b và c) và khi sử dụng mô hình dịch mạng nơ ron (hình a)

Hình 3.1 Nội dung tập tin từ điển khi sử dụng mô hình dịch

kỳ mô hình dịch máy nào, quá trình tiền xử lý dữ liệu kết hợp tách từ vựng sẽ làm giảm kích thước của bộ từ điển, tăng tính chính xác khi gióng hàng và giúp cải tiến chất lượng của bản dịch máy

Một ví dụ điển hình về sự nhập nhằng ngữ nghĩa nếu không phân biệt được ranh giới giữa các từ là câu “Ông già đi nhanh quá”,

có thể được hiểu theo các cách khác nhau:

Ngày đăng: 15/09/2019, 22:43

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w