HỆ THỐNG HỎI ĐÁP NGÔN NGỮ TIẾNG ANH CHO MỘT CƠ SỞ DỮ LIỆU QUAN HỆ RỘNG LỚN Do yêu cầu bằng tiếng anh, những người sử dụng cẩu thả sẽ chỉ có thểnhận được những câu trả lời không đầy đủ từ
Trang 1HỆ THỐNG HỎI ĐÁP NGÔN NGỮ TIẾNG ANH CHO MỘT CƠ SỞ DỮ LIỆU QUAN HỆ RỘNG LỚN
Do yêu cầu bằng tiếng anh, những người sử dụng cẩu thả sẽ chỉ có thểnhận được những câu trả lời không đầy đủ từ một cơ sở dữ liệu rộng lớn củachuyến bay và của sự bảo dưỡng dữ liệu sử dụng một hệ thống gọi làPLANES Quá trình thiết kế và thực hiện hệ thống này được mô tả và chứngminh bằng những ví dụ cụ thể về sự hoạt động của hệ thống các linh kiện và
ví dụ tổng quát về hệ thống hoạt động Phần xử lý ngôn ngữ của hệ thống sửdụng một loạt các mạng lưới chuyển đổi, mỗi một hệ thống được gắn kếtnhững cụm từ với một ý nghĩa và khái niệm cụ thể trong đăng ký phạm vi.Những yếu tố này được sử dụng để phán đoán ý nghĩa của các câu hỏi, tạo racác cuộc đối thoại để phân loại những câu hỏi đã được hiểu một phần nào
đó, và giải quyết sự tỉnh lược và những vấn đề liên quan Các phần hệ thốngkhác đặt một yêu cầu bình thường cho cơ sở dữ liệu quan hệ Các phươngpháp được thảo luận để giải quyết những câu hỏi phức tạp và cung cấp khảnăng đọc hiểu các dữ liệu Các cuộc thảo luận về các vấn đề quan trọngtrong chương trình hệ thống ngôn ngữ quốc gia được giới hạn trong lãnh thổ
và mối quan hệ của hệ thống này đối với các hệ thống khác
Các cụm từ và các từ quan trọng: Việc trả lời câu hỏi, CSDL có liênquan, ngôn ngữ tự nhiên, CSDL trước và sau, trí tuệ nhân tạo, cuộc đốithoại, sự phát sinh truy vấn, việc phục hồi thông tin và chương trình ngônngữ tự nhiên: Các cột CR như 3.42, 3.60, 3.69, 3.74, 3.79
1.0 Giới thiệu.
Một cản trở quan trọng đối với những người không thuộc khối kỹ thuật
mà muốn sử dụng vi tính là cần phải học một ngôn ngữ chuyên nghành để cóthể làm việc được với các cỗ máy hoặc liên hệ qua một hệ thống trung gian.Chúng tôi cho rằng đã đến lúc máy tính cần được trang bị những hệ thốngngôn ngữ tự nhiên mà những người sử dụng không được đào tạo về ngônngữ chuyên ngành máy tính cũng có thể sử dụng được Để những hệ thốngnhư vậy có giá trị sử dụng đối với những người sử dụng không thườngxuyên thì hệ thống phải bỏ qua những lỗi đơn giản, phải thể hiện một mức
độ bình thường, phải có một lượng từ vựng tương đối rộng và hoàn thiện đẻ
xử lý các vấn đề, phải chấp nhận một phạm vi cấu trúc ngữ pháp rộng rãi,phải có khả năng cung cấp thông tin nhanh nhạy Theo những cuộc điều tra
Trang 2gần đây các hệ thống ngôn ngữ tự nhiên mang tính nghệ thuật có thể đượctìm thấy trong mục [15.13].
Chúng tôi đang phát triển một hệ thống ngôn ngữ lập trình dựa trên cơ
sở hệ thống yêu cầu (for Programmed LANguage – based Enquiry Systemviết tắt là PLANES) tại trường đại học thực nghiệm kết hợp khoa họcIllinois [12, 26, 27, 28] PLANES bao gồm một hệ thống ngôn ngữ có khảnăng hiểu và trả lời đầy đủ những câu hỏi của người sử dụng và thực hiệnphân loại những loại dữ liệu [4] cũng như có khả năng hiểu và trả lời nhữngcâu hỏi phức tạp và khó định nghĩa Những công việc này đang được thựchiện bằng việc sử dụng một tập hợp con của Navy S – M Mỹ (gọi là duy trì
và quản lý dữ liệu) của dữ liệu bay và sự bảo quản máy bay, mặc dù những ýtưởng có thể được áp dụng trực tiếp cho những tài liệu không có hệ thống dữliệu dựa trên CSDL
1.1 Những mục tiêu của PLANES.
Mục tiêu chủ yếu của chúng tôi là cho phép không một lập trình viênnào thu được thông tin từ một hệ CSDL rộng lớn bằng một lượng kinhnghiệm và kiến thức tối thiểu Để thực hiện mục tiêu này (1) thì phải có một
hệ thống có thể hiểu rõ được trình độ ngôn ngữ của người sử dụng (2), phải
có khả năng hướng dẫn và đào tạo người sử dụng
Chúng tôi đã thực hiện thành công một loạt những mục tiêu thứ yếu
mà chúng tôi thấy những mục tiêu này rất quan trọng để hoàn thành mục tiêuchính của chúng tôi
(1) Một hệ thống phải tiếp nhận việc nạp tiếng anh không theo quy định củangười sử dụng, có thể bao gồm những cấu trúc ngữ pháp phức tạp, việc viếttắt, và việc bỏ từ trong cấu trúc câu Hệ thống này không nên yêu cầu cáccấu trúc câu mang ngữ pháp phức tạp
(2) Hệ thống phải cung cấp những câu trả lời đầy đủ cho các câu hỏi và phải
có khả năng phục hồi một tệp mà có mà có chứa các câu trả lời Hệ thốngnày nên diễn giải các câu trả lời một cách dễ hiểu, bao gồm các đơn vị mà cóthể đa dạng hoá và mô tả cụ thể các câu trả lời
(3) Hệ thống này phải có khả năng chấp nhận những lỗi nhỏ ví dụ: lỗi chính
tả và lỗi ngữ pháp Hệ thống nên gợi ý người sử dụng sửa lỗi sai bất cứ khinào có thể, và nhìn chung nên tiếp tục làm việc với những yêu cầu đã đượchiệu đính mà không đòi hỏi đánh máy lại hoàn toàn
Trang 3(4) Hệ thống này nên sử dụng các mẩu đối thoại đã được phân loại vì một
(c) Thêm từ mới, cụm từ, câu cú vào sự nhận biết cơ bản của máy
(d) Cung cấp thông tin trợ giúp hợp lý đối với lỗi của người sử dụnghoặcnhững yêu cầu trực tiếp để trợ giúp
(e) Cung cấp thông tin về tiềm năng của hệ thống, hệ thống viết tắt, nộidung thông tin của CSDL, hoặc những thông tin khác giúp một người mới
sử dụng có thể định hướng được Đối với một cuộc thảo luận hoàn hảo vềviệc sử dụng các mẩu đối thoại xem mục [4]
(5) Một hệ thống như vậy nên thuận tiện khi sử dụng
a Nó có tính tương tác và trực tuyến
b Nó nên vận hành nhanh Nếu hệ thống phản hồi lại cho người sử dụngtrong một phút hay sớm hơn thì sẽ khiến cho người sử dụng có hứng thú vàngược lại [3] Thậm trí một phút cũng là quá lâu từ khi hệ thống tiếp tụccung cấp thông tin về sự phát triển của hệ thống khi nó khởi hành
c Hệ thống nên yêu cầu tối thiểu về đánh máy, nên tiếp nhận những hìnhthức viết tắt và tỉnh lược
d Hệ thống không cần trả lời tất cả các câu hỏi mà chỉ cần trả lời ở một %nhất định nào đó (VD ở từ mức 75% - 90% hoặc mức độ vừa phải hơn đốivới những câu hỏi hoặc thắc mắc của người sử dụng)
(6) Hệ thống nên được mở rộng một cách dễ dàng cả bên trong hệ thống,CSDL mới và các lĩnh vực của hệ thống
1.1 Sự đánh giá hiện nay của PLANES.
Đây là một bản báo cáo về quá trình làm việc của hệ thống Với tầmnhìn hiện nay của PLANES, chúng tôi đang làm việc để đạt được tất cẩ cácmục tiêu thứ yếu nói trên mặc dù chúng tôi vã chưa thực sự thoả mãn vớimột số giải pháp
(1) Hệ thống chấp nhận một lượng những cấu trúc cú pháp và ngữ nghĩa baogồm cả những mệnh đề quan hệ, so sánh và sự loại bỏ các câu lệnh và có thể
Trang 4chấp nhận thêm "tiếng anh lai" và cả những yêu cầu phi ngữ pháp Hệ thốngphải có khả năng xử lý những hình thức viết tắt và những đại từ thay thế Hệthống có khả năng nhận biết nhiều dạng viết tắt và người sử dụng có thể nạpthêm những dạng mới một cách dễ dàng.
(2) Những câu trả lời rõ ràng và hệ thống cung cấp thông tinkịp thời đáp ứng được yêu cầu của người sử dụng
(3) Hệ thống sửa lỗi chính tả và nạp một lượng lớn những yêucầu phi ngữ pháp
(4) Hệ thống phản hồi lại cho người sử dụng một lời diễn giảicủa truy vấn CSDL hình thức mà nó tạo ra Nó cung cấp thông tin về từ,cụm từ mà nó không hiểu và sẽ tiếp tục đưa ra thắc mắc đến khi nào cácphần chia nhỏ của một yêu cầu đã được hiểu Thường thì những thắc mắcnày đều được xử lý một cách dễ dàng bằng cách sử dụng cơ chế tỉnh lược.Cung cấp tệp bổ trợ phù hợp và cơ chế làm việc dễ hiểu để hướng dẫn người
sử dụng qua thông tin của những yêu cầu đơn giản Các tệp bổ trợ có thểđược yêu cầu trực tiếp và những tệp gốc được cài đặt để phản hồi những lỗi
và thắc mắc của người sử dụng một cách tự động
(5) Quá trính hoạt động là thực hiện yêu cầu điển hình đầutiên với tổng số giây nhỏ hơn thời gian cpu thực hiện một yêu cầu trên một
hệ thống DEC 10 giữa 1 và 4 giây của thời gian này là được sử dụng để sử
lý ngôn ngữ từ xa, và sự ngừng lại để tìm CSDL và trả lời từ xa Nhữngyếu tố này bao gồm việc luận giải những hình thức viết tắt và những yêu cầuphi ngữ ngữ pháp hoặc yêu cầu không đầy đủ và sai chính tả Cho đến nay
về cơ bản hệ thống đã kiểm tra bằng một loạt các đề án Tuy nhiên, chúngtôi mong bắt đầu những cuộc kiểm tra bằng Navy personnel during fall1977
(6) Sự mở rộng của một số hình thức như việc thêm vào một sốnhững thành ngữ mới, những dạng viết tắt có thể được sử dụng trên máy.Hầu hết những dạng mở rông khác là do lập trình viên thực hiện, nhưngchúng ta đã cung cấp những công cụ hiệu đính mang tính mở rộng dùng đểsửa đổi trong PLANES Sự mở rộng đối với một chương trình mới yêu cầumột loạt công việc thực tế được chuyển giao trực tiếp qua nhiều chươngtrình cũ Ngoài ra việc mở rộng sẽ được lưu trữ trước (Xem phần 3.4 và [28]cho thông tin trong việc xử lý nhập một ngôn ngữ tự nhiên đầu cuối)
1.2 Tại sao sử dụng ngôn ngữ tự nhiên?
Trang 5Có nhiều lý do tốt để khiến hệ thống ngôn ngữ tự nhiên là phù hợp hơn
so với bất kỳ CSDL đầu cuối nào, chẳng hạn như "touch – panel, sự phốihợp lựa chọn hoặc hệ thống sử dụng ngôn ngữ dữ liệu có mục đích đặc biệt".Quan trọng nhất, có thể một cụm từ và việc kiểm tra độ phức tạp của các câuhỏi có liên hệ dễ dàng với một hệ thống ngôn ngữ tự nhiên Ví dụ, câu hỏi đãđược mô tả trong mục 4.1 "có phải những chiếc máy bay, những cái màđộng cơ đã được bảo dưỡng trong tháng năm có 10 hoặc nhiều hơn các giờbay trong tháng 6" sẽ là kiến thức tốt cho chúng ta, vượt ngoài khả năng củabất kỳ hệ thống danh mục lựa chọn nào, những hệ thống như vậy dường như
là tốt nhất đối với những tệp cụ thể được chọn để hiển thị Nếu chỉ hiển thịnhững tệp bổ xung mà đáp ứng được những dữ liệu yêu cầu liên quan thì cần
sự kết hợp logic của một số tệp, chương trình mở rộng được sử dụng nhiềuhơn so với việc lựa chọn danh mục Ngôn ngữ dữ liệu đặc trưng có thể sửdụng những mối liên hệ, sự kết hợp phức tạp,nhưng để học một ngôn ngữcần một thời gian đào tạo lâu dài, sau đó nạp những chương trình có thể sẽkhông chính xác hoặc sẽ gặp trục trặc Thuận tiện của hệ thống ngôn ngữ tựnhiên trong các câu hỏi về cụm từ thậm trí sẽ trở nên phức tạp hơn khả nănggiải quyết
Sơ đồ 1: Hoạt động của máy bay
Hãy nhập vào câu hỏi của bạn…
- vào tháng 1 năm 1973 máy bay số 3 đã thực hiện được bao nhiêu chuyếnbay?
Kết quả xử lý thời gian chuyển tiếp và những thông báo đã được in
Tôi đã làm sáng tỏ các yêu cầu của bạn dưới đây
FIND : ALL
: ((VO)): ((SUM(VTOTELTS))): (AND(EQU(VACTDATFMON)1)
(EQU(VACTDATFYR)3) (EQU(VBUSER)3))):NH)
Một cách diễn giải yêu cầu này là: PLANES nghiên cứu những chuyến bayhàng tháng và tóm tắt về quá trình bảo dưỡng và vé khứ hồi Giá trị của tổng
số những chuyến bay cho máy bay nhãn hiệu #3 trong suốt tháng 1 năm
1973
Trang 6Thời gian xử lý chính là 13,53 giây, thời gian thực sự là 53,4 giây.
Hãy nhập câu hỏi của bạn…
Các câu hỏi đã được thảo luận trong mục 5.1 được phát triển đầy đủ hơn.Cho một cuộc thảo luận về những cái có lợi và bất lợi của hệ thống ngônngữ tự nhiên, xem phần 2.2
1.4 Ví dụ về hoạt động của máy bay.
Tất cả những ví dụ trong mục này được nhập từ một bản sao thực tế về sựhoạt động của máy bay trên các câu hỏi mà chúng tôi đã đặt ra Sơ đồ 1 chỉ
ra sự hoạt động của hệ thống máy bay hiện tại trong một câu hỏi đơn lẻ
Sơ đồ 2 chỉ ra phiên họp với thời gian kéo dài nhưng tất cả các câu hỏi vàcâu trả lời đều bị bế tắc Sơ đồ 2 minh hoạ khả năng của hệ thống để giảiquyết cách lược bớt từ trong câu (thông tin bị bỏ sót sẽ được hiểu trong từngvăn cảnh)
Sơ đồ 3 chỉ ra khả năng của PLANES để cung cấp những câu trả lời dướidạng 1 mẫu đồ thị NOR HRS chưa sẵn sàng hoạt động trong vài giờ; ACTDATE có nghĩa là ngày hoạt động; 2001 là ngày đầu tiên của năm 1972
Sơ đồ 4 chỉ ra 1 bài hội thoại ngắn Trước tiên PLANES hỏi những thông tincần thiết của một kỳ để nghiên cứu về CSDL của nó – sau đó PLANES pháthiện ra việc đánh vần sai và đưa ra 2 hướng giải quyết hợp lý cho người sửdụng Một lần người sử dụng chọn cách sửa đúng bằng cách đánh "2", hệthống có thể tiếp tục xử lý mà không cần nhập thêm bất cứ điều gì nữa
Sơ đồ 5 chỉ ra khả năng của PLANES để trả lời những câu hỏi chung về nộidung của nó
Sơ đồ 6 đưa ra một ý kiến về hàng loạt những yêu cầu mà PLANES có thểgiải quyết Ví dụ:(a) Những yêu cầu không chứa đựng phần ngữ pháp,(b)mệnh đề quan hệ,(c) so sánh, (d) câu ghép, (e) những câu loại ra, (f) nhữngđịnh nghĩa về người sử dụng Chúng ta đã tạo dựng lên PLANES như việchoàn thiện phạm vi bao hàm về lĩnh vực hoạt động của nó bao gồm sự đadạng của từ vựng, cấu trúc ngữ pháp (hoặc sự thiếu hụt cấu trúc) và yêu cầu
ý nghĩa Những ví dụ về khả năng của PLANES được thể hiện trong nhữngphần sau
Sơ đồ 2: Một phần bản sao cách trình bày PLANES của cách tỉnh lược
Có bao nhiêu chuyến bay A7 với số hiệu cuối là 003 được thực hiện vàotháng 1 năm 1973?
Trang 82.1 Cơ sở dữ liệu PLANES.
Chúng tôi đã nhận được một CSDL từ Navy 3 – M CSDL cho máy bay, PAbao gồm những hồ sơ (băng, đĩa) hoàn chỉnh về sự bảo dưỡng máy bay vàthông tin về chuyến bay của máy bay 48A7 và máy bay F4, kéo dài trongkhoảng 2 năm Mỗi lần một máy bay phục vụ, một đĩa thu được thực hiệnbao gồm những thông tin như nhiệt độ, thời hạn bảo dưỡng, người khởi động(người thực hiện), những hoạt động được tiến hành, những phần nào đãđược sử dụng, Những nhà sản xuất cho những phần đó, dịch vụ có được thựchiện theo đúng dự kiến hay không vv… Những bản ghi về số chuyến máybay và số giờ bay cũng được lưu trữ trong mỗi máy bay Có khoảng 40 kiểubản ghi khác nhau (hoặc trong thuật ngữ CSDL có liên quan [5, 10] xuấthiện trong CSDL, mỗi cái bao gồm từ 10 đến 20 thuộc tính (lĩnh vực) màmỗi một thuộc tính thể hiện gía trị của nó từ 1 trong 80 lĩnh vực hoạt độngdưới đây như ngày hoạt động, loại máy bay, số lượng máy bay, các loại thựchiện sai chức năng, bộ phận phục vụ, nơi bảo dưỡng …CSDL của chúng tôiđược mô tả chi tiết ở trong phần [28].)
Sơ đồ 4: Các ví dụ về cách tỉnh lược và khả năng kiểm soát lỗi
)) Loại Skyhawks có tốc độ nhỏ hơn 10 giờ
Hãy vào một chu kỳ chi tiết
))Giữa ngày 1 tháng 1 và ngày 1 tháng 6 năm 1973
Tôi không biết ý nghĩa của tháng 6 có thể ****
Hãy vào một số tương ứng với những số dưới đây
(Trả lời câu hỏi)
Sơ đồ 5: Khả năng của PLANES để trả lời câu hỏi về nội dung của nó
Vào một câu hỏi của bạn…
)) Kiểu của các loại máy bay đó là gì?
Đang phân tích…
Trang 9Tiếp theo sau đây PLANES sẽ được công nhận bởi mạng lưới ý nghĩa củatừ.
Các máy bay ở trên có thể nhận biết bằng "số hiệu đuôi"
(thời gian sử lý của cpu là 2,59 giây, thời gian thực là 5,75 giây)
48 máy bay của chúng tôi được chia ra làm 3 nhóm: (1) 24 máy bay bị hỏngtrong tai nạn do sai sót kỹ thuật (2) 12 máy bay với sự bảo dưỡng khôngđảm bảo, kém (3) 12 máy có sự bảo dưỡng tốt Những đĩa ghi tốt, xấu đượcđánh giá bằng cách so sánh tỷ số NOR (Not Operationally Ready) với số giờhoạt động của máy bay Một tỷ số cao thể hiện một đĩa ghi kém, còn một tỷ
số thấp tương ững với một đĩa ghi tốt Ngoài ra, chúng tôi còn có những bảntóm tắt về quá trình bảo dưỡng và dữ liệu về máy bay cho tất cả F4 và F7trong cùng một thời gian là 25 năm Vì vậy chúng tôi có cơ sở để xếp loại sựkiện "bình thường" hay "không bình thường"
CSDL PLANES chứa đựng trong 108 ký tự CSDL này hoàn toàn lớn, sự mô
tả chỉ là một phần nhỏ trong toàn bộ CSDL 3 – M, CSDL mà bay giờ chứađựng trong 1022 ký tự (10 năm hoàn thành dữ liệu trên tất cả máy bay U.SNavy, cùng với các bản tóm tắt)
2.2 Những nhân tố hữu ích trong thế giới PLANES.
Một số nhân tố góp phần làm cho vấn đề của chúng ta dễ dàng giải quyết dễhơn những vấn đề chung của việc hiểu những ngôn ngữ tự nhiên khônggượng ép Đó là:
(1) Sự thiếu hụt về nghiã của từ vựng Một số ít từ và gần như không
có câu nào trong thế giới PLANES là rõ ràng Những ví dụ về 1 con số nhỏhơn những từ không rõ nghĩa mà chúng ta có thể tìm thấy như "wing" (nghĩa
là một "phi đội" hoặc "một phần của máy bay") và "flight" (nghĩa là "kết quảmột chuyến bay" hoặc một phụ trợ, như trong "tính toán bay" hay "điều
Trang 10khiển bay") Hầu như không có từ nào mang nghĩa rõ ràng nếu thông tin cúpháp (một phần của câu hỏi), có thể được quyết định Điều này gợi ra rằngnếu PLANES có thể tìm thấy một sự giải thích nào đó cho một từ trong mộtyêu cầu, đó là tất cả khả năng cho sự giải thích đúng.
(2) Vốn từ vựng nhỏ Hệ thống hiện tại của chúng tôi có khoảng 900
từ chúng tôi ước tính rằng 1200 từ sẽ chiếm 90% hoặc nhiều hơn tất cảnhững yêu cầu mà người sử dụng đưa ra với ít nhất là một chút kinh nghiệm
về PLANES
(3) Thiếu phương thức PLANES thường trả lời câu hỏi từ CSDL,vừa cố gắng giúp đỡ người sử dụng thể hiện yêu cầu của mình theo cách màPLANES có thể hiểu được, chấp nhận những định nghĩa mới hoặc cung cấp
sự giúp đỡ Có rất ít khó khăn trong mọi quyết định phương thức chính xác
từ dữ liệu đưa cho người sử dụng
(4) Con người không nhập được những câu phức tạp Các lỗi đánhmáy ngày càng tăng đối với các câu hỏi dài Khả năng tăng các câu hỏi dài
sẽ làm cản trở một chương trình trong một khía cạnh nào đó, và sự lười nháccũng góp phần giữ những dữ liệu đưa vào ngắn gọn và đơn giản hơn về cấutrúc câu Malhotra (17) đã thực hiện một thí nghiệm trong đó không mộtngười thiết kế chương trình nào nghĩ rằng họ đã giao tiếp với nhau qua bànphím với một chương trình thông minh, khi trong thực tế họ đang trao đổivới người khác, người này sẽ đáp lại một cách chính xác những gì họ nhậnđược Ông nhận thấy rằng 10 câu đơn giản chiếm khoảng 78% những câuhỏi đưa vào, và 10 câu khác sẽ giải quyết tất cả nhưng chỉ với 10% nhữngcâu hỏi
(5) Ít hơn 100% câu trả lời được chấp nhận Chúng tôi nghĩ rằng 90%câu trả lời không yêu cầu người sử dụng diễn đạt đầy đủ hơn để đảm bảo lợiích của người sử dụng và cung cấp một hệ thông thực tế và hữu ích Chúngtôi có kế hoạch kiểm tra chất lượng của hệ thống một cách trực tiếp
(6) Chúng tôi có một ý tưởng tốt mà những người có tiềm năng sửdụng nguồn dữ liệu này muốn tiếp cận Hãng Navy đã có một nghiên cứu vềtất cả những yêu cầu cho nguồn dữ liệu 3 – M trong suốt một tháng và đãthu được kết quả Do vậy chúng tôi đã có quyết định tập chung vào những
nỗ lực đầu tiên và kế hoạch thực hiện của chúng tôi Phần tóm tắt của nhữngnghiên cứu này được ghi chép ở mục [28]
Những kết quả nghiên cứu này đã giúp chúng tôi giảm nhẹ trọng trách khilập kế hoạch và thực hiện hệ thống PLANES Tuy nhiên chúng tôi phải tạmdừng giải quyết các vấn đề cụ thể tương đối liên quan tới mục đích lâu dàicủa chúng tôi là một chương trình xử lý ngôn ngữ tầm cỡ và khái quát Hệ
Trang 11thống PLANES không tham vọng cung cấp một bản sao toàn vẹn về ngônngữ nhân loại mà chỉ giúp những người sử dụng hướng tiếp cận kỹ nghệ.
2.3 Các yếu tố không có nhiều lợi ích.
(1) hệ thống bắt buộc có nội dung lớn về từ chuyên nghành Từ đó cho thấymột số lượng nhỏ quy tắc chung không thể đủ để dịch tất cả các từ từ tiếnganh sang các thứ tiếng được yêu cầu khác Xem xét các câu sau: "Which A7has the worst maintenance record?" hoặc "Find any common factors of planenumbers 37 and 38" Chương trình rõ ràng phải sử dụng chương tình chuyênnghành để dịch từ "maintenance record" và để đánh giá "goodness" của nó
Hệ thống này cũng phải thừa nhận một thực tế: nếu hai chiếc máy bay cóchung ký hiệu thứ tự trong dãy số ký hiệu thì cũng không thể kết luận chúng
là những vật thể giống nhau được Tuy nhiên nhận ra rõ điều này cũng nhưkết luận về các dữ liệu giống nhau là rất quan trọng Hơn thế, những người
sử dụng máy khác nhau cũng có những quan niệm khác nhau do
"maintenance record" quy định, ví dụ: Một bản phân tích về giá cả , bản tổngkết về thời kỳ suy thoái hay một loạt các hoạt động được thể hiện
(2) Có thể có nhiều cách diễn đạt khác nhau cho một yêu cầu Rõ ràng rằng,nếu một người được khuyến khích ngồi trước máy mà được nhận rất ít hoặckhông có những chỉ dẫn hay hướng dẫn ưu tiên nào và nếu một hệ thống có
đủ thông tin cho người sử dụng và hiển thị các chương trình hữu ích ngay từđầu Do đó, hệ thống này phải có khả năng giải quyết một lượng lớn cáckiểu câu hỏi và một hệ thống cấu trúc ngữ pháp sâu rộng
3.0 Chương trình hoạt động của PLANES.
Quá trình hoạt động theo 4 bước: Phân tích câu, tạo yêu cầu, đánh giá và đưa ra đáp án (xem sơ đồ 7).
(1) Bước đầu tiên, Phân tích câu được thực hiện nhờ việc kết gắnthông tin dựa vào "subnets" (Mẫu cụm từ được lưu trữ như mạng lưới ATN[3]) và "concept case frames" (mẫu câu có nghĩa) Các câu đã nối đượcchuyển thành hàng loạt các bộ phận có nghĩa lộn xộn ở các vế câu Phép tỉnhlược và cách phát âm lại được đưa ra Các vế câu được xác định nhờ tự tìmtòi phân tích cú pháp (xem phần 4.0)
(2) Bước tạo yêu cầu: hàng loạt các thành phần câu có nghĩa dongười sử dụng nêu ra được dịch khái quát rồi phát ra dữ liệu để trả lời yêucầu Theo như nghiên cứu của chúng tôi thì cách tìm hữu hiệu nhất là: chính
Trang 12những thành phần có nghĩa không trật tự trong câu thường xuyên làm rõnghĩa của yêu cầu một cách lạ thường Luật này được chấp nhận, ví dụ cáccụm từ tương đương ("có phải máy bay số 3 có nhiều chuyến bay hơn máybay số 2 không?", không giống như "có phải máy bay số 2 có nhiều chuyếnbay hơn máy bay số 3 không?"(xem phần 4.0 để tham khảo thêm)) Bướcnày cung cấp những kiến thức cụ thể về CSDL Ví dụ chương trình biết phầnnào của CSDL chứa đựng mối quan hệ, mã số sẽ được sử dụng để trình bàycác phần thông tin khác Chương trình này lập nên bắt nguồn từ nhu cầungôn ngữ của chúng ta, quá trình thực hiện của Alph DSL (6) Yêu cầu được
bộ phận diễn giải thực hiện và đưa ra trả lời cho người yêu cầu
(3) Bước đánh giá: Nhờ bộ phận tạo yêu cầu của bước trước để đánhgiá CSDL rồi tạo lập phần trả lời Giai đoạn này hoạt động nhờ mẫu dữ liệuliên quan (5) có tên Codd và theo các dây truyền do Palermo đưa ra (21).Bước này bao gồm các chỉ dẫn cho sự tối ưu hoá tốc độ và lưu trữ các yêucầu trung gian của sự tìm kiếm CSDL
(4) Bước đánh giá kết quả dữ liệu chuyển để đến bộ phận tạo trả lời.Lúc này màn hình có thể hiểu thị phần trả lởi theo 3 dạng khác nhau: Đồ thịbảng, bản kê theo số thứ tự Dạng hiển thị kết quả do người sử dụng thôngqua yêu cầu trực tiếp (VD vẽ đồ thị của…) hoặc bằng kinh nghiệm bản thân
để làm ra mẫu phù hợp nhất Ví dụ, kết quả dữ liệu hiển thị ở dạng đồ thị chỉkhi các kết quả đó bao gồm các cặp số đóng vai trò như các biến số Hơnthế, các bộ dữ liệu chắc chắn nằm trong các khung cố định, do vậy toàn bộkết quả thu được hiển thị trên màn hình CRI Trong quá trình thực hiện, kếtquả của mỗi bước được gửi tới đăng ký phạm vi, đăng ký phạm vi bao gồmmột ngăn nhớ của thông tin có liên quan Ngăn nhớ này bao gồm thông tin
về ngữ nghĩa và ngữ cảnh (VD: chu kỳ và dưới sự xem xét loại máy bay ),
nó có vai trò rà soát các nguồn tham khảo trùng lặp Mỗi một cụm từ chínhđược mô tả cụ thể ở những phần tiếp theo Chúng ta sẽ sao lại một yêu cầuđơn đơn giản bằng tất cả các cụm từ trong quá trình làm việc Giả định rằng
hệ thống đã trả lời thành công các câu hỏi "Tốc độ của máy bay A7 nào nhỏhơn 5 giờ bay trong tháng 2 năm 1973?" sau đó chúng tôi sẽ đưa ra nhữngyêu cầu sau: "Nói cho tôi tốc độ của máy bay nào đạt từ 10 đến 20 giờ baytrong tháng 1." (chú ý lỗi chính tả của từ "between")
(5)
3.1 Phân tích câu:
"Phân tích câu " trong hệ PLANES liên quan đến 4 quá trình hoạt động:(1) Nạp từ và cụm từ vào công thức chuẩn và đúng chính tả
Trang 13(2) Kết hợp với kiểu cụm từ được nạp (những mạng cấp thấp) và tạo mộtthanh công cụ.
(3) Kết hợp giá trị thanh công cụ với kiểu dáng khung khái niệm
(4) Điền vào thông tin bị lỗi bằng những yêu cầu, thắc mắc có nghĩa
(5)
3.2 Nạp từ và cụm từ vào công thức chuẩn.
Trước hết người phân tích câu phải kiểm tra để đảm bảo hiểu được các từđược nạp vào Những dữ liệu và cụm từ gốc có thể được thay thế bằngnhững từ đồng nghĩa và những từ đơn có thể được thay thế bằng nhữnh cụm
từ đã được ấn định (VD: "USA" thay thế cho The United State of America )Nếu nạp một từ vào máy mà không được tìm thấy trong từ điển thì sửa lỗichính tả sẽ được hiển thị Nếu dạng này mở được cửa từ điển đóng thì tiếptục nạp những phương thức được miêu tả ở mục [25] Nếu tìm được một haynhiều thông tin thì một thông điệp hợp lý sẽ được hiển thị cho ngườic sửdụng Và nếu một trong số những thông tin đó thì nó sẽ chèn lên vị trí của từsai lỗi chính tả Nếu không tìm thấy bất kỳ một từ đúng nào thì hệ thống sẽnạp vào một nội dung cần thiếtđể tiếp tục nạp nội dung của người sử dụngvào từ điển Người sử dụng có thể làm cho hệ thống lờ đi và tiếp tục hoạtđộng
VD1: Chúng tôi đưa ra câu hỏi: "Nói cho tôi chiếc máy bay nào bay với tốc
độ giữa 10 đến 20 tiếng trong tháng 1", thì người phân tích sẽ nhận ra rarằng "betwen" không có trong từ điển Công cụ sửa lỗi chính tả phát hiện ra
từ "between" giống từ "betwen" nhất trong từ điển Do đó nó sẽ phản hồi lạithông điệp sau: (từ "betwen" là lỗi chính tả của từ "between") "yes" or "no".Khi người sử dụng bấm "Yes" thì hệ thống sẽ thay đổi từ "betwen" thành
"between" và "flighthours" được thay bằng "flight hours" và "January" đượcthay bằng "Jan" Do đó yêu cầu ban đầu bạn nạp vào là "Tell me which oneslogged betwen 10 and 20 flighthours in Jan" sẽ được thay bằng "Tell mewhich ones logged between 10 and 20 flighthours in January"
3.3 Kết hợp các cụm từ.
Phần này và ngững phần tiếp theo sẽ là trọng tâm của quá trình biểudiễn hiểu ngôn ngữ Nó chính là phần giải quyết đại từ thay thế và phần tỉnhlược và có quá trình nỗ lực của chương trình tổng quan cho hệ thống được
mở rộng Quá trình này được các mạng cấp thấp giải trình
Trang 14Mỗi một mạng cấp thấp là một người đóng vai trò phân tích cụm từ ATN[31] mà kết hựp cụm từ với một nghĩa cụ thể.Có những mạng cấp thấp chomỗi ngữ nghĩa khác nhau trong thế giới của PLANES ví dụ: kiểu máy bay,kiểu ngày, thời gian và kiểu duy trì chức năng, kiểu linh kiện máy bay…Một số ví dụ của các cụm từ mà mạng cấp thấp cho kiểu máy bay sẽ gắn với
"A7", "Phantom" hoặc"Skyhawk" hoặc "ones" (một số kiểu máy bay đượcthay thế bằng "ones"), "số hiệu máy bay A49732" và "chiếc máy nào baythuộc loại A7 đã bị đâm vào tháng 5" Hầu hết các "subnets" kết hợp với cụmdanh từ hoặc cụm giới từ Cấu trúc của subnets dựa trên sự phân tích cụm từcủa Winograd [30] Những định lượng (VD: "đầu tiên", "cuối cùng", "ơnnữa", "lớn nhất"…) do subnet đặc dụng giải quyết cũng như những địnhlượng (như những từ in nghiêng trong cụm từ "A7's which crashed in May")Phần 8 cho biết subnet mà kết hợp các cụm từ ám chỉ số lượng
Những subnets được nắp đặt vào các yêu cầu ngay sau đó Khi mộtsubnet kết hợp với một cụm từ mà cụm từ đó lưu trữ đồng thời với thông tin
mà subnet gắn với nó, và sự lưu tâm của máy bay được chuyển sang phầntiếp theo của yêu cầu Cũng như một phần của cụm từ này "noise words" ámchỉ cụm từ giống như "Please tell me", "can you tell me", "would you let meknow", "could you find"…
Ví dụ 2 Cho phép chúng tôi tiếp tục cho đến khi kết thúc ví dụ: Cung cấp dữliệu từng phần phù hợp với phần trước là: "Tell me which ones (fly past)between 10 and 20 flighthours in January" Trong giai đoạn này, các từ "tellme" đã được hiểu và câu đã được phân tích thành mẫu:
(*qword *nphrl *actl *quant-phrase * nphr2 *timepp)
Tại nơi bắt đầu các mẫu có giá trị dưới đây
*quant-phrase (>10,<20)
(*nphrl thay cho cụm danh từ, *qword thay cho từ để hỏi, *quant-phrase cho
số lượng câu hỏi và *timepp cho thời gian một kỳ)