1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống tìm kiếm sản phẩm theo hướng đánh giá của cộng đồng người dùng

81 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 5,99 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Với mong muốn xây dựng một hệ thống tìm kiếm thông tin sản phẩm theo hướng đánh giá của cộng đồng người sử dụng trên mạng Internet ở Việt Nam, đồ án tốt nghiệp đã đi sâu tìm hiểu những l

Trang 1

LÝ TRUNG HUY

XÂY DƯNG HỆ THÓNG TÌM KIỂM

SẢN PHẨM THÈO HƯỚNG ĐÁNH GIÁ CỦA CÔNG ĐỒNG NGƯỜI DÙNG

ĐỒ ÁN TÓT NGHỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN

CÁN B ộ HƯỚNG DẪN HUỲNH TUẤN ANH

NHA TRANG-2011Ì1 .— - — i ;

Trang 2

HIỆU TRƯỞNG TRƯỜNG ĐẠI HỌC NHA TRANG

- Căn cử quy chế về tổ chức đào tạo, kiểm tra , thi và công nhận tốt nghiệp Đại học

và Cao đẳng hệ chính quy ban hành theo quyểt định số 04/1999/QĐ-BGD & Đ T ngày 11/02/1999 của Bộ trưởng Bộ Giáo dục và Đào tạo.

- Căn cứ quy định của Trường Đại học Nha Trang về công tác tốt nghiệp.

QUYẾT ĐỊNH

Điều 1: Nay giao cho Sinh viên: Ưjf T.íl\ẢJ\j.6r At.U.Vf MSSV:.ư0Ả3.Q.7y(ỠJ ^

Khóa: ly.Ẻ Chuyên ngành: X K sng X.líon^ TX>^1

Đồ án tốt nghiệp: Xoa ^ -ÌX.MỈCOC'^ c-fi.UA 3c3jỉi ỹl.'vwưì 'rđ£ư_£>

N n i rìu n ơ ih ir r h i ê n

: X*W\ỹuddon .Ổw^ Cưv.sSC,.LC./ LvíifiM

.A lt <\ũy. .ctOoA . jys£ ^Xữỳmn (VIc .SC.CK.

Nơi thực hiện:

Thời gian thực hiện: Từ ngày 21/02/2011 đến ngày: 06/06/2011

Hoàn thcinh và nộp báo cáo trước ngày 10/06/2011 cho cán bộ hướng dẫn.

Diều 2: Ông, B à ^v^.n^ W ắU ríW lX \ có nhiệm vụ hưóng dẫn sinh viên thực hiện Đồ án tốt nghiệp theo quy chế của Bộ và theo quy định sổ 120 TB/ĐT ngày 15/03/2001 của Hiệu trưởng về thực hiện công tác tốt nghiệp.

Trường Bộ m ôn /IXrit\ek^.r^S6iíj5Íì'KỊ có trách nhiệm theo dõi, kiểm tra việc

thực hiện công tác tốt nghiệp của sinh viên do khoa giao cho Bộ môn quản lý và định kỳ báo cáo về Trưởng khoa.

Diều 3 : Sinh viên: l^.T Ữ «A ^ 'rt^ị phải nghiêm chinh chấp hành nội quy,

quy định cùa Trường và nơi thực tập, khắc phục khó khăn để hoàn thành Đồ án đuợc giao.

TL.HIỆU TRƯỞNG

Công nghệ Thông tin

fĩ ẽ M ư - Ún

Trang 3

LỜI CAM ĐOAN VÀ XÁC NHẬN

Tôi - Lý Trung Huy - cam kết đồ án tốt nghiệp này là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của của thầy Huỳnh Tuấn Anh

Các kết quả nêu trong đồ án tốt nghiệp là trung thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác

Nha Trang, ngày 31 thảng 5 năm 2011

Tác giả ĐATN

Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của đồ án tốt nghiệp và cho phép bảo vệ

Nha Trang, ngày tháng năm 2011

Giáo viên hướng dẫn

HUỲNH TUẨN ANH

Trang 4

LỜI CẢM ƠN

Lời đầu tiên em xin chân thành cảm ơn thầy HUỲNH TUẤN ANH, khoa CNTT,

ĐH Nha Trang Thầy đã tận tình hướng dẫn và định hướng cho em trong quá trình thực hiện đồ án này

Em xin bày tỏ lòng biết ơn sâu sắc tới các thầy cô trường ĐH Nha Trang, đặc biệt là các thầy cô Khoa CNTT Các thầy cô đã tận tình chỉ bảo, giảng dạy cho em rất nhiều kiến thức và kỹ năng hữu ích trong suốt bốn năm học

Em cũng xin cảm ơn gia đình, bạn bè, anh chị em đã luôn giúp đỡ, động viên và tạo điều kiện thuận lợi để hoàn thành đồ án này cũng như trong suốt những năm học vừa qua

Gửi lời cảm ơn đặc biệt đến bạn Thăng lóp 49™ và anh Đường lớp 47™ - ĐH Nha Trang đã làm rõ và cung cấp cho tôi những kiến thức cơ bản về JavaScript và Ajax Tôi cũng xin chân thành cảm ơn em Lyo lớp 52KD2 - ĐH Nha Trang và em Dung khoa QTKD - ĐH Bách Khoa Hà Nội đã giúp tôi hoàn thành bảng các tiêu chí đánh giá sản phẩm của cộng đồng người dùng Chân thành cảm ơn em Tươi lớp 50KD1 -

ĐH Nha Trang và em Châu khoa Ngân hàng - ĐH Kinh tế TP.HCM đã cung cấp cho tôi những kiến thức cơ bản về kinh tế, tài chính

Nha Trang, 5-2011

Trang 5

BÓ CỤC ĐÒ ÁN

Đồ án được chia làm các phần chính sau:

1 Chương 1: Tìm hiểu về các hệ thống tìm kiếm

Tìm hiểu về lịch sử, mô hình, đặc điểm các hệ thống tìm kiếm trên Webs, hệ thống tìm kiếm theo hướng đối tượng

2 Chương 2: Tìm hiểu công cụ SOLR, LUCENE

Tìm hiểu về mô hình, đặc điểm, các thức sử dụng công cụ tìm kiếm SOLR và LUCENE

3 Chương 3: Tìm hiểu về kỹ thuật rút trích thông tin

Tìm hiểu về kỹ thuật rút trích thông tin

4 Chương 4: Bài toán tìm kiểm sản phẩm theo hướng đánh giá của cộng đồng người dùng

Bài toán về tìm kiếm sản phẩm theo hướng đánh giá của cộng đồng người sử dụng Mô hình đề xuất để giải quyết bài toán này

5 Chương 5: Xây dựng hệ thống và các công nghệ được sử dụng

Trình bày các mô hình, các module và các bước xây dựng hệ thống Đề cập đến các công nghệ được sử dụng để xây dựng hệ thống:

6 Chương 6: Tổng kết

Kết quả thử nghiệm của hệ thống và đánh giá tổng quan về hệ thống

Trang 6

1.1.2 Đặc điểm của các hệ thống tìm kiểm trên Webs 5

1.3.2 Đánh giá sản phẩm của cộng đồng người dùng 10

Trang 7

3.3.3 PR 24

CHƯƠNG 4 BÀI TOÁN TÌM KIẾM SẢN PHẨM THEO HƯỚNG ĐÁNH

4.3.1 Tiếng Việt, tiếng Việt không dấu và tiếng Việt biến dạng 32

Trang 8

DANH MUC THU AT NGlT VA CAC TU' VIET TAT

5." j -■ NE Named Entity recognition •

6 1 NPL Natural Language Processing Xử lý ngôn ngữ tự nhiên

ST Scenario Template production : ■ ' v : ; ‘ :

8 TE Template Element construction " ~

9 TR Template Relation construction

Foundation

Trang 9

MỞ ĐÀU

Theo báo cáo NetCitizens Việt Nam của Cimigo vào tháng tư năm 2011, trong vòng

10 năm trở lại đây, tỷ lệ sử dụng Internet tại Việt Nam có tổc độ tăng trưởng nhanh nhất trong khu vực Theo những con số chính thức, 31% dân số Việt Nam có truy cập Internet và mỗi năm có thêm khoảng 2-3 triệu người gia nhập Hệ thống tìm kiếm trên Internet cũng được rất nhiều người sử dụng, chỉ tính riêng Google đã có 88-97% người dùng Phần lớn người dùng nghĩ Internet là nơi hữu ích để tìm hiểu

về những nhãn hiệu, thông tin sản phẩm, tuy nhiên thì có đến 60% không tin vào hệ thống thanh toán trực tuyến Hiện tại hệ thống tìm kiếm thông tin sản phẩm vẫn còn hạn chế, chỉ bao gồm tìm kiếm sản phẩm thuộc một số trang webs bán hàng

Với mong muốn xây dựng một hệ thống tìm kiếm thông tin sản phẩm theo hướng đánh giá của cộng đồng người sử dụng trên mạng Internet ở Việt Nam, đồ án tốt nghiệp đã đi sâu tìm hiểu những lý thuyết và công nghệ tìm kiếm, rút trích thông tin

và đề xuất mô hình xây dựng hệ thống tìm kiểm sản phẩm theo hướng đánh giá của cộng đồng người sử dụng tại Việt Nam

Hoạt động kinh doanh trực tuyến là một thị trường rất “béo bở” trong tương lai Một

hệ thống tìm kiếm sản phẩm theo hướng đánh giá là điều kiện cần thiết để phát triển cho các hoạt động kinh doanh trực tuyến này

Trang 10

Nội dung của chương này sẽ trình bày các vấn đề sau:

• Các hệ thống tìm kiểm trên Webs

• Các hệ thống tìm kiếm hiện có ở Việt Nam

• Hệ thống tìm kiếm thông tin sản phẩm

dữ liệu trên Internet (File Transfer Protocol), Archie tương đồng với hầu hết các công cụ tìm kiếm web hiện đại khác: dò tìm dữ liệu, thiết lập chỉ mục và đặt giao diện tìm kiếm Nhưng giao diện của Archie không thuận tiện với người dùng lắm, chỉ có các chuyên gia và nhà nghiên cứu thực sự mới sử dụng Archie, họ có thể truy vấn máy tìm kiếm qua kết nối trực tiếp với máy chủ Archie bằng giao diện dòng lệnh, truy vấn bằng những từ khóa phù hợp với tiêu đề của tên file rồi nhận được một danh sách các địa chỉ có chứa file phù hợp nào đó, sau đó họ kết nối với máy tính và tra soát trong đó xem có dữ liệu họ đang cần không

Trang 11

Tiếp theo đó, năm 1991 McCahill của đại học Minnesota đã sáng tạo ra “Gopher” Nếu như Archie đánh chỉ mục các tên file thì Gopher đánh index các văn bản text đơn giản, cho phép người dùng kết nối trực tiếp vào tài liệu truy vấn thay vì chỉ kết nổi vào máy có chứa tài liệu đó Hai chương trình "Veronica" và "Jughead" được tạo ra sạu đó tìm kiếm các file trong hệ thống các file index của Gopher Veronia là chương trình do sinh viên trừong Đại học Nevada tạo ra vào năm 1993 lấy tên từ một vở kịch Veronia hoạt động tương tự như Archie nhưng thay thế cho Gopher, môt chuẩn chia sẻ dữ liệu trên Internet cho giao thức FTP khá đặc trưng và phổ biến Cả Archie, veronica đểu thiếu khả năng về ngữ nghĩa bởi vì chúng không chỉ mục vào toàn văn bản mà chỉ tới tiêu đề của tài liệu Điều đó có nghĩa người tìm kiếm phải biết hoặc phải suy luận được tiêu đề của tài liệu mà người đó đang tìm.

, Khi Internet phát triển mạnh thì công cụ tìm kiếm cũng phải được nâng lên tương xứng Máy dò hay robot đã giải quyết được vấn đề này Máy dò là một loại robot tự động lập chỉ mục cho các trang web, nó chạy khắp trên mạng một cách hệ thống để thu thập các trang web và khi các trang web xuất hiện ngày một nhiều thì nó cũng

tự động điền thêm vào hệ thống dò tìm Máy dò tìm đầu tiên được tạo ra bởi Matthew Gray, một sinh viên trường MIT vào năm 1993 có tên là World Wide Web Wanderer Tuy nhiên máy dò của Gray có một tác động không mong muốn khác trong những ngày đầu thời kỳ web Lúc ấy băng thông rất nhỏ và hiếm nên nhiều nhà quản trị nhận thấy rằng máy dò tốn quá nhiều xử lý và chu trình băng thông do

nó phải trỏ vào chính nội dung của trang web Sau đó Gray phải ngắt bỏ nhện web (crawler), cài đặt nó bằng thuật toán theo chiều ngang để mở rộng nhiều trang trước khi tìm kiếm Quy trình này hiệu quả hơn và hiện vẫn còn đang được sử dụng ngày nay

Máy dò sớm bị các công cụ mạnh hơn thay thể Một trong những công cụ đầu tiên

đó là webcrawler được một nhà nghiên cửu thuộc đại học Washington tên là Brain Pinkerton phát triển Pinkerton nảy sinh dự định đối với công cụ tìm kiểm và công nghệ liên quan đến chỉ mục trang web từ năm 1994 Đây là một bước đơn giản để

Trang 12

chương trình đầu tiên chỉ mục toàn văn tài liệu trên trang web tìm được Vào tháng

tư năm 1994, Pinkerton đã đưa dự án không chuyên này của mình lên mạng

Năm 1993, Excite được giới thiệu bởi 6 sinh viên trường đại học Stanford Hệ thống này sử dụng sự phân tích thống kê mối quan hệ từ để trợ giúp cho quá trình search Chỉ sau 1 năm, Excite đã được tích hợp và đưa lên online vào tháng 12 năm 1995 và đến nay vẫn là một phần của công ty AskJeeves

EINet Galaxy (Galaxy) được thiết lập vào năm 1994 là một phần của tổ chức nghiên cứu MCC Research Consortium thuộc đại học Texas Sau đó Galaxy được đặt hàng bởi trường đại học và chuyển qua một vài công ty khác nhau, đến nay nó trở thành một tổ chức độc lập Galaxy được tạo ra giống như một danh mục, bao gồm cả Gopher và chức năng search telnet trong chức năng search web

Jerry Yang and David Filo đã tạo ra Yahoo vào năm 1994, khởi đầu như một danh sách các website yêu thích có đường dẫn URL và mô tả nội dung trang Trong vòng

2 năm sau đó, công ty Yahoo ra đời

Lycos cũng được giới thiệu vào năm 1994 Đây là một search engine lớn, đã index được hơn 60 triệu documents vào năm 1996 - lượng dữ liệu lớn nhất trong tất cả các search engine thời kỳ đó Giống như nhiều search engine khác, lycos được phát triển trong môi trường trường đại học Camegie Mellon bởi Dr Michael Mauldin

Infoseek online vào năm 1995, công cụ này đã không mang được điều gì thực sự mới mẻ cho ngành công nghiệp search Hiện nay thì infoseek được sở hữu bởi tập đoàn Walt Disney với domain là Go.com

Trang 13

Năm 1995 Alta Vista ra đời Đây là search engine đầu tiên cho phép sử dụng các queries là ngôn ngữ tự nhiên và có công nghệ search ưu việt Người ta nói rằng tạo

ra Altavista.com là một kỳ tích Tập đoàn Digital Equipment Corp (DEC) khi đó vừa ra mắt bộ xử lý Alpha siêu tốc và tìm cách chứng minh sức mạnh của bộ xử lý này Do cơ sở dữ liệu dung lượng lớn đang là tâm điểm của thị trường các công ty công nghệ thông tin, DEC cần một cơ sở dữ liệu như thế để tìm kiếm Đồng thời với

nỗ lực chứng minh qua những thông tin tích cực, công ty này cũng cần những chiêu

PR hấp dẫn Đó là xây dựng một hình ảnh giúp công ty chiếm được sự chú ý của mọi người bằng ấn tượng về một công ty đi đầu về công nghệ Louis Moninter, một nhà nghiên cứu thuộc Trung tâm Western của DEC tại Palo Alto, bang California đã

đề xuất xây dựng một công cụ tìm kiếm có thể tải toàn bộ mạng Internet (cơ sở dữ liệu dung lượng lớn) xuống máy tính tích hợp bộ xử lý Alpha, sau đó tạo ra một chương trình có thể ứng dụng tốc độ xử lý của Alpha (đó là máy tìm kiểm) Altavista ra đời từ đó Mặc dù thất bại sau này nhưng Alta vista vẫn thực sự ấn tượng do một vài lý do So với hiện nay, Alta vista là một Google thời bấy giờ

Inktomi được khởi đầu vào năm 1996 tại u c Berkeley Vào tháng 6 năm 1999, Inktomi giới thiệu một directory search engine dựa trên công nghệ "concept induction" Theo như giới thiệu của công ty này thì "concept induction" có khả năng tiến hành phân tích thói quen của người sử dụng để đưa ra các trang gợi ý Inktomi được bán cho Yahoo vào năm 2003

Năm 1997 AskJeeves và Northern Light cùng ra mắt

Năm 1997 Google ra mắt như một dự án nghiên cứu tại trường Đại học Stanford bởi hai nhà sáng lập Sergey Brin và Larry Page

Năm 1998 MSN Search và Open Directory ra đời, sau đổi tên thành Bing

Cuil là máy tìm kiếm được công bố có số lượng chỉ mục lên tới 121 tỉ trang web, bắt đầu đi vào hoạt động từ ngày 28 tháng 7 năm 2008 Chính sách riêng tư mà Cuil

Trang 14

đưa ra là nói không với việc cất giữ hoạt động tìm kiếm và địa chỉ IP của những người sử dụng, trong khi các máy tìm kiếm khác thì thu thập những thông tin này Trong những người sáng lập ra Cuil có tới 3 người từng làm việc cho Google, gồm có: Anna Patterson, Russell Power và Louis Monier Đồng sáng lập Tom Costello (hiện nắm chức vụ CEO của Cuil) đã từng làm việc cho IBM và một số công ty khác Cuil nhận được 33 triệu USD từ các công ty đầu tư mạo hiểm trong đó có Greylock Công nghệ tìm kiếm được trang web này tuyên bố rằng có khả năng phân tích ngữ nghĩa văn bản nhờ áp dụng các công nghệ mới nhất trong xử lý ngôn ngữ

tự nhiên để đưa ra kết quả phù hợp thay vì chỉ áp dụng các thuật toán tìm kiếm thuần túy dựa trên từ khóa và thứ hạng trang (PageRank)

1.1.2 Đặc điểm của các hệ thống tìm kiếm trên Webs

Các hệ thống tìm kiểm trên Webs đều có các bộ phận chính sau:

> Bộ thu thập thông tin - Robot

Robot là một chương trình tự động duyệt qua các cấu trúc siêu liên kết để thu thập tài liệu & một cách đệ quy nó nhận về tất cả tài liệu có liên kết với tài liệu này Robot được biết đến dưới nhiều tên gọi khác nhau : spider, web wanderer hoặc web worm Những tên gọi này đôi khi gây nhầm lẫn, như từ “spider”, “wanderer” làm người ta nghĩ rằng robot tự nó di chuyển và từ “worm” làm người ta liên tưởng đến virus, v ề bản chất robot chỉ là một chương trình duyệt và thu thập thông tin từ các site theo đúng giao thức web Những trình duyệt thông thường không được xem là robot do thiếu tính chủ động, chúng chỉ duyệt web khi có sự tác động của con người

> Bộ lập chỉ mục - Index

Hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích và xử lý dữ liệu, thực hiện việc phân tích, trích chọn những thông tin cần thiết (thường là các từ đ ơ n , từ ghép , cụm từ quan trọng) từ những dữ liệu mà robot thu thập được và tổ chức thành cơ sở

dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả Hệ thống chỉ mục là danh sách các từ khoá, chỉ rõ các từ khoá nào xuất hiện ở trang nào, địa chỉ nào

Trang 15

> Bộ tìm kiểm thông tin - Search Engine

Search engine là cụm từ dùng chỉ toàn bộ hệ thống bao gồm bộ thu thập thông tin,

bộ lập chỉ mục & bộ tìm kiếm thông tin Các bộ này hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn nhau về mặt dữ liệu nhưng độc lập với nhau về mặt hoạt động

Search engine tương tác với user thông qua giao diện web, có nhiệm vụ tiếp nhận & trả về những tài liệu thoả yêu cầu của user

Nói nôm na, tìm kiếm từ là tìm kiếm các trang mà những từ trong câu truy vấn (query) xuất hiện nhiều nhất Một từ càng xuất hiện nhiều trong một trang thì trang

đó càng được chọn để trả về cho người dùng Và một trang chứa tất cả các từ trong câu truy vấn thì tốt hơn là một trang không chứa một hoặc một số từ Ngày nay, hầu hết các search engine đều hỗ trợ chức năng tìm cơ bản và nâng cao, tìm từ đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm như trên đề mục, tiêu

đề, đoạn văn bản giới thiệu về trang web

Ngoài chiến lược tìm chính xác theo từ khoá, các search engine còn cố gắng “hiểu”

ý nghĩa thực sự của câu hỏi thông qua những câu chữ do người dùng cung cấp Điều này được thể hiện qua chức năng sửa lỗi chính tả, tìm cả những hình thức biến đổi khác nhau của một từ Ví dụ : search engine sẽ tìm những từ như speaker, speaking, spoke khi người dùng nhập vào từ speak

*Nguyên lý hoạt động của Search Engine

Search engine điều khiển robot đi thu thập thông tin trên mạng thông qua các siêu liên kết (hyperlink) Khi robot phát hiện ra một site mới, nó gởi tài liệu (web page)

về cho server chính để tạo cơ sở dữ liệu chỉ mục phục vụ cho nhu cầu tìm kiếm thông tin

Bởi vì thông tin trên mạng luôn thay đổi nên robots phải liên tục cập nhật các site

cũ Mật độ cập nhật phụ thuộc vào từng hệ thống search engine Khi search engine nhận câu truy vấn từ user, nó sẽ tiến hành phân tích, tìm trong cơ sở dữ liệu chỉ mục

& trả về những tài liệu thỏa yêu câu

Trang 16

1.2 Các hệ thống tìm kiếm ỏ' Việt Nam

Cách đây 5 năm, người dùng Internet ở Việt Nam đã biết đến các web tìm kiếm như Vinaseek, Hoa tiêu hay Pan Việt Nam Nhưng các trang web tìm kiếm tiên phong này chỉ trụ được thời gian ngắn và hầu như biến mất sau sự xuất hiện của gã khổng

lồ Google Tuy nhiên, từ đầu năm 2007, làn sóng web tìm kiếm thế hệ thứ hai của Việt Nam bắt đầu nở rộ, ước tính hiện có hon 20 web tìm kiếm do các công ty trong nước xây dựng

Xu hướng chủ đạo của các web tìm kiếm Việt Nam là tránh đối đầu trực diện với Google, phát triển nhiều loại dịch vụ tìm kiếm cho các nhu cầu chuyên biệt như tìm nhạc sổ, tin tức, blog, tìm thông tin từ các diễn đàn, hình ảnh, gần đây một số web

ra thêm dịch vụ tìm kiếm thông tin rao vặt

Tuy nhiên, cũng có một số web tìm kiếm muốn cạnh tranh trực diện với Google hay Yahoo ở lĩnh vực tìm kiểm web như Xalo hay Socbay, nhưng hiện tại vẫn chưa thể chọi được với gã khổng lồ Google ở lĩnh vực tìm kiếm thông tin tiếng Việt Nhìn vào xếp hạng lượng truy cập trên Alexa, vị trí các web tìm kiếm vẫn còn khiêm tốn

so với Google và kể cả so với những trang tin tức trực tuyến

> Xalo.vn

Sau khi từ bỏ Vinaseek, Tinh Vân trở lại thị trường tìm kiếm với việc ra 'mắt Xalo.vn vào cuối tháng 9 vừa qua, định vị là web tìm kiểm thông tin tiếng Việt Trang web hiện có 7 dịch vụ tìm kiểm là tìm kiếm web, hình ảnh, tin tức, blog, diễn đàn, nhạc và rao vặt Vừa mới đây, Tinh Vân đã kịp bổ sung thêm dịch vụ tra từ điển, công cụ dịch tự động từ tiếng Anh sang tiếng Việt tưcmg tự như Google Translate và dịch vụ dịch tin từ các hãng thông tấn và các cơ quan báo chí CNN, BBC, Reuters và AP Ở dịch vụ tìm kiểm, tốc độ cập nhật thông tin của web này khá tốt Dịch vụ tìm kiếm nhạc có một số điểm nổi bật như hiển thị lời bài hát, có thể tìm không dấu, đưa ra gợi ý tiếng Việt khi người dùng gõ sai bài hát hoặc lời bài hát cần tìm, cho phép tìm theo ca sĩ, tìm trong một web nhạc cụ thể

Trang 17

> Socbay.com

Trang web này cung cấp dịch vụ tìm kiếm nhạc khá tốt Nhạc được tìm kiếm nhanh, các bài hát được lưu trên máy chủ của Socbay nên có thể tải trực tiếp về máy tính Tìm sách và thông tin về sách cũng là điểm độc đáo của Socbay, tuy nhiên lượng thông tin về sách còn hạn chế Ngoài ra, trang web này còn có các dịch vụ tìm kiếm khác như tìm kiếm web, video, video, địa điểm, tin rao vặt, hàng hóa, hình ảnh Mới đây, Socbay ra thêm dịch vụ tra từ điển trực tuyển và tìm kiếm tin tức cho những người dùng máy tính nổi mạng và cả điện thoại di động

> Baamboo.com

So với các web tìm kiếm trên, Baamboo có ít dịch vụ hon, hiện chỉ có 5 dịch vụ là tìm nhạc, phim, tra từ điển, bản đồ và điểm tin tức Tuy nhiên, bộ máy tìm kiếm Baamboo thực sự tiện dụng với những người muốn tìm kiếm nhạc kèm lời bài hát Dịch vụ tra từ của trang web này còn cho phép người dùng tra nhiều loại ngôn ngữ

và các từ điển chuyên ngành như ô tô, điện tử Baamboo là một sản phẩm của v c Corp, công ty cung cấp nhiều dịch vụ web khác như trang web rao vặt Rongbay.com, trang game trực tuyển Socvui.com và trang nhạc số Sannhac.com, kênh thông tin giải trí Kenhl4.vn Năm ngoái, v c Corp đã được quỹ đầu tư mạo hiểm IDG Ventures Việt Nam "rót" 2 triệu USD để phát triển các dịch vụ nội dung

Bên cạnh 4 trang web tìm kiếm trên, còn có nhiều trang web tìm kiếm khác như Zing Search Nhưng các hệ thống này chỉ có chức năng tìm kiếm trên database nội

bộ mà không có chức năng tự động thu thập dữ liệu

1.3 Hệ thống tìm kiếm thông tin sản phẩm

1.3.1 Hệ thống tìm kiếm thông tin sản phẩm

Nguyên tắc của tìm kiếm trên webs đơn giản chỉ là thu thập dữ liệu, đánh chỉ mục, xếp hạng các kết quả trả về dựa theo độ liên quan đến từ khóa Tuy nhiên thì người

Trang 18

dùng chỉ muốn tìm kiếm về một đối tượng nào đấy, chứ không hẳn là nội dung full- text của cả trang web, chẳng hạn như là hình ảnh, sản phẩm, con người, bài báo, ebook, nhạc, video, địa điểm (nhà hàng, khách sạn, danh lam thắng cảnh) v.v và được gọi chung với thuật ngữ “vertical search”.

Ở Việt Nam một số trang web đã đi theo hướng này và đã có ít nhiều tiếng vang như tìm kiếm việc làm có JSeeker, iHoatieu; tìm kiếm nhạc có Baamboo Mp3, Ginggoong, 7sac, Miu; tìm kiếm địa điểm có Baamboo Bản địa, Thổ địa, Địa điểm, Izomi; tìm kiếm ebook có Bookilook Và có cả các trang webs tìm kiếm tập tin download từ RapidShare, MegaUpload, MediaFire

Nói ngắn gọn, hệ thống tìm kiểm thông tin sản phẩm là một trong những ứng dụng của tìm kiếm trên web Điểm khác biệt căn bản của hai hệ thống này là kết quả trả

về Kết quả trả về của tìm kiếm trên web là các trang văn bản, còn kết quả trả về của tìm kiểm sản phẩm là thông tin của sản phẩm Rõ ràng nếu không có hệ thống tìm kiếm thông tin sản phẩm, người dùng sẽ mất thời gian để duyệt qua các trang web

mà công cụ tìm kiếm web trả về Ví dụ: người dùng muốn tìm kiếm thông tin chi tiết cấu hình về chiếc laptop mới Acer Iconia 2 màn hình, người dùng có thể tìm kiểm với từ khóa “Acer Iconia” và kết quả Google trả về là hàng loạt các trang web

có chứa từ khóa này, điều khó khăn là trong các trang này, chỉ đơn giản là có chứa

từ “Acer Iconia” chứ không hề chứa thêm bất kỳ một thông tin cấu hình chi tiết nào

cả, người dùng buộc phải nhấn phím Back để thử với một trang web khác Đây không phải là lý do duy nhất để hình thành hệ thống tìm kiếm sản phẩm để phục vụ người dùng được tốt hơn

Thương mại điện tử đang phát triển với tốc độ chóng mặt trên phạm vi toàn cầu, theo thống kê NetCitizens Việt Nam như ở phần mở đầu, thì chỉ mới có 16% người

sử dụng Internet tham gia mua sắm trực tuyến, thị trường ở Việt Nam còn rất rộng

mở và có tiềm năng phát triển Các nhà bán lẻ nhỏ và vừa đã sử dụng công cụ Internet chủ yếu để bán hàng, vì rất dễ dàng và ít tốn kém chi phí để triển khai một

Trang 19

gian hàng trực tuyến Tuy nhiên thì sự phát triển của các gian hàng này là không thể kiếm soát, chúng mọc lên như nấm sau mưa, đặc biệt là các gian hàng lừa đảo, kém chất lượng Với lượng thông tin quá nhiều về các sản phẩm như thế, một công cụ tìm kiếm thông thường như Google cũng không giúp người mua hàng tìm được sản phẩm chính xác trong thời gian ngắn Đặc biệt là các thông tin tìm được đôi khi không có gì là chắc chắn để xác minh tính xác thực về sản phẩm đó.

1.3.2 Đánh giá sản phẩm của cộng đồng ngưòi dùng

Với các thông tin quảng cáo từ nhà sản xuất, các bài báo PR cho các sản phẩm từ các trang báo điện tử xuất hiện rất nhiều, để đi đến quyết định mua một món hàng,

người tiêu dùng luôn đặt ra suy nghĩ “những người khác nghĩ gì về sản phẩm này? ”, “người đã dùng đảnh giả chất lượng sản phẩm như thế nào? ”, “những người có kinh nghiệm, có kiến thức đánh giá về sản phẩm này ra sao?” Thông

thường, người dùng sẽ nhờ bạn bè hoặc người thân có hiểu biết về sản phẩm để tư vấn mua hàng Tuy nhiên thì trong thời đại ngày nay, việc nhờ vả này xem ra rất khó vì nhiều lý do:

+ Bạn bè người thân đôi khi không thể giúp đỡ vì bận rộn trong cuộc sống.+ Không tìm thấy ai có đủ hiểu biết, kinh nghiệm về sản phẩm cần mua

+ Trình độ học vấn của người dùng ngày càng cao, người dùng muốn tự tìm hiểu sản phẩm, việc này có ý nghĩa sâu xa giống như tự tìm hiểu và lựa chọn người yêu cho mình chứ không muốn bố mẹ mai mối

Với Internet, mọi chuyện trở nên dễ dàng hơn, người dùng dễ dàng tìm kiếm được các đánh giá của cộng đồng người dùng về sản phẩm này, bao gồm cả ý kiến hiểu biết cá nhân và các chuyên gia Theo như nghiên cứu Bo Pang và Lillian Lee:

+ 81 % người dùng đã từng tham gia các khảo sát trực tuyến ít nhất một lần.+ 20% người dùng thực hiện việc này thường xuyên

Trang 20

+ 73% - 87% các trang web bán hàng cho rằng đánh giá của cộng đồng người dùng có tầm ảnh hưởng quan trọng đến hành vi mua hàng của họ.

+ Người dùng có thể trả thêm 20% đến 99% cho một sản phẩm được đánh giá

5 sao so với giá của một sản phẩm 3,4 sao

+ 32% người dùng cung cấp những đánh giá trên sản phẩm, dịch vụ cho một trang web đánh giá trực tuyến, và 30% cung cấp những ý kiến cá nhân hoặc đánh giá cho một sản phẩm nào đó

Từ đó một người dùng muốn mua hàng và muốn tìm hiểu “những người khác nghĩ gì” sẽ dùng công cụ tìm kiếm và tiến hành đọc những đánh giá này Nhưng mọi chuyện không đon giản như thế Tốn thời gian và làm nản chí những người không kiên trì là lý do đầu tiên, thứ hai là những đánh giá được đọc có phải ià tất cả, họ phải lướt qua hàng loạt các trang webs để có cái nhìn toàn diện nhất

Cùng với việc các công ty lớn cũng nhận ra tầm ảnh hưởng quan trọng của đánh giá người dùng trong việc đánh giá và hình thành ý kiến về sản phẩm của những người dùng sản phẩm khác Các công ty có thể phân tích những đánh giá, qua đó điều chỉnh chiến lược tiếp thị, vị trí sản phẩm và những hoạt động khác

Như vậy, qua những vấn đề đã trình bày ở trên, nhiệm vụ của đồ án phải thực hiệnchính là xây dựng một hệ thống tìm kiểm sản phẩm dựa trên những đánh giá củacộng đồng người dùng Để thực hiện điều này, chúng ta sẽ lần lượt tìm hiểu thêmmột số công cụ, kỹ thuật cũng như công nghê được trình bày lần lượt ở các chưomg Itiếp theo

Trang 21

CHƯƠNG 2

TÌM HIỂU CÔNG CỤ SOLR, LUCENE

2.1 LUCENE

2.1.1 Giói thiệu về Lucene

Năm 1998, Doug Cutting - từng là nhân viên của Excite, Yahoo, và đang làm việc tại Apache Software Foundation - đã bắt đầu tiến hành xây dựng thư viện tìm kiếm thông tin mã nguồn mở Lucene với mục tiêu phát triển nó thành một thư viện tìm kiếm tài liệu hoàn chỉnh, cho phép các nhà phát triển ứng dụng dễ dàng tích hợp chức năng tìm kiếm vào hệ thống của mình

Lucene là một thư viện tìm kiếm thông tin có khả năng xử lý và khả năng mở rộng

ở mức cao, cho phép chúng ta có thể tích hợp vào các ứng dụng Lucene là một dự

án mã nguồn mở và nguyên thuỷ được phát triển bằng ngôn ngữ Java, ngày nay Lucene được phát triển bằng nhiều ngôn ngữ khác nhau như Delphi, Perl, c#, C++, Python, Ruby và PHP

Thành phần chức năng chính của Lucene bao gồm hai phần chính: Thành phần tạo chỉ mục và thành phần tìm kiếm Đây là hai thành phần quan trọng cho một hệ thống tìm kiếm

Trang 22

+ Directory: cho phép định nghĩa vùng nhớ, xác định nơi lưu trữ trên bộ nhớ ngoài và bộ nhớ trên RAM trong quá trình tạo chỉ mục.

+ Document và Field: định nghĩa tài liệu và các trường thông tin của tài liệu sử dụng cho lập chỉ mục, nó cũng sử dụng cho việc lấy kểt quả trả về cho thành phần tìm kiểm

+ Analyzer: thực hiện chức năng xử lý và tách văn bản để lấy nội dung, chuẩn hóa, loại bỏ mục từ không cần thiết, để chuẩn bị cho việc lập chỉ mục

+ IndexWriter: là phần chính trong thành phần Tạo chỉ mục, nó thực hiện việc tạo mới hoặc mở chỉ mục, sau đó thực hiện thêm mới hoặc cập nhật nội dung của chỉ mục

> Thành phần Tìm kiểm

Bao gồm các phần chức năng cho xử lý tìm kiếm, từ yêu cầu của người dùng, thông qua biên dịch và so khớp để lấy về kết quả tốt nhất Lucene hỗ trợ nhiều loại truy vấn thuận tiện cho người sử dụng, nó cho phép tìm theo trường thông tin hay các thiết lập nâng cao như sấp xếp kết quả, giới hạn thời gian hoặc số lượng kết quả, phân trang

+ Term: Term là một đơn vị cơ bản của tìm kiếm, tương tự như thành phần Field, Term cũng bao gồm tên và giá trị tương ứng

+ Query: bao gồm nhiều loại truy vấn khác nhau, nó chứa nhiều phương thức, nhưng hầu hết đều quan tâm đến việc thiết lập chỉ so Boost, cho phép Lucene hiểu truy vẩn con nào là quan trọng hơn

+ IndexSearcher: cho phép tìm kiếm trên tập chỉ mục do IndexWriter tạo ra, đây là thành phần chỉ thực hiện nhiệm vụ mở tập chỉ mục, không cho phép chỉnh sửa hay thay đổi Có nhiều phương thức tìm kiếm, một trong số đó là lớp thành phần thực thi Searcher, với cách đơn giản là cung cấp một Query

Trang 23

truy vân, sô lugng câc lien kêt cân trâ vê, và kêt quà trâ vê së là tâp câc dôi tuçmg TopDoc.

+ TopDoc: là mot lôp don giân, dùng cho viêc chua câc thir hang cao nhât cüa

N tài lieu cô lien quan dên truy vân Vôi moi dôi tuçmg trong danh sâch này

së cho mot docID dùng dê lien kêt dên tài lieu nhân vê

Lucene không phâi là mot ûng dung hay mot mây tim kiêm hoàn chinh dê nguài dùng cô thê sir dung ngay, dây chî là mot thir viên, nô cung câp câc thành phân quan trong nhât cüa mot mây tim kiêm dô là tao chî mue và truy vân Chinh vi chî cung câp câc thành phân quan trong trong viêc tao chî mue nên nguài dùng rât linh hoat trong viêc ûng dung vào sân phâm cüa minh, cung nhu cô mot sô câi tien cho phù hop hon

2.1.2 Câch sir dung Lucene

Dê cho thuc té và dê hiêu, dô an së trinh bày tùng buôc câch build mot ûng dung su dung thu viên Lucene Nhu dâ trinh bày phân trên, Lucene duge phât triên bang rât nhièu ngôn ngü khâc nhau, ngôn ngù NET së dùng dê minh hoa

Dâu tien phâi download bô thu viên Lucene.NET phiên bân môi nhât vê tai: http://codeclimber.net.nz/images/codeclimber net nz/Lucene.net/Lucene.net-

using Lucene.N e t QueryParsers;

using Lucene.N e t Search;

Trang 24

^ Bước 1: Khởi tạo Directory và IndexWriter

Có 2 dạng Directory: RAM và tập tin lưu trên HDD Bạn có thể chọn 1 trong 2

> Bước 2: Thêm Documents để Index

Documents này có 2 trường, một là id sẽ được lưu trữ, nhưng không được index, trường còn lại là postBody cũng sẽ được lưu trữ và được index

ị w r i t e r O p t i m i z e () ;

I

> Bước 3: Tạo câu truy vấn

Truy vấn có thể được tạo ra bàng 2 cách: thông qua API và thông qua phân tích cú pháp QueryParser

Trang 25

Vậy khi nào nên dùng cách truy vấn nào? Chúng đều tốt như nhau cả, tuy nhiên khi người dùng truy vẩn thì nên thông qua QueryParser, còn nếu được truy vẩn bàng code trong chương trình, chúng ta nên dùng trực tiếp truy vấn thông qua API.

> Bước 4: Đưa các Query vào IndexSearcher và truy vấn

Chú ý chỉ nên tạo 1 IndexSearcher cho tất cả các tìm kiểm của bạn

Trang 26

2.2 SOLR

2.2.1 Giới thiệu về SOLR

Soir là một ứng dụng mã nguồn mở cung cấp chức năng tìm kiếm, cung cấp các API để làm việc Solr nhập dữ liệu dưới dạng XML và nhiều định dạng khác thông qua HTTP, và sử dụng thư viện để nhập khối lượng lớn dữ liệu Người dùng có thể truy vấn dữ liệu này thông qua HTTP GET và nhận về một kết quả dạng XML Solr

sử dụng Lucene làm thư viện cho việc index và search

Các chức năng cơ bản của Solr

+ Khả năng tìm kiếm văn bản (Full-Text Search)

+ Chỉnh sửa để hiệu năng tốt hơn

+ Dựa trên các chuẩn mở trong giao tiếp với các hệ thống khác - XML, JSON

và HTTP

+ Quản trị dưới dạng giao diện HTML đơn giản

+ Thống kê dưới dạng JMX

+ Khả năng mở rộng ra nhiều server Soir

+ Cấu bình đơn giản dễ dàng với định dạng XML

+ Có khả năng bổ sung các phần mở rộng (plugin) mới Ví dụ như phân tích

mở rộng tiếng Việt: Bắt lỗi chính tả, bỏ dấu

Trang 27

java -jar start.jar

Kết quả là server Jetty được khởi động và lắng nghe tại port 8983 trên máy tính của bạn Bạn có thể chạy Solr bằng cách nhập vào địa chỉ http://localhost:8983/solr/admin/ trong trình duyệt web Kết quả sẽ như hình 2.1

A pp server:

[SCHEMA] [CONFIG] [ANAIYSIS] [SCHEMA BROWSER]

[ statistics ] [ info ] [ distribution ] [ hnc ] [ logging ] [ java properties ] [ thread dump ]

m-, ì— - - V—'V " " '

Ì Assistance [DOCUMENTATION] [ issue tracker ] [ send email ]

Hình 2.1 Trang quản lý của Solr

> Nhập dữ liệu: Chúng ta sẽ tiến hành index cho các file xml Di chuyển đến thư mục chứa các file xml và thực hiện câu lệnh: I

> Tìm kiếm: Thực hiện với từ khóa “dell” trên giao diện, kết quả cho ta hình 2.2

Trang 28

«sir name=s“tnanu">Dell, Inc </str>

<str nam e-a ame’>Deli "Widescreen UltraSharp 30Q7WFP</str>

f:

1 * ■ V

.I

;fc

P

I,rf-:K’i

l

'■ft P

Hinh 2.2 Ket qua tim kiem cua Solr

Hay chu y URL tren trinh duyet, ban co thl thirc hien bang cau truy vdn Parsing Url tirong tir nhu the voi cu phap:

T t t ^ T T l o c a i h o s t : 89837soir7seiect/?q=dell&version=2.2&start=0&rows

=10&indent=on

2.2.3 Hurong dan sir dung SOLRNET

> Download thu vien SOLRNET tai day: http://code.google.eom/p/solmet/

Trang 29

> Đầu tiên, chúng ta phải xây dựng một lớp để map với các thuộc tính tài liệu Solr

> Khởi tạo thư viện

public void FixtureSetup() {

}

> Thêm vào một tài liệu

public void Add O {

solr.Commit 0 ;

} — —

Trang 30

> Tao câu truy vân

¡public void Query () {

Ngoài SOLRNET dung dê viêt ling dung à client, chüng ta co the dung SolrJ API

Client vôi ngôn ngù Java

Trang 31

CHƯƠNG 3

KỸ THUẬT RÚT TRÍCH THÔNG TIN

3.1 Khái niệm về trích rút thông tin

Trích rút thông tin - Information Extraction (IE) là tên được đặt cho bất kỳ một xử

lý nào mà nó có tính chọn lọc và tìm thấy các cấu trúc hoặc dữ liệu, được quy định

rõ ràng hoặc ẩn ý trong một hoặc nhiều văn bản Kết quả cuối cùng của IE rất đa dạng, tuy nhiên trong tất cả các trường hợp, chúng đều có thể chuyển về dạng có thể lưu được trong cơ sở dữ liệu [3]

Một lý do đáng chú ý của IE đó chính là khả năng đánh giá, ước lượng và so sánh;

nó khác hoàn toàn so với kỹ thuật xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) Không giống như NLP, chẳng hạn như máy dịch (Machine Translation - MT), quá trình so sánh rất cụ thể và được thực hiện tự động Điều này, cộng với thực tể là một hệ thống rút trích thành công đã ứng dụng ngay lập tức,

đã khuyến khích các nhà tài trợ nghiên cứu để hỗ trợ cả đánh giá và nghiên cứu về

IE Các ứng dụng của IE tuy vẫn còn khan hiểm, một vài ứng dụng rất nổi tiếng đã tồn tại và một số hệ thống phân lớp khác đã được hoạt động Đó chắc chắn không đúng sự thật về mức độ của công nghệ này, mà nó rất dễ dàng để xây dựng một hệ thống cho một nhiệm vụ mới, hoặc mức độ hiệu quả là rất cao để sử dụng trong các

hệ thống tự động

3.2 Phân biệt giữa IE và IR (Information Retrieval - truy xuất thông tin)

IE là một công nghệ dựa trên phân tích ngôn ngữ tự nhiên để trích xuất mẫu thông tin IE cần văn bản làm đầu vào và xử lý, tạo ra đầu ra là dữ liệu dạng fixed-format

và rất rõ ràng Dữ liệu này có thể sử dụng trực tiếp để hiển thị cho người sử dụng hoặc có thể lưu trữ trong cơ sở dữ liệu hoặc một bảng tính để phân tích sau này,

Trang 32

hoặc có thê sử dụng cho mục đích lập chỉ mục thông tin IR cho các ứng dụng tìm kiểm trên Internet như Google.

Tồn tại lợi thế và bất lợi của IE so với IR Hệ thống IE có rất nhiều khó khăn và cần nhiều kiến thức chuyên sâu để xây dựng, và mức độ khác nhau là rất lớn, gẳn liền với các lĩnh vực riêng và các tình huống, kịch bản đặc trưng IE cần nhiều tính toán chuyên sâu hơn so với IR Tuy nhiên, trong các ứng dụng, nơi có khối lượng lớn các văn bản, IE hiệu quả hơn nhiều so với IR vì khả năng làm giảm đáng kể thời gian người sử dụng dành đọc văn bản

3.3 Các kịch bản ứng dụng

Phần này bao gồm một số kịch bản để minh họa làm thế nào phần mềm ứng dụng IE có thể làm trung gian giữa các văn bản và các thông tin có cẩu trúc phục

Trang 33

vụ nhu cầu của các kiểu người dùng Trong từng trường hợp của người sử dụng mà cần một nhân viên phát triển IE khác nhau, những người này sau đó xây dựng một

hệ thống IE tùy chỉnh Các tài liệu đầu vào có thể là một phần phụ của World Wide Web, hoặc là tài liệu chính thức như tin tức của các công ty các trang web, hoặc blog, danh sách gửi thư và wiki Các nhà phát triển IE phải phân tích vấn

đề theo nhiều chiều, và xác định làm thế nào để kết họp con người và máy tính

để đạt được hiệu suất thông tin cần thiết

3.3.1 Phân tích tài chính

+ Đo lường thành quả của công ty

+ Cảnh báo về các rủi ro

+ Tạo ra các dự báo

3.3.2 Chiến lược tiếp thị

Cung cấp một bảng báo cáo để hỗ trợ chiến dịch tiếp thị vào ngày hôm nay, dựa

trên những kết quả của ngày hôm qua Ví dụ: “Trong sảng nay, có 7% các bài báo

về CNTT thảo luận về công ty của bạn Tỷ lệ trung bình của các bài viết liên quan ít nhiều đến công ty của bạn là 33% Các sổ liệu quan trọng khác được tóm tắt trong bảng sau ”

3.3.3 PR

IE có thể hỗ trợ nhân viên PR để tạo các báo cáo dạng như: “Bảng bảo cáo sau đây tầng kết 12 sự kiện tiêu cực liên quan đến công ty của bạn trong 24h vừa qua từ IT News ”

3.4 Các nhiệm vụ chính của IE

Theo MUC 1998 (Message Understanding Conference) trích rút thông tin đã được chia làm 5 nhiệm vụ:

Trang 34

+ Named Entity recognition (NE)

Finds and classifies names, places, etc

+ Coreference resolution (CO)

Identifies identity relations between entities

+ Template Element construction (TE)

Adds descriptive information to NE results (using CO)

+ Template Relation construction (TR)

Finds relations between TE entities

+ Scenario Template production (ST)

Fits TE and TR results into specified event scenarios

NE tìm kiếm các thực thể; c o tìm các thực thể và tham chiếu của nó (như đại từ) có liên hệ với nhau; TE tìm các thuộc tính mà các thực thể có; TR tìm các mối quan hệ giữa các thực thể; ST tìm các sự kiện mà các thực thể tham gia vào

Ví dụ: Báo điện tử Vnexpress: “Chiều 20/5, chiếc tàu chở thực khách của khu du lịch Dìn Ký, tỉnh Bình Dương đang quay trở lại bển bất ngờ gặp gió lởn bị lật xuống sông, ỉt nhất 15 người mất tích trong đó cỏ nhiều trẻ nhỏ ”

NE phát hiện được các thực thể: Chiều 20/5, chiếc tàu, thực khách, khu du lịch Dìn

Ký, tỉnh Bình Dương, bển, gió, sông, người, trẻ nhỏ c o không phát hiện bất cứ đại

từ thay thế nào TE tìm thấy gió có tính từ bổ nghĩa là lớn TR phát hiện mối quan

hệ giữa chiếc tàu thuộc khu du lịch Dìn Kỷ ST phát hiện ra ràng sự kiện chiếc tàu

bị lật & 15 người mất tích giữa các thực thể có liên quan.

3.4.1 Named Entity recognition

Đơn giản và đáng tin cậy nhất của IE chính là NE, NE có thể nhận diện tất cả tên người, địa điểm, tổ chức, ngày tháng, tiền tệ v.v NE cỏ độ chính xác lên đến 95%, nếu cho rằng con người cũng không thể thực hiện với độ chính xác 100% thì NE có

Trang 35

thể được xem như có hiệu năng bằng con người, nhưng có tốc độ cao rất nhiều trong xử lý văn bản lớn.

3.4.2 Coreference resolution

CO nhận dạng các tham chiếu của các thực thể trong văn bản, các thực thể này bao gồm cả những thực thể do NE phát hiện ra và cả những tham chiếu tính từ của các thực thể đó CO ít phù hợp với người dùng so với các nhiệm vụ của IE khác (các nhiệm vụ khác đưa ra kết quả rất rõ ràng và phù họp với người sử dụng ứng dụng), tuy nhiên thì c o lại phù họp với nhu cầu của các nhà phát triển ứng dụng Đối với mục đích duyệt văn bản c o được sử dụng để làm nổi bật tất cả các lần xuất hiện của cùng một đối tượng hoặc cung cấp các liên kết siêu văn bản giữa chúng

CO còn được dùng để tạo các Block cho TE và ST c o cho phép sự kết hợp của thông tin mô tả nằm rải rác trên văn bản với các thực thể mà nó đề cập

c o được chia nhỏ làm 2 vẩn đề nhỏ hơn: Anaphora Resolution và Propemoun Resolution

+ Anaphora Resolution là một bài toán tìm ra đại từ, hoặc một cụm danh từ nào

đó dùng để thay thế, ám chỉ

Ví dụ: “Nam đã giúp đỡ Hoa Anh ẩy thật tốt bụng ” Người đọc, người nghe

có thể dễ dàng một cách vô thức mà nhận ra ràng Anh ấy dùng để thay thế,

ám chỉ Nam Quá trình xử lý này thật sự là chưa rõ ràng với c o , đặc biệt là với những câu phức tạp hơn: “Nam và các bạn đã từng đi du lịch vòng quanh Việt Nam 2 lần Chúng đều rất tuyệt ”, “Nam và các bạn của nó đã từng đi du lịch vòng quanh Việt Nam 2 lần Chúng đều rất vui ”

+ Propemoun Resolution là một bài toán nhằm tìm ra những cụm danh từ

không hẳn là dùng để tham chiếu hoặc thay thế, mà nó có nghĩa giống như nhau, hoặc ít nhiều liên quan đến nhau

Ví dụ- “IBM ” “IBM Vietnam ”, “International Business Machines Ltd ”

Trang 36

CO vân còn là một quá trình chưa chính xác hoàn toàn, chỉ đạt hiệu suất 60%.

3.4.3 Template Element construction

TE được xây dựng dựa trên NE và c o , nó bổ sung thêm các thông tin giữa các liên kết của các thực thể

Hiệu suất của TE vào khoảng 80% Và tất nhiên nó cũng phụ thuộc khá nhiều vào lĩnh vực nghiên cứu cụ thể, khi thay đổi lĩnh vực, người phát triển cũng phải thay đổi sâu vào hệ thống

3.4.4 Template Relation construction

Theo Appelt (1999), “TR đòi hỏi phải xác định một số lượng nhỏ các quan hệ có thể

có giữa các TE đã được xác định Điều này có thể thực hiện được, ví dụ, một mối quan hệ lao động giữa một người và một công ty, một mối quan hệ gia đình giữa hai người, hoặc quan hệ subsidiary giữa hai công ty Trích rút các mối quan hệ giữa các thực thể là một tính năng chính của hầu hết các hệ thống IE” Nhìn chung hiệu suất của TR đạt khoảng 75% TR cũng phụ thuộc vào từng lĩnh vực

3.4.5 Scenario Template production

ST là những kết quả đầu ra nguyên mẫu của hệ thống IE, là nhiệm vụ ban đầu mà

IE được đặt ra ST kểt nối TE và TR với nhau để mô tả sự kiện ST là nhiệm vụ khó nhất của IE, hiệu suất của nó chỉ đạt 60%, đối với xử lý của con người thì cũng chỉ đạt 80% ST phụ thuộc hoàn toàn vào một lĩnh vực cụ thể, đồng thời cũng phụ thuộc chặt chẽ vào ngữ cảnh người sử dụng đề cập Tuy nhiên thì người phát triển

hệ thống có thể tăng độ chính xác của ST lên bàng nhiều cách khác nhau, đổi lại sẽ

bỏ lở một vài sự kiện có liên quan

Trang 37

Ví dụ: Một bạn sinh viên muốn mua một chiếc laptop để phục vụ cho việc học tập

và giải trí của mình Bạn này chắc chắn phải lựa một chiếc laptop cỏ cấu hình mạnh,

có độ bền cao, dễ dàng nâng cấp linh kiện Nếu bạn sinh viên này có kinh nghiệm thì việc xác định một chiếc laptop có cấu hình mạnh hay không rất dễ dàng

Những người dùng có kinh nghiệm có thể dễ dàng ra quyết định dựa trên sự hiểu biết của họ về cẩu hình sản phẩm Tuy nhiên thì người dùng có kinh nghiệm chỉ chiếm một phần rất nhỏ trong tổng số người dùng của hệ thống Phần lớn người dùng còn lại là những người hầu như không có kinh nghiệm về sản phẩm Những người dùng này gặp rất nhiều khó khăn khi sử dụng hệ thống do sự hạn chế trong hiểu biết về thông tin sản phẩm

Tôi sẽ lấy một ví dụ khá là đặc biệt và đưa bạn vào trong một tình huống như thế Việt Nam là một đất nước có khí hậu nhiệt đới gió mùa, chính vi thể môn thể thao trượt băng nghệ thuật hầu như không phát triển ở Việt Nam Tuy nhiên thì gần nhà bạn mới mở một sân trượt băng nhân tạo, bạn là người yêu nghệ thuật và thích khám phá cái mới, bạn muốn chơi thử môn này Điều đầu tiên chắn chắn bạn sẽ tìm

Trang 38

mua một chiêc giây trượt băng Bạn sẽ nhờ người có kinh nghiệm tư vấn cho bạn nhưng vì những lý do đã trình bày ở mục 1.3.2, bạn sẽ sử dụng công cụ tìm kiểm để

tự tìm hiểu

Đầu tiên, bạn sẽ tìm kiểm những trang web có liên quan đến giầy trượt băng, một danh sách các giầy trượt băng xuất hiện, bạn tham khảo các thông tin về sản phẩm chẳng hạn như kích cỡ, trọng lượng, chất liệu, lưỡi dao như thế nào, loại trượt trên băng hay trên nhựa v.v Để biết đôi giầy nào là tốt, bạn tiếp tục tìm đọc các đánh giá của người dùng về từng đôi giầy, vẩn đề nảy sinh là các đánh giá này theo nhiều chiều khác nhau, và nằm ở các nhiều trang web khác nhau, và việc chọn lọc và đọc những đánh giá này rất mất thời gian Rõ ràng, khi bạn không có một chút kinh nghiệm nào về sản phẩm cần mua, bạn sẽ rất khó quyết định để đưa ra sự lựa chọn

Bài toán được đặt ra: Xây dựng một hệ thống tìm kiếm mà ở đó, người sử dụng có thể tìm kiếm sản phẩm theo hưởng đánh giá của cộng đồng người dùng Xét 3 trường hợp sau:

Trường họp A: An là người dùng không có kinh nghiệm, nhưng rất thích một chiếc laptop X vì thiết kế rất độc đáo Làm thể nào An có thể biết laptop X này có tổt, hiệu suất sử dụng có cao để đưa đển quyết định mua hàng? Các hệ thống tìm kiểm chỉ trả về cấu hình chi tiết của X, vì thế An sẽ phải ghé thăm các trang web có bình luận về chiếc laptop X này để thu thập đánh giá của cộng đồng người dùng

Trường hợp B: Bình là người dùng có kinh nghiệm và muốn tìm chiếc laptop có thời lượng pin dài Bình sẽ phải đọc lần lượt cấu hình chi tiết của từng chiếc laptop

và chọn ra những chiếc tốt nhất trong danh sách đó Công việc này tốn thời gian và không có hiệu suất cao, vì trong danh sách các laptop Bình đã đọc chưa chắc là những chiếc laptop có pin dài nhất

Trường hợp C: Chi là người dùng có một ít kinh nghiệm và muổn tìm cho mình một chiếc laptop Sony Vaio, nhưng cô có yêu cầu khắc khe hon là chiếc laptop ấy phải

Trang 39

CÓ đánh giá của cộng đông vê thiết kể là cao nhất Hệ thống tìm kiểm thông thường cũng không thê hô trợ Chi trong tình huống thế này và Chi cũng không thể đọc hết những bỉnh luận, đánh giá của cộng đồng về sản phẩm đó.

Giải quyết 3 trường hợp trên cũng là giải quyết bài toán đã được đặt ra Tóm tắt bài toán, với 3 trường hợp trên:

+ Input: Tên của sản phẩm

4.2 Sử dụng IE để giải quyết bài toán

Qua các phần đã trình về đánh giá của người dùng và IE Chúng ta hoàn toàn có thể xây dựng được một hệ thống mà ở đó IE được sử dụng để rút trích những đánh giá của người dùng và lưu vào cơ sở dữ liệu để phục phụ cho việc tìm kiểm Hãy xem xét vài đánh giá sau về chiếc điện thoại Nokia E7:

+ “Thử cải camare là thấy chán rồi, giả tiền này xài mấy em HD Desire ngon hơn nhiều Symbian quá tệ Đồng ỷ là mẫu mã đẹp, cải thương hiệu Nokia bền, nhung chức năng dở ẹtỉ ”

+ “đã có dịp dùng em này của thằng bạn.ko tin vào mắt mình khi dùng em này quả cùi bắp so với các em cùng giá đã sử dụng qua thiệt làm mình thất vọng quả ”

+ “thiệt ai mua con nỳ là não hơi bị phang, hơi bị stupid,cải dòng đt NOKIA xài HĐH Symbian là thẩy hOk đc òy, zị mòk lại ra cải phOne treo giá trên trời chỉ đc cải kiểu dáng đẹp!!Icon lại mấy cái chức năg kia hOk khác N8

Trang 40

nhju, camera lại chỉ còn 8MP thêm có cái bàn fim QWERTY mòk wuất giá trên trời, thà còn dư tiền mua con C7 hoặc N8 để dư tiền mua thêm chì vàg cho nó sưởgllĩthằg nèo ngu lém mới mua!!!!! ”

+ “con nay nhìn thi cung oke roi chuc nag thi tam duoc.nhung ma gia ca thi hoi cao ”

+ “dep thi dep that nhung dat wa troi ”

Các ví dụ trên được lấy một cách ngẫu nhiên, và chúng đều có chứa nội dung đánh giá Đổi với con người, có thể dễ dàng nhận ra những đánh giá sau về chiếc E7:

+ Mầu mã đẹp

+ Giá đắt

+ Cấu hình thấp

+ Tính năng tạm được

IE cũng làm được điều tương tự

+ Chức năng NE có thể nhận diện được “Mau m ã”, “Giá”, “Cấu hình”,

“Tỉnh năng” một cách dễ dàng.

+ Chức năng c o có thể tìm các liên kết các đại từ và nhận biết được đánh giá đấy dành cho điện thoại nào Chẳng hạn như các đại từ dành cho điện thoại

E7 là: “E 7 ”, “em ”, “Nokia”, “con”, “mạy” v.v

+ Và chức năng TE sẽ tìm được những đánh giá như “đẹp ”, “chán ”, “thấp ”,

“tệ ”, “d ở ” v.v để miêu tả cho các thực thể mà NE đã tìm thấy.

4.3 Những thách thức của bài toán

Như đã trình bày, xây dựng NE, CO và TE là một công việc phức tạp và nó phụ thuộc hoàn toàn vào lĩnh vực mà hệ thống đề cập đến Qua 5 ví dụ về đánh giả trên,

ta có thể rút ra những thử thách mà bài toán đặt ra, và nhiệm vụ của hệ thống là phải giải quyết triệt để những thử thách này

Ngày đăng: 13/06/2021, 09:36

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w