1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại quan điểm của du khách với du lịch phong nha kẻ bàng tỉnh quảng bình

25 117 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 432,56 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

+ Nghiên cứu các phương pháp, các kỹ thuật khai phá dữ liệu, khai phá văn bản.. Qua đó vận dụng để khai thác dữ liệu từ các trang Web thông qua dữ liệu để đánh giá ý kiến của người dùng

Trang 1

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN VĂN HƯỚNG

PHÂN LOẠI QUAN ĐIỂM CỦA DU KHÁCH VỚI DU LỊCH PHONG NHA - KẺ BÀNG

Trang 2

Công trình được hoàn thành tại

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Người hướng dẫn khoa học: TS ĐẬU MẠNH HOÀN

Có thể tìm hiểu luận văn tại:

- Trung tâm Học liệu và Truyền thông Trường Đại học Bách khoa Đại học Đà Nẵng

- Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa

Đại học Đà Nẵng

Trang 3

để tiềm năng sẵn có để hội nhập Quảng Bình, vùng đất được thiên nhiên ưu ái ban tặng nhiều tài nguyên quý, độc đáo có thể phục vụ cho việc phát triển một ngành du lịch với nhiều loại sản phẩm du lịch, hình thức du lịch phong phú và đa dạng Quảng Bình cũng đã xác định “Du lịch là một ngành kinh tế mũi nhọn của tỉnh” Quảng Bình là vùng đất giàu tiềm năng, lợi thế để phát triển du lịch, tuy nhiên cho đến nay thì

du lịch Quảng Bình còn rất nhỏ bé, mức độ phát triển còn chưa tương xứng với tiềm năng to lớn được thiên nhiên ban tặng Vị thế của Quảng Bình nói chung và du lịch Quảng Bình nói riêng còn rất thấp so với các tỉnh, thành phố trong cả nước Vì vậy, làm sao để du lịch Quảng Bình nói chung và Du lịch Phong Nha - Kẻ Bàng nói riêng phát triển đi lên ngày một nhanh và mạnh mẽ hơn, thu hút được lượng khách du lịch đến thăm quan nhiều hơn, nâng cao sức cạnh tranh, nâng cao vị thế của du lịch Quảng Bình là một vấn đề quan trọng và cấp thiết cần được đưa ra Phong Nha - Kẻ Bàng là một điểm đến lý tưởng và có nhiều tiềm năng trong thu hút khách du lịch, trong thời gian gần đây thực sự đã trở thành điểm du lịch hấp dẫn của du khách trong và ngoài nước Tuy nhiên, việc nghiên cứu đánh giá quan điểm của du khách, cũng như các yếu tố ảnh hưởng đến sự hài lòng của du khách để có những giải pháp

Trang 4

phù hợp nhằm nâng cao khả năng thu hút du khách hơn nữa để từ đó mang lại hiệu quả kinh tế cao hơn Chính vì lý do đó nên tôi đã chọn đề tài “Phân loại quan điểm của du khách với du lịch Phong Nha – Kẻ Bàng tỉnh Quảng Bình” để nghiên cứu, qua đó mong muốn đóng góp một phần ý nghĩa cho hoạt động du lịch của tỉnh nhà

2 MỤC ĐÍCH VÀ Ý NGHĨA CỦA ĐỀ TÀI

2.1 Mục đích

Trên cơ sở lý thuyết về xử lý ngôn ngữ tự nhiên, phân tích từ vựng trong đoạn văn bản tiếng Việt, xây dựng ứng dụng Demo phân tích quan điểm đánh giá từ một cụm từ hay một đoạn văn bản Dữ liệu đầu vào của chương trình được khai thác từ các trang Web

+ Nghiên cứu các phương pháp, các kỹ thuật khai phá dữ liệu, khai phá văn bản

+ Nghiên cứu kỹ thuật phân loại quan điểm đối với tiếng Việt + Phân loại quan điểm của du khách đối với điểm du lịch Phong Nha – Kẻ Bàng tỉnh Quảng Bình

2.2 Ý nghĩa khoa học

+ Nghiên cứu và năm bắt được các kỹ thuật khai phá dữ liệu, khai phá văn bản Qua đó vận dụng để khai thác dữ liệu từ các trang Web thông qua dữ liệu để đánh giá ý kiến của người dùng đối với điểm

du lịch Phong Nha – Kẻ Bàng tỉnh Quảng Bình từ đó có thể sử dụng các thông tin đó để phục vụ cho công việc, kinh tế, xã hội hay các mục đích chính trị khác của tỉnh Quảng Bình

+ Từ dữ liệu lớn thu thập được từ các trang mạng có thể rút ra được các thông tin hữu ích

+ Giải quyết được bài toán phân loại quan điểm từ các trang Web

+ Rút ra được các nhận xét có ý nghĩa đối với bài toán nghiên cứu

2.3 Ý nghĩa thực tiễn

Trang 5

+ Thu thập được dữ liệu của người dùng về điểm du lịch Phong Nha - Kẻ Bàng tỉnh Quảng Bình Bước đầu xây dựng được công cụ Demo để đánh giá các quan điểm từ dữ liệu đã rút trích được từ đó + Nắm bắt được ý kiến người dùng về điểm du lịch Phong Nha -

Kẻ Bàng tỉnh Quảng Bình từ các trang Web Cho ra các đề xuất, giải pháp mang tính thực tiễn hỗ trợ du lịch tỉnh Quảng Bình

+ Có thể mở rộng nghiên cứu để xây dựng hệ thống đánh giá các

ý kiến về các chủ đề khác từ các trang mạng xã hội

3 MỤC TIÊU VÀ NHIỆM VỤ ĐỀ TÀI

3.1 Mục tiêu

Mục tiêu chính của đề tài là đánh giá các quan điểm từ trang Web đối với điểm du lịch Phong Nha – Kẻ Bàng Để thực hiện được mục tiêu này thì cần đạt được những mục tiêu cụ thể sau:

+ Nghiên cứu và vận dụng tốt kỹ thuật xử lý ngôn ngữ tự nhiên + Nghiên cứu kỹ thuật khai phá dữ liệu, khai phá văn bản

+ Nghiên cứu kỹ thuật phân loại quan điểm đối với tiếng Việt + Xây dựng Demo ứng dụng phân loại quan điểm đối với điểm

+ Nghiên cứu thực tiễn: nghiên cứu các kỹ thuật liên quan đến bài toán

+ Xử lý dữ liệu từ các trang Web

+ Xây dựng bài toán, xử lý và xây dựng ứng dụng Demo

4 ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU

4.1 Đối tượng nghiên cứu

Trang 6

+ Tìm hiểu nghiên cứu, khảo sát ngôn ngữ tự nhiên tiếng Việt

Cơ sở lý thuyết về xử lý dữ liệu văn bản, xử lý ngôn ngữ tự nhiên, phân loại quan điểm người dùng

+ Các kỹ thuật dùng để xử lý văn bản, các kỹ thuật phân loại + Các công cụ và phần mềm mã nguồn mở hỗ trợ nghiên cứu, thiết kế quy trình thực hiện

+ Du khách đến du lịch và quan điểm của họ được lấy từ dữ liệu trên các trang Web đối với điểm du lịch Phong Nha – Kẻ Bàng

5 PHƯƠNG PHÁP NGHIÊN CỨU

Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài Tổng hợp các thông tin dữ liệu đã nghiên cứu Nghiên cứu các kỹ thuật có liên quan đến bài toán Nghiên cứu công cụ xử lý và việc ứng dụng công cụ cho bài toán

5.1 Phương pháp lý thuyết

Phương pháp phân tích tổng hợp từ tài liệu: Từ các nghiên cứu

về xử lý văn bản, xử lý ngôn ngữ tự nhiên tiếng Anh, tiếng Trung, tiếng Việt, các kỹ thuật đánh giá được tìm thấy từ các bài báo, các kết quả nghiên cứu, qua mạng internet,

Phương pháp thống kê: Tìm hiểu hiện trạng các kỹ thuật sử dụng

trong lựa chọn đặc trưng của văn bản phục vụ quá trình phân loại

Trang 7

Nghiên cứu hiệu quả của các kỹ thuật đó qua kết quả tìm được Đánh giá hiệu quả thông qua số liệu và kết quả nghiên cứu có được

Phương pháp phân tích và thiết kế: Phân tích các đối tượng cần

nghiên cứu để giải quyết các vấn đề liên quan và thiết kế dữ liệu, thiết

kế quy trình xử lý dữ liệu

Phương pháp mô hình hóa: Mô hình hóa dữ liệu, mô hình hóa

quy trình xử lý để thực hiện phân tích tâm lý người sử dụng qua văn bản thu được

Phương pháp so sánh: So sánh các dữ liệu tìm được, so sánh kết

quả nghiên cứu từ các kỹ thuật khác nhau

+ Kiểm tra, thử nghiệm, nhận xét và đánh giá kết quả

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 KHAI PHÁ DỮ LIỆU VÀ MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU

1.1.1 Khai phá dữ liệu

Khai phá dữ liệu là một tiến trình sử dụng các công cụ phân tích

dữ liệu khác nhau để khám phá ra các mẫu dưới nhiều góc độ khác nhau nhằm phát hiện ra các mối quan hệ giữa các dữ kiện, đối tượng bên trong cơ sở dữ liệu, kết quả của việc khai phá là xác định các mẫu hay các mô hình đang tồn tại bên trong, nhưng chúng nằm ẩn khuất ở các cơ sở dữ liệu Để từ đó rút trích ra được các mẫu, các mô hình hay các thông tin và tri thức từ các cơ sở dữ liệu Khai phá dữ liệu là bước chính của quy trình khai phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database - KDD)

Trang 8

1.1.2 Một số phương pháp và kỹ thuật khai phá dữ liệu

a Khai thác tập phổ biến và luật kết hợp: Đây là tiến trình khám

phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu

b Phân lớp dữ liệu (Classification): là tiến trình khám phá các

luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp Một số kỹ thuật thường được sử dụng trong phân lớp:

+ Cây quyết định (Decision tree): cấu trúc dạng hình cây là biểu thị cho các quyết định Các quyết định này sinh ra các quy tắc để phân lớp và dự đoán (dự báo) tập dữ liệu mới chưa được phân lớp

+ Mạng Nơron (Neural Network - Nnet): Đây là một trong những

kỹ thuật được ứng dụng rất phổ biến hiện nay vì kỹ thuật này bắt chước khả năng tìm kiếm mẫu của bộ não con người

c Gom cụm (Clustering): là tiến trình nhận diện các cụm tiềm ẩn

trong tập các đối tượng chưa được xếp lớp

1.2 KHAI PHÁ QUAN ĐIỂM

1.2.1 Khai phá quan điểm

Khai phá quan điểm là lĩnh vực nghiên cứu chuyên sâu trong các lĩnh vực nghiên cứu khai phá dữ liệu văn bản, xử lý ngôn ngữ tự nhiên với mục đích thu thập được những thông tin mong muốn về quan điểm của người dùng

Khai phá quan điểm là nghiên cứu tính toán các ý kiến của con người, thái độ, cảm xúc và quan điểm của người đó đối với một thực thể

Khai phá quan điểm là kỹ thuật để phát hiện và trích xuất thông tin về quan điểm của con người được lưu trong cơ sở dữ liệu, để làm được việc này vấn đề quan trọng là phân cực được quan điểm, quan điểm đối với vấn đề, hay nói cách khác đó là gán nhãn cho tài liệu, đánh giá đó là tích cực hay tiêu cực với đối tượng mục tiêu (chủ đề) Các ý kiến quan điểm có thể thể hiện theo hai hướng:

Trang 9

+ Quan điểm trực tiếp: cho ý kiến hoặc là tích cực, hoặc là tiêu cực trực tiếp về các đối tượng quan tâm

+ Quan điểm gián tiếp: so sánh các đối tượng quan tâm với đối tượng tương tự khác để đưa ra ý kiến cá nhân

1.2.2 Bài toán phân loại quan điểm

Bài toán phân loại quan điểm là một trường hợp đặc biệt của bài toán phân loại văn bản mà giá trị phân loại nhận được theo tính phân cực (tích cực hoặc tiêu cực hoặc trung tính), nó được sử dụng trong các lĩnh vực khác nhau như kinh doanh, chính trị và tâm lý học, dự báo, kinh tế, du lịch,… Mục đích chính của phân loại quan điểm người sử dụng là xác định sự phân cực của văn bản trong xử lý ngôn ngữ tự nhiên

1.2.3 Cấp độ phân loại quan điểm

a Cấp độ từ

b Cấp độ cụm từ

c Cấp độ câu

d Cấp độ văn bản

1.2.4 Kỹ thuật phân loại quan điểm

a Phương pháp dựa vào từ vựng:

Phương pháp dựa vào từ vựng sử dụng một tập các từ biểu thị ý kiến và nó phụ thuộc vào tập các từ vựng thể hiện quan điểm này Trong đó tập các từ được biên tập và biên dịch sẵn, chúng được sử dụng để phân tích văn bản

b Phương pháp học máy

Phương pháp dựa vào học máy sử dụng các giải thuật học máy nổi tiếng bằng việc sử dụng cú pháp và các đặc trưng trong ngôn ngữ + Học có giám sát:

+ Học không có giám sát:

+ Học bán giám sát:

Trang 10

CHƯƠNG 2: PHƯƠNG PHÁP TÁCH TỪ VÀ PHÂN LOẠI

xử lý ngôn ngữ tự nhiên khác như phân loại văn bản Tách từ (Word Segmentation) là một quá trình xử lý văn bản để xác định ranh giới của các từ trong câu Hai phương pháp nổi bật của hướng tiếp cận dựa vào

từ điển là Longest Matching và Maximal Matching

2.1.2 Phương pháp Maximum Matching

Phương pháp so khớp dài nhất (Longest Matching - LM) và so khớp cực đại (Maximum Matching - MM) là hai phương pháp tách từ kinh điển của hướng tiếp cận dựa trên từ điển

Phương pháp so khớp cực đại Maximum Matching được xem như là phương pháp tách từ dựa trên từ điển đơn giản nhất Cách thực hiện của phương pháp so khớp cực đại là cố gắng so khớp với từ dài nhất có thể có trong từ điển

2.1.3 Phương pháp Weighted Finite State Transducer và mạng Neural

Ý tưởng cơ bản của mô hình Weighted Finite State Transducer là

áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu

Hoạt động của mô hình: Đầu tiên cho câu đi văn bản qua phần tiền xử lý, ở bước này loại bỏ các lỗi về cách trình bày một câu Sau đó câu được đưa vào mô hình WFST Ở bước này sẽ xử lý tất cả các vấn

Trang 11

đề về tách từ, tuy nhiên nếu câu cần tách vẫn còn nhập nhằng (điều này được xác định thông qua một giá trị ngưỡng nào đó) mô hình sẽ tự động gọi mô hình mạng Neural để khử các nhập nhằng đó và chọn ra trường hợp tách từ phù hợp

2.1.4 Phương pháp MMSeg

Mô hình này thực hiện bằng cách bổ sung cho mô hình tách từ cực đại Maximum Matching nói trên thông qua một số luật Heuristic trên ngôn ngữ để đánh giá dựa trên 2 mô hình của Maximum Matching Các hình thức giải quyết của Maximum Matching như sau: + Đối với dạng đơn giản: Từ hợp lý nhất sẽ là từ được so khớp dài nhất Chúng ta lấy từ này, sau đó tiếp tục tiến trình cho đến khi từ cuối cùng của chuỗi được nhận ra

+ Đối với dạng phức tạp: Quy tắc của dạng này là phân đoạn hợp

lý nhất là đoạn ba từ với chiều dài tối đa Thuật toán bắt đầu như dạng đơn giản

Luật 2: Hai từ hai tiếng không đi liền nhau

Luật 3: Chiều dài biến động nhỏ nhất: Có 1 số ít điều kiện nhập nhằng mà trong luật 1 và luật 2 không thể giải quyết được

Luật 4: Tần số tiếng cao nhất hay log thấp nhất

2.1.5 Phương pháp Maximum Entropy

Phương pháp Maximum Entropy cực đại là phương pháp dựa trên xác suất có điều kiện cho phép tích hợp các thuộc tính đa dạng từ

dữ liệu mẫu nhằm hỗ trợ quá trình phân lớp Ý tưởng chủ đạo của nguyên lý entropy cực đại đó là ta phải xác định một phân phối mô hình sao cho phân phối đó tuân theo mọi giả thiết đã quan sát từ thực

Trang 12

nghiệm, ngoài ra không cho thêm bất kì giả thiết nào khác Entropy là

độ đo về tính đồng đều hay tính ko chắc chắn của một phân phối xác suất

2.1.6 Phương pháp Pointwise

Mô hình tách từ bằng phương pháp Pointwise là phương pháp mới được tác giả Lưu Tuấn Anh nghiên cứu gần đây Phương pháp này

tỏ ra khá hiệu quả, đặc biệt nó được sử dụng rộng rãi trong tiếng Nhật

và tiếng Trung và mang lại hiệu quả thực nghiêm cao Đối với tiếng Việt, phương pháp này được ứng dụng trong bài toán thêm dấu cho tiếng Việt không dấu và thu được kết quả khá tốt (gần 95%) [13] Phương pháp tiếp cận dạng pointwise sử dụng 3 dạng thông tin đánh giá đặc trưng cơ bản trong phương pháp đó là: n-gram âm tiết, n-gram chủng loại của âm tiết, và đặc trưng từ điển, và thực hiện một cách độc lập với nhau Kỹ thuật tách từ bằng phương pháp Pointwise với phương pháp dữ liệu không đầy đủ thì chỉ những vị trí chắc chắn chính xác mới được tách từ

2.2 MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN

2.2.1 Phương pháp Naive Bayes

Một trong các phương pháp phân loại văn bản phổ biến là phương pháp Naive Bayes, phương pháp phân loại này dựa trên xác suất, quá trình thực hiện nhanh và dễ dàng, nó được sử dụng rộng rãi trong lĩnh vực máy học, được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron năm 1961 và ngày càng trở nên phổ biến [26]

Ý tưởng cơ bản của phương pháp này là sử dụng xác suất có điều kiện của từ hay đặc trưng xuất hiện trong văn bản với chủ đề để dự đoán chủ đề của văn bản đang xét

2.2.2 Phương pháp Linear Least-Squares Fit

Linear Least-Squares Fit - LLSF là một trong những phương pháp phân loại văn bản bằng phương pháp hồi quy Linear Least Square Fit là cách tiếp cận ánh xạ được phát triển bởi Yang và Chute năm

1992

Trang 13

Linear Least - Squares Fit sử dụng phương pháp hồi quy để học

từ tập huấn luyện và các chủ đề có sẵn, mỗi văn bản trong tập huấn luyện sẽ được biểu diễn dưới dạng một cặp vectơ đầu vào và đầu ra

2.2.3 Phương pháp k–Nearest Neighbor

Phương pháp phân loại k–Nearest Neighbor - kNN là phương pháp tiếp cận dựa trên thống kê, đây là phương pháp sử dụng truyền thống trong những thời gian đầu

Quá trình phân loại một văn bản mới, thuật toán sẽ tính khoảng cách (khoảng cách Euclide, Cosine ) của tất cả các văn bản trong tập huấn luyện đến văn bản này để hệ thống tìm k văn bản trong tập huấn luyện thỏa mãn điều kiện có độ tương đồng với văn bản cần kiểm nghiệm là cao nhất (gọi là “k láng giềng”)

2.2.4 Phương pháp cây quyết định

Phương pháp phân loại văn bản bằng cây quyết định là phương pháp không sử dụng xác suất hay không sử dụng số học mà sử dụng các

mô hình thể hiện để tính toán và phân loại Phương pháp này có thể áp dụng vào bài toán phân loại văn bản Cách thức thực hiện của phương pháp đó là dựa vào tập các văn bản huấn luyện (tập huấn luyện), để xây dựng một cây quyết định

2.2.5 Phương pháp Mạng Nơron nhân tạo

Mạng Nơron nhân tạo (Artificial Neural Network - ANN) là phương pháp máy học được nghiên cứu nhiều trong lĩnh vực trí tuệ nhân tạo ANN được sử dụng để phân loại văn bản trong nghiên cứu của Wiener, Wiener sử dụng 2 hướng tiếp cận, thứ nhất là kiến trúc phẳng (không sử dụng lớp ẩn) và hướng thứ 2 là mạng Nơron 3 lớp (bao gồm một lớp ẩn) [31]

Ngày đăng: 05/03/2019, 01:44

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w