1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(TIỂU LUẬN) PHÂN TÍCH dữ LIỆU MẠNG xã hội và WEBSITE để xây DỰNG bộ DANH SÁCH NHỮNG địa điểm DU LỊCH TIỀM NĂNG và AN TOÀN

46 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Dữ Liệu Mạng Xã Hội Và Website Để Xây Dựng Bộ Danh Sách Những Địa Điểm Du Lịch Tiềm Năng Và An Toàn
Tác giả Nhóm A-MEO Trần Hải Hoàng, Tô Nguyễn Nhật Duy, Nguyễn Mỹ Kỳ, Cao Văn Tâm, Nguyễn Thị Linh Tâm
Người hướng dẫn ThS Đặng Nhân Cách
Trường học Trường Đại Học Kinh Tế Luật, Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Hệ Thống Thông Tin
Thể loại Tieu luan
Năm xuất bản 2019
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 46
Dung lượng 3,67 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1, Ngôn ngữ lập trình (11)
  • CHƯƠNG 3: TRIỂN KHAI PHÂN TÍCH DỮ LIỆU 3.1, Quy trình phân tích (21)
  • CHƯƠNG 4: KẾT LUẬN VÀ ĐÁNH GIÁ 4.1, Tóm tắt nội dung và kết quả của đề tài (41)
    • II. Quy định làm việc của nhóm (43)
    • III. Bảng phân công nhiệm vụ (44)
    • IV. Tổng kết (45)

Nội dung

Một vài trường hợp du khách nhận được các thông tin sai lệch hoặc quá phô trường về điểm đến khi tham khảo trên các website, các trang báo… Một vài trường hợp khác gặp khó khăn khi có nh

CƠ SỞ LÝ THUYẾT 2.1, Ngôn ngữ lập trình

R là ngôn ngữ lập trình và môi trường phần mềm dành cho tính toán và đồ họa thống kê Đây là hiện thực của ngôn ngữ lập trình S với ngữ nghĩa khối từ vựng lấy cảm hứng từ Scheme R được tạo ra bởi Ross Ihaka và Robert Gentleman tại Đại học Auckland, New Zealand Kể từ khi ra đời, rất nhiều nhà nghiên cứu thống kê và toán học trên thế giới đã ủng hộ và tham gia vào quá trình phát triển R Đến nay, công trình phát triển và duy trì R được thực hiện bởi R Development Core Team, với sự đóng góp của cộng đồng người dùng và nhà phát triển trên toàn cầu.

Core Team chịu trách nhiệm phát triển ngôn ngữ R Tên ngôn ngữ này một phần lấy từ chữ cái đầu của hai tác giả Robert Gentleman và Ross Ihaka, đồng thời cũng là cách chơi chữ với tên S.

Ngôn ngữ R hiện được xem như một tiêu chuẩn de facto của giới thống kê và là minh chứng cho sự phát triển vượt bậc của phần mềm thống kê R cung cấp một hệ sinh thái công cụ phong phú cho phân tích dữ liệu, khám phá tri thức và khai thác dữ liệu, đồng thời là phần mềm miễn phí mã nguồn mở R dễ học và cho phép phát triển nhanh các ứng dụng tính toán xác suất thống kê và phân tích dữ liệu R là một phần của dự án GNU, với mã nguồn được phát hành tự do theo Giấy phép công khai GNU, và có các bản dịch sẵn cho nhiều hệ điều hành khác nhau Dù hoạt động chủ yếu qua giao diện dòng lệnh, R vẫn có một số giao diện đồ họa người dùng (GUI) để phù hợp với nhiều loại người dùng.

Cho đến nay, R đã phát triển không ngừng và ngày càng có nhiều nhà khoa học, kể cả các nhà toán học, sử dụng R để phân tích dữ liệu Trong tương lai, có thể sẽ không cần đến các phần mềm thống kê đắt tiền như SPSS để phân tích thống kê nữa mà thay vào đó sẽ là R, mang lại công cụ phân tích dữ liệu linh hoạt và mạnh mẽ cho cộng đồng nghiên cứu.

R là ngôn ngữ thông dịch, cho phép bạn chạy mã nguồn mà không cần compiler Điều này có nghĩa là mã R được thực thi trực tiếp bởi trình thông dịch thay vì phải biên dịch trước, giúp tối ưu quy trình phát triển Nhờ đặc tính thông dịch, việc viết mã trở nên đơn giản hơn và quá trình phát triển ứng dụng với R diễn ra nhanh chóng và thuận tiện cho người lập trình.

Trong R, mọi phép tính có thể được thực hiện trên vectors nhờ đặc tính vectorization Đây là đặc trưng của ngôn ngữ làm việc với vector, cho phép bạn áp dụng bất kỳ hàm nào lên một vector mà không cần vòng lặp Ví dụ, để tăng mỗi phần tử của một mảng lên +1, cách làm thông thường là lặp qua từng phần tử với n lần cộng Ngược lại, khi dữ liệu được lưu dưới dạng vector, chỉ cần một phép +1 là bạn có thể tăng toàn bộ phần tử một cách đồng bộ.

R là ngôn ngữ lập trình và môi trường phổ biến cho thống kê và phân tích dữ liệu, được ứng dụng rộng rãi trong sinh học và di truyền học Nó cho phép thực hiện từ phân tích thống kê cơ bản đến mô hình hóa dữ liệu phức tạp liên quan đến sinh học và di truyền học, nhờ hệ sinh thái gói mở rộng và cộng đồng người dùng lớn R được xem là một ngôn ngữ thống kê có thể mở rộng và linh hoạt, giúp nhà khoa học triển khai các thuật toán tùy chỉnh và phân tích dữ liệu một cách hiệu quả Bên cạnh đó, R là ngôn ngữ Turing-complete, có nghĩa là nó có thể mô tả và thực thi bất kỳ thuật toán nào mà máy tính có thể xử lý, mở rộng khả năng nghiên cứu và ứng dụng thống kê dữ liệu.

Python là một ngôn ngữ lập trình bậc cao do Guido van Rossum sáng lập và ra mắt lần đầu vào năm 1991 Được thiết kế với ưu điểm nổi bật là dễ đọc, dễ học và dễ nhớ, Python có cú pháp sáng sủa cùng cấu trúc rõ ràng, phù hợp cho người mới bắt đầu học lập trình Cấu trúc của Python cho phép viết mã với số lần gõ phím tối thiểu, giúp tăng hiệu quả và tốc độ phát triển dự án.

Python là ngôn ngữ có kiểu động hoàn toàn và quản lý cấp phát bộ nhớ tự động, giúp người dùng viết mã dễ dàng mà không cần lo về cấp phát thủ công Do đó, Python có nhiều điểm tương đồng với các ngôn ngữ như Perl, Ruby, Scheme, Smalltalk và Tcl Dự án phát triển Python là mã nguồn mở và được quản lý bởi Python Software Foundation, một tổ chức phi lợi nhuận.

Ngôn ngữ Python ban đầu được thiết kế để hoạt động trên hệ điều hành Unix, và qua thời gian nó đã mở rộng sang nhiều nền tảng khác nhau từ MS-DOS và Mac OS đến OS/2, Windows, Linux và các hệ điều hành dựa trên Unix khác, cho thấy tính đa nền tảng của Python Dù sự đóng góp cho sự phát triển của Python đến từ nhiều cá nhân, Guido van Rossum vẫn là tác giả chủ chốt hiện nay và nắm vai trò quyết định trong việc xác định định hướng phát triển của Python.

2.1.2.2, Tính năng chính của Python

Python là ngôn ngữ lập trình có cú pháp đơn giản và dễ học, giúp đọc và viết mã dễ dàng hơn so với các ngôn ngữ khác như C++, Java hoặc C# Python tập trung vào tìm giải pháp chứ không phải cú pháp, giúp lập trình viên tập trung vào giải quyết vấn đề Tính tự nhiên của mã giả trong Python là một trong những điểm mạnh nổi bật của ngôn ngữ này, làm cho quá trình phát triển trở nên trực quan và hiệu quả hơn Nhờ những đặc tính này, Python trở thành lựa chọn phổ biến cho người mới bắt đầu và cho các dự án cần prototyping nhanh và triển khai linh hoạt.

Miễn phí và mã nguồn mở cho phép bạn không chỉ sử dụng các phần mềm viết bằng Python mà còn có thể chỉnh sửa và tùy biến mã nguồn của chúng, giúp bạn tối ưu hoá theo nhu cầu riêng Python được xem là ngôn ngữ mạnh nhờ sự đóng góp liên tục của cộng đồng, nơi hàng loạt bản cập nhật, cải tiến và thư viện mới được phát triển và nâng cấp đều đặn.

Khả năng di chuyển giữa các nền tảng (đa nền tảng) của Python cho phép các chương trình được viết bằng Python có thể chuyển từ nền tảng này sang nền tảng khác và chạy mà không cần bất kỳ chỉnh sửa nào Ứng dụng Python hoạt động liền mạch trên hầu hết các hệ điều hành phổ biến như Windows, macOS và Linux, giúp tăng tính linh hoạt và đơn giản hóa quá trình triển khai.

Python cho phép mở rộng và nhúng bằng cách dễ dàng kết hợp các phần mã viết bằng C, C++ và các ngôn ngữ khác có thể gọi từ C vào mã Python Khả năng này cho phép tận dụng hiệu suất của C/C++, tích hợp thư viện và module từ nhiều ngôn ngữ, từ đó mở rộng tính năng cho ứng dụng và cung cấp khả năng scripting linh hoạt mà các ngôn ngữ khác khó làm được.

Ngôn ngữ thông dịch cấp cao như Python giúp người lập trình tập trung vào logic ứng dụng thay vì phải lo lắng về quản lý bộ nhớ hay dọn dẹp dữ liệu vô nghĩa như trong C/C++ Với Python, việc cấp phát và giải phóng bộ nhớ được trình thông dịch tự động quản lý, giúp người viết mã không phải xử lý các tác vụ phức tạp ở mức thấp Khi chạy mã Python, trình thông dịch sẽ chuyển đổi mã nguồn sang ngôn ngữ máy tính mà máy có thể hiểu, từ đó cho phép thực thi nhanh chóng và hiệu quả mà không cần tối ưu hóa ở cấp độ thấp.

TRIỂN KHAI PHÂN TÍCH DỮ LIỆU 3.1, Quy trình phân tích

Khi bạn đi du lịch khắp thế giới, các địa điểm nổi tiếng thường được gợi ý từ các bài báo du lịch và từ kinh nghiệm của những người đi trước Dù rủi ro có thể xảy ra và sự thật có thể không hoàn toàn khớp với tưởng tượng, bài viết này giúp bạn dễ dàng tìm kiếm những điểm đến an toàn và nổi tiếng cho chuyến hành trình của mình Bạn sẽ được hướng dẫn cách đánh giá nguồn tin, nhận diện các gợi ý đáng tin cậy và lên kế hoạch chuyến đi hiệu quả để tối ưu hóa trải nghiệm, chi phí và thời gian.

Thu thập dữ liệu và công cụ thu thập dữ liệu:

Nguồn dữ liệu bao gồm mạng xã hội Twitter và hai trang web thetravelmagazine.net cùng theguardian.com Mục tiêu là thu thập dữ liệu từ các nguồn này bằng ngôn ngữ Java trong môi trường Eclipse và phân tích để rút ra xu hướng nội dung, tần suất xuất hiện chủ đề du lịch và mức độ ảnh hưởng của các bài viết Quá trình thu thập dữ liệu được thực hiện qua các phương thức truy cập công khai hoặc API phù hợp và tuân thủ các điều khoản sử dụng cũng như bản quyền của mỗi nguồn Dữ liệu sau khi thu thập sẽ được làm sạch, chuẩn hóa và tổ chức theo cấu trúc phân tích nhằm thực hiện các phân tích thống kê và phân tích nội dung, nhằm tối ưu hóa cho SEO và cho bài viết trên website Kết quả phân tích sẽ cho thấy các chủ đề thịnh hành, mối quan hệ giữa nguồn tin và độ tin cậy, cũng như các xu hướng trên Twitter và các bài viết nổi bật của The Travel Magazine và The Guardian.

Buớc 1: Mỗi trang web lấy 100 link bài báo liên quan đến du lịch

Lấy link bằng code python và lưu dưới dạng file csv rồi chuyển sang file txt

Hình 3 1 Code lấy link trang web

Hình 3 2 Code lấy link dưới dạng file csv

Bước 2: Truy cập bài báo trên trang => View source

Hình 3 3 Source web thetravelmagazine.net

Hình 3 4 Source web theguardian.com

Bước 3: Viết source code lấy dữ liệu trên eclipse, lấy dữ liệu theo 2 class “td-post- content” và “content article-body”

Hình 3 5 Code lấy dữ liệu trên eclipse của thetravelmagazine.net

Hình 3 6 Code lấy dữ liệu trên eclipse trên theguardian.com

Dữ liệu sau khi lấy về:

Hình 3 7 Nội dung các bài báo trên thetravelmagazine.net

Hình 3 8 Nội dung các bài báo trên theguardian.com

Bước 4: Lọc lấy các địa điểm xuất hiện trong nội dung bài báo

Hình 3 9 Kết quả các địa điểm trong bài báo b Phân tích kết quả

Kết quả thu được bộ dữ liệu 3848 địa điểm

Nhóm đã sử dụng excel để thống kê các địa điểm và sắp xếp theo thứ tự giảm dần số lượt nhắc đến

Chúng tôi thực hiện chỉnh sửa một số sai sót và kết quả tạo ra được bộ dữ liệu các địa điểm và số lượt được nhắc đến

Hình 3 10 Thống kê các địa điểm du lịch trong các bài báo bằng excel

Hình 3 11 Kết quả các địa điểm được lặp lại nhiều nhất

Bước 5: Sử dụng R để wordcloud dữ liệu và tiến hành vẽ biểu đồ những địa điểm được nhắc tới nhiều nhất

Code R – wordcloud bộ dữ liệu

Hình 3 12 Code R – wordcloud bộ dữ liệu

Hình 3 13 Wordcloud bộ dữ liệu

Chúng tôi tiến hành export ra file PDF để tiện lưu lại và phục vụ quá trình phân tích tiếp theo

Hình 3 14 Kết quả wordcloud các địa điểm

Có thể dễ dàng nhận thấy những địa điểm được nhắc đến nhiều nhất sau khi wordcloud bộ dữ liệu thu được

Sử dụng excel tiến hành vẽ biểu đồ top các địa điểm được nhắc đến nhiều nhất

Hình 3 15 Biểu đồ top địa điểm được nhắc đến nhiều nhất

Biểu đồ độ phủ của 5 quốc gia được nhắc đến nhiều nhất

Hình 3 16 Biểu đồ độ phủ của 5 quốc gia được nhắc đến nhiều nhất

Từ bộ dữ liệu và thông tin thu được sau khi tiến hành wordcloud, chúng tôi lọc lấy

10 nước được nhắc đến nhiều nhất và tiến hành lấy Tweet về các địa điểm đó

Từ các biểu đồ trên có thể nhận thấy được những địa điểm được mọi người quan nhất, trong đó UK được nhắc đến nhiều nhất với 46%

3.1.3, Thực chứng mức độ đánh giá của 10 địa điểm hàng đầu:

Top các địa điểm được nhắc đến nhiều nhất

10% Độ phủ của 5 nước được nhắc đến nhiều nhất

UK Ireland Britain France America a Lấy dữ liệu thu thập được trên twitter tiến hành phân độ tích cực tiêu cực từ tweet

Lấy dữ liệu từ Twitter bằng ngôn ngữ python trên Google Colab:

Lấy 100 tweet của 10 nước có tầng số xuất hiện nhiều nhất trên các bài báo liên quan đến du lịch

Bước 1: Lấy API Twitter Để thiết lập các API, đăng nhập tài khoản của bạn tại Twiter và truy cập https://apps.twitter.com/app/new

Hình 3 17 Bước 1 Lấy API Twitter Đồng ý với Điều khoản và điều kiện rồi và nhấp vào “Tạo ứng dụng Twitter của bạn”

Hình 3 18 Bước 2 lấy API Twitter

Twiter sẽ thông báo các khoá API kết nối Lưu lại Consumer Key (Key API) và Consumer Secret cẩn thận để sử dụng sau này

Hình 3 19 Bước 3 lấy API Twitter

Bước 2: Sử dụng Google Colab với ngôn ngữ Python để lấy bộ dữ liệu Tweet về các địa điểm

Hình 3 21 Bộ dữ liệu thu được từ Twitter

Hình 3 22 Dữ liệu thu được

Bước 3: Thống kê lại những ý tích cực và tiêu cực

Với kết quả thu được từ quá trình phân tích dữ liệu, chúng tôi tiến hành làm sạch dữ liệu và sửa các lỗi phát hiện được trước khi đánh giá bộ dữ liệu, nhằm đảm bảo tính nhất quán và độ tin cậy của kết quả Quá trình này tập trung vào chuẩn hóa dữ liệu, loại bỏ nhiễu và hiệu chỉnh các bất thường để dữ liệu sẵn sàng cho các bước phân tích tiếp theo Chúng tôi sử dụng Eclipse làm môi trường phát triển để tối ưu hóa quy trình làm sạch và chỉnh sửa dữ liệu, tận dụng các công cụ quản lý mã nguồn và hỗ trợ xử lý theo chu kỳ, giúp nâng cao hiệu quả và độ tái lập của công việc.

- Code làm sạch dữ liệu:

Hình 3 23 Code làm sạch dữ liệu

Hình 3 24 Dữ liệu sau khi làm sạch

- Code đánh giá và thống kê:

Hình 3 25 Code đánh giá và thống kê

Hình 3 26 Kết quả đánh giá America

Hình 3 27 Kết quả đánh giá Australia

Hình 3 28 Kết quả đánh giá Brazil

Hình 3 29 Kết quả đánh giá Canada

Hình 3 30 Kết quả đánh giá France

Hình 3 31 Kết quả đánh giá Iceland

Hình 3 32 Kết quả đánh giá India

Hình 3 33 Kết quả đánh giá Spain

Hình 3 34 Kết quả đánh giá UK b Vẽ biểu đồ mức độ đánh giá của top 10 nước được nhắc đến trong bộ dữ liệu

Trên cơ sở bộ dữ liệu thu được, chúng tôi tiến hành thống kê mức đánh giá của 10 địa điểm được nhắc đến nhiều nhất Chúng tôi thiết lập thang đo mức độ tích cực và tiêu cực trên thang điểm 4 để đánh giá các nhận xét và xác định xu hướng chung của người dùng Kết quả cho thấy cách phân bổ điểm cho từng địa điểm đồng thời làm nổi bật các địa điểm nhận được phản hồi tích cực nhiều nhất và các địa điểm bị chỉ trích nhiều nhất, từ đó cung cấp cái nhìn tổng quan và nền tảng cho các phân tích tiếp theo.

Với kết quả sau khi thu được, chúng tôi sử dụng công cụ Excel để lập bảng biểu thống kê, nhận thấy kết quả như sau:

Hình 3 35 Kết quả tổng hợp đánh giá tích cực tiêu cực

Từ bảng dữ liệu sau khi được thống kê, chúng tôi vẽ biểu đồ thực chứng mức độ đánh giá cho 10 địa điểm được nhắc đến nhiều nhất

Hình 3 36 Biểu đồ mức độ tích cực, tiêu cực c Chứng minh và đánh giá

Qua phân tích 10 điểm đến du lịch được nhắc đến nhiều nhất, có 30% đánh giá tốt, 61% ở mức trung bình và 9% đánh giá chưa tốt Điều này cho thấy những điểm đến được quan tâm nhiều là các địa điểm có tiềm năng du lịch cao, được đánh giá tích cực, có môi trường du lịch lành mạnh và có khả năng thu hút du khách, đóng vai trò quan trọng cho sự phát triển du lịch bền vững.

Biểu đồ mức độ tích cực, tiêu cực Đánh giá 0.0 (Chưa tốt) Đánh giá 1.0 (Tạm ổn) Đánh giá trên 1.0 (Tốt)

Dựa trên dữ liệu chúng tôi thu thập được và quá trình phân tích chi tiết, chúng tôi đi tới kết luận về những điểm đến nổi bật dành cho khách du lịch Từ kết quả này, chúng tôi lập ra một bộ danh sách các điểm đến tuyệt vời, được tuyển chọn kỹ lưỡng và sắp xếp hợp lý để đáp ứng nhu cầu của người dùng Danh sách này nhằm giúp người đọc dễ tham khảo và lên kế hoạch cho chuyến đi tiếp theo một cách thuận tiện và hiệu quả.

3.2, Kết quả thu được và tạo bộ danh sách các điểm đến:

Chúng tôi xây dựng danh sách các địa điểm du lịch đáng đến trên thế giới bằng cách tổng hợp dữ liệu từ các trang web du lịch uy tín và đánh giá của người dùng trên Twitter, nhằm xác định những điểm đến nổi bật nhất cho từng loại hành trình Quá trình này kết hợp sự phổ biến của địa điểm, chất lượng trải nghiệm được đánh giá bởi du khách và phản hồi mới nhất từ cộng đồng mạng để đảm bảo độ tin cậy và cập nhật Mỗi địa điểm được tóm tắt ngắn gọn với các yếu tố quan trọng như đặc điểm nổi bật, thời điểm lý tưởng để ghé thăm và gợi ý lịch trình tối ưu Danh sách được tối ưu hóa cho SEO với các từ khóa liên quan đến địa điểm du lịch, điểm đến nổi tiếng và xu hướng du lịch hiện tại, giúp người đọc dễ dàng tìm thấy nội dung và khám phá các địa điểm đáng đến trên toàn cầu Việc dựa trên nguồn dữ liệu mở và phản hồi từ người dùng trên Twitter giúp nội dung phản ánh thực tế và đa chiều hơn.

Hình 3 37 Danh sách 10 điểm đến

10 địa điểm nên đến 10 đnước nên đến

Quần đảo Atlantic Europe Aberdovey Ireland Ballycastle Britain

Caribbean AtlanticCharleston EnglandFairbourne Heathrow

Ngày đăng: 09/12/2022, 18:02

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w