Một vài trường hợp du khách nhận được các thông tin sai lệch hoặc quá phô trường về điểm đến khi tham khảo trên các website, các trang báo… Một vài trường hợp khác gặp khó khăn khi có nh
CƠ SỞ LÝ THUYẾT 2.1, Ngôn ngữ lập trình
R là ngôn ngữ lập trình và môi trường phần mềm dành cho tính toán và đồ họa thống kê Đây là hiện thực của ngôn ngữ lập trình S với ngữ nghĩa khối từ vựng lấy cảm hứng từ Scheme R được tạo ra bởi Ross Ihaka và Robert Gentleman tại Đại học Auckland, New Zealand Kể từ khi ra đời, rất nhiều nhà nghiên cứu thống kê và toán học trên thế giới đã ủng hộ và tham gia vào quá trình phát triển R Đến nay, công trình phát triển và duy trì R được thực hiện bởi R Development Core Team, với sự đóng góp của cộng đồng người dùng và nhà phát triển trên toàn cầu.
Core Team chịu trách nhiệm phát triển ngôn ngữ R Tên ngôn ngữ này một phần lấy từ chữ cái đầu của hai tác giả Robert Gentleman và Ross Ihaka, đồng thời cũng là cách chơi chữ với tên S.
Ngôn ngữ R hiện được xem như một tiêu chuẩn de facto của giới thống kê và là minh chứng cho sự phát triển vượt bậc của phần mềm thống kê R cung cấp một hệ sinh thái công cụ phong phú cho phân tích dữ liệu, khám phá tri thức và khai thác dữ liệu, đồng thời là phần mềm miễn phí mã nguồn mở R dễ học và cho phép phát triển nhanh các ứng dụng tính toán xác suất thống kê và phân tích dữ liệu R là một phần của dự án GNU, với mã nguồn được phát hành tự do theo Giấy phép công khai GNU, và có các bản dịch sẵn cho nhiều hệ điều hành khác nhau Dù hoạt động chủ yếu qua giao diện dòng lệnh, R vẫn có một số giao diện đồ họa người dùng (GUI) để phù hợp với nhiều loại người dùng.
Cho đến nay, R đã phát triển không ngừng và ngày càng có nhiều nhà khoa học, kể cả các nhà toán học, sử dụng R để phân tích dữ liệu Trong tương lai, có thể sẽ không cần đến các phần mềm thống kê đắt tiền như SPSS để phân tích thống kê nữa mà thay vào đó sẽ là R, mang lại công cụ phân tích dữ liệu linh hoạt và mạnh mẽ cho cộng đồng nghiên cứu.
R là ngôn ngữ thông dịch, cho phép bạn chạy mã nguồn mà không cần compiler Điều này có nghĩa là mã R được thực thi trực tiếp bởi trình thông dịch thay vì phải biên dịch trước, giúp tối ưu quy trình phát triển Nhờ đặc tính thông dịch, việc viết mã trở nên đơn giản hơn và quá trình phát triển ứng dụng với R diễn ra nhanh chóng và thuận tiện cho người lập trình.
Trong R, mọi phép tính có thể được thực hiện trên vectors nhờ đặc tính vectorization Đây là đặc trưng của ngôn ngữ làm việc với vector, cho phép bạn áp dụng bất kỳ hàm nào lên một vector mà không cần vòng lặp Ví dụ, để tăng mỗi phần tử của một mảng lên +1, cách làm thông thường là lặp qua từng phần tử với n lần cộng Ngược lại, khi dữ liệu được lưu dưới dạng vector, chỉ cần một phép +1 là bạn có thể tăng toàn bộ phần tử một cách đồng bộ.
R là ngôn ngữ lập trình và môi trường phổ biến cho thống kê và phân tích dữ liệu, được ứng dụng rộng rãi trong sinh học và di truyền học Nó cho phép thực hiện từ phân tích thống kê cơ bản đến mô hình hóa dữ liệu phức tạp liên quan đến sinh học và di truyền học, nhờ hệ sinh thái gói mở rộng và cộng đồng người dùng lớn R được xem là một ngôn ngữ thống kê có thể mở rộng và linh hoạt, giúp nhà khoa học triển khai các thuật toán tùy chỉnh và phân tích dữ liệu một cách hiệu quả Bên cạnh đó, R là ngôn ngữ Turing-complete, có nghĩa là nó có thể mô tả và thực thi bất kỳ thuật toán nào mà máy tính có thể xử lý, mở rộng khả năng nghiên cứu và ứng dụng thống kê dữ liệu.
Python là một ngôn ngữ lập trình bậc cao do Guido van Rossum sáng lập và ra mắt lần đầu vào năm 1991 Được thiết kế với ưu điểm nổi bật là dễ đọc, dễ học và dễ nhớ, Python có cú pháp sáng sủa cùng cấu trúc rõ ràng, phù hợp cho người mới bắt đầu học lập trình Cấu trúc của Python cho phép viết mã với số lần gõ phím tối thiểu, giúp tăng hiệu quả và tốc độ phát triển dự án.
Python là ngôn ngữ có kiểu động hoàn toàn và quản lý cấp phát bộ nhớ tự động, giúp người dùng viết mã dễ dàng mà không cần lo về cấp phát thủ công Do đó, Python có nhiều điểm tương đồng với các ngôn ngữ như Perl, Ruby, Scheme, Smalltalk và Tcl Dự án phát triển Python là mã nguồn mở và được quản lý bởi Python Software Foundation, một tổ chức phi lợi nhuận.
Ngôn ngữ Python ban đầu được thiết kế để hoạt động trên hệ điều hành Unix, và qua thời gian nó đã mở rộng sang nhiều nền tảng khác nhau từ MS-DOS và Mac OS đến OS/2, Windows, Linux và các hệ điều hành dựa trên Unix khác, cho thấy tính đa nền tảng của Python Dù sự đóng góp cho sự phát triển của Python đến từ nhiều cá nhân, Guido van Rossum vẫn là tác giả chủ chốt hiện nay và nắm vai trò quyết định trong việc xác định định hướng phát triển của Python.
2.1.2.2, Tính năng chính của Python
Python là ngôn ngữ lập trình có cú pháp đơn giản và dễ học, giúp đọc và viết mã dễ dàng hơn so với các ngôn ngữ khác như C++, Java hoặc C# Python tập trung vào tìm giải pháp chứ không phải cú pháp, giúp lập trình viên tập trung vào giải quyết vấn đề Tính tự nhiên của mã giả trong Python là một trong những điểm mạnh nổi bật của ngôn ngữ này, làm cho quá trình phát triển trở nên trực quan và hiệu quả hơn Nhờ những đặc tính này, Python trở thành lựa chọn phổ biến cho người mới bắt đầu và cho các dự án cần prototyping nhanh và triển khai linh hoạt.
Miễn phí và mã nguồn mở cho phép bạn không chỉ sử dụng các phần mềm viết bằng Python mà còn có thể chỉnh sửa và tùy biến mã nguồn của chúng, giúp bạn tối ưu hoá theo nhu cầu riêng Python được xem là ngôn ngữ mạnh nhờ sự đóng góp liên tục của cộng đồng, nơi hàng loạt bản cập nhật, cải tiến và thư viện mới được phát triển và nâng cấp đều đặn.
Khả năng di chuyển giữa các nền tảng (đa nền tảng) của Python cho phép các chương trình được viết bằng Python có thể chuyển từ nền tảng này sang nền tảng khác và chạy mà không cần bất kỳ chỉnh sửa nào Ứng dụng Python hoạt động liền mạch trên hầu hết các hệ điều hành phổ biến như Windows, macOS và Linux, giúp tăng tính linh hoạt và đơn giản hóa quá trình triển khai.
Python cho phép mở rộng và nhúng bằng cách dễ dàng kết hợp các phần mã viết bằng C, C++ và các ngôn ngữ khác có thể gọi từ C vào mã Python Khả năng này cho phép tận dụng hiệu suất của C/C++, tích hợp thư viện và module từ nhiều ngôn ngữ, từ đó mở rộng tính năng cho ứng dụng và cung cấp khả năng scripting linh hoạt mà các ngôn ngữ khác khó làm được.
Ngôn ngữ thông dịch cấp cao như Python giúp người lập trình tập trung vào logic ứng dụng thay vì phải lo lắng về quản lý bộ nhớ hay dọn dẹp dữ liệu vô nghĩa như trong C/C++ Với Python, việc cấp phát và giải phóng bộ nhớ được trình thông dịch tự động quản lý, giúp người viết mã không phải xử lý các tác vụ phức tạp ở mức thấp Khi chạy mã Python, trình thông dịch sẽ chuyển đổi mã nguồn sang ngôn ngữ máy tính mà máy có thể hiểu, từ đó cho phép thực thi nhanh chóng và hiệu quả mà không cần tối ưu hóa ở cấp độ thấp.
TRIỂN KHAI PHÂN TÍCH DỮ LIỆU 3.1, Quy trình phân tích
Khi bạn đi du lịch khắp thế giới, các địa điểm nổi tiếng thường được gợi ý từ các bài báo du lịch và từ kinh nghiệm của những người đi trước Dù rủi ro có thể xảy ra và sự thật có thể không hoàn toàn khớp với tưởng tượng, bài viết này giúp bạn dễ dàng tìm kiếm những điểm đến an toàn và nổi tiếng cho chuyến hành trình của mình Bạn sẽ được hướng dẫn cách đánh giá nguồn tin, nhận diện các gợi ý đáng tin cậy và lên kế hoạch chuyến đi hiệu quả để tối ưu hóa trải nghiệm, chi phí và thời gian.
Thu thập dữ liệu và công cụ thu thập dữ liệu:
Nguồn dữ liệu bao gồm mạng xã hội Twitter và hai trang web thetravelmagazine.net cùng theguardian.com Mục tiêu là thu thập dữ liệu từ các nguồn này bằng ngôn ngữ Java trong môi trường Eclipse và phân tích để rút ra xu hướng nội dung, tần suất xuất hiện chủ đề du lịch và mức độ ảnh hưởng của các bài viết Quá trình thu thập dữ liệu được thực hiện qua các phương thức truy cập công khai hoặc API phù hợp và tuân thủ các điều khoản sử dụng cũng như bản quyền của mỗi nguồn Dữ liệu sau khi thu thập sẽ được làm sạch, chuẩn hóa và tổ chức theo cấu trúc phân tích nhằm thực hiện các phân tích thống kê và phân tích nội dung, nhằm tối ưu hóa cho SEO và cho bài viết trên website Kết quả phân tích sẽ cho thấy các chủ đề thịnh hành, mối quan hệ giữa nguồn tin và độ tin cậy, cũng như các xu hướng trên Twitter và các bài viết nổi bật của The Travel Magazine và The Guardian.
Buớc 1: Mỗi trang web lấy 100 link bài báo liên quan đến du lịch
Lấy link bằng code python và lưu dưới dạng file csv rồi chuyển sang file txt
Hình 3 1 Code lấy link trang web
Hình 3 2 Code lấy link dưới dạng file csv
Bước 2: Truy cập bài báo trên trang => View source
Hình 3 3 Source web thetravelmagazine.net
Hình 3 4 Source web theguardian.com
Bước 3: Viết source code lấy dữ liệu trên eclipse, lấy dữ liệu theo 2 class “td-post- content” và “content article-body”
Hình 3 5 Code lấy dữ liệu trên eclipse của thetravelmagazine.net
Hình 3 6 Code lấy dữ liệu trên eclipse trên theguardian.com
Dữ liệu sau khi lấy về:
Hình 3 7 Nội dung các bài báo trên thetravelmagazine.net
Hình 3 8 Nội dung các bài báo trên theguardian.com
Bước 4: Lọc lấy các địa điểm xuất hiện trong nội dung bài báo
Hình 3 9 Kết quả các địa điểm trong bài báo b Phân tích kết quả
Kết quả thu được bộ dữ liệu 3848 địa điểm
Nhóm đã sử dụng excel để thống kê các địa điểm và sắp xếp theo thứ tự giảm dần số lượt nhắc đến
Chúng tôi thực hiện chỉnh sửa một số sai sót và kết quả tạo ra được bộ dữ liệu các địa điểm và số lượt được nhắc đến
Hình 3 10 Thống kê các địa điểm du lịch trong các bài báo bằng excel
Hình 3 11 Kết quả các địa điểm được lặp lại nhiều nhất
Bước 5: Sử dụng R để wordcloud dữ liệu và tiến hành vẽ biểu đồ những địa điểm được nhắc tới nhiều nhất
Code R – wordcloud bộ dữ liệu
Hình 3 12 Code R – wordcloud bộ dữ liệu
Hình 3 13 Wordcloud bộ dữ liệu
Chúng tôi tiến hành export ra file PDF để tiện lưu lại và phục vụ quá trình phân tích tiếp theo
Hình 3 14 Kết quả wordcloud các địa điểm
Có thể dễ dàng nhận thấy những địa điểm được nhắc đến nhiều nhất sau khi wordcloud bộ dữ liệu thu được
Sử dụng excel tiến hành vẽ biểu đồ top các địa điểm được nhắc đến nhiều nhất
Hình 3 15 Biểu đồ top địa điểm được nhắc đến nhiều nhất
Biểu đồ độ phủ của 5 quốc gia được nhắc đến nhiều nhất
Hình 3 16 Biểu đồ độ phủ của 5 quốc gia được nhắc đến nhiều nhất
Từ bộ dữ liệu và thông tin thu được sau khi tiến hành wordcloud, chúng tôi lọc lấy
10 nước được nhắc đến nhiều nhất và tiến hành lấy Tweet về các địa điểm đó
Từ các biểu đồ trên có thể nhận thấy được những địa điểm được mọi người quan nhất, trong đó UK được nhắc đến nhiều nhất với 46%
3.1.3, Thực chứng mức độ đánh giá của 10 địa điểm hàng đầu:
Top các địa điểm được nhắc đến nhiều nhất
10% Độ phủ của 5 nước được nhắc đến nhiều nhất
UK Ireland Britain France America a Lấy dữ liệu thu thập được trên twitter tiến hành phân độ tích cực tiêu cực từ tweet
Lấy dữ liệu từ Twitter bằng ngôn ngữ python trên Google Colab:
Lấy 100 tweet của 10 nước có tầng số xuất hiện nhiều nhất trên các bài báo liên quan đến du lịch
Bước 1: Lấy API Twitter Để thiết lập các API, đăng nhập tài khoản của bạn tại Twiter và truy cập https://apps.twitter.com/app/new
Hình 3 17 Bước 1 Lấy API Twitter Đồng ý với Điều khoản và điều kiện rồi và nhấp vào “Tạo ứng dụng Twitter của bạn”
Hình 3 18 Bước 2 lấy API Twitter
Twiter sẽ thông báo các khoá API kết nối Lưu lại Consumer Key (Key API) và Consumer Secret cẩn thận để sử dụng sau này
Hình 3 19 Bước 3 lấy API Twitter
Bước 2: Sử dụng Google Colab với ngôn ngữ Python để lấy bộ dữ liệu Tweet về các địa điểm
Hình 3 21 Bộ dữ liệu thu được từ Twitter
Hình 3 22 Dữ liệu thu được
Bước 3: Thống kê lại những ý tích cực và tiêu cực
Với kết quả thu được từ quá trình phân tích dữ liệu, chúng tôi tiến hành làm sạch dữ liệu và sửa các lỗi phát hiện được trước khi đánh giá bộ dữ liệu, nhằm đảm bảo tính nhất quán và độ tin cậy của kết quả Quá trình này tập trung vào chuẩn hóa dữ liệu, loại bỏ nhiễu và hiệu chỉnh các bất thường để dữ liệu sẵn sàng cho các bước phân tích tiếp theo Chúng tôi sử dụng Eclipse làm môi trường phát triển để tối ưu hóa quy trình làm sạch và chỉnh sửa dữ liệu, tận dụng các công cụ quản lý mã nguồn và hỗ trợ xử lý theo chu kỳ, giúp nâng cao hiệu quả và độ tái lập của công việc.
- Code làm sạch dữ liệu:
Hình 3 23 Code làm sạch dữ liệu
Hình 3 24 Dữ liệu sau khi làm sạch
- Code đánh giá và thống kê:
Hình 3 25 Code đánh giá và thống kê
Hình 3 26 Kết quả đánh giá America
Hình 3 27 Kết quả đánh giá Australia
Hình 3 28 Kết quả đánh giá Brazil
Hình 3 29 Kết quả đánh giá Canada
Hình 3 30 Kết quả đánh giá France
Hình 3 31 Kết quả đánh giá Iceland
Hình 3 32 Kết quả đánh giá India
Hình 3 33 Kết quả đánh giá Spain
Hình 3 34 Kết quả đánh giá UK b Vẽ biểu đồ mức độ đánh giá của top 10 nước được nhắc đến trong bộ dữ liệu
Trên cơ sở bộ dữ liệu thu được, chúng tôi tiến hành thống kê mức đánh giá của 10 địa điểm được nhắc đến nhiều nhất Chúng tôi thiết lập thang đo mức độ tích cực và tiêu cực trên thang điểm 4 để đánh giá các nhận xét và xác định xu hướng chung của người dùng Kết quả cho thấy cách phân bổ điểm cho từng địa điểm đồng thời làm nổi bật các địa điểm nhận được phản hồi tích cực nhiều nhất và các địa điểm bị chỉ trích nhiều nhất, từ đó cung cấp cái nhìn tổng quan và nền tảng cho các phân tích tiếp theo.
Với kết quả sau khi thu được, chúng tôi sử dụng công cụ Excel để lập bảng biểu thống kê, nhận thấy kết quả như sau:
Hình 3 35 Kết quả tổng hợp đánh giá tích cực tiêu cực
Từ bảng dữ liệu sau khi được thống kê, chúng tôi vẽ biểu đồ thực chứng mức độ đánh giá cho 10 địa điểm được nhắc đến nhiều nhất
Hình 3 36 Biểu đồ mức độ tích cực, tiêu cực c Chứng minh và đánh giá
Qua phân tích 10 điểm đến du lịch được nhắc đến nhiều nhất, có 30% đánh giá tốt, 61% ở mức trung bình và 9% đánh giá chưa tốt Điều này cho thấy những điểm đến được quan tâm nhiều là các địa điểm có tiềm năng du lịch cao, được đánh giá tích cực, có môi trường du lịch lành mạnh và có khả năng thu hút du khách, đóng vai trò quan trọng cho sự phát triển du lịch bền vững.
Biểu đồ mức độ tích cực, tiêu cực Đánh giá 0.0 (Chưa tốt) Đánh giá 1.0 (Tạm ổn) Đánh giá trên 1.0 (Tốt)
Dựa trên dữ liệu chúng tôi thu thập được và quá trình phân tích chi tiết, chúng tôi đi tới kết luận về những điểm đến nổi bật dành cho khách du lịch Từ kết quả này, chúng tôi lập ra một bộ danh sách các điểm đến tuyệt vời, được tuyển chọn kỹ lưỡng và sắp xếp hợp lý để đáp ứng nhu cầu của người dùng Danh sách này nhằm giúp người đọc dễ tham khảo và lên kế hoạch cho chuyến đi tiếp theo một cách thuận tiện và hiệu quả.
3.2, Kết quả thu được và tạo bộ danh sách các điểm đến:
Chúng tôi xây dựng danh sách các địa điểm du lịch đáng đến trên thế giới bằng cách tổng hợp dữ liệu từ các trang web du lịch uy tín và đánh giá của người dùng trên Twitter, nhằm xác định những điểm đến nổi bật nhất cho từng loại hành trình Quá trình này kết hợp sự phổ biến của địa điểm, chất lượng trải nghiệm được đánh giá bởi du khách và phản hồi mới nhất từ cộng đồng mạng để đảm bảo độ tin cậy và cập nhật Mỗi địa điểm được tóm tắt ngắn gọn với các yếu tố quan trọng như đặc điểm nổi bật, thời điểm lý tưởng để ghé thăm và gợi ý lịch trình tối ưu Danh sách được tối ưu hóa cho SEO với các từ khóa liên quan đến địa điểm du lịch, điểm đến nổi tiếng và xu hướng du lịch hiện tại, giúp người đọc dễ dàng tìm thấy nội dung và khám phá các địa điểm đáng đến trên toàn cầu Việc dựa trên nguồn dữ liệu mở và phản hồi từ người dùng trên Twitter giúp nội dung phản ánh thực tế và đa chiều hơn.
Hình 3 37 Danh sách 10 điểm đến
10 địa điểm nên đến 10 đnước nên đến
Quần đảo Atlantic Europe Aberdovey Ireland Ballycastle Britain
Caribbean AtlanticCharleston EnglandFairbourne Heathrow