1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh

62 392 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 3,69 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

i Mục lục  Chương 1 Phần mở đầu 1 1.1 Giới thiệu chung 1 1.2 Ý tưởng khai thác các bất thường về những hành vi tự bảo vệ mình của cộng đồng. 3 1.2.1 Con người thường làm gì khi có các vấn đề lo ngại về sức khỏe 3 1.2.2 Hệ thống cảnh báo sớm dựa trên phân tích các bất thường 4 1.3 Mục tiêu của luận văn 6 Chương 2 Tổng quan 8 2.1 Tổng quan về các ứng dụng giám sát sự phát triển của dịch bệnh 8 2.1.1 ProMED-mail (Program for Monitoring Emerging Diseases) 8 2.1.2 BioCaster 10 2.1.3 Một số hệ thống khác 12 2.2 Tổng quan về mạng xã hội và các ứng dụng trên mạng xã hội 12 2.3 Kỹ thuật phân loại văn bản bằng phương pháp máy học 13 2.3.1 Giới thiệu về phân loại văn bản 13 2.3.2 Phân loại văn bản bằng phương pháp máy học 14 2.4 Kết luận 25 Chương 3 Phân tích, thiết kế và cài đặt hệ thống 26 3.1 Giới thiệu DIZZIE và mục tiêu của hệ thống 26 3.2 Mạng xã hội Twitter 28 3.2.1 Lịch sử 28 3.2.2 Đặc điểm của mạng xã hội Twitter 28 3.3 Các bài toán của hệ thống 30 3.3.1 Kiến trúc chung 30 3.3.2 Download dữ liệu 31 3.3.3 Bài toán nhận diện (phân lớp) các hành vi bất thường bằng phương pháp máy học 34 3.3.4 Phân cụm tweet theo thời gian và địa lý và phát hiện bất thường 46 3.3.5 Hiển thị trực quan lên giao diện bản đồ 48 Chương 4 Kết quả thực nghiệm và phân tích đánh giá 49 4.1 Thí nghiệm 49 4.1.1 Mô tả thí nghiệm 49 4.1.2 Thí nghiệm 1 (Trên kho ngữ liệu cân bằng) 50 4.1.3 Thí nghiệm 2 (trên toàn bộ kho ngữ liệu) 51 4.2 So sánh các thuật toán phân lớp và các tập đặc trưng khác nhau 52 4.2.1 So sánh giữa các thuật toán phân lớp 52 4.2.2 So sánh giữa các đặc trưng khác nhau 52 4.2.3 Kết luận 53 ii Chương 5 Kết luận và hướng phát triển 54 5.1 Các kết quả đạt được 54 5.2 Hướng phát triển 55 Tài liệu tham khảo 56 Phụ lục A Trích dẫn bài báo khoa học đã công bố 59 iii Các thuật ngữ và từ viết tắt  BoW : Bag of word (Túi từ) TC : Text classification (Phân loại văn bản) IR : Information Retrieval (Tìm kiếm thông tin) SVM : Support Vector Machine SRL : Simple Rule Language (Ngôn ngữ rút trích dựa trên luật) TFIDF : Term frequency – Inverted document frequency. iv Danh sách hình  Hình 1 - Ví dụ về thống kê hành vi bất thường 4 Hình 2 - Đồ thị phát triển của dịch bệnh khi không có và có một hệ thống phát hiện sớm 5 Hình 3 - Hoạt động của hệ thống ProMED-mail 9 Hình 4 - Tổng quan về hoạt động của hệ thống BioCaster 11 Hình 5 – Quy trình phân loại văn bản 15 Hình 6 - Quy trình phân loại văn bản 15 Hình 7 – DIZZIE – Mục tiêu của DIZZIE 27 Hình 8 – Kiến trúc chung của hệ thống DIZZIE 30 Hình 9 – Quy trình thực hiện của bài toán phân lớp văn bản 34 Hình 10 – Hình minh họa độ bất thường tại thời điểm t 47 Hình 11 – Minh họa thể hiện sự bất thường trên giao diện bản đồ 48 v Danh sách bảng  Bảng 1 - Mã của một số ngôn ngữ theo chuẩn ISO 639-1 32 Bảng 2 - Ví dụ về các tài liệu trong kho ngữ liệu huấn luyện 35 Bảng 3 – Thống kê xuất hiện của các URL trong 53000 tweet 45 Bảng 4 - Thông tin kho ngữ liệu với tỉ lệ Positive:Negative=1:1 50 Bảng 5 - Kết quả phân lớp với tỉ lệ Positive:Negative=1:1. Đặc trưng: UNI (BOW), BI (Bigram), SRL 50 Bảng 6 - Thông tin kho ngữ liệu với tất cả dữ liệu như trong kho ngữ liệu gốc 51 Bảng 7 - Kết quả phân lớp trên tất cả dữ liệu. Đặc trưng: UNI (Unigram), BI 51 1 Chương 1 Phần mở đầu Tóm tắt:  Phần mở đầu giới thiệu các tiền đề dẫn đến nhu cầu của việc xây dựng một ứng dụng khai thác thông tin trên mạng xã hội, phục vụ cho việc giám sát sự bùng phát của các dịch bệnh; lý do của việc thực hiện đề tài và đưa ra mục tiêu của luận văn. Phần tóm tắt nội dung từng chương của luận văn sẽ được trình bày ở cuối mục này. 1.1 Giới thiệu chung Tiền đề 1: Nhu cầu xây dựng hệ thống cảnh báo sớm để phát hiện dịch bệnh Hiện tại, vấn đề sức khỏe của con người là một trong những vấn đề được quan tâm hàng đầu của nhân loại. Dân số tăng nhanh, bệnh tật ngày càng đa dạng và phức tạp, trong khi hệ thống y tế của nhiều quốc gia nhất là các quốc gia đang phát triển lại phát triển chậm. Do vậy, với những quốc gia này chi phí khám chữa bệnh tăng cao và ảnh hưởng đến sự phát triển kinh tế của đất nước. Ngoài sự đa dạng và phức tạp của bệnh tật là sự bùng nổ của các dịch bệnh có ảnh hưởng nghiêm trọng đến con người. Những dịch bệnh này nếu không được kiểm soát kịp thời thì nó có thể gây ra một tổn thất rất to lớn về kinh tế lẫn về con người và thậm chí có thể gây ra thảm họa diệt vong hàng loạt. Tuy nhiên việc kiểm soát dịch bệnh thường được làm sau khi dịch bệnh bùng phát nên tác hại của dịch bệnh rất lớn. Do vậy đặt ra một nhu cầu là xây dựng các ứng dụng chăm sóc sức khỏe cộng đồng và những hệ thống có khả năng phát hiện sớm các bất thường để phát hiện các dịch bệnh bùng phát. Tiền đề 2: Giải pháp hiện tại và nhược điểm. Hiện tại đã có rất nhiều phương pháp và kênh thông tin để có thể nắm bắt được tình hình phát triển của bệnh dịch. Các kênh thông tin có thể nhận được kết quả về bệnh dịch như: từ các nghiên cứu của tổ chức y tế thế giới (WHO), từ những báo cáo 2 của các bệnh viện và trung tâm y tế, từ những báo cáo tình hình bán thuốc và sử dụng dịch vụ chăm sóc sức khỏe của các cửa hàng tư nhân, từ những tổng đài hỏi đáp về sức khỏe. Nhưng thời gian để phản hồi kết quả của các kênh thông tin này chậm, dẫn đến những kết quả thu nhận được không có ý nghĩa trong việc phát hiện sớm và ngăn ngừa sự phát triển của bệnh dịch Tiền đề 3: Lượng tri thức khổng lồ trên mạng xã hội chưa được khai thác Ngày nay với sự bùng nổ của Internet và thông tin làm đột phá khả năng chia sẻ thông tin giữa cộng đồng. Chưa bao giờ việc chia sẻ thông tin lại có thể diễn ra một cách dễ dàng và nhanh chóng đến như vậy. Nhờ đó, ngoài khái niệm thế giới thực mà con người đang có, khái niệm thế giới ảo và mạng xã hội đã ra đời. Với mạng xã hội con người có thể thực hiện được rất nhiều những nhu cầu của mình như xem tin tức, giải trí, chia sẻ thông tin, tạo và mở rộng các quan hệ với một hay một cộng đồng khác. Sự phát triển như vũ bão của mạng xã hội đồng nghĩa với việc con người đưa những tri thức của mình lên đó ngày càng nhiều. Do đó, nó đem lại một cơ hội rất lớn cho những người khai thác thông tin, khai phá tri thức trên mạng xã hội để xây dựng những ứng dụng phục vụ cho cộng đồng. Tuy nhiên cho đến nay, lượng tri thức này chưa được khai thác đúng mức. Tiền đề 4: Ưu điểm của mạng xã hội. Sự phản ánh của cộng đồng người dùng ở trên mạng xã hội đối với các sự việc diễn ra trong đời sống thực tế là tức thời. Kết luận: Bốn tiền đề trên chính là những nguyên nhân của ý tưởng xây dựng hệ thống giám sát dịch bệnh bằng cách khai thác thông tin trên mạng xã hội. Ý tưởng này cụ thể hơn là khai thác những hành vi tự bảo vệ mình (self protection) của cộng đồng để phát hiện ra các bất thường từ đó xây dựng một hệ thống cảnh báo sớm. Ý tưởng này được trình bày chi tiết hơn ở phần sau. 3 1.2 Ý tưởng khai thác các bất thường về những hành vi tự bảo vệ mình của cộng đồng. 1.2.1 Con người thường làm gì khi có các vấn đề lo ngại về sức khỏe Phân tích câu trả lời của câu hỏi này chính là sẽ đưa đến ý tưởng xây dựng một hệ thống phát hiện sớm các bất thường. Khi gặp các vấn đề lo ngại về sức khỏe con người sẽ có những hành động tự bảo vệ mình, vậy con người thường sẽ làm gì? John và Salathe [1] đưa ra danh sách những hành vi/việc làm con người thường làm để tự bảo vệ mình khi có những lo ngại về sức khỏe như sau: - Tránh những người bị ho hoặc hắt hơi (avoid people who cough/sneeze) - Tránh tụ tập đông người (avoid large gatherings of people). - Rửa tay thường xuyên hơn (wash hands more often) - Tránh xa những người đã tiếp xúc với người nhiễm bệnh (avoid people who are in contact with infected people) - Tránh sử dụng các phương tiện giao thông công cộng (avoid public transportation) - Tránh các khu công cộng như trường học hoặc nơi làm việc (avoid school/work) - Tránh đi du lịch đến những khu vực bị ảnh hưởng (avoid travel to infected areas) - Tăng cường sử dụng các chất tẩy uế để làm sạch các bề mặt (increased use of disinfectant to clean surfaces) - Đeo khẩu trang (wear a mask) - Tìm đến các dịch vụ và phương tiện chăm sóc y tế như đi khám bác sĩ, tiêm và sử dụng các loại vắc-cin hoặc thuốc (seeking a pharmaceutical intervention (vaccine and/or antiviral drugs)) - Hủy bỏ các sự kiện, hoạt động xã hội (canceling a social event) - Giảm tần suất mua sắm (reducing the frequency of shopping trips) 4 Bằng việc giám sát những hành vi này trên mạng xã hội, ta có thể phân tích được sự bất thường của các nó, nhờ đó có thể xây dựng một hệ thống để đưa ra các cảnh báo sớm cho cộng đồng. Chi tiết hơn về hệ thống này được trình bày rõ trong mục 1.2.2. 1.2.2 Hệ thống cảnh báo sớm dựa trên phân tích các bất thường Ý tưởng này dựa trên suy luận đơn giản là khi một dịch bệnh bùng phát thì các hành vi tự bảo vệ của cộng đồng sẽ tăng một cách bất thường và những thông tin này sẽ được thể hiện trên các mạng xã hội. Do đó, dựa trên mạng xã hội, ta có thể xây dựng được một hệ thống có khả năng phân tích những bất thường của những loại hành vi này để đưa ra các cảnh báo cho cộng đồng nhờ đó có khả năng kiểm soát được sự bùng phát và phát triển của dịch bệnh. Ví dụ: xét hành vi “Tìm đến các dịch vụ và phương tiện chăm sóc y tế”. Hình 1 minh họa số lượng blogger thực hiện hành vi này theo thời gian: Hình 1 - Ví dụ về thống kê hành vi bất thường 5 Ở Hình 1, số lượng thông điệp của blogger có thực hiện hành vi này từ ngày 1 đến 6 là từ khoảng 50 đến 70, trong khi đó trong ngày 7, 8, số lượng này tăng đột biến lên 600 đến 700. Điều này có ý nghĩa rất lớn, bởi đã có một điều gì đó bất thường đã xảy ra ở ngày 7, 8, có khả năng một dịch bệnh nào đó đang xảy ra ở cộng đồng. Và mục tiêu của một hệ thống cảnh báo sớm là phát hiện những hành vi bất thường như vậy. Nguyên nhân để làm tăng tính khả thi của việc xây dựng hệ thống này là: Mạng xã hội là một phản ánh tức thời của cộng đồng, do đó một khi hệ thống này được xây dựng nên, việc cảnh báo dịch bệnh bùng phát sẽ nhanh hơn so với các kênh thông tin khác (từ tổ chức quốc tế WHO, từ các viện nghiên cứu về sức khỏe, …). Nhờ đó có thể giảm được tác hại của dịch bệnh. Hình 2 - Đồ thị phát triển của dịch bệnh khi không có và có một hệ thống phát hiện sớm Hình 2 trình bày mong muốn của một hệ thống cảnh báo sớm. Với trục tung biểu thị mức độ nguy hiểm và trục hoành thể hiện thời gian phát triển của dịch bệnh. Với đồ thị (1) thể hiện sự phát triển của dịch bệnh với sự cảnh báo thông thường thì mong muốn của một hệ thống cảnh báo sớm sẽ làm cho sự phát triển của dịch bệnh sẽ giống như đồ thị (2). Khi đó, tác hại của dịch bệnh đến với đời sống của con người sẽ được giảm tối thiểu và dịch bệnh sẽ được kiểm soát nhanh chóng và kịp thời. Đó chính là ý nghĩa của một hệ thống cảnh báo sớm. t level (2) (1) (1) Đồ thị phát triển của dịch bênh một cách tự nhiên (2) Đồ thị phát triển của dịch bệnh khi có một hệ thống phát hiện sớm [...]... các tin tức về sức khỏe liên quan đến người và động vật và hiển thị dữ liệu lên Google Map 2.2 Tổng quan về mạng xã hội và các ứng dụng trên mạng xã hội Mạng xã hội hiện nay ra đời là kết quả tất yếu của sự bùng nổ thông tin trên Internet Nhu cầu chia sẻ thông tin và trao đổi thông tin ngày càng nhiều Do vậy, ngoài việc nhận được các thông tin chia sẻ, con người còn tạo dựng các mối quan hệ trên mạng. .. loại mạng xã hội phục vụ cho những mục đích khác nhau, do đó tùy theo hình thức và thông tin cung cấp của từng mạng xã hội sẽ có những cách khai thác khác nhau Hình thức văn bản thông qua các diễn đạt sử dụng ngôn ngữ tự nhiên là một hình thức mà hầu hết người dùng ở tất cả các mạng xã hội đều sử dụng Do đó, mạng xã hội ra đời kéo theo một thách thức cho các nhà nghiên cứu làm sao có thể khai thác. .. dựng hệ thống phát hiện các bất thường trong mạng xã hội phục vụ cho việc giám sát sự phát triển của dịch bệnh Việc xây dựng các thành phần của hệ thống này sẽ được trình bày chi tiết trong Chương 3 qua dự án DIZZIE - một case study về xây dựng một hệ thống khai thác văn bản trên mạng xã hội để phát hiện các bất thường phục vụ giám sát sự phát triển của dịch bệnh 25 Chương 3 Phân tích, thiết kế và cài... dùng trên mạng xã hội ảo về thế giới thật, hệ thống phát hiện bất thường này có thể cung cấp thông tin cho người dùng nói chung và các nhà chăm sóc sức khỏe những dấu hiệu sớm về dịch bệnh Nhờ đó có khả năng phát hiện sớm và làm giảm tác hại của bệnh dịch Tuy nhiên, việc phát hiện các hành vi trên mạng xã hội sử dụng các kỹ thuật máy học, thông tin trên mạng xã hội nhiều nhưng độ nhiễu và không đáng tin. .. của Internet, thông tin được tạo ra từng giờ, từng ngày Internet trở thành một kho thông tin, kho tri thức khổng lồ của nhân loại Một vấn đề rất quan trọng được đặt ra là làm sao có thể khai thác được các tri thức trong núi thông tin khổng lồ đó Đó chính là nhiệm vụ của bài toán khai thác thông tin trong văn bản Khai thác thông tin trong văn bản là một lĩnh vực nghiên cứu rộng có nhiệm vụ phát hiện... các bất thường mà luận văn muốn trình bày Với sự bùng nổ của các dịch bệnh như: H1N1, H5N1 và bệnh cúm trên phạm vi toàn cầu gây ảnh hưởng nặng nề đến nền kinh tế của thế giới và sự hoang mang của nhân loại Mục tiêu của DIZZIE là khai thác thông tin trên mạng xã hội Twitter để hỗ trợ trong công việc giám sát sự bùng phát của bệnh cúm thông qua phát hiện các bất thường trong các hành vi liên quan đến... dụng giám sát sự phát triển của các dịch bệnh bằng cách khai thác thông tin trên mạng xã hội o Đưa ra kiến trúc của hệ thống ở mức thiết kế o Thử nghiệm ảnh hưởng của các tập đặc trưng, các thuật toán phân lớp đối với kết quả phân lớp Với những mục tiêu đó, luận văn sẽ trình bày những nội dung sau:  Chương 1- Giới thiệu các tiền đề dẫn đến sự cần thiết của việc xây dựng một ứng dụng khai thác thông tin. .. thông tin mang tính cá nhân hóa như thăm dò dư luận thì mạng xã hội là một nơi tất yếu cần phải được khai thác nếu không muốn thực hiện những cuộc khảo sát trên thế giới thực Nhờ đó, nếu tận dụng được kho thông tin trên mạng xã hội này, chi phí để thực hiện những cuộc khảo sát, thăm dò dư luận sẽ được giảm đáng kể Bởi nếu muốn thực hiện cuộc khảo sát ở thế giới thực, con người cần phải tốn rất nhiều... tin trên mạng xã hội phục vụ cho việc giám sát sự bùng phát của các dịch bệnh, lý do của việc thực hiện đề tài và đưa ra mục tiêu của luận văn Phần tóm tắt nội dung từng chương của luận văn được trình bày ở cuối chương này  Chương 2 - Chương này sẽ trình bày tổng quan những hướng nghiên cứu liên quan đến luận văn Bao gồm: các công trình liên quan đến những hệ thống giám sát sức khỏe và dịch bệnh trên. .. Giới thiệu về mạng xã hội Twitter và cách download dữ liệu từ mạng xã hội Twitter  Giới thiệu kiến trúc chung của hệ thống sẽ xây dựng  Các phương pháp sử dụng cho các bài toán con của bài toán phân loại văn bản: phương pháp biểu diễn tài liệu, các thuật toán phân lớp,… 3.1 Giới thiệu DIZZIE1 và mục tiêu của hệ thống Hệ thống DIZZIE là một áp dụng của việc khai thác thông tin trên mạng xã hội để phát . dẫn đến sự cần thiết của việc xây dựng một ứng dụng khai thác thông tin trên mạng xã hội phục vụ cho việc giám sát sự bùng phát của các dịch bệnh, lý do của việc thực hiện đề tài và đưa ra mục. luận thì mạng xã hội là một nơi tất yếu cần phải được khai thác nếu không muốn thực hiện những cuộc khảo sát trên thế giới thực. Nhờ đó, nếu tận dụng được kho thông tin trên mạng xã hội này,. Các loại mạng xã hội phục vụ cho những mục đích khác nhau, do đó tùy theo hình thức và thông tin cung cấp của từng mạng xã hội sẽ có những cách khai thác khác nhau. Hình thức văn bản thông qua

Ngày đăng: 09/10/2014, 20:58

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] J.H. Jones and M. Salathe, "Early Assessment of Anxiety and Behavioral Response to Novel Swine-Origin Influenza A (H1N1)," 2009 Sách, tạp chí
Tiêu đề: Early Assessment of Anxiety and Behavioral Response to Novel Swine-Origin Influenza A (H1N1)
[2] J.P. Woodall, "Global surveillance of emerging diseases: the ProMED-mail perspective," Cad. saúde pública, vol. 17, p. 147, 2001 Sách, tạp chí
Tiêu đề: Global surveillance of emerging diseases: the ProMED-mail perspective
[3] L.C. Madoff and J.P. Woodall, "The internet and the global monitoring of emerging diseases: lessons from the first 10 years of ProMED-mail," Archives of medical research, vol. 36, pp. 724–730, 2005 Sách, tạp chí
Tiêu đề: The internet and the global monitoring of emerging diseases: lessons from the first 10 years of ProMED-mail
[4] L.C. Madoff, "ProMED-mail: an early warning system for emerging diseases," Clinical infectious diseases, vol. 39, pp. 227–232, 2004 Sách, tạp chí
Tiêu đề: ProMED-mail: an early warning system for emerging diseases
[5] M. Hugh-Jones, "Global awareness of disease outbreaks: the experience of ProMED-mail," Public Health Reports, vol. 116, p. 27, 2001 Sách, tạp chí
Tiêu đề: Global awareness of disease outbreaks: the experience of ProMED-mail
[6] S. Doan, A. Kawazoe, R.M. Goodwin, M. Conway, Y. Tateno, Q.H. Ngo, D. Dien, A. Kawtrakul, K. Takeuchi, and others N. Collier, "BioCaster: detecting public health rumors with a Web-based text mining system," Bioinformatics, vol. 24, p. 2940, 2008 Sách, tạp chí
Tiêu đề: BioCaster: detecting public health rumors with a Web-based text mining system
[7] S. Doan, A. Kawazoe, and N. Collier M. Conway, "Classifying Disease Outbreak Reports Using N-grams and Semantic Features," 2009 Sách, tạp chí
Tiêu đề: Classifying Disease Outbreak Reports Using N-grams and Semantic Features
Tác giả: S. Doan, A. Kawazoe, N. Collier M. Conway
Năm: 2009
[8] C. Hutchatai, S. Mika, and C. Nigel K. Ai, "Structuring an event ontology for disease outbreak detection," BMC Bioinformatics, vol. 9 Sách, tạp chí
Tiêu đề: Structuring an event ontology for disease outbreak detection
Tác giả: C. Hutchatai, S. Mika, C. Nigel K. Ai
Nhà XB: BMC Bioinformatics
[9] R. Steinberger, F. Fuart, S. Bucci, J. Belyaeva, M. Gemo, D. Al-Khudhairy, R. Yangarber, and E. van der Goot J.P. Linge, "MedISys: Medical Information System&#34 Sách, tạp chí
Tiêu đề: MedISys: Medical Information System
Tác giả: R. Steinberger, F. Fuart, S. Bucci, J. Belyaeva, M. Gemo, D. Al-Khudhairy, R. Yangarber, E. van der Goot, J.P. Linge
[10] J. Belyaeva, M. Gemo, E. Goot, and J.P. Linge A. Rortais, "MedISys: an early warning system for the detection of (re-) emerging food-and feed-borne hazards," Food Research International, 2010 Sách, tạp chí
Tiêu đề: MedISys: an early warning system for the detection of (re-) emerging food-and feed-borne hazards
[11] F. Sebastiani, "Machine learning in automated text categorization," ACM computing surveys (CSUR), vol. 34, pp. 1–47, 2002 Sách, tạp chí
Tiêu đề: Machine learning in automated text categorization
[12] S. Kotsiantis, and V. Tampakas M. Ikonomakis, "Text classification using machine learning techniques," WSEAS Transactions on Computers, vol. 4, pp.966–974, 2005 Sách, tạp chí
Tiêu đề: Text classification using machine learning techniques
Tác giả: S. Kotsiantis, V. Tampakas, M. Ikonomakis
Nhà XB: WSEAS Transactions on Computers
Năm: 2005
[13] G. Salton and C. Buckley, "Term-weighting approaches in automatic text retrieval," Information processing & management, vol. 24, pp. 513–523, 1988 Sách, tạp chí
Tiêu đề: Term-weighting approaches in automatic text retrieval
Tác giả: G. Salton, C. Buckley
Nhà XB: Information processing & management
Năm: 1988
[14] M. Lalmas, and N. Fuhr N. Govert, "A probabilistic description-oriented approach for categorizing web documents," Proceedings of the eighth international conference on Information and knowledge management, pp Sách, tạp chí
Tiêu đề: A probabilistic description-oriented approach for categorizing web documents
Tác giả: M. Lalmas, N. Fuhr, N. Govert
Nhà XB: Proceedings of the eighth international conference on Information and knowledge management
[15] L.S. Larkey and W.B. Croft, "Combining classifiers in text categorization," Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 289–297, 1996 Sách, tạp chí
Tiêu đề: Combining classifiers in text categorization
Tác giả: L.S. Larkey, W.B. Croft
Nhà XB: Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval
Năm: 1996
[16] G.R. Xue, Q. Yang, and Y. Yu W. Dai, "Transferring naive bayes classifiers for text classification," PROCEEDINGS OF THE NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE, p. 540, 2007 Sách, tạp chí
Tiêu đề: Transferring naive bayes classifiers for text classification
[17] H.C. Rim, D.S. Yook, and H.S. Lim S.B. Kim, "Effective methods for improving Naive Bayes text classifiers," PRICAI 2002: Trends in Artificial Intelligence, pp. 479–484, 2002 Sách, tạp chí
Tiêu đề: Effective methods for improving Naive Bayes text classifiers
[18] C. Chung and C. Lin, "LibSVM: a libary for Support Vector Machine," 2001 Sách, tạp chí
Tiêu đề: LibSVM: a libary for Support Vector Machine
[23] (2010, April) Just the Facts: Statistics from Twitter Chirp. [Online]. http://www.readwriteweb.com/archives/just_the_facts_statistics_from_twitter_chirp.php?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+readwriteweb+%28ReadWriteWeb%29&utm_content=Google+Reader Link
[25] (2010) Twitter API Wiki / Twitter API Documentation. [Online]. http://apiwiki.twitter.com/Twitter-API-Documentation Link

HÌNH ẢNH LIÊN QUAN

Hình 1 - Ví dụ về thống kê hành vi bất thường - Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh
Hình 1 Ví dụ về thống kê hành vi bất thường (Trang 9)
Hình 2 - Đồ thị phát triển của dịch bệnh khi không có và có một hệ thống phát hiện - Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh
Hình 2 Đồ thị phát triển của dịch bệnh khi không có và có một hệ thống phát hiện (Trang 10)
Hình 4 - Tổng quan về hoạt động của hệ thống BioCaster - Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh
Hình 4 Tổng quan về hoạt động của hệ thống BioCaster (Trang 15)
Bảng kết quả đánh giá toàn cục với nhiều lớp và nhiều tài liệu: - Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh
Bảng k ết quả đánh giá toàn cục với nhiều lớp và nhiều tài liệu: (Trang 25)
Hình 7 – DIZZIE – Mục tiêu của DIZZIE - Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh
Hình 7 – DIZZIE – Mục tiêu của DIZZIE (Trang 30)
Hình 8 – Kiến trúc chung của hệ thống DIZZIE - Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh
Hình 8 – Kiến trúc chung của hệ thống DIZZIE (Trang 33)
Hình 9 – Quy trình thực hiện của bài toán phân lớp văn bản - Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh
Hình 9 – Quy trình thực hiện của bài toán phân lớp văn bản (Trang 37)
Bảng 2 - Ví dụ về các tài liệu trong kho ngữ liệu huấn luyện - Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh
Bảng 2 Ví dụ về các tài liệu trong kho ngữ liệu huấn luyện (Trang 38)
Hình 11 – Minh họa thể hiện sự bất thường trên giao diện bản đồ - Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh
Hình 11 – Minh họa thể hiện sự bất thường trên giao diện bản đồ (Trang 51)
Bảng 4 - Thông tin kho ngữ liệu với tỉ lệ Positive:Negative=1:1 - Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh
Bảng 4 Thông tin kho ngữ liệu với tỉ lệ Positive:Negative=1:1 (Trang 53)
Bảng 7 - Kết quả phân lớp trên tất cả dữ liệu. Đặc trưng: UNI (Unigram), BI - Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh
Bảng 7 Kết quả phân lớp trên tất cả dữ liệu. Đặc trưng: UNI (Unigram), BI (Trang 54)
Bảng 6 - Thông tin kho ngữ liệu với tất cả dữ liệu trong kho ngữ liệu - Khai thác thông tin trên mạng xã hội phục vụ giám sát dịch bệnh
Bảng 6 Thông tin kho ngữ liệu với tất cả dữ liệu trong kho ngữ liệu (Trang 54)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w