Kết quả nghiêncứu này gợi ý rằng, giải pháp tối ưu nhằm ngăn chặn sự thâm nhập và khuyếch tán các quan điểmkhông lành mạnh, để nắm bắt và dẫn dắt dư luận trong Facebook thì giải pháp tối
Trang 115 Tổng quan tình hình nghiên cứu, luận giải về mục tiêu và những nội dung nghiên cứu của nhiệm vụ
15.1 Đánh giá tổng quan tình hình nghiên cứu thuộc lĩnh vực của nhiệm vụ
15.1.1 Ngoài nước (Phân tích đánh giá được những công trình nghiên cứu có liên quan và những
kết quả nghiên cứu mới nhất trong lĩnh vực nghiên cứu của nhiệm vụ; nêu được những bước tiến
về trình độ KH&CN của những kết quả nghiên cứu đó)
15.1.1.1 Khái niệm mạng xã hội và phương tiện truyền thông xã hội
Nhà xã hội học John Arundel Barnes (người Úc) được coi là một trong những người đầu tiên đưathuật ngữ "mạng xã hội" (social network) vào ngữ cảnh nghiên cứu khoa học vào năm 1954[Barnes54] Theo David Easley và Jon Kleinberg, 2010 [EK10], mạng xã hội là một cấu trúc xã hộibao gồm một tập các cá nhân/ tổ chức và một tập các quan hệ xã hội giữa các cá nhân/tổ chức trongmạng Mạng xã hội thường được biểu diễn dưới dạng một đồ thị trong đó các cá nhân/tổ chức đượcbiểu diễn bằng các nút còn các quan hệ xã hội trong mạng được biểu diễn bằng các cạnh kết nối cácnút trong mạng đó Mạng xã hội trực tuyến (online social network) là mạng xã hội được thi hànhbằng các dịch vụ mạng xã hội trực tuyến (online social network service) Dưới đây, cụm từ "mạng
xã hội" được chỉ "mạng xã hội trực tuyến" nếu không có sự chỉ dẫn riêng
Khái niệm "phương tiện truyền thông xã hội" (social media) về cơ bản là cùng ý nghĩa và nội dungvới dịch vị mạng xã hội Thông qua phương tiện truyền thông xã hội, khối lượng nội dung dongười dùng tạo ra (user-generated content: UGC) trở thành thành phần có tỷ trọng lớn nhất trongtập dữ liệu tổng thể mà con người hiện có
Jure Leskovec, 2011 [Lesk11] cho rằng phương tiện truyền thông xã hội được thiết kế và thi hành
là để phổ biến tới cộng đồng (community) về các mối quan hệ xã hội Sheng Yu và Subhash Kak,
2012 [YK12] nhận định rằng phương tiện truyền thông xã hội bao gồm các nền tảng để người dùngtạo và trao đổi nội dung với cộng đồng người dùng trong mạng Phương tiện truyền thông xã hội là
đa dạng về hình thức, bao gồm các blog, các trang web mạng xã hội, thế giới xã hội ảo, dự án hợptác, cộng đồng nội dung và thế giới trò chơi ảo Tồn tại phương tiện truyền thông xã hội mà khôngbao gói dáng cấu trúc xã hội, chẳng hạn, blogspot.com là một khung nền blog nổi tiếng nhưngkhông có liên kết xã hội giữa các blogger Andreas M Kaplan và Michael Haenlein, 2010 [KH10]cho rằng truyền thông xã hội được hiểu như là "một nhóm các ứng dụng dựa trên Internet được xâydựng trên nền tảng tư tưởng và công nghệ của Web 2.0, cho phép tạo và trao đổi nội dung do người
Trang 2dùng tạo ra" Theo các tác giả, thời đại của phương tiện truyền thông xã hội được bắt đầu từ sự rađời của trang web ‘‘Open Diary’’1 (Nhật ký mở) của Bruce và Susan Abelson (vào tháng 5/2012,Open Diary có trên 381 nghìn nhật ký mở) Hai chiều đặc trưng cơ bản phân biệt các loại phươngtiện truyền thông xã hội là hiện diện xã hội/phong phú phương tiện truyền thông (socialpresence/media richness) và tự trình bày/ tự tiết lộ (self-presentation/self-disclosure) Các tác giảgiải thích chi tiết về nội dung ngữ nghĩa của hai chiều đặc trưng này và đưa ra bảng phân loại cácphương tiện truyền thông xã hội theo hai chiều đặc trưng cơ bản nói trên (Hình 1).
Hình 1 Phân loại mạng xã hội theo sự hiện diện tính xã hội/phong phú phương tiện truyền thông (social presence/media richness) và đặc trưng tự trình bày/tự tiết lộ (self-presentation /self- disclosure) [KH10]
Các phát biểu trên đây tuy có nội dung không trùng khít nhau song cùng thống nhất ở điểm cơ bảnnhất là phương tiện truyền thông xã hội có tính xã hội hóa và gắn liền với internet Phương tiệntruyền thông xã hội có sự phân biệt với phương tiện truyền thông truyền thống (sách, báo, truyềnhình) về chủ thể và hình thức xuất bản nội dung Tuy nhiên, một số phương tiện truyền thôngtruyền thống (chẳng hạn, các kênh tin tức lớn) cũng có tài khoản trên Twitter và Facebook
Phương tiện truyền thông xã hội là một cách thức mà người dùng bất kỳ trong xã hội đều có thẻchia sẻ và đóng góp nội dung, bày tỏ quan điểm và kết nối với những người khác, vì vậy phươngtiện truyền thông xã hội mang hơi thở của cuộc sống đời thường đang diễn ra với tính động cao
15.1.1.2 Sự phát triển của mạng xã hội
Do các lợi thế của mình, mạng xã hội trực tuyến ngày càng hấp dẫn người sử dụng và vì vậy dữliệu, mạng xã hội tăng nhanh một cách đáng kể Mới xuất hiện vào năm 2004 nhưng tới tháng8/2012 thì Facebook đã có xấp xỉ một tỷ người dùng Cùng thời điểm đó, Twitte cũng đã đạt tới
1 http://www.opendiary.com/
Trang 3con số 500 triệu người dùng [Ben12] Hình 2 mô tả sự tăng trưởng số lượng người sử dụngFacebook và Twitter.
Hình 2a Sự tăng trưởng số lượng người sử dụng Facebook [Ben 12]
Hình 2b Sự tăng trưởng số lượng người sử dụng Twitter [Ben 12]
Hơn nữa, mạng xã hội hấp dẫn những người trẻ tuổi, những người làm việc trí tuệ là những người
có tính năng động cao trong xã hội và vì vậy, mạng xã hội có tác động rất to lớn tới các cộng đồngtrong xã hội thực
Trang 415.1.1.3 Tác động của mạng xã hội
a) Tác động xã hội
Mạng xã hội thừa kế sức quảng bá thông tin của các phương tiện truyền thông truyền thống nhưngvới sức lan tỏa nhanh hơn tới các cộng đồng năng động cao trong xã hội Vì vậy, tác động xã hộicủa mạng xã hội là rất lớn
Về cơ bản, mạng xã hội góp phần tăng cường nguồn vốn xã hội (social capital) cho quốc gia nhưtrong nghiên cứu của nhiều tác giả (Nicole B Ellison và cộng sự, 2007 [ESL07], Homero Gil deZúnĩga và cộng sự, 2012 [ZJV12]), tuy nhiên, trong không ít trường hợp, mạng xã hội cũng cản trở
sự phát triển của vốn xã hội.Dưới đây là một ví dụ điển hình về tác động xã hội của mạng xã hội.+ Facebook với phong trào "Mùa xuân Ả rập" năm 2011
Tác động của Facebook tới phong trào "Mùa xuân Ả rập" tháng 3 năm 2011 là nội dung nghiên cứutrong nhiều công bố khoa học, chẳng hạn như Ban Al-Ani và cộng sự, 2012 [AMCJ12], ElizabethIskander, 2011 [Iskan11] Nhiều tác giả cho rằng Facebook là một trong các yếu tố quan trọng tạonên phong trào nnói trên Ai Cập dẫn tới sự sụp đổ của chế độ Tổng thống Mubarak RachaMourtada và Fadi Salem, 2011 [MS11] đưa ra các số liệu thống kê về các hình thức sử dụngFacebook tại Ai Cập và Tuy-ni-zi trong phong trào “Mùa xuân Ả rập” (Hình 3) và thông kê nàycho thấy việc sử dụng Facebook cho hoạt động liên quan đến phong trào nói trên chiếm một trọng
số rất lớn
Trang 5Hình 3 Hình thức sử dụng Facebook trong Phong trào Dân sự và sự kiện đầu năm 2011 [MS11]
+ Facebook với cuộc bạo loạn tại Anh năm 2011
Casill, Antonio A và Paola Tubaro, 2012 [AT12] trình bày một nghiên cứu thực nghiệm mô phỏngmối liên quan giữa mức độ bạo lực với sự kiểm duyệt Facebook Kết quả nghiên cứu của các tácgiả cho thấy rằng lời giải tối ưu mang tính hệ thống là giải pháp hoàn toàn không kiểm duyệtFacebook và trong trường hợp đó, không chỉ giảm được mức độ bạo lực theo thời gian mà còn chophép khoảng thời gian hòa bình dài hơn đáng kế sau mỗi đợt bùng phát bạo lực Kết quả nghiêncứu này gợi ý rằng, giải pháp tối ưu nhằm ngăn chặn sự thâm nhập và khuyếch tán các quan điểmkhông lành mạnh, để nắm bắt và dẫn dắt dư luận trong Facebook thì giải pháp tối ưu là chúng cầnphải tham gia cởi mở cung cấp thông tin lành mạnh chính xác và không áp đặt vào Facebook.Thông qua việc kiểm chứng bốn giả thuyết về mối liên quan của công dân với việc sử dụng mạng
xã hội trực tuyến tin tức, Homero Gil de Zúnĩga và cộng sự, 2012 [ZJV12] chỉ ra rằng việc sử dụngmạng xã hội trực tuyến tương ứng với vai trò "phóng viên nhân dân" sẽ có tác động lớn đáng kể vàtích cực tới các cá nhân trong hoạt động dân sự và chính trị Kết quả là, nguồn vốn xã hội của đấtnước được tăng thêm tạo tiền đề cho phát triển quốc gia
+ Sự kiện chống quyền lợi của Mỹ vào tháng 9/2012
Trang 6Từ giữa tháng 9/2012, hoạt động chống Mỹ của thế giới Hồi giáo lại bùng phát với điểm xuất phát
từ việc xuất hiện và quảng bá đoạn video xúc phạm đạo Hồi Facebook được sử dụng để quảng bá
và khuyến khích hoạt động phản đối tưởng niệm cuộc tấn công ngày 11/9/20012 Đại sứ Mỹ tạiLybi bị giết hại và cuộc chiến giữa chính quyền Mỹ và lực lượng Hồi giáo chống Mỹ lại bước sanggiai đoạn mới Trong cuộc chiến đó, các mạng xã hội được nhiều phía khai thác không chỉ theokhía cạnh tích cực mà còn theo khía cạnh tiêu cực
+ Twiter trợ giúp giảm thiểu thảm họa kép "Động đất + Sóng thần" ớ Nhật Bản
Khai thác tính thời gian thực của trao đổi thông điệp trên Twitter, coi mỗi người dùng Twitter nhưmột bộ cảm biến trong một mạng cảm biến, Takeshi Sakaki và cộng sự, 2010 [SOM10] xây dựngmột mô hình hệ thống dựa trên nền tảng một mô hình xác suất để dự báo động đất và lan truyềnthông tin động đất tới người dùng Thông báo động đất của hệ thống này được lan truyền tới ngườidùng nhanh hơn nhiều so với thông báo của Cơ quan khí tượng Nhật Bản
Thảm họa kép "Động đất + Sóng thần" (The Great Eastern Japan Earthquake [STM11]) ớ Nhật Bảnvào ngày 11/3/2011 làm nhiều người rơi vào tình huống khẩn cấp và mạng xã hội Twitter trở thànhphương tiện truyền thông hữu dụng để những người gặp nguy cấp gửi thông điệp cầu cứu ngắn tớibạn bè và các tổ chức cứu trợ Twitter cũng truyền đạt lại các thông điệp tư vấn, hướng dẫn trợgiúp thông tin cho những người khẩn cấp Trong trường hợp đó, thông tin định vị thiết bị gửi thôngđiệp của người kêu cứu được sử dụng để hướng dẫn người đó tới các đia điểm an toàn hoặc địađiểm có sự trợ giúp Takeshi Sakaki và cộng sự, 2011 [STM11], Nigen Collier, Son Doan và cộng
sự, 2011 [CD11, DVC11] đề xuất các phương án nhận thông đệp cầu cứu của người dùng và gửithông điệp tư vấn tới người dùng thông qua Twitter
b) Tác động khoa học
Sự phát triển của các mạng xã hội trực tuyến kéo theo sự hình thành các chủ đề mới trong một sốngành khoa học mà điển hình là xã hội học và khoa học máy tính
+ Ngành xã hội học
Theo Robert E Wilson và cộng sự, 2012 [WGG12], nghiên cứu xã hội học dựa trên Facebook định
hướng tới năm nhóm chủ đề là Phân tích mô tả người sử dụng, Động lực sử dụng Facebook, Trình
2 http://seattletimes.com/html/nationworld/2019169492_mideastphonecall16.html
Trang 7bày danh tính, Vai trò của Facebook trong tương tác xã hội, Tính riêng tư và việc tiết lộ thông tin.
Thêm nữa, mạng xã hội thúc đẩy những chủ đề nghiên cứu mới như "Netnography" = “Inter[net]” and “eth[nography]”, "Child-led Research" trong xã hội học Netnography cung cấp thông tin về
các mẫu biểu tượng, các mẫu ngữ nghĩa và các mẫu tiêu dùng của nhóm người mua trực tuyếnhoặc việc tiêu dùng của cộng đồng trực tuyến không quan hệ với nhau ngoại trừ sự trao đổi thôngtin trên mạng xã hội trực tuyến Child-led Research để chỉ các hoạt động tạo cho các nhóm ngườibất lực một cách tương đối (tuổi vị thành niên, khuyết tật) thiết lập được các chương trình nghị sự
và dẫn dắt nghiên cứu của riêng họ
+ Khai phá dữ liệu
Cliff Lampe và cộng sự, 2012 [LVGE12], Facebook (tổng quát hóa là mạng xã hội trực tuyến) có vaitrò của một nguồn tài nguyên thông tin , và vì vậy, mạng xã hội trực tuyến chứa đựng một nguồn
dữ liệu với dung lượng lớn và rất có giá trị
Sự phát triển của khai phá dữ liệu phương tiện truyền thông xã hội và mối quan hệ liên ngành giữacông nghệ thông tin và xã hội học Một số nội dung điển hình nhất về khai phá dữ liệu phương tiệntruyền thông xã hội có trong phần tiếp theo
15.1.1.4 Khai phá dữ liệu mạng xã hội
Chúng ta sử dụng thuật ngữ “khai phá dữ liệu mạng xã hội” để chỉ các nghiên cứu và triển khaikhai phá dữ liệu từ phương tiện truyền thông xã hội và từ mạng xã hội trực tuyến, nội dung dongười dùng tạo ra do mối liên quan chặt chẽ của chúng với phương tiện truyền thông xã hội Dữliệu phương tiện truyền thông xã hội trải trên một miền rộng lớn các lĩnh vực trong đời sống xã hội,đặc biệt chúng phản ánh tính "hiện thời" của đời sống cho nên khai phá dữ liệu mạng xã hội còn lànội dung chủ yếu của "phân tích cuộc sống" (living analytics3) Có thể nói khai phá dữ liệu mạng
xá hội đã hội tụ nhiều nội dung nghiên cứu thời sự nhất về mạng xã hội, về khai phá dữ liệu, về tiếpthị và kinh doanh, về hành vi con người
Rất nhiều công trình nghiên cứu về khai phá dữ liệu phương tiện truyền thông xã hội đã và sẽ đượccông bố David Easley và Jon Kleinberg [EK10], Jiawei Han và cộng sự, 2010 [HSYY10], JureLeskovec, 2011 [Lesk11] cung cấp các khía cạnh khác nhau của một khung nhìn tổng thể về khaiphá dữ liệu phương tiện truyền thông xã hội bao gồm các khái niệm và nội dung về phương tiện
3 http://www.larc.smu.edu.sg/
Trang 8truyền thông xã hội, ý nghĩa kinh tế và xã hội của nghiên cứu phương tiện truyền thông xã hội.Hai kiểu đối tượng nghiên cứu chính trong khai phá dữ liệu mạng xã hội là nội dung có trong mạng
xã hội trực tuyến và cấu trúc mạng xã hội Khai phá dữ liệu nội dung mạng xã hội là để chỉ hoạt
động khai phá dữ liệu nội dung văn bản mà người dùng tạo ra trên phương tiện truyền thông xã hội
Thành phần này tạo thành một miền ứng dụng rất rộng lớn Khai phá dữ liệu cấu trúc mạng xã hội
là để chỉ hoạt động khai phá dữ liệu về cấu trúc mạng xã hội tương ứng với phương tiện truyềnthông xã hội Hơn nữa, khai phá dữ liệu cũng được tiến hành dựa trên sự kết hợp nội dung và cấutrúc trong phương tiện truyền thông xã hội
a) Khai phá dữ liệu nội dung mạng xã hội
Khai phá dữ liệu nội dung mạng xã hội đề cập tới toàn bộ nội dung của hai lớp bài toán khai phá dữliệu mô tả và dự báo; nó huy động một phạm vi toàn diện các thuật toán khai phá dữ liệu[HSYY10, Lesk11] Khai phá dữ liệu nội dung mạng xã hội trực tuyến có một phạm vi ứng dụngrất rộng lớn trong quản lý danh tiếng (reputation management), tiếp thị phương tiện truyền thông
xã hội (Social media marketing), phản ứng công dân (citizen response), phân tích hành vi conngười (Human behavior analysic), phóng viên công dân thời gian thực (Real time citizen journalist)
và rất nhiều ứng dụng khác
Chẳng hạn, Craig Macdonald và cộng sự, 2010 [MSOS10] cho một phân tích về các nghiên cứukhai phá dữ liệu blogs trong khuôn khổ TREC giai đoạn 2006-2009 đối với ba bài toán: phát hiệnquan điểm (opinion-finding) đối với một đối tượng ("Người sử dụng blogs nghĩ gì về đối tượng X
đã cho ? "), chưng cất blog (blog distillation) để tìm ra các blog quan tâm tới đối tượng X ("Tìmblog quan tâm chính, định kỳ tới đối tượng X ?") và phát hiện tin nổi bật (top news) từ blogs ("tìmcác tin có giá trị gần đây nhất ?") Hàng chục công trình nghiên cứu tham gia TREC-Blogs Trackcung cấp một phổ rộng lớn các giải pháp khai phá dữ liệu để giải quyết ba bài toán nói trên Theocác tác giả, bài toán phát hiện quan điểm (bài toán đầu tiên) từ blogs không có nhiều khác biệt sovới bài toán khai phá quan điểm nói chung
Chúng ta xem xét một nghiên cứu khác về khai phá dữ liệu microblogs của Huina Mao và cộng sự,
2011 [MCB11] Đặc thù về độ dài thông điệp ngắn, về cấu trúc liên kết thành viên và thông điệptạo ra một số yếu tố bổ sung cho khai phá dữ liệu nội dung từ microblogs Tính cập nhật thông tinnhanh trên microblogs là tiền đề cho các giải pháp dự báo ngắn hạn trên microblogs Trong[MCB11], Huina Mao và cộng sự cung cấp một khảo sát công phu về các chỉ số tâm trạng của nhà
Trang 9đầu tư chứng khoán gồm có tỷ lệ phần trăm tăng giá DSI (DSI bullish percentage: DSI), chỉ sốthông minh của nhà đầu tư (Investor Intelligence: II), đánh giá nhà đầu tư Twitter (Twitter InvestorSentiment: TIS), lượng thuật ngữ tìm kiếm tài chính Twest (Tweet volumes of financial searchterms: TV-FST), đánh giá tin tức tiêu cực (Negative News Sentiment: NNS), và lượng tìm kiếmGoogle của các thuật ngữ tài chính (Google search volumes of financial search terms: GIS) Quathực nghiệm theo thời gian một tuần, các tác giả phát hiện rằng GIS có độ liên quan đáng kể vớicác chỉ số tài chính phân biệt (different financial indexes: DJIA) và như vậy GIS có thể thay thế cácchỉ số dự báo tài chính Tuy nhiên, đối với chỉ số thông minh nhà đầu tư (II) thì không có được vaitrò đó Độ chính xác của dự báo có thể cải thiện khi làm giàu đặc trưng Thực nghiệm theo thờigian ngày cho thấy TIS và TV-FST cho phép dự báo tốt đáng kể theo thống kê về hoàn vốn thịtrường hàng ngày trong khi DSI thì không cho phép NNS cũng cho kết quả theo chiều hướngtương tự như TSI và TV-FST nhưng kém hơn về độ liên quan
b) Khai phá dữ liệu cấu trúc mạng xã hội
Khai phá dữ liệu cấu trúc mạng xã hội đề cập tới mẫu và tính động về cấu trúc của mạng xã hộitrực tuyến Mẫu cấu trúc của một mạng xã hội trực tuyến phù hợp với tính chất chung của mạng xãhội và đặc tính riêng của mạng xã hội trực tuyến đó
Tính chất chung của mạng xã hội gồm tính chất thế giới nhỏ (small world), liên kết mạnh – yếu(strong – weak tie), phân bố luật lũy thừa (power law distribution), và cấu trúc cộng đồng(community) Tinh chất thế giới nhỏ chỉ ra rằng độ dài đường đi liên kết hai đỉnh bất kỳ trongmạng xã hội không vượt quá một số nguyên dương nhỏ Tính chất này được Stanley Milgram pháthiện bằng thực nghiệm từ năm 1969 Tính chất liên kết mạnh – yếu chỉ ra rằng liên kết giữa hai núttrong mạng xã hội không giống nhau và đươc chia thành hai lớp liên kết mạnh và liên kết yếu Vềmặt xã hội, liên kết mạnh thể hiện mối quan hệ người thân, còn liên kết yếu thể hiện mối quan hệmới tiếp xúc Trong nhiều trường hợp, liên kết mạnh - yếu còn được chuyển đổi thành liên kếtdương - âm để chỉ mối liên kết đồng thuận hoặc trái ngược nhau Phân bố luật lũy thừa (power lawdistribution): số nút có k liên kết tới bằng khoảng 1/k2 với số k>2, cấu trúc cộng đồng(community): tập tất cả các nút có thể được phân chia thành một số nhóm các nút có tính chấtchung
Dự báo liên kết là một bài toán quan trọng trong khai phá dữ liệu cấu trúc mạng xã hội trực tuyến
L Liu và T Zhou, 2010 [LZ10] cung cấp một tổng quan về dự báo liên kết trong mạng xã hội Cho
Trang 10đồ thị vô hướng mạng xã hội G = (V, E) trong đó V là tập n nút (đỉnh), E là tập cung đã có trongtập U gồm tất cả n*(n-1)/2 các cung có thể có Bài toán đặt ra là hãy tìm ra các cung có thể cótrong tương lai từ tập U\E Các tác giả hệ thống hóa các thuật toán giải quyết bài toán dự báo liênkết, bao gồm các thuật toán dựa trên độ tương tự, các thuật toán dựa theo cực đại hóa khả năng, cácthuật toán dựa trên mô hình xác suất J Leskovec và cộng sự, 2010 [LHK10] đề xuất một phươngpháp học máy hồi quy để dự báo liên kết âm – dương trong mạng xã hội Số lượng mẫu quan hệgiữa các liên kết được thu gọn dựa trên lý thuyết cân bằng (balance theory) và lý thuyết trạng thái(status theory) [EK10], vì vậy, mô hình học máy dự báo hồi quy thi hành hiệu quả hơn.
15.1.1.6 Nghiên cứu về khai phá dữ liệu mạng xã hội tại một số tổ chức, nhóm nghiên cứu
a) Nghiên cứu tại Viện Tiêu chuẩn và Công nghệ quốc gia Mỹ
Viện Tiêu chuẩn và Công nghệ quốc gia Mỹ (National Institute of Standards and Technology:NIST) tiến hành nhiều hội nghị khoa học về các chủ đề khoa học – công nghệ được quan tâm củanước Mỹ và thế giới Chuỗi hội nghị về “thu hồi” văn bản (Text REtrieval Conference: TREC) doNIST và Bộ Quốc phòng Mỹ phối hợp tổ chức với sự tham gia của cộng đồng nghiên cứu và triểnkhai về thu hồi thông tin (Information Retrieval) trên thế giới
Liên quan tới nội dung đề tài, đã diễn ra một số hội nghị bộ phận (Track) trong khuôn khổ của hộinghị TREC sau đây:
- Blog Track 2010 Craig Macdonald và cộng sự, 2010 [MSOS10] cung cấp một mô tả khái quát
kho ngữ liệu được sử dụng (Blogs06 và Blogs08), kết quả nghiên cứu của 45 nhóm nghiên cứu
về thu hồi thông tin trên Blogsphore đối với ba bài toán Phát hiện quan điểm Finding), Tìm kiếm blog thú vị (Blog Distillation) và Phát hiện tin nóng (Top news) Nhữnggiải pháp cho ba bài toán Phát hiện quan điểm (dựa theo phân lớp, dựa theo từ vựng), Tìmkiếm blog thú vị (tiếp cận lựa chọn tài nguyên, tiếp cận tìm kiếm chuyên gia), Phát hiện tinnóng (phương pháp bỏ phiếu, phương pháp xếp hạng) được Craig Macdonald và cộng sự tổnghợp từ các công bố cụ thể của 45 nhóm nghiên cứu đã và đang được nhóm thực hiện đề tàinghiên cứu triển khai thử nghiệm và có kết quả sơ bộ
(Opinion Microblog Track 2011, 2012 (https://sites.google.com/site/microblogtrack/2011-guidelines,
https://sites.google.com/site/microblogtrack/2012-guidelines) NIST tạo ra 60 chủ đề cho bàitoán này và những người tham gia giải quyết bài toán trong thời gian thực Số lượng tweestmỗi ngày lên tới 200 triệu, yêu cầu thời gian thực là những thách thức rất lớn trong việc tìm
Trang 11kiếm và xếp hạng tweest Các giải pháp công bố tại Microblog Track năm 2011 sẽ được nhómthực hiện đề tài khảo sát để áp dụng (http://trec.nist.gov/pubs/trec20/t20.proceedings.html).Công trình nghiên cứu của Richard M C McCreadie và cộng sự, 2012 [CSMOC12] cũng sẽđược nhóm thực hiện đề tài khảo sát để áp dụng trong việc xây dựng và nâng cấp kho ngữ liệu(scopus) cho các bài toán trong phạm vi đề tài.
b) Nghiên cứu tại Viện Tin học Quốc gia Nhật Bản
Trường ĐHCN, ĐHQGHN (trực tiếp là Phòng thí nghiệm Công nghệ Tri thức: KTLab) và ViệnTin học Quốc gia Nhật Bản (trực tiếp là nhóm nghiên cứu của GS Nigel Collier) cộng tác khoa họccông nghệ thực hiện một số bài toán khai phá dữ liệu từ thông điệp của người dùng trên mạng xãhội Twitter là (i) Hiểu được yêu cầu người dùng khi gặp tình huống khẩn cấp; (ii) Theo dõi sự biếnđổi khí hậu; (iii) Phân tích danh tiếng của các sản phẩm; (iv) Khám phá và theo dõi chủ đề và phântích quan điểm của người sử dụng liên quan tới thảm họa
Nhóm nghiên cứu của GS Nigel Collier có một số kết quả nghiên cứu theo các chủ đề nghiên cứunói trên [CD11, DVC11] Trong năm 2012, KTLab đã cử 3 thành viên (NCS Trần Mai Vũ, HVCH
Vũ Tiến Thành, HVCH Lê Hoàng Quỳnh) thực hiện nội dung hợp tác nghiên cứu và phát triển cáckết quả của nhóm GS Nigel Collier có liên quan tới các chủ đề nghiên cứu nói trên
c) Nghiên cứu tại Trung tâm nghiên cứu phân tích cuộc sống, ĐH Quản lý Singapore
Phân tích cuộc sống (Living Analytics: LA) tại Trung tâm nghiên cứu phân tích cuộc sống (LAResearch Center: LARC) là một định hướng nghiên cứu mới về phân tích hành vi và mạng xã hội
và thực nghiệm hành vi nhằm phát hiện và thu hoạch các luật tiến hóa đối với các mạng các cánhân, các tổ chức và các doanh nghiệp Phân tích cuộc sống được thi hành bằng mô hình phân tíchvòng kín hướng thực nghiệm (Experiment-Driven Closed-Loop Analytics) tại Hình 4
Trang 12Hình 4 Mô hình vòng kín hướng thực nghiệm tại LARC
Quá trình thi hành vòng kín Experiment-Driven Closed-Loop Analytics như sau:
- Vòng kín được bắt đầu với pha Quan sát: tiến hành quan sát tương tác và các mối quan hệ của
người dùng trong một mạng thời gian thực và thu thập các dấu vết kỹ thuật số
- Pha Phân tích và Dự báo tiếp nhận và tiến hành phân tích các dấu vết kỹ thuật số nói trên nhằm
phát hiện ra các mẫu, và sử dụng mẫu này để dự báo hành vi người dùng và xu hướng mạng trongtương lai
- Pha Thực nghiệm tiến hành kiểm tra cách mà cá nhân và nhóm trên mạng phù hợp với sự thay
đổi về nội dung, cung cấp dịch vụ, kinh nghiệm tương tác, giá cả và ưu đãi Giai đoạn thực nghiệmcũng kiểm tra cách người dùng đáp ứng với các loại hướng dẫn và phản hồi khác nhau
- Cuối cùng, trong pha Hành động con người, người dùng tạo ra trả lời từ thực nghiệm thông qua các loại thông tin phản hồi khác nhau, và qua đó tạo ra dữ liệu cho pha Quan sát của vòng kín
Trang 13Phần dưới đây trình bày một số nội dung cơ bản và điển hình nhất về bài toán phát hiện vai trò vàbùng nổ sự kiện trên các mạng xã hội trực tuyến, các mô hình, giải pháp của cộng đồng nghiên cứutrên thế giới về trích chọn thông tin, phát hiện vai trò và bùng nổ sự kiện trên các mạng xã hội trựctuyến.
Mạng xã hội không thừa kế mối quan hệ trong xã hội thực của các thành viên, tuy nhiên, thông tin
về hành vi và nội dung thông điệp trao đổi trong mạng xã hội cho phép phát hiện các mối quan hệgiữa các thành viên trong mạng bao gồm mối quan hệ trong xã hội thực lẫn mối quan hệ nảy sinhtrong ngữ cảnh mạng xã hội Đây là xuất xứ của bài toán phát hiện vai trò trong mạng xã hội Chi Wang và cộng sự, 2010 [WHJTZ10] đề xuất mô hình đồ thị nhân tử xác suất phụ thuộc thờigian (Time-constrained probabilistic factor graph model: TPFG) để phát hiện quan hệ ngườihướng dẫn – người được hướng dẫn trong mạng thông tin được hình thành từ Cơ sở dữ liệu DBLP.Kết quả nghiên cứu này đã được thi hành trong hệ thống tìm kiếm và khai phá dữ liệu mạng xã hộikhoa học Arnetminer (http://arnetminer.org/) của Trường Đại học Thanh Hoa Trung Quốc
Trong nhiều trường hợp, giải pháp tính hạng (ranking) cũng được áp dụng trong bài toán phát hiệnvai trò, trong đó những nút mạng (cá nhân/tổ chức) có hạng cao là những nút quan trọng trongmạng xã hội Hành vi của những nút quan trọng có tác động tới hành vi chung của mạng hoặc mộtcộng đồng trong mạng Sự bùng nổ sự kiện trong mạng xã hội có liên quan tới hành vi của nhữngnút quan trọng trong mạng
Vanesa Junquero-Trabado và David Dominguez-Sal [TS12] đề xuất một kiến trúc cho hệ thống tìmkiếm vai trò từ những người dùng phương tiện xã hội Các tác giả định nghĩa 14 đặc trưng cần thiếtliên quan tới các vai trò và thực nghiệm trên tập dữ liệu Twitter tìm kiếm 4 vai trò là người nổitiếng (Celebrity), người lãnh đạo quan điểm (Information propagators), người phát kiến(Promoters) và người vận động quảng bá (Early adopters) Kết quả nghiên cứu của hai tác giả sẽđược nhóm thực hiện đề tài phân tích và khai thác
Bùng nổ sự kiện trong mạng xã hội phản ánh tính cao trào của sự kiện tương ứng trong xã hội thực
vì vậy dự báo bùng nổ sự kiện trong mạng xã hội cho phép dự báo sự kiện trong xã hội thực Trong[STM11], Takeshi Sakaki và cộng sự phân tích xu hướng Tweet của người sử dụng xung quanh sựkiện thảm họa kép "động đật – sóng thần" ở Nhật Bản Tập dữ liệu Tweet tiếng Nhật của 1,3 triệungười dùng được thu thập bằng giải pháp crawling trực tiếp Các mẫu phổ biến Tweet trước và saungày 11/3/2011 cũng như các mẫu mẫu phổ biến Tweet trong ngày 11/3/2011 tại các vùng lãnh thổ