Phát hiện vai trò và dự báo bùng nổ Augu st 19, 202 - Giới thiệu chung Phối hợp thực hiện đề tài cấp Bộ CA 2012-2013 Chủ trì đề tài: ThS Nguyễn Lương Hoàng Hoa - Một số yêu cầu chính
Trang 1M t s ch đ KH-CN c a KTLab ột số chủ đề KH-CN của KTLab ố chủ đề KH-CN của KTLab ủ đề KH-CN của KTLab ề KH-CN của KTLab ủ đề KH-CN của KTLab
1
Hà Quang Thụy
Phòng Thí nghiệm Công nghệ Tri thức - KTLab
Trường ĐHCN, Đại học Quốc gia Hà Nội,
Hà Nội, 06-10-2012
Trang 2Nội dung
Augu
st 19, 202 4
- Phát hiện vai trò & dự báo bùng nổ sự kiện trên
mạng xã hội
- Khai phá dữ liệu văn bản Y Sinh học
- Khai phá dữ liệu quá trình
- Tích hợp dữ liệu và khai phá dữ liệu song song
Trang 31 Tóm tắt đa văn bản
Augu
st 19, 202
- Giới thiệu chung
Phối hợp thực hiện đề tài cấp Bộ B2012-01-24 (2012-2013)
Đơn vị chủ trì: Trường ĐHBKHN
Chủ nhiệm đề tài: PGS TS Lê Thanh Hương
- Một số nội dung cần thực hiện
Nghiên cứu phương pháp xác định từ khóa và trọng số 06/2012
Nghiên cứu loại bỏ chồng chéo trong các văn bản trong cụm văn bản 09/2012
Nghiên cứu phương pháp sắp xếp độ quan trọng giữa các văn bản trong cụm
văn bản 9/2012
Thiết kế và cài đặt chương trình tóm tắt đa văn bản tiếng Việt 9/2013
Xây dựng tập dữ liệu thử nghiệm phục vụ bài toán tóm tắt đa văn bản 9/2013
Trang 4Tóm tắt đa văn bản (tiếp)
Augu
st 19, 202 4
- Tình hình thực hiện
Nghiên cứu phương pháp xác định từ khóa và trọng số 06/2012:
Chưa hoàn thành báo cáo (Sử dụng mô hình chủ đề ẩn cho miền
lĩnh vực tóm tắt văn bản: các bước lựa chọn từ khoa),
Nghiên cứu loại bỏ chồng chéo trong các văn bản trong cụm văn
bản 09/2012: Chưa hoàn thành báo cáo (Khai thác kết quả nghiên
cứu về kế thừa văn bản)
Nghiên cứu phương pháp sắp xếp độ quan trọng giữa các văn bản
trong cụm văn bản 9/2012: Chưa hoàn thành báo cáo (Mô hình chủ
đề ẩn)
- Bài báo ghi nhận kết quả thực hiện đề tài
[QTTT12] Quang-Thuy Ha, Thi-Oanh Ha, Thi-Dung Nguyen, Thuy-Linh
Nguyen (2012) Refining the Judgement Threshold to Improve Recognizing
Textual Entailment Using Similarity, ICCCI 2012, Part II, LNAI 7654, pp
335–344, 2012
[TLQ12] Thi-Ngan Pham, Le-Minh Nguyen, Quang-Thuy Ha (2012) Named
Entity Recognition for Vietnamese documents using semi-supervised
learning method of CRFs with Generalized Expectation Criteria, IALP 2012,
Ha Noi, Vietnam, November 13-15, 2012 (in press).
Trang 52 Phát hiện vai trò và dự báo bùng
nổ
Augu
st 19, 202
- Giới thiệu chung
Phối hợp thực hiện đề tài cấp Bộ CA 2012-2013
Chủ trì đề tài: ThS Nguyễn Lương Hoàng Hoa
- Một số yêu cầu chính
Dự báo bùng nổ sự kiện toàn cục
Dự báo bùng nổ sự kiện cục bộ: một cộng đồng, một cá nhân
- Một số nội dung chính
Nghiên cứu đặc trưng của Facebook, Twitter, blogsphore
Phương pháp thu thập dữ liệu và tiền xử lý dữ liệu
Phương pháp phát hiện vai trò
Phương pháp dự bào bùng nổ sự kiện
Phương pháp kết hợp các mạng xã hội
Thiết kế và xây dựng chương trình cho Facebook, Twitter, blogsphore
Kết hợp kết quả từ các mạng xã hội
- Một số giải pháp phát hiện vai trò và bùng nổ
Đã giới thiệu (báo cáo 29/9/2012)
Trang 6Thu thập dữ liệu mạng xã hội
Augu
st 19, 202 4
- Các hình thức thu thập dữ liệu
Chiêu mộ người tham gia theo ngữ cảnh ngoại tuyến,
Chiêu mộ người tham gia theo ngữ cảnh trực tuyến,
Thu thập tự động (crawling) dữ liệu.
[BOMRS12] Matko Boanjak, Eduardo Oliveira, José Martins, Eduarda Mendes
Rodrigues, Luís Sarmento (2012) TwitterEcho: a distributed focused crawler to
support open research with twitter data, WWW (Companion Volume) 2012:
1233-1240
[LZTCSS09] L Lopes, J Zamite, B Tavares, F Couto, F Silva, and M Silva
(2009) Automated social network epidemic data collector, INForum - Simposio
de Informatica, September, 2009.
[PP10] A Pak and P Paroubek (2010) Twitter as a corpus for sentiment
analysis and opinion mining, The 7th conference on International Language
Resources and Evaluation (LREC), May 2010.
[Russ11] Matthew A Russell (2011) Mining the social web, O'Reilly, 2011.
[Wang10] Alex Hai Wang (2010) Don't Follow Me - Spam Detection in Twitter,
SECRYPT 2010: 142-151
[ZSCS10] João Zamite, Fabrício A B da Silva, Francisco M Couto, Mário J
Silva (2010) MEDCollector: Multisource Epidemic Data Collector, ITBAM 2010:
16-30
Trang 7Thu thập dữ liệu từ Facebook
Augu
st 19, 202
- Tìm hiểu chung
Thu thập thông tin thành viên và đồ thị các mối liên kết bạn bè: chỉ
cho phép truy xuất thông tin thành viên từ chính những thành viên
Đăng nhập vào tài khoản Facebook
Vào địa chỉ https://developers.facebook.com/tools/explorer/ để
lấy Access token tương ứng
- Nhóm thực hiện
Anh Trần Mai Vũ và một số anh chị em
[WGG12] Robert E Wilson, Samuel D Gosling, and Lindsay T Graham
(2012) A Review of Facebook Research in the Social Sciences, Perspectives
on Psychological Science 7(3) 203– 220.
Trang 8Thu thập dữ liệu từ Twitter
Augu
st 19, 202 4
Tham khảo Microblogs của TREC
Thông qua giao diện chương trình ứng dụng
Search API, Rest API (Version 1.1) và Streaming API
Anh Vũ Tiến Thành và một số anh chị em
Lưu ý khai phá dữ liệu dòng (hình vẽ)
Trang 93 Khai phá dữ liệu văn bản y sinh
học
Augu
st 19, 202
- Giới thiệu chung
Phối hợp thực hiện với GS Nigel Collier (NII)
Đã và đang triển khai
Nhóm thực hiện: Xuân Hiếu, Trần Mai Vũ, Lê Hoàng Quỳnh
Một số nội dung chi tiếu (Báo cáo của nhóm Trần Mai Vũ,
Lê Hoàng Quỳnh)
Trang 10I.4 Khai phá dữ liệu quá trình
Augu
st 19, 202 4
Đề tài: “Improving Business Process and Complex Event Sequence Analytics
using Process Mining Techniques” 2013-2014
Phối hợp thực hiện với GS Bart Baesens
The Department of Management Informatics, part of the Faculty of Business and
Economics at KU Leuven (Bỉ)
Process Mining: chiết xuất thông tin có giá trị, liên quan đến quá trình từ các bản
ghi sự kiện, bổ sung tới các tiếp cận hiện có để quản lý quá trình kinh doanh
“Process mining, i.e., extracting valuable, process-related information from event
logs, complements existing approaches to Business Process Management
(BPM)”
[Aalst11] WMP Van der Aalst (2011) Process Mining: Discovery, Conformance
and Enhancement of Business Processes, Springer, 2011.
[Http] http://www.processmining.org/publications/phd
Trang 11Khai phá dữ liệu quá trình
Augu
st 19, 202
- Khai phá quá trình
Là một chuyên ngành mới cung cấp bộ công cụ toàn diện để
cung cấp sự hiểu biết quá trình kinh doanh trong thực tiễn và
cải tiến qúa trình.
Được xây dựng dựa trên Điều khiển quá trình theo mô hình
và Khai phá dữ liệu
Phát triển của Quản lý quy trình kinh doanh và Thông minh
kinh doanh
Trang 12Khai phá dữ liệu quá trình
Augu
st 19, 202 4
[Aalst11] WMP Van der Aalst (2011) Process Mining: Discovery, Conformance
and Enhancement of Business Processes, Springer, 2011.
[Aalst12] Wil M P van der Aalst: Process Mining: Overview and Opportunities
ACM Trans Management Inf Syst 3(2): 7 (2012)
Trang 13Nội dung trong đề tài
Augu
st 19, 202
Biosciences for Food /
Nutrition
Environment and Natural Resources (Climate Change) Public / Rural Health
Technology Development
HEIs/RIs Institutional Strengthening and Reform
Trang 145 Khai phá dữ liệu song song
Augu
st 19, 202 4
- Giới thiệu chung
Process Mining
Phối hợp thực hiện với GS Joshua Zhexue Huang, Shenzhen
Institutes of Advanced Technology, Chinese Academy of Sciences
(Trung Quốc)
- Một số nội dung chính
Bộ công cụ AlphaMiner
Thuật toán khai phá dữ liệu song song rừng ngẫu nhiên
Multi-Layer Network for Influence Propagation over Microblog
Trang 156 Nhóm đề tài SVNCKH
Augu
st 19, 202
- Giới thiệu chung
Tương ứng với các đề tài nghiên cứu như phần I
Thành phần: K54 (chủ chốt) và K55 (thừa kế)
Tóm tắt đa văn bản mạng xã hội
Khai phá dữ liệu Y Sinh học
Phát hiện và dự báo sự kiện trong mạng xã hội
Xếp hạng đối tượng trong mạng xã hội
Xác định vai trò trong mạng xã hội
Khai phá quan điểm trong mạng xã hội
Dự báo bùng nổ sự kiện trong mạng xã hội
Tích hợp sơ đồ dữ liệu
Khai phá dữ liệu song song
Trang 16Nhóm chủ đề tiếp tục
Augu
st 19, 202 4
Tóm tắt đa văn bản mạng xã hội
Phương pháp dự trên diễn ngôn
Đánh giá tóm tắt văn bản dựa trên kế thừa văn bản
Trang 17SVNCKH: KPDL Y Sinh học
Augu
st 19, 202
Hai nhóm SVNCKH
K54: Phí Văn Thủy, Phạm Thanh Bình, Phạm Thị Hồng,
Nguyễn Xuân Hùng, )1 SV K54 16&23
K55: Ngô Ngọc Huy
Hướng dẫn (dự kiến): Phan Xuân Hiếu, Trần Mai Vũ, Lê
Hoàng Quỳnh
- Khai phá dữ liệu y sinh học
Khảo sát và nâng cấp các công trình SVNCKH từ K49 - K52
2008: Lê Diệu Thu (K49) và Trần Thị Ngân (K50) Xây dựng Ontology
nhằm hỗ trợ tìm kiếm ngữ nghĩa trong lĩnh vực y tế (giải nhì)
2010: Nguyễn Tiến Thanh (K51), Vũ Xuân Sơn (K52), Lê Thu Hà (K52)
Một mô hình xây dựng tự động Ontology dựa vào Wikipedia tiếng Việt
trên miền ứng dụng các trường đại học Việt Nam (giải Nhì).
2011: Chu Thị Thủy (K52), Đào Minh Tùng (K52), Hà Thị Oanh (K53),
Trần Phi Dũng (K53) Mô hình trích chọn quan hệ tương tác protein và
gen dựa trên kỹ thuật boostrapping và học máy SVM (giải Nhì)
Trang 18Xác định vai trò trong mạng xã
hội
Augu
st 19, 202 4
K54: Bùi Đình Luyến, Trần Thị Sim
K55: Phạm Ngọc Xuyên
Hướng dẫn (dự kiến): Hà Quang Thụy, Lê Đức Trọng
[ALTY12] Nitin Agarwal, Huan Liu, Lei Tang, Philip S Yu: Modeling blogger
influence in a community Social Netw Analys Mining 2(2): 139-162 (2012
[CWE07] Andrew McCallum, Xuerui Wang, Andrés Corrada-Emmanuel: Topic and
Role Discovery in Social Networks with Experiments on Enron and Academic
Email J Artif Intell Res (JAIR) 30: 249-272 (2007)
[CWY09] Wei Chen, Yajun Wang, Siyu Yang: Efficient influence maximization in
social networks KDD 2009: 199-208
[RS12] Manuel Gomez-Rodriguez, Bernhard Schölkopf: Influence Maximization in
Continuous Time Diffusion Networks CoRR abs/1205.1682: (2012)
[TS12] Vanesa Junquero-Trabado, David Dominguez-Sal (2012) Building a role
search engine for social media WWW (Companion Volume) 2012: 1051- 1060.
[WHJTZ1] Chi Wang, Jiawei Han, Yuntao Jia, Jie Tang, Duo Zhang, Yintao Yu,
Jingyi Guo (2010) Mining advisor-advisee relationships from research
publication networks, KDD 2010: 203-212
Trang 19Khai phá quan điểm trên Twitter
Augu
st 19, 202
K54: Vũ Trọng Hóa, Đào Quốc Vương
K55:Hoàng Huy Hoàng
Hướng dẫn (dự kiến): Hà Quang Thụy, Vũ Tiến Thành
[AXVRP11] Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow and Rebecca
Passonneau (2011) Sentiment Analysis of Twitter Data, Workshop on Language
in Social Media LSM 2011:30-38.
[BD11] Samuel Brody, Nicholas Diakopoulos: Cooooooooooooooollllllllllllll!!!!!!!!!!!!!!
Using Word Lengthening to Detect Sentiment in Microblogs EMNLP 2011:
562-570
[TBP11] Mike Thelwall, Kevan Buckley, Georgios Paltoglou: Sentiment in Twitter
events JASIST 62(2): 406-418 (2011)
[NWCPZ12] Le Nguyen, Pang Wu, William Chan, Wei Peng and Joy Zhang (2012)
Predicting Collective Sentiment Dynamics from Time-series Social Media,
Workshop on Issues of Sentiment Discovery and Opinion Mining (WISDOM) at
The 18th ACM SIGKDD Conference on Knowledge Discovery and Data Mining
(KDD 2012), Beijing, China, August 12-16, 2012
Trang 20Xếp hạng đối tượng trên mạng xã
hội
Augu
st 19, 202 4
K54:Nguyễn Thị Tươi, Nguyễn Thị Thảo, Lương Viết Thái
K55: Dương Thị Ánh Tuyết
Hướng dẫn (dự kiến): Phan Xuân Hiếu, Nguyễn Thanh Sơn
[GK12] Gupta A., and Kumaraguru P (2012) Credibility ranking of tweets during
high impact events, the 1st Workshop on Privacy and Security in Online Social
Media ( PSOSM '12 ), Article No 2, 2012.
[NTC10] Rinkesh Nagmoti, Ankur Teredesai, Martine De Cock: Ranking Approaches
for Microblog Search, Web Intelligence 2010: 153-157
[RBK12] Srijith Ravikumar, Raju Balakrishnan, Subbarao Kambhampati: Ranking
Tweets Considering Trust and Relevance, CoRR abs/1204.0156: (2012)
[SLB12] Xin Shuai, Xiaozhong Liu, Johan Bollen: Improving news ranking by
community tweets WWW (Companion Volume) 2012: 1227-1232
Trang 21Dự báo bùng nổ sự kiện
Augu
st 19, 202
K54:Tiêu Thị Phương, Ngô Quang Hiểu
K55: Nguyễn Anh Vũ
Hướng dẫn (dự kiến):Phan Xuân Hiếu, Trần Xuân Tứ
GZRSW12] Sabrina Gaito, Matteo Zignani, Gian Paolo Rossi, Alessandra Sala,
Xiao Wang, Haitao Zheng, Ben Y Zhao: On the Bursty Evolution of Online Social
Networks CoRR abs/1203.6744: (2012)
[ZSJSL12] Wayne Xin Zhao, Baihan Shu, Jing Jiang, Yang Song, Hongfei Yan and
Xiaoming Li (2012) Identifying Event-related Bursts via Social Media Activities,
EMNLP-CoNLL'12:1466-1477, 2012
[YK12] Sheng Yu, Subhash Kak (2012) A Survey of Prediction Using Social Media
CoRR abs/1203.1647: (2012)
Trang 22Khai phá dữ liệu quá trình
Augu
st 19, 202 4
- Những người thực hiện
[Aalst11] WMP Van der Aalst (2011) Process Mining: Discovery, Conformance and
Enhancement of Business Processes, Springer, 2011.
[Aalst12] Wil M P van der Aalst: Process Mining: Overview and Opportunities, ACM
Trans Management Inf Syst 3(2): 7 (2012)
[MBA12] Fabrizio Maria Maggi, R P Jagadeesh Chandra Bose, Wil M P van der
Aalst (2012) Efficient Discovery of Understandable Declarative Process Models
from Event Logs, CAiSE 2012: 270-285.
[Aalst12a] Wil M P van der Aalst (2012) Process mining, Commun ACM 55(8):
76-83 (2012)
[MWAB02] Laura Maruster, A J M M Weijters, Wil M P van der Aalst, Antal van
den Bosch (2002) Process Mining: Discovering Direct Successors in Process
Logs, Discovery Science 2002: 364-373
[ADGRVW09] Wil M P van der Aalst, Boudewijn F van Dongen, Christian W
Günther, Anne Rozinat, Eric Verbeek, Ton Weijters (2009) ProM: The Process
Mining Toolkit, BPM (Demos) 2009
[Http] http://www.processmining.org: cộng đồng khai phá dữ liệu quá trình;
[Http] http://www.processmining.org/publications/phd: các luận án Tiến sỹ KPDLQT
Trang 23TRÂN TR NG CÁM N ỌNG CÁM ƠN ƠN
23