ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Tiểu luận Môn Trí tuệ nhân tạo nâng cao Áp dụng công nghệ dữ liệu lớn vào việc thu thập thông tin đối tượng kiểm toán trên các phương tiện xã hội GV hướng dẫn GS TS Nguyễn Thanh Thuỷ Học viên Nguyễn Hữu Duy MHV 20025004 HÀ NỘI 2022 1 TÓM TẮT Ngày nay dữ liệu mạng xã hội trực tuyến đang ngày càng hấp dẫn người dùng và đang tăng một cách đáng kể, việc khai phá dữ liệu mạng xã hội đã và đang hội tụ nhiều nội dung nghiên cứu thời sự nhất về mạng xã hộ.
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Tiểu luận Môn Trí tuệ nhân tạo nâng cao
Áp dụng công nghệ dữ liệu lớn vào việc thu thập thông tin
đối tượng kiểm toán trên các phương tiện xã hội
GV hướng dẫn: GS.TS Nguyễn Thanh Thuỷ
HÀ NỘI - 2022
Trang 2TÓM TẮT
Ngày nay dữ liệu mạng xã hội trực tuyến đang ngày càng hấp dẫn người dùng và đang
tăng một cách đáng kể, việc khai phá dữ liệu mạng xã hội đã và đang hội tụ nhiều nội dung
nghiên cứu thời sự nhất về mạng xã hội, về khai phá dữ liệu, về tiếp thị và kinh doanh, về
hành vi con người Trong bài tiểu luận “Áp dụng công nghệ dữ liệu lớn vào việc thu thập
thông tin đối tượng kiểm toán trên các phương tiện xã hội” em đã nghiên cứu một số khái
niệm tổng quan về phương tiện xã hội và kiến trúc mạng xã hội ở Chương I và Chương II
Em tiếp tục tìm hiểu về cơ hội phân tích dữ liệu và thông tin từ Facebook qua các loại dữ
liệu như dữ liệu quan hệ, dữ liệu cá nhân, dữ liệu cộng đồng được thể hiện ở Chương III,
Chương IV em sẽ trình bày một số công nghệ có thể thu thập được dữ liệu trên Facebook
và Chương V em sẽ đề xuất mô hình phân tích và xử lý dữ liệu của đối tượng Kiểm toán
Trang 3MỤC LỤC
TÓM TẮT 1
MỤC LỤC 2
DANH SÁCH BẢNG 3
DANH SÁCH HÌNH VẼ 3
CHƯƠNG 1 GIỚI THIỆU VỀ PHƯƠNG TIỆN XÃ HỘI 1
1.1 Giới thiệu 1
1.2 Tổng quan về mạng xã hội Facebook 1
1.3 Facebook ở Việt Nam 3
CHƯƠNG 2 KIẾN TRÚC MẠNG XÃ HỘI FACEBOOK 5
Hình 7 Kiến trúc Facebook 5
2.1 Cấu trúc chính 5
2.2 Các ứng dụng 6
2.3 Đặc tính chung 7
CHƯƠNG 3 CƠ HỘI PHÂN TÍCH DỮ LIỆU VÀ THÔNG TIN TỪ FACEBOOK 8
3.1 Dữ liệu quan hệ 8
3.2 Dữ liệu cá nhân 9
CHƯƠNG 4 CÔNG NGHỆ THU THẬP DỮ LIỆU 12
4.1 Dữ liệu có thể thu thập được trên Facebook 12
4.2 Dữ liệu công khai (public data) 12
4.3 Dữ liệu mặc định là công khai 13
4.4 Cách thức thu thập dữ liệu từ Facebook 14
4.5 Một số công cụ thu thập dữ liệu từ Facebook 19
4.6 Thành phần thu thập và xử lý dữ liệu 21
CHƯƠNG 5 MÔ HÌNH PHÂN TÍCH VÀ XỬ LÝ DỮ LIỆU CỦA ĐỐI TƯỢNG KIỂM TOÁN 25 5.1 Thành phần trích xuất sự kiện 26
5.2 Thành phần xác định sự kiện tụ tập đông người 30
5.3 Thành phần xác định vai trò trong mạng xã hội 34
5.4 Thành phần giao diện 35
Tài liệu tham khảo 35
Trang 4DANH SÁCH BẢNG
Bảng 1 Bảng 23 điểm cuối (endpoint) trong Graph API 18
Bảng 2 Danh sách 80 bảng dữ liệu FQL 19
DANH SÁCH HÌNH VẼ Hình 1 Sự phát triển về người sử dụng của Facebook 2
Hình 2 Tốc độ tăng trưởng và cơ cấu về tuổi người dùng Facebook 3
Hình 3 Tỉ lệ về độ tuổi và giới tính của người dùng facebook Việt Nam 4
Hình 4 Kiến trúc Facebook 5
Hình 5 Các mối quan hệ của người dùng 8
Hình 6 Ví dụ về trực quan hóa một số cộng đồng 9
Hình 7 Ví dụ về các thông tin của người dùng có thể thu thập 10
Hình 8 Kết quả thực nghiệm phát hiện sự kiện trong cộng đồng 11
Hình 9 Trang cộng đồng của nhãn hiệu Coca Cola 13
Hình 10 Một tài khoản cá nhân trên Facebook 14
Hình 11 Hình ảnh hiển thị theo FBML 16
Hình 12 Mô hình thu thập dữ liệu 22
Hình 13 Thành phần thu thập dữ liệu 24
Hình 14 Mô hình phân tích và xử lý dữ liệu của đối tượng Kiểm toán 25
Hình 15 Kiến trúc chung của hệ thống giám sát sự kiện 26
Hình 16 Sơ đồ phân cụm phân cấp 28
Hình 17 Mô hình phân lớp Maximum Entropy 30
Trang 5CHƯƠNG 1 GIỚI THIỆU VỀ PHƯƠNG TIỆN XÃ HỘI
1.1 Giới thiệu
Do các lợi thế của mình, mạng xã hội trực tuyến ngày càng hấp dẫn người sử dụng và
vì vậy dữ liệu mạng xã hội đang tăng nhanh một cách đáng kể Mới xuất hiện vào năm
2004 nhưng tới tháng 8/2012 thì Facebook đã có xấp xỉ một tỷ người dùng Tại Việt Nam,
sử dụng mạng xã hội đã trở thành xu thế không chỉ của lớp trẻ mà còn của nhiều lớp đối tượng khác Theo thống kê được công bố vào tháng 02/2012 của VinaLink Media
[Tuan12], trong số 10 mạng xã hội được sử dụng nhiều nhất ở Việt Nam thì Facebook là mạng xã hội lớn nhất Mạng xã hội nước ngoài phủ tới 83% còn mạng xã hội của Việt Nam phủ tới 75% số người dùng Internet tại Việt Nam Dù thống kê của VinaLink Media không cho biết lượng người dùng tích cực (Active user) song số liệu trên đây cũng cho thấy sức hấp dẫn của mạng xã hội đối với người dùng Internet
Mạng xã hội thừa kế sức quảng bá thông tin của các phương tiện truyền thông truyền thống nhưng với sức lan tỏa nhanh hơn tới các cộng đồng năng động cao trong xã hội Do vậy, tác động xã hội của mạng xã hội là rất lớn Hơn nữa, mạng xã hội hấp dẫn những người trẻ tuổi, những người làm việc trí tuệ là những người có tính năng động cao trong xã hội và
vì vậy, mạng xã hội có tác động rất to lớn tới các cộng đồng trong xã hội thực Có thể nói khai phá dữ liệu mạng xã hội đã hội tụ nhiều nội dung nghiên cứu thời sự nhất về mạng xã hội, về khai phá dữ liệu, về tiếp thị và kinh doanh, về hành vi con người
1.2 Tổng quan về mạng xã hội Facebook
Facebook là một dịch vụ mạng xã hội trực tuyến, truy cập miễn phí do công ty
Facebook, Inc điều hành Người dùng có thể tham gia các mạng lưới được tổ chức theo thành phố, nơi làm việc, trường học và khu vực để liên kết và giao tiếp với người khác Mọi người cũng có thể kết bạn và gửi tin nhắn cho họ, và cập nhật trang hồ sơ cá nhân của mình để thông báo cho bạn bè biết về chúng Tên của website nhắc tới những cuốn sổ lưu niệm dùng để ghi tên những thành viên của cộng đồng campus mà một số trường đại học và cao đẳng tại Mỹ đưa cho các sinh viên mới vào trường, phòng ban, và nhân viên
để có thể làm quen với nhau tại khuôn viên trường Dịch vụ này được thành lập vào tháng
2 năm 2004 bởi Mark Zuckerberg và những người bạn trong trường đại học Harvard Những người sáng lập ban đầu giới hạn những người được phép sử dụng trong phạm vi trường đại học Havard, sau đó mở rộng ra khu vực Boston, trường đại học Stanford Hiện tại Facebook cho phép bất cứ người trên 13 tuổi đều có thể đăng ký sử dụng dịch vụ Người dùng phải đăng kí trước khi sử dụng, sau đó họ có thể tạo lập trang thông tin cá nhân, thêm bạn bè, trao đổi tin nhắn và tự động nhận thông báo từ dịch vụ Thêm vào đó, người dùng có thể tham gia các nhóm cùng sở thích trong cùng nới làm việc hay trường học, và phân loại bạn bè của họ thành các danh sách khác nhau như “bạn làm việc” hay
Trang 6“bạn thân” Tháng 5 năm 2005, quỹ Accel Partners đã đầu tư 12.7 triệu đô la Mỹ vào Facebook và Jim Breyer cũng đổ thêm vào đó 1 triệu đô la Vào tháng giêng năm 2009, trang web Compete.com đã xếp hạng Facebook là dịch vụ mạng xã hội được ưa chuộng nhất trên toàn thế giới về số người dung tích cực Hãng Entertainment Weekly đã đưa trang web này vào danh sách trang web tốt nhất của thập kỷ Facebook đặt trụ sở tại Menlo Park, bang California
Hình 1 Sự phát triển về người sử dụng của Facebook
Khả năng phổ biến rộng khắp của facebook thật sự đáng kinh ngạc Ngay từ tháng hai
2012, Facebook có trên 845 triệu người dùng (nhiều hơn dân số Châu Âu,) họ sử dụng hơn 9.7 tỉ phút mỗi ngày (Facebook, 2012) Người dùng chia sẻ 4 tỉ nội dung nhỏ mỗi ngày, cùng với uploads 250 triệu bức ảnh, và Facebook hiện tại tích hợp với khoảng trên
7 triệu trang web và ứng dụng (Facebook, 2012; Tsotsis, 2011) Tháng 3 năm 2010, Facebook vượt qua Google trở thành website được truy cập nhiều nhất trên toàn nước
Mỹ, chiếm khoảng 7.07% toàn bộ lưu lượng mạng của Mỹ (Dougherty, 2010) Đồng thời,
sự lấn chiếm của facebook cũng mở rộng ra ngoài lãnh thổ nước Mỹ (Facebook, 2012) Mặc dù chỉ có khoảng 300 nhân công trên toàn thế giới nhưng Facebook hiện trị giá khoảng 100 tỉ đô la Mỹ (Stutzman, F ; Kramer-Duffield, J, 2010) Một cách ngắn gọn, từ khi thành lập vào tháng 2 năm 2004, Facebook đã trở thành một thành sự công rực rỡ bởi tạo lập nên một tên miền mới cho hàng triệu tương tác trong xã hội mỗi ngày Sự phát triển mạnh mẽ của một không gian xã hội mới này vốn đã rất hấp dẫn, tuy nhiên nó còn mang đến cho các tổ chức, doanh nghiệp, các nhà khoa học những cơ hội mà trước đây chưa từng có như thu thập quan điểm, nghiên cứu về xã hội học, giám sát hành vi cá nhân
… Đồng nó cũng mang lại nhiều rủi ro về chính trị và xã hội
Trang 7Mặc dù đã có những thành công ngoài sức tưởng tượng, nhưng sự phát triển của Facebook vẫn chưa cho thấy những dấu hiệu chững lại Với sự mở rộng toàn cầu cũng như thu hút hầu hết các lứa tuổi, Facebook khởi thủy tại Mỹ nhưng hiện nay hơn 80% of current người dùng lại sống ngoài nước Mỹ, và phần lớn sự phát triển quốc tế, với khoảng trên 70 ngôn ngữ (Facebook, 2012) Cùng với sự phát triển toàn cầu về đa dạng người dùng, thì lứa tuổi cũng đã có sự thay đổi Hiện tại, lứa tuổi trên 34 đang có sự phát triển nhanh nhất
Hình 2 Tốc độ tăng trưởng và cơ cấu về tuổi người dùng Facebook
1.3 Facebook ở Việt Nam
Facebook là mạng xã hội phổ biến nhất ở Việt Nam về lượng truy cập cũng như
người dùng (Alexa, 2013; Soha, 2013), mặc dù việc truy cập Facebook từ Việt nam không phải hoàn toàn dễ dàng Tính đến tháng 8/2013, tại Việt Nam đã có 19.6 triệu người dùng
sử dụng Facebook, chiếm 21.42% dân số và chiếm 71.4% người sử dụng Internet (
Socialbakers & SocialTimes.Me, 2013 ) Có thể nói Facebook vẫn đang phát triển mạnh tại Việt Nam: chỉ sau gần 1 năm, tổng lượng người dùng Facebook đã tăng gấp hơn 2 lần Quay lại thời điểm cách đây gần 1 năm, thống kê nghiên cứu từ WeAreSocial về thị
trường Internet Việt Nam cho biết, tính đến tháng 10/2012, với 8,5 triệu thành viên,
Facebook đã vượt qua Zing Me (8,2 triệu thành viên) để trở thành mạng xã hội có nhiều người dùng nhất Việt Nam Tính trên toàn thế giới, Việt Nam là quốc gia mà Facebook có thị phần tăng trưởng nhanh nhất, với tốc độ 146% trong 6 tháng (từ tháng 5 - 10/2012), trung bình cứ 3 giây thì Facebook có 1 người dùng Việt Nam mới
Hiện tại, nhóm tuổi từ 18-24 là phổ biến nhất trên Facebook chiếm 46.5%, tiếp đến là nhóm tuổi từ 24-34 chiếm 26.6% (Socialbakers, 2013) Như vậy có thể nói người dùng Facebook nước ta có độ tuổi khá trẻ so với trung bình trung thế giới, điều này càng làm cho các biện pháp quản lí trở nên cấp thiết Về giới tính cũng có những khác biệt với phân
Trang 8bố người dùng trên thế giới Người dùng Facebook ở Việt nam là nam giới chiếm 55.8%,
trong khi đó nữ giới chiếm 44.2%
Hình 3 Tỉ lệ về độ tuổi và giới tính của người dùng facebook Việt Nam
Trang 9CHƯƠNG 2 KIẾN TRÚC MẠNG XÃ HỘI FACEBOOK
Như đã trình bày ở trên, Facebook là một trang mạng xã hội, nó cho phép người dùng đăng kí và sử dụng qua các phân mềm ứng dụng mà phổ biến nhất là giao diện web Mỗi
cá nhân sẽ có một tài khoản và sử dụng các cấu trúc chính Ngoài ra, người dùng có thể
sử dụng rất nhiều các ứng dụng và đặc tính chung khác nhằm tương tác với nhiều người
dùng khác trong mạng xã hội này
Hình 4 Kiến trúc Facebook
2.1 Cấu trúc chính
Mỗi người dùng được sở hữu một trang cá nhân riêng biệt, nó bao gồm từ các thông tin riêng tư mà người dùng khai báo với Facebook cùng với các thông tin người dùng tạo nên trong suốt quá trình sử dụng Trong quá trình sử dụng, người dùng có thể đăng các bài viết lên tường (wall) của mình, kết bạn, tham gia các nhóm, các trang cộng đồng …
Trang 10Bạn bè: Hai người dùng có thể trở thành bạn bè khi một người gửi yêu cầu kết bạn và
được người còn lại chấp nhận Người dùng có quyền xem được nhiều thông tin từ bạn của mình Người dùng cũng có thể xóa bỏ mối quan hệ bạn bè với một người khác mà người dùng đó không hề được thông báo Tổng số người bạn của một người dùng không vượt quá 5000
Tường: Tường ban đầu chính là trang thông tin cá nhân của người dùng Sau đó
Facebook quyết định hiển thị không gian này, cho phép việc đăng tin nhắn, các ghi chú nhỏ để người dùng có thể nhìn thấy
News feed: Đây là trang người dùng nhìn thấy khi vừa đăng nhập vào, nó hiển thị hoạt
động của những người bạn của người dùng Thông tin được chú ý trên News Feed bao gồm thay đổi thông tin cá nhân, các sự kiện sắp xảy ra, sinh nhật, giữa nhiều thông tin khác
Thích: Đây là chức năng được Facebook mô tả là “Đưa ra đánh giá tích cực và kết nối
bạn với những điều bạn quan tâm”, người dùng có thể thích các dòng trạng thái, ảnh, đường dẫn được chia sẻ bởi bạn bè của mình cũng như các quảng cáo bằng cách bấm vào nút “Like”
Trang page: Người dùng Facebook có thể tạo các trang pages cho phép người hâm mộ
của một cá nhân, tổ chức, sản phẩm có thể “like” hoặc theo dõi các bài viết trong trang page này và nhận các cập nhật từ các hoạt động trên trang đó Trang page giao diện và hành vi khá giống với các trang cá nhân Trong khi cá nhân bị hạn chế số lượng bạn bè dưới 5000 thì các trang page không bị giới hạn người tham gia
Nhóm: Các nhóm Facebook có thể được tạo bởi một người dùng đơn lẻ Các nhóm cho
phép thành viên đăng các bài viết như đường link, câu hỏi, sự kiện, văn bản và đưa ra ý kiến về chúng Người dùng Facebook không thể lập quá 300 nhóm Các nhóm được sử dụng để cộng tác, thảo luận, tổ chức sự kiện và rất nhiều các hoạt động khác Đây là cách cho phép một số lượng người dùng online để chia sẻ thông tin và thảo luận về một chủ đề nhất định Một nhóm có thể được cài đặt ở 3 chế độ riêng tư: Công khai, nhóm đóng và nhóm bí mật
2.2 Các ứng dụng
Sự kiện: Các sự kiện trên Facebook là cách để các thành viên thông báo cho bạn bè của
mình về một sự kiện sắp xảy ra trong cộng đồng và để tổ chức việc tụ tập Một sự kiện sẽ yêu cầu các thông tin gồm có: tên, cộng đồng, người chủ tổ chức, loại sự kiện, thời gian bắt đầu, địa điểm, danh sách các thành viên Các sự kiện này có thể là công khai hoặc riêng tư
Trang 11Địa điểm: Đây là chức năng cho phép người dùng đăng lên Facebook qua điện thoại,
nhằm cho bạn bè biết về vị trí hiện tại của mình
Ảnh: Một trong những ứng dụng phổ biến nhất trên facebook, nơi người dùng có thể
đăng album ảnh, đánh dấu người trong ảnh với công nghệ nhận dạng khuôn mặt và đăng bình luận vào các ảnh này
2.3 Đặc tính chung
Biểu tượng cảm xúc: Facebook hỗ trợ rất nhiều các biểu tượng cảm xúc trong các tin
nhắn và bình luận của người dùng
Lắng nghe: Chức năng này cho phép người dùng nghe nhạc và thảo luận qua Facebook
Chat cùng với bạn bè cùng lúc Nhiều nhất 50 người có thể lắng nghe cùng một bài hát và
có một người đóng vai trò như DJ
Theo dõi: Chức năng này cho phép những người dùng theo dõi các cập nhật công khai
Những người này thường là những người có tầm ảnh hưởng trong mạng lưới xã hội trực tuyến
Trang 12CHƯƠNG 3 CƠ HỘI PHÂN TÍCH DỮ LIỆU VÀ THÔNG TIN TỪ FACEBOOK
Với hàng trăm triệu người dùng, Facebook mang đến cơ hội lớn cho phân tích và nghiên cứu dữ liệu Các loại dữ liệu có thể khai thác từ facebook bao gồm: Dữ liệu quan hệ, dữ liệu cá nhân, dữ liệu cộng đồng
3.1 Dữ liệu quan hệ
Facebook cho ta những dấu hiệu nhằm tìm ra những cộng đồng trong xã hội Cộng đồng là một nhóm các cá nhân trên mạng, tập các thực thể có những tính chất tương tự nhau và cùng đóng một vai trò trong mạng xã hội (Simmel, 1964) Mạng xã hội là những
ví dụ mô hình của đồ thị các cộng đồng Các cộng đồng trên thực tế đề cập đến một bối cảnh xã hội xác định Con người có xu hướng kết hợp lại với nhau, hình thành các nhóm trong cùng một môi trường làm việc, gia đình, bạn bè…
Hình 5 Các mối quan hệ của người dùng
Facebook tiết lộ rằng trung bình mỗi người dùng có 130 người bạn, đóng góp 90 mẩu thông tin mỗi tháng, liên kết với trung bình 80 trang cộng đồng, nhóm và sự kiện (Facebook, 2012)
Trang 13Hình 6 Ví dụ về trực quan hóa một số cộng đồng
Trong xã hội hiện nay xuất hiện nhiều nhóm hoặc tổ chức với kích cỡ khác nhau, ví
dụ như gia đình, nhóm các bạn bè hoặc đồng nghiệp, thành phố, quốc gia… Sự phát triển của Facebook cũng sinh ra nhiều nhóm ảo trên Web, hay còn được gọi là các cộng đồng trực tuyến Các cộng đồng xã hội đã được nghiên cứu trong một thời gian rất dài và
thường xuyên xuất hiện trong nhiều các hệ thống mạng trong sinh học, khoa học máy tính, công nghệ, chính trị, kinh tế,…
Việc phát hiện được các cộng đồng mang đến nhiều lợi ích kinh tế và xã hội Trong một cộng đồng nhất định thường chia sẻ những quan điểm, sở thích hay nhiều những đặc điểm khác Biết được điều này sẽ mang lại nhiều ứng dụng trong kinh tế Ngoài ra, việc xác định rõ các môđun và ranh giới giữa các cộng đồng tạo điều kiện cho công việc quản
lí
Ngoài ra, việc nghiên cứu và phân tích các cộng đồng cho phép ta xác định vai trò của các cá nhân trong cộng đồng này Các điểm quan trọng, là trung tâm của mạng có vai trò đại diện và chi phối đến toàn bộ các cá thể trong mạng Điểm trung tâm có nhiều cạnh kết nối đến, giữ vai trò quan trọng trong việc điều khiển và giữ ổn định cộng đồng Mặc khác, các đỉnh ở vùng biên có thể giữ vai trò quan trọng trong việc dẫn dắt mối quan hệ và giao lưu giữa các cụm khác nhau trong mạng Tìm hiểu được các vị trí như thế mang một ý nghĩa rất lớn
3.2 Dữ liệu cá nhân
Các thông tin về sở thích, quan điểm cá nhân hay thói quen, lối sống có thể dễ dàng nắm bắt thông qua hoạt động của người dùng trên facebook Đối với các tài khoản công
Trang 14khai, rất nhiều dạng dữ liệu và thông tin có thể được thu thập Các bản ghi về các sự kiện người dùng đăng nhập, thời gian sử dụng cho ta thông tin về thói quen của người dùng Quá trình phân tích các dòng trạng thái (status) do người dùng đăng tải tiết lộ thông tin thú vị về người dùng, tuy nhiên việc này đòi hỏi công nghệ về xử lí ngôn ngữ tự nhiên Người dùng facebook thường đăng tải lên các trang cá nhân để chia sẻ về những sự kiện
họ gặp phải trong ngày, cảm xúc, bày tỏ quan điểm về một vấn đề hay đơn giản là chia sẻ những bức ảnh hay bộ phim ưa thích Một lượng dữ liệu đủ lớn các dòng trạng thái cho phép xác định các nội dung, chủ đề mà người dùng thường bàn luận, hoặc khi kết hợp với các trang, nhóm mà người dùng tham gia có thể xác định sở thích của họ Đó là một trong những bài toán cơ bản của trích xuất thông tin trong khai phá dữ liệu Ngoài ra, khai phá quan điểm cho ta quan điểm của người dùng về vấn đề hay sự kiện mà người dùng này đang bàn luận
Hình 7 Ví dụ về các thông tin của người dùng có thể thu thập
Theo khảo sát của chúng tôi trên gần 4000 tài khoản người dùng Facebook Việt Nam, có đến 97.64% các tài khoản là công khai, trung bình các tài khoản trên đăng 5 bài một ngày Các hoạt động thích/bình luận khoảng 13 lần trên ngày, và trung bình độ tuổi của họ là 22
Khi người dùng đăng kí tài khoản với Facebook, họ phải thực hiện việc hoàn thiện thông tin cá nhân như độ tuổi, nơi ở, ngôn ngữ … Việc này cũng cho phép thu thập thông tin người dùng dễ dàng hơn
3.3 Dữ liệu cộng đồng
Như đã trình bày ở trên, việc phát triển mạnh của Facebook chứa đựng những lợi ích cũng như rủi ro và việc giám sát cộng đồng là một vấn đề cần thiết nhằm tận dụng lợi ích do nó mang lại cũng như giảm thiểu những rủi ro Các vấn đề thường được quan tâm trong bài toán liên quan đến cộng đồng ảo là phân tích chủ đề quan tâm của cộng đồng, phát hiện
những sự kiện trong mạng và phát hiện vai trò các thành viên trong mạng
Trang 15Hình 8 Kết quả thực nghiệm phát hiện sự kiện trong cộng đồng
Việc phân tích chủ đề nhóm được thực hiện thông qua giám sát và phân tích các bài viết, bình luận chung của nhóm Mỗi một cộng đồng thường chia sẻ một đề tài hay lĩnh vực quan tâm nhất định và các bài viết cũng như bình luận đều liên quan đến những lĩnh vực này Khi một cộng đồng là lớn, cần có những phương pháp, hệ thống tự động phân tích
được dữ liệu lớn và chính xác
Trang 16CHƯƠNG 4 CÔNG NGHỆ THU THẬP DỮ LIỆU
4.1 Dữ liệu có thể thu thập được trên Facebook
Theo một thống kê gần đây, Facebook hiện tại có khoảng 1.2 tỷ tài khoản hoạt động Việc lưu trữ và quản lý dữ liệu của người dùng là một vấn đề được quan tâm đặc biệt không chỉ hiện tại mà còn từ khi mạng xã hội này ra đời Giá trị của nguồn dữ liệu này là không thể phủ nhận Nhiều chính sách về bảo mật thông tin đã được áp dụng nhằm đảm bảo những thông tin nhạy cảm, cá nhân không được tiết lộ công khai khi người dùng tham gia vào mạng xã hội [FOP09][ MFB11] Tuy nhiên, trên Facebook cũng tồn tại nhiều dữ liệu mà người dùng vẫn có thể tiếp cận với chúng một cách hợp pháp và có giới hạn thông qua các API mà Facebook cung cấp Nói cách khác, chúng là những dữ liệu có thể thu thập được bao gồm các dữ liệu công khai hoặc mặc định là công khai
4.2 Dữ liệu công khai (public data)
Dữ liệu công khai là những dữ liệu về người dùng, nhóm, trang cộng đồng, sự kiện … được cài đặt ở chế độ công khai (public hay open) Dạng dữ liệu này có thể được xem bởi tất cả mọi người trong mạng xã hội và có thể không khó khăn sử dụng các API để thu thập chúng Trên Facebook có ba loại dữ liệu công khai phổ biến nhất bao gồm các tài khoản công khai (public profile), các trang cộng đồng (page) và các nhóm mở (open group) Theo một thống kê gần đây có khoảng hơn 600 nghìn tài khoản người dùng Facebook cài đặt ở chế độ công khai (public)1, trong khi đó năm 2010 số lượng trang cộng đồng (page) là 1.9 tỉ, số lượng nhóm (group) là 620 triệu2
1 http://ansonalex.com/infographics/facebook-stalking-statistics-2012-infographic/
2 http://allfacebook.com/google-now-indexes-620-million-facebook-groups_b10520
Trang 17Hình 9 Trang cộng đồng của nhãn hiệu Coca Cola
Tuy nhiên việc thu thập dữ liệu gặp phải một khó khăn khi Facebook chỉ cho phép lấy các
dữ liệu có giới hạn theo quyền hạn (permission) và chỉ trong khoảng thời gian hai tuần gần nhất
4.3 Dữ liệu mặc định là công khai
Facebook cho phép người dùng cài đặt chế độ bảo mật cho các thông tin của mình Người dùng tự quyết định chia sẻ, không chia sẻ hay chia sẻ có giới hạn những dữ liệu các nhân của mình, ví dụ như các tài khoản đóng (private profile) hay nhóm đóng (private group) Tuy nhiên có một số dạng thông tin luôn mặc định là công khai Chúng sẽ được hiển thị giống như các thông tin công khai khác của người dùng thiết lập:
• Tài khoản đóng (private profile)
Trang 18o Danh sách thành viên (Member list)
Hình 10 Một tài khoản cá nhân trên Facebook
Ngoài ra, trong một số trường hợp các tài khoản chỉ chia sẻ thông tin với bạn bè trong danh sách Các dữ liệu không công khai trước khi kết bạn sẽ trở thành công khai sau khi kết bạn với tài khoản đó Đây là phương pháp chính thường được sử dụng khi thu thập dữ liệu từ các tài khoản đóng trên Facebook
4.4 Cách thức thu thập dữ liệu từ Facebook
Thu thập dữ liệu là một vấn đề đặt ra đối với các hệ thống giám sát nói chung và hệ thống giám sát mạng xã hội nói riêng Cơ chế quản lý dữ liệu của các mạng xã hội tương đối phức tạp, chúng ta không thể áp dụng các cách thu thập dữ liệu phổ biến đối với các trang web cho việc thu thập dữ liệu từ mạng xã hội Trong phần này, báo cáo trình bày về cách cách thức thu thập dữ liệu từ mạng xã hội Facebook thông qua các giao thực được cấp phép bởi chính nhà quản lý mạng xã hội
Giới thiệu về Facebook API
Facebook cung cấp một số các API được sử dụng trong các trường hợp khác nhau Để kết nối vào các API này, người phát triển ứng dụng phải sử dụng các phương thức cho trước trong thư viện SDK được cung cấp Có 10 thư viện API gồm:
• Graph API là một API dựa trên giao thức HTTP đơn giản Nó cho phép truy cập tới
đồ thị mạng xã hội Facebook, các đối tượng được biểu diễn cùng kiểu trong đồ thị
và các liên kết giữa chúng Hầu hết các API khác của Facebook đều dựa trên API này
Trang 19• Open Graph API cho phép các ứng dụng thể hiện nội dung của nó trên Facebook thông qua một API có cấu trúc và phân loại rõ ràng
• Dialogs cung cấp các dạng hộp thoại cho Facebook Login, đăng bài trên trang cá nhân của một tài khoản hoặc gửi các yêu cầu kết bạn
• Chat cung cấp dịch vụ cho phép trang web, máy tính hay các sản phẩm tán gẫu trên điện thoại của bạn tương tác với Facebook Chat Các ứng dụng kết nối với Facebook Chat thông qua dịch vụ Jabber XMPP
• Ads API cho phép bạn xây dựng các ứng dụng một cách tùy chỉnh với các công cụ như Facebook Ads Manager và Power Editor
• FQL hay Facebook Query Language cho phép bạn sử dụng các câu lệnh SQL để truy vấn tới dữ liệu được biểu diễn bởi Graph API Nó cung cấp một số tính năng nâng cao mà không có trong Graph API như việc sử dụng các kết quả của một truy vấn này trong truy vấn khác
• Localization and translation hỗ trợ các ứng dụng trong việc định vị và dịch từ ngôn ngữ này qua ngôn ngữ khác
• Atlas API cung cấp cho nhà phát triển ứng dụng những phương thức để kết nối vào dịch vụ web về Atlas
• Public Feed API cho phép người dùng đọc các bình luận công khai khi chúng được đăng trên Facebook
• Keyword Insights API biểu diễn một tầng phân tích phía trên của toàn bộ các bài viết trên Facebook; cho phép bạn truy vấn tổng hợp, hiểu biết sâu hơn về người dùng có liên quan đến một thuật ngữ nhất định
Facebook cung cấp 3 cách khác nhau để truy cập dữ liệu người dùng, tùy thuộc vào yêu
cầu sử dụng [LFAD08] [CFSAP11]
• Cách thứ nhất là thông qua FBML Cách này được sử dụng chủ yếu cho việc hiển thị dữ liệu người dùng trong ứng dụng FBML cung cấp một tập các tag, cho phép truyền vào ID của người dùng để hiển thị các dữ liệu liên quan đến người dùng đó FBML được xử lý trực tiếp bởi Facebook sau khi đoạn mã PHP script được thực thi xong, và đưa ra mã FBML tới trình khách (client) Vì vậy phải sử dụng FQL hoặc Facebook REST API trong trường hợp muốn tính toán dữ liệu này trong đoạn mã PHP script