Các tính cách có thể có của người dùng là một số lượng hữu hạn và đã được nghiên cứu nhiều trong lĩnh vực tâm lý học, trong đó có một số mô hình được áp dụng rộng rãi.. Do đó luận văn k
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM
Cán bộ hướng dẫn khoa học : PGS TS Cao Hoàng Trụ
Cán bộ chấm nhận xét 1 : TS.Nguyễn Quốc Minh
Cán bộ chấm nhận xét 2 : TS Võ Thị Ngọc Châu
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 24 tháng 07 năm 2013 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1 Phạm Trần Vũ, Tiến Sĩ
2 Lê Thanh Vân, Tiến Sĩ
3 Nguyễn Quốc Minh, Tiến Sĩ
4 Võ Thị Ngọc Châu, Tiến Sĩ
5 Cao Hoàng Trụ, Phó Giáo Sư, Tiến Sĩ Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA…………
Trang 3-
-oOo -NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: PHAN THỊ HƯƠNG MSHV: 11070452
Ngày, tháng, năm sinh: 03/02/1986 Nơi sinh: Nghệ An
Chuyên ngành: Khoa học Máy tính Mã số: 604801
I TÊN ĐỀ TÀI: Khám Phá Tính Cách Người Dùng Dựa Trên Thông Tin Di Động
II NHIỆM VỤ VÀ NỘI DUNG:
III NGÀY GIAO NHIỆM VỤ: 21/01/2013
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 21/06/2013
V CÁN BỘ HƯỚNG DẪN: PGS TS Cao Hoàng Trụ
Tp HCM, ngày tháng năm 20
CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO Cao Hoàng Trụ TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
Trang 4LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành và sâu sắc đến PGS TS Cao Hoàng Trụ, người thầy đã tận tình hướng dẫn cho tôi hoàn thành tốt luận văn này
Xin chân thành biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý thầy
cô tại trường Đại học Bách khoa, đặc biệt là các thầy cô trong khoa Khoa học và
Kỹ thuật Máy tính
Xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, đến những người luôn sát cánh, động viên, giúp đỡ và tạo mọi điều kiện tốt nhất cho việc học tập, nghiên cứu của tôi
Trang 5TÓM TẮT
Tính cách là một nét đặc trưng của con người, được phản ánh bởi hành vi và
có khả năng chi phối các hành vi của họ Việc máy tính hiểu được tính cách con người ngày càng có ý nghĩa quan trọng và thiết thực trong ngành khoa học máy tính Các phương pháp tiếp cận để xác định tính cách đều dựa trên việc phân tích các hành vi của con người Tuy nhiên các công trình nghiên cứu đã thực hiện chỉ xem xét một người có mỗi một tính cách trong không gian tính cách là nhiều hay ít hoặc chỉ là xác định một tính cách đặc trưng nhất của con người Rõ ràng các tính cách của con người không tách rời nhau và mỗi người có nhiều hơn một tính cách, hơn nữa các tính cách này lại nhiều ít khác nhau Luận văn này đề xuất một phương pháp nhằm xác định các tính cách của con người và mức độ nhiều ít của các tính
cách đó bằng phương pháp phân loại nhị phân và phương pháp Label ranking by pairwise preference Các kết quả thực nghiệm được đánh giá trên tập dữ liệu Friends and Family cho kết quả khá tốt
ABSTRACT
Personality is a human characteristic, reflected by their behavior and had the ability to influence their behavior The computer can understand human personality has more important and practical significance in computer science Approaches and Methods in determining human personality are based on their behavior analysis However, the previous research of this area have just considered whether a person has more or less ‘A’ characteristic which is one of all available personality space or have just determined the most characteristic personality of human Obviously, the human personalities are inseparable and each person has more than one characteristic, moreover, the priority of these personalities is not the same This thesis proposes a method to determine the human personalities and the ranking of
these personalities It is combination of binary classification and Label ranking by pair-wise preference method The experimental results are evaluated on a Friends and Family dataset given the really good results.
Trang 6LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các công việc trình bày trong luận văn là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác
Ngày……….tháng…………năm…………
Phan Thị Hương
Trang 7MỤC LỤC
MỤC LỤC 4
DANH MỤC HÌNH 6
DANH MỤC BẢNG 7
1 MỞ ĐẦU 8
1.1 Xác định vấn đề 8
1.2 Mục tiêu 9
1.3 Phạm vi 9
2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 10
2.1 Mô hình tính cách con người 10
2.2 Các ứng dụng của mô hình 5 nhân tố Big-Five 12
2.3 Các mô hình dự đoán tính cách người dùng 13
2.4 Các phương pháp dự đoán tính cách của người dùng 14
3 CƠ SỞ LÝ THUYẾT 16
3.1 Độ tương quan giữa hành vi sử dụng điện thoại và tính cách con người 16
3.2 Phương pháp Label ranking by Pairwise Preference Learning 17
3.3 Độ đo Spearman và Kendall trong việc đánh giá ranking 20
3.4 SVM- Support Vector Machine 22
4 PHƯƠNG PHÁP ĐỀ XUẤT 29
4.1 Tổng quan 29
4.2 Sử dụng phương pháp phân loại nhị phân xác định tính cách người dùng 30 4.3 Xây dựng mô hình Pairwise Preference Learning với các loại tính cách 33
5 HIỆN THỰC PHƯƠNG PHÁP 35
5.1 Tập dữ liệu 35
5.2 Phân tích các thuộc tính hành vi 36
5.3 Dự đoán tính cách của người dùng 38
6 ĐÁNH GIÁ PHƯƠNG PHÁP 43
Trang 86.1 Phương pháp đánh giá 43
6.2 Kết quả 44
7 TỔNG KẾT 49
7.1 Kết quả đạt được 49
7.2 Hướng phát triển 49
TÀI LIỆU THAM KHẢO 50
PHỤ LỤC 52
Trang 9DANH MỤC HÌNH
Hình 1: Năm nhân tố biểu diễn tính cách của con người 12
Hình 2: Giản đồ minh họa việc chuyển đổi từ tập dữ liệu gốc thành các tập dữ liệu con cho việc phân loại nhị phân 19
Hình 3: Minh họa khoảng cách Kendall’s Distance 21
Trang 10DANH MỤC BẢNG
Bảng 1: Ví dụ so sánh nhị phân giữa các cặp tính cách 34
Bảng 2: Độ tương quan Pearson giữa các thuộc tính và các tính cách 38
Bảng 3: Giá trị khảo sát tính cách của người dùng 39
Bảng 4: Kích thước tập dữ liệu sẽ hiện thực trong mỗi vòng lặp 40
Bảng 5: Độ chính xác khi sử dụng thuật toán SVM với hàm kernel RBF 44
Bảng 6: Độ chính xác dự đoán trên tập dữ liệu 20 người, hàm kernel RBF 44
Bảng 7: Độ chính xác khi sử dụng thuật toán SVM và hàm polynomial kernel bậc 3 45
Bảng 8: Độ chính xác dự đoán trên tập dữ liệu 20 người, hàm kernel polynomial bậc 3 45
Bảng 9: Độ tương quan Spearman và Kendall của phép xếp hạng tính cách 46
Bảng 10: Độ tương quan Spearman và Kendall của phép xếp hạng tính cách với 20 người dùng 46
Bảng 11: Độ chính xác của các phép phân loại khi thực hiện Pairwise preference learning 47
Bảng 12: Kết quả hiện thực phương pháp của một số người dùng 47
Trang 111 MỞ ĐẦU
1.1 Xác định vấn đề
Tính cách là một đặc điểm quan trọng điều chỉnh hành vi của con người và
sự tương tác của con người đối với thế giới xung quanh Vì thế nếu xác định được tính cách của con người thì có thể biết được các xu hướng hành vi mà con người sẽ thực hiện Các nghiên cứu trong lĩnh vực tâm lý học cho thấy các hành vi, thói quen của con người ít thay đổi trong một thời gian dài, do đó với một ứng dụng cụ thể hoặc trong một phạm vi nào đó có thể dựa vào các hành vi trong quá khứ để dự đoán các hành vi trong tương lai, tuy nhiên với các ứng dụng khác nhau, trong các phạm vi khác nhau, có thể nói tính cách của con người là một mẫu số chung Do đó nghiên cứu để xác định tính cách của con người đang nhận được sự quan tâm của các nhà khoa học trong thời gian gần đây
Một điều hữu ích trong thời đại công nghệ thông tin ngày nay đó là thông tin
và các hoạt động của con người ít nhiều được ghi dấu thông qua các hoạt động thường ngày trên internet, các mạng xã hội và đặc biệt là các thiết bị di động J Golbeck et al [5] dự đoán tính cách của người dùng trong mạng xã hội Twitter, Alvaro Ortigosa et al trong [6] tìm cách dự đoán tính cách của người dùng trên Facebook bằng cách phân tích các thông tin mà người dùng chia sẻ hay phân tích các đoạn văn bản mà người dùng để lại thông qua các bình luận… Một hướng khác
đi vào phân tích các thông tin dựa trên các thiết bị di động như [1-4] Các thông tin
được lựa chọn phân tích cũng khá đa dạng từ actor-based đến netwok-based Các
tính cách có thể có của người dùng là một số lượng hữu hạn và đã được nghiên cứu nhiều trong lĩnh vực tâm lý học, trong đó có một số mô hình được áp dụng rộng rãi Tuy nhiên các bài toán đều đi vào việc phân tích dựa trên từng loại tính cách của người dùng Như vậy chỉ có thể biết được người dùng có những tính cách nào trong không gian tính cách, mà chưa biết được người dùng đó có tính cách nào nổi trội nhất, tính cách nào ít nổi trội nhất Trong thực tế, có thể nói nhanh một người có tính cách nào có thể giúp người khác có nhận xét sơ bộ về một con người, có thể
Trang 12nắm bắt đặc điểm tâm lý của người đó thông qua xu hướng tâm lý của nhóm người
có chung tính cách như vậy, và từ đó có những ứng xử thích hợp Nhận biết được nhu cầu đó, luận văn này tập trung vào nghiên cứu xác định một xếp hạng theo mức
độ nổi trội của các tính cách của người dùng thiết bị di động
1.2 Mục tiêu
Mục tiêu của luận văn là xây dựng một phương pháp để xác định một xếp hạng theo mức độ nổi trội các tính cách của người dùng Ý tưởng chính là sử dụng
phương pháp Label ranking by Pairwise Preference Learning Theo đó mỗi tính
cách mà người dùng có được xem như một label (nhãn) Bài toán tìm cách xác định với mỗi người dùng thì người dùng đó có khả năng có tính cách nào nhiều nhất, tiếp theo là tính cách nào Hay nói cách khác là xác định một thứ tự trên các tính cách
mà người dùng có
1.3 Phạm vi
Để xác định một thứ tự ưu tiên các tính cách mà người dùng có thì trước hết phải xem xét người dùng đó có những tính cách nào Vấn đề này các công trình nghiên cứu trước đây [1-4] đã làm khá tốt với các cách khai thác thuộc tính thông qua hành vi sử dụng điện thoại hay dựa trên các mối quan hệ mà người dùng điện thoại cho thấy Do đó luận văn không nghiên cứu sâu thêm về vấn đề này mà sẽ hiện thực lại một trong các phương pháp này để lấy kết quả làm cơ sở thực hiện bước kế tiếp là xác định một thứ tự trên các tính cách của người dùng
Các tính cách của mỗi người dùng có thể có được xác định thông qua một số phép phân loại nhị phân như trong [1], do đó các tính cách của mỗi người là khác nhau Vì số lượng tính cách của mỗi người dùng có khác nhau như vậy nên cần phải
có một phương pháp thích hợp để làm việc với tập dữ liệu huấn luyện không đồng nhất đó
Trang 132 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
2.1 Mô hình tính cách con người
Tính cách (personality) được định nghĩa là mô hình hành vi, suy nghĩ và cảm
xúc thể hiện bởi một cá nhân, có đặc điểm là riêng biệt và tồn tại lâu bền Tính cách
phân biệt cá thể này với cá thể khác và có tầm ảnh hưởng lớn đến hành vi và suy nghĩ của con người, từ đó tác động đến công việc và các mối quan hệ xã hội Vì thế,
tính cách là một chủ đề quan trọng trong nghiên cứu Tâm lí học
Các công trình nghiên cứu trong lĩnh vực tâm lý học cho thấy, có hai mô hình tính cách được áp dụng rộng rãi đó là mô hình bốn nhân tố Myers-Briggs và mô hình năm nhân tố Big-Five [9]
Mô hình Myers-Briggs là phương pháp dùng để phân loại tính cách con người dựa vào 4 tiêu chí:
- Xu hướng tự nhiên: Extraversion (Hướng ngoại) / Introversion (Hướng nội)
- Tìm hiểu và nhận thức thế giới: Sensing (Giác quan) / Intuition (Trực giác)
- Quyết định và lựa chọn: Thinking (Lý trí) / Feeling (Tình cảm)
- Cách thức hành động: Judging (Nguyên tắc) / Perceiving (Linh hoạt)
Với 4 tiêu chí này, người ta có thể đưa ra 16 loại tính cách khác nhau của con người Trong khi đó Mô hình Big-Five chia tính cách con người thành 05 mặt chủ yếu như sau:
• Openness to Experience (Sẵn sàng trải nghiệm): Mặt tính cách thể
hiện xu hướng tìm kiếm và tận hưởng những trải nghiệm và ý tưởng mới, sau đây gọi là tính cách O Những người có điểm “O” thấp thường sống thực tế, đơn giản,
có khá ít sở thích Trong khi đó, những người có điểm “O” cao thường là kiểu người sáng tạo, hóm hỉnh, muốn tìm hiểu những điều mới mẻ, và có sở thích đa dạng
Trang 14• Conscientiousness (Tận tâm): Mặt tính cách thể hiện tính kỉ luật và
sự quyết tâm đạt được kết quả, sau đây gọi là tính cách C Những người có điểm
“C” thấp thường sống bất quy tắc, hành động theo quán tính; và khó để người khác trông cậy vào họ Trong khi đó, những người có điểm “C” cao thường là những người sống quy tắc, cẩn thận và có trách nhiệm
• Extraversion (Hướng ngoại): Mặt tính cách thể hiện xu hướng tìm
kiếm sự kích thích và nhiều mối quan hệ xã hội, sau đây gọi là tính cách E Những người có điểm “E” thấp thường là những người nhút nhát, khá kín đáo và cẩn trọng; trong khi những người có điểm “E” cao thường là nói nhiều, thân thiện, và năng động
• Agreeableness (Dễ chịu): Mặt tính cách thể hiện xu hướng động lòng
trắc ẩn trước người khác, sau đây gọi là tính cách A Những người có điểm “A” thấp thường là những người khá hoài nghi, khó chịu, và không sẵn sàng hợp tác; trong khi những người có điểm “A” cao thường là những người tốt bụng, dễ tin tưởng và giúp đỡ người khác
• Neuroticism (Tâm lí bất ổn): Mặt tính cách thể hiện xu hướng trải
nghiệm những cảm xúc tiêu cực, sau đây gọi là tính cách N Những người có điểm
“N” thấp là những người điềm đạm, bình tĩnh; trong khi những người có điểm “N” cao là những người hay nhạy cảm, lo lắng, và đôi khi trở nên hoang tưởng sinh lý (hypochondriacal)
Được hình thành bởi Tupes và Christal [9] như những đặc điểm cơ bản nổi lên từ phân tích các bài kiểm tra tính cách McCrae và Costa [11] và John [12] tiếp tục nghiên cứu trên năm yếu tố và mô hình nghiên cứu này luôn tìm thấy tính tổng quát trên tuổi tác, giới tính, và các nền văn hóa Nghiên cứu bổ sung [10], [13], [12], [14] đã chứng minh rằng các bài kiểm tra khác nhau, ngôn ngữ và phương pháp phân tích không làm thay đổi giá trị của mô hình Nghiên cứu sâu rộng như vậy đã dẫn đến nhiều nhà tâm lý học chấp nhận Big Five là mô hình rõ ràng thể hiện tính
cách (theo [15], [16])
Trang 15Hình 1: Năm nhân tố biểu diễn tính cách của con người
Thực tế, các nghiên cứu đều cho thấy không phải mỗi người thuộc về một
trong 5 mặt tính cách của Big Five, mà mỗi người đều có đầy đủ 5 mặt tính cách
này với các mức độ khác nhau (từ rất thấp đến rất cao) Năm mặt tính cách này sau
đây gọi là O,C,E,A,N tương ứng với năm tính cách là Openness (Sẵn sàng trải nghiệm), Conscientiousness (Tận tâm), Extraversion (Hướng ngoại), Agreeableness (Dễ chịu), Neuroticism (Tâm lý bất ổn)
2.2 Các ứng dụng của mô hình 5 nhân tố Big-Five
Nhiều công trình nghiên cứu cho thấy rằng tính cách có mối quan hệ chặt chẽ với cuộc sống của con người và các lựa chọn của con người (theo [5]) Nhiều mối quan hệ đã được nhận diện như tính cách có quan hệ mật thiết với việc lựa chọn bạn
bè trên Facebook Người có tính cách O, A, E có sự tương quan với nhau trong việc lựa chọn bạn bè Nét cá tính cũng đã được gắn liền với nhiều khía cạnh của mối quan hệ khác trong đó có việc chọn bạn đồng hành, đối tác, mức độ gắn kết và sự thành công
Trang 16Một khía cạnh khác là tính cách có mối quan hệ với sở thích Như việc tính cách có mối quan hệ với sở thích nghe nhạc, sở thích đối với vật nuôi, sở thích xem các hình ảnh
Trong lĩnh vực quảng cáo và tiếp thị, 5 nhân tố tính cách theo mô hình Five cho thấy độ chính xác cao trong việc dự đoán khách hàng sẽ lựa chọn các dòng sản phẩm truyền thống hay các dòng sản phẩm độc lập
Big-Một số nghiên cứu khác cho thấy tính cách ảnh hưởng đến hiệu quả và độ hài lòng trong công việc, cũng như sự lựa chọn nghề nghiệp và trình độ của con người Hay cũng có mối quan hệ giữa tính cách với hành vi của các nhà quản lý, mức độ tự chủ và tình trạng kinh doanh
Trong việc thiết kế hay lựa chọn giao diện của những người có tính cách khác nhau cũng có sự khác biệt Trong việc tương tác giữa con người và máy tính, hành vi xem, đọc, mua bán các sản phẩm, tin tức cũng khác nhau với các con người
có tính cách khác nhau như Nancy.W và Shervin.S đã phân tích trong [19]
2.3 Các mô hình dự đoán tính cách người dùng
Có khá nhiều công trình dự đoán tính cách người dùng trong thời gian gần đây, nhưng chung quy lại có hai mô hình chính là mô hình phân loại và mô hình lựa
chọn Các công trình này đều sử dụng mô hình 5 nhân tố tính cách Big-Five để xác
định tính cách của con người
• Mô hình phân loại
Mô hình phân loại là mô hình dựa trên các phép phân loại để xác định tính cách của con người, như trong các công trình [1-6] Trong các công trình này, các tác giả xem xét mỗi người có các loại tính cách là nhiều hay ít Tức là với mỗi loại tính cách, tác giả chọn giá trị trung bình xác định cho tính cách đó làm ngưỡng Người
có giá trị tính cách X lớn hơn ngưỡng gọi là người có tính cách X mạnh và ngược lại gọi là người có tính cách X yếu
Trang 17• Mô hình lựa chọn
Một giải pháp được đưa ra cho mô hình lựa chọn thể hiện trong [19] Ở đây các tác giả sẽ xác định một lựa chọn duy nhất trong 5 loại tính cách làm tính cách đặc
trưng của người dùng Mô hình này sử dụng một hàm gọi là utility function f(x) để
đánh giá điểm trên từng loại tính cách của người dùng x Và giá trị fi(x) nào lớn nhất thì tính cách i sẽ được lựa chọn làm tính cách đặc trưng nhất của người dùng
đó Trong [19] thì hàm chọn lựa này được xác định bằng cách dựa trên một mô hình đánh giá điểm cho các hành vi của người dùng Giá trị của hàm trên từng loại tính cách bằng tổng các điểm hành vi tương ứng với từng loại tính cách đó
2.4 Các phương pháp dự đoán tính cách của người dùng
Với mô hình lựa chọn, phương pháp được sử dụng là sử dụng một hàm đánh
giá utility function f(x) Với mỗi thể hiện x, thực hiện tính giá trị hàm với các loại
tính cách và xác định tính cách có giá trị hàm tốt nhất làm tính cách đặc trưng của x
Với mô hình phân loại, phương pháp chủ yếu là sử dụng giải thuật học máy để thực hiện phân loại Có rất nhiều giải thuật học máy đã được sử dụng trong các công trình nghiên cứu trước đây như Random Forest trong [3], Ưu điểm của
phương pháp này là thỏa mãn được thuộc tính ‘max-margin’, không cần điều chỉnh
thông số và quan trọng hơn là không gian thuộc tính không cần phải xác định rõ
như cách mà giải thuật Support Vector Machine (SVM) làm thông qua các kernels
Giải thuật Support Vector Machine cũng được sử dụng trong các công trình
nghiên cứu [1],[2], giải thuật này được đánh giá là giải thuật hoạt động hiệu quả cho các bài toán phi tuyến tính
Một số giải thuật hồi quy cũng được sử dụng như Gaussian Process and ZeroR trong [4],[5] Hay Alvaro Ortigosa et al trong [6] lại sử dụng giải thuật NaiveBayes, K-nearest neighbors
Như vậy các giải thuật được lựa chọn khá đa dạng và tùy vào đặc điểm dữ liệu của bài toán mà các tác giả sử dụng một số giải thuật thích hợp nhất để đạt được hiệu quả tốt trong việc dự đoán
Trang 18Với các bài toán dự đoán tính cách người dùng dựa trên thông tin di động thì cách khai thác dữ liệu cũng có nhiều hướng Hướng thứ nhất là khai thác các thuộc
tính trên các hành vi của người sử dụng đơn lẻ (còn gọi là actor-based), như trong
[1],[2],[4] bao gồm các thuộc tính như số lượng các cuộc gọi đến và đi, thời lượng cuộc gọi trung bình, tổng thời lượng gọi đến và đi, các cuộc gọi nhỡ, số lượng các thuê bao thực hiện liên lạc, số thuê bao thường xuyên nhìn thấy thông qua tín hiệu Bluetooth, lưu lượng sử dụng internet Hướng thứ hai khai thác các đặc điểm về
network dựa trên các thông tin thu thập từ điện thoại (còn gọi là network-based level) như được đề cập đến trong [3]
Trang 193 CƠ SỞ LÝ THUYẾT
3.1 Độ tương quan giữa hành vi sử dụng điện thoại và tính
cách con người
Độ tương quan giữa các thuộc tính hành vi với tính cách người dùng có thể
được xác định bằng chỉ số tương quan Pearson Chỉ số tương quan Pearson là độ đo
được dùng trong kỹ thuật phân tích thống kê, dùng để xác định mối quan hệ tuyến tính giữa hai biến
Với hai biến ngẫu nhiên X,Y, công thức tính độ tương quan được xác định bằng (rho) = ; ρ (rho) có giá trị nằm trong khoảng [-1; 1] ρ =1 tức là Y phụ thuộc tuyến tính vào X theo chiều thuận, ρ=-1 có nghiã là Y phụ thuộc tuyến tính vào X theo chiều nghịch đảo |ρ| có giá trị càng gần 1 thì mức độ phụ thuộc càng cao và càng gần 0 thì mức độ phụ thuộc càng thấp, ρ=0 tức là X và Y không
phụ thuộc tuyến tính vào nhau
Trong [2], các tác giả G.Chittaranjan, J.Blom, D.Gatica-Perez đã tính toán độ tương quan Pearson giữa một số thuộc tính được rút trích từ việc sử dụng điện thoại của người dùng và tính cách đó là:
Một người có tính cách hướng ngoại (Extraversion) thường sử dụng nhiều
thời gian trên các cuộc gọi đến và cũng là người nhận được nhiều cuộc gọi đến Tổng số thời lượng thực hiện nói chuyện điện thoại và số người liên lạc bằng điện thoại cũng nhiều hơn Số lượng các tin nhắn SMS đến và đi không ảnh hưởng nhiều đến đặc điểm tính cách này
Người có tính cách dễ chịu (Agreeableness) có các tin nhắn đi với chiều dài
tin nhắn dài hơn so với những người không có tính cách dễ chịu,Trong khi đó, thời lượng và số lượng các cuộc gọi với tính cách dễ chịu này không có mối tương quan đặc biệt nào
Người tậm tâm (Conscientiousness) dường như có thời lượng của các cuộc gọi đến ít hơn, ít các cuộc gọi nhỡ hơn và số lượng các Bluetooth IDs nhìn thấy
Trang 20trong thời gian dài là ít hơn và không thấy bị ảnh hưởng bởi các thuộc tính liên quan tới SMS
Người sẵn sàng trải nghiệm (Openness to Experience) có số lượng người liên lạc qua các cuộc gọi nhiều hơn, số lượng các tin nhắn SMS đến và đi ít hơn
Người có tâm lý bất ổn (Neuroticism) có chiều dài tin nhắn đến và đi dài hơn; thời lượng các cuộc gọi ngắn và thời lượng cuộc gọi có mối tương quan nghịch đảo với tính cách này Số lượng các bluetooth IDs nhìn thấy trong thời gian dài cũng nhiều hơn với những người có mức độ tâm lý bất ổn cao
3.2 Phương pháp Label ranking by Pairwise Preference
Learning
Bài toán Label ranking (sắp thứ tự nhãn) được phát biểu như sau: Cho một
không gian thể hiện (instance) X và một tập hữu hạn các nhãn (label)
Y={y1,y2,…,yk} Mục tiêu của của bài toán là tìm một ánh xạ từ X->Sy Trong đó
Sy là một tập các hoán vị của các phần tử trong tập Y Hay nói cách khác là với bất
kỳ phần tử ∈ , tìm cách xác định một thứ tự trên các label y1,y2, yk đối với phần
tử x đó
Có ba cách tiếp cận cơ bản cho bài toán sắp thứ tự nhãn đó là (theo [18]):
- Thứ nhất: sắp xếp dựa trên một số phép phân loại nhị phân Mỗi phép phân loại nhị phân dùng để so sánh trên từng cặp nhãn (pairwise comparison)
- Cách thứ hai là dựa trên một hàm utility function - với mỗi nhãn k (k=1 L), xác
định một hàm ánh xạ fk: X->R Gán giá trị fk(x) cho các nhãn Với mỗi thể hiện
x, thực hiện so sánh các giá trị fk(x) của các nhãn để tìm được thứ tự ưu tiên của các nhãn đó, ví dụ nếu fi(x)<fj(x) thì ta nói rằng x thích nhãn j hơn nhãn i
- Cách tiếp cận thứ ba dựa trên mô hình xác suất Một thể hiện điển hình là
phương pháp instance-based label ranking Cho một thể hiện mới (instance) x, giải thuật K-Nearest Neighbor được sử dụng để xác định các lân cận trong
không gian đặc trưng, sau đó giải thuật sẽ kết hợp các thứ tự nhãn của các lân cận để đưa ra dự đoán về thứ tự nhãn cho x Đây là cách được đánh giá là đơn
Trang 21giản và dễ hiểu, cũng là cho kết quả khá tốt, tuy nhiên nó lại tốn khá nhiều thời gian và bộ nhớ do việc phải đưa toàn bộ tập huấn luyện vào bộ nhớ đồng thời việc này cũng không đảm bảo được tính riêng tư của dữ liệu Sau khi xác định các lân cận, thuật toán thực hiện tìm kiếm gần nhất trên các lân cận và kết hợp (aggregate) thứ tự các nhãn của các lân cận này Việc kết hợp cũng khá chậm nên mất khá nhiều thời gian
• Label Ranking by Learning Pairwise Preferences
Ý tưởng chính của việc học theo từng cặp cho phép một chuyển một bài toán phân loại đa nhãn (multi-label classification) với c > 2 các lớp L= {λ1 λc }, thành nhiều bài toán phân loại nhị phân con (binary classification) Sau đó từng mô hình riêng lẻ Mij được huấn luyện cho từng cặp (λi, λj) ∈ L, (1<=i < j <= c) Như vậy
có tổng cộng c*(c-1)/2 mô hình cần thiết Với mỗi thể hiện x, mô hình sẽ quyết định
≻ hay ≻ Vì thế Mij được hiện thực như một phép phân loại nhị phân với kết quả trả về 1 tức là ≻ , ngược lại trả về 0 nghĩa là ≻
≻
Tại thời điểm thực hiện phân loại, một thể hiện x được xem xét ở tất cả các
mô hình Mij và các kết quả dự đoán của các mô hình này được kết hợp thành kết quả cuối cùng Một cách đơn giản nhất là coi mỗi dự đoán Mij(x) như một sự bình chọn,
Mij(x)=1 thì đếm số phiếu bình chọn cho i thêm 1, Mij(x)=0 thì đếm số phiếu bình chọn cho j thêm 1 Kết hợp lại ta có được một thứ tự của các nhãn tương ứng với thứ tự số lượng cách phiếu bình chọn cho mỗi nhãn đó Nhãn được lựa chọn cao nhất là nhãn có số phiếu bình chọn cao nhất Hình sau cho thấy một minh họa từ việc chuyển đổi một bài toán phân loại đa nhãn thành các bài toán phân loại nhị phân
Trang 22Hình 2: Giản đồ minh họa việc chuyển đổi từ tập dữ liệu gốc thành các tập dữ liệu con cho việc phân loại nhị phân
Mỗi phép phân loại nhị phân được hiện thực cho kết quả trả về là các giá trị nằm trong {0,1}, Mab=1 có nghĩa là ≻ ! Giá trị của mối quan hệ này được tính cho mỗi thể hiện của xϵ X được ký hiệu là Rx Với mọi λi ≠λj ϵ L ta có
Trang 23Như vậy để thực hiện việc sắp thự tự nhãn bằng phương pháp phân loại nhị phân phải trải qua hai bước là: thực hiện đưa bài toán đang xét thành các bài toán phân loại nhị phân và sau đó thực hiện tính toán thứ tự dựa trên giá trị của hàm tính điểm cho các nhãn để đưa ra một hoán vị về xếp hạng độ ưu tiên của các nhãn đó
3.3 Độ đo Spearman và Kendall trong việc đánh giá ranking
Một độ đo quan trọng và thường xuyên được áp dụng để đo độ tương tự
trong việc đánh giá xếp hạng (ranking) là độ tương quan Spearman Độ đo này
được đề xuất ban đầu bởi Spearman (1904) nhằm đánh giá độ mạnh yếu trong mối quan hệ kết hợp (association) giữa hai biến Dấu của giá trị độ tương quan Spearman xác định chiều kết hợp giữa biến X (biến độc lập) và Y (biến phụ thuộc) Nếu Y có chiều hướng tăng khi X tăng thì hệ số tương quan Spearman là dương, còn Y có khuynh hướng giảm khi X tăng thì hệ số tương quan sẽ có giá trị âm
Độ đo Spearman được tính theo công thức:
Một độ đo quan trọng khác trong việc đánh giá xếp hạng là độ tương quan
Kendall Độ đo này được tính toán dựa trên khoảng cách Kendall (Kendall’s Distance) Ý tưởng chính của khoảng cách Kendall’s là đếm số lượng các cặp mà
có giá trị xếp hạng trái ngược nhau (theo 16).Minh họa như hình sau:
Trang 24Hình 3: Minh họa khoảng cách Kendall’s Distance
Giá trị khoảng cách Kendall’s được tính bằng
2:(;, ;4) = |=($, &)| ;() < ;, ∧ ;4() > ;′()}| Miền giá trị : giá trị nhỏ nhất 2:(;, ;4) = 0
Giá trị lớn nhất 2:(;, ;4) = 5 ∗ (5 − 1)/2
Giá trị độ đo Kendall để tính độ tương quan là :
1 −4 2:(;, ;4)
5 (5 − 1) ∈ [−1, +1]
Trang 253.4 SVM- Support Vector Machine
SVM (Máy vector hỗ trợ) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau - phân loại nhị phân Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó Một mô hình SVM là một cách biểu diễn các điểm trong không gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất có thể Các ví dụ mới cũng được biểu diễn trong cùng một không gian và được thuật toán dự đoán thuộc một trong hai thể loại tùy vào ví dụ đó nằm ở phía nào của ranh giới
Một máy vectơ hỗ trợ xây dựng một siêu phẳng (hyperplane) hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác Một cách trực giác,
để phân loại tốt nhất thì các siêu phẳng nằm ở càng xa các điểm dữ liệu của tất cả các lớp (gọi là hàm lề) càng tốt, vì nói chung lề càng lớn thì sai số tổng quát hóa của thuật toán phân loại càng bé
Trong cách nói của SVM, một biến dự đoán được gọi là một thuộc tính
(attribute) Một thuộc tính đã được biến đổi để sử dụng trong định nghĩa siêu phẳng (hyperplane) gọi là một tính năng (feature) Nhiệm vụ lựa chọn các đại diện thích hợp nhất được biết đến như là lựa chọn tính năng (feature selection) Một tập các tính năng đặc trưng cho một thể hiện (instance) gọi là một vector Mục đích của
việc xây dựng một mô hình SVM là tìm một siêu phẳng tối ưu mà có thể phân tách một cụm các vector thành các loại phân biệt mà mỗi loại nằm ở một bên của mặt phân cách Vector mà nằm gần với siêu phẳng (hay còn gọi là mặt phân cách- hyperplane) gọi là vector hỗ trợ Tổng quan của quá trình SVM được thể hiện như hình sau:
Trang 26Hình 4: Quá trình học sử dụng mô hình SVM
Xét mô hình SVM trong không gian 2 chiều cho bài toán phân loại nhị phân, khi đó siêu phẳng phân cách hai lớp của tập dữ liệu là một đường thẳng
Như hình trên có thể thấy có vô hạn các đường thẳng có thể được chọn để phân tách hai tập, tuy nhiên chọn đường nào là tối ưu nhất Hai đường nối đứt quãng là các đường song song vẽ từ điểm gần nhất với đường phân cách ở hai phía
và song song với đường phân cách này Khoảng cách giữa hai đường đứt quãng này được gọi là lề (margin) Điểm (vector) gần nhất với đường phân cách gọi là vector
Trang 27hỗ trợ Và mục tiêu của mô hình SVM là tìm đường phân cách ( tổng quát là siêu phẳng) sao cho khoảng cách lề giữa hai vector hỗ trợ là lớn nhất
Trong nhiều trường hợp, không thể phân chia các lớp dữ liệu một cách tuyến tính trong không gian dùng để mô tả vấn đề Vì vậy, nhiều khi cần phải ánh xạ các điểm dữ liệu trong không gian ban đầu vào một không gian mới nhiều chiều hơn, giúp cho việc phân tách chúng trở nên dễ dàng hơn trong không gian đó Để việc tính toán được hiệu quả, ánh xạ sử dụng trong thuật toán SVM chỉ đòi hỏi giá trị tích vô hướng của các vectơ dữ liệu trong không gian lớn hơn mà không cần đến tọa
độ của chúng Tích vô hướng này được xác định bằng một hàm hạt nhân K(x,y)
(Kernel) phù hợp Một siêu phẳng trong không gian mới được định nghĩa là tập hợp
các điểm có tích vô hướng với một vectơ cố định trong không gian đó là một hằng
số Vectơ xác định một siêu phẳng sử dụng trong SVM là một tổ hợp tuyến tính của các vectơ dữ liệu luyện tập trong không gian mới với các hệ số αi Với siêu phẳng
lựa chọn như trên, các điểm x trong không gian đặc trưng được ánh xạ vào một siêu
mặt phẳng là các điểm thỏa mãn: Σi αi K(xi,x) = hằng số
Ghi chú rằng nếu K(x,y) nhận giá trị ngày càng nhỏ khi y xa dần khỏi x thì mỗi số hạng của tổng trên được dùng để đo độ tương tự giữa x với điểm xi tương ứng trong dữ liệu luyện tập Như vậy, tác dụng của tổng trên chính là so sánh khoảng cách giữa điểm cần dự đoán với các điểm dữ liệu đã biết Lưu ý là tập hợp các điểm x được ánh xạ vào một siêu phẳng có thể có độ phức tạp tùy ý trong không gian ban đầu
Trang 28Hình
• Thuật toán SVM
Xét bài toán phân l
hai chiều Tập dữ liệu hu
Hình 6: Một phép biến đổi không gian sử dụng kernel
Xét bài toán phân lớp đơn giản nhất là phân lớp nhị phân trong không gian
u huấn luyện D gồm n điểm có dạng:
, J ∈ =−1,1}L , i=1 n
ị 1 hoặc −1, xác định lớp của điểm xi Mỗi xi
ìm siêu phẳng có lề lớn nhất chia tách các điểm có
êu phẳng đều có thể được viết dưới dạng một t
vectơ pháp tuyến của siêu phẳng Tham số
ữa gốc tọa độ và siêu phẳng theo hướng vectơ pháp tuyến
ần chọn w và b để cực đại hóa lề, hay khoảng cách giữa hai si
ặt song song ở xa nhau nhất có thể trong khi vẫn phân chia đư
ề, hay khoảng cách giữa hai siêu
ược dữ liệu Các siêu
Trang 29Để ý rằng nếu dữ liệu huấn luyện có thể được chia tách một cách tuyến tính, thì ta có thể chọn hai siêu phẳng của lề sao cho không có điểm nào ở giữa chúng và sau đó tăng khoảng cách giữa chúng đến tối đa có thể Bằng hình học, ta tìm được khoảng cách giữa hai siêu phẳng là 6
‖N‖ Vì vậy ta muốn cực tiểu hóa giá trị ‖O‖
Để đảm bảo không có điểm dữ liệu nào trong lề, ta thêm vào các điều kiện sau, với mỗi i ta có
w.xi – b >= 1 cho xi thuộc lớp thứ nhất
hoặc
w.xi – b <= -1 cho xi thuộc lớp thứ hai
Có thể viết gọn lại như sau với mọi 1<= i <= n:
yi(w.xi – b) >= 1
Tóm lại, ta có bài toán tối ưu hóa sau:
Cực tiểu hóa (theo w,b) ‖O‖
với điều kiện (với mọi i=1 n)
yi(w.xi – b) >= 1
• Dạng ban đầu
Bài toán tối ưu ở mục trên tương đối khó giải vì hàm mục tiêu phụ thuộc vào ||w||, là một hàm có khai căn Tuy nhiên có thể thay ||w|| bằng hàm mục tiêu 1/2 ||w||2 (hệ số 1/2 để tiện cho các biến đổi toán học sau này) mà không làm thay đổi lời giải (lời
giải của bài toán mới và bài toán ban đầu có cùng w và b) Đây là một bài toán quy
hoạch toàn phương Cụ thể hơn:
Cực tiểu hóa (theo w,b)
1
2 ‖O‖6
với điều kiện (với mọi i=1 n)
yi(w.xi – b) >= 1