Giới thiệu đề tàiKhai phá mẫu dãy là một nội dung quan trọng trong khai phá dữ liệu với nhiều ứng dụngrộng rãi như phân tích thị trường, phân tích mẫu truy cập web, phát hiện xâm nhập tr
Trang 1Chuyên Đề Công Nghệ Phần Mềm
Tên đề tài:
TÌM HIỂU VÀ THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ DỮ LIỆU GSP
Giảng viên hướng dẫn: Nguyễn Mạnh Sơn
Họ và tên sinh viên: Lại Thế Quyền
Quách Văn Phong Cấn Quang Hưng
Trang 2MỤC LỤC
Chương I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 3
1 Khai phá dữ liệu 3
1.1 Tại sao lại khai phá dữ liệu? 3
1.2 Định nghĩa khai phá dữ liệu 4
1.3 Các bước chính trong khám phá tri thức 5
2 Các hướng tiếp cận và các kỹ thuật áp dụng trong Khai phá dữ liệu 6
2.1 Các hướng tiếp cận và các kỹ thuật chính trong khai phá dữ liệu 6
2.1 Các dạng dữ liệu có thể khai phá 7
3 Ứng dụng của Khai phá dữ liệu 7
Chương II: KHÁI QUÁT CHUNG VỀ LUẬT KẾT HỢP, LUẬT DÃY VÀ KHAI PHÁ LUẬT DÃY 8
1 Giới thiệu chung về luật kết hợp 8
1.1 Khái niệm luật kết hợp 8
1.2 Các ứng dụng điển hình của luật kết hợp 9
2 Luật dãy 10
2.1 Khái niệm luật dãy và ví dụ 10
2.2 Một số ứng dụng 12
Chương III: CÁC PHƯƠNG PHÁP KHAI PHÁ LUẬT DÃY 15
1 Khái quát về khai phá luật dãy 15
2 Thuật toán GSP (Generalized Sequential Patterns) 18
3 Ví dụ thuật toán GSP 25
Trang 3Giới thiệu đề tài
Khai phá mẫu dãy là một nội dung quan trọng trong khai phá dữ liệu với nhiều ứng dụngrộng rãi như phân tích thị trường, phân tích mẫu truy cập web, phát hiện xâm nhập trong môi trường mạng, trong nghiên cứu DNA, dự doán nhu cầu mua sắm của khách hàng… Khai phá mẫu dãy là việc phát hiện các dãy con phổ biến trong cơ sở dữ liệu dãy Theo các nghiên cứu, các thuật toán, khai phá mẫu dãy chủ yếu tập chung vào hai nội dung là cách thức mà dãy ứng viên được sinh ra và lưu trữ, cách mà độ hỗ trợ được tính và tần suất dãy ứng viên được kiểm tra Dựa vào các tiêu chí trên, thuật toán khai phá mẫu dãy
có thể được nhóm thành hai hướng tiếp cận chính: thuật toán dựa trên Aproori, thuật toán pháy triển mẫu Có một số thuật toán theo phương pháp tiếp cận dựa trên Apriori như AprioriAll, GSP, Spade, Spam… và các biến thể của chúng
Trang 4Chương I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1 Khai phá dữ liệu
1.1 Tại sao lại khai phá dữ liệu?
Hơn một thập niên trở lại đây, lượng thông tin được lưu trữ trên các thiết bị điện
tử (đĩa cứng, CD-ROM, băng từ, v.v.) không ngừng tăng lên Sự tích lũy dữ liệu nàyxảy ra với một tốc độ bùng nổ Người ta ước đoán rằng, lượng thông tin trên toàn cầutăng gấp đôi sau khoảng hai năm và theo đó số lượng cũng như kích cỡ của các CSDLcũng tăng lên một cách nhanh chóng [AR95]
Hình 1 - Lượng dữ liệu được tích lũy tăng mạnh theo thời gian
Chúng ta quả thực đang “ngập” trong dữ liệu, nhưng lại cảm thấy “đói” trithức và thông tin hữu ích Lượng dữ liệu khổng lồ này thực sự là một nguồn “tàinguyên” rất giá trị bởi thông tin là yếu tố then chốt trong hoạt động kinh doanh vì nógiúp những người điều hành và quản lý có một cái nhìn sâu sắc, chính xác, kháchquan vào tiến trình kinh doanh trước khi ra quyết định KPDL – khai thác nhữngthông tin tiềm ẩn có tính dự đoán từ những CSDL lớn – là một hướng tiếp cận mớivới khả năng giúp các công ty chú trọng vào những thông tin có nhiều ý nghĩa từnhững tập hợp dữ liệu lớn (databases, data warehouses, data repositories) mang tínhlịch sử Những công cụ KPDL có thể dự đoán những xu hướng trong tương lai và
do đó cho phép doanh nghiệp ra những quyết định kịp thời được định hướng bởi trithức mà KPDL đem lại Sự phân tích dữ liệu một cách tự động và mang tính dự báocủa KPDL có ưu thế hơn hẳn so với sự phân tích thông thường dựa trên những sựkiện trong quá khứ của các hệ hỗ trợ ra quyết định (decision support systems -DSSs) truyền thống trước đây Công cụ KPDL cũng có thể trả lời những câu hỏitrong lĩnh vực kinh doanh mà trước đây được xem là tốn nhiều thời gian để xử lý.Với tất cả những ưu thế trên, KPDL đã chứng tỏ được tính hữu dụng của nó trong môi
Trang 5trường kinh doanh đầy tính cạnh tranh ngày nay Giờ đây, KPDL đã và đang trởthành một trong những hướng nghiên cứu chính của lĩnh vực khoa học máy tính vàcông nghệ tri thức.
Phạm vi ứng dụng ban đầu của KPDL chỉ là trong lĩnh vực thương mại (bán lẻ)
và tài chính (thị trường chứng khoán) Nhưng ngày nay, KPDL đã được ứng dụngrộng rãi trong các lĩnh vực khác như tin-sinh (bio-informatics), điều trị y học (medicaltreatment), viễn thông (telecommunication), giáo dục (education), v.v
1.2 Định nghĩa khai phá dữ liệu
Chúng ta có thể hiểu một cách sơ lược rằng KPDL là quá trình tìm kiếm nhữngthông tin (tri thức) hữu ích, tiềm ẩn và mang tính dự báo trong các tập dữ liệu lớn
Như vậy, chúng ta nên gọi quá trình này là khám phá tri thức (Knowledge
Discovery in Databases – KDD) thay vì là KPDL Tuy nhiên các nhà khoa họctrong lĩnh vực này đồng ý với nhau rằng hai thuật ngữ trên là tương đương và có thểthay thế cho nhau Họ lý giải rằng, mục đích chính của quá trình khám phá tri thức làthông tin và tri thức có ích, nhưng đối tượng mà chúng ta phải xử lý rất nhiều trongsuốt quá trình đó lại chính là dữ liệu
Mặt khác, khi chia các bước trong quá trình khám phá tri thức, một số nhà
nghiên cứu lại cho rằng, KPDL chỉ là một bước trong quá trình khám phá tri thức
[FSSU96]
Như vậy, khi xét ở mức tổng quan thì hai thuật ngữ này là tương đương nhau,
nhưng khi xét cụ thể thì KPDL được xem là một bước trong quá trình khám phá tri
thức.
Có rất nhiều định nghĩa về KPDL, các định nghĩa này đều là những định nghĩamang tính mô tả Xin trích một vài định nghĩa ở nguyên bản tiếng Anh nhằm chuyểntải được y nguyên ý của tác giả và tránh được những sai sót chủ quan:
Định nghĩa 1 William J Frawley, Gregory Piatetsky-Shapiro, và Christopher J Matheus 1991 [FSSU96]:
“Knowledge discovery in databases, also known Data mining, is the trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.”
non-Định nghĩa 2 Marcel Holshemier và Arno Siebes (1994):
Trang 6“Data Mining is the search for relationships and global patterns that exist in large databases but are ‘hidden’ among the vast amount of data, such as a relationship between patient data and their medical diagnosis These relationships represent valuable knowledge about the database and the objects in the database and, if the database is a faithful mirror, of the real world registered by the database.”
1.3 Các bước chính trong khám phá tri thức
Người ta thường chia quá trình khám phá tri thức thành các bước sau [AR95]
[MM00] [HK02]:
Trích chọn dữ liệu (data selection): là bước trích chọn những tập dữ liệu cầnđược khai phá từ các tập dữ liệu lớn (databases, data warehouses, datarepositories) ban đầu theo một số tiêu chí nhất định
Tiền xử lý dữ liệu (data preprocessing): là bước làm sạch dữ liệu (xử lý với dữliệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, v.v.), rút gọn dữliệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụnghistograms, lấy mẫu, v.v.), rời rạc hóa dữ liệu (rời rạc hóa dựa vàohistograms, dựa vào entropy, dựa vào phân khoảng, v.v.) Sau bước này, dữliệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa
Biến đổi dữ liệu (data transformation): đây là bước chuẩn hóa và làm mịn dữliệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuậtkhai phá ở bước sau
KPDL (data mining): đây là bước áp dụng những kỹ thuật khai phá (phần nhiều
là các kỹ thuật của machine learning) để khai phá, trích chọn được nhữngmẫu (patterns) thông tin, những mối liên hệ (relationships) đặc biệt trong dữliệu Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của toànquá trình KDD
Biểu diễn và đánh giá tri thức (knowledge representation & evaluation):những mẫu thông tin và mối liên hệ trong dữ liệu đã được khai phá ở bướctrên được chuyển dạng và biểu diễn ở một dạng gần gũi với người sử dụng như
đồ thị, cây, bảng biểu, luật, v.v Đồng thời bước này cũng đánh giá nhữngtri thức khám phá được theo những tiêu chí nhất định
Trang 7Hình 2 - Các bước trong quá trình khám phá tri thức (KDD)
2 Các hướng tiếp cận và các kỹ thuật áp dụng trong Khai phá dữ liệu
2.1 Các hướng tiếp cận và các kỹ thuật chính trong khai phá dữ liệu
Các hướng tiếp cận của KPDL có thể được phân chia theo chức năng hay lớp các bài toán khác nhau Sau đây là một số hướng tiếp cận chính [HK02]
Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vàomột trong những lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo dữ liệu
thời tiết Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine
learning như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural
network), v.v Phân lớp còn được gọi là học có giám sát (học có thầy –
supervised learning)
Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng kháđơn giản Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80%trong số họ sẽ mua thêm thịt bò khô” Luật kết hợp được ứng dụng nhiềutrong lĩnh vực kinh doanh, y học, tin-sinh, tài chính & thị trường chứngkhoán, v.v
Khai phá chuỗi theo thời gian (sequential/temporal patterns): tương tự nhưkhai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Hướngtiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trườngchứng khoán vì nó có tính dự báo cao
Phân cụm (clustering/segmentation): xếp các đối tượng theo từng cụm (số
lượng cũng như tên của cụm chưa được biết trước Phân cụm còn được gọi
là học không giám sát (học không có thầy – unsupervised learning)
Mô tả khái niệm (concept description & summarization): thiên về mô tả,
Trang 8tổng hợp và tóm tắt khái niệm Ví dụ: tóm tắt văn bản.
2.1 Các dạng dữ liệu có thể khai phá
Do KPDL được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểu dữ liệu khác nhau [HK02] Sau đây là một số kiểu dữ liệu điển hình
• CSDL quan hệ (relational databases)
• CSDL quan hệ - hướng đối tượng (object-relational databases)
• CSDL đa phương tiện (multimedia databases) như âm thanh (audio), hình
ảnh (image), phim ảnh (video), v.v
• Dữ liệu Text và Web (text database & www)
• ……
3 Ứng dụng của Khai phá dữ liệu
KPDL tuy là một lĩnh vực mới nhưng thu hút được rất nhiều sự quan tâm của cácnhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó Chúng ta có thể liệt kê rađây một số ứng dụng điển hình:
Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support)
Điều trị y học (medical treatment): mối liên hệ giữa triệu chứng, chẩn đoán vàphương pháp điều trị (chế độ dinh dưỡng, thuốc men, phẩu thuật, …)
Text mining & Web mining: phân lớp văn bản và các trang web, tóm tắt vănbản, v.v
Tin-sinh (bio-informatics): tìm kiếm, đối sánh các hệ gene và thông tin ditruyền, mối liên hệ giữa một số hệ gene và một số bệnh di truyền, v.v
Tài chính và thị trường chứng khoán (finance & stock market): phân tích tìnhhình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứngkhoán, v.v
Bảo hiểm (insurance)
v.v
Trang 9Chương II: KHÁI QUÁT CHUNG VỀ LUẬT KẾT HỢP, LUẬT DÃY VÀ KHAI PHÁ LUẬT DÃY
Khai phá luật dãy là một chủ đề thiết thực và quan trọng trong khai phá dữ liệuvới nhiều ứng dụng như là trong phân tích giao dịch mua hàng của khách hàng, khaithác weblogs, khai thác các dãy ADN, nghiên cứu dữ liệu trong các bài toán khí tượng
- thủy văn như dự báo thời tiết, các thảm họa tự nhiên như động đất, sóng thần
Các thuật toán khai phá luật dãy kế thừa nhiều từ các thuật toán khai phá luật kếthợp, và nhiều thuật toán trong số đó là mở rộng của các thuật toán khởi thủy, ở đó sựkhác biệt chính là trong khai phá luật dãy đưa ra các phân tích liên giao dịch (inter-transaction), trong khi đó khai phá luật kết hợp là tìm luật về mối liên quan giữa cácphần tử trong cùng một giao dịch (intra- transaction) Trước tiên, ta cần tìm hiểu một
số vấn đề của luật kết hợp
1 Giới thiệu chung về luật kết hợp
1.1 Khái niệm luật kết hợp
Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule - AR) làtìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu Nội dung cơ bản của luật kết hợp được tóm tắt như dưới đây
Cho cơ sở dữ liệu gồm các giao dịch T là tập các giao dịch t1, t2, …, tn
T = {t1, t2, …, tn} T gọi là cơ sở dữ liệu giao dịch (Transaction Database) Mỗi giao dịch ti bao gồm tập các đối tượng I (gọi là itemset)
I = {i1, i2, …, im} Một itemset gồm k items gọi là k-itemset
Mục đích của luật kết hợp là tìm ra sự kết hợp (association) hay tương quan
(correlation) giữa các items Những luật kết hợp này có dạng X =>Y
Trong Basket Analysis, luật kết hợp X =>Y có thể hiểu rằng những người mua các mặt hàng trong tập X cũng thường mua các mặt hàng trong tập Y (X và Y gọi là itemset)
Ví dụ, nếu X = {Apple, Banana} và Y = {Cherry, Durian} và ta có luật kết hợp X
=>Y thì chúng ta có thể nói rằng những người mua Apple và Banana thì cũng thường mua Cherry và Durian
Theo quan điểm thống kê, X được xem là biến độc lập (Independent variable) còn Y được xem là biến phụ thuộc (Dependent variable)
Độ hỗ trợ (Support) và độ tin cây (Confidence) là 2 tham số dùng để đo lường luật kết hợp
Độ hỗ trợ (Support) của luật kết hợp X =>Y là tần suất của giao dịch chứa tất cả các items trong cả hai tập X và Y Ví dụ, support của luật X =>Y là 5% có nghĩa là 5% các giao dịch X và Y được mua cùng nhau
Độ tin cậy (Confidence) của luật kết hợp X =>Y là xác suất xảy ra Y khi đã biết X Ví
dụ độ tin cậy của luật kết hợp {Apple} =>Banana} là 80% có nghĩa là 80% khách hàng mua Apple cũng mua Banana
Trang 10Để thu được các luật kết hợp, ta thường áp dụng 2 tiêu chí: minimum support
(min_sup) và minimum confidence (min_conf)
Các luật thỏa mãn có support và confidence thỏa mãn (lớn hơn hoặc bằng) cả
Minimum support và Minimum confidence gọi là các luật mạnh (Strong Rle)
Minimum support và Minimum confidence gọi là các giá trị ngưỡng (threshold) và phải xác định trước khi sinh các luật kết hợp
Một itemsets mà tần suất xuất hiện của nó >= min_sup goi là frequent itemsets
Một số loại luật kết hợp
Binary association rules (luật kết hợp nhị phân): Apple => Banana
Quantitative association rules (luật kết hợp định lượng):
weight in [70kg – 90kg] => height in [170cm – 190cm]
Fuzzy association rules (Luật kết hợp mờ): weight in HEAVY => height in TALL
Thuật toán phổ biến nhất tìm các luật kết hợp là Apriori sử dụng Binary association rules
1.2 Các ứng dụng điển hình của luật kết hợp
Một số ứng dụng điển hình như: phân tích giỏ hàng (market basket analysis), đưa
ra chiến lược tiếp thị, thiết kế bài trí gian hàng, chiến lược bán hàng khuyến mại, cácbài toán phân lớp, phân cụm,
Market basket analysis: Chẳng hạn, một người quản lý một chi nhánh bán hàng,
họ muốn biết thêm về thói quen mua sắm của khách hàng Cụ thể như họ muốn biếtrằng “Trong mỗi lần mua sắm, khách hàng thường mua các nhóm mặt hàng nào cùngnhau?” Để trả lời câu hỏi này, việc phân tích giỏ khách hàng sẽ được thực hiện trên
dữ liệu mua bán lẻ của khách hàng đã được lưu trữ Sau đó có thể sử dụng kết quả đó
để lên kế hoạch tiếp thị, chiến lược quảng cáo hoặc dự định bổ sung các danh mụchàng hóa mới Việc phân tích giỏ hàng có thể giúp bạn thiết kế gian hàng với các cáchbài trí hàng hóa khác nhau Các mặt hàng thường xuyên được mua với nhau có thểđược đặt ở gần nhau để thúc đẩy việc bán hàng Nếu khách hàng mua máy tính cũng
có xu hướng mua phần mềm diệt virus cùng lúc, cũng thế, đặt màn hình gần với cácphần mềm hiển thị có thể giúp tăng doanh số bán hàng của cả hai Trong một chiếnlược khác, bố trí phần cứng và phần mềm ở hai đầu của cửa hàng có thể lôi kéo kháchhàng mua những mặt hàng khác trên đường di chuyển giữa hai vị trí Ví dụ, sau khiquyết định mua một máy tính đắt tiền, trong khi đến mua phần mềm diệt virus, kháchhàng quan sát thấy hệ thống an ninh gia đình được trưng bày và có thể quyết định mua.Việc phân tích giỏ hàng cũng có thể giúp các nhà bán lẻ đưa ra các kế hoạch bán hànggiảm giá Thông thường, khách hàng có xu hướng mua máy tính và máy in với nhau,khi đó có thể bán giảm giá máy in nếu khách hàng mua máy tính
Trong gian hàng, mỗi mặt hàng gắn với một biến Boolean biểu thị sự có mặthay vắng mặt của mặt hàng đó Tiếp đến, mỗi giỏ hàng có thể được thể hiện bởi mộtvector Boolean các giá trị được gán cho các biến đó Các vector Boolean biểu thị
Trang 11các mẫu mua hàng mà ở đó các mặt hàng được kết hợp một cách thường xuyên hoặcđược mua với nhau Các mẫu này có thể được biểu thị ở dạng các luật kết hợp Ví dụ,khách hàng mua máy tính cũng có xu hướng mua phần mềm diệt virus cùng lúc, cóthể được biểu diễn với luật kết hợp như sau:
computer antivirus_software [support = 2%, confidence = 60%] support = 2% nghĩa là có 2% trong tất cả các giao dịch được phân tích cho thấy
máy tính và phần mềm diệt virus được mua cùng lúc confidence = 60% nghĩa là có
60% số lượng khách hàng đã mua máy tính thì cũng mua phần mềm Thôngthường, các luật kết hợp được quan tâm nếu chúng đáp ứng được cả ngưỡng hỗ trợtối thiểu và ngưỡng tin cậy tối thiểu Các ngưỡng này có thể được thiết lập bởingười dùng
2 Luật dãy
2.1 Khái niệm luật dãy và ví dụ
Ta giới thiệu vấn đề dựa trên quá trình mua bán hàng và một CSDL lưu trữ thôngtin giao dịch mua bán hàng bao gồm các thông tin về mã khách hàng (customer-id),thời gian giao dịch (transaction-time) và các mặt hàng trong giao dịch
Một itemset là một tập không rỗng các phần tử (item).
Một dãy (sequence) là một danh sách có thứ tự các itemset.
Không mất tính tổng quát, chúng ta giả sử rằng một tập các phần tử được ánh xạ
tới một tập các số nguyên liền kề Ta biểu thị itemset i bởi (i1i2 im), trong đó ij là mộtphần tử Ta biểu thị dãy s bởi (s1s2 sn), trong đó sj là một itemset.
Dãy (a1a2 an) được chứa trong dãy (b1b2 bn) nếu ở đó tồn tại các số nguyên
i1 < i2 < < in sao cho a1 bi1 , a2 bi2 , ., an bin Ta sửdụng ký hiệu để biểu thị quan hệ “được chứa trong” Ví dụ, dãy <(3) (4,5)(8)> <(7) (3 8) (9) (4 5 6) (8)>, vì
((3) (3 8), (4 5) (4 5 6) và (8) (8) Tuy nhiên, dãy <(3) (5)>không được chứa trong <(3 5)> và ngược lại Phần tử 3 và 5 trong dãy <(3) (5)>
mô tả chúng không nằm trong cùng một lần giao dịch, trong khi phần tử 3 và 5trong dãy <(3 5)> mô tả chúng nằm trong một lần giao dịch Trong một tập các
dãy, một dãy s là lớn nhất hay tối đa (maximal) nếu s không được chứa trong bất
kỳ dãy nào khác
Tất cả các giao dịch của cùng một khách hàng có thể được xem như là một dãy.Trong đó, mỗi giao dịch được xem như một tập các phần tử, và danh sách các giao
Trang 12dịch theo thứ tự tăng dần về thời gian giao dịch tương ứng với một dãy Chúng ta gọi
đó là một dãy khách hàng (customer-sequence) Ta biểu thị các giao dịch của một
khách hàng được sắp xếp thứ tự tăng dần theo thời gian là (T1, T2, ., Tn) Tập cácphần tử (item) trong Ti được biểu thị bởi itemset(Ti) Dãy customer-sequence của một
khách hàng là một dãy <itemset(T1) itemset(T2) itemset(Tn)>
Một khách hàng hỗ trợ một dãy s nếu s được chứa trong dãy customer-sequence đối với khách hàng đó Độ hỗ trợ của một dãy được định nghĩa là số khách hàng hỗ trợ
dãy đó
Các dãy tối đa trong số tất cả các dãy phổ biến đáp ứng mức hỗ trợ tối thiểu cụ
thể nào đó được gọi là luật dãy hay mẫu dãy (sequential patterns).
Ta gọi dãy đáp ứng độ hỗ trợ tối thiểu là dãy phổ biến (large sequence)
Cho CSDL mua bán hàng thể hiện trong hình 1.1
Transaction Time Customer Id Items Bought
Trang 13Ví dụ về một dãy mà không có hỗ trợ tối thiểu là dãy <(10 20) (30)>, dãy này chỉxuất hiện trong giao dịch của khách hàng 2 Các dãy <(30)>, <(40)>, <(70)>,
<(90)>, <(30) (40)>, <(30) (70)>, <(40 70)> mặc dù thỏa mãn hỗ trợ tối thiểu, nhưng chúng không phải dãy tối đa nên không phải là kết quả cần tìm
Sequential Patterns with support > 25%
Sự phát triển của máy tính và các công nghệ truyền thông gần đây giúp cho các
hệ thống liên lạc cá nhân (Personal Communication Systems - PCSs) ngày càng trởnên phổ biến, đặt ra vấn đề về quản lý thông tin di động
Mô hình hóa một cách hiệu quả các mẫu hành vi của người sử dụng trong các hệthống điện thoại di động đem lại lợi ích không chỉ cho người sử dụng trong những truycập thông minh, mà còn đem lại lợi nhuận tài chính cho các nhà cung cấp dịch vụ diđộng như quảng cáo Trong môi trường web, người sử dụng di động có thể yêu cầu cácloại hình dịch vụ khác nhau và ứng dụng của điện thoại di động, PDA hay máy tính
Trang 14xách tay từ bất cứ đâu tại bất kỳ thời gian nào thông qua GSM, GPRS hoặc mạngkhông dây Rõ ràng là những hành vi của người sử dụng điện thoại di động (trong đó
vị trí và dịch vụ vốn đã cùng tồn tại) trở nên phức tạp hơn so với các hệ thống webtruyền thống Để giúp người sử dụng thu nhận được thông tin mong muốn trong mộtthời gian ngắn là một trong những ứng dụng nhiều hứa hẹn, đặc biệt khi mà ngườidùng không có nhiều thời gian để lướt nhiều trang web
Hệ thống quản lý thông tin di động lưu trữ và cập nhật các thông tin vị trí củangười sử dụng điện thoại di động, những người được phục vụ bởi hệ thống Một chủ
đề nóng trong lĩnh vực nghiên cứu quản lý thông tin di động là dự đoán di động Dựđoán di động có thể được định nghĩa là dự đoán vị trí di chuyển tiếp theo của người sửdụng di động giữa các vùng trong hệ thống liên lạc cá nhân PCS hoặc mạng GSM Dựđoán đó có thể được sử dụng để tăng hiệu quả của PCSs Sử dụng dự đoán di chuyển,
hệ thống có thể phân bổ nguồn tài nguyên một cách hiệu quả khả năng di chuyển đếncác vùng thay vì phân bổ nguồn tài nguyên một cách không có định hướng trong cácvùng lân cận của người sử dụng điện thoại di động Hiệu quả phân bổ nguồn tàinguyên cho người dùng di động sẽ cải thiện việc sử dụng tài nguyên và giảm độ trễtrong việc tiếp cận các nguồn tài nguyên Dự báo chính xác thông tin vị trí cũng rấtquan trọng trong xử lý các truy vấn phụ thuộc vào vị trí của người dùng di động Khingười dùng đưa ra một truy vấn liên quan đến vị trí, câu trả lời cho truy vấn sẽ phụthuộc vào vị trí hiện tại của người dùng Nhiều phạm vi ứng dụng bao gồm cả lĩnh vựcchăm sóc sức khỏe, khoa học sinh học, quản lý khách sạn, và lợi ích quân sự từ hiệuquả xử lý các truy vấn phụ thuộc vào vị trí Với hiệu quả dự đoán về vị trí, có thể thểtrả lời các truy vấn liên quan đến vị trí di chuyển tiếp theo của người sử dụng
So với số lượng công việc thực hiện cho việc cập nhật vị trí, một số ít đã đượcthực hiện trong lĩnh vực dự báo di chuyển Những công việc này có một số hạn chế,được giải thích như sau:
Một số trong đó là sự không nỗ lực tìm kiếm các mẫu thông tin di động.Thay vào đó, các mẫu này được giả định là có sẵn Những mẫu này sau đóđược sử dụng để dự báo di chuyển
Việc dự đoán được dựa trên khả năng phân bố của tốc độ và hướng củangười sử dụng điện thoại di động Để thu thập những thông tin như vậy, cầnthiết phải có những công cụ rất tinh vi và tốn kém như hệ thống định vị toàncầu (Global Positioning System - GPS)
Nhằm khắc phục những hạn chế trên, người ta đã phát triển một thuật toán dựđoán di động hiệu quả Những qui luật này được gọi là các mẫu di động Sau đó, cácluật di động này được trích xuất ra từ các mẫu di động Các quy tắc di động được gắnvới quỹ đạo hiện tại của một người sử dụng điện thoại di động, và được sử dụng chocác dự đoán hướng di chuyển tiếp theo của người dùng Thuật toán dự đoán này làkhai phá các mẫu di động của người dùng và sinh ra các luật di động, được thực hiện