BC bigdata sử dụng weda để phân tích dữ liệu cho người dungf cái nhìn Convolutional Neural Network Models Deep Learning Convolutional Neural Convolutional Neural Network Models Deep Learning Convolutional Neural
Trang 16.2 Mô hình Information Retrieval (IR)
Một mô hình IR quản lý sao cho 1 tài liệu và 1 truy vấn được đại diện và sao cho sự liên quan của một tài liệu tới 1 người dùng truy vấn được xác định Có 4
mô hình IR chính bao gồm: Mô hình Boolean, mô hình không gian vector, mô hình ngôn ngữ, mô hình xác suất Ba mô hình đầu thuờng được sử dụng trong
hệ thống IR và trên Web
Mặc dù 3 mô hình này biểu diễn tài liệu và các truy vấn khác nhau, nhưng chúng sử dụng framework giống nhau Tất cả chúng đều nghiên cứu từng tài liệu hoặc truy vấn như là điều kiện Trình tự thuật ngữ và vị trí trong một câu hoặc một tài liệu bị bỏ qua Đó là một tài liệu được mô tả bằng một bộ thuật ngữ đặc biệt Một thuật ngữ chỉ đơn giản là một từ mà ngữ nghĩa của nó giúp ghi nhớ tài liệu chủ đề chính Chúng ta nên lưu ý rằng thuật ngữ ở đây có thể không
là một từ ngữ tự nhiên trong từ điển
Đưa ra một bộ sưu tập tài liệu D, để cho V = {t1, t2, , t|V|} là tập hợp các thuật ngữ đặc biệt trong bộ sưu tập, nơi mà ti là 1 điều khoản Bộ V thường là gọi là
từ vựng của bộ sưu tập và | V | là kích thước của nó, tức là số lượng điều khoản trong V Trọng số wij> 0 được liên kết với mỗi số hạng ti của a
tài liệu dj D Đối với một thuật ngữ không xuất hiện trong tài liệu dj, wij = 0 Mỗi dj tài liệu được đại diện với một vectơ giới hạn,
dj = (w1j, w2j, , w¿V|j),
trong đó mỗi trọng lượng wij tương ứng với thuật ngữ ti V và định lượng mức
độ quan trọng của ti trong tài liệu dj Trình tự của các thành phần (hoặc thuật ngữ) trong vector không đáng kể Lưu ý rằng theo quy ước của cuốn sách này, một chữ in thường in đậm được sử dụng để thể hiện một vectơ Với biểu diễn vectơ này, một bộ tài liệu đơn giản là được biểu diễn dưới dạng bảng quan hệ (hoặc ma trận) Mỗi thuật ngữ là một thuộc tính và mỗi trọng lượng là một giá trị thuộc tính Trong các mô hình truy xuất khác nhau, wij có tính toán khác nhau
6.2.1 Mô hình Boolean
Mô hình Boolean là một trong những mô hình thông tin sớm nhất và đơn giản nhất Nó sử dụng khái niệm khớp chính xác để khớp các tài liệu với truy vấn người dùng Cả truy vấn và truy xuất đều dựa trên đại số Boolean
Document Representation: Trong mô hình Boolean, tài liệu và truy vấn được
biểu diễn dưới dạng tập hợp các thuật ngữ Đó là, mỗi thuật ngữ chỉ được xem xét có mặt hoặc vắng mặt trong một tài liệu Sử dụng biểu diễn vectơ của
tài liệu ở trên, trọng số wij ( {0, 1}) của thuật ngữ ti trong tài liệu dj là 1 nếu
ti xuất hiện trong tài liệu dj và 0 nếu không, tức là,
wij = 1 nếu ti xuất hiện trong dj (1)
Trang 2= 0 với TH khác
Boolean Queries: Như đã đề cập trong chương 6.1, thuật ngữ truy vấn là
kết hợp một cách hợp lý bằng cách sử dụng các toán tử Boolean AND, OR và NOT,
trong đó có ngữ nghĩa thông thường của họ trong logic Do đó, một truy vấn Boolean có một ngữ nghĩa chính xác Chẳng hạn, truy vấn, ((x AND y) AND (NOT z)) nói
rằng một tài liệu được truy xuất phải chứa cả hai điều khoản x và y chứ không phải z Như một ví dụ khác, biểu thức truy vấn (x OR y) có nghĩa là ít nhất một trong số
các điều khoản này phải có trong mỗi tài liệu lấy Ở đây, ta giả sử rằng x, y
và z là các điều khoản Nói chung, chúng có thể là biểu thức Boolean
Document Retrieval: Đưa ra một truy vấn Boolean, hệ thống truy xuất mọi
tài liệu làm cho truy vấn hợp lý đúng Do đó, việc thu hồi được dựa trên
về tiêu chí quyết định nhị phân, tức là, một tài liệu có liên quan hoặc không liên quan Theo trực giác, điều này được gọi là kết hợp chính xác Không có khái niệm về phù hợp một phần hoặc xếp hạng của các tài liệu lấy Đây là một trong những
nhược điểm lớn của mô hình Boolean, thường dẫn đến hạn chế kết quả thu được Rõ ràng là tần suất của các điều khoản và sự gần gũi đóng góp đáng kể vào sự liên quan của một tài liệu
Chính bởi vấn đề này, mô hình Boolean hiếm khi được sử dụng một mình trong thực tế Hầu hết các công cụ tìm kiếm hỗ trợ một số hình thức truy xuất Boolean giới hạn bằng cách sử dụng toán tử bao gồm và loại trừ rõ ràng Ví dụ:
Truy vấn có thể được cấp cho Google, ‘khai thác trên GoogleData + giá thiết bị trên đường ăn, trong đó +(bao gồm) và - (loại trừ) tương tự như các toán tử Boolean AND và NOT tương ứng Toán tử OR cũng có thể được hỗ trợ
6.2.2 Mô hình không gian Vector
Mô hình này có lẽ là mô hình IR được biết đến nhiều nhất và được sử dụng rộng rãi nhất
Document Representation
Một tài liệu trong mô hình không gian vectơ được biểu diễn dưới dạng vectơ trọng lượng, trong mà mỗi trọng lượng thành phần được tính dựa trên một số biến thể của TF hoặc sơ đồ TF-IDF Trọng lượng của thuật ngữ ti trong tài liệu
dj không còn trong
Trang 3{0, 1} như trong mô hình Boolean, nhưng có thể là bất kỳ số nào
Term Frequency (TF) Scheme: Trong phương pháp này, trọng số của một
thuật ngữ ti trong dj tài liệu là số lần ti xuất hiện trong tài liệu dj, ký hiệu bởi fij Chuẩn hóa cũng có thể được áp dụng (xem Công thức (2))
Thiếu sót của sơ đồ TF là nó không xem xét tình huống trong đó một thuật ngữ xuất hiện trong nhiều tài liệu của bộ sưu tập
TF-IDF Scheme: Đây là chương trình trọng số được biết đến nhiều nhất, trong
đó
TF vẫn là viết tắt của tần số thuật ngữ và IDF tài liệu nghịch đảo
tần số Có một số biến thể của chương trình này Ở đây chỉ là
một trong những chương trình cơ bản nhất
Đặt N là tổng số tài liệu trong hệ thống hoặc bộ sưu tập và dfi là số lượng tài liệu trong đó thuật ngữ ti xuất hiện ít nhất một lần Đặt fij là số đếm tần số thô của thuật ngữ ti trong tài liệu dj Sau đó, tần số thuật ngữ chuẩn hóa (ký hiệu là tfij) của ti trong dj được cho bởi
trong đó mức tối đa được tính trên tất cả các điều khoản xuất hiện trong tài liệu
dj Nếu thuật ngữ ti không xuất hiện trong dj thì tfij = 0 Nhắc lại rằng | V | là kích thước từ vựng của bộ sưu tập
Tần số tài liệu nghịch đảo (ký hiệu là idfi) của thuật ngữ ti được đưa ra bởi:
Trực giác ở đây là nếu một thuật ngữ xuất hiện trong một số lượng lớn tài liệu trong bộ sưu tập, nó có thể không quan trọng hoặc không là ngoại lệ Các trọng
số hạn TF-IDF cuối cùng được đưa ra bởi:
Trang 4Một truy vấn q được trình bày chính xác giống như một tài liệu trong
thu thập tài liệu Thuật ngữ trọng số wiq của mỗi thuật ngữ ti trong q cũng có thể là
được tính theo cách tương tự như trong một tài liệu bình thường, hoặc hơi khác một chút
Ví dụ, Salton và Buckley [52] đã đề xuất như sau:
Xếp hạng tài liệu và mức độ liên quan
Thường rất khó để đưa ra quyết định nhị phân về việc một tài liệu là liên quan đến một truy vấn nhất định Không giống như mô hình Boolean, mô hình không gian vectơ không đưa ra quyết định như vậy Thay vào đó, các tài liệu được xếp hạng theo mức độ liên quan của chúng với truy vấn Một cách để tính toán mức
độ liên quan là tính toán độ tương tự của truy vấn q với mỗi truy vấn tài liệu dj trong bộ sưu tập tài liệu D Có nhiều phương pháp tương đồng Một trong
những phương pháp nổi tiếng nhất là sự tương tự cosin, đó là cosin của góc giữa vectơ truy vấn q và vectơ tài liệu dj,
Sự tương tự cosine cũng được sử dụng rộng rãi trong phân cụm văn bản / tài liệu
Tích số của hai vectơ là một phép đo tương tự khác,
Trang 5Xếp hạng các tài liệu được thực hiện bằng cách sử dụng các giá trị tương tự của chúng Đỉnh tài liệu xếp hạng được coi là phù hợp hơn với truy vấn
Một cách khác để đánh giá mức độ liên quan là tính trực tiếp điểm phù hợp cho mỗi tài liệu để truy vấn Phương pháp Okapi và phương pháp của nó các biến thể là các kỹ thuật phổ biến trong cài đặt này Truy xuất Okapi công thức đưa ra
ở đây dựa trên điều đó trong [51, 55] Nó đã được chỉ ra rằng: Các biến thể Okapi có hiệu quả hơn cosine cho truy xuất truy vấn ngắn
Vì việc trình bày công thức trực tiếp bằng cách sử dụng túi trực tuyến là dễ dàng hơn
ký hiệu từ của tài liệu hơn vectơ, dj tài liệu sẽ được ký hiệu là
dj và truy vấn q sẽ được ký hiệu là q Các ký hiệu bổ sung như sau:
ti là một thuật ngữ
fij là số tần số thô của thuật ngữ ti trong tài liệu dj
fiq là số tần số thô của thuật ngữ ti trong truy vấn q
N là tổng số tài liệu trong bộ sưu tập
dfi là số tài liệu có chứa thuật ngữ ti
dlj là độ dài tài liệu (tính bằng byte) của dj
avdl là chiều dài tài liệu trung bình của bộ sưu tập
Điểm phù hợp Okapi của dj tài liệu cho truy vấn q là:
trong đó k1 (trong khoảng từ 1,0-2), b (thường là 0,75) và k2 (trong khoảng 1-1000) là thông số
Một chức năng cho điểm khác là trọng số chuẩn hóa có trục chức năng điểm số,
ký hiệu là pnw [55]:
Trong đó s là một tham số (thường được đặt thành 0,2) Lưu ý rằng đây là những kinh nghiệm chức năng dựa trên trực giác và đánh giá thử nghiệm Có nhiều biến thể của các chức năng này được sử dụng trong thực tế
Trang 66.2.3 Mô hình ngôn ngữ thống kê
Các mô hình ngôn ngữ thống kê (hoặc đơn giản là các mô hình ngôn ngữ) dựa trên
xác suất và có nền tảng trong lý thuyết thống kê Ý tưởng cơ bản của việc này cách tiếp cận để thu hồi là đơn giản Đầu tiên, nó ước tính một mô hình ngôn ngữ cho mỗi tài liệu và sau đó xếp hạng tài liệu theo khả năng của truy vấn đã cho mô hình ngôn ngữ Ý tưởng tương tự trước đây đã được sử dụng trong tự nhiên xử lý ngôn ngữ và nhận dạng giọng nói Việc xây dựng và thảo luận trong phần này dựa trên những người trong [68, 69] Lấy thông tin bằng cách sử dụng
mô hình ngôn ngữ lần đầu tiên được đề xuất bởi Ponte và Croft [46]
Đặt truy vấn q là một chuỗi các thuật ngữ, q = q1q2 Khắc qm và tài liệu
bộ sưu tập D là một tập hợp các tài liệu, D = {d1, d2, tầm, dN} Trong ngôn ngữ
mô hình hóa phương pháp tiếp cận, chúng tôi coi xác suất của một truy vấn q là Được tạo ra bởi một mô hình xác suất dựa trên một tài liệu dj, tức là, Pr (q | dj)
Để xếp hạng các tài liệu trong truy xuất, chúng tôi quan tâm đến việc ước tính xác suất sau Pr (dj | q) Sử dụng quy tắc Bayes, chúng ta có
Để xếp hạng, Pr (q) là không cần thiết vì nó giống nhau cho mọi tài liệu
Pr (dj) thường được coi là bề ngoài và do đó sẽ không ảnh hưởng đến thứ hạng
Ta chỉ cần tính Pr (q | dj)
Mô hình ngôn ngữ được sử dụng trong hầu hết các công việc hiện có được dựa trên unigram, tức là chỉ các thuật ngữ riêng lẻ (từ) được xem xét Đó là, mô hình giả định
rằng mỗi thuật ngữ (từ) được tạo độc lập, về cơ bản là một phân phối đa thức trên các từ Trường hợp chung là n-gram mô hình, trong đó thuật ngữ thứ n được quy định dựa trên các điều khoản n-1 trước đó
Dựa trên phân phối đa cực và mô hình unigram, ta có:
Trong đó fiq là số lần mà thuật ngữ ti xảy ra trong q và
Trang 7| IV | 1Pr (ti | d j) 1 Vấn đề truy xuất được giảm xuống để ước tính Pr (ti | dj),
có thể là tần số tương đối,
Hãy nhớ lại rằng fij là số lần mà thuật ngữ ti xảy ra trong tài liệu dj | dj | biểu thị tổng số từ trong dj
Tuy nhiên, một vấn đề với ước tính này là một thuật ngữ không xuất hiện trong
dj có xác suất bằng 0, đánh giá thấp xác suất của thuật ngữ vô hình trong tài liệu Tình huống này tương tự như văn bản phân loại bằng mô hình Bayes ngây thơ (xem Phần 3.7) Một số 0 xác suất thường được gán cho mỗi thuật ngữ chưa thấy trong tài liệu, được gọi là làm mịn Làm mịn điều chỉnh các ước tính của xác suất để tạo ra xác suất chính xác hơn Tên làm mịn xuất phát từ thực tế là các kỹ thuật này có xu hướng phân phối nhiều hơn thống nhất, bằng cách điều chỉnh các xác suất thấp như xác suất 0 trở lên, và xác suất cao trở xuống Không chỉ làm phương pháp làm mịn nhằm mục đích ngăn chặn xác suất bằng không, nhưng họ cũng cố gắng cải thiện độ chính xác của mô hình nói chung Làm mịn phụ gia truyền thống là
Khi 𝝀 = 1, đó là làm mịn Laplace và khi 0 < 𝝀 <1, đó là
Làm mịn Lidstone Nhiều phương pháp làm mịn tinh vi khác
có thể được tìm thấy trong [16, 69]