Câu 7: Định nghĩa mô hình markov ẩn 2 chiều và hay cho biết mô hình markov ẩn phù hợp với lớp bài toán nhận dạng nào?. Hãy có biết có những phương pháp nào thường sử dụng để giảm số ch
Trang 1Phần Lý Thuyết
Câu 1: Trình bày các bước cơ bản của một hệ thống nhận dạng đối tượng Mô hình hóa
bài toán nhận dạng
Câu 2: Giả sử rằng cho N lớp w1,…, wN và một véc tơ đặc tính x Hãy viết luật Bayes cho sự phân lớp véc tơ đặc tính x thuộc về lớp wi
Câu 3: Định nghĩa hàm phân biệt và các dạng của hàm phân biệt Trình bày luật ra quyết
định Bayes có độ chắc chắn nhất
Câu 4: Boosting là gì? Boosting thuộc về phương pháp nhận dạng nào? Em có thể liệt kê
một vài thuật toán Boosting mà em được biết?
Câu 5: Theo em có thể xây dựng hệ thống nhận dạng biển số xe lưu hành trên đường phố
hay không? Hệ thống gồm những giai đoạn nào? Nêu những khó khăn khi xây dựng hệ thống này?
Câu 6: Nêu sự khác biệt chính giữa hai phương pháp phân lớp dựa vào ước tính độ tương
tự chắc chắn nhất và sử dụng đường ranh giới quyết định
Câu 7: Định nghĩa mô hình markov ẩn 2 chiều và hay cho biết mô hình markov ẩn phù
hợp với lớp bài toán nhận dạng nào? Nêu ưu điểm và nhược điểm của mô hình này
Câu 8: Ý nghĩa của phương pháp SVM? Dựa vào gì để xác định biên của các lớp? Hàm
phân lớp tuyến tính của SVM có những dạng nào? Em hãy cho biết các dạng đó
Câu 9: Phân biệt giữa hai khái niệm phân lớp và phân cụm dữ liệu? Khi nào thì không
phân cụm dữ liệu được và khi nào thì không phân lớp tuyến tính dữ liệu được? Hãy cho biết các giải pháp?
Câu 10: Ý nghĩa của giảm số chiều trong biểu diễn dữ liệu? Hãy có biết có những
phương pháp nào thường sử dụng để giảm số chiều Trình bày các bước cơ bản thuật toán
và ý nghĩa của mỗi bước trong thuật toán
Câu 10: Ý nghĩa của phép biến đổi PCA Hạn chế của PCA là gì?
Câu 11: Thế nào là lề (margin)? Để cực đại hóa lề của các lớp dữ liệu ta chọn phương
pháp huấn luyện dữ liệu nào? Vì sao?
Câu 12: Để tiến hành thực nghiệm về huấn luyện dữ liệu ta cần phải tiến hành những
bước nào? Và sử dụng phương pháp nào để lượng hóa quá trình học hay huấn luyện mẫu
Câu 13: Hãy cho biết có những phương pháp học nào? Nêu rõ ưu điểm và nhược điểm
của mỗi phương pháp học
Câu 14: So sánh sự giống và khác nhau giữa mô hình Boosting và mô hình rừng ngẫu
nhiên Nêu ưu điểm và nhược điểm của hai mô hình này Đối với lớp bài toán nhận dạng nào thì sử dụng hai mô hình trên là phù hợp
Trang 2Câu 15: Vì sao gọi là rừng ngẫu nhiên? Tính ngẫu nhiên thể hiện ở đâu trong rừng?
Phần Bài Tập
Bài 1 Cho một không gian biểu diễn đối tượng ngẫu nhiên:
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
=
0 0
0
1
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 1 0
1
2
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 0 0
1
3
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 0 1
1
4
X
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 1 0
0
5
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 1 1
0
6
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 0 1
0
7
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 1 1
1
8
X
a) Tính ma trận tương quan R và ma trận hiệp biến A của tập đối tượng ngẫu
nhiên
b) Thực hiện một phép lọc trích lọc 2 đặc tính
c) Đánh giá sai số bình phương tối thiểu nhỏ nhất để giảm thứ nguyên của không gian biểu diễn đối tượng
d) Thực hiện một phép trích lọc đặc tính sử dụng phương pháp phân tích thành các thành phần chính
Câu 2 Giả sử rằng chẳng hạn đã xây dựng được thuật toán A Cho tập mẫu huấn luyện
)}
, ( ), ,
,
{(x1 y1 x2 y2
T = , trong đó xi là mẫu huấn luyện và yi là nhãn của mẫu xi ,
yi ∈{-1, +1} Hãy viết một thuật toán huấn luyện mẫu cho phép cập nhật tập mẫu T đã
cho với thuật toán học A đã có (SVM, hoặc Boosting, hoặc mạng Nơ ron …)
Câu 3 Để nhận dạng một chuỗi các ký tự chữ viết tay rời rạc từ “A” đến “Z” người ta sử
dụng mô hình markov ẩn hai chiều Giả sử rằng mỗi ký tự viết tay được biểu diễn bởi một mô hình markov ẩn hai chiều độc lập λ(π, A, B) và đã được huấn luyện Hãy viết thuật toán nhận dạng một ký tự viết tay Y
Câu 4 Cho một tập các đối tượng χ ={ }X i ,i= K Biết sự phân lớp ban đầu của tập đối tượng là L lớp gồm C1, C2, , CL Trong mỗi lớp Cj, j=1, ,L đã biết một số đối tượng nhưng không biết đối tượng mô hình mẫu Hãy xây dựng hàm ra quyết định để khi xuất hiện một đối tượng mới M ta cần phải xếp nó vào một trong các lớp này
Câu 5 Xem xét một mô hình Markov ẩn có trạng thái rõ w0 có một quan sát duy nhất là
v0 với ma trận xác suất chuyển dịch các trạng tái aij và ma trận xác suất các quan sát bjk (ở
đó chỉ số của ma trận bắt đầu bằng 0) như sau:
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
=
1 0 5 0 4 0
5 0 3 0 2 0
0 0 1
ij
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
=
6 0 4 0 0
3 0 7 0 0
0 0 1
jk b
a) Hãy vẽ đồ thị biểu diễn của mô hình markov ẩn này
b) Giả sử rằng trạng thái ẩn khởi tạo tại thời điểm t=0 là w1 Bắt đầu từ t=1, hãy cho biết xác suất quan sát dãy V3={v2, v1, v0}
Bài 6 a) Chứng tỏ rằng hàm logistic sigmoid σ( ) =σ( 1 −σ)
dz
z d
b) Log-likelihood âm đối với huấn luyện hồi qui logistic là
Trang 3∑ + − −
−
=
i
i T i
i T
y w
L( ) logσ( ) ( 1 ) log( 1 σ( ))
Chứng tỏ rằng graident của nó có dạng thức đơn giản như sau:
∑ −
−
i
i i T
y dw
dL
)) (
Bài 7 Hãy chứng tỏ rằng nếu k1(x, x’) và k2(x, x’) là đều là nhân hợp lệ, thì k1(x, x’) +
k2(x, x’) cũng hợp lệ (gợi ý, bắt đầu với các tính chất của Ma trận Gram Ki liên quan với
ki(x, x’))
Bài 8. Giả sử có N lớp C1, C2, …, CN và một véc tơ đặc tính X, hãy cho biết luật ra quyết định Bayes phân lớp với xác suất tiền nghiệm (prior probability) của các lớp và mật
độ xác suất có điều kiện (class-conditional probability densities) của X
Bài 9 Cho một tập để học T ={ }X j ,j=1 8có sự phân lớp ban đầu như sau:
1
C :
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 0 0
0
1
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 1 0
1
2
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 0 0
1
3
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 0 1
1
4
X
2
C :
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 1 0
0
5
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 1 1
0
6
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 0 1
0
7
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
= 1 1
1
8
X
e) Tìm phương trình phân tách tuyến tính (nếu có thể) bằng thủ tục gia tăng cố định Viết một giải thuật thực hiện bài toán này theo thuật toán Perceptron và nhận xét
f) So sánh kết quả tìm được với kết quả đạt được theo phương pháp thống kê với giả thuyết rằng các đối tượng có phân bố Gauss
Bài 10 Cho một không gian đối tượng biểu diễn bởi các vector nhị phân, giả thiết không
gian này đã được phân chia thành 2 lớp theo qui luật ra quyết định có dạng như sau:
1
C
x∈ nếu số các thành phần khác 0 của X là một số chẵn
2
C
x∈ nếu số các thành phần khác 0 của X là một số lẽ
Hãy chứng tỏ không gian đối tượng này không thể phân tách tuyến tính
Bài 11 Trong một kênh truyền tin nhị phân thường bị nhiễu phá hủy, giả thiết có phân bố
xác suất Gaussian Hãy áp dụng qui tắc ra quyết định Bayes để xây dựng một qui luật phân biệt (nhận dạng) tín hiệu ở đầu ra của kênh là tín hiệu “0” hay là “1”
Bài 12 Giả sử rằng p(x|w1) và p(x|w2) được định nghĩa như sau:
Trang 4a) Tìm lỗi phân lớp tối thiểu luật g(x) đối với bài toán 2 lớp này, giả sử rằng P(w1) = P(w2)=0.5
b) Cho xác xuất tiền nghiệm của lớp thứ nhất, được xem như là , sao cho P(w1)> , luật phân lớp với lỗi tối thiểu phải luôn luôn là w1 đối với x Xác định
Bài 13 Hãy để các mẫu được rút ra một cách liên tiếp, xác suất P(wi) của các trạng thái
tự nhiên lựa chọn độc lập là chưa biết Đặt = 1 nếu trạng thái tự nhiên của mẫu thứ k
là wi và =0 trong trường hợp ngược lại
a) Chứng tỏ rằng:
b) Cho công thức ở trên, chứng minh rằng ước tính độ tương tự chắc chắn nhất đối với P(wi) là:
Bài 14 Tính các xác suất từ mạng Bayes dưới đây
a) P(A, B, C, D)
b) P(A| B)
c) P(C|B)
d) P(B|D)
Bài 15 Cho một tập các đối tượng χ ={ }X i ,i= K Biết sự phân lớp ban đầu của tập đối tượng là L lớp gồm C1, C2, , CL Hãy xây dựng hàm ra quyết định để khi xuất hiện một đối tượng mới M ta cần phải xếp nó vào một trong các lớp này Biết rằng
a) Trong mỗi lớp Cj, j=1, ,L đã biết một số đối tượng nhưng không biết đối tượng
mô hình mẫu
b) Biết mô hình mẫu của mỗi lớp Cj, j=1, ,L
Bài 16 Phân biệt tuyến tính Fisher
a) Phương pháp phân biệt tuyến tính Fisher là gì?
b) Cho dữ liệu 2 chiều đối với các lớp
C1 = [(1, 1), (1, 2), (1, 4), (2, 1), (3, 1), 3, 3)] và
Trang 5C2 = [(2, 2), (3, 2), (3, 4), (5, 1), 5, 4), (5, 5)]
- Xác định đường chiếu tối ưu trong không gian đơn chiều
- Cho biết ánh xạ của các điểm đến đường thẳng cũng như Bayes phân biệt giả định
phân phối phù hợp