CÂU HỎI TRẮC NGHIỆM KHAI THÁC DỮ LIỆU. Bộ câu hỏi trắc nghiệm thi kết thúc học phần mới nhất được cập nhật của 2023. Câu hỏi có đáp án chuẩn xác 100%. Các từ khóa về KMeans, clusters trong gom cụm phân cấp (hierachical clustering), cách tính các điểm trong không gian, giải thuật, giá trị thuộc tính...
Trang 1CÂU HỎI TRẮC NGHIỆM KHAI THÁC DỮ LIỆU
Các ý nào sau đây đúng với K-Means:
1 K-Means cực kỳ nhạy cảm với việc khởi tạo tâm cụm
2 Việc khởi tạo tâm cụm không tốt sẽ dẫn đến việc hội tụ kém 3 Việc
khởi tạo tâm cụm không tốt sẽ dẫn đến kết quả gom cụm kém
Chỉ ra mệnh đề sai về K-Means Select one:
a Giải thuật gom cụm K-means tương tự giải thuật KNN (K- nearest neighbor) b Tất
cả các mệnh đề đều sai
c K-Means phân chia n đối tượng dữ liệu thành k cụm
d K-means là một phương pháp lượng tử hóa vector (vector quantization)
Trang 3Cho biết kết quả nào khi gom cụm dùng phương pháp gom cụm phân cấp với độ đo AVERAGE-Link Select one:
a
Trang 4Câu hỏi 7
b
c
d
Trang 5Cho dữ liệu gồm 6 điểm trong không gian 2 chiều và khoảng cách giữa các điểm thể hiện ở các bảng sau:
Cho biết kết quả nào khi gom cụm dùng phương pháp gom cụm phân cấp với độ đo MAX Select one:
a
Trang 6b
c
d
Trang 7Trường hợp nào sau đây K-Means không cho kết quả tốt
1 Dữ liệu có ngoại biên (outlier)
2 Dữ liệu có mật độ phân bố thay đổi
3 Dữ liệu phân bố theo hình tròn
4 Dữ liệu phân bố theo dạng hình không lồi (non-convex)
Trang 9a Node trung gian
a Là độ hiệu quả của giải thuật khi thực thi
b Được tính dựa trên các độ đo và qua thực nghiệm
c Được chứng minh bằng tính đúng đắn của giải thuật
b Độ đo khoảng cách định nghĩa trước
c Trung tâm cụm khởi tạo trước
d Tất cả các ý còn lại
Chỉ ra mệnh đề sai về K-Means Select one:
a Giải thuật gom cụm K-means tương tự giải thuật KNN (K- nearest neighbor) b.K-means là một phương pháp lượng tử hóa vector (vector quantization) c Tất cả các mệnh đề đều sai
d K-Means phân chia n đối tượng dữ liệu thành k cụm
Trang 10Các lần chạy K-means có khả năng cho kết quả khác nhau là đúng hay sai?
Điều kiện dừng của giải thuật K-Means có thể là:
Select one or more:
a Nếu giá trị hàm mục tiêu có giá trị dưới ngưỡng cho trước
b Sau một số lần lặp định trước
c Việc phân cụm không thay đổi
d Các trung tâm cụm không thay đổi
Những trường hợp nào dưới đây K-Means thất bại:
1 Dữ liệu có nhiều nhiễu
2 Dữ liệu có phân bố mật độ thay đổi
3 Dữ liệu phân bố dạng dạng tròn (round shapes) 4 Dữ liệu phân bố dạng không lồi (non-convex shapes)
Select one:
a 3 và 4
b 2 và 3
Trang 11Các ý nào sau đây đúng với K-Means:
1 K-Means cực kỳ nhạy cảm với việc khởi tạo tâm cụm
2 Việc khởi tạo tâm cụm không tốt sẽ dẫn đến việc hội tụ kém 3 Việc
khởi tạo tâm cụm không tốt sẽ dẫn đến kết quả gom cụm kém
Thao tác nào sau đây có khả năng cải thiện kết quả gom cụm K-Means:
1 Chạy nhiều lần với các khởi tạo tâm cụm khác nhau
2 Điều chỉnh số lần lặp
3 Tìm ra số cụm tối ưu
Select one:
Trang 13Câu hỏi 31
K-Means thuộc giải thuật học máy
Select one:
a Không có giám sát (unsupervised learning)
b Có giám sát (supervised learning)Supervised
c Tất cả đều sai
Số lượng bộ phân loại và số lượng dataset trong tutorial trên lần
lượt là Select one:
a Sinh ngẫu nhiên dữ liệu thực nghiệm
b Tạo bộ phân loại với các tham số cho trước
c Tạo bộ phân loại với các tham số mặc định
Trang 14Áp dụng giải thuật apriori trên tập dữ liệu gồm 5 loại mục {A, B, C, D, E}
Giả sử thu được các 2-itemsets phổ biến là {A, B}, {A, C}, {A, D}, {B, C}, {B, E}, {C, E}
Hỏi trong các itemsets sau, itemset nào sẽ là ứng viên 3-itemsets cần xem xét ở vònglặp tiếp theo?
Select one or more:
Cho biết các 1-itemsets nào là phổ biến?
Select one or more:
Trang 15phổ biến và luật kết hợp trên cho dataset sau:
c Độ hỗ trợ đúng bằng ngưỡng cho trước
d Độ hỗ trợ thấp hơn hoặc bằng ngưỡng cho trước
Trang 16a Khi số ngưỡng của độ hỗ trợ rất lớn, thời gian thực thi của 2 thuật toán FP-Growth
và Apriori là tương đương
b Thuật toán FP-Growth thực hiện nhanh hơn thuật toán Apriori
c Với cùng ngưỡng độ hỗ trợ, thời gian thức thi thuật toán FP-Growth luôn ít hơn thời gian thực thi thuật toán Apriori
d Thuật toán Apriori thực hiện nhanh hơn thuật toán FP-Growth
Trang 17a Tất cả các câu còn lại đều sai
b Học tăng cường (reinforcement learning)
c Học không giám sát (unsupervised learning)
d Học có giám sát (supervised learning)
Trang 18b Ngưỡng tin cậy MinConf
c Số điểm tối thiểu MinPTs
a Dữ liệu bị thiếu hoặc không đầy đủ
b Dữ liệu khả năng bị sai
Trang 19c Thu giảm số chiều và lấy mẫu
d Thu giảm số chiều
Trang 20d Dữ liệu khả năng bị sai
thời gian thực thi của thuật toán Apriori
b Với cùng số lượng giao dịch như nhau, thời gian thức thi thuật toán FP-Growth luôn íthơn thời gian thực thi thuật toán Apriori
c Thuật toán Apriori thực hiện nhanh hơn thuật toán FP-Growth
d Hai thuật toán FP-Growth và Apriori đều thức thi với thời gian rất nhỏ
Mô tả nào sau đây đúng cho khái niệm
"underfitting" Select one:
a Khi mô hình học quá đơn giản dẫn đến khi thực thi trên tập dữ liệu huấn luyện và tập
dữ liệu kiểm tra đều có nhiều dự đoán sai
Trang 21b Khi mô hình học quá phức tạp dẫn đến thời gian thực thi lớn nhưng có kết quả chính xác
c Khi mô hình học quá phức tạp dẫn đến thực thi chính xác trên tập dữ liệu huấn luyện nhưng nhiều
dự đoán sai trên tập dữ liệu kiểm tra
d Tất cả các câu còn lại đều sai
Trang 22Câu hỏi 58
Cho trước ngưỡng hỗ trợ minsup = 60% và ngưỡng tin cậy minconf
= 80% để tìm tập phổ biến và luật kết hợp trên cho dataset sau:
a lấy ngẫu nhiên k-item sau đó ghép lại với nhau
b tạo ra từ tập tin chứa k-1 item với nhau với điều kiện là 2 tập k-item này phải có chung nhau k-2
item
c tổ hợp k-item từ các item có trong cơ sở dữ liệu giao dịch
d sinh mọi tập con có k-item có trong cơ sở dữ liệu giao dịch
Trang 23d support(I1) >= support(I2) >= support(I3)
Cho một tập dữ liệu và một ngưỡng hỗ trợ minsup
Gọi A là số lượng frequent itemset
B là số lượng closed frequent
itemsets C là số lượng max
frequent itemsets tìm được
Cho biết mệnh đề nào sau đây đúng:
a regression
b clustering
c data preprocessing
Trang 24d frequent pattern mining
Trang 25Trong khai thác luật kết hợp, một luật được xuất hiện ở kết quả nếu
Select one:
a Độ hỗ trợ và độ tin cậy không vượt quá các ngưỡng cho trước
b.Độ hỗ trợ vượt ngưỡng cho trước hoặc độ tin cậy vượt ngưỡng cho trước
c Độ hỗ trợ và độ tin cậy vượt các ngưỡng cho trước
d.Độ hỗ trợ không được cao hơn ngưỡng hỗ trợ hoặc độ tin cậy không được cao hơn ngưỡng tin cậy cho
a Tổ hợp k item từ các item có trong cơ sở dữ liệu giao dịch
b.Lấy ngẫu nhiên k item sau đó ghép lại với nhau
c Tạo ra từ tập chứa k-1 item bằng cách ghép 2 tập k-1 item với nhau với điều kiện là 2 tập k-1 item này
phải có chung nhau k-2 item
d.Sinh mọi tập con có k item từ các item có trong cơ sở dữ liệu giao dịch
Trang 26d.L={abck}