THI GIỮA HỌC KÌ II MÔN XÁC SUẤT VÀ THÔNG KÊ ỨNG DỤNG CHO CÔNG NGHỆ THÔNG TIN THI GIỮA HỌC KÌ II MÔN XÁC SUẤT VÀ THÔNG KÊ ỨNG DỤNG CHO CÔNG NGHỆ THÔNG TIN THI GIỮA HỌC KÌ II MÔN XÁC SUẤT VÀ THÔNG KÊ ỨNG DỤNG CHO CÔNG NGHỆ THÔNG TIN
Trang 1TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT
NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC
THẮNG KHOA CÔNG NGHỆ THÔNG
TIN
THI GIỮA HỌC KÌ II
THI GIỮA HỌC KÌ II MÔN XÁC
SUẤT VÀ THÔNG KÊ ỨNG DỤNG
CHO CÔNG NGHỆ THÔNG TIN
Người hướng dẫn: MAI DUY TÂN Người thực hiện: VÕ VĂN CHIẾN
Lớp : 20050301
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022
Trang 2THI GIỮA HỌC KÌ II
THI GIỮA HỌC KÌ II MÔN XÁC
SUẤT VÀ THÔNG KÊ ỨNG DỤNG
CHO CÔNG NGHỆ THÔNG TIN
Người hướng dẫn: MAI DUY TÂN Người thực hiện: VÕ VĂN CHIẾN
Lớp : 20050301
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022
Trang 4CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướngdẫn khoa học của GV Mai Duy Tân; Các nội dung nghiên cứu, kết quả trong đề tài này
là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những số liệu trongcác bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thuthập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo
Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như số liệucủa các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm
về nội dung luận văn của mình Trường đại học Tôn Đức Thắng không liên quan đến
những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có)
TP Hồ Chí Minh, ngày 14 tháng 03 năm
2022 Tác giả (ký tên và ghi rõ họ tên) Chien
Võ Văn Chiến
Trang 5TÓM TẮT
Tóm tắt các vấn đề nghiên cứu:
- Các khái niệm cơ bản về mật mã.
- Tìm hiểu về Monoalphabetic substitution ciphe.
- Tìm hiểu về Frequency analysis.
Trang 6MỤC LỤC
LỜI CẢM ƠN i
TÓM TẮT 1
MỤC LỤC 2
DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT 4
DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ 5
CHƯƠNG 1 – GIỚI THIỆU 6
1 Các khái niệm cơ bản về mật mã 6
1.1 Mã hóa và mã hóa 6
1.2 Hệ thống mật mã đối xứng 6
1.3 Hệ thống mật mã bất đối xứng 7
CHƯƠNG 2 – MONOALPHABETIC SUBSTITUTION CIPHER 8
1 Khái quát 8
2 Phương pháp và ví dụ 9
3 Thuật toán 9
4 Nhận xét 10
CHƯƠNG 3 – FREQUENCY ANALYSIS 10
1 Khái quát 10
2 Phương pháp và ví dụ 11
3 Thuật toán 15
4 Nhận xét 15
Trang 7TÀI LIỆU THAM KHẢO 16 PHỤ LỤC 17
Trang 8DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT
Trang 9DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ
DANH MỤC HÌNH
Hình 1: Hệ thống mật mã đối xứng 7 Hình 2: Hệ thống mật bất mã đối xứng 8 DANH MỤC BẢNG
Bảng 1: Phân bố tần suất của ký tự 8
Trang 10CHƯƠNG 1 – GIỚI THIỆU
1 Các khái niệm cơ sở.
1.1 Mã hóa và giải mã
Mã hóa là phương pháp để biến thông tin (hình ảnh, văn bản, hình ảnh, …) từ định dạng bình thường sang dạng thông tin không thể hiểu được nếu không có phương tiện giải mã
Giải mã là phương pháp đưa thông tin ở dạng mã hóa về dạng thông tin ban đầu, đây làquy trình ngược của mã hóa quá trình giải mã được tiến hành như sau: Áp dụng các hàm
toán học Decryption lên thông tin CipherText để được thông tin đã giải mã Plaintext.
Một số hệ thống mã hóa bao gồm các thành phần:
- Thông tin trước khi mã hóa, ký hiệu là P (Plaintext)
- Thông tin sau khi mã hóa, ký hiệu là C (Ciphertext)
- Chìa khóa, ký hiệu là K (Key)
- Phương pháp mã hóa/ giải mã, ký hiệu là EID (Encryption/Decryption)
Phân loại các kiểu mã hóa:
- Mã hóa cổ điển
- Mã hóa một chiều
- Mã hóa đối xứng
- Mã hóa bật đối xứng
Mã hóa có vai trò rất quan trọng, đặc biệt là trong giao dịch điện tử bằng cacs loại tiền
mã hóa như Bitcoin chẳng hạn Nó giúp đảm bảo bí mật, toàn vẹn của thông tin, khi thông tin đó được truyền trên mạng Mã hóa cũng là nền tảng của kỹ thuật chũ ký điện tử, hệ thống PKI, … Một cách khái quát, ta có thể thấy mật mã có các ứng dụng như sau:
- Bảo vệ truyền tin mật trong quân sự và ngoại giao, bảo vệ thông tin các lĩnh vực tầm cỡ lợi ích quốc gia
- Bảo vệ các thông tin nhạy cảm trong giao dịch như hồ sơ pháp lý hay y tế, các giao dịch tài chính, …
- Bảo vệ các thông tin nhạy cảm, riêng tư trong liên lạc với thế giới qua các giao dịch
Trang 11Hình 1: Hệ thống mật mã đối xứng
Hệ thống mật mã đối xứng gồm:
- Bản rõ (Plaintext-M): bản tin được sinh ra bởi bên gửi.
- Bản mật (Ciphertext-C): bản tin che giấu thông tin của bản rõ, được gửi tới bên
nhận qua một kênh không bí mật
- Khóa (Ks): là giá trị ngẫu nhiên và bí mật được chia sẻ giữa các bên trao đổi thông
tin
- Mã hóa (Encrypt-E): C = E(KS, M)
- Giải mã (decrypt): M = D(KS, C) = D(KS, E(KS, M))
Ưu điểm: tính đơn giản, vì nó sử dụng một khóa duy nhất cho cả mã hóa và giải
mã Do đó, các thuật toán mã hóa đối xứng nhanh hơn đáng kể so với các thuật toán không đối xứng và yêu cầu ít sức mạnh xử lý hơn
Nhược điểm: lỗ hỏng Việc phải chuyển khóa cho bên kia là một lỗ hổng bảo mật vìnếu rơi vào tay kẻ xấu, thông tin sẽ được giải mã Do đó, cần đặc biệt chú ý đến các cách có thể để đánh chặn khóa và tăng cường bảo mật đường truyền
Trang 12Hình 2: Hệ thống mật mã bất đối xứng
Hệ thống mật mã bất đối xứng gồm:
- Bản rõ (Plaintext-M): bản tin được sinh ra bởi bên gửi.
- Bản mật (Ciphertext-C): bản tin che giấu thông tin của bản rõ, được gửi tới bên
nhận qua một kênh không bí mật
- Khóa: Bên nhận có 1 cặp khóa (KUB và KRB)
- Mã hóa (Encrypt-E): C = E(Kub, M)
- Giải mã (Decrypt): M = D(Krb, C) = D(Krb, E(Kub, M))
Ưu điểm: tính bảo mật của nó vì khóa riêng tư không cần phải được chuyển cho bất
kỳ ai Điều này giúp đơn giản hóa đáng kể việc quản lý khóa trong các mạng lớn hơn
Nhược điểm: Độ phức tạp cao hơn, tốc độ thấp hơn và nhu cầu cao hơn về tài nguyên tính toán
CHƯƠNG 2 – MONOALPHABETIC SUBSTITUTION CIPHER
1 Khái quát.
A monoalphabetic substitution cipher là một mật mã trong đó mỗi lần xuất hiện của một ký hiệu bản rõ được thay thế bằng một ký hiệu bản mã tương ứng để tạo ra bản mã Chìa khóa cho một mật mã như vậy là một bảng tương ứng hoặc một hàm mà từ đó tính toán tương ứng
A monoalphabetic substitution cipher còn được gọi là a simple substitution cipher, dựatrên một cấu trúc thay thế cố định Đó là sự thay thế được cố định cho mỗi chữ cái của bảng chữ cái Ví dụ, nếu “a” được mã hóa thành “C”, thì mỗi chúng ta nhìn thấy chữ “a” trong bản rõ, chúng ta sẽ thay thế bằng chữ “C” trong bảng mã
Có rất nhiều monoalphabetic substitution cipher khác nhau, trên thực tế là rất nhiều, vìmỗi chữ cái có thể được mã hóa thành bất kỳ ký hiệu nào, không chỉ là một chữ cái khác.Lịch sử của monoalphabetic substitution cipher có thể được bắt nguồn từ những nền văn minh sớm nhất, và trong thời gian dài
Số lượng hoán vị của 26 chữ cái là 26! = 4x1026 (số khóa) Phương pháp này còn được gọi là phương pháp mã hóa an toàn trong suốt 1000 năm trước công nguyên
Trang 132 Phương pháp và ví dụ.
- Viết ra bảng chữ cái A, B, C, D … theo thứ tự
- Chọn hoán vị ngẫu nhiên được chọn của các chữ cái trong bảng chữ cái
- Bên dưới của bảng chữ cái , viết hoán vị của các chữ cái trong bảng chữ cái Thay thế từng ký tự bản rõ bằng cách thay thế ký tự hoán vị nằm bên dưới nó trong bảng
Ví dụ, hoán vị được chọn là K, D, G, F, …, U, O Thì bản rõ được mã hóa thành
“WJBXP”
Khi có được bản mã thì sẽ thay thế các chữ cái của bản mã ở hàng dưới cùng bằng chữ cái rõ ràng tương ứng với hàng trên Ta có, bản mã “WJBXP” khi đó nó được giải mã thành “joins”
Ví dụ: cho một bảng mã như sau:
Ví dụ: FAR ABOVE CAYUGA’S WATERS được coi là OCVCA NWYIC QPBCELCGYE
Để giải mã một bản rõ nhận được từ thuật toán mật mã , người có bản mã ciphertext
cần biết khóa, do đó yêu cầu một giao thức về trao khoá
Đơn giản nhất có thể thực hiện là người gửi tin ghi khoá ra đĩa và chuyển đĩa cho người nhận Rõ ràng cách làm này đơn giản nhưng thực tế không an toàn Trong thực tế người ta sử dụng nhiều giao thức phức tạp và tinh vi hơn
Trang 14print (decrypt)
4 Nhận xét.
A monoalphabetic substitution cipher có số lượng khóa rất lớn (26!) nên việc phá mã rất lâu và khó Và hiện nay, các hệ thống máy tính hiện đại cũng chưa đủ mạnh để có thể tấn công bạo lực nằm phá vỡ hệ thống
Tuy nhiên, monoalphabetic substitution cipher có thiết kế đơn giản và nó dễ có sai xót trong thiết kế nên hệ thống mật mã có thể dẽ bị phá vỡ
CHƯƠNG 3 – FREQUENCY ANALYSIS
1 Khái quát.
Frequency analysis (còn được gọi là counting letters) là nghiên cứu về tần suất của các chữ cái hoặc nhóm chữ cái trong một bản mã Phương pháp này được sử dụng như một biện pháp hỗ trợ để phá vỡ classical ciphers
Vào thế kỉ 19, Al-Kindi một nhà hiền triết người Ả Rập đã tìm ra cách giải mã khả thi khác Dựa trên các vấn đề:
- Trong ngôn ngữ Anh, tần suất xuất hiện của các chữ cái là không đồng đều, chữ
E là chữ cái đucợ xuất hiện nhiều nhất, còn chữ Z, Q, J là những chữ cái thường
ít được sử dụng
- Nếu chữ E được thay thế bằng chữ K thì tần suất xuất hiện của chữ K trong bản
mã là 13.05%
Trang 15Bảng 1: Phân bố tần suất của ký tự.
Mỗi ngôn ngữ có một chuỗi ký tự điển hình và phổ biến Trong tiếng Anh, có các
bigrams thông dụng, như tr, er, on, an, ss, tt và ee
Phân tích tần số được sử dụng để phá vỡ mật mã thay thế Tìm các chữ cái phổ biến trong bản mã và cố gắng thay thế chúng bằng các chữ cái phổ biến trong ngôn ngữ được sửdụng
Kẻ tấn công thường kiểm tra một số khả năng và thực hiện một số thay thế các chữ cái trong bản mã Tìm kiếm những từ có thể xuất hiện và dựa vào đó để thay thế nhiều hơn Sửdụng máy tính, có thể thử rất nhiều tổ hợp trong thời gian tương đối ngắn
Ví dụ, nếu trong bản mã được phân tích, chữ cái phổ biến nhất là v , người ta có thể
dự đoán rằng v thay thế e hoặc o (một trong những chữ cái phổ biến nhất trong tiếng Anh)
Trang 16LISSO GK LG, MFU OISF WS NGQFO OIS GNNQKKSFNSL GC SMNI DSOOSK WS NMDD OIS EGLO CKSJQSFODY GNNQKKPFR DSOOSK OIS 'CPKLO', OIS FSXO EGLO GNNQKKPFR
DSOOSK OIS 'LSNGFU' OIS CGDDGWPFR EGLO GNNQKKPFR DSOOSK OIS 'OIPKU', MFU LG
GF, QFOPD WS MNNGQFO CGK MDD OIS UPCCSKSFO DSOOSKL PF OIS HDMPFOSXO
LMEHDS OISF WS DGGB MO OIS NPHISK OSXO WS WMFO OG LGDVS MFU WS MDLG
NDMLLPCY POL LYEAGDL WS CPFU OIS EGLO GNNQKKPFR LYEAGD MFU NIMFRS PO OG OIS CGKE GC OIS 'CPKLO' DSOOSK GC OIS HDMPFOSXO LMEHDS, OIS FSXO EGLO NGEEGF LYEAGD PL NIMFRSU OG OIS CGKE GC OIS 'LSNGFU' DSOOSK, MFU OIS CGDDGWPFR EGLO NGEEGF LYEAGD PL NIMFRSU OG OIS CGKE GC OIS 'OIPKU' DSOOSK, MFU LG GF, QFOPD
WS MNNGQFO CGK MDD LYEAGDL GC OIS NKYHOGRKME WS WMFO OG LGDVS.”
- Tìm tần số của các chữ cái xuất hiện trong bảng sẽ nhận được các giá trị.
- Chúng ta có thể thấy tần số xuất hiện trong bảng mã Ở đây có các ký tự phổ biến nhất là “S”, tiếp theo là “O” Chúng đại diện cho “e” và “t” Tiếp theo chúng ta thay thế tất cả các ký tự “S” và “O” lần lượt là “e” và “t”
“GFe WMY tG LGDVe MF eFNKYHteU EeLLMRe, PC We BFGW PtL DMFRQMRe,
PL tG CPFU M UPCCeKeFt HDMPFteXt GC tIe LMEe DMFRQMRe DGFR eFGQRI tGCPDD GFe LIeet GK LG, MFU tIeF We NGQFt tIe GNNQKKeFNeL GC eMNI DetteK
We NMDD tIe EGLt CKeJQeFtDY GNNQKKPFR DetteK tIe 'CPKLt', tIe FeXt EGLt GNNQKKPFR DetteK tIe 'LeNGFU' tIe CGDDGWPFR EGLt GNNQKKPFR DetteK tIe 'tIPKU', MFU LG GF, QFtPD We MNNGQFt CGK MDD tIe UPCCeKeFt DetteKL PF tIeHDMPFteXt LMEHDe tIeF We DGGB Mt tIe NPHIeK teXt We WMFt tG LGDVe MFU
We MDLG NDMLLPCY PtL LYEAGDL We CPFU tIe EGLt GNNQKKPFR LYEAGD MFU NIMFRe Pt tG tIe CGKE GC tIe 'CPKLt' DetteK GC tIe HDMPFteXt LMEHDe, tIe FeXt EGLt NGEEGF LYEAGD PL NIMFReU tG tIe CGKE GC tIe 'LeNGFU' DetteK, MFU tIe CGDDGWPFR EGLt NGEEGF LYEAGD PL NIMFReU tG tIe CGKE GC tIe 'tIPKU' DetteK, MFU LG GF, QFtPD We MNNGQFt CGK MDD LYEAGDL GC tIe NKYHtGRKME We WMFt tG LGDVe.”
- Trong bảng mã có chuỗi ký tự “tle” xuất hiện thường xuyên Trong tiếng Anh, 3 ký
tự phổ biến nhất là “the” Điều này có nghĩa là, chúng ta sẽ thay thế ký tự “l” được giải mã thành “h”
- Trong bảng mã thấy tần số xuất hiện của ký tự “G” là có tần suất xuất hiện nhiều nhất và có chuỗi ký tự “tG” có nghĩa duy nhất là “to”, vì vậy chọn “G” là “o”
“oFe WMY to LoDVe MF eFNKYHteU EeLLMRe, PC We BFoW PtL DMFRQMRe, PL
to CPFU M UPCCeKeFt HDMPFteXt oC the LMEe DMFRQMRe DoFR eFoQRh to CPDD oFe Lheet oK Lo, MFU theF We NoQFt the oNNQKKeFNeL oC eMNh DetteK
We NMDD the EoLt CKeJQeFtDY oNNQKKPFR DetteK the 'CPKLt', the FeXt EoLt oNNQKKPFR DetteK the 'LeNoFU' the CoDDoWPFR EoLt oNNQKKPFR DetteK the 'thPKU', MFU Lo oF, QFtPD We MNNoQFt CoK MDD the UPCCeKeFt DetteKL PF the HDMPFteXt LMEHDe theF We DooB Mt the NPHheK teXt We WMFt to LoDVe MFU
We MDLo NDMLLPCY PtL LYEAoDL We CPFU the EoLt oNNQKKPFR LYEAoD MFU NhMFRe Pt to the CoKE oC the 'CPKLt' DetteK oC the HDMPFteXt LMEHDe, the
Trang 17FeXt EoLt NoEEoF LYEAoD PL NhMFReU to the CoKE oC the 'LeNoFU' DetteK, MFU the CoDDoWPFR EoLt NoEEoF LYEAoD PL NhMFReU to the CoKE oC the 'thPKU' DetteK, MFU Lo oF, QFtPD We MNNoQFt CoK MDD LYEAoDL oC the
NKYHtoRKME We WMFt to LoDVe.”
- Có chuỗi ký tự “oFe”, xét vơi sự xuất hiện của “theF”, chúng ta sẽ chọn “F” là “n”
- Trong bảng mã chuỗi ký tự “Lheet” rất có thể là “sheet”, vì vậy chúng ta sẽ thay thế “L” bằng “s”
“one WMY to soDVe Mn enNKYHteU EessMRe, PC We BnoW Pts DMnRQMRe, Ps to CPnU M UPCCeKent HDMPnteXt oC the sMEe DMnRQMRe DonR enoQRh to CPDD one sheet oK so, MnU then We NoQnt the oNNQKKenNes oC eMNh DetteK We NMDD the Eost CKeJQentDY oNNQKKPnR DetteK the 'CPKst', the neXt Eost oNNQKKPnR DetteK the 'seNonU' the CoDDoWPnR Eost oNNQKKPnR DetteK the 'thPKU', MnU so
on, QntPD We MNNoQnt CoK MDD the UPCCeKent DetteKs Pn the HDMPnteXt
sMEHDe then We DooB Mt the NPHheK teXt We WMnt to soDVe MnU We MDso NDMssPCY Pts sYEAoDs We CPnU the Eost oNNQKKPnR sYEAoD MnU NhMnRe Pt
to the CoKE oC the 'CPKst' DetteK oC the HDMPnteXt sMEHDe, the neXt Eost NoEEon sYEAoD Ps NhMnReU to the CoKE oC the 'seNonU' DetteK, MnU the CoDDoWPnR Eost NoEEon sYEAoD Ps NhMnReU to the CoKE oC the 'thPKU' DetteK, MnU so on, QntPD We MNNoQnt CoK MDD sYEAoDs oC the NKYHtoRKME We WMnt to
soDVe.”
- Có cụm ký tự “soDVe”, có thể chuyển thành “solve” và sẽ biến đổi “D” và “V” thành “l” và “v”
- Cụm từ “one sheet oK so” và biến đổi “K” thành “r”
“one WMY to solve Mn enNrYHteU EessMRe, PC We BnoW Pts lMnRQMRe, Ps to CPnU M UPCCerent HlMPnteXt oC the sMEe lMnRQMRe lonR enoQRh to CPll one sheet or so, MnU then We NoQnt the oNNQrrenNes oC eMNh letter We NMll the Eost CreJQentlY oNNQrrPnR letter the 'CPrst', the neXt Eost oNNQrrPnR letter the 'seNonU' the ColloWPnR Eost oNNQrrPnR letter the 'thPrU', MnU so on, QntPl We MNNoQnt Cor Mll the UPCCerent letters Pn the HlMPnteXt sMEHle then We looB Mt the NPHher teXt
We WMnt to solve MnU We Mlso NlMssPCY Pts sYEAols We CPnU the Eost
oNNQrrPnR sYEAol MnU NhMnRe Pt to the CorE oC the 'CPrst' letter oC the HlMPnteXtsMEHle, the neXt Eost NoEEon sYEAol Ps NhMnReU to the CorE oC the 'seNonU' letter,MnU the ColloWPnR Eost NoEEon sYEAol Ps NhMnReU to the CorE oC the 'thPrU' letter, MnU so on, QntPl We MNNoQnt Cor Mll sYEAols oC the NrYHtoRrME We WMnt to solve.”
- Cụm từ “enoQRh” biến đổi thành “enough” và biến đổi “Q” và “R” thành “u” và
“g”
“one WMY to solve Mn enNrYHteU EessMge, PC We BnoW Pts lMnguMge, Ps to CPnU
M UPCCerent HlMPnteXt oC the sMEe lMnguMge long enough to CPll one sheet or so, MnU then We Nount the oNNurrenNes oC eMNh letter We NMll the Eost CreJuentlY oNNurrPng letter the 'CPrst', the neXt Eost oNNurrPng letter the 'seNonU' the ColloWPng Eost oNNurrPng letter the 'thPrU', MnU so on, untPl We MNNount Cor Mll the