TÊN ĐỀ TÀI: LÝ THUYẾT TRÒ CHƠI VÀ ỨNG DỤNG NHIỆM VỤ VÀ NỘI DUNG: NGHIÊN CỨU VỀ LÝ THUYẾTTRÒ CHƠI TĨNH VỚI THÔNG TIN ĐẦY ĐỦ, TRÒ CHƠI TĨNHVỚI THÔNG TIN KHÔNG ĐẦY ĐỦ VÀ ỨNG DỤNG LÝ THUYẾTN
Trang 1ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN THỊ THANH VUI
Trang 2ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN THỊ THANH VUI
Trang 3CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA- ĐHQG-HCM
Cán bộ hướng dẫn khoa học: TS Lê Xuân Đại
Cán bộ chấm nhận xét 1:
Cán bộ chấm nhận xét 2:
Luận văn thạc sĩ được bảo vệ tại trường Đại Học Bách Khoa, ĐHQG Tp HCM ngày tháng năm
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1 .
2 .
3 .
4 .
5 .
Xác nhận của Chủ tịch Hội đồng đánh giá LV và trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
Trang 4ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN THỊ THANH VUI MSHV: 11240509.Ngày, tháng, năm sinh: 18-06-1988 Nơi sinh: Quảng Ngãi
Chuyên ngành: Toán Ứng Dụng Mã số: 60 46 36
I TÊN ĐỀ TÀI: LÝ THUYẾT TRÒ CHƠI VÀ ỨNG DỤNG
NHIỆM VỤ VÀ NỘI DUNG: NGHIÊN CỨU VỀ LÝ THUYẾTTRÒ CHƠI TĨNH VỚI THÔNG TIN ĐẦY ĐỦ, TRÒ CHƠI TĨNHVỚI THÔNG TIN KHÔNG ĐẦY ĐỦ VÀ ỨNG DỤNG LÝ THUYẾTNÀY ĐỂ TÌM ĐIỂM CÂN BẰNG CHO MỘT SỐ BÀI TOÁN THỰCTẾ
II NGÀY GIAO NHIỆM VỤ: 19/06/2014
III NGÀY HOÀN THÀNH NHIỆM VỤ: 7/12/2014
IV CÁN BỘ HƯỚNG DẪN: TS Lê Xuân Đại
Tp HCM, ngày tháng năm 20
TRƯỞNG KHOA
TS HUỲNH QUANG LINH
Trang 5Lời cảm ơn
Đầu tiên, em xin gửi đến Thầy hướng dẫn của em, TS Lê Xuân Đại, lờicảm ơn chân thành và sâu sắc đã tận tình hướng dẫn em trong suốt quátrình học tập, cũng như định hướng con đường tìm hiểu và thực hiện luận văn
Em xin chân thành cảm ơn Ban Giám Hiệu, Phòng Đào Tạo Sau ĐạiHọc, đặc biệt là các thầy cô trong bộ môn Toán Ứng Dụng- Khoa Khoa HọcỨng Dụng trường Đại Học Bách Khoa thành phố Hồ Chí Minh đã tạo mọiđiều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu và thực hiệnluận văn
Cuối cùng, em xin chân thành cảm ơn đến gia đình, người thân và bạn
bè đã động viên giúp đỡ để luận văn này được hoàn thành
Nguyễn Thị Thanh Vui
Trang 6LỜI CAM ĐOAN
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõnguồn gốc
Học viên thực hiện luận vănNGUYỄN THỊ THANH VUI
Trang 7MỤC LỤC
Danh mục hình vẽ, đồ thị
Lời mở đầu 1
Chương 1 Lý thuyết trò chơi 3
1.1 Giới thiệu Lý thuyết trò chơi 3
1.2 Biễu diễn trò chơi 4
1.3 Các loại trò chơi 8
1.4 Ứng dụng của lý thuyết trò chơi trong một số lĩnh vực 14
1.5 Chiến lược thuần túy, chiến lược hỗn hợp của trò chơi 17
Chương 2 Trò chơi tĩnh với thông tin đầy đủ, trò chơi tĩnh với thông tin không đầy đủ 21
2.1 Trò chơi tĩnh với thông tin đầy đủ 21
2.2 Trò chơi tĩnh với thông tin không đầy đủ 52
Chương 3 Một số ứng dụng của lý thuyết trò chơi 58
3.1 Cạnh tranh sản lượng - Mô hình Cournot 58
3.2 Cạnh tranh giá cả - Mô hình Bertrant 67
3.3 Đấu giá 71
Kết luận 85
Tài liệu tham khảo 86
Phụ lục 87
Trang 8DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Ví dụ về cây trò chơi 8Hình 2.1: Đồ thị hàm số y = 1 − 2q và y = 2q − 1 34Hình 2.2: Đồ thị biễu diễn cân bằng Nash hỗn hợp cho bài toán
"Đồng xu phù hợp" 38Hình 2.3: Đồ thị hàm số y = 1 − 2q và y = 1 − q 38Hình 2.4: Đồ thị hàm số y = r và y = 2 − 2r 39Hình 2.5: Đồ thị biểu diễn cân bằng Nash cho bài toán "Cuộc
chiến của hai giới" 39Hình 3.1: Đồ thị biểu diễn phản ứng tốt nhất của hai công ty
trong mô hình Cournot 63Hình 3.2: Đồ thị thể hiện giao dịch trong đấu giá 84Hình 3.3: Đồ thị thể hiện giao dịch xảy ra trong cân bằng tuyến
tính ⇔ vb ≥ vs+ 1
4 . 84
Trang 9Lời mở đầu
Toán học là môn khoa học có lịch sử hình thành từ rất lâu đời, là cơ sở chonhiều ngành khoa học Lý thuyết của toán học được ứng dụng trong nhiềulĩnh vực khác nhau như kinh tế, vật lý, tin học, Lý thuyết trò chơi (gametheory) được xem như là một nhánh của toán học ứng dụng và kinh tế họcứng dụng nhằm nghiên cứu về các tình huống trong đó các bên tham gia tròchơi áp dụng những chiến lược ra quyết định nhằm đưa ra quyết định tối ưuhóa kết quả mình nhận được Ban đầu lý thuyết trò chơi được phát triển nhưmột công cụ để nghiên cứu hành vi kinh tế học Ngày nay, lý thuyết này được
sử dụng trong nhiều ngành khoa học khác như Sinh học, Triết học, Chính trịhọc
Căn cứ vào thông tin và thời gian hành động của những người chơi, người
ta phân chia trò chơi thành bốn loại trò chơi : trò chơi tĩnh với thông tin đầy
đủ, trò chơi động với thông tin đầy đủ, trò chơi tĩnh với thông tin không đầy
đủ, trò chơi động với thông tin không đầy đủ Tương ứng với bốn loại tròchơi này là bốn khái niệm về điểm cân bằng
Trong phần luận văn này, chúng ta sẽ tìm hiểu về lý thuyết trò chơi tĩnhvới thông tin đầy đủ và trò chơi tĩnh với thông tin không đầy đủ Áp dụngđịnh lý Nash (1950,1951), để tìm các điểm cân bằng Nash, Bayesian Nash Từ đó, mô phỏng các ứng dụng của nó vào những mô hình kinh tế như
mô hình độc quyền song phương Cournot, Bertrand, đấu giá Vì đây là bàitoán tối ưu (tìm giá trị lớn nhất) nên các bài toán tìm cân bằng Nash, NashBayesian có thể giải được bằng thuật toán của bài toán tối ưu và tìm giá trịlớn nhất
Luận văn này được trình bày như sau :
Chương 1: Trình bày những kiến thức cơ bản về lý thuyết trò chơi, phân
Trang 10loại và ứng dụng của lý thuyết trò chơi trong một số lĩnh vực; dạng chuẩntắc, dạng mở rộng, chiến lược thuần túy, chiến lược hỗn hợp của trò chơi.Chương 2: Giới thiệu trò chơi tĩnh với thông tin đầy đủ, trò chơi tĩnh vớithông tin không đầy đủ và cách tìm cân bằng Nash
Chương 3: Giới thiệu về mô hình độc quyền song phương Cournot,Bertrand, đấu giá
Cuối cùng là kết luận và hướng phát triển của luận văn
Trang 11Chương 1
Lý thuyết trò chơi
1.1 Giới thiệu Lý thuyết trò chơi
Lý thuyết trò chơi bắt đầu hình thành và được áp dụng từ những ngàyđầu của Thế chiến thứ hai, khi các lực lượng hải quân Anh chơi trò mèo vờnchuột với các tàu chiến ngầm của phát xít Đức và họ muốn nắm rõ hơn vềtrò chơi để có thể thắng được nhiều hơn Họ đã khám phá ra rằng nhữngbước đi đúng hóa ra lại không phải là những gì mà các hoa tiêu và thuyềntrưởng vẫn làm dựa vào trực giác của mình Bằng cách áp dụng những kháiniệm về sau được biết đến như lý thuyết trò chơi, người Anh đã có thể cảithiện thành tích bắn trúng đích của mình lên đáng kể Thắng lợi đối với cáctàu ngầm của địch đã cho phép họ tiếp tục áp dụng lý thuyết trò chơi vàocác hoạt động khác trong chiến tranh Như vậy, có thể nói lý thuyết trò chơi
đã chứng tỏ được mình trong những tình huống sống còn trên thực tế trướckhi nó được viết ra giấy và trở thành một lý thuyết mang tính hệ thống [6]
Lý thuyết trò chơi chưa thực sự tồn tại cho đến khi nhà toán học John VonNeumann và nhà kinh tế Oscar Morgenstern xuất bản cuốn sách Lý thuyếttrò chơi và các hành vi kinh tế vào năm 1944, tác phẩm này chứa đựng lờigiải tối ưu cho những trò chơi tổng bằng không với trò chơi hai người Từ đódẫn đến một số lượng lớn các công trình kĩ thuật được viết ra trong các lĩnh
Trang 12vực kinh tế, chính trị, chiến lược quân sự, luật, công nghệ thông tin, sinhhọc, Trong mỗi lĩnh vực kể trên, lý thuyết trò chơi lại đưa ra những khámphá quan trọng.
Vào năm 1950 John Nash đã phát biểu một định nghĩa về một chiến thuậttối ưu cho trò chơi với nhiều người chơi và nó được biết đến như một cânbằng Nash Cân bằng này là đủ tổng quát giúp chúng ta bước ra bên ngoàinhững ý tưởng giản đơn về cạnh tranh và hợp tác để đạt đến tầm nhìn củacạnh tranh hợp tác hay để đưa cạnh tranh và hợp tác lại gần nhau hơn - mộttầm nhìn phù hợp hơn với các cơ hội trong thời đại chúng ta
Vào năm 1965, Reinhard Selten giới thiệu khái niệm lời giải của các cânbằng lí tưởng của các trò chơi con, làm chính xác thêm cân bằng Nash Vàonăm 1967, John Harsanyi phát triển các khái niệm thông tin đầy đủ và tròchơi Bayesian Năm 1994 ba nhà tiên phong trong lý thuyết trò chơi là JohnNash, John Harsanyi, Reinhard Selten đã được nhận giải Nobel về kinh tế.Trong những năm 1970, lý thuyết trò chơi được áp dụng rộng rãi vào sinhhọc chủ yếu là do kết quả của các công trình của John Maynard Smith vàchiến lược tiến hóa bền vững của ông
Thomas Schelling đã tạo ra các mô hình động và các ví dụ ban đầu của lýthuyết tiến hóa trò chơi và Robert Aumann đóng góp thêm vào trường cânbằng (equilibrium school), phát triển một cân bằng làm thô đi những cânbằng liên quan nhau và phát triển các phân tích chi tiết về giả sử của cáckiến thức chung Với những thành tựu đó, vào năm 2005 hai nhà lý thuyếtgia trò chơi này đạt giải thưởng Nobel về kinh tế
1.2 Biễu diễn trò chơi
1.2.1 Biểu diễn trò chơi dạng chuẩn tắc
Dạng chuẩn tắc của một trò chơi gồm ba thành phần
Trang 131 N là tập hợp những người chơi trong trò chơi
2 Các chiến lược có thể thực hiện mỗi người chơi
3 Mức thưởng phạt nhận được của mỗi người chơi cho mỗi sự kết hợp cácchiến lược có thể được chọn bởi người chơi đó
Xét một trò chơi N người chơi trong đó các người chơi được đánh số từ 1đến N và một người chơi tùy ý được gọi là người chơi i Kí hiệu tập Si là tậphợp các chiến lược có thể thực hiện của người chơi i (hay còn gọi là khônggian chiến lược của người chơi i) và kí hiệu si là phần tử bất kì của tập hợpnày Kí hiệu (s1, , sN) là một sự kết hợp của các chiến lược tương ứng chomỗi người chơi, kí hiệu ui : S1× S2 × × SN −→ R là hàm thưởng phạt chongười chơi i và do đó ui(s1, , sN) là mức thưởng phạt cho người chơi i nếutất cả những người chơi chọn chiến lược (s1, , sN) tương ứng
Định nghĩa 1 [2]
Dạng chuẩn tắc của một trò chơi N người chơi được đặc trưng bởi nhữngkhông gian chiến lược của từng người chơi S1, , SN và các hàm thưởng phạtcủa họ u1, , uN Kí hiệu của một trò chơi là G = {S1, , SN; u1, , uN}.Thông thường 3 thành phần này thường được biểu diễn trong một bảng kếthợp
Ví dụ 1 Một trò chơi có 2 đối thủ: một người chọn hàng, một người chọncột Mỗi đối thủ có 2 chiến lược: S1 = { trên, dưới } và S2 = { trái, phải },mỗi chiến lược được biểu diễn bởi số hiệu hàng hoặc số hiệu cột của nó Mứcthưởng phạt ghi trong ô đó Trong ô thưởng phạt có 2 giá trị: giá trị đầu làmức thưởng phạt cho đối thủ chơi theo hàng (đối thủ 1), giá trị thứ hai làmức thưởng phạt cho đối thủ chơi theo cột (đối thủ 2) Ví dụ: đối thủ 1 chọn
Trang 14di chuyển lên đồng thời đối thủ 2 chọn di chuyển sang trái thì đối thủ 1 sẽ
−3 điểm còn đối thủ 2 cũng sẽ −3 điểm
Di chuyển sang trái Di chuyển sang phải
Tuy nhiên trò chơi này cũng có biễu diễn theo 2 ma trận riêng lẻ:
Ma trận thưởng phạt cho đối thủ 1:
Di chuyển sang trái Di chuyển sang phải
Ma trận thưởng phạt cho đối thủ 2:
Di chuyển sang trái Di chuyển phải
1.2.2 Biễu diễn trò chơi dạng mở rộng
Dạng mở rộng được biểu diễn dưới dạng "cây trò chơi" Hầu hết các tìnhhuống trong thực tế có nhiều cách ra quyết định và mỗi cách như vậy lại cónhiều khả năng để lựa chọn và nếu chỉ dùng trí nhớ thì khó nhớ hết đượccác khả năng đó Chúng ta cần một công cụ hiệu quả hơn để suy luận ngượclại bài toán và giúp chúng ta có cái nhìn tổng quát hơn Công cụ đó chính là
"cây trò chơi" Như vậy "cây trò chơi " chỉ ra thứ tự các quyết định trongtrò chơi
Trang 15Mỗi đỉnh biểu diễn các khả năng mà người chơi có thể lựa chọn Ngườichơi được chỉ rõ bằng một con số ghi trên đỉnh, các đoạn thẳng đi ra từ đỉnh
đó biểu diễn các khả năng có thể của người chơi đó Mức thưởng phạt đượcghi rõ tại đáy cạnh Một cạnh từ một đỉnh u đến một đỉnh v kế tiếp (v được
vẽ dưới u ) chỉ một bước đi có thể có trong trò chơi Những đỉnh mà không
có đỉnh kế tiếp trong cây được gọi là các đỉnh cuối hay các lá
Như vậy, trong dạng mở rộng này thì các đối thủ có thông tin về sự lựachọn của các đối thủ khác Và chúng ta sẽ sử dụng thông tin trên cây đồ thị
để dự đoán tất cả các bước đi trong tương lai và suy ngược lại những quyếtđịnh ban đầu
Ví dụ 2 ( Cây trò chơi )[7]
Giả sử thị trường máy hút bụi ở Cu - Ba đang bị chi phối bởi nhãn hiệuFastcleaner (F) và một công ty mới có tên Newcleaner (N) đang xem xét cónên nhảy vào thị trường này hay không? Nếu N tham gia thì F có hai lựachọn: dàn xếp với N hoặc chiến tranh giá cả Giả sử F dàn xếp với N khi Ntham gia thị trường thì N sẽ có lợi nhuận 100.000 đô la, nếu cạnh tranh giá
cả thì N sẽ mất 200.000 đô la Nếu N không nhảy vào thị trường Cuba thì lợinhuận của công ty N sẽ là 0
Chúng ta sẽ mô tả bài toán này bằng "cây trò chơi":
Trang 16Hình 1.1: Ví dụ về cây trò chơi
1.3 Các loại trò chơi
Có một số phương pháp phân loại trò chơi Cách phân chia thứ nhất làcăn cứ vào khả năng hợp đồng và chế tài hợp đồng của những người chơithì có thể chia trò chơi làm hai loại: trò chơi hợp tác (cooperative games)
và trò chơi bất hợp tác (non-cooperative games) Cách phân chia thứ hai làcăn cứ vào thông tin của những người chơi thì các trò chơi được chia thànhtrò chơi với thông tin đầy đủ (complete information)và trò chơi với thông tinkhông đầy đủ (incomplete information)hoặc là trò chơi với thông tin hoàn hảo(perfect information) và thông tin không hoàn hảo (imperfect information).Cách phân chia thứ ba là căn cứ vào thời gian hành động của mỗi người chơi,các trò chơi được chia làm hai loại là tĩnh và động Phối hợp cách phân chiathứ hai và thứ ba ta có 4 dạng thức trò chơi là: trò chơi động với thông tinđầy đủ, trò chơi tĩnh với thông tin đầy đủ, trò chơi tĩnh với thông tin khôngđầy đủ, trò chơi tĩnh với thông tin không đầy đủ Cách phân chia thứ tư làdựa trên tổng kết quả (payoff) của những người chơi mà ta phân chia thànhtrò chơi hai loại tổng bằng không và tổng khác không
1.3.1 Trò chơi tổng bằng không và trò chơi tổng khác không
Để hiểu rõ hơn về hai loại trò chơi này, ta chỉ xét các trò chơi hai
Trang 17người tham gia Với Si, i ∈ {1, 2} là tập các chiến lược của hai người chơi
và hàm thưởng phạt ui : S1 × S2 −→ R Nếu hai người chơi lần lượtchọn các chiến lược s1j, s2k thì mức thưởng phạt của hai người lần lượt là
Trong đó
• m là số phương án của người chơi 1
• n là số phương án của người chơi 2
a Trò chơi tổng bằng không
Trò chơi hai đối thủ với tổng bằng không là trò chơi mà số thu hoạch củangười này bằng sự tổn thất của người kia hay nói cách khác tổng điểm củanhững người chơi trong ván chơi luôn bằng không Cờ vua là một trò chơi
có tổng bằng không bởi không thể có trường hợp cả hai bên đều thắng hoặcđều thua Nếu một bên thắng thì bên kia nhất định là thua và ngược lại.Thể thao là những ví dụ điển hình nhất của trò chơi có tổng bằng không.Nhà vô địch chỉ có thể đạt được vinh quang khi toàn bộ các đối thủ khácđều thua cuộc Trong một giải bóng đá tổng số trận thắng luôn bằng tổng sốtrận thua cũng là bởi cái tính chất tổng bằng không ấy Đầu tư kinh doanhchứng khoán cũng là một trò chơi có tổng bằng không, bởi vì ở đó, số tiềnthua lỗ của nhà đầu tư này sẽ là tiền lãi của nhà đầu tư khác Nhà đầu tư
có thể mất trắng hoặc thắng lớn, lợi nhuận mà anh ta thu được có thể đổibằng cả gia tài
Trang 18Như vậy trong trò chơi tổng bằng không ta có:
u1(s1j, s2k) + u2(s1j, s2k) = 0, ∀s1j ∈ S1, s2k ∈ S2Hay
u1(s1j, s2k) = −u2(s1j, s2k), ∀s1j ∈ S1, s2k ∈ S2Chú ý A2 = −A1 nên ta giả sử chỉ có một hàm u(s1j, s2k) và cũng chỉ cómột ma trận A = A1 Như vậy trò chơi hai người tổng bằng không được biểudiễn bởi:
Ví dụ 3 Trong một trận đấu bóng đá mức thưởng phạt được tính bằng diệntích lấn sân hay diện tích bị lấn sân Trong đó có hai bên chơi: bên tấn công(P1) và bên phòng thủ (P2) Mối quan tâm của bên tấn công là lấn càng nhiềusân càng tốt trong khi đó mục tiêu của bên phòng thủ là giữ cho đối thủ chiếmcàng ít sân càng tốt Giả sử bên tấn công có hai chiến lược lựa chọn:
S1 = { dắt bóng, chuyền bóng }
Bên phòng ngự có ba chiến lược lựa chọn:
S2 = { chống dắt bóng, chống chuyền bóng, phản công chớp nhoáng }Chúng ta tính toán phần diện tích sân mà bên tấn công đạt được cho mỗi
sự kết hợp chiến lược trong số 6 khả năng có thể xảy ra Và diện tích lấn sân
Trang 19của bên tấn công cũng chính là phần diện tích bị lấn sân của bên phòng thủ.
Như vậy ta có các kí hiệu P = {P1, P2}, S = S1 × S2 và u : S −→ R Khi
đó G = (S, u) là trò chơi tổng bằng không được viết dưới dạng chuẩn tắc
b Trò chơi tổng khác không
Nhiều tình huống thực tế không phải là trò chơi tổng bằng không hay lợinhuận của người này không nhất thiết phải là thiệt hại của người kia Ví dụnhư trong lĩnh vực kinh tế, giá trị của hàng hóa và dịch vụ có thể được tạo
ra, phá hủy, hoặc bị phân bổ trong một số cách khác nhau, và bất kỳ trong
số này sẽ tạo ra một lợi nhuận đồng nhất hoặc mất khả năng sử dụng đếnnhiều bên liên quan Tất cả các giao dịch kinh tế phải có lợi cho cả hai bênđến mức mà mỗi bên có thể vượt qua chi phí giao dịch, hoặc giao dịch này
sẽ chỉ đơn giản là không xảy ra
Trang 20Như vậy trong trò chơi tổng khác không ta có:
u1(s1j, s2k) + u2(s1j, s2k) = c, ∀s1j ∈ S1, s2k ∈ S2với c là một hằng số
Ví dụ 4 (Trò chơi "Chicken")
Xem xét trò chơi 2 người: hai chiếc xe đối mặt với nhau và bắt đầu lái
xe hướng về nhau Người đầu tiên tách ra bị mất 1 điểm, người còn thắng 1điểm Nếu cả hai cùng tách ra thì mỗi người nhận 0 điểm Nếu cả hai đềukhông tách ra thì một vụ tai nạn rất xấu xảy ra và cả hai mất 10 điểm Taxem các chiến lược cho người 1 là các dòng trong khi của người 2 là các cột
1.3.3 Trò chơi tĩnh và trò chơi động
Trong các trò chơi tĩnh các đối thủ thực hiện các nước đi một cách đồngthời, hoặc nếu không thì đối thủ này không biết về các hành động trước đócủa các đối thủ khác Và kết quả cuối cùng của mỗi người phụ thuộc vàophối hơp hành động của tất cả mọi người Còn trong các trò chơi động người
đi sau có biết một số (nhưng không nhất thiết toàn bộ ) thông tin về các
Trang 21nước đi trước Một ví dụ cổ điển về loại trò chơi này là bài toán "Người tùDilemma" sẽ được giới thiệu ở chương 2.
Trò chơi động diễn ra trong nhiều giai đoạn, và một số người chơi sẽ phảihành động ở mỗi một giai đoạn Trò chơi động khác với trò chơi tĩnh ở một
số khía cạnh quan trọng Thứ nhất, trong trò chơi động, thông tin mà mỗingười chơi có được về những người chơi khác rất quan trọng Một người cóthông tin đầy đủ khi người ấy biết kết quả (payoff) của những người chơikhác Còn một người có thông tin hoàn hảo nếu như tại mỗi bước phải raquyết định (hành động), người ấy biết được toàn bộ lịch sử của các bước đitrước đó của trò chơi Thứ hai, khác với các trò chơi tĩnh trong trò chơi độngmức độ đáng tin cậy (credibility ) của những lời hứa hay đe dọa là yếu tốthen chốt [10]
Trang 221.4 Ứng dụng trong một số lĩnh vực của lý thuyết trò chơi
1.4.1 Ứng dụng trong lĩnh vực sinh học
Không giống như trong kinh tế, phần lợi cho những trò chơi trong sinhhọc thường được diễn tả như là tương ứng với sự thích nghi Thêm vào đó, ítchú ý hơn về các cân bằng có liên quan đến khái niệm của sự hợp lí, và thiên
về những thứ có thể duy trì được bởi các lực tiến hóa Cân bằng được biếtđến nhiều nhất trong sinh học là chiến lược tiến hóa bền vững (EvolutionaryStable Strategy) hay ESS được giới thiệu bởi John Maynard Smith Trongsinh học, lý thuyết trò chơi đã được sử dụng để hiểu được nhiều hiện tượngkhác nhau Nó được sử dụng lần đầu để giải thích sự tiến hóa (và bền vững)của tỉ lệ giới tính khoảng 1 : 1
Thêm vào đó, những nhà sinh vật học đã sử dụng lý thuyết trò chơi tiếnhóa và ESS để giải thích sự nổi lên của của liên lạc giữa muôn thú (MaynardSmith và Harper, 2003) Sự phân tích của các trò chơi tín hiệu và các tròchơi liên lạc khác đã cung cấp một số trực giác vào sự tiến hóa của việc liênlạc giữa muôn thú
Cuối cùng, các nhà sinh vật đã sử dụng trò chơi "diều hâu- bồ câu" đểphân tích những hành vi đánh nhau và tranh giành lãnh thổ
1.4.2 Ứng dụng trong lĩnh vực kinh tế và kinh doanh
Các nhà kinh tế học đã sử dụng lý thuyết trò chơi để phân tích một diệnrộng các hiện tượng kinh tế trong đó có đấu giá, mặc cả, duopoly, oligopoly,các tổ chức mạng lưới xã hội và bầu cử Nghiên cứu này thường tập trungvào một tập cụ thể các chiến lược được biết với tên các trạng thái cân bằngtrong trò chơi Nổi tiếng nhất là cân bằng Nash của nhà toán học John Nash[8]
1.4.3 Ứng dụng trong lĩnh vực chính trị
Trang 23Các nghiên cứu trong khoa học chính trị cũng sử dụng lý thuyết trò chơi.Một thuyết trò chơi giải thích cho lý thuyết dân chủ hòa bình rằng tính côngkhai và tranh luận cởi mở trong các nền dân chủ sẽ gởi một thông điệp rõràng và khả tín về các mục tiêu đến những chế độ khác Ngược lại, khó màbiết được những chủ đích của các nhà lãnh đạo phi dân chủ (độc tài) rằng
sẽ có sự nhượng bộ chung hiệu quả nào và các lời hứa hẹn có được tôn trọnghay không Do đó, sẽ tồn tại sự việc không tin tưởng và không mong muốnnhằm tạo ra sự nhượng bộ chung nếu ít nhất một trong các thành phần của
sự bàn cãi này là thành phần phi dân chủ [8]
1.4.4 Ứng dụng trong mô hình chiến tranh
Như phần đầu đã giới thiệu, lý thuyết trò chơi ban đầu hình thành và ápdụng trong chiến tranh thế giới thứ hai Ta xét một ví dụ nhỏ về áp dụngcủa nó trong chiến tranh thế giới thứ hai
Ví dụ 5 [3]
Vào tháng 8 năm 1944, sau cuộc xâm lược Normandy, các nước đồng minh
đã phá vỡ vị trí dẫn đầu của Đức tại Avranches, Pháp và chiếm giữ phần lớnđất nước này Tướng Von Kluge của Đức, chỉ huy quân đội thứ 9 phải đốimặt với 2 vấn đề:
(1) : Ở lại và chiến đấu với quân đội các nước đồng minh
(2) : Rút lui vào những vùng đất chính và xây dựng lại lực lượng
Đồng thời, tướng Bradley, chỉ huy của các nước đồng minh cũng đối mặtvới các vấn đề tương tự:
(1) : Củng cố lực lượng được tạo bởi những phong trào quân đội tạiAvranches
Trang 24(2) : Gởi lực lượng đến phía Đông để chặn đường rút lui của Đức.
ma trận trò chơi :
Tấn công Rút luiCủng cố (2,-2) (3,-3)
Di chuyển (1,-1) (5,-5)Chờ đợi (6,-6) (4,-4)
Trang 251.5 Chiến lược thuần túy,chiến lược hỗn hợp của trò chơi
1.5.1 Chiến lược hỗn hợp của người chơi i
i thì thành phần thứ q của nó là σiq (thường kí hiệu
σi(siq)) là xác suất mà người i áp dụng chiến lược thuần túy siq khi chọnchiến lược hỗn hợp σi
Tập hợp các chiến lược hỗn hợp của N người chơi là:
∆ =P = P1× ×P
N
Sau này chúng ta sẽ kí hiệu :
s−i = (s1, , si−1, si+1, , sN)
ui(s1, , sN) = ui(si, s−i)
σ−i = (σ1, , σi−1, σi+1, , σN)
S−i = S1 × × Si−1 × Si+1 × SN
Trang 26và (1, 0) tương ứng đơn giản là chiến lược thuần túy đuôi và đầu.
Ví dụ 7 [2]
Xét một trò chơi hai người, người 1 chọn dòng và người 2 chọn cột
Trái Giữa PhảiTrên 1,0 1,2 0,1Dưới 0,3 0,1 2,0Người chơi 2 có 3 chiến lược thuần túy trái, giữa và phải Một chiến lượchỗn hợp cho người chơi 2 là một phân phối xác suất (q, r, 1 − q − r), với q làxác suất chơi trái, r là xác suất chơi giữa, và 1 − q − r là xác suất chơi phảivới 0 ≤ q ≤ 1, 0 ≤ r ≤ 1, 0 ≤ q + r ≤ 1 Trong trò chơi này, chiến lược hỗnhợp (1
Trang 27Định nghĩa 4 (Chiến lược áp đảo )[5]
Trong trò chơi dạng chuẩn tắc G = {S1, , SN; u1, , uN}, cho s0i ∈ Si và
s00i ∈ Si Chiến lược s0i ∈ Si áp đảo chiến lược s00i ∈ Si nếu trong mỗi chiếnlược kết hợp với những người chơi khác, mức thưởng phạt của người chơi ikhi chơi chiến lược s0i lớn hơn hoặc bằng mức thưởng phạt khi chơi chiến lược
s00i:
ui(s1, , si−1, s0i, , sN) ≥ ui(s1, , si−1, s00i, , sN) (1.2)Mỗi bộ chiến lược (s1, , si−1, si+1 , sN) được xây dựng từ các không gianchiến lược
(S1, , Si−1, Si+1, , SN) của những người chơi khác
Tương tự, chiến lược s0i ∈ Si áp đảo ngặt chiến lược s00i ∈ Si nếu
ui(s1, , si−1, s0i, , sN) > ui(s1, , si−1, s00i, , sN) (1.3)Ngược lại, ta cũng sẽ có chiến lược bị áp đảo và chiến lược bị áp đảo ngặtĐịnh nghĩa 5 (Chiến lược bị áp đảo )[5]
Trong trò chơi dạng chuẩn tắc G = {S1, , SN; u1, , uN}, cho s0i ∈ Si và
s00i ∈ Si Chiến lược s0i ∈ Si bị áp đảo bởi chiến lược s00i ∈ Si nếu trong mỗichiến lược kết hợp với những người chơi khác, mức thưởng phạt của ngườichơi i khi chơi chiến lược s0i bé hơn hoặc bằng mức thưởng phạt khi chơi chiếnlược s00i:
ui(s1, , si−1, s0i, , sN) ≤ ui(s1, , si−1, s00i, , sN) (1.4)Mỗi bộ chiến lược (s1, , si−1, si+1 , sN) được xây dựng từ các không gianchiến lược (S1, , Si−1, Si+1, , SN) của những người chơi khác
Tương tự, chiến lược s0i ∈ Si bị áp đảo ngặt bởi chiến lược s00i ∈ Si nếu
ui(s1, , si−1, s0i, , sN) < ui(s1, , si−1, s00i, , sN)
Trang 28Như vậy một chiến lược bị áp đảo nếu tồn tại một chiến lược s00i áp đảo ngặtnó
Trang 29Chương 2
Trò chơi tĩnh với thông tin đầy đủ và trò chơi tĩnh với thông tin không đầy đủ
Có nhiều cách phân loại trong lý thuyết trò chơi nhưng trong giới hạn luậnvăn này chỉ tìm hiểu về trò chơi tĩnh với thông tin đầy đủ và trò chơi tĩnhvới thông tin không đầy đủ
2.1 Trò chơi tĩnh với thông tin đầy đủ
Dạng thức của trò chơi này là những người chơi đồng thời ra quyết định(hay hành động) để tối ưu hóa kết quả (có thể là lợi nhuận, ); mỗi ngườichơi đều biết rằng những người khác cũng đang cố gắng để tối ưu hóa kếtquả mà họ sẽ thu được Kết quả cuối cùng của mỗi người chơi phụ thuộc vàophối hợp hành động của họ
Chúng ta bắt đầu với hai người chơi ( mọi việc mà chúng ta làm cho tròchơi hai người đều có thể mở rộng cho ba hoặc nhiều người chơi) Quá trình
cụ thể của trò chơi này như sau:
(1) Người chơi 1 chọn một hành động s1j từ tập hợp các hành động khả thi
S1 Đồng thời người chơi 2 chọn một hành động s2k từ tập hợp các hành
Trang 30động khả thi S2
(2) Sau khi những người chơi chọn hành động của mình, họ nhận được cácmức thưởng phạt của mình: u1(s1j, s2k) cho người chơi 1 và u2(s1j, s2k)cho người chơi 2
Một ví dụ cổ điển của loại trò chơi di chuyển đồng thời này là Bài toánngười tù
Ví dụ 8 (Bài toán người tù) Hai tên tội phạm bị bắt với cùng một tội danhnhưng cảnh sát chưa tìm đủ chứng cứ để kết tội hai người này trừ khi ít nhấtmột người nhận tội Cảnh sát giam họ vào 2 phòng riêng không cho họ traođổi thông tin cho nhau và đưa cho họ yêu cầu như sau: nếu cả 2 cùng nhậntội thì mỗi người sẽ ngồi tù 6 tháng Nếu cả hai đều không nhận tội thì mỗingười sẽ bị giữ thêm 1 tháng để tìm thêm chứng cứ Nếu chỉ một người khaicòn người kia ngoan cố không khai thì người khai sẽ được thả còn người kia
sẽ bị giam 9 tháng Trò chơi này được biểu diễn dưới bảng sau:
Khai Không khaiKhai -6,-6 0,-9Không khai -9,0 -1,-1Trong trò chơi này mỗi người chỉ có 2 chiến lược lựa chọn và chiến lược áp
ảo sẽ là chiến lược tốt nhất Với người chơi 1 thì chiến lược "khai" tốt hơn(áp đảo) "không khai" dù người chơi 2 chọn quyết định thế nào vì −6 > −9
và 0 > −1 Còn với người chơi 2 cũng vậy, chiến lược "khai" tốt hơn (ápđảo) "không khai" dù người chơi 1 chọn quyết định thế nào vì −6 > −9 và
0 > −1 Nói cách khác đối với cả 2 người thì chiến lược " khai " là chiến lược
áp đảo so với chiến lược " không khai " Vậy chiến lược áp đảo của trò chơinày là " (khai, khai) "
Trang 312.1.1 Phương pháp loại bỏ các chiến lược bị áp đảo
Trong những bài toán lớn hơn (nhiều người chơi, nhiều chiến lược hơn) ta
sẽ loại bỏ những chiến lược bị áp đảo để tìm ra chiến lược áp đảo Hay nhữngtrò chơi ma trận lớn có thể giảm kích thước bằng cách bỏ đi các dòng và cáccột mà không tốt cho người chơi khi sử dụng chúng
Loại bỏ các chiến lược bị áp đảo ra khỏi tính toán và tiếp tục như vậy mộtcách lần lượt sẽ được thể hiện trong các ví dụ sau:
Ví dụ 9 [2]
Xét trò chơi 2 người chơi, người 1 chọn dòng và người 2 chọn cột
Trái Giữa PhảiTrên 1,0 1,2 0,1Dưới 0,3 0,1 2,0Trong trò chơi này người chơi 1 có hai chiến lược S1 = { Trên, dưới } vàngười chơi 2 có ba chiến lược S2 = { Trái, giữa, phải } Với người chơi 1 thì
cả "trên" và "dưới" đều không phải là chiến lược bi áp đảo vì :
• "Trên" tốt hơn "dưới" nếu người chơi 2 chọn "trái" và "giữa" (vì 1 > 0)
• "Dưới" tốt hơn "trên" nếu người chơi 2 chọn "phải" (vì 2 > 0)
Còn đối với người chơi 2 "phải" là chiến lược bị áp đảo ngặt bởi "giữa" (vì
2 > 1 và 1 > 0) Do đó người chơi 2 sẽ không chơi "phải" Do đó nếu ngườichơi 1 biết điều này thì người chơi 1 sẽ loại " phải" ra khỏi không gian chiếnlược của người chơi 2 Trò chơi bây giờ được thu gọn trong bảng:
Trái GiữaTrên 1,0 1,2Dưới 0,3 0,1
Trang 32Ở bảng này "dưới" bị áp đảo ngặt bởi "trên" cho người chơi 1 Do đóngười chơi 1 sẽ không chơi "dưới" Người chơi 2 biết người 1 sẽ đi như vậy
và cũng biết người 1 sẽ biết người chơi 2 sẽ đi bước tiếp theo nên 2 sẽ loại
"dưới" ra khỏi không gian chiến lược của người 1 Khi đó bài toán được rútgọn lại trong bảng sau:
Trái GiữaTrên 1,0 1,2Bây giờ "trái" bị áp đảo ngặt bởi "giữa" với người chơi 2 nên (trên, giữa)
là chiến lược áp đảo của bài toán này
Tuy nhiên phương pháp loại bỏ những chiến lược bị áp đảo ngặt này khôngđơn giản trong những bài toán phức tạp vì nhiều khi loại bỏ hết những chiếnlược bị áp đảo ngặt vẫn chưa tìm được chiến lược áp đảo Phương pháp này
có hai bất lợi
• Thứ nhất, các bước đòi hỏi một giả thuyết mạnh hơn về những ngườichơi dự đoán nước đi của mỗi người chơi khác Nếu chúng ta muốn ápdụng qui trình cho một số bước bất kì, chúng ta cần giả định kiến thứcchung là những người chơi đều là có lý Chúng ta không những giả địnhtất cả những người chơi là có lý mà còn tất cả những người chơi đềubiết điều đó
• Thứ hai, phương pháp loại bỏ những chiến lược bị áp đảo ngặt thườngnảy sinh những dự đoán không chính xác về lối chơi của trò chơi Chúng
ta có thể xem xét trò chơi sau:
Ví dụ 10 Xét một trò chơi hai người chơi, người 1 chọn dòng và người
Trang 332 chọn cột
Trái Giữa PhảiTrên 0,4 4,0 5,3Giữa 4,0 0,4 5,3Dưới 3,5 3,5 6,6Trong trò chơi này không có chiến lược bị áp đảo ngặt bị loại bỏ
Xuất phát từ những hạn chế này mà Nash đã đưa ra cân bằng Nash, đó
là khái niệm nghiệm mạnh hơn phương pháp lặp loại bỏ các chiến lược bị ápđảo ngặt
2.1.2 Cân bằng Nash
Để tìm hiểu khái niệm cân bằng Nash, chúng ta cần hiểu rằng nếu lýthuyết trò chơi cung cấp một nghiệm duy nhất thì nghiệm đó phải là cânbằng Nash theo nghĩa sau đây: giả định rằng lý thuyết trò chơi tạo ra một dựđoán duy nhất về chiến lược mà mỗi người chơi phải chọn Để giả định nàyđúng thì điều cần thiết là mỗi người chơi phải sẵn sàng chọn chiến lược được
dự đoán bởi lý thuyết Do đó, mỗi chiến lược được dự đoán của người chơiphải là phản ứng tốt nhất của người chơi đó đối với những chiến lược được
dự đoán của những người chơi khác Một dự đoán như vậy có thể được gọi
ổn định về mặt chiến lược vì không người chơi đơn phương nào muốn tách
ra khỏi chiến lược được dự đoán của họ
Định nghĩa 6 (Cân bằng Nash cho các chiến lược thuần túy)[2]
Trong trò chơi dạng chuẩn tắc n người chơi G = {S1, , SN; u1, , uN},các chiến lược (s∗1, , s∗N) là một cân bằng Nash nếu với mỗi người chơi i nào
đó thì s∗i là phản ứng tốt nhất của người chơi i đối với các chiến lược của
N − 1 người chơi còn lại {s∗1, s∗2, , s∗i−1, s∗i+1, , s∗N} :
ui(s∗1, , s∗i−1, s∗i, s∗i+1, , s∗N) ≥ ui(s∗1, , s∗i−1, si, s∗i+1, , s∗N) (2.1)
Trang 34với mọi chiến lược khả thi si ∈ Si.
Nói cách khác ui(s∗i, s∗−i) ≥ ui(si, s∗−i) Về mặt toán học s∗i là nghiệm củabài toán :
max
si∈S i
ui(s∗1, , s∗i−1, si, s∗i+1, , s∗N) (N E) (2.2)Giả sử rằng lý thuyết trò chơi cung cấp các chiến lược (s01, , s0N) là nghiệmcủa bài toán dạng chuẩn tắc G = {S1, , SN; u1, , uN} Ta nói (s01, , s0N)không phải là một cân bằng Nash của trò chơi G tương đương với việc tanói rằng ở đây tồn tại người chơi i nào đó sao cho s0i không là phản ứng tốtnhất của người chơi i đối với các chiến lược của N − 1 người chơi còn lại(s01, s02, , s0i−1, s0i+1, , s0N) Có nghĩa là ở đây tồn tại s00i ∈ Si nào đó sao cho :
ui(s01, , s0i−1, s0i, s0i+1, , s0N) < ui(s01, , s0i−1, , s00i, s0i+1, , s0N) (2.3)
Do đó nếu lý thuyết cho rằng các chiến lược (s01, , s0N) là nghiệm nhưng cácchiến lược này không phải cân bằng Nash thì có ít nhất một người chơi cóđộng cơ tách ra khỏi dự đoán của lý thuyết, do đó lý thuyết sẽ bị sai bởi cáchchơi thực tế của trò chơi
Ví dụ 11 [7]
Có hai con đường chính nối hai địa điểm A và B Một đường bộ qua cầucòn đường kia đi bằng tàu quá cảnh qua cảng (tàu B) Đường đi bộ qua cầu làngắn nhất và nếu không kẹt xe thì xe hơi chỉ mất 20 phút để đến nơi Nhưnggiao thông ở đó thì rất hay kẹt xe, ước lượng nếu cứ thêm 2000 xe thì sẽ trễ
10 phút Vậy nếu lưu lượng xe trên đường là 2000 thì thời gian đi là 30 phút
và nếu 4000 xe thì thời gian là 40 phút Còn nếu đi tàu B thì không lo tắcđường và thời gian đi sẽ là 40 phút Nếu có 10.000 người muốn đi từ A đến
B trong giờ cao điểm thì phải phân chia đi theo hai con đường như thế nào
Trang 35để tránh tắc đường và thời gian đi là ngắn nhất? Điểm cân bằng của bài toánnày là 4000 người sẽ lái xe, 6000 người sẽ đi tàu và thời gian đi sẽ là 40phút cho tất cả Vì điểm cân bằng là điểm mà tại đó không một ai trong sốnhững người chơi muốn thay đổi chiến lược của mình nên nếu chỉ có 2000người lái xe và 8000 người đi tàu thì những người đi tàu nhận thấy sẽ nhanhhơn khi chuyển qua đường bên kia và họ sẽ có xu hướng di chuyển Còn nếu
8000 người lái xe với thời gian là 60 phút và những người này sẽ có xu hướngchuyển qua đi tàu với 40 phút
Một cách tiếp cận để tìm một cân bằng Nash của trò chơi chỉ đơn giản
là để kiểm tra liệu mỗi sự kết hợp có thể của các chiến lược có thỏa điềukiện cân bằng Nash (NE) trong định nghĩa hay không Trong một trò chơi
2 người, cách tiếp cận này bắt đầu như sau: với mỗi người chơi và cho mỗichiến lược khả thi của người chơi đó, xác định phản ứng tốt nhất của ngườichơi khác với chiến lược đó
Trong bảng ở ví dụ 10 ta sẽ gạch dưới mức thưởng phạt cho phản ứng tốtnhất của người chơi j với mỗi chiến lược khả thi của người chơi i Nếu ngườichơi cột chọn "trái" thì phản ứng tốt nhất của người chơi dòng sẽ là "giữa"
vì 4 lớn hơn 3 và 0 Vậy mức thưởng phạt 4 cho người chơi dòng trong ô
"(giữa,trái)" bị gạch dưới
Trái Giữa PhảiTrên 0,4 4,0 5,3Giữa 4,0 0,4 5,3Dưới 3,5 3,5 6,6
Một cặp chiến lược thỏa điều kiện cân bằng Nash (NE) nếu chiến lược
Trang 36của mỗi người chơi là phản ứng tốt nhất với chiến lược của những người chơikhác Đó là: cả 2 mức thưởng phạt đều bị gạch dưới trong ô tương ứng của
ma trận Do đó, "(dưới, phải)" là cặp chiến lược duy nhất thỏa điều kiện(NE), tương tự cho "(khai, khai)" cho bài toán người tù ở ví dụ 8 và "(trên,giữa)" cho ví dụ 9 Những cặp chiến lược này là cân bằng Nash duy nhất chonhững bài toán này
Mối liên hệ giữa cân bằng Nash và loại bỏ các chiến lược bị ápđảo ngặt
Chúng ta xem lại những chiến lược cân bằng Nash trong ví dụ 1 và ví
dụ 2 là "(khai, khai)" và "(trên, giữa)", tương ứng là những chiến lược duynhất phép lặp loại bỏ các chiến lược bị áp đảo ngặt Những kết quả này cóthể được tổng quát như sau: nếu phép lặp loại bỏ tất cả các chiến lược bị ápđảo ngặt trừ các chiến lược (s∗1, , s∗N) thì những chiến lược này là cân bằngNash duy nhất cho bài toán Vì phép lặp loại bỏ các chiến lược bị áp đảongặt thường loại bỏ tất cả trừ một sự kết hợp các chiến lược duy nhất Tuynhiên, cân bằng Nash là một khái niệm nghiệm mạnh hơn phép lặp loại bỏcác chiến lược bị áp đảo ngặt theo nghĩa sau: nếu các chiến lược (s∗1, , s∗N)
là một cân bằng Nash thì tồn tại phép lặp loại bỏ các chiến lược bị áp đảongặt, nhưng có thể có những chiến lược tồn tại phép lặp loại bỏ các chiếnlược bị áp đảo ngặt nhưng không phải là một phần của bất kì cân bằng Nashnào Để thấy được điều này ta xem ví dụ 3: cân bằng Nash cho dự đoán duynhất "(dưới, phải)" trong khi phép lặp loại bỏ các chiến lược bị áp đảo ngặtcung cấp dự đoán không chính xác tối đa: không chiến lược nào bị loại bỏ
Ví dụ 12 (Cuộc chiến của hai giới)[2]
Một người đàn ông (B) và một phụ nữ (C) đang cố quyết định một buổitối sẽ đi đâu để giải trí Trong khi tại 2 nơi làm việc, người đàn ông và người
Trang 37phụ nữ phải chọn tham dự hoặc xem opera hoặc xem trận đấu bóng đá Cả 2người chơi thích trải qua buổi tối với nhau hơn là một mình, người đàn ôngthích họ cùng đi xem bóng đá hơn trong khi người phụ nữ thích họ cùng đixem opera Bài toán được miêu tả trong bảng sau :
Mệnh đề B [2]
Trong trò chơi dạng chuẩn tắc n người chơi G = {S1, , SN; u1, , uN},nếu phép lặp loại bỏ các chiến lược bị áp đảo ngặt loại bỏ tất cả trừ các chiếnlược (s∗1, , s∗N) thì những chiến lược này là cân bằng Nash duy nhất của tròchơi
2.1.3 Lý thuyết cải tiến: các chiến lược hỗn hợp và tồn tại cânbằng Nash cho các chiến lược hỗn hợp
Ta xem xét ví dụ "Đồng xu phù hợp" :
Sấp (H) Ngửa (T)Sấp (H) -1,1 1,-1Ngửa (T) 1,-1 -1,1Không gian chiến lược của mỗi người chơi trong trò chơi này là { sấp,
Trang 38ngửa } Tưởng tượng rằng mỗi người chơi có 1 đồng xu và cần lựa chọn liệumặt sấp hay mặt ngửa sẽ xuất hiện Nếu 2 đồng xu phù hợp (cả 2 đều là sấphoặc cả 2 đều là ngửa xuất hiện) thì người chơi 2 thắng đồng xu của ngườichơi 1 Nếu các đồng xu không phù hợp thì 1 thắng đồng xu của người 2.Không cặp chiến lược nào có thể thỏa (N E), vì nếu các chiến lược của ngườichơi phù hợp - (sấp, sấp) hoặc (ngửa, ngửa) - thì người chơi 1 thích chuyểnđổi các chiến lược hơn, trong khi các chiến lược không phù hợp - (sấp, ngửa)hoặc (ngửa, sấp) - thì người chơi 2 thích làm vậy hơn.
Tính năng của "Đồng xu phù hợp" là mỗi người chơi muốn dự đoán đượcnhững người khác Những phiên bản tương tự trong trò chơi này cũng nảysinh trong bóng chày, trận chiến Trong một trận đánh, giả sử những kẻ tấncông có thể chọn giữa 2 đường (ví dụ bằng đường bộ hoặc đường biển) vàngười bảo vệ có thể tránh cuộc tấn công nếu nó được dự đoán chính xác.Hoặc trong bóng đá, trước mỗi đợt ra bóng, đội đang tấn công sẽ lựa chọngiữa chuyền bóng và dắt bóng trong khi bên phòng ngự sẽ tổ chức để đốiphó lại các kiểu chơi trên Trong các ví dụ này mỗi bên đều biết thế mạnhcủa mình và điểm yếu của đối phương nên muốn khai thác điểm yếu của đốiphương để tối ưu hóa lợi ích của mình Vấn đề là nếu lúc nào bạn cũng chơimột kiểu thì thì đối phương sẽ biết điều đó và sẽ đưa ra những phương án tốtnhất để chống lại cách chơi đó của bạn Nhưng không chỉ có thế, cả nhữngngười chơi cũng như các cổ động viên hâm mộ đều biết rằng phải chơi hỗnhợp và đôi khi đi những bước bất ngờ Trong bóng đá nếu một đội chỉ biếtkết hợp giữa tấn công và phòng thủ thôi chưa đủ mà phải biết tùy vào tuơngquan lực lượng giữa hai đội bóng mà đội đó sẽ dành bao nhiêu thời gian đểphòng thủ, bao nhiêu thời gian để tấn công Chơi hỗn hợp mang tính khóđoán
Trang 39Chuyện gì sẽ xảy ra nếu khi kinh doanh mà đối thủ biết trước ta sẽ làmgì? Ở thị trường thức ăn nhanh, công ty A phát hành phiếu khuyến mãi vàongày thứ 3 hàng tuần, công ty B biết điều đó nên phát phiếu khuyến mãicủa mình vào thứ 2, hành động này của công ty B dễ dàng bị phát hiện nêncông ty A sẽ chọn hành động trước vào ngày chủ nhật Quá trình này làm
cả hai bị giảm lợi nhuận Nếu mỗi công ty đều chơi những chiến thuật khóđoán thì họ cùng nhau có thể giảm mức độ cạnh tranh
Trong bất kì trò chơi nào mà mỗi người chơi đoán được những người chơikhác thì ở đó không có cân bằng Nash bởi vì nghiệm của một trò chơi nhấtthiết bao gồm sự không chắc chắn về những người chơi khác sẽ làm gì
Trái PhảiTrên 3,– 0,–
Giữa 0,– 3,–
Dưới 1,– 1,–
Bảng 1.3.1Bảng 1.3.1 cho thấy một chiến lược thuần túy được cho có thể bị áp đảongặt bởi một chiến lược hỗn hợp, thậm chí chiến lược thuần túy không bị ápđảo ngặt bởi bất kì chiến lược thuần túy nào Trong trò chơi này, với chiếnlược hỗn hợp (q, 1 − q) thì người chơi 1 có thể nắm được cách chơi của ngườichơi 2, phản ứng tốt nhất của người chơi 1 hoặc là "trên" (nếu q ≥ 1
2) hoặc
"giữa" (nếu q ≤ 1
2) nhưng không bao giờ là "dưới" Vì "dưới" không bị ápđảo ngặt bởi "trên" hoặc "giữa" Vấn đề ở đây là "dưới" bị áp đảo ngặt bởimột chiến lược hỗn hợp: nếu người chơi 1 chọn "trên" với xác suất 1
2 và chơi
"giữa" với xác suất 1
2 thì mức thưởng phạt được kì vọng của 1 là
3
2 dù chiếnlược người chơi 2 là gì ( thuần túy hay hỗn hợp ) và 3
2 lớn hơn mức thưởng
Trang 40phạt là 1 khi chọn "dưới" Ví dụ này nhằm miêu tả vị trí của những chiếnlược hỗn hợp trong việc tìm " chiến lược khác mà áp đảo si".
Trái PhảiTrên 3,– 0,–
Giữa 0,– 3,–
Dưới 2,– 2,–
Bảng 1.3.2Bảng 1.3.2 chỉ ra rằng một chiến lược thuần túy được cho có thể là phảnứng tốt nhất với một chiến lược hỗn hợp thậm chí chiến lược thuần túy đókhông phải là phản ứng tốt nhất với bất kì chiến lược thuần túy nào khác.Trong trò chơi này "dưới" không phải là phản ứng tốt nhất của người chơi
1 với "trái" hoặc "phải" của người chơi 2, nhưng "dưới" là phản ứng tốtnhất của người chơi 1 với chiến lược hỗn hợp (q, 1 − q) của người chơi 2 với1
• Mở rộng cân bằng Nash ở phần trước cho chiến lược hỗn hợp
• Áp dụng định nghĩa mở rộng này cho bài toán "đồng xu phù hợp" và
"cuộc chiến của hai giới"
• Dùng đồ thị để chỉ ra rằng bất kì trò chơi 2 người nào (trong đó mỗingười chơi có 2 chiến lược thuần túy)có một cân bằng Nash (có thể baogồm các chiến lược hỗn hợp)
• Định lí Nash (1951) đảm bảo bất kì trò chơi hữu hạn (hữu hạn số người