1. Trang chủ
  2. » Kinh Tế - Quản Lý

Lý thuyết trò chơi - Game theory - tài liệu cơ bản nâng cao

189 275 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 189
Dung lượng 1,4 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trò chơi ma trận là một ma trận A kích thước m ×n chứa các số thực, với m hàng, n cột.1 Chiến lược chơi của người chơi số 1 gọi tắt là NC1 là một phân phối xác suất p tương ứng với các d

Trang 1

LÝ THUYẾT TRÒ CHƠI

TS.VƯƠNG QUÂN HOÀNG DHVP Research & ĐHTH Bruxelles E-mail: dhvp.economics@gmail.com

Bản Thảo Tài Liệu Nghiên Cứu

Hà Nội - Ngày 1 tháng 4 năm 2011

Trang 2

LÝ THUYẾT TRÒ CHƠI

Vương Quân Hoàng

Trang 3

Mục lục

1.1 Những nét cơ bản 1

1.2 Tìm nghiệm trò chơi kích thước 2× n và m × 2 3

1.2.1 Giải các trò chơi 2× n 3

1.2.2 Trò chơi m × 2 5

1.2.3 Tính trội tuyệt đối 7

1.3 Một số ví dụ và tính chất trò chơi ma trận 9

2 Trò Chơi 2-Người Hữu Hạn 17 2.1 Cơ sở lý thuyết 17

2.2 Tìm điểm cân bằng Nash 19

2.2.1 Cân bằng Nash thuần 19

2.2.2 Trò chơi bimatrix 2× 2 21

2.2.3 Tính trội tuyệt đối 23

2.3 Một số ứng dụng và bài toán minh họa 26

3 Dạng Mở Rộng Hữu Hạn 35 3.1 Bài toán dạng mở 35

3.2 Dạng chiến lược 36

3.3 Quy nạp lùi và hoàn chỉnh trò chơi con 39

i

Trang 4

ii ⃝ 2011 - Vương Quân Hoàngc

3.4 Cân bằng Bayes hoàn hảo 43

4 Trò Chơi Hữu Hạn Thông Tin Không Đầy Đủ 53 4.1 Nhóm đặc trưng 54

4.2 Trò chơi tĩnh, thông tin không đầy đủ 54

4.3 Trò chơi tín hiệu 59

5 Bất Hợp Tác 69 5.1 Khuôn khổ tổng quát: trò chơi chiến lược 69

5.2 Cạnh tranh số lượng Cournot 70

5.2.1 Mô hình đơn giản, thông tin đầy đủ 71

5.2.2 Mô hình đơn giản, thông tin không đầy đủ 73

5.3 Cạnh tranh giá Bertrand 75

5.4 Cân bằng Stackelberg 76

5.5 Chiến lược hỗn hợp và thông tin không đầy đủ 79

6 Trò Chơi Lặp Lại 87 6.1 Cân bằng hoàn hảo trò chơi con 87

6.1.1 Nghịch lý người tù 87

6.1.2 Quan sát tổng quát 91

6.2 Cân bằng Nash 93

6.2.1 Ví dụ trò chơi bimatrix khác: 93

6.2.2 Một định lý dân gian cho cân bằng Nash 95

7 Trò Chơi Tiến Hóa - 1 101 7.1 Trò chơi 2-NC đối xứng và chiến lược ổn định tiến hóa 102

7.2 Động học bộ sao chép và tính ổn định tiến hóa 105

7.3 Trò chơi bất đối xứng 107

8 Hợp Tác Chuyển Đổi Lợi Ích 115 8.1 Ví dụ và các ý niệm cơ bản 115

8.1.1 Bài toán xuất phát 116

8.2 Tập lõi 118

8.3 Giá trị Shapley 121

8.4 Hạch nhân - nucleolus 123

Trang 5

Lý Thuyết Trò Chơi - DHVP Research iii

9.1 Các dạng bài toán mặc cả 133

9.1.1 Nghiệm Nash cho bài toán mặc cả 133

9.2 Nền kinh tế trao đổi 138

10 Trò Chơi Ma Trận 151 10.1 Định lý Minimax 151

10.2 Phát biểu hệ thống về quy hoạch tuyến tính 152

11 Công Cụ Toán Học 157 11.1 Thuật ngữ và khái niệm thường sử dụng 157

11.2 Các bổ đề về lựa chọn thay thế 158

11.3 Định lý đối ngẫu của quy hoạch tuyến tính 160

11.4 Một số định lý điểm bất động 160

11.5 Định lý Birkhoff–von Neumann 160

Trang 6

LÝ THUYẾT TRÒ CHƠI

Trang 7

Danh mục hình vẽ

2.1 Sơ đồ β2 22

2.2 Sơ đồ β2 27

3.1 Sơ đồ trò chơi dạng mở 36

3.2 Sơ đồ cây - thông tin hoàn hảo 37

3.3 Sơ đồ cây rút gọn - thông tin hoàn hảo 40

3.4 Sơ đồ cây 3-NC 42

3.5 Sơ đồ 3-NC cân bằng Bayes 45

4.1 Xung đột sở thích giới tính, thông tin không đầy đủ 56

4.2 Trò chơi tín hiệu 1 60

5.1 Cournot 1 72

5.2 Hàm lợi ích của hãng i khi độc quyền Bertrand 78

5.3 Lược đồ dạng mở trò chơi Stackelberg 78

5.4 Cân bằng Stackelberg 78

6.1 δ và lợi ích giới hạn tại G ∞ p (δ) 96

6.2 δ và lợi ích giới hạn tại G ∞ p (δ) 96

7.1 Sơ đồ pha của trò chơi tiến hóa bất đối xứng 108

8.1 Sơ đồ hợp tác tải điện 3-TP 116

8.2 Tập C trò chơi 3-TP 120

9.1 Bài toán mặc cả: phân chia 134

9.2 Bài toán mặc cả 2-NC 135

9.3 4 điều kiện Nash về nghiệm mặc cả 136

9.4 Tập lõi và cân bằng Walras 144

v

Trang 8

vi ⃝ 2011 - Vương Quân Hoàngc11.1 Giải thích hình học bổ đề Farkas 159

Trang 9

Danh mục bảng biểu

4.1 PPXS theo đặc trưng của NC có 2 đặc trưng 58

8.1 Liên minh lưới điện 3-TP 116

8.2 Giá trị trò chơi găng tay 118

8.3 Giá trị theo sở nguyện NC 119

8.4 Mô hình hoán vị lịch hẹn 120

8.5 Giá trị Shapley cho TU-game 3-TP 122

8.6 Phép thử hạch nhân trò chơi 3-TP 124

8.7 Phép thử hạch nhân trò chơi 3-TP (b) 126

vii

Trang 10

LÝ THUYẾT TRÒ CHƠI

Trang 11

Lời giới thiệu

Lý thuyết trò chơi (LTTC) từ nửa sau của Thế kỷ XX được gọi là “cuộccách mạng kinh tế học thầm lặng” diễn ra rất mạnh mẽ, nhưng ít ồn

ào Nó đã bước qua ranh giới thuần túy dành cho các nhà toán học

để trở thành lĩnh vực ứng dụng phân tích kinh tế, chính sách dồi dàotiềm năng LTTC nhanh chóng lan tỏa sang nhiều lĩnh vực khoa học xãhội liên quan tới hành vi con người, và trở thành một công cụ không gìsánh nổi trong việc cung cấp logic và lập luận phân tích sâu Có lẽ chỉ

có nhánh thống kê toán là có thể sánh với lý thuyết trò chơi về mức độứng dụng rộng rãi Tuy nhiên, trong các môi trường thống kê khó hoạtđộng do tình trạng “dữ liệu bẩn” hay quá rời rạc, khó thu thập, phươngtiện duy nhất là cứu cánh cho các phân tích khoa học hợp lý, có tínhtiên lượng cao (tương đương với thống kê) còn lại chỉ có lý thuyết tròchơi Đó là lý do mà tài liệu này ra đời, và tự đặt LTTC như một bộ phậnkhông thể tách rời của các nguyên lý kinh tế toán

Lý thuyết trò chơi: nét đại lược

Vậy LTTC là gì? Trước tiên đó là hệ thống nghiên cứu về các mô hìnhtoán học đặc tả sự xung đột và hợp tác giữa “các cá nhân ra quyết địnhmột cách khôn ngoan.” Còn nhớ ở Việt Nam năm 2009, khi mà ngườitiêu dùng bày tỏ sự bức xúc vì hàng hóa kém cỏi về chất lượng cho mứcgiá tiền phải trả nhiều một cách không tương xứng, đã có vị quan chứcgợi ý: Vậy thì “ông” người tiêu dùng phải thông thái thôi Khẩu khí nàyrất đượm hương vị LTTC!

Gọi là lý thuyết, bởi vì lĩnh vực này cung cấp các kỹ thuật toán học đểphân tích các tình huống trong đó hai cá nhân, hoặc đông hơn nữa, tiếnhành ra các quyết định, mà các quyết định đó gây ra ảnh hưởng lên lợi

ix

Trang 12

x ⃝ 2011 - Vương Quân Hoàngcích của (những) người khác có mặt trong tình huống (trò chơi).

Như vậy, LTTC cung cấp sự thấu hiểu mà các nhà nghiên cứu ở tất cả(xin lưu ý là “tất cả”) các nhánh của các lĩnh vực khoa học xã hội rất cần

để nhận biết các vấn đề hành vi con người Các nhà kinh doanh, chínhtrị gia, chiến lược quân sự lại còn càng cần hơn, vì họ phải xử lý quan

hệ đa chiều phức tạp giữa các đám đông thuộc cấp, xã hội, đối tác-đốitượng, v.v

LTTC hiện diện từ rất lâu rồi, lẩn khuất trong các lĩnh vực xã hội,quân sự, cho dù không mang cái tên hiện đại như ngày hôm nay Nhữngnghiên cứu lớn đã xuất hiện từ thế kỷ XIX, cùng với sự phát triển của

bộ môn xác suất, với cái tên như Bertrand Tuy vậy, LTTC hiện đại –với dáng dấp như một ngành khoa học hoàn chỉnh hôm nay – coi nhưđược đánh dấu từ thế kỷ XX, với những tác phẩm trứ danh của Zermelo(1913), Emile Borel (“La théorie du Jeu et les équations intégrales à

noyau symétrique,” Comptes Rendus de l’Académie des Sciences, Vol.

173: 1304-1308, 1921), Von Neumann (1928), và cuốn sách rất ấn tượng

của Von Neumann và Morgenstern (Theory of Games and Economic

Behavior, 1944).

Lý thuyết trò chơi hiện đại nợ nần nhiều đóng góp rất lớn của ton, và rất nhiều đóng góp ban đầu được công bố trong khoảng thời gianThế chiến Đệ Nhị Nơi sinh ra những đóng góp lớn của lý thuyết tròchơi, cũng là nơi nhiều vĩ nhân của ngành vật lý sản sinh ra những đónggóp tạo ra bước tiến khổng lồ của khoa học vật lý nhân loại Sự gần gũi

Prince-về mặt không gian này, theo các nhà nghiên cứu Prince-về lịch sử phát triển

Trang 13

Lý Thuyết Trò Chơi - DHVP Research xi

tri thức nhân loại, xét ở góc nhìn rộng rãi, không hề tình cờ hay ngẫunhiên Và như vậy, nó là kết cục tất yếu Phần lớn sự hấp dẫn, cuốnhút và những gì chứa đựng hứa hẹn lớn lao của lý thuyết trò chơi là kếtquả của vị trí trung của lý thuyết trò chơi, với tư cách nền tảng toán học

và logic cho tất cả các ngành khoa học xã hội Trong thời kỳ đầu thế kỷ

XX này, những tiến bộ lớn diễn ra trong tất cả các nhánh của các ngànhkhoa học vật lý đã sản sinh ra nghịch lý và sự xung đột tiềm tàng về vũkhí hạt nhân, và điều này đã trực tiếp đe dọa sự tồn tại của toàn bộ nềnvăn minh nhân loại

Tiến bộ khoa học vật chất có vẻ như giúp con người biết cách thiết kếcác hệ thống vật lý để khai thác vật liệu tạo năng lượng phóng xạ, nhưnglại không đủ tri thức để tạo ra các hệ thống xã hội có thể giúp điều hòahành vi của con người trong bối cảnh xung khắc tới mức sẵn sàng tiêudiệt nhau Yêu cầu bức bách dẫn tới sự kỳ vọng lớn lao rằng ngành khoahọc xã hội cũng sẽ đạt được những bước tiến đủ lớn, có tính căn nguyên

và đảm bảo học thuật, có khả năng cung cấp nhận thức sâu sắc tươngxứng với những tiến bộ khoa học vật chất, đặc biệt là vật lý lý thuyết vàứng dụng Sự hy vọng lớn lao này là động lực mạnh mẽ khiến rất nhiềunhà toán học và khoa học xã hội miệt mài nghiên cứu thúc đẩy lý thuyếttrò chơi trong nửa còn lại của thế kỷ XX

Cuối cùng thì mong mỏi đó cũng được đền đáp Bằng chứng rất thực

về sức mạnh của lý thuyết trò chơi có thể đặc trưng bởi quá trình mắn

đẻ các ứng dụng quan trọng của nó trong kinh tế học và đời sống kinh

tế toàn cầu

Về bản chất công việc, các nhà nghiên cứu LTTC thực ra bỏ công sứcnhằm hiểu được bản chất của xung đột và hợp tác, thông qua việc tìmhiểu, xây dựng các mô hình định lượng, kèm theo đó là các ví dụ mangtính chất ước đoán về các tình huống, hành vi của cuộc sống Các ví dụthì như chúng ta vẫn thấy, thường phải được đơn giản hóa đi (một cáchphi thực tế), nhằm cô lập một nhóm vấn đề phức tạp về một số ít vấn đềrất căn bản của bản chất xung đột hay hợp tác Tính đơn giản này giúpgiải quyết vấn đề được thuận lợi hơn, trong khi vẫn có thể duy trì tínhtổng quát cho cả các trường hợp vô cùng rắc rối của đời sống thực Điềunày cũng là chuyện thường thấy trong rất nhiều ngành khoa học khácnữa: Gạt bỏ các chi tiết dù là có thực, nhưng không quá quan trọng, đểtập trung cho một số ít các câu hỏi lớn, không thể bỏ qua

Khái niệm “trò chơi” ở đây chỉ là quy ước về mặt ngôn ngữ, nhằm

Trang 14

xii ⃝ 2011 - Vương Quân Hoàngc

ám chỉ bất kỳ tình huống xã hội nào có liên quan tới ít nhất 2 người

Do cách gọi, các cá nhân liên quan tới một trò chơi thì đều được gọi là

“người chơi.” Nói chính xác là họ ra các quyết định, thậm chí rất nghiêmtúc và bằng trí khôn chuẩn mực, chứ không có chơi bời gì hết.) Điềukiện để nghiên cứu là hai giả thiết: Thứ nhất, người chơi có tính hợp lý.Thứ hai, người chơi sử dụng trí khôn để ra quyết định

Hành vi nhất quán tối đa hóa mức thỏa dụng còn được nhận biết từcác mô hình chọn lọc tiến hóa Trong một vũ trụ mà sự hỗn loạn tănglên là một quy luật vật lý, các cơ quan phức tạp (như cơ thể con người,hay tổ chức xã hội) chỉ có thể tồn tại nếu biết cách điều chỉnh hành vi,theo hướng làm tăng xác suất sống sót và duy trì sinh sản (tái tạo cácthế hệ) Như thế, theo cách nhìn của chọn lọc tiến hóa, các cá nhân có

xu hướng tối đa hóa giá trị kỳ vọng của đại lượng “sống sót” hoặc “thíchnghi sinh sản.”

Có lẽ, chúng ta để dành các thảo luận kỹ thuật cho phần nội dung sâucủa các chương tiếp theo sau đây

Biên soạn

Tài liệu này được biên soạn với mục đích trước tiên làm tài liệunghiên cứu nội bộ của văn phòng nghiên cứu DHVP Research (w:www.vietnamica.net), phục vụ các nghiên cứu ứng dụng về chính sáchkinh tế trong giai đoạn 2011-2015

Quá trình biên soạn tài liệu có đóng góp quan trọng của Trần TríDũng và Nguyễn Xuân Dũng Ngoài ra, Nguyễn Thu Hoài tham gia trợgiúp một số công việc liên quan

Để trở thành một tài liệu hoàn chỉnh, có thể sử dụng cho giảng dạy

và in ấn rộng rãi, sẽ còn phải gia công rất nhiều, đặc biệt là đưa vào cácnghiên cứu ứng dụng kinh tế - xã hội mà LTTC đã và đang giải quyết rấthiệu quả, đưa ra nhiều ngụ ý chính sách tốt

Hà Nội - Tháng 6-2011

TS Vương Quân Hoàng

e: vuong@vietnamica.net

Trang 15

Chương 1

Trò Chơi 2-Người Tổng-0 Hữu Hạn

Các dữ liệu của trò chơi 2-người tổng-0 hữu hạn có thể được tóm tắt vàomột ma trận, do đó loại trò chơi này còn được gọi là trò chơi ma trận

Trò chơi ma trận là một ma trận A kích thước m ×n chứa các số thực,

với m hàng, n cột.1 Chiến lược chơi của người chơi số 1 (gọi tắt là NC1)

là một phân phối xác suất p tương ứng với các dòng của ma trận A Điều

đó có nghĩa là, chiến lược của NC1 là một phần tử của tập

Chiến lược p của NC1 gọi là ‘thuần’ nếu chiến lược được đó lựa chọn

dòng thứ i một cách chắc chắn, tức là p i = 1 Chiến lược thuần này có

thể ký hiệu là ei

1Như vậy m, n là các số nguyên dương, bé nhất là bằng 1.

1

Trang 16

2 ⃝ 2011 - Vương Quân Hoàngc

Tương tự vậy, chiến lược q của NC2 gọi là ‘thuần’ nếu lựa chọn cột

thứ j một cách chắc chắn, tức là q j = 1; ký hiệu là ej

Ý nghĩa của ma trận A như sau Nếu NC1 chơi hàng i, tức là lựa chọn

chiến lược thuần ei , thì NC1 nhận được lợi ích tài chính a ij, trong khiNC2 nhận được−a ij (nghĩa là trả), tương ứng vị trí dòng i và cột j trong

A

Giả sử NC1 chơi chiến lược hỗn hợp p và NC2 q, thì lợi ích của NC1

thu về tương ứng với một dãy PPXS (chính là ý nghĩa của chiến lược hỗn

Chiến lược maximin và minimax Chiến lược p được gọi là

max-imin cho NC1 trong trò chơi ma trận A nếu như

min{pAq} ≥ min{pAq} ∀p ′ ∈ ∆ m , q ∈ ∆ n (1.1)

Theo cách tương tự, chiến lược minimax q của NC2 nếu như:

min{pAq} ≤ min{pAq} ∀q ′ ∈ ∆ n (1.2)Một cách dễ hình dung, đối với NC1 chiến lược maximin là lựa chọnPPXS sao cho anh ta tối đa hóa giá trị lợi ích nhỏ nhất, tương ứng vớilựa chọn của NC2 Còn minimax là lựa chọn PPXS sao cho NC2 tối thiểuhóa giá trị thiệt hại lớn nhất tương ứng với lựa chọn của NC1

Như vậy, để biết được lựa chọn p có phải chiến lược maximin hay

không, chỉ cần kiểm tra sự thỏa mãn dấu≥ của bất đẳng thức (1.1) với

các chiến lược thuần ej , với từng giá trị j = 1, 2, , n.2

Nhà toán học Von Neumann chứng minh rằng với mọi trò chơi ma

trận A, sẽ tồn tại một trị số v = v(A) có tính chất như sau:

1 Chiến lược p của NC1 đảm bảo thu về lợi ích tối thiểu v cho NC1, nghĩa là pAq ≥ v bất kể NC2 lựa chọn chiến lược q nếu và chỉ nếu p là

chiến lược maximin

2 Chiến lược q của NC2 đảm bảo chỉ phải chi phí tối đa v mà NC2 phải trả NC1, nghĩa là pAq ≤ v bất kể NC1 lựa chọn chiến lược p nào,

nếu và chỉ nếu q là chiến lược minimax.

2 Chứng minh chặt chẽ hơn luận điểm này sẽ được trình bày sau.

Trang 17

Lý Thuyết Trò Chơi - DHVP Research 3

Trong thuật ngữ của chúng ta, v = v(A) được gọi là giá trị của trò chơi A Các chiến lược maximin và minimax như vừa nói được gọi là

các chiến lược tối ưu tương ứng với NC1 và NC2 Khi nói rằng ‘giải bài

toán’ trò chơi A nghĩa là ta ám chỉ việc xác định các chiến lược tối ưu,

đồng thời cả giá trị của trò chơi

Điểm yên ngựa. Một vị trí xác định bởi cặp (i, j) trong ma trận A được gọi là điểm yên ngựa - saddlepoint - nếu như a ij ≥ a kjvới mọi giá

trị k = 1, , m, và a ij ≤ a ik với mọi k = 1, , n.

Giá trị tại điểm yên ngựa a ij có ý nghĩa là điểm có giá trị lớn nhất

trong cột j và nhỏ nhất trong hàng i Từ đó ta thấy rằng, nếu (i, j) là

điểm yên ngựa, thì NC1 có thể đảm bảo nhận được giá trị lợi ích tối

thiểu a ij bằng cách chơi chiến lược thuần theo dòng i, tức là e i Tương

tự, NC2 đảm bảo chỉ phải trả tối đa−a ij bằng cách lựa chọn chiến lược

thuần cột ej

Theo suy luận này, a ij chắc chắn phải là giá trị của trò chơi A,

v(A) = a ij, đồng thời ej là chiến lược minimax tối ưu của NC2, ei màmaximin tối ưu của NC1

)

, e2 =(

)

, và e4 =

(112)

Trang 18

4 ⃝ 2011 - Vương Quân Hoàngc

Các chiến lược thuần trên là của NC2 (do lấy theo cột) Bây giờ, ta

xét chiến lược chơi hỗn hợp p = (p, 1 − p) bất kỳ của NC1 Thiết lập các

mức lợi ích kỳ vọng NC1 thu được tương ứng với mỗi chiến lược thuần

ở trên của NC2, ta sẽ có một hệ thống như sau:

In[3]:= Plot[{e1[p], e2[p], e3[p], e4[p]}, {p,0,1}];

Có 4 điểm đáng chú ý của đồ thị này là (0, 2), (12, 6), (2021,3221), (1, 1).

Đây là các điểm mà khi nối lại, ta thu được đường bao đáy của miền

tạo bởi toàn bộ 4 đoạn thẳng trong khoảng p = [0, 1] như đã nói Khi

p = 1/2cũng là lúc toàn bộ hệ này thu được giá trị maximin là 6, và đây

cũng là giá trị của trò chơi v(A) = 6.3

3 Có thể dễ dàng chứng minh tính duy nhất của chiến lược tối ưu maximin từ hệ phương trình, cũng như quan sát qua đồ thị.

Trang 19

Lý Thuyết Trò Chơi - DHVP Research 5

Đó là với NC1, còn các chiến lược tối ưu minimax của NC2 sẽ có hìnhdạng ra sao?

Trước tiên, dạng tổng quát của chiến lược minimax cho NC2 là q =

(q1, q2, q3, q4) Lợi dụng việc xác định được v(A) = 6, ta sẽ loại được q4

do q4 = 0, vì nếu như q4 > 0thì chi phí của việc chơi chiến lược thuần

Từ đây có thể thấy rằng, khi q1 = 1/3 → q2= 0, và q1= 1/2 → q2 = 1/2.

Cả q1, q2đều không thể lớn hơn 1/2 Ràng buộc với q3không xác định.Tập hợp các chiến lược tối ưu cho NC2 có dạng:

Bây giờ ta viết lại dạng các chiến lược thuần ei , i = 1, , 4: e1 = (10, 2),

e2 = (2, 10), e3 = (4, 8), e4 = (1, 12) Thực ra, đây là cách xử lý để đưa đầu bài về dạng dễ giải quyết hơn, do với số cột n = 2, ta lại có tình

Trang 20

6 ⃝ 2011 - Vương Quân Hoàngc

huống NC2 có chiến lược với PPXS đơn giản, dạng tương tự khi trước

q = (q, 1 − q).4

Tiếp theo, ta thiết lập hệ các lợi ích cho NC1, tương ứng với chiến

lược q của NC2, nếu NC1 chơi chiến lược thuần ei , i = 1, , 4.5

e1Aq = 10q + 2(1 − q) = 8q + 2

e2Aq = 2q + 10(1 − q) = 10 − 8q

e3Aq = 4q + 8(1 − q) = 8 − 4q

e4Aq = q + 12(1 − q) = 12 − 11q

Ta xử lý sơ bộ trên đồ họa Mathematica qua một số lệnh sau:

In[1]:= e1[q_]:=8*q+2; e2[q_]:=10-8*q;

In[2]:= e3[q_]:=8-4*q; e4[q_]:=12-11*q;

In[4]:= Plot[{e1[q], e2[q],e3[q],e4[q]},{q,0,1}, AxesLabel ->

{"q","Player 1 Payoff"}, GridLines -> Automatic]

Ta nhận thấy 3 điểm đáng chú ý là các điểm tạo thành đường bao phíatrên của vùng xác định bởi các đoạn thẳng của hệ phương trình trên

(0, 12), (1019,11819), (1, 10) Trong các điểm có giá trị lớn nhất nằm trên

đường bao đi qua 3 điểm này, điểm có trị số nhỏ nhất là (10

19,11819), điểmgiao nhau giữa đường 12− 11q và 8q + 2 Đây cũng là điểm cho biết

chiến lược giá trị phải trả minimax tối ưu cho NC2

4Lưu ý: Trong bài toán A2×nthì PPXS của chiến lược ký hiệu là p.

5NC1 nhận giá trị theo dòng của ma trận A.

Trang 21

Lý Thuyết Trò Chơi - DHVP Research 7

Giá trị của trò chơi là11819, và tương ứng với nó là chiến lược minimax

tối ưu với NC2 là q∗ = (10

19,199)

Tiếp theo là nhiệm vụ xác định chiến lược tối ưu cho NC1 p =

(p1, p2, p3, p4), tận dụng kết quả đã biết của q∗ và v(A) = 118

19 Dựa

trên đồ thị ở trên, p2 = p3 = 0, do hai đường này nằm dưới đường bao

phía trên tạo bởi e1Aqvà e4Aq.6

Như vậy, cần tìm một phép kết hợp giữa e1và e4 sao cho chiến lượcnày tạo ra lợi ích không nhỏ hơn118

19 với mọi giá trị q Điều kiện này dẫn

tới việc khai triển p theo hai cột của A như sau:

Rõ ràng p1+ p4 = 1cũng thỏa mãn nốt điều kiện thứ 3 Cuối cùng,

ta kết luận chiến lược tối ưu maximin - và cũng là duy nhất - cho NC1 códạng (1119, 0, 0,198)

1.2.3 Tính trội tuyệt đối

Tính trội tuyệt đối (strict domination) là một kỹ thuật nhằm giúp việcphân tích nghiệm của một TC được thuận lợi hơn, thông qua việc loại bỏbớt các chiến lược thuần không thích hợp Trước hết, ta xét khái niệm

6Khi thay giá trị q = 10

19 vào hai phương trình 2 và 3, ta thu được các giá trị lợi ích cho NC1 lần lượt là 110

19 , 112

19 Cả hai giá trị này đều nhỏ hơn v(A), do đó nếu p2, p3̸= 0

thì chiến lược p không thỏa mãn tính chất maximin.

7 Trong tài liệu này, chúng ta sử dụng Mathematica cho các tính toán số để tiết kiệm thời gian.

Trang 22

8 ⃝ 2011 - Vương Quân Hoàngc

Tính trội tuyệt đối. Gọi A là một trò chơi ma trận kích thước m ×n và

i là một dòng (hàng) của A Một chiến lược thuần e igọi là lép vế (strictly

dominated) nếu như tồn tại một chiến lược hỗn hợp p = (p1, , p m)

m với p i = 0sao cho pAe j > e i Ae j , với mọi j = 1, , n.

Tương tự như vậy, gọi j là một cột của A Chiến lược thuần e jgọi là lép

vế nếu tồn tại q = (q1, , q n) ∈ ∆ n với q j = 0sao cho: ei Aq < e i Ae j,

ta thu được kết quả p· A = (31

Trang 23

Lý Thuyết Trò Chơi - DHVP Research 9

Ở dạng ma trận rút gọn đơn giản này, việc giải bài toán trở nên thuận

lợi và nhanh chóng Bản thân trò chơi C không có điểm yên ngựa, do

đó sẽ không có chiến lược thuần cho NC1 đảm bảo tính chất maximin

Xét PPXS p = (p, 1 − q) với từng chiến lược thuần của NC2, ta dễ dàng

thu được pAe1 = 6p và pAe2 = 5− 5p, và giải ra được:

In[24]:= Solve[6*p==5-5*p,p]

Out[24]= {{p \[Rule] 5/11}}

Như vậy p = (115,116 ), tương ứng v(A) = 3011

Tương tự vậy, ta xét tiếp chiến lược cho NC2, thông qua xét q =

(q, 1 − q), và ta sẽ thu được kết quả hoàn toàn trùng khớp (do tính chất

đối xứng qua trục chuyển vị: q = (5

11,116) Hiển nhiên giá trị trò chơi

Giải bài toán trò chơi ma trận A.

Theo định nghĩa của điểm yên ngựa, ma trận A tồn tại hai điểm yên ngựa là a22, a23 Giá trị trò chơi v(A) = a22 = a23 = 0 Xét một cáchđơn giản, do chắc chắn NC1 sẽ chơi hàng 2 - vì cả hai điểm yên ngựađều nằm trên hàng thứ 2, do đó, PPXS thể hiện chiến lược maximin của

Trang 24

10 ⃝ 2011 - Vương Quân Hoàngc

NC1 là chiến lược thuần, và có dạng p = (0, 1, 0) Hiển nhiên, p có tính

duy nhất

Còn xét NC2, ta có thể giả sử chiến lược minimax qua PPXS dạng

q = (0, q, 1 − q, 0) Triển khai ta có được so sánh 3 giá trị 1, 0, 1 và giá trị

minimax NC2 lựa chọn đương nhiên là 0 tương ứng với trường hợp NC1

lựa chọn phương án maximin Như vậy q = (0, q, 1 − q, 0) là nghiệm

cuối cùng, với mọi giá trị 0≤ q ≤ 1.

Tính chất 9. Cho A là một trò chơi ma trận m × n Hãy chỉ ra rằng

bất kỳ 2 điểm yên ngựa nào cũng có cùng giá trị, nghĩa là nếu (i, j) và (k, l) là hai điểm yên ngựa, thì a ij = a kl

Tính chất 10. Nếu A(4×4) là trò chơi trong đó (1, 1) và (4, 4) là các điểm yên ngựa Chứng minh rằng, A có ít nhất 2 điểm yên ngựa khác

nữa

Trang 25

Lý Thuyết Trò Chơi - DHVP Research 11

Ví dụ 11. Hãy tìm một ví dụ trò chơi ma trận kích thước (4× 4) có

chính xác 3 điểm yên ngựa

Trang 26

12 ⃝ 2011 - Vương Quân Hoàngc

Trang 27

Lý Thuyết Trò Chơi - DHVP Research 13

VQG ghi chú:

Trang 28

14 ⃝ 2011 - Vương Quân Hoàngc

Trang 29

Lý Thuyết Trò Chơi - DHVP Research 15

VQG ghi chú:

Trang 30

LÝ THUYẾT TRÒ CHƠI

Trang 31

có tổng bằng 0 Do nới lỏng yêu cầu này, ta có thể xem xét một lớp nhiềutrò chơi hơn, có tính chất sát thực hơn với các ứng dụng kinh tế xã hội.Hai ví dụ rất điển hình của lớp trò chơi này là hai bài toán rất quen tênvới giới nghiên cứu: “Nghịch lý người tù,” và “Xung đột giới.”2

Mô hình và ý niệm về “cân bằng Nash” có vai trò quan trọng để dẫndắt việc tìm kiếm các điểm cân bằng Nash trong số các chiến lược thuầncủa các bài toán Tính trội tuyệt đối đã giới thiệu khi trước cũng đượcđưa ra ứng dụng nhằm hỗ trợ việc tìm ra các cân bằng Nash Hỗ trợ chochương này là Chương 12, bổ sung thêm các ý tưởng được gọt giũa sắcbén và gia tăng thêm công cụ

2.1 Cơ sở lý thuyết

Dữ liệu cho bài toán trò chơi 2-người với số chiến lược thuần hữu hạnđược trình bày qua 2 ma trận, thường được ghép vào làm một - ta sẽ gọi

là ma trận cặp (bimatrix)

1Từ khái niệm randomize mà chúng ta sẽ làm rõ nội dung sau.

2 Tương ứng với những thuật ngữ ngày nay không xa lạ với các giáo trình là “Prisoners’ dilemma” và “Battle of sexes.”

17

Trang 32

18 ⃝ 2011 - Vương Quân Hoàngc

Định nghĩa. Một trò chơi ma trận cặp (bimatrix) là một cặp ma trận

có kích thước m × n ký hiệu (A, B).

Cách hiểu trò chơi (A, B) như sau Nếu như NC1 (theo quy ước là

chơi theo hàng, hoặc dòng) mà chơi hàng (i) và NC2 chơi cột j, thì NC1

nhận lợi ích a ij , và NC2 nhận b ij , là các phần tử tương ứng của A và B.

Các ý niệm và ký hiệu với chiến lược thuần và hỗn hợp, tập hợp chiếnlược và lợi ích kỳ vọng vẫn giống như bài toán ma trận ở chương trước.Vấn đề trung tâm cần lưu ý với các bài toán thuộc lớp trò chơi bất hợp

tác (noncooperative game ) là khái niệm phản ứng tối ưu (best reply).

Ý niệm của phản ứng tối ưu trước hết có thể diễn đạt bằng lời như sau.Một NC có tính toán hợp lý và vị lợi sẽ luôn tìm cách tối đa hóa lợi ích

kỳ vọng của mình, thông qua hiểu biết hay phỏng đoán cá nhân về cácchiến lược mà đối thủ có thể lựa chọn

Khái niệm phản ứng tối ưu Chiến lược p của NC1 gọi là phản ứng tối ưu với chiến lược q của NC2 trong một trò chơi bimatrix kích thước

m × n - ký hiệu là (A, B) nếu pAq ≥ pAq với mọi p ∈ ∆ m

Tương tự như trên, q được gọi là phản ứng tối ưu với chiến lược p

của NC1 nếu như pBq ≥ pBq ′ với mọi q ∈ ∆ n

Kết luận đáng chú về mặt lý thuyết là tại điểm cân bằng Nash, chiến

lược của mỗi NC chính là phản hối tối ưu với người kia Bây giờ chúng

ta xét tới định nghĩa của cân bằng Nash

Cân bằng Nash Một cặp chiến lược, ký hiệu p, q, được gọi là cân

bằng Nash nếu như p là phản hồi tối ưu của NC1 khi NC2 chơi chiến

lược q, và q là phản hồi tối ưu của NC2 khi NC1 theo lựa chọn chiến

Trang 33

Lý Thuyết Trò Chơi - DHVP Research 19

thân việc lựa chọn và thu hẹp lựa chọn trong nhiều điểm cân bằng Nashcủa một trò chơi là một câu hỏi rất khoa học và phù hợp với tư duy logiccủa người giải trò chơi Một lưu ý bên lề nữa là, bản thân định nghĩa

về cân bằng Nash không hề đề cập đến khả năng trên thực tế liệu ngườichơi có lựa chọn cân bằng Nash để thực hiện ý đồ hay không

Chúng ta cũng còn một câu hỏi nữa từ ý niệm cân bằng Nash cần trảlời Đó là, ý nghĩa của một chiến lược hỗn hợp là gì Liệu chiến lược hỗnhợp có nghĩa là NC trên thực tế ngẫu nhiên hóa khi chơi trò chơi không?

Ở đây, một cách hiểu phổ biến và khác đi là: một chiến lược hỗn hợpcủa một NC - chẳng hạn NC1 - biểu thị niềm tin, hoặc sự phỏng đoán,của NC kia - tức là NC2 - về cách mà NC1 sẽ chơi Như vậy, chiến lược

hỗn hợp là hiện thân của tính bất trắc chiến lược của những NC trong

một trò chơi Đây là khái niệm do von Neumann và Morgenstern đưa

ra Chúng ta sẽ còn đề cập lại những câu hỏi và khái niệm vừa nêu ở cácphần sau

Trước tiên, ta cần biết rằng, việc tìm tất cả các điểm cân bằng Nash của

một trò chơi bimatrix bất kỳ là việc rất khó Ở đây, trước mắt ta tạmthời giới hạn nhiệm vụ lại trong phạm vi tìm tất cả các cân bằng Nashthuần của trò chơi bimatrix Tiếp theo, chúng ta xem xét việc tìm cânbằng Nash cho các bimatrix kích thước 2× 2, 2 × 3, 3 × 2 bằng cách sử

dụng đồ thị Với các ma trận kích thước lớn hơn nữa, việc giải bằng đồthị rất khó khăn và hầu như không thể

2.2.1 Cân bằng Nash thuần

Để tìm cân bằng Nash trong trò chơi bimatrix, trước hết ta có thể xácđịnh các phản hồi tối ưu thuần của NC2 với từng chiến lược thuần củaNC1 Rồi tiếp theo, xác định các phản hồi tối ưu của NC1 với từng chiếnlược thuần của NC2 Các cặp chiến lược đồng thời là phản hối tối ưu của

cả hai NC trong trò chơi chính là các điểm cân bằng Nash của trò chơi

Ta cần minh họa trò chơi dưới đây để làm rõ ý tưởng vừa nêu

Trang 34

20 ⃝ 2011 - Vương Quân Hoàngc

ra lợi ích lớn hơn

Giả sử trong bài toán trên, NC2 lựa chọn chiến lược hỗn hợp

(q, 0, 0, 1 − q) để đáp ứng chiến lược thuần T của NC1 Lựa chọn này dẫn

tới lợi ích của NC2 trong trường hợp này có giá trị 2q+0+0+2(1 −q) = 2.

Tuy vậy, chiến lược hỗn hợp này cũng không đem lại giá trị lớn hơn

trường hợp chiến lược thuần (1, 0, 0, 0 hay (0, 0, 0, 1).

Bên cạnh đó, chúng ta cũng có thể chỉ ra rằng, tất cả các cặp chiến

lược có dạng (T, (q, 0, 0, 1 − q)) với 0 ≤ q ≤ 1 đều là các điểm cân bằng

Nash của trò chơi bimatrix này

3 Cũng có thể sử dụng cách ký hiệu khác đi mà vẫn biểu thị cùng ý nghĩa các điểm

cân bằng Nash của trò chơi đang xét Theo cách viết cặp chiến lược thuần: e1

, e1,

e1, e4, e3

, e3 Theo cách viết dạng mở rộng ((1, 0, 0), (1, 0, 0, 0)), ((1, 0, 0), (0, 0, 1, 0)), ((0, 0, 1), (0, 0, 1, 0)).

Trang 35

Lý Thuyết Trò Chơi - DHVP Research 21

Ta cũng lưu ý rằng điểm cân bằng Nash không bắt buộc mang lại giátrị lợi ích tối ưu Pareto Ta biết rằng, một cặp lợi ích được gọi là tối ưuPareto nếu như không còn cặp giá trị nào khác lớn hơn, hoặc ít nhất cómột trong hai giá trị hơn, trong khi giá trị còn lại tối thiểu bằng Cụ thể,

bằng chứng dễ thấy là cặp 4, 4 có giá trị lớn hơn hẳn các cặp cân bằng Nash 2, 2, 3, 2.

Hai điểm cân bằng Nash trong các chiến lược thuần của trò chơi

(A, B) này là 2, 2 và 3, 3 Để tìm tất cả cân bằng Nash cho trò chơi này,

ta đi tìm các phản ứng tối ưu của cả hai NC

Xét tổng quát chiến lược hỗn hợp q, 1 − q của NC2 Khi nào phản ứng

tối ưu của NC1 là 1, 0 (tức là T )? Rõ ràng là chỉ khi lợi ích kỳ vọng thu được từ chiến lược thuần T lớn hơn khi lựa chọn B hay bất kỳ tổ hợp nào giữa T và B qua PPXS p, 1 − p Như vậy, NC1 chọn T khi:

4, thì mọi chiến lược hỗn

hợp dạng p = (p, 1 − p) của NC1 đều là phản ứng tối ưu Bây giờ, ta tóm

tắt lại lô-gic vừa trình bày của các phản ứng tối ưu, của NC1 và NC2.Giả sử, gọi tập toàn bộ các phản ứng tối ưu của NC1 đối với PPXS

(q, 1 − q) của NC2 là β1(q, 1 − q), thì

4Tức là đổi chiều dấu: 2q + 0(1 − q) < q + 3(1 − q).

Trang 36

22 ⃝ 2011 - Vương Quân Hoàngc

3

{(0, 1)} nếu 0 < q < 2

3

(2.2)

Theo cách hiểu của trò chơi, các điểm cân bằng Nash là sự kết hợp

chiến lược p, qsao cho p∗ ∈ β1(q), và q∗ ∈ β2(p) Như vậy, các cân

bằng Nash là các điểm giao nhau giữa 2 đường đồ thị cho bởi các hàm(2.1) và (2.2) - được biểu thị qua đồ thị (2.1)

Trang 37

Lý Thuyết Trò Chơi - DHVP Research 23

2.2.3 Tính trội tuyệt đối

Về cơ bản, để tìm các điểm cân bằng Nash nhiều khi ta có thể rút gọnkích thước của trò chơi, thông qua loại bỏ các chiến lược lép vế Khiloại bỏ các chiến lược thuần bị lép vế tìm được theo dòng hay cột, thìkích thước ma trận sẽ giảm dần, cho tới khi không còn tồn tại chiến lượcthuần lép vế nào nữa Lý thuyết đã chứng minh rõ rằng, khi làm theocách loại trừ để giảm kích thước ma trận như vừa nêu, không có điểmcân bằng Nash nào vô tình bị loại bỏ, và cũng không có cân bằng Nashnào nảy sinh ra do giảm kích thước Hơn nữa, thứ tự của việc loại bỏcác chiến lược lép vế cũng không quan trọng, cái nào trước, cái nào saukhông ảnh hưởng tới kết quả cuối cùng

Về tính trội tuyệt đối, với trò chơi (A, B) m ×nmột chiến lược thuần

ei tương ứng với hàng i gọi là lép vế, nếu như tồn tại một chiến lược hỗn

hợp p = (p1, , p i = 0, , p m) sao cho: pAe j > e i Ae j với từng giá

trị j = 1, , n Tương tự, chiến lược thuần e j theo cột j là lép vế nếu

tồn tại một PPXS q = (q1, , q i = 0, , q n), sao cho ei Bq > e i Be jvới

từng giá trị i = 1, , m.

Tiếp theo, chúng ta cùng xem xét một ví dụ ứng dụng để minh họa

Rút gọn kính thước ma trận trò chơi bimatrix: Cho trò chơi matrận bimatrix sau:

lược thuần X; điều này như ta đã biết nghĩa là q2 = 1 Hãy xem thử tồn

tại một PPXS q nào đó có tính trội tuyệt đối so với X hay không.

Ta áp dụng cách hiểu về tính trội tuyệt đối cho trường hợp ma trận

bimatrix (A, B) với bài toán (2.3) Như vậy, khi so với chiến lược X,

trong PPXS q nào đó thích hợp thì rõ ràng q2= 0 Lại giả sử tiếp trường

hợp q4 = 0, khi này ta xét thử PPXS (q, 0, 1− q, 0) Ta sẽ phải thiết lập

các biểu thức ei Bqrồi đặt bất đẳng thức với dấu lớn hơn khi so với từng

phần tử tương ứng theo dòng của véc-tơ cột thứ 2 của B.

Trang 38

24 ⃝ 2011 - Vương Quân Hoàngc

Bất đẳng thức đầu tiên đương nhiên đúng Điều kiện để 2 bất đẳng thứccòn lại được thỏa mãn dễ thấy là 1

4 < q < 34 Như vậy, X lép vế khi q trong khoảng giá trị vừa tính ra, và X có thể được loại khỏi trò chơi Ta

Bây giờ, khi đã quan sát trò chơi rút gọn (2.4), ta thử tìm kiếm khả

năng chiến lược thuần M (dòng 2) lép vế - nghĩa là p2 = 0- trước một

chiến lược hỗn hợp p = (p, 0, 1 − p) trong điều kiện p hợp lý nào đó.5

Bây giờ, ta áp dụng điều kiện của tính trội tuyệt đối cho (A) để thiết lập các bất đẳng thức cho điều kiện của p phù hợp Nếu tồn tại p như vậy,

ta khẳng định rằng M lép vế trước chiến lược hỗn hợp p như giả định.

Do NC1 (tương ứng (A)) chơi theo hàng, nên cần so sánh với e2Ae jvới

j lần lượt nhận các giá trị 1, 2, 3 chính là (1, 2, 1); đây chính là dòng M của (A).

Sau đó, ta tính pAe j và so sánh từng hàng lần lượt với các phần tử

của M nói trên, để thu được hệ bất đẳng thức:6

5Do M lép vế, nên ta mới đề xuất dạng phân phối ở đó xác suất dòng thứ 2 được gán

bằng 0 trong p = (p, 0, 1 − p).

6 Để thỏa mãn tính trội tuyệt đối, tất cả các bất đẳng thức xuất phát đều có vế trái lớn hơn vế phải.

Trang 39

Lý Thuyết Trò Chơi - DHVP Research 25

Bất đẳng thức thứ 2 của hệ này tầm thường Từ 2 bất đẳng thức còn

lại, ta thu được điều kiện cho p là: 12 < p < 23 Điều này khẳng định việc

loại bỏ M khỏi chiến lược thuần của NC1, và tiếp tục rút gọn (2.4) trở

Ngay lập tức, ở trò chơi mới (2.5) ta nhận thấy trong (B) xuất hiện

W có tính trội tuyệt đối so với Z do đó, ta tiếp tục loại chiến lược Z của

Bây giờ ta chuyển qua giải trò chơi (2.6) Giả sử NC2 có PPXS tổng

quát dạng (q, 1 − q), NC1 sẽ lựa chọn T khi:

2q + 2(1 − q) > 0q + 3(1 − q)

Nghĩa là q < 1/3 Như vậy, khi q = 1/3 thì mọi chiến lược p = (p, 1 − p)

đều mang lại cùng lợi ích, và NC1 không còn phải đắn đo Ngược lại, thì

lựa chọn B khi:

2q + 2(1 − q) < 0q + 3(1 − q),

Trang 40

26 ⃝ 2011 - Vương Quân Hoàngc

tức là p < 1 Khi p = 1, mọi (q, 1 − q) đều là phản ứng tối ưu Trường

hợp p > 1 không xảy ra, do đó không nằm trong tập phản ứng tối ưu của

NC2 Tương tự, ta tóm tắt lại:

β2(p, 1 − p) =

{

{(1, 0)} nếu 0≤ p < 1 {(q, 1 − q)|0 ≤ q ≤ 1} nếu p = 1 (2.8)

Ta có sơ đồ hình học biểu diễn hai hàm phản ứng tối ưu của NC1,NC2 trong H.(2.2) dưới đây

Sơ đồ này cho biết vô số cân bằng Nash là phản ứng tối ưu có thể tìmthấy do toàn bộ đoạn thẳng nối hai điểm tròn (trên sơ đồ) đều thỏa mãncác tính chất mong muốn Như vậy, tập hợp các chiến lược hỗn hợp làtập các PPXS sau:{((1, 0), (q, 1 − q))|1

Ứng dụng 3: Hai công ty nhựa Hồ Tây và Trúc Bạch trực tiếp cạnhtranh trên địa bàn Hà Nội cân nhắc việc sản xuất sử dụng ghế ngoài trời

và trong nhà Cả hai mặt hàng ghế thúc đẩy doanh số hàng hóa nhựa.Nếu cả 2 công ty cùng sản xuất ghế ngoài trời, thì mỗi công ty hưởnglợi 2 tỷ Nếu cả hai cùng sản xuất ghế trong nhà, thì lợi ích đem lại cho

Ngày đăng: 17/10/2018, 07:15

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w