1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo toán rời rạc (p2)

88 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 88
Dung lượng 3,47 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các chuyển động diễn ra đồng thời, có nghĩa là không người chơi nào biết được quyết định của người kia và các quyết định được đưa ra cùng một lúc như trong ví dụ này thì cả hai tù nhân đ

Trang 1

Báo cáo Toán rời rạc (P2)

Lý thuyết trò chơi thực sự là gì?

Lý thuyết trò chơi như chúng ta biết ngày nay ra đời là do sở thích chơi poker của một người Nhưng không phải một người đàn ông bình thường mà chúng ta sẽ bắt gặp hằng ngày trên đường phố đâu Ông là một nhà toán học, vật lý học và khoa họcmáy tính có tên là John von Neumann

Mục tiêu của ông đương nhiên là khác so với những người chơi poker thông thường muốn chơi giỏi hơn Qua một bài báo của Forbes, ông ấy quan tâm tới poker vì ông coi nó như một con đường để phát triển toán học vào trong cuộc sống

Ông muốn có một lý thuyết chung có thể được áp dụng cho ngoại giao, tình yêu, sự tiến hóa của vạn vật hay chiến lược kinh doanh Lý thuyết này được ông gọi là lý thuyết trò chơi

Thông qua sự hợp tác với nhà kinh tế học Oskar Morgenstern trong cuốn sách có tên là Lý thuyết về trò chơi và hành vi kinh tế vào năm 1944, ông đã tiến được gần hơn tới mục tiêu của mình Trong cuốn sách này, hai người họ đã khẳng định rằng bất kì tình hình kinh tế có thể được định nghĩa là kết quả của một trò chơi giữa hai hoặc nhiều người chơi

Trò chơi theo lý thuyết trò chơi là gì?

Giáo sử kinh tế Yale Ben Polak lưu ý rằng một trò chơi có 3 thành phần cơ bản: người chơi, chiến thuật và phần thưởng có thể có của trò chơi Tuy nhiên, không phải lúc nào người chơi cũng có kiến thức hoàn hảo về những yếu tố này của một trò chơi

Chiến lược là những hành động mà người chơi thực hiện trong một trò chơi Chiến lược là trung tâm của lý thuyết trò chơi

Forbes mô tả lý thuyết được trình bày trong Lý thuyết về trò chơi và hành vi kinh

tế là "mô hình toán học về tương tác chiến lược giữa các đối thủ hợp lý, trong đó hành động của mỗi bên sẽ phụ thuộc vào những gì bên kia sẽ làm"

Khái niệm về sự phụ thuộc lẫn nhau trong chiến lược- hành động của một người chơi ảnh hưởng đến hành động của những người chơi khác - là một khía cạnh quan trọng trong phiên bản lý thuyết trờ chơi của von Neumann vẫn còn phù hợp cho đến ngày nay

Trang 2

Phần thưởng, được mô tả là "kết quả của chiến lược được người chơi áp dụng" Phần thưởng có thể là một loạt các thứ tùy thuộc vào trò chơi Đó có thể là lợi nhuận, một hiệp ước hòa bình, hoặc mua một chiếc xe hơi

Một phiên bản lý thuyết trò chơi của Von Neumann là nó tập trung vào việc tìm racác chiến lược tối ưu cho một loại trò chơi được gọi là trò chơi có tổng bằng không Trong trò chơi có tổng bằng không, một người chơi thua thì người chơi khác được lợi Ở đây có một lưu ý là người chơi không thể tăng hoặc giảm tài nguyên có sẵn

Các nhà phê bình đã lưu ý rằng cuộc sống không đơn giản như trò chơi có tổng bằng không Có nhiều kịch bản trò chơi phức tạp hơn trong thế giới thực

Lý thuyết trò chơi đã phát triển để phân tích nhiều loại trò chơi hơn như trò chơi tổ hợp và trò chơi tích phân, tuy nhiên chúng ta chỉ có thời gian để xét một trò chơi thôi

Một ví dụ kinh đển về một trò chơi thường được nghiên cứu trong lý thuyết trò chơi được gọi là "Song đề tù nhân" (The Prisoner's Dilemma)

Các phiên bản khác nhau của trò chơi này có sẵn trên Internet Một trong số đó

có giả thiết như sau:"Có hai tù nhân, Đăng và Huy, họ vừa bị bắt vì cướp ngân hàng, tuy nhiên cảnh sát không có đủ bằng chứng để kết tội họ, nhưng biết rằng

họ đã phạm tội Những cách sát đưa Đăng và Huy vào các phòng thẩm vấn riêng biệt và đưa ra cho 2 tên này các lựa chọn: Nếu cả hai đều thú nhận thì cả hai sẽ bị tuyên án 10 năm tù; Nếu một tên thú tội và tên kia không thú tôi, tên thú nhận sẽ được tự do và tên còn lại sẽ phải ngồi tù 20 năm Nếu cả hai không thú nhận thì cả hai sẽ phải nhận 5 năm tù cho một tội danh khác mà cả hai bị truy nã

Có thể nhận thấy "Song đề tù nhân" chứa đựng những yếu tô cơ bản của một trò chơi được đề cập đến trong "Lý thuyết trò chơi":

1 Hai người chơi là Đăng và Huy

2 Chiến lược có sẵn là thú tội hoặc không thú tội

3 Phần thưởng của trò chơi bao gồm từ không phải vào tù cho đến thụ án 5,

10 hoặc 20 năm tù

Và để so sánh các kết quả một cách dễ dàng hơn thì chúng sẽ được đưa vào một ma trận:

Trang 3

Các chiến lược của Đăng được liệt kê theo hàng hoặc trục x, phần thưởng của anh ấy được liệt kê trước Phần thưởng của Huy được liệt kê sau và các chiến lược sẽ được nằm trong cột hoặc trên trục y.

Ma trận này được gọi là "dạng chuẩn tắc" trong lý thuyết trò chơi Các

chuyển động diễn ra đồng thời, có nghĩa là không người chơi nào biết được quyết định của người kia và các quyết định được đưa ra cùng một lúc (như trong ví dụ này thì cả hai tù nhân đều ở trong các phòng riêng biệt và sẽ không được đưa ra ngoài cho đến khi cả hai đã đưa ra quyết định của mình.Một giải pháp phổ biến cho các trò chơi đồng thời được gọi là "chiến lược thống trị" Được định nghĩa là "chiến lược mang lại lợi nhuận tốt nhất cho dù người chơi khác chọn gì Đăng không biết liệu răng Huy có thú nhận hay không Khi đó hắn sẽ xem xét các lựa chọn của mình

Với những lựa chọn đã được nêu ở trên thì đương nhiên chiến lược tốt nhất cho Huy là thú nhận bởi vì nó dẫn đến việc được phần thưởng tốt nhất bất

kể là điều đó sẽ khiến anh ta được tự do hoặc sẽ phải ngồi tù nhưng sẽ ít hơn so với việc anh ta không thú nhận Và tất nhiên là Đăng cũng ở trong hoàn cảnh tương tự và có những lựa chọn giống với Huy Kết quả là, chiến lược tốt nhất cho Đăng cũng là thú nhận vì nó dẫn đến mức thưởng tốt nhất

Trang 4

người kia sẽ không thú nhận Và chúng ta không biết rằng liệu Đăng và Huy có thể làm việc cùng nhau với mức độ hợp tác đó hay không được

Ngoài ra, cả hai khó có thể chọn chiến lược không thú nhận vì nó có hình phạt lớn hơn nếu họ thú nhận Việc thú nhận cũng giúp mỗi người trong số

họ có khả năng không phải ngồi tù, thậm chí là dưới 5 năm tù

The Prisoner's Dilemma là một ví dụ điển hình cho thấy lý thuyết trò chơi có thể trở thành vấn đề của tính hợp lý Đây cũng là một trong những vấn đề gây tranh cãi nhất trong lý thuyết trò chơi

Thật vậy, hầu hết tất cả các lý thuyết đều dựa trên giả định rằng các tác nhân là những người chơi hợp lý, những người cố gắng tối đa hóa các phần thưởng của

họ, nhưng các nghiên cứu chứng minh rằng người chơi không phải lúc nào cũnghoạt động theo lý trí và đôi khi kết luận của phân tích hợp lý không phù hợp với thực tế

Như chúng ta có thể thấy từ trò chơi này, chiến lược hợp lý nhất sẽ mang lại cho

cả hai người chơi ít thời gian tù hơn không phải là lựa chọn tốt nhất trong khi mà lựa chọn khiến hai người chơi phải ở trong tù lâu hơn mới là lựa chọn như vậy.Song đề tù nhân cũng phản ánh cách các nhà nghiên cứu lý thuyết trò chơi khác

có thể khắc phục một số vấn đề trong phiên bản lý thuyết trò chơi của Von Neumann

Một trong số họ là nhà toán học John Nash Ông đã tìm ra cách để xác định chiến lược tối ưu trong bất kỳ trò chơi hữu hạn nào Đó chính là "điểm cân bằng Nash" - một giải pháp cụ thể cho các trò chơi, một giải pháp được đánh giá bởi thực tế là mỗi người chơi đang tạo ra điều tốt nhất mà họ có thể có, dựa trên các chiến lược đang được sử dụng bởi tất cả các người chơi khác

Khi đạt được trạng thái cân bằng Nash trong một trò chơi, không ai trong số người chơi muốn thay đổi chiến lược khác bởi vì làm như vậy sẽ dẫn đến kếtquả tồi tệ hơn chiến lược hiện tại

Trong Song đề tù nhân, cân bằng Nash là chiến lược cả hai người chơi thú nhận Không có lựa chọn nào tốt hơn cho một trong hai người chơi để thay đổi nữa Cũng từ ví dụ này, chúng ta có thể thấy một khía cạnh thú vị khác của cân bằng Nash

→ Nhà toán học Iztok Hozo chỉ ra rằng "bất kì điểm cân bằng chiến lược thống trị nào cũng là điểm cân bằng Nash" Nguyên nhân là do "cân bằng Nash là sự

mở rộng của các khái niệm về cân bằng chiến lược thống trị Tuy nhiên ông cũng

Trang 5

lưu ý rằng cân bằng Nash có thể được sử dụng để giải quyết các trò chơi không

Nash sau đó chia sẻ Giải tưởng niệm Nobel về Khoa học Kinh tế vào năm

1994 cho công trình nghiên cứu lý thuyết trò chơi của họ

Và sau sự ra đi của Nash vào năm 2015, một trang web học thuật đã tóm gọn tất cả thành tựu của Nash như sau:"Đóng góp cơ bản nhất của Nash cho lý thuyết trò chơi là mở ra lĩnh vực này cho nhiều ứng dụng hơn trong nghiên cứu [ ] Nếu không có sự đột phá của ông ấy, phần lớn những gì tiếp theo trong lý thuyết trò chơi có thể đã không thực hiện được"

Kể từ giờ trở đi chúng ta sẽ gọi bằng cách là Người chơi 1 và Người chơi 2 hoặc là

"anh" với người chơi 1 và "cô" với người chơi 2

Trò chơi hợp tác và trò chơi bất hợp tác

Một trò chơi sẽ được gọi là trò chơi hợp tác khi người chơi được phép xây dựng một đội/nhóm/liên minh với một lời cam kết ví dụ như hợp đồng Một trò chơi là bất hợp tác nếu người chơi không thể thành lập đội nhóm và tất cả các yêu cầu đều là bắt buộc tự thân vận động

Các trò chơi bất hợp tác thường được phân tích thông qua khuôn khổ của lý thuyết trò chơi bất hợp tác Lý thuyết trò chơi hợp tác tập trung vào việc dự đoán các liên minh sẽ hình thành tế nào, hành động của người tham gia trong một nhóm và kết quả phần thưởng chung của nhóm Đối lập với lý thuyết trò chơi bất hợp tác tập trung vào dự đoán hành động của từng các nhân, phần thưởng và phân tích Cân bằng Nash Sự tập trung vào các lợi ích các nhân sẽ dẫn tới một hiện tượng được biết tới là Bi kịch của tài nguyên dùng chung, khi đó những tài nguyên được sử dụng khai thác ở mức độ triệt để Việc thiếu hụt một giao kèo dẫn tới việc tài nguyên dùng chung thường bị hỏng nhanh, hao hụt nhanh bởi vì bị sử dụng quá nhiều và không có biện pháp cần thiết để ngăn các cá nhân sử dụng vì mục đích riêng

Trang 6

Lý thuyết trò chơi hợp tác cung cấp một phương pháp tiếp cận ở mức độ cao khi

nó mô tả những cấu trúc, chiến lược và phần thưởng của liên minh, trong khi lý thuyết trò chơi bất hợp tác cũng nhìn vào cách các thủ tục thương lượng sẽ ảnh hưởng đến việc phân phối phần thưởng với mỗi liên minh Vì lý thuyết trò chơi bất hợp tác phổ biến hơn, lý thuyết trò chơi hợp tác có thể phân tích qua các cách tiếp cận của lý thuyết trò chơi bất hợp tác (điều ngược lại thì không có) cung cấp đủ các giả định để đưa ra các chiến lược khả thi có sẵn cho người chơi

Dù rằng có thể mong muốn chỉ sử dụng một lý thuyết duy nhất, nhưng trong nhiều trường hợp thì lượng thông tin không đủ để lập mô hình chính xác các thủ tục chính thức trong quá trình xây dựng chiến lược hoặc là mô hình kết quả quá phức tạo để cung cấp một chiến lược thực tế trong thế giới thực Trong những trường hợp như vậy thì lý thuyết trò chơi hợp tác cung cấp một cách tiếp cận đơn giản cho phép phân tích trò chơi nói chung mà không phải đưa ra các giả định nào về việc thương lượng

Vậy thì sự khác biệt giữa lý thuyết trò chơi hợp tác và lý thuyết trò chơi bất hợp tác là gì? Cả hai đều là những cách tiếp cận và có những vẫn đề khi lựa chọn phương pháp tiếp cận Chúng ta có thể xây dựng các mô hình tương tác chiến lược bằng lý thuyết trò chơi hợp tác hoặc lý thuyết trò chơi bất hợp tác, cả hai đều có lẽ sẽ hoạt động, chúng có những lợi thế cũng như những nhược được nhưng trong một số trường hợp thì phù hợp với cách tiếp cận bằng lý thuyết trò chơi hợp tác và những trường hợp khác thì phù hợp với lý thuyết trò chơi bất hợp tác hoặc là dựa vào câu hỏi đang cần giải quyết, chúng ta sẽ thấy thích thú với phương pháp này hơn so với phương pháp khác

Lấy một ví dụ như sau:

Có 3 đứa trẻ và mỗi đứa trẻ có một số tiền như sau: Huy có 6 nghìn đồng, Long

có 4 nghìn đồng và Dương có 3 nghìn đồng Những đứa trẻ này không quan tâmtới số tiền mà chúng có mà chỉ quan muốn mua kem Có 3 loại kem là loại 500g

có giá 7 nghìn đồng, loại 750g có giá 9 nghìn đồng và loại 1000g có giá 11 nghìnđồng

Chúng ta thấy rằng không một đứa trẻ (người chơi) nào có thể mua kem một mình và do đó chúng phải góp chung tiền (tài nguyên) và giờ chúng sẽ phải quyết định là sẽ chia ra như thế nào tức là mỗi người sẽ nhận được bao nhiêu? Phân tích vấn đề này bằng cách tiếp cận của lý thuyết trò chơi hợp tác và cũng như lý thuyết trò chơi bất hợp tác Hai lý thuyết này có những điểm khác nhau cơ

Trang 7

bản như sau:

→ Các thỏa thuận có thể không được đề cập trong môi trường chiến lược Những đứa trẻ này là những người bạn và chúng có thể dễ dàng viết ra một hợp đồng ràng buộc giữa chúng ví dụ như:"Nếu bạn không làm giống thế này tớ sẽ không nói chuyện với bạn nữa" và một số cách khác nữa Thỏa thuận ràng buộc

là thỏa thuận mà khi có một người vi phạm thì sẽ có hình phạt về tiền tệ Thỏa thuận giữa những đứa trẻ có thể không có những hình phạt về tiền tệ nhưng sẽ

có những tác động về cảm xúc và tâm lý

Nếu chúng ta phân tích một môi trường chiến lược mà những người tham gia trò chơi đã biết người khác từ trước, những người có quá khứ và có thể có tương lai với nhau thì lý thuyết trò chơi hợp tác sẽ có nhiều lợi ích, nhưng dĩ nhiên chúng ta có thể phân tích chiến lược bằng cách tiếp cận của lý thuyết trò chơi bất hợp tác và có những thỏa thuận tiềm năng được đưa ra với những người khác

→ Trong lý thuyết trò chơi hợp tác thì cách tiếp cận đó là một cuộc thi hoặc một trò chơi giữa các liên minh Còn trong cách tiếp cận của lý thuyết trò chơi bất hợp tác thì chúng ta không nhìn vào các nhóm người chơi mà nhìn vào từng cá nhân đơn lẻ, và bởi vì môi trường chiến lược mà những người chơi này không được phép và cũng không có cách nào để tham gia một liên minh (bởi họ không biết những người chơi khác)

→ Sự khác biệt lớn nhất giữa hai lý thuyết trò chơi này là lý thuyết trò chơi hợp tác đó là lý thuyết trò chơi hợp tác đưa môi trường chiến lược hoặc trò chơi vào một "hộp đen" Tức là những người chơi này tham gia một trò chơi và đây là môi trường chiến lược Bởi vì quyết định của một người không đủ để định đoạt phần thưởng của riêng anh ta mà những người còn lại mới có thể có ảnh hưởng Với việc xây dựng một mô hình thì chúng ta không đưa ra các dự đoán về chiến lược, về thời gian, Bởi vì chúng ta làm sao mà biết được???

Quay lại với ví dụ trên thì hãy trả lời câu hỏi là bạn sẽ thực sự chơi trò chơi này như thế nào Có lẽ chúng ta không thường phải ở trong tình huống này với bạn

bè của mình, chúng ta không có một cách căn chỉnh đúng mực như trong những

Trang 8

trò chơi có thời gian cố định Gần như chắc chắn tất cả ba đứa trẻ sẽ cùng nhau góp tiền và hãy quên việc hình thành một liên minh thế nào thay vào đó tất cả đều muốn cùng nhau góp tiền và như vậy là họ có thể mua cây kem 1000g Đến đây chúng ta có câu hỏi là làm thế nào để chia cây kem đó? Chia đều hay là người góp nhiều tiền hơn sẽ được chia phần nhiều hơn? Phần nhiều nhất nhiều đến mức nào? Tức là họ sẽ phân xử và đàm phán như thế nào, liệu họ có viết sốlên những tờ giấy rồi bốc chúng ngẫu nhiên, Vậy thì quy luật của trò chơi mà

họ sẽ chơi là gì? Chúng ta không thể biết, nhưng chúng ta có thể mô hình hóa

nó, phụ thuộc vào câu hỏi mà chúng ta cần giải quyết

Nếu như chúng ta không quan tâm tới các chi tiết cụ thể của trò chơi và chỉ quan tâm là kết cục nên là như thế nào Sau cùng khi họ cùng đi tới của hàng, mua kem và chia nó ra thì đâu là kết quả tối ưu Chúng ta không cần quan tâm

chuyện gì xảy ra trong "hộp đen", chỉ cần nhìn vào đầu ra của nó nên lý thuyết trò chơi hợp tác có nhiều ý nghĩa hơn Nhưng đôi khi thì lý thuyết trò chơi bất hợp tác có mục tiêu là mở cái hộp này, khi muốn biết điều gì xảy ra trong cái hộp, chiến lược, hành động, và vì lý do đó nên phải mở chiếc hộp và khám pháđiều đang xảy ra bên trong

Điều này vẫn phụ thuộc vào loại câu hỏi bạn đang giải quyết Nếu như chúng ta muốn phân tích cách các công ty cạnh tranh với nhau cũng như là các công ty thay đổi giá cả của họ như thế nào hoặc họ điều chỉnh số lượng của họ thế nào hoặc số lượng của họ thay đổi thế nào phụ thuộc vào những công ty khác Chiến lược, thời gian trò chơi đều là những vấn đề khi đó chúng ta cần giải quyếtnhững vấn đề cụ thể của môi trường chiến lược, chúng ta không chỉ nhìn vào đầu ra Trong trường hợp này thì cách tiếp cận bằng lý thuyết trò chơi bất hợp tác sẽ có nhiều ý nghĩa hơn

Lý thuyết trò chơi hợp tác là tương đối và những điều kiện là lỏng lẻo, nên lý thuyết trò chơi hợp tác có tính quy chuẩn hơn khi so sánh với lý thuyết trò chơi bất hợp tác Vì thế, lý thuyết trò chơi bất hợp tác minh bạch hơn như là người chơi sẽ chơi thế nào, nên chơi thế nào Tuy vậy lý thuyết trò chơi hợp tác không quan tâm nhiều đến các chi tiết của trò chơi, nó sao cũng được và dù họ chơi như thế nào thì kết cục vẫn sẽ nên là như thế

Vậy tóm lại khi nào thì nên dùng lý thuyết trò chơi hợp tác và khi nào thì nên dùng lý thuyết trò chơi bất hợp tác Chúng ta có thể mô hình hóa một không gian chiến lược bằng một trong hai cách tiếp cận Rõ ràng là nó phụ thuộc vào loại câu hỏi mà chúng ta đang tìm câu trả lời, và trong những không gian thì lý thuyết trò chơi hợp tác phù hợp; ví dụ như hãy suy nghĩ là bạn biết các tình huống thương thuyết và bạn nhớ là bạn chưa từng trao đổi với nhiều người bán hoặc là

Trang 9

nhiều người mua Những sự mô tả chiến lược, hành động hay là thời gian là những sự cốt yếu và chúng ta có thể nói chúng ta không quan tâm điều gì xảy ra bên trong cái hộp và tôi chỉ muốn biết kết cục Có những lúc chúng ta muốn trả lời câu hỏi là đâu là các đề nghị tốt nhất và ai sẽ là người làm các đề nghị đó, nếu đó là chính bản thân mình thì nó sẽ có tác động tích cực hay tiêu cực hoặc nếu như chúng ta muốn nhượng bộ thì tần số nhượng bộ nên là bao nhiều thì lý thuyết trò chơi bất hợp tác sẽ có nhiều tác dụng hơn.

Nó không hề rõ ràng trong nhiều trường hợp thì không có một sự khác biệt rõ ràng Nhưng với những gì đã nêu ở trên thì có lẽ đã đủ những gì cơ bản nhất để chúng ta phân biệt hai cách tiếp cận này

có làm gì

Không hề bất ngờ là người chơi thường không bao giờ lựa chọn chiến lược

bị áp đảo - theo như định nghĩa là một lựa chọn tốt hơn luôn luôn xuất hiện bất kể là người chơi còn lại làm gì

Ý nghĩa của con số và vai trò của lý thuyết trò chơi

Mặc dù có một số lượng lớn các nhánh của lý thuyết trò chơi tập trung nghiên cứu cách dự đoán ích lợi, chúng ta thường coi như phần thưởng của mỗi người chơi là sự xếp hạng từ đầu ra mà anh/cô ta thích thú nhất cho tới

ít thích thú nhất

Trang 10

Trong Song đề tù nhân, ta giả định là người chơi muốn thời gian ở tù của mình là nhỏ nhất Lý thuyết trò chơi không bắt buộc người chơi phải

có những sự ưu tiên này, tương tự với các nhà phê bình thường yêu cầu Thay vào đó, lý thuyết trò chơi phân tích điều gì nên xảy ra theo xu hướng mong muốn của người chơi Vì vậy nếu như người chơi muốn thời gian tù của mình là nhỏ nhất thì chúng ta có thể sử dụng những số

âm của tháng nếu như phải vào tù như là phần thưởng Những con số này tương ứng với các kết quả mà họ sẽ nhận được từ ưu tiên nhất là kết quả có giá trị 0, kết quả ít mong muốn nhất là kết quả có giá trị là -12,

và những giá trị còn lại sẽ theo một cách hợp lý ở giữa

Giá trị của con số không thích hợp với đầu ra của bài toán Song đề tù nhân

Vấn đề của Song đề tù nhân là hai người chơi không tin tưởng nhau Tuy vậy trong trường hợp mà bạn và một người bạn đáng tin cậy của mình bị bắt và thẩm vấn một vấn đề tương tự? Những công cụ giải quyếtcòn thô sơ và chưa đủ để đưa ra câu trả lời

Lý thuyết trò chơi đưa ra cho chúng ta một cách suy luận chính xác Ứng dụng của Song đề tù nhân

Có nhiều ứng dụng sẽ được nêu ở phần bên dưới

Tắc nghẽn (deadlock)

Tắc nghẽn là một trò chơi mà hành động giúp cả hai bên đều nhận được nhiều lợi ích nhất vẫn chiếm ưu thế Điều này tạo ra một sự tương phản với Song đề tù nhân nơi mà hành động sẽ tạo ra lợi ích chung cho cả hai bị chi phối Việc này khiến Deadlock mất đi sự thú vị và khiến nó ít được quan tâm hơn, vì không có xung đột giữa lợi ích cá nhân và lợi ích chung Mặt khác thì deadlock cũng có thể tác động tới hành vi kinh tế và thay đổi kết quả cân bằng tron xã hội

Chiến lược thống trị trong trò chơi bất đối xứng

Chúng ta vẫn có thể sử dụng thống trị nghiêm ngặt trong trò chơi dù là không có tính đối xứng như Song đề tù nhân hoặc là Tắc nghẽn

Lấy ví dụ

Kết luận

Sau cùng thì chiến lược trội là một công cụ rất mạnh trong lý thuyết trò chơi Nhưng khi mà khái niệm là đơn giản thì việc áp dụng nó là khó khăn Mặc dù

Trang 11

là ở dạng ma trận thì một trò chơi vẫn có rất là nhiều thông tin Để có thể thành công tìm ra chiến lược bị áp đảo, chúng ta cần tập trung vào một phần thưởng của một người chơi duy nhất trong mỗi lần xem xét Bằng cách phân tách rõ ràng và đánh giá từng cá nhân như ở trên Khi tự mình tìm kiếm chiến lược bị áp đảo, hãy ngăn chẵn các phần thưởng không thích hợp và các chiến lược theo cách tương tự.

Các điểm mấu chốt của phần này

1 Lý thuyết trò chơi là một phương pháp toán học để đảm bảo rằng các giả thiết vào hàm các kết luận????

2 Phần thưởng trong ma trận trò chơi đại diện cho sự ưu tiên của người chơi dựa vào giả thiết

3 Chiến thuật x thống trị nghiêm ngặt chiến thuật y nếu như nó cho một phần thưởng tốt hơn so với y bất kể là những người chơi khác làm gì

4 Chơi một chiến lược thống trị nghiêm ngặt là không hợp lý - Một chiến lược khác luôn mang lại một kết quả tốt hơn?

Iterated Elimination of Strictly Dominated Strategies

(Sự sàng lọc chiến lược bị áp đảo)

Một trong những điểm mạnh nhất của Lý thuyết trò chơi đó là trong việc phân tích xem một công ty nên hoạt động thế nào trong một thế giới cạnh tranh không công bằng Khi mà số lượng công ty trên thế giới đang ngày càng lớn và khó kiểm soát được, một công ty nhỏ không thể điều chỉnh thị trường theo ý muốn của mình Nhưng nếu như chỉ có hai công ty tồn tại, các quyết định kinh doanh của mỗi công ty sẽ tác động lớn tới công ty còn lại.Bài toán tổ chức lễ hội

Giả sử ở một thành phố nhỏ chỉ có hai câu lạc bộ nhảy, gọi là MỘT và HAI

Cả hai đều quyết định sẽ đứng ra tổ chức một đêm nhảy disco hoặc là đêm nhảy salsa vào thứ 6 tới CLB MỘT nhỉnh hơn về chiến lược so với CLB HAI: MỘT có vị trí ở trung tâm của thành phố, trong khi HAI cách đó vài mét

Vì vậy, nếu như HAI tổ chức tương tự cùng đề tài như MỘT, sẽ không ai tham gia HAI cả

Có 3 loại người tham gia 60 người hâm mộ cuồng nhiệt của Salso sẽ chỉ tới club nếu như có Salsa 20 người là fan hâm mộ cuồng nhiệt của disco và sẽ chỉ tới clb nếu có disco Và 20 người còn lại thích thú với disco hơn nhưng sẽ tham gia salsa nếu đây là lựa chọn duy nhất

Trang 12

Nếu một công ty muốn tối đa hóa số lượng người tham gia vào thứ Sáu thì ma trận phần thưởng sẽ như sau:

Lưu ý rằng HAI đang trong một thế lưỡng nan Nếu họ tổ chức một chủ

đề tương tự như MỘT thì không ai tham gia cả Vậy nên mục tiêu của Hai phải là dự đoán được chủ đề của MỘT và làm theo hướng khác Do vậy nên HAI không có chiến lược thống trị nghiêm ngặt

HAI có nên cam chịu và chỉ có thể đoán xem nên sử dụng chiến thuậtnào hay không? Tất nhiên hoàn toàn là không Nếu như HAI làm sáng tỏđược động cơ của MỘT, HAi sẽ biết chính xác chủ đề mình làm

Để xem như thế nào, hãy thử cân nhắc các chiến lược mà MỘT nên chơi Thứ nhất, giả sử là MỘT biết trước là HAI sẽ chọn Salsa MỘT sẽ phản ứng thế nào?

Nếu một cũng chọn Salsa, điều đó đem cho họ 80 người tham gia Nếu

họ chọn disco thì chỉ mang lại số lượng là 40 Và 80 lớn hơn 40 MỘT nên chọn Salsa neeus như HAI chọn Salsa

Giờ thì giả sử MỘT chắc chắn HAi sẽ chuẩn bị một đêm disco: Khi đó thìSalsa vẫn sẽ là tốt hơn khi mang tới 60 người tham dự, trong khi đó disco chỉ có 40

Với hai dự đoán trên thì ta thấy rằng đêm Salsa là thống trị nghiêm ngặt với MỘT - bất kể là HAI lựa chọn gì đi nữa MỘT sẽ luôn tốt hơn nếu chọn Salsa Bởi vậy, MỘT phải tổ chức đêm Salsa

Với suy nghĩ này, hãy thử cân nhắc Hai nên lựa chọn thế nào Đặt bản thân vào vị trí của MỘT, HAi nhận thấy là MỘT sẽ chọn tổ chức một đêm Salsa Vì vậy, HAI đang trong tình thế lựa chọn chién lược tiến thoái lưỡng nan, dẫn đến sự lựa chọn như sau:

1 Nếu như HAI tổ chức một đêm Salsa thì mọi người sẽ tham gia MỘT bởi

vì MỘT có một vị trí tốt hơn và HAI sẽ kết thúc với một đêm không có ai

Trang 13

tham dự Mặt khác nếu HAi chọn tổ chức một đêm disco, tất cả 40 ngườihâm mộ disco sẽ tới Dẫn tới HAI một cách tối ưu sẽ tổ chức disco Vì vậy, kết cục thường thấy duy nhất của trò chơi là <salsa,disco> (MỘT tổ chức Salsa và HAI tổ chức disco).

Khi mà logic của trò chơi CLB trên là không hề phức tạp, chúng ta có thể mởrộng nó ra thành một tình huống phức tạp hơn Như trò chơi dưới đây khi mànhững con số thể hiện lượng tiền thắng (hoặc thua) của mỗi người chơi với kết cả chi tiết sau:

Nếu như các người chơi chỉ muốn tối đa hóa số lượng dollar mà anh ta thắng được, trò chơi sẽ đưa ra một thử thách mới Với Song đề tù nhân thì chúng ta có thể biết chính xác được rằng mỗi người chơi nên làm gì - thú nhận luôn tốt hơn so với im lặng bất kể là người chơi còn lại lựa chọn điều

gì Trong trò chơi CLB, MỘT có một chiến lược thống trị tuyệt đối, và chúng

ta cũng sẽ tìm ra được chiến lược tối ưu của HAI dựa trên những gì đã biết.Trò chơi này không bình thường Ví dụ nếu như người chơi 1 đang lúng túng Giả sử anh ta biết người chơi 2 sẽ rẽ trái, khi đó thì lựa chọn tốt nhất của anh ta là đi lên Tuy vậy khi mà người chơi thứ 2 lựa chọn đi đường giữathì đi lên không phải là cách chọn thích hợp mà là đi đường giữa Tiếp theo mọi thứ sẽ trở nên khó khắn hơn nữa nếu như nhìn vào điều sẽ xảy ra khi

mà người chơi 1 biết người chơi 2 sẽ chọn hướng bên phải; lựa chọn đi xuống mới là lựa chọn giúp anh ta đạt được kết quả mong muốn

Vậy thị trong cả 3 trường hợp thì người chơi 1 sẽ phải đưa ra 3 lựa chọn khác nhau Vậy anh ta sẽ quyết định chọn gì như thế nào?

Sử dụng phép sàng lọc chiến lược bị áp đảo như thế nào?

Với những định nghĩa được nêu ở trênt hì chúng ta đã đưa ra lý do tại sao người chơi không bao giờ nên chơi chiến lược thống trị nghiêm ngặt Nếu

Trang 14

như người chơi thông minh thì họ sẽ suy luận việc những người khác không hành động và đưa ra chiến lược phù hợp.

Quay lại với bài toán Thế lưỡng nan của người tù Khi nhìn vào mà trận payoffs:

Nhắc lại rằng thú tội là chiến lược trội so với giữ im lặng cho người chơi Tức

là, nếu như người chơi 2 im lặng thì người chơi 1 sẽ muốn thú nhận (nhìn vào ma trận ta sẽ thấy); và nếu như người chơi 2 lựa chọn thú tội thì người chơi 1 cũng vẫn sẽ thú nhận Vì vậy người chơi 1 sẽ không im lặng

Chuyển sang góc nhìn của người chơi 2 thì cô ta biết rằng người chơi 1 đủ thông minh để nhìn ra được việc thú nhận sẽ là tốt nhất nếu so với im lặng Cho nên cô ta suy ra rằng anh ta không bao giờ im lặng Cho rằng, với tất cả

ý định và mục đích?, người chơi 2 sẽ không để tâm tới việc im lặng là một chiến lược của người chơi 1 - bởi anh ta sẽ chẳng bao giờ làm vậy cả Và như vậy, từ góc nhìn của cô ấy, cô ta giản lược trò chơi thành chỉ còn "hàng 2"

Ở điểm này, người chơi hai nên thú tội và nhận 8 tháng hơn là im lặng và nhận 12 tháng tù Lưu ý rằng cô ấy không hề có một tầm nhìn như là thú nhận là một chiến lược áp đảo với im lặng cho cô ấy; khi đó cô ta có thể giảnước trò chơi bằng việc loại bỏ một lựa chọn có vẻ không hợp lý của người chơi 1 Và khi mà chỉ còn một chiến lược còn lại cho người chơi 1 đó là thú tội, người chơi 2 có thể điều chỉnh phản hồi của mình dễ dàng dựa trên các thông tin đó

→ Tiến trình nêu trên được biết tới chính là "sàng lọc chiến lược bị áp đảo" (tiếng Anh là iterated elimination of strictly dominated strategies - IESDS) Chúng ta bắt đầu với việc lưu ý rằng thú nhận là chiến lược áp đảo của người chơi 1, và loại bỏ chiến lược im lặng của anh ta Chúng ta sau đó sẽ giải quyết phần còn lại của trò chơi đó là những gì quan trọng và cần để tâm nhất và tìm ra được rằng thú nhận là chiến lược áp đảo im lặng cho người chơi 2

IESDS áp dụng vào những trò chơi phức tạp hơn và chuyển nó đến một trò chơi đơn giản hơn Ta có thể quan sát với trò chơi 3x3 đã nêu ở trên:

1 Cô lập lựa chọn của người chơi hai giữa trung tâm và bên phải

Người chơi hai không nên lựa chọn bên phải bởi trung tâm là trội hơn sovới phải Để có cái nhìn rõ hơn thì ta thấy rằng nếu như người chơi 1

Trang 15

chọn trên thì trung tâm sẽ hơn bên phải và đúng nếu như giả sử anh ta chọn ở giữa cũng như dưới Vậy nên bất kể là người chơi 1 chọn chiến lược gì thì trung tâm luôn tốt hơn bên phải cho người chơi 2.

2 Nhìn vào trò chơi dưới góc nhìn của người chơi 1 Anh ta biết rằng người chơi 2 sẽ không bao giờ chọn phải, vì thể anh ta chỉ cần cân nhắc trò chơi khi đã được rút gọn; ở phần của người chơi 2 sẽ chỉ còn trái và trung tâm

Cân nhắc lựa chọn của người chơi 1 với 2 lựa chọn ở giữa và xuống ta thấy rằng đi xuống không phải là lựa chọn tốt mà giữa mới là chiến lược trội Về bản chất thì đi xuống sẽ là một lựa chọn hữu dụng nếu như tình

cờ mà người chơi 2 lựa chọn phải Nhưng kể từ khi mà phải không phải

là một lựa chọn hợp lý cho người chơi hai nữa, cô ta sẽ không chọn chiến lược này Và từ khi mà người chơi một biết được cô ây sáng suốt

sẽ không chọn phải, anh ta chẳng có lý do nào để chọn dưới nữa

3 Quay lại với góc nhìn của người chơi 2 Cô ta biết rằng phải là một lựa chọn tồi cho cô ta Cô ta cũng biết được rằng người chơi 1 biết là cô ấy biết điều đó Dẫn tới việc người chơi một sẽ thấy rằng xuống là lựa chọn tồi với anh ta Với logic trên, người chơi 2 biết rằng người chơi 1 sẽ không xuống, và từ đó cô có thể chuyển hóa trò chơi ban đầu thành một trò chơi nhỏ và đơn giản hơn:

Trung tâm bây giờ là chiến lược áp đảo trái cho cô ta Ta thấy rằng nếu như người chơi 1 lựa chọn trên, thì ở giữa là 4 sẽ hơn 3 ở bên trái Và tương tự, nếu người chơi 1 chọn ở giữa, trung tâm sẽ lại tốt hơn so với trái Vì vậy người chơi 2 không bao giờ chọn trái nữa

4 Sau một hồi suy nghĩ về việc anh ta-biết-rằng-cô ta-biết rằng- anh ta- biết logic, người chơi 1 có thể kết thúc thứ anh ta suy luận với trò chơi được rút gọn ở mức tối đa

→ Việc tách những payoffs của người chơi 1 làm cho nó trở nên rõ ràng rằng anh ta sẽ chọn giữa

Và vì vậy ta đi tới kết luận là người chơi 1 sẽ chọn giữa và người chơi 2 sẽ chọn trung tâm

Duopolistic Competition

Khi mà chỉ có một công ty điều khiển tất cả hoạt động sản xuất của một mặt hàng, chúng ta gọi đó là độc quyền Khi mà có chính xác hai công ty cạnh tranh điều khiển hoạt động sản xuất của một mặt hàng chung, chúng ta gọi

Trang 16

môi trường kinh tế đó là duoply-dịch sát nghĩa là tình trạng thị trường do hai công ty độc quyền lũng đoạn Mỗi sự sản xuất của một công ty tác động tới lợi nhuận của công ty còn lại Vì vậy, chúng ta có thể coi hai công ty này như hai người chơi của một trò chơi về tối đa hóa lợi nhuận thu được - một trò chơi mà IESDS có thể giải quyết.

Trang 31 - Game Theory 101

Liệu vị trí/sắp xếp? có sự ảnh hưởng?

Giả sử chúng ta có một trò chơi bắt đầu với hai chiến lược trội Một câu hỏi rất tự nhiên là chúng ta có thể kết thúc với một câu trả lời khác phụ thuộc vào thứ mà chúng ta loại bỏ trước không

Trên thực tế, lựa chọn đầu tiên của chúng ta không quan trọng Lý do là bởi

nó chỉ là một sự phức tạp nhỏ, giờ hãy cùng nhìn vào cặp đôi trong ví dụ Ở phần trước chúng ta đã giải quyết thế lưỡng nan của tù nhân bằng cách loại

bỏ việc người chơi 1 sẽ giữ im lặng trước Và dựa vào trò chơi còn lại, chúng ta loiaj bỏ tiếp việc giữ im lặng của người chơi 2 Vì vậy cả hai có chiến lược tối ưu là thú tội

Tuy vậy, từ khi chúng ta biết thú tội là chiến lược trội so với im lặng cho người chơi 2 trong trò chơi gốc, chúng ta có thể bắt đầu bằng việc loại bỏ chiến lược cô ấy im lặng trước Không có bất ngờ gì, thú nhận là chiến lược trội so với im lặng cho người chơi 1 trong trò chơi đã được rút gọn

Thế lưỡng nan của tù nhân có thể xem như là một ví dụ tầm thường cho việc người chơi đối mặt với một tình huống có tính đối xứng Liệu rằng thứ

tự vẫn không liên quan trong trường hợp bất đối xứng? Hãy xét ví dụ sau:

Trang 17

Sử dụng IESDS có thể giải quyết trò chơi này Thứ nhất, giữa trội hơn sovới dưới cho người chơi 1 Vì vậy người chơi 1 sẽ không bao giờ muốn chơi dưới, và trò chơi được rút gọn thành chỉ còn <trái, phải> cho người chơi 2 và <trên, giữa> cho người chơi 1

Tiếp theo, ta thấy rằng phải là trội hơn so với trái cho người chơi 2 Vì vậy chúng ta loại bỏ trái

Bây giừo trò chơi được rút gọn chỉ còn phải cho người chơi 2 và <trên, giữa> cho người chơi 1 Vậy đâu sẽ là tốt nhất cho anh ta Ta nhận thấy ngay lời giải là <trên, phải>

Quay lại với trò chơi ban đầu

Khi mà giữa trội hơn so với dưới, lưu ý rằng phải cũng trội hơn so với trái Vì vậy thay vì loại bỏ dưới đầu tiên, chúng ta có thể loại bỏ trái Khi

đó chúng ta có cho chơi rút gọn chỉ còn <phải> cho người chơi 2

Từ đây, chỉ còn việc lựa chọn để người chơi một có được phần thưởng tốt nhất

Đến đây ta lại kết thúc trò chơi với <trên, phải> là đầu ra bất kể là ta đã chọn con đường nào Điều này đúng với tất cả các trò chơi khi mà ta sử dụng sàng lọc chiến lược bị áp đảo

Trang 18

→ Kết luận rằng, khi ta giải quyết một trò chơi phức tạp và có thể tìm được chiến lược bị áp đảo thì hãy loại bỏ nó ngay Dù là sẽ có những chiến lược khác bạn có thể loại bỏ ở bước đầu tiên và những chiến lược

đó cũng sẽ là chiến lược bị áp đảo ở bước tiếp theo Vẫn sẽ rất dễ dàng

để tìm ra chúng, khi càng ngày càng ít lựa chọn phải cân nhắc trong trò chơi được rút gọn

Chiến lược thống trị lỏng lẻo

Chúng ta cần cẩn trọng khi sử dụng phép sàng lọc chiến lược bị áp đảo Để minh họa cho một trường hợp có bẫy, cùng xem xét một trò chơi

Trước tiên tập trung vào hai lựa chon <giữa> và <trên> của người chơi 1

Chúng ta có thể dễ dàng bị đánh lừa để nói rằng giữa là chiến lược thống trị so với giữa cho người chơi 1 Tuy nhiên điều này không đúng Nếu người chơi 2 chọn giữa thì giữa hơn trên nhưng khi người chơi hai chọn trái thì người chơi 1 không có sự khác biệt gì khi chọn giữa và trên;bất kể là anh ta có chọn gì đi nữa thì kết quả thu được không có gì thay đổi Chiến lược thống trị yêu cầu rằng <giữa> phải luôn luôn trội hơn so với trên; bằng nhau là không đúng với yêu cầu đó

Trang 19

Thay vào đó, chúng ta gọi giữa là chiến lược thống trị lỏng lẻo so với trên Thông thường khi chiến lược x là chiến lược thống trị lỏng lẻo của chiến lược y với một người chơi nếu như x cho ít nhất một payoffs tốt nhất cho người chơi đó bất kể là những người chơi khác có làm gì và đây sẽ có ít nhât 1 tập hợp các chiến lược đối lập mà x được phần thưởng nhiều hơn y.

Loại bỏ chiến lược thống trị lỏng lẻo và phân tích phần còn lại của trò chơi được gọi là sàng lọc chiến lược thống trị lỏng lẻo (IEWDS) Dựa trên trò chơi này thì IEWDS đôi khi cho một câu trả lời rõ ràng và đôi khi thì không Thật không may là chúng ta không biết nhóm trò chơi nào mà chúng ta sẽ thấy đơn giản bằng việc loại bỏ chiến lược thống trị lỏng lẻo

Để có cái nhìn toàn cảnh vào vấn đề này, cho rằng chúng ta có thể sử dụng IEWDS cùng một cách với IESDS Khi mà giữa là thống trị lỏng lẻo của trên, hãy loại bỏ trên và ta có được <trái> là thống trị lỏng lẻo của người chơi 2 Nếu chúng ta loại bỏ chiến lược yếu hơn là chiến lược phải thì trò chơi chỉ còn <trái> cho người chơi 2 và <giữa>, <dưới> cho người chơi1

Khi người chơi 1 lấy được 0 từ giữa và -2 từ dưới, tối ưu nhất thì anh ta

sẽ chọn giữa Vì vậy ta kết luận đầu ra của trò chơi là <giữa, trái>

→ Liệu nó có đúng không?

Chúng ta bắt đầu bước cuối với quan sát rằng giữa là thống trị lỏng lẻo của trên Tuy vậy, giữa cũng là thống trị lỏng lẻo của dưới

Lúc đó ta loại bỏ dưới thì sẽ có được người chơi 1 còn <trên> và

<giữa>; người chơi 2 còn <trái> và <phải>

Giờ ta thấy rằng phải là thống trị lỏng lẻo của trái với người chơi 2 Vì vậy loại bỏ trái cho chúng ta kết quả là người chơi 1 còn <trên> và

<giữa>; người chơi 2 còn <phải>

Khi này, người chơi 1 chọn chiến lược sẽ cho anh ta lợi nhuận lớn nhât Anh ta chọn <giữa>, và lời giải là <giữa, phải> Ở trên chúng ta nói lời giải là <giữa, trái> Dựa trên thứ tự loại bỏ, IEWDS cho chúng ta hai câu trả lời khác nhau

Vấn đề là IEWDS không có một hướng dẫn rằng đâu mới là con đường đúng nếu cả hai đều là lời giải Để giải quyết vấn đề này, ta sẽ cần một công cụ đưa ra giải pháp rộng hơn

Điểm mấu chốt

Trang 20

1 Phép sàng lọc chiến lược bị áp đảo là việc làm trò chơi trở nên đơn giản hơn thông qua loại bỏ các chiến lược bị áp đảo - chiến lược mà người chơi sẽ không bao giờ chơi Điều này cho phép người chơi có những suy luận dựa vào những gì người chơi khác sẽ không chơi.

2 Thứ tự không phải là vấn đề khi sử dụng IESDS

3 Chiến lược x là cực đại tối thiểu của chiến lược y với một người chơi nếu như x cho ít nhất 1 kết quả tốt cho người chơi đó bất kể là người chơi khác làm gì mà có ít nhất một tập hợp các chiến lược đối lập với x

mà cho phần thưởng tốt hơn y

4 Phép sàng lọc chiến lược cực đại tối thiểu đôi khi cho ta nhiều câu trả lờikhác nhau

5 Thứ tự loại bỏ là vấn đề khi sử dụng IEWDS

Pure Strategy Nash Equilibrium, Best Responses

(Chiến lược cân bằng Nash thuần túy, phản hồi tốt nhất)

Bài toán săn nai

Có hai người thợ săn tiến vào khu vực săn đầy những con thỏ rừng và một con nai đứng một mình Thỏ rừng không thông minh và dễ dàng để bắt Con nai thì khác, nó rất thông minh và khéo léo - những người thợ sẵn chỉ có thể bắt nó nếu cùng làm việc chung

Không có bất kỳ liên lạc nào, các thợ săn độc lập chọn xem mình sẽ săn thỏ rừng hay là săn nai Nếu cả hai cùng săn thỏ rừng, họ sẽ mỗi người bắt được một nửa số thỏ rừng trong khu vực Nếu một người săn thỏ rừng còn một người săn nai thì người săn nai sẽ quay trở về tay không trong khi người săn thỏ bắt được tất cả số thỏ rừng Cuối cùng nếu cả hai cùng săn nai thì phần mỗi người họ nhận được của con nai lớn hơn giá trị của tất cả các con thỏ rừng

Ta có ma trận sau mô tả tình huống chiến lược:

Trang 21

Mỗi người chơi sẽ thích kết quả <nai, nai> Từ đây, ta có thể cho rằng <nai, nai> sẽ là kết quả đúng đắn nhất của trò chơi Tuy vậy, như có thể thấy là người chơi cũng có thể có một kết thúc hợp lý với một kết quả khác.

Thử giải trò chơi này với IESDS Bước đầu tiên là tìm chiến lược thống trị ở đây

Đầu tiên giả sử người chơi 1 biết rằng người chơi 2 sẽ săn nai Trong trường hợp này thì săn nai cũng là lựa chọn tối ưu của người chơi 1.Bây giờ giả sử người hơi 1 biết là người chơi 2 sẽ săn thỏ rừng Săn nai bây giờ không còn là chiến lược tối ưu cho người chơi 1 nữa Vì vậy người chơi một bây giờ không có chiến lược thống trị Thực tế thì chiến lược tối ưu của người chơi 1 hoàn toàn phụ thuộc vào người chơi 2 chọn gì Nếu cô ấy săn nai, anh ta cũng vậy nhưng nếu cô ấy săn thỏ rừng thì anh ta cũng nên làm như vậy tương tự

Thông qua sự đối xứng của trò chơi, thì điều tương tự cũng xảy ra với người chơi 2: cô ta nên chơi bất kì chiến lược nào mà người chơi 1 chọn

→ Phải giải quyết trò chơi này như thế nào khi mà nó thiếu đi chiến lược thống trị? Hãy tìm Cân bằng Nash Trạng thái cân bằng Nash là một trạng thái khi hai hoặc nhiều người chơi tham gia trò chơi bất hợp tác không có động cơ để đi chệch khỏi chiến lược ban đầu của họ sau khi xem xét chiến lược của các đối thủ

Một số ví dụ sẽ làm rõ hơn định nghĩa này Đầu tiên, xem xet một tập chiến lược <nai, nai> Liệu những người chơi khác có động cơ nào để thay đổi

Trang 22

chiến thuật hay không?

Dưới góc nhìn của người chơi 1 Đầu tiên ta giữ chiến lược của người chơi 2 cố đinh; tức là ta giả sử người chơi hai giữ vững chiến thuật của

cô ta là săn nau Người chơi 1 có nên thay đổi chiến thuật của anh ta không? Câu trả lời là không! vì 3 lớn hơn 2

Còn về phía người chơi 2 cũng tương tư, chúng ta giữ nguyên chiến lược của người chơi 1 và thử xem người chơi 2 có đi chệch hướng chiến lược của mình không Và cô ấy cũng không muốn như vậy vì 3 lớnhơn 2 Do đó <nai, nai> là trạng thái cân bằng Nash Đặc biệt, ta gọi đây

là chiến lược cân bằng Nash thuần túy bởi vì cả hai người chơi đều đang chơi một chiến lược mà bản thân họ biêt là họ không nắm trong tayquyền kiểm soát Tức là ở trạng thái cân bằng này, người chơi 1 luôn chọn nai và người chơi hai cũng luôn chọn nai Ta sẽ chỉ tập trung vào trạng thái cân bằng Nash ở chi tiết này

Có một trạng thái cân bằng Nash khác hay không? Hãy bắt đầu nhìn vàonếu như người chơi 1 muốn đổi chiến thuật của mình sang <nai, thỏ> Anh ta nên đổi chiến lược của mình Nếu anh ta giữ nguyên việc săn nai thì anh ta sẽ kết thúc với kết quả là 0 có gì cả Nhưng nếu anh ta chuyểnsang chiến lược săn thỏ thì lợi ích mang về sẽ là 1

Nếu vẫn chỉ có một người chơi muốn thay đổi, một tập hợp các chiến lược sẽ không phải trạng thái cân bằng Nash Vì vậy không cần kiểm tra bước đi của người chơi 2 ta cũng có thể bỏ đi <nai, thỏ> Nhưng dù sao cũng nên kiểm tra lại:

→ Kết quả này ta đã thấy quá nhiều, vì vậy giờ ta nên biết là người chơi 2 sẽ

có lợi nếu cô ấy chuyển sang săn nai

Bây giờ xem liệu <thỏ, nai> có một cân bằng Nash hay không Với trò chơi đối xứng và việc <nai, thỏ> không phải một trạng thái cân bằng Nash, ta nhận ra ngay là <thỏ, nai> cũng không phải Nếu muốn kiểm tra

ta có thể lập ma trận Và rõ ràng anh ta nhận được 2 trong khi nếu chuyển sang nai thì anh ta nhận được 3 Đây là một sai lệch có lợi vì vậy

<thỏ, nai> không phải là cân bằng Nash

Một cách tối ưu, người chơi 2 nên đổi từ săn nai và về tay trắng thành săn thỏ và nhận được

Trang 23

Cuối cùng là xem <thỏ, thỏ> có phải là một cân bằng Nash hay không Hãy bắt đầu với lựa chọn của người chơi 1:

Thỏ vẫn tối ưu cho người chơi 1; chuyển sang nai sẽ làm giảm payoffs của anh ta từ 1 về 0 Vì thế nên cách duy nhất để <thỏ, thỏ> không phải là trạng thái cân bằng Nash là nếu người chơi 2 muốn giữ nguyên Hãy thử kiểm tra:Nếu cô ấy chuyển thì payoffs sẽ giảm từ 1 về 0 Khi mà cả hai người chơi đều không có động cơ để thay đổi chiến thuật của mình, <thỏ, thỏ> là một trạng thái cân bằng Nash Bởi vậy, bài toán săn nai có hai cân bằng Nash thuần túy là <nai, nai> và <thỏ, thỏ>

Không giống như tình thế lưỡng nan của tù nhân, săn nai làm rõ sức mạnh của lý thuyết trò chơi là để phân tích các chiến lược không phụ thuộc Trong thế lưỡng nan của tù nhân, mỗi người chơi có thể loại bỏ một cách có hiệu quả người chơi khác có ý định làm gì khi mà thú nhận cho một kết quả trội hơn bất kể là người tù nhân khác chọn gì Đó khôngcùng trường hợp với bài toán săn nai Ở đây, mỗi người chơi muốn, thậm chí là bắt buộc phải làm theo việc người chơi còn lại làm Hay có thể nói chiến lược tối ưu của mỗi người chơi là một hàm số của lựa chọnngười chơi còn lại

Bài toán săn nai cũng làm nổi bật rằng Cân bằng Nash không cần phải

có hiệu quả Thực vậy, cả hai người chơi đều tốt hơn với trạng thái cân bằng <nai, nai> hơn là trạng thái cân bằng <thỏ, thỏ> - và không giống như thế lưỡng nan của người tù, cả hai kết quả đều có thể xác nhận được, bởi vì cả hai người chơi đều có động lực để thay đổi chiến thuật theo việc người còn lại sẽ làm gì Như vậy, mặc dù người chơi sẽ muốn đưa về kết quả <nai, nai>, họ sẽ có thể mắc kẹt với kết quả kém hiệu quả là <thỏ, thỏ> bất luận thế nào

Để thấy nó có thể đúng như thế nào, giả sử cả hai người chơi nhìn thấy một tấm biển "hôm nay là ngày săn thỏ" trên con đường họ tới khu vực săn Những người thợ săn sẽ làm gì? Thật không may là cấu trúc của tròchơi không cung cấp một câu trả lời rõ ràng Điều này phụ thuộc vào việc mỗi người thợ săn sẽ lờ tấm biển đi và săn nai miễn là cả hai đều làm điều đó Nhưng nếu tôi nghĩ rằng bạn sẽ làm theo tấm biển và săn thỏ thì tôi cũng nên làm theo tấm biển, ngay cả khi tôi thực sự muốn săn nai Và nếu bạn nghĩ tôi nghĩ rằng bạn sẽ làm theo tấm biển, ngay cả khibạn không có kế hoạch làm theo, bạn nên tiếp tục săn thỏ bởi vì bạn biếttrước là tôi sẽ làm thế Một sự phối hợp đơn giản - chiếc điện thoại di động gọi tới từ một tay thợ săn trung thực tới người kia sẽ giải quyết vấn

Trang 24

đề Nhưng bỏ qua điều đó, tất cả đầu ra là đúng, cũng là một trong những động lực phía sau Cân bằng Nash.

Cuối cùng, trạng thái cân bằng Nash chỉ nhìn vào xu hướng thay đổi củatừng cá nhân Tức là chúng ta cần kiểm tra liệu mỗi các nhân có thể tự

đi theo hướng khác để có được kết quả tốt hơn hay không Nếu cả hai người chọn thỏ thì sẽ có sự chênh lệch về lợi nhuận chung cho cả hai người so với chọn nai Nhưng về mặt cá nhân, cả hai sẽ tốt hơn nếu giữ nguyên chiến lược là săn thỏ Theo nghĩa này, cân bằng Nash có đặc tính là "không hối tiếc" Nếu các người chơi chơi theo trạng thái cân bằng Nash, họ sẽ không hối tiếc với lựa chọn của họ một khi nhận ra phần thưởng của họ

Tùy chọn mới cho bài toán thế lưỡng nan của tù nhân

Sau sự bàn luận về thế lưỡng nan của tù nhân, các tù nhân không chỉ muốn giảm thiểu thời gian tù, các hành vi tối ưu của họ có thể thay đổi Thật vậy, lý thuyết trò chơi không đưa ra một tuyên bố cơ bản rằng thời gian ngồi tù là điều duy nhất mà người chơi nên quan tâm đến; thay vào đó, chúng ta tìm kiếm hành vi tối ưu của người tù nếu họ có những lựa chọn mới

Với ý tưởng này, ta điều chỉnh lại trò chơi như sau: Giả sử cả hai tù nhân

là những người bạn tốt và sẽ giữ im lặng nếu họ biết rằng người còn lại cũng vậy Trong tình thế này, kết quả mong muốn của mỗi người chơi là

<im lặng, im lặng>, sau đó là <thú nhận, im lặng>, tiếp đến là <thú nhận, thú nhận, và <im lặng, thú nhận> Giá trị phần thưởng là 3, 2, 1 và 0 thể hiện xếp hạng các kết quả

Ta có ma trận kết quả sau:

Nhận thấy rằng đây chính xác là cùng một phần thưởng mà chúng ta đã thấy

ở bài toán săn nai Và như vậy nên ở đây có 2 cân bằng Nash thuần túy: <imlặng, im lặng> và <thú nhận, thú nhận> Bây giờ thì kế hoạch của người thẩm vấn có thể sẽ thất bại, nếu như những người chơi có một tình bạn đủ

Trang 25

để họ có lựa chọn hợp tác lẫn nhau Đó chính là <im lặng, im lặng> và là mộtkết quả có thể xác nhận được ở phiên bản này của bài toán thế lưỡng nan của người tù, khi mà cả hai người chơi đều không có động động cơ để đi chệch khỏi tập hợp chiến lược này.

Phiên bản làm lại này của bài toán thế lưỡng nan của người tù giúp ta rút ra được hai điều Đầu tiên, nó cho ta thấy rằng kết quả sẽ trở thành một hàm số của sự ưu tiên như thế nào và nó không chỉ là một không gian chiến lược Người thẩm vấn tạo ra những lựa chọn giống nhau ở trong cả hai phiên bản của trò chơi Trong phiên bản gốc, anh ta suy ra

cả hai sẽ thú tội Nhưng khi mà người chơi có tình bạn tốt, kế hoạch củaanh ta gần như là sẽ thất bại, bởi những người tù nhân có thể phối hợp

về trạng thái cân bằng <im lặng, im lặng>

Thứ hai, một lần nữa làm nổi bật khả năng của lý thuyết trò chơi trong việc tạo ra những sự tương đồng giữa những tình huống dường như không giống nhau Riêng trong phần này, ta đã nhìn vào hai kịch bản hoàn toàn khác nhau Một với đi săn; và một với việc xử lý của hai ngườibạn trong một tình huống pháp lý Lúc này khi mà chúng ta đã loại bỏ tất

cả những đặc tính không thích hợp của tương tác chiến lược, ta sẽ thấy rằng một trò chơi làm nền tảng cho cả hai trường hợp Theo cách này thì

lý thuyết trò chơi cho phép chúng ta kết nối những tình huống dường như khác nhau dưới một khuôn khổ chung

Sự an toàn của quân đội và phản ứng tốt nhất

Hai bộ tổng tham mưu mỗi bộ có 3 đơn vị chiến đấu đang chuẩn bị cho cuộc chiến tranh sắp tới Mỗi bên có thể chọn bất kì số lượng đơn vị nào tới chiến trường hoặc là không đơn vị nào cả Bên có nhiều lính hơn sẽ dành chiến thắng, và trận đấu sẽ là hòa nếu quân số bằng nhau Chiến thắng có giá trị

là 1 điểm và bị đánh bại là -1 điểm Nếu như hòa hoặc ít nhất là từ chối chiếnđấu thì cả hai bên nhận được 0

Đây là trò chơi "sự an toàn của quân đội", ma trận dưới đây thể hiện tình trạng chung:

Trang 26

Khi ta tìm các chiến lược cân bằng Nash thuần túy trong bài toán săn nai, ta

đi qua từng kết quả một trong một thời điểm và kiểm tra xem liệu các người chơi có thể có cách chuyển hướng sinh lợi hơn không Trong khi bài toán săn nai là một nhiệm vụ vừa phải khi chỉ có duy nhất 4 kết quả, bài toán sự

an toàn của cân đội có 16 Chúng ta có thể thử từng kết quả một, nhưng sẽ ngốn rất nhiều thời gian Thay vào đó, ta sẽ sử dụng một phương pháp mới đòi hỏi việc đánh dấu các phản ứng tốt nhất

Một phản ứng tốt nhất đơn giản là một chiến lược tối ưu cho một cá nhân cụ thể dựa trên những gì mọi cá nhân khác đang làm Lấy ví dụ, giả sử tổng tham mưu 2 chọn gửi 0 đội quân tới chiến trường thì tổng tham mưu một có phản hồi tốt nhất là gì?

→ Nếu tổng tham mưu 1 làm như vậy thì chiến lược của ông ta trở thành không hợp lý - chiến tranh sẽ không xảy ra, và mọi lựa chọn sẽ cho ra kết quả là 0 cho ông ta Vì vậy tất cả các chiến lược sẽ là phản ứng tốt nhất cho tổng tham mưu 1, để thuận tiện hơn thì ta sẽ kí hiệu dấu sao ở trên đầu con

số ứng với phản ứng tốt nhất

Xét tương tự các trường hợp còn lại: ta giả sử tổng tham mưu 2 gửi một, hai hoặc ba đơn vị quân tới chiến trường thì ta thu được ma trận mới như sau:

Trang 27

Ta tiếp tục đánh dấu những phản ứng tốt nhất của tổng tham mưu 2 Như trên, ta giả sử tổng tham mưu 1 gửi không, một, hai và ba đơn vị quân, ta được kết quả là ma trận sau:

→ Bây giờ để tìm ra cân bằng Nash thuần túy, ta chỉ cần kiểm tra xem kết quả nào có hai dấu sao cạnh nhau ở payoffs của mỗi người chơi TA tìm được 4 kết quả sau: <0, 0>; <0,3>; <3,0>; <3,3>

Để giải thích tại sao các kết quả này là cân bằng Nash thì ta nhắc lại rằng cân bằng Nash là một tập hợp chiến lược, một cho mỗi người chơi, sao cho không người chơi nào có động cơ để thay đổi chiến lược của anh ấy/cô ấy cho dù là người chơi kia có làm gì Nếu như kết quả là một phản ứng tốt nhất cho một người chơi, anh ấy/cô ấy không thể thay đổi chiến lược để nhận được payoffs tốt hơn Nhưng nếu như kết quả là phẳn ứng tốt nhất cho

cả hai người chơi, không người chơi nào có động cơ để thay đổi chiến lược

cả Gần như tương tự với định nghĩa của trạng thái cân bằng Nash

Như vậy ta thấy được một cách định nghĩa khác của trạng thái cân bằng Nash là phản ứng tốt nhất Định nghĩa tương đương này được sử dụng phụ

Trang 28

thuộc vào trò chơi trong bài toán đặt ra.

Trò chơi dừng đèn giao thông

Ta đã thấy định nghĩa của trạng thái cân bằng Nash nhiều lần Nhưng chính xác thì nó có nghĩa là gì? Một cách giải thích là trạng thái cân bằng Nash là một luật lệ mà tất cả mọi người đều muốn làm theo bất kể là việc không có một lực lưỡng cảnh sát hiểu quả

Khi xem xét vai trò của đèn giao thông Tưởng tượng có hai cái xe ô tô đang tiếp cận ngã tư với vận tốc 40km/h từ hướng vuông góc Nếu như

cả hai tiếp tục với tốc độ tối đa, họ sẽ gây ra một tai nạn kinh hoàng Nhưng nếu cả hai cùng dừng lại, họ sẽ làm mất thời gian để quyết định xem ai là người sẽ đi qua ngã tư trước Cả hai đều sẽ có lợi nếu như một người tiếp tục chạy không dừng lại và người còn lại thì dừng lại trong giây lát để người còn lại vượt qua

Ta có thể minh họa các lựa chọn của các người lái xe bằng ma trận sau:

Đánh dấu các phản ứng tốt nhất của trò chơi Đầu tiên ta giả sử tài xế 2 chọn đi thì phản ứng của tài xế 1 sẽ là dừng lại; dừng lại là tốt ưu cho tài

xế 1 Nếu như tài xế 1 cũng đi tiếp anh ta sẽ tạo ra một tai nạn khủng khiếp Mặc dù dừng lại sẽ làm tài xế 1 chậm lại thế nhưng ít nhất là giúp anh ta sống

Giả sử tài xế 2 chọn dừng lại thì dừng lại là không cần thiết cho với tài

xế 1, nhưng sẽ là những phút giây lúng túng vì người tài xế phải quyết định xem ai nên là người đi trước Trong khi đó nếu như tài xế 1 chọn đi thì anh ta sẽ đến được địa điểm nhanh nhất có thể

Tương tự với phản ứng tốt nhất của tài xế 2 Nếu tài xế 1 chọn đi thì tài

xế 2 nên dừng lại Nhưng nếu tài xế 1 dừng thì tài xế 2 nên đi

Trò chơi trở thành như sau:

Trang 29

Bây giờ trò chơi có hai cân bằng Nash: <đi, dừng> và <dừng, đi> Trong khi những cân bằng Nash đưa hai tài xế này ra khỏi các lựa chọn tồi là <đi, đi>

và <dừng,dừng>, tài xế một mong muốn trạng thái cân bằng <đi, dừng> còn người chơi mong muốn trạng thái cân bằng <dừng, đi> Do đó sự phối hợp không phải là cách hay; tài xế 1 thì muốn sự phối hợp nghiêng về anh ấy và tài xế 2 cũng vậy

Làm thế nào để giải quyết tình thế lưỡng nan này? Đèn giao thông chính

là một giải pháp Và tài xế không thể làm trái đèn giao thông Nếu tài xế chạy khi đèn đỏ thì sẽ gây tai nạ còn nếu như đèn xanh anh ta không cần phí thời gian chờ đợi Vì vậy đèn giao thông hướng dẫn các tài xế

áp dụng trạng thái cân bằng Nash

Lưu ý rằng những chiến lược này là sự củng cố các lựa chọn cá nhân Một tài xế sẽ muốn dừng lại bởi vì anh ta biết rằng một tài xế khác sẽ đi Tương tự, một tài xế khác sẽ muốn đi vì anh ta biết tài xế kia sẽ dừng lại Và các người chơi không cần một bên thứ 3 - tức là cảnh sát giao thông để bắt buộc phải tuân theo trạng thái cân bằng Thay vào đó mỗi người chơi đều một cách tự nhiên muốn thực thi ý định chiến lược của anh ta vì chiến lược của người chơi còn lại sẽ làm nó trở thành tối ưu cho anh ta Một lần nữa đó là do tính chất "không hối hận" của cân bằng Nash Tài xế làm theo chỉ dẫn của đèn giao thông bởi vì họ biết rằng họ

sẽ không phải hối hận về sau

Trang 30

2 Phản ứng tốt nhất của người chơi là một chiến lược hoặc chiến thuật cho ra phần thưởng tốt nhất bất kể chiến lược của những người chơi khác.

3 Chúng ta có thể tìm trạng thái cân bằng Nash thuần túy bằng việc đánh dấu những phản ứng tốt nhất của mội người chơi trong ma trận trò chơi Kết quả là những phản hồi tốt nhất cho tất cả các người chơi là cân bằng Nash

4 Cân bằng Nash có thể coi như là luật lệ mà không ai muốn phá bỏ kể cả khi các lực lượng cảnh sát không hoạt động

5 Cân bằng Nash có tính chất "không hối hận" - sau khi chơi trò chơi, người chơi sẽ không hối hận vì lựa chọn của mình nếu như đã chơi bằng cân bằng Nash

Dominance and Nash Equilibrium

Sự thống trị và trạng thái cân bằng Nash

Giờ chúng ta sẽ nghiên cứu mối quan hệ giữa trạng thái cân bằng Nash và sự thống trị Chúng ta sẽ thấy hai thứ Thứ nhất, nếu như phép sàng lọc chiến lược

bị áp đảo đưa trò chơi về một kết quả duy nhất, kết quả này là cân bằng Nash và

đó là trạng thái cân bằng Nash duy nhất của trò chơi

Trong khi đó thì phép sàng lọc chiến lược thống trị lỏng lẻo không phải không ổn cho lắm: dù rằng rất nhiều những lời giải thông qua IEWDS là trạng thái cân bằng Nash thế nhưng tiến trình của IEWDS đôi khi loại bỏ những cân bằng Nashkhác

Trạng thái cân bằng Nash và phép sàng lọc chiến lược bị áp đảo

Làm thế nào mà trạng thái cân bằng Nash lại liên quan tới phép sàng lọc chiến lược bị áp đảo? Hóa ra cách giải quyết được tìm thấy thông qua phương pháp sử dụng chiến lược thống trị

là Cân bằng Nash Do đó, không chỉ <thú tội, thú tội> là lời giải thống trị cho thế lưỡng nan của tù nhân mà còn là trạng thái cân bằng Nash của trò chơi này

Cân nhắc một ví dụ hóc búa hơn Đó là trò chơi ở phần 1.2 mà chúng ta đã giới thiệu phép sàng lọc chiến lược bị áp đảo

Trang 31

Bằng cách sử dụng IESDS, ta biết được lời giải là <giữa, trung tâm> Hãy xác minh lại rằng đây cũng là cân bằng Nash thuần túy duy nhất của trò chơi

1 Ta thấy phản ứng tốt nhất của người chơi 1 với trái là trên Tiếp tục là nếu người chơi 2 chọn trung tâm thì giữa là phản ứng tốt nhất Cuối cùng thì giả sử người chơi 2 chọn phải thì phản ứng tốt nhất của người chơi 1 là dưới

2 Ta thấy phản ứng tốt nhất của người chơi 2 nếu người chơi 1 chọn trên

là trung tâm Giả sử người chơi 1 chọn giữa thì phản ứng tốt nhất của người chơi 2 vẫn là trung tâm Cuối cùng nếu người chơi 1 chọn dưới thìphản ứng tốt nhất của người chơi 2 là trái

→ Ta đưa trò chơi về ma trận sau với những dấu * đã được đánh:

Chiến lược chung phản ứng tốt nhất duy nhất là <giữa, trung tâm> Và lời giải của IESDS là trạng thái cân bằng Nash duy nhất của trò chơi

Tại sao phương pháp phản ứng tốt nhất vẫn hoạt động? Nhắc lại rằng chiến lược cân bằng Nash có tính chất là "không hối tiếc" Tuy vậy ngườichơi thường hối hận là đã chơi chiến lược bị áp đặt, khi mà có thể có kết

Trang 32

quả tốt hơn bằng cách chọn chiến thống trị Và như một lẽ tất yếu, nếu như IESDS cho một kết quả duy nhất, chiến lược mà liên quan đến kết quả đó là chiến lược duy nhất mà người chơi sẽ không hối tiếc khi đã chọn Đổi lại, những chiến lược đó tạo thành một cân bằng Nash duy nhất.

Sau khi sử dụng IESDS vẫn còn những chiến lược tồn tại

Sau khi loại bỏ những chiến lược bị áp đảo, đôi lúc những chiến lược còn lại vẫn khả dụng cho mỗi người chơi Để xử lý chúng thì ta cần quay lại một số

kĩ thuật tìm kiếm cân bằng Nash

Để có thể hình dung, chúng ta thêm một yếu tố vào bài toán săn nai Khi đó, người chơi 1 có thể săn nai, săn thỏ rừng, hoặc người chơi 2 Để giữ cho người chơi 2 không bị rơi vào tình thế không thể phòng vệ, cô ấy có thể săn nai, săn thỏ rừng, hoặc là trốn khỏi người chơi 1 Nếu như người chơi 1 đuổitheo người chơi 2 và người chơi 2 trốn thì người chơi 2 sẽ sống sót Mặt khác, cô ấy sẽ nhận được một payoffs cực kì tồi tệ (sau cùng cô ấy sẽ bị bắn) Thật may cho người chơi 2 là người chơi 1 sẽ cảm thấy tội lỗi nếu như anh ta bắn người chơi 2, vì vậy anh ta cũng sẽ nhận được một payoffs tiêu cực nếu như cô ta bị đau

Thêm những chiến lược mới và payoffs mới cho chúng ta một trò chơi mới có ma trận phần thưởng như sau:

Đầu tiên ta thấy rằng săn nai là chiến lược trội so với người cho người chơi 1 Từ đó ta có thể loại bỏ <người> khỏi không gian chiến lược và xem xét những gì còn lại:

Trang 33

Nhận thấy được tiếp rằng săn thỏ là chiến lược trội so với trốn cho người chơi 2.

Người chơi 2 không có lý do gì để trốn nếu cô ta biết rằng người chơi 1

sẽ không săn cô ấy

Nếu như loại bỏ việc trốn thì trò chơi trở lại là trò chơi săn nai gốc

Ở lời giải trong phần trên thì ta biết rằng không còn chiến lược bị áp đảo nàocòn lại nữa Để giải trò chơi này thì ta sử dụng cân bằng Nash như trước

Có hai phản ứng tốt nhất trong chiến lược đơn thuần là <nai, nai> và <thỏ, thỏ>, vì vậy đây là hai chiến lược cân bằng Nash thuần túy của trò chơi Liênquan nhiều hơn đến chủ đề này, tuy vây, trong bài toán này cũng chỉ có 2 cân bằng Nash thuần túy như trò chơi gốc với việc săn người và chạy trốn.Trạng thái cân bằng Nash và phép sàng lọc chiến lược lỏng lẻo

Quan sát trò chơi sau:

<giữa> thống trị lỏng lẻo với cả trên và dưới của người chơi 1 Phụ thuộc vào việc chúng ta loại bỏ trên hay dưới trước như phần bắt đầu của chuỗi sàng lọc chiến lược lỏng lẻo, một trong hai <giữa, trái> hoặc <giữa, phải> sẽ

là kết quả duy nhất còn lại Vậy thì đâu mới là trạng thái cân bằng Nash? Và cũng có thể là cả hai

Trang 34

Như thông thường thì ta đánh dấu phản ứng tốt nhất cho cả hai người chơi Bắt đầu bằng kiểm tra xem điều gì sẽ xảy ra nếu người chơi 1 chọn trên; phải sẽ là phản ứng tốt nhất của người chơi1.

Giờ kiểm tra giữa, nếu người chơi 1 chọn chơi giữa thì người chơi không có sự khác biệt giữa trái và phải Vì vậy cả hai đều là phản ứng tốt nhất

Cuối cùng, ta tới với dưới; trái là phản ứng tốt nhất ở đây

Tại đây ta quay về với phản ứng tốt nhất của người chơi 1, bắt đầu với việc người chơi 2 di chuyển trái

Trên và giữa cả hai đều là phản ứng tốt nhất với trái

Cuối cùng thì xem xét người chơi hai chọn phải; người chơi 1 cũng có 2 phản ứng tốt nhất là giữa và dưới

Trò chơi của chúng ta trở thành như sau:

Chúng ta thấy rằng cả <giữa, trái> và <giữa, phải> cùng là phản ứng tốt nhất Cho nên cả hai đều là chiến lược Nash thuần túy

Trò chơi này cung cấp một gợi ý về lý do tại sao không phải là một ý tưởng hay khi dựa vào các chiến lược thống trị lỏng lẻo Sau cùng thì cho tới khi bạn vẫn xem xét các chuỗi IEWDS khác cho trò chơi này, bạnvẫn sẽ tìm thấy tất cả các cân bằng Nash Nhưng thống trị lỏng lẻo còn rất nhiều điểm cần lưu ý Thực tế, ngay cả khi chỉ có một chuỗi để loại

bỏ thì IEWDS hoàn toàn có thể xóa đi cân bằng Nash

Ví dụ bằng trò chơi sau:

Trang 35

Sự thống trị duy nhất ở đây liên đến quan trái và phải với người chơi 2

Rõ ràng trái thống trị lỏng lẻo phải Tức là nếu người chơi 1 chọn trên trên thì người chơi 2 chơi trái hay phải đều tốt như nhau nhưng sẽ tốt hơn hẳn khi chơi trái nếu người chơi 1 chọn xuống

Nếu chúng ta loại bỏ phải khỏi trò chơi; từ giờ thì dưới là trội hoàn toàn trên cho người chơi 1, <dưới, trái> là lời giải cuối cùng và cũng là lời giả duy nhất ta tìm được thông qua IEWDS

Không may là phản ứng tốt nhất lại đưa ra một câu trả lời khác:

Thứ nhất thì phản ứng tốt nhất của người chơi 1 nếu người chơi 2 chọn trái

là xuống Và phản ứng tốt nhất của người chơi 1 với phải là trên

Thay đổi sang góc nhìn của người chơi 2, phản ứng tốt nhất của người chơi

2 nếu người chơi 1 chọn trên là trái và phải Nếu người chơi 1 chọn xuống thì trái là phản ứng tốt nhất duy nhất

Ta được ma trận mới với những phản ứng tốt nhất được đánh dấu:

Ta thấy được 2 chiến lược cân bằng Nash: <trên, phải> và <dưới, trái> Không có cách nào chúng ta tìm được nếu sử dụng phép sàng lọc chiến lược thống trị lỏng lẻo để có được <trên, phải>, là lý do tại sao rất nguy hiểm nếu ta sử dụng IEWDS

Cũng đôi lúc thì IEWDS cho kết quả ổn

Trang 36

Bạn sẽ thắc mắc rằng làm sao để biết IEWDS sẽ hoạt động trước khi bắt đầu giải quyết bài toán và không may là chúng ta sẽ không biết được đâu là câu trả lời cho tới khi kiểm tra các phản hồi tốt nhất.

Sử dụng đồng thời thống trị nghiêm ngặt và thống trị lỏng lẻo

Thi thoảng, chúng ta sẽ đối mặt với một trò chơi có chiến lược thống trị tuyệt đối và chiến lược thống trị lỏng lẻo trong đó Cách giải quyết hiệu quả nhất làbắt đầu loai bỏ những chiến lược bị áp đảo và chỉ quay về sử dụng thống trị lỏng lẻo khi mà thống trị trội không thể làm gì được thêm nữa Lý do là bởi vì cùng với việc chúng ta loại bỏ chiến lược thống trị lỏng lẻo-ngay cả khi chỉ cómột-thì chúng ta vẫn có thể loại bỏ một số cân bằng Nash

Để hình dung rõ hơn thì chúng ta sẽ thử loại bỏ các chiến lược bị áp đảo trước khi xem xét trò chơi dưới đây:

Trên là thống trị lỏng lẻo của giữa với người chơi 1

Tức là nếu người chơi 2 chọn trái thì người chơi 1 sẽ không có sự khác biệt giữa trên và dưới nhưng nếu người chơi 2 chọn phải thì người chơi

1 sẽ nhận được nhiều hơn khi chọn trên khi so với giữa Trên là thống trị lỏng lẻo của 1

Loại bỏ giữa khỏi ma trận

Giờ ta thấy trái là thống trị trội phải với người chơi 2 Nếu chúng ta xóa

đi chiến lược bị áp đảo thì chỉ còn như sau:

Trang 37

Bây giờ người chơi 1 chọn trên bởi đây là chiến lược cho anh ta phần thưởng tuyệt nhất Ta được <trên, trái> là lời giải của trò chơi Điểm cân bằng Nash của trò chơi được rút gọn chắc chắn cũng là điểm cân bằng của tất cả các trò chơi trước đó, <trên, trái> là một cân bằng Nash của trò chơi gốc.

Tuy nhiên nếu như đánh dấu phản ứng tốt nhất của trò chơi gốc thì sẽ thấy được tiến trình IEWDS đã loại bỏ đi một trạng thái cân bằng Nash Hãy xem đây để nhìn rõ hơn:

1 Xem xét các phản ứng tốt nhất của người chơi 1 nếu người chơi 2 di chuyển sang trái thì có trên và giữa

2 Xem xét các phản ứng tốt nhất của người chơi 1 nếu người chơi 2 di chuyển sang phải thì có trên và dưới

3 Xem xét phản ứng tốt nhất của người chơi 2 nếu như người chơi 1 chọn trên Thì trái là phản ứng tốt nhất của người chơi 2

4 Xem xét các phản ứng tốt nhất của người chơi 2 nếu như người chơi 1 chọn giữa Trái vẫn là phản ứng tốt nhất

5 Xem xét các phản ứng tốt nhất của người chơi 2 nếu nưh người chơi 1 chọn dưới Phản ứng tốt nhất vẫn là trái

Trò chơi gốc trở thành như sau:

Trang 38

Và như chúng ta thấy thì thống trị lỏng lẻo đã một lần nữa thất bại: IEWDS cho ta một đáp án là <trên, trái> thế nhưng cả hai <trên, trái> và

<giữa, trái> đều là phản ứng tốt nhất và do đó cũng là các cân bằng Nash thuần túy Sử dụng thống trị lỏng lẻo chỉ cho chúng ta duy nhất mộtcâu trả lời đúng

Tuy vậy, nếu để ý kĩ thì ta nhận thấy được rằng trong quá trình tìm kiếm phản hồi tốt nhất của 2 thì trái luôn thống trị nghiêm ngặt phải-bất kể là người chơi 1 có làm gì thì người chơi 2 vẫn sẽ nhận được nhiều hơn với việc chọn trái so với khi cô ấy chọn phải Vì vậy thay bằng việc bắt đầu chuỗi loại bỏ với trên thống trị lỏng lẻo giữa thì ta có thể bắt đầu bằng việc loại bỏ phải

→ Sau cùng thì ta nhận được hai phản ứng tốt nhất của trái, cả <trên, trái>

và <giữa, trái> đều là câu trả lời cho bởi IESDS Và như đã thấy ở trên thì đây chính là hai cân bằng Nash thuần túy của trò chơi gốc

Kết luận rằng IESDS có thể giữ lại tất cả các cân bằng Nash

Việc xử lý các chiến lược bị áp đảo trước đã bước đầu tiên giải quyết được các thống trị lỏng lẻo Sau khi loại bỏ <phải> khỏi trò chơi thì không có trường hợp nào của thống trị lỏng lẻo còn lại nữa, chỉ có nhiều trường hợp thống trị nghiêm ngặt hơn

Thật không may mắn là đây sẽ không bao giờ là lời giải: đôi lúc thì sau khi loại bỏ tất cả nhữn chiến lược bị áp đảo thì những chiến lược thống trị lỏng lẻo vẫn còn tồn tại Khi đó thì ta phải sử dụng tới phương pháp tìm phản ứng tốt nhất hoặc là IESDS như bình thường Tuy vậy khi mà IESDS hoạt động tiết kiệm cho ta rất nhiều thời gian Vì vậy luôn đánh dấu và xử lý chính xác các chiến lược bị áp đảo trước khi tiếp tục với các chiến lược thống trị lỏng lẻo

Điểm chính

Trang 39

1 Khi mà IESDS cho một đầu ra duy nhất, thì đây cũng chính là trạng thái cân bằng Nash độc nhất.

2 IESDS không bao giờ làm mất cân bằng Nash nhưng IEWDS thì có

3 Luôn phải loại bỏ các chiến lược bị áp đảo trước khi loại bỏ chiến lược thống trị lỏng lẻo

Mixed Strategy Nash Equilibrium

Cân bằng Nash cho chiến lược hỗn hợp

Như những bài toán trước thì để tìm ra con đường tối ưu để chơi trò chơi thì chúng ta phải vẽ ra một ma trận trả thưởng:

Nối đồng xu là một ví dụ của trò chơi có tổng bằng 0 Trong bài toán thế lưỡng nan của người tù hoặc là săn nai thì người chơi có động cơ để kếthợp với người chơi khác nhằm dành được đầu ra mang lại lợi ích chung.Còn ở trong bài toán này thì mỗi người chơi chủ động muốn thấy người chơi khác đạt được kết quả tồi; người chơi 1 sẽ thắng nếu người chơi 2 thua và ngược lại

Trong thực tế thì có rất nhiều ví dụ trong cuộc sống giống với ví dụ này,

đá penalty trong bóng đá, người đá có thể đá sang trái, sang phải; thủ môn có thể đổ người sang trái hoặc phải Trong bóng bầu dục, người tấncông phải chọn là sẽ chạy hoặc chuyền quả bóng; người phòng ngự phải chọn để bảo vệ chống lại đường chuyền hoặc chạy Trong bóng chày, người giao bóng lựa chọn ném bóng xoáy hoặc bóng thằng; người

Trang 40

đánh bóng dự đoán là một quả bóng thẳng hay xoáy Trong chiến tranh, một quân đội có thể xâm chiếm một trong hai thành phố; bên phòng thủ chỉ có thể bảo vệ duy nhất một trong số đó Trong mỗi trò chơi này, một người chơi sẽ rất vui nếu như chiến lược của của hai người chơi giống nhau, trong khi người chơi còn lại muốn nó không giống nhau.

Quay lại với việc tìm kiếm lời giải cho bài toán đặt đồng xu Kể cả không cần đánh dấu những phản ứng tốt nhất thì cũng sẽ thấy trò chơi này không có cân bằng Nash thuần túy nào xuất hiện cả

Giả sử người chơi 1 luôn chọn ngửa thì người chơi 2 nên chọn úp, khi

đó thì cô ấy sẽ là người chiến thắng Nhưng nếu như người chơi 2 chọn

úp như là một chiến lược thuần túy thì người chơi 1 nên chọn úp, như vậy thì anh ta sẽ chiến thắng Cho rằng người chơi 1 sẽ chơi úp thì người chơi 2 nên chuyển sang ngửa Và dĩ nhiên là người chơi hai chọn ngửa thì người chơi 1 nên quay lại ngửa và tiến trình này sẽ trở thành một vòng tuần hoàn và phản ứng tốt nhất của người chơi 2 là chọn úp Quay lại điểm xuất phát Trò chơi này nghe thật là may rủi

Nếu như đánh dấu các phản ứng tốt nhất thì kết quả rõ ràng là những số

1 sẽ là số đánh dấu sao và -1 thì không Không có phản hồi tốt nhất chung cho cả hai xuất hiện trong chiến lược thuần túy Vì vậy trò chơi này không có chiến lược cân bằng Nash thuần túy

Vậy tức là nó cũng không có lời giải? Không hẳn như vậy Như đã nói ở trên thì tất cả các trò chơi hữu hạn đều có ít nhất một cân bằng Nash (Nhà toán học John Nash trong bộ phim Một tâm hồn đẹp kể về chính cuộc đời của ông đã chứng minh kết quả này, đó cũng là lý do tại sao ta gọi đây là định lý Nash Đó cũng là lý do tại sao chúng ta tìm kiếm cân bằng Nash) Một trò chơi là hữu hạn nếu như số lượng người chơi là hữu hạn và số lượng chiến lược thuần túy mà mỗi người chơi có cũng làhữu hạn Ở đây, có 2 người chơi, mỗi người có 2 chiến lược thuần túy

Vì vậy, đặt đồng xu là một trò chơi hữu hạn và vì vậy nó phải có cân bằng Nash Khi biết là đặt đồng xu không có chiến lược cân bằng Nash thuần túy thì nó phải có trạng thái cân bằng Nash trong chiến lược hỗn hợp

Thế nào là chiến lược hỗn hợp

Giả sử người chơi 1 có thể đọc được suy nghĩ của người chơi 2 tức là

dù người chơi 2 chọn trên hay dưới thì người chơi 1 vẫn hoàn toàn nhìn thấu được

Ngày đăng: 24/04/2022, 21:55

HÌNH ẢNH LIÊN QUAN

Bảng 4: Cỏc yếu tố nguy cơ của đột quỵ nóo. - Báo cáo toán rời rạc (p2)
Bảng 4 Cỏc yếu tố nguy cơ của đột quỵ nóo (Trang 5)
Để có thể hình dung, chúng ta thêm một yếu tố vào bài toán săn nai. Khi đó, người chơi 1 có thể săn nai, săn thỏ rừng, hoặc người chơi 2 - Báo cáo toán rời rạc (p2)
c ó thể hình dung, chúng ta thêm một yếu tố vào bài toán săn nai. Khi đó, người chơi 1 có thể săn nai, săn thỏ rừng, hoặc người chơi 2 (Trang 32)
Để hình dung rõ hơn thì chúng ta sẽ thử loại bỏ các chiến lược bị áp đảo trước khi xem xét trò chơi dưới đây: - Báo cáo toán rời rạc (p2)
h ình dung rõ hơn thì chúng ta sẽ thử loại bỏ các chiến lược bị áp đảo trước khi xem xét trò chơi dưới đây: (Trang 36)
Cùng một mô hình với trò đặt đồng xu và không có kết quả nào là phản ứng tốt nhất chung. - Báo cáo toán rời rạc (p2)
ng một mô hình với trò đặt đồng xu và không có kết quả nào là phản ứng tốt nhất chung (Trang 42)
Trò chơi này còn có tên gọi khác là &#34;dọn tuyết&#34;. Theo như mô hình của bài toán thì hai tài xế đối diện nhau đang mắc kẹt trên một con đường  toàn tuyết và họ đồng thời phải đưa ra quyết định là ở trong xe hay là  dọn tuyết để lấy đường đi - Báo cáo toán rời rạc (p2)
r ò chơi này còn có tên gọi khác là &#34;dọn tuyết&#34;. Theo như mô hình của bài toán thì hai tài xế đối diện nhau đang mắc kẹt trên một con đường toàn tuyết và họ đồng thời phải đưa ra quyết định là ở trong xe hay là dọn tuyết để lấy đường đi (Trang 51)
Một mô hình khác của trò chơi là việc hai người quyết định xem buổi hòa nhạc của Johann Sebastion Bach hoặc Igor Stravinsky, nhưng về cấu  trúc và phần thưởng thì là tương tự - Báo cáo toán rời rạc (p2)
t mô hình khác của trò chơi là việc hai người quyết định xem buổi hòa nhạc của Johann Sebastion Bach hoặc Igor Stravinsky, nhưng về cấu trúc và phần thưởng thì là tương tự (Trang 54)
Tổng kết lại thì mỗi người chơi sẽ tới loại hình giải trí mà anh/cô ấy thích thú hơn với xác suất là 2/3 và tới nơi ít hứng thú hơn với xác suất là 1/3 - Báo cáo toán rời rạc (p2)
ng kết lại thì mỗi người chơi sẽ tới loại hình giải trí mà anh/cô ấy thích thú hơn với xác suất là 2/3 và tới nơi ít hứng thú hơn với xác suất là 1/3 (Trang 55)
Trong hình trên, các nút lá có giá trị được gán ghi phía dưới mỗi nút. Đối với các nút trong, bên trái ghi các giá trị tạm theo thứ tự trên xuống, các giá trị thực được ghi bên phải hoặc phía trên bên phải. - Báo cáo toán rời rạc (p2)
rong hình trên, các nút lá có giá trị được gán ghi phía dưới mỗi nút. Đối với các nút trong, bên trái ghi các giá trị tạm theo thứ tự trên xuống, các giá trị thực được ghi bên phải hoặc phía trên bên phải (Trang 66)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w