Báo cáo bài tập lớn môn Trí tuệ nhân tạo trường đại học Công Nghiệp Hà Nội. Báo cáo bài tập lớn môn Trí tuệ nhân tạo trường đại học Công Nghiệp Hà NộiBáo cáo bài tập lớn môn Trí tuệ nhân tạo trường đại học Công Nghiệp Hà Nội
Trang 1BỘ CÔNG THƯƠNGTRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
BÀI TẬP LỚN
TRÍ TUỆ NHÂN TẠO
ĐỀ TÀI: XÂY DỰNG CÂY QUYẾT ĐỊNH TÌM HIỂU
VỀ BỆNH VIÊM TAI-MŨI-HỌNG
Giáo viên hướng dẫn:
Lớp: Kỹ Thuật Phần Mềm 02 – DHCNHN – K12 Sinh viên thực hiện:
Trang 2LỜI MỞ ĐẦU
AI được ứng dụng trong rất nhiều hoạt động và lĩnh vực khác nhau Đối với hoạt động nghiên cứu cơ bản trong các lĩnh vực toán học, vật lý lượng tử, sinh học di truyền, hóa học phân tích, AI giúp giải phương trình vi phân, đạo hàm riêng, tính toán
mô phỏng quá trình tương tác ở mức lượng tử, mô phỏng tái tạothành công lỗ hổng đen, tối ưu hóa Gen, xác định các marker cho điều chỉnh Gen, thiết kế thuốc trên Gen, xác định cấu trúc hóa học, đề xuất các kết hợp… Đối với hoạt động nghiên cứu ứng dụng, với các thành tựu trong các lĩnh vực như xã hội, quân
sự, kinh tế, giao thông, y tế… AI đã hỗ trợ bác sỹ chẩn đoán bệnh, phân tích hình ảnh y khoa, dự báo dịch bệnh, xem xét tácđộng chính sách…
Hiện nay rất nhiều công ty, từ công ty nhỏ đến công ty hàng đầu trên thế giới đã áp dụng AI để xác định khách hàng tiềm năng, nhóm nhân viên rời bỏ công ty, phát triển sản phẩm,tối ưu vận chuyển, dự đoán xu thế nhu cầu khách hàng, đề xuấtsản phẩm cần thiết cho người dùng… làm công cụ hữu dụng để tăng khả năng kinh doanh, cũng như quản lý và cạnh tranh cho doanh nghiệp của mình
Trong xã hội ngày nay căn bệnh viêm tai-mũi-họng dần trở nên phổ biến hơn, do vậy ngày càng rất nhiều người phải phiền phức bởi căn bệnh này Bệnh viêm tai-mũi-họng do nhiều
nguyên nhân gây ra và gây ảnh hưởng trực tiếp đến sức khỏe của bệnh nhân Nhận thấy điều này nên nhóm quyết định chọn
đề tài Bài tập lớn môn Trí tuệ nhân tạo là xây dựng cây quyết định để tìm hiểu về bệnh này Dựa vào mô hình cây quyết định này ta có thể tìm hiểu được những nguyên nhân chính gây ra bệnh từ đấy có thể phòng tránh mắc bệnh
Trang 3MỤC LỤC
PHẦN I: KHÁI NIỆM, ỨNG DỤNG TRÍ TUỆ NHÂN TẠO
1.0 Khái niệm Trí Tuệ Nhân Tạo
Ngày nay công nghệ thông tin được ứng dụng trong hầu hết các lĩnh vực trong đời sống Bên cạnh những cách làm truyền thống cũng đã xuất hiện những kỹ thuật mới được áp dụng và đem lại hiệu quả đáng kể Với lượng thông tin lớn, với những bàitoán có độ phức tạp cao, vấn đề đặt ra là làm thế nào để phát hiện tri thức, đưa ra lời giải mà thời gian thực hiện có thể chấp
nhận được Trong 1 số kỹ thuật được sử dụng đó chính là Trí Tuệ Nhân Tạo.
Trí tuệ nhân tạo là trí thông minh của máy do con người tạo
ra Ngay từ khi chiếc máy tính điện tử đầu tiên ra đời, các nhà khoa học máy tính đã hướng đến phát hiển hệ thống máy tính (gồm cả phần cứng và phần mềm) sao cho nó có khả năng thông minh như loài người Mặc dù cho đến nay, theo quan
Trang 4niệm của người viết, ước mơ này vẫn còn xa mới thành hiện thực, tuy vậy những thành tựu đạt được cũng không hề nhỏ: chúng ta đã làm được các hệ thống (phần mềm chơi cờ vua chạy trên siêu máy tinh GeneBlue) có thể thắng được vua cờ thế giới; chúng ta đã làm được các phần mềm có thể chứng minh được các bài toán hình học; v.v Hay nói cách khác, trong một số lĩnh vực, máy tính có thể thực hiện tốt hơn hoặc tương đương con người (tất nhiên không phải tất cả các lĩnh vực) Đó chính là các hệ thống thông minh Có nhiều cách tiếp cận để làm ra trí thông minh của máy (hay là trí tuệ nhân tạo), chẳng hạn là nghiên cứu cách bộ não người sản sinh ra trí thông minh của loài người như thế nào rồi ta bắt chước nguyên lý đó, nhưngcũng có những cách khác sử dụng nguyên lý hoàn toàn khác vớicách sản sinh ra trí thông minh của loài người mà vẫn làm ra cáimáy thông minh như hoặc hơn người; cũng giống như máy bay hiện nay bay tốt hơn con chim do nó có cơ chế bay không phải
là giống như cơ chế bay của con chim Như vậy, trí tuệ nhân tạo
ở đây là nói đến khả năng của máy khi thực hiện các công việc
mà con người thường phải xử lý; và khi dáng vẻ ứng xử hoặc kếtquả thực hiện của máy là tốt hơn hoặc tương đương với con người thì ta gọi đó là máy thông minh hay máy đó có trí thông minh Hay nói cách khác, đánh giá sự thông minh của máy
không phải dựa trên nguyên lý nó thực hiện nhiệm vụ đó có giống cách con người thực hiện hay không mà dựa trên kết quả hoặc dáng vẻ ứng xử bên ngoài của nó có giống với kết quả hoặc dáng vẻ ứng xử của con người hay không Các nhiệm vụ của con người thường xuyên phải thực hiện là: giải bài toán (tìmkiếm, chứng minh, lập luận), học, giao tiếp, thể hiện cảm xúc, thích nghi với môi trường xung quanh, v.v., và dựa trên kết quả thực hiện các nhiệm vụ đó để kết luận rằng một ai đó có là thông minh hay không Môn học Trí tuệ nhân tạo nhằm cung cấp các phương pháp luận để làm ra hệ thống có khả năng thựchiện các nhiệm vụ đó: giải toán, học, giao tiếp, v.v bất kể cách
nó làm có như con người hay không mà là kết quả đạt được hoặc dáng vẻ bên ngoài như con người Trong môn học này, chúng ta sẽ tìm hiểu các phương pháp để làm cho máy tính biếtcách giải bài toán, biết cách lập luận, biết cách học, v.v
Trang 51.1 Cây Quyết Định
1.1.0 Giới thiệu chung.:
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quansát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiệnmột giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định
Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó[1] Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị
thuộc tính [1] Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một
phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụngmột số cây quyết định để có thể cải thiện tỉ lệ phân loại
Cây quyết định cũng là một phương tiện có tính mô tả dành choviệc tính toán các xác suất có điều kiện
Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại
và tổng quát hóa một tập dữ liệu cho trước
Dữ liệu được cho dưới dạng các bản ghi có dạng:
(x, y) = (x1, x2, x3 , xk, y)
Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa x1, x2, x3 là các biến
sẽ giúp ta thực hiện công việc đó
1.1.1 Các kiểu cây quyết định.
Cây hồi quy (Regression tree) ước lượng các hàm giá có giá trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại (ví dụ: ước tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện)
Cây phân loại (Classification tree), nếu y là một biến phân loại như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua)
Trang 6Ví dụ thực hành :
Ta sẽ dùng một ví dụ để giải thích về cây quyết định:
David là quản lý của một câu lạc bộ đánh golf nổi tiếng Anh ta đang có rắc rối chuyện các thành viên đến hay không đến Có ngày ai cũng muốn chơi golf nhưng số nhân viên câu lạc bộ lại không đủ phục vụ Có hôm, không hiểu vì lý do gì mà chẳng ai đến chơi, và câu lạc bộ lại thừa nhân viên
Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngàybằng cách dựa theo thông tin dự báo thời tiết để đoán xem khi nào người ta sẽ đến chơi golf Để thực hiện điều đó, anh cần hiểu được tại sao khách hàng quyết định chơi và tìm hiểu xem
có cách giải thích nào cho việc đó hay không
Vậy là trong hai tuần, anh ta thu thập thông tin về:
Trời (outlook) (nắng (sunny), nhiều mây (clouded) hoặc mưa (raining)) Nhiệt độ (temperature) bằng độ F Độ ẩm (humidity)
Có gió mạnh (windy) hay không
Và tất nhiên là số người đến chơi golf vào hôm đó David thu được một bộ dữ liệu gồm 14 dòng và 5 cột
Hình 2.1 Bảng dữ liệu chơi golfSau đó, để giải quyết bài toán của David, người ta đã đưa ra một mô hình cây quyết định
Trang 7Hình 2.2 cây quyết định Cây quyết định là một mô hình dữ liệu mã hóa phân bố của nhãn lớp (cũng là y) theo các thuộc tính dùng để dự đoán Đây
là một đồ thị có hướng phi chu trình dưới dạng một cây Nút gốc(nút nằm trên đỉnh) đại diện cho toàn bộ dữ liệu Thuật toán câyphân loại phát hiện ra rằng cách tốt nhất để giải thích biến phụ thuộc, play (chơi), là sử dụng biến Outlook Phân loại theo các giá trị của biến Outlook, ta có ba nhóm khác nhau: Nhóm người chơi golf khi trời nắng, nhóm chơi khi trời nhiều mây, và nhóm chơi khi trời mưa
Kết luận thứ nhất: nếu trời nhiều mây, người ta luôn luôn chơi golf Và có một số người ham mê đến mức chơi golf cả khi trời mưa
Tiếp theo, ta lại chia nhóm trời nắng thành hai nhóm con Ta thấy rằng khách hàng không muốn chơi golf nếu độ ẩm lên quá 70%
Cuối cùng, ta chia nhóm trời mưa thành hai và thấy rằng khách hàng sẽ không chơi golf nếu trời nhiều gió
Và đây là lời giải ngắn gọn cho bài toán mô tả bởi cây phân loại.David cho phần lớn nhân viên nghỉ vào những ngày trời nắng và
ẩm, hoặc những ngày mưa gió Vì hầu như sẽ chẳng có ai chơi golf trong những ngày đó Vào những hôm khác, khi nhiều người
sẽ đến chơi golf, anh ta có thể thuê thêm nhân viên thời vụ để phụ giúp công việc
Kết luận là cây quyết định giúp ta biến một biểu diễn dữ liệu phức tạp thành một cấu trúc đơn giản hơn rất nhiều
Trang 81.2 Các công thức dựng cây quyết định
1.2.1.Thuật giải Qui Lan
Dùng trong thuật toán CART (Classification and Regression
Trees) Nó dựa vào việc bình phương các xác suất thành viên cho mỗi thể loại đích trong nút Giá trị của nó tiến đến cực tiểu (bằng 0) khi mọi trường hợp trong nút rơi vào một thể loại đích duy nhất
Giả sử y nhận các giá trị trong {1, 2, , m} và gọi f(i,j) là tần xuất của giá trị j trong nút i Nghĩa là f(i,j) là tỷ lệ các bản ghi với y=j được xếp vào nhóm i
Hình 2.3 công thức Qui lan
1.2.2.Giải thuật ID3
Dùng trong các thuật toán sinh cây ID3, C4.5 và C5.0 Số đo này dựa trên khái niệm entropy trong lý thuyết thông tin
(information theory)
Hình 2.4 Công thức ID3
1.3.Ưu điểm của cây quyết định.
So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm:
Cây quyết định dễ hiểu Người ta có thể hiểu mô hình cây quyếtđịnh sau khi được giải thích ngắn
Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết Các kỹ thuật khác thường đòi hỏi chuẩn hóa dữliệu, cần tạo các biến phụ (dummy variable) và loại bỏ các giá trị rỗng
Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là tên thể loại Các kỹ thuật khác thường chuyên
để phân tích các bộ dữ liệu chỉ gồm một loại biến Chẳng hạn, các luật quan hệ chỉ có thể dùng cho các biến tên, trong khi mạng nơ-ron chỉ có thể dùng cho các biến có giá trị bằng số.Cây quyết định là một mô hình hộp trắng Nếu có thể quan sát một tình huống cho trước trong một mô hình, thì có thể dễ dànggiải thích điều kiện đó bằng logic Boolean Mạng nơ-ron là một
Trang 9ví dụ về mô hình hộp đen, do lời giải thích cho kết quả quá phứctạp để có thể hiểu được.
Có thể thẩm định một mô hình bằng các kiểm tra thống kê Điều này làm cho ta có thể tin tưởng vào mô hình
Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn Có thể dùng máy tính cá nhân để phân tích các
lượng dữ liệu lớn trong một thời gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây quyết định
PHẦN II: ỨNG DỤNG, Ý NGHĨA MỤC TIÊU ĐỀ TÀI
2.1.Ứng dụng:
Artificial Intelligent, hay trí thông minh nhân tạo được thể hiện bởi máy móc, có nhiều ứng dụng trong xã hội ngày nay Cụthể hơn, đó là Weak AI, một dạng AI nơi các chương trình được phát triển để thực hiện các nhiệm vụ cụ thể, đang được sử dụngcho một loạt các hoạt động bao gồm chẩn đoán y tế , nền tảng giao dịch điện tử , điều khiển robot và viễn thám AI đã được sửdụng để phát triển và phát triển nhiều lĩnh vực và ngành công nghiệp, bao gồm tài chính, y tế, giáo dục, giao thông vận tải, v.v
2.2.Nông nghiệp
Trong nông nghiệp, những tiến bộ AI mới giúp nâng cao suất và để gia tăng những nghiên cứu và phát triển cây trồng Trí thông minh nhân tạo có thể dự đoán thời gian cần thiết cho một loại cây trồng như dự báo thời gian chín do đó tăng hiệu quả canh tác Những tiến bộ về AI mới như Giám sát cây trồng
và đất, Robot nông nghiệp và Phân tích dự đoán Giám sát cây trồng và đất sử dụng các thuật toán và dữ liệu mới được thu
Trang 10thập trên đồng ruộng để quản lý và theo dõi sức khỏe của cây trồng làm cho nông dân dễ dàng và bền vững hơn
Nhiều chuyên ngành về AI trong nông nghiệp là một trong
những kỹ thuật như tự động hóa nhà kính , mô phỏng , mô hình hóa và tối ưu hóa
2.3 Khoa học máy tính
Các nhà nghiên cứu đã tạo ra nhiều công cụ để giải quyết các vấn đề khó khăn trong khoa học máy tính Nhiều phát minh của họ đã được khoa học máy tính chính thống áp dụng và đượccoi là một phần của AI: chia sẻ thời gian thực, phiên dịch tương tác , giao diện đồ họa người dùng , môi trường phát triển ứng dụng nhanh cấu trúc dữ liệu danh sách liên kết, quản lý lưu trữ
tự động, lập trình biểu tượng, lập trình chức năng, lập trình
động và lập trình hướng đối tượng
AI có thể được sử dụng để có khả năng xác định nhà phát triển nhị phân ẩn danh AI có thể được sử dụng để tạo ra AI khác Ví dụ: vào khoảng tháng 11 năm 2017, dự án AutoML của Google để phát triển các cấu trúc liên kết mạng thần kinh mới
đã tạo ra NASNet , một hệ thống được tối ưu hóa cho ImageNet
và COCO Theo Google, hiệu suất của NASNet vượt quá tất cả hiệu suất ImageNet được công bố trước đó
2.4.Giáo dục
Gia sư AI có thể cho phép sinh viên nhận thêm trợ giúp.Các thiết bị học tập có thể tạo ra các bài học, câu hỏi và tròchơi để phù hợp với nhu cầu của học sinh cụ thể và đưa ra phảnhồi ngay lập tức Nhưng AI cũng có thể tạo ra một môi trườngbất lợi với các hiệu ứng không mong muốn tiêu cực và khônglường trước cho xã hội Ví dụ về việc sử dụng công nghệ mở
Trang 11rộng có thể cản trở khả năng tập trung và tư duy của sinh viênthay vì giúp họ học hỏi và phát triển
2.5.Tài chính
Giao dịch tiền thuật toán liên quan đến việc sử dụng các
hệ thống AI phức tạp để đưa ra quyết định giao dịch với tốc độlớn hơn nhiều bậc so với bất kỳ con người nào có khả năng,thường thực hiện hàng triệu giao dịch trong một ngày mà khôngcần sự can thiệp của con người Giao dịch như vậy được gọi làGiao dịch cao tần và nó đại diện cho một trong những lĩnh vựcphát triển nhanh nhất trong giao dịch tài chính Nhiều ngânhàng, quỹ và các công ty thương mại độc quyền hiện có toàn bộdanh mục đầu tư được quản lý hoàn toàn bởi các hệ thống AI
Một số tổ chức tài chính lớn đã đầu tư vào các công cụ AI
để hỗ trợ thực hành đầu tư của họ Công cụ AI của BlackRock ,Aladdin, được sử dụng cả trong công ty và khách hàng để giúpđưa ra quyết định đầu tư Nhiều chức năng của nó bao gồm việc
sử dụng xử lý ngôn ngữ tự nhiên để đọc văn bản như tin tức,báo cáo môi giới và nguồn cấp dữ liệu truyền thông xã hội Sau
đó, nó đánh giá tình cảm của các công ty được đề cập và chỉđịnh một số điểm Các ngân hàng như UBS và Deutsche Bank
sử dụng một công cụ AI có tên Sqreem (Mô hình khai thác vàgiảm lượng tử tuần tự) có thể khai thác dữ liệu để phát triển hồ
sơ người tiêu dùng và kết hợp chúng với các sản phẩm quản lýtài sản mà họ mong muốn nhất
Một số sản phẩm đang nổi lên sử dụng AI để hỗ trợ mọingười về tài chính cá nhân Ví dụ, Digit là một ứng dụng đượccung cấp bởi trí tuệ nhân tạo, tự động giúp người tiêu dùng tối
Trang 12ưu hóa chi tiêu và tiết kiệm dựa trên thói quen và mục tiêu cánhân của chính họ Ứng dụng có thể phân tích các yếu tố nhưthu nhập hàng tháng, số dư hiện tại và thói quen chi tiêu, sau
đó tự đưa ra quyết định và chuyển tiền vào tài khoản tiết kiệm
Robot cố vấn đang trở nên được sử dụng rộng rãi hơntrong ngành quản lý đầu tư Robo-cố vấn cung cấp tư vấn tàichính và quản lý danh mục đầu tư với sự can thiệp tối thiểu củacon người Nhóm cố vấn tài chính này hoạt động dựa trên cácthuật toán được xây dựng để tự động phát triển danh mục đầu
tư tài chính theo mục tiêu đầu tư và khả năng chịu rủi ro củakhách hàng Nó có thể điều chỉnh theo những thay đổi thời gianthực trên thị trường và theo đó hiệu chỉnh danh mục đầu tư
2.6 Y tế
Tại các nước đang phát triển trên thế giới vẫn còn sự bấtbình đẳng giữa các dịch vụ y tế ở thành thị và nông thôn, trong
đó sự thiếu hụt bác sĩ là nguyên nhân chính Một số nghiên cứu
đã chỉ ra rằng việc áp dụng các kỹ thuật y tế hỗ trợ máy tínhhoặc AI có thể cải thiện kết quả chăm sóc sức khỏe ở khu vựcnông thôn của các nước đang phát triển
Hiện nay, lượng thông tin y khoa đã tăng gấp đôi cứ saumỗi 3 năm Người ta ước tính rằng nếu một bác sĩ muốn cậpnhật toàn bộ thông tin y khoa thì phải đọc 29 giờ mỗi ngày.Ngoài ra, nguồn dữ liệu lớn (big data), bao gồm các dữ liệu từ
hồ sơ sức khoẻ điện tử (EHR), các dữ liệu “omic” - dữ liệu về ditruyền học (genomics), dữ liệu về chuyển hóa (metabolomics)
và dữ liệu về protein (proteomics), và dữ liệu về xã hội học vàlối sống là những nguồn dữ liệu sẽ không có ích nếu không được