1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp xếp hạng kết quả tìm kiếm trên cơ sở dữ liệu bệnh viện

11 389 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 11
Dung lượng 405,12 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRẦN VĂN HIỆP NGHIÊN CỨU PHƯƠNG PHÁP XẾP HẠNG KẾT QUẢ TÌM KIẾM TRÊN CƠ SỞ DỮ LIỆU BỆNH VIỆN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC

Trang 1

TRẦN VĂN HIỆP

NGHIÊN CỨU PHƯƠNG PHÁP XẾP HẠNG KẾT QUẢ TÌM

KIẾM TRÊN CƠ SỞ DỮ LIỆU BỆNH VIỆN

Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin

Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Trí Thành

Hà Nội - 2015

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Nghiên cứu phương pháp xếp hạng kết quả tìm kiếm trên cơ sở dữ liệu bệnh viện” là công trình nghiên cứu của tôi Những kiến thức

trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trình bày lại theo cách hiểu Trong quá trình làm luận văn, tôi có tham khảo các tài liệu có liên quan và đã ghi rõ nguồn tài liệu tham khảo

Hà Nội, ngày tháng năm 2015

Học viên

Trần Văn Hiệp

Trang 3

LỜI CẢM ƠN

Lời đầu tiên, em xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Nguyễn Trí Thành - Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội đã trực tiếp hướng dẫn và tận tình giúp đỡ em trong suốt thời gian thực hiện luận văn

Em xin gửi lời cảm ơn chân thành tới toàn thể các thầy cô giáo trong Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội đã dạy dỗ, giúp đỡ và chỉ bảo cho em trong suốt quá trình học tập

Cuối cùng, em xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè, đồng nghiệp, những người đã luôn bên cạnh em để động viên, giúp đỡ và tạo điều kiện tốt nhất để

em có thể hoàn thành luận văn

Hà Nội, ngày tháng năm 2015

Học viên

Trần Văn Hiệp

Trang 4

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

MỤC LỤC 3

DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Error! Bookmark not defined DANH MỤC CÁC HÌNH VẼ Error! Bookmark not defined DANH MỤC CÁC BẢNG BIẾU Error! Bookmark not defined MỞ ĐẦU 5

CHƯƠNG 1:TỔNG QUAN VỀ BÀI TOÁN TÌM KIẾM TRÊN CƠ SỞ DỮ LIỆU BỆNH VIỆN 6

1.1 Tổng quan 6

1.1.1 Giới thiệu 6

1.1.2 Ý nghĩa khoa học và thực tiễn 7

1.1.3 Tầm quan trọng 7

1.1.4 Mục đích 7

1.2 Truy tìm thông tin 8

1.2.1 Hệ thống tìm kiếm thông tin 8

1.2.2 Các hệ thống thông tin khác 9 1.2.3 Các mô hình tìm kiếm thông tin Error! Bookmark not defined

1.2.4 Xếp hạng tài liệu Error! Bookmark not defined

1.3 Kết luận Error! Bookmark not defined

CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP XẾP HẠNG Error! Bookmark not defined

2.1 Một số phương pháp tìm kiếm Error! Bookmark not defined

2.1.1 Mô hình tìm kiếm Boolean Error! Bookmark not defined

2.1.2 Tìm kiếm tương tự Error! Bookmark not defined

2.1.3 Độ đo tương tự Cosine Error! Bookmark not defined

2.2 Một số phương pháp xếp hạng Error! Bookmark not defined

2.2.1 Phương pháp xếp hạng dựa trên cấu trúc Error! Bookmark not defined

2.2.2 Phương pháp dựa trên nội dung Error! Bookmark not defined

2.2.2.1 Phương pháp xếp hạng Cosine Error! Bookmark not defined

Trang 5

2.2.2.2 Phương pháp xếp hạng Cosine Short SegmentsError! Bookmark not

defined

2.2.2.3 Phương pháp xếp hạng Dice Error! Bookmark not defined

2.2.2.4 Phương pháp xếp hạng Jaccard Error! Bookmark not defined

2.2.2.5 Phương pháp xếp hạng Matching Error! Bookmark not defined

2.2.2.6 Phương pháp Overlap Error! Bookmark not defined

2.3 Kết luận Error! Bookmark not defined

CHƯƠNG 3: ĐỀ XUẤT CẢI TIẾN PHƯƠNG PHÁP XẾP HẠNGError! Bookmark not defined

3.1 Bài toán ứng dụng Error! Bookmark not defined

3.1.1 Giới thiệu bài toán Error! Bookmark not defined

3.1.2 Mô tả chi tiết Error! Bookmark not defined

3.1.3 Chức năng tìm kiếm chẩn đoán Error! Bookmark not defined

3.1.4 Mô hình hệ thống tìm kiếm Error! Bookmark not defined

3.2 Phương pháp đề xuất Error! Bookmark not defined

3.3 N-gram và áp dụng Error! Bookmark not defined

3.4 Kết luận Error! Bookmark not defined

CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ Error! Bookmark not defined

4.1 Dữ liệu thực nghiệm và phương pháp đánh giáError! Bookmark not

defined

4.1.1 Chuẩn bị dữ liệu thực nghiệm Error! Bookmark not defined

4.1.2 Phương pháp đánh giá kết quả tìm kiếm Error! Bookmark not defined

4.2 Một số kết quả khi chạy chương trình Error! Bookmark not defined

4.2.1 Kết quả khi chạy các phương pháp xếp hạng khác nhau cho cùng một truy

vấn trên tập dữ liệu các loại bệnh Error! Bookmark not defined.

4.2.1.1 Kết quả tìm kiếm Error! Bookmark not defined

4.2.1.2 Kết quả các phương pháp xếp hạng Error! Bookmark not defined

4.2.2 Kết quả khi đánh giá các phương pháp với các truy vấn khác nhau Error!

Bookmark not defined

4.3 Kết luận Error! Bookmark not defined

KẾT LUẬN Error! Bookmark not defined

TÀI LIỆU THAM KHẢO 10

Trang 6

MỞ ĐẦU

Tin học ngày càng phát triển, thay vì việc hàng ngày phải viết thông tin hồ sơ lên giấy, thông tin đó dần dần được số hóa và lưu trữ trên máy tính dưới dạng cơ sở dữ liệu thông qua ứng dụng tin học Lợi ích của việc số hóa là dữ liệu được lưu trữ và quản lý tốt hơn, tra cứu, trích xuất thông tin dễ dàng hơn Thông tin hồ sơ được số hóa ngày càng nhiều vấn đề đặt ra để tìm kiếm thông tin trong tập hồ sơ hàng nghìn thậm trí đến hàng triệu triệu một cách nhanh nhất, hiệu quả nhất đòi hỏi ứng dụng tin học cần phải xây dựng các giải thuật tìm kiếm tối ưu nhất đảm bảo tốc độ tìm kiếm và giá trị người dùng cần

Đối với lĩnh vực tìm kiếm thông tin, mỗi khi người dùng tìm kiếm sẽ thu được kết quả phù hợp hoặc không có kết quả, nếu kết quả trả về là một lượng lớn giá trị phù hợp, người dùng khó có thể dò tìm từng kết quả để tìm ra nhanh nhất kết quả mình muốn tìm Theo tâm lý thông thường người dùng chỉ xem qua vài chục bản ghi đầu tiên và không đủ thời gian để xem tất cả các kết quả trả về Do đó xếp hạng là kỹ thuật đánh giá giá trị từng kết quả trong tập dữ liệu trả về, xếp hạng độ quan trọng để người dùng dễ dàng nhìn thấy giá trị phù hợp mong muốn

Có rất nhiều hệ thống tìm kiếm cần đến kỹ thuật xếp hạng để cung cấp cho người dùng có thể tìm thấy các tài liệu của mình nhanh nhất và xếp nó ở ngay đầu tiên và nhu cầu hệ thống tìm kiếm trên cơ sở dữ liệu bệnh viện cũng cần tới nó Đề tài nghiên cứu hướng tới các phương pháp xếp hạng Trên cơ sở tìm hiểu nắm vững các phương pháp xếp hạng và vận dụng vào việc tìm kiếm xếp hạng trên cơ sở dữ liệu bệnh viện

Bố cục của luận văn gồm 4 chương:

Chương 1 Tổng quan về bài toán tìm kiếm trên cơ sở dữ liệu bệnh viện trình

bày tổng quan về bài toán tìm kiếm trên cơ sở dữ liệu bệnh viện

Chương 2 Một số phương pháp xếp hạng trình bày về các phương pháp xếp hạng,

áp dụng công thức cũng như ví dụ minh họa thực nghiệm cho các phương pháp đó

Chương 3 Đề xuất cải tiến phương pháp xếp hạng trình bày về bài toán ứng

dụng áp dụng phương pháp xếp hạng, cách thức cải tiến phương pháp xếp hạng để đạt được kết quả xếp hạng tốt hơn

Chương 4 Thực nghiệm và đánh giá thực thi chương trình tìm kiếm áp

dụng các phương pháp xếp hạng với số liệu thu thập được, so sánh kết quả từng phương pháp Đánh giá kết quả các phương pháp để chọn ra được phương pháp xếp hạng tốt nhất

Trang 7

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN TÌM KIẾM TRÊN CƠ SỞ DỮ

LIỆU BỆNH VIỆN 1.1 Tổng quan

1.1.1 Giới thiệu

Hiện nay, việc tạo ra những sản phẩm Tin Học mang tính đặc thù của Việt Nam là một điều cần phải được quan tâm, đặc biệt là các phần mềm mang lại hiệu quả làm việc trong các hoạt động mang tính hành chính Việc quản lý số lượng lớn bệnh nhân thông qua hồ sơ bệnh án, theo dõi tiến trình luân chuyển hồ sơ, cũng như việc thống kê

y tế là một trong những công việc hành chính sự vụ đó Một số bệnh viện có khối lượng bệnh nhân lớn là những nơi đang rất cần những công cụ hỗ trợ của Tin học một phần trong những công cụ đó là ứng dụng tìm kiếm dữ liệu

Mỗi khi người dùng tìm kiếm sẽ thu được kết quả phù hợp hoặc không có kết quả, nếu kết quả trả về là một lượng lớn giá trị phù hợp, người dùng khó có thể dò tìm từng kết quả để tìm ra nhanh nhất kết quả mình muốn tìm Theo tâm lý thông thường người dùng chỉ xem qua vài chục bản ghi đầu tiên và không đủ thời gian để xem tất cả các kết quả trả về Do đó xếp hạng là kỹ thuật đánh giá giá trị từng kết quả trong tập dữ liệu trả về, xếp hạng độ quan trọng để người dùng dễ dàng nhìn thấy giá trị phù hợp mong muốn Vì vậy đề tài nghiên cứu hướng tới các phương pháp xếp hạng, đánh giá chọn ra phương pháp nào thực sự tốt nhất Trên cơ sở tìm hiểu nắm vững các phương pháp xếp hạng và vận dụng vào việc tìm kiếm trên cơ sở dữ liệu bệnh viện, điển hình

là bài toán xếp hạng chẩn đoán theo danh mục bệnh tật quốc tế

Thông thường việc ghi chẩn đoán đúng có tầm quan trọng như sau:

 Quan trọng cho chính thầy thuốc Giúp thầy thuốc phát triển tư duy, tích cực suy nghĩ lựa chọn chẩn đoán theo logic (Ví dụ: chẩn đoán tử vong một cách lười biếng “Sốc không hồi phục” Phải suy nghĩ tìm nguyên nhân) Tăng trình độ biện luận lâm sàng và trình độ chuyên môn

Trong tương quan giữa thầy thuốc và người bệnh Giúp thầy thuốc lưu tâm

tìm hiểu người bệnh nhiều hơn và có thêm cơ hội suy nghĩ đến người bệnh, nhất là người bệnh tử vong trong tay mình Thể hiện y đức vì người bệnh hơn là vì bệnh

Trong tương quan giữa thầy thuốc và khoa học Thầy thuốc ghi chẩn đoán

đúng - thống nhất theo danh mục và mã số bệnh tật quốc tế sẽ là đóng góp lớn cho khoa học, vì: ghi chẩn đoán đúng sẽ là những dữ liệu có giá trị trong nghiên cứu khoa học Rất quan trọng trong thời đại Công Nghệ Thông Tin

Trang 8

 Trong tương quan giữa thầy thuốc và ngành y tế Đóng góp lớn cho công tác lưu trữ, báo cáo, thống kê một cách chính xác giúp ngành y tế: Nắm đúng mô hình bệnh tật và tử vong của địa phương Nắm đúng và kịp thời những vấn đề liên quan đến sức khỏe mà xã hội đang quan tâm Từ đó xây dựng được tốt hơn những chương trình, dự án phòng bệnh, chống bệnh và chăm sóc sức khỏe

Nhận thấy vấn đề chẩn đoán đúng bệnh và tầm quan trọng trong việc ghi chẩn đoán đúng là rất quan trọng Đề tài nghiên cứu, cài đặt, đánh giá các phương pháp xếp hạng dựa trên dữ liệu chẩn đoán theo danh mục bệnh tật quốc tế lựa chọn phương pháp xếp hạng tốt nhất vận dụng cho việc tìm kiếm chẩn đoán đúng bệnh

Xét trên dữ liệu chẩn đoán với dữ liệu là các bản ghi danh mục bệnh tật quốc tế

là những câu hay đoạn (ngắn), đề tài lựa chọn phương pháp xếp hạng để xác định

độ tương đồng giữa các câu hay đoạn, sau đó chọn ra câu hay đoạn có độ liên quan lớn nhất

1.1.2 Ý nghĩa khoa học và thực tiễn

Ý nghĩa khoa học:

Đề tài nghiên cứu các phương pháp xếp hạng, đánh giá kết quả tìm kiếm trên cơ sở

dữ liệu bệnh viện

Ý nghĩa thực tiễn:

Ứng dụng nhằm trợ giúp đáp ứng được nhu cầu tìm kiếm cho người sử dụng tìm kiếm thông tin dễ dàng nhìn thấy giá trị phù hợp mong muốn

1.1.3 Tầm quan trọng

Kết quả xếp hạng giảm dần thứ tự độ quan trọng của chẩn đoán để người dùng dễ dàng nhìn thấy chẩn đoán phù hợp, nâng cao chất lượng khám chữa bệnh, có thể kết luận được ngay từ thời kì đầu của quá trình bệnh rất có lợi cho điều trị và phòng bệnh Đưa ra những hướng điều trị, đặt ra những giai đoạn điều trị và có thể đưa ra thêm những thông tin về bệnh

1.1.4 Mục đích

Mục đích của đề tài là tìm hiểu các phương pháp xếp hạng, cài đặt, đánh giá, thực nghiệm các phương pháp xếp hạng lựa chọn phương pháp xếp hạng phù hợp vận dụng tốt nhất trong bài toán tìm kiếm trên cơ sở dữ liệu bệnh viện Để đạt được mục đích đề

ra đề tài cần nghiên cứu:

Trang 9

Về mặt lý thuyết: Tìm hiểu kiến thức về tìm kiếm thông tin, xếp hạng trong hệ

thống tìm kiếm thông tin, các phương pháp xếp hạng tài liệu, tiêu chí đánh giá kết quả xếp hạng

Về mặt thực nghiệm: Cài đặt, đánh giá các phương pháp xếp hạng và chọn lựa thực

nghiệm được phương pháp xếp hạng tốt nhất

1.2 Truy tìm thông tin

1.2.1 Hệ thống tìm kiếm thông tin

Từ những năm 1940, vấn đề lưu trữ và truy tìm thông tin [1] đã thu hút sự chú ý của các nhà nghiên cứu Hệ thống tìm kiếm đang trở nên cần thiết, vấn đề đó là: chúng

ta có một lượng thông tin rất lớn, yêu cầu truy tìm thông tin một cách chính xác và nhanh chóng

“Sự phù hợp”, đó là khái niệm trung tâm của truy tìm thông tin Mục đích của một chiến lược truy tìm tự động là truy tìm tất cả các tài liệu phù hợp ở cùng thời điểm truy tìm, có thể bao gồm một vài tài liệu không thỏa mãn Tìm ra các đặc trưng của tài liệu để khi tài liệu phù hợp với truy vấn, nó cho phép tài liệu được truy tìm để trả lời truy vấn

Mục đích của hệ thống tìm kiếm thông tin là trả về các thông tin liên quan nhất đến nhu cầu thông tin của người dùng Nhu cầu thông tin của người dùng ở đây có thể xem như một câu truy vấn Thông tin liên quan ở đây có thể là một câu, một đoạn mà

ta gọi chung là tài liệu

Hệ thống tìm kiếm thông tin thường gặp phải vấn đề sự khác biệt giữa câu truy vấn và tài liệu Một ví dụ là câu truy vấn thì ngắn (có thể là hai từ và thậm chí các từ này là những từ không thông dụng) trong khi tài liệu thì rất nhiều Để khắc phục vấn

đề này các hệ thống tìm kiếm thông tin thường tạo ra các hàm biểu diễn để xử lý câu truy vấn và dữ liệu khác nhau sau đó áp dụng phương pháp xếp hạng để xếp hạng kết quả trả về

Hệ thống tìm kiếm thông tin gồm có 3 bộ phận chính: bộ phận phân tích văn bản,

bộ phận lập chỉ mục, bộ phận so khớp và sắp xếp các tài liệu trả về

 Bộ phận phân tích văn bản bộ phận này có nhiệm vụ phân tích các văn bản thu thập được thành các từ riêng biệt Tương tự, khi người dùng nhập câu truy vấn thì câu truy vấn cũng được phân tích thành các từ riêng biệt

 Bộ phận lập chỉ mục: các từ trích được từ các văn bản thu thập được sẽ được

bộ phận này lựa chọn để làm các từ chỉ mục Các từ chỉ mục phải là các từ

Trang 10

thể hiện được nội dung của văn bản Hai bộ phận phân tích văn bản và lập chỉ mục thường đi liền với nhau và thường chỉ gọi là bộ phận lập chỉ mục

 Bộ phận so khớp và sắp xếp các tài liệu trả về: Các từ trích được từ câu truy vấn và các từ chỉ mục của văn bản sẽ được so khớp với nhau để tìm ra các tài liệu liên quan đến câu truy vấn Mỗi tài liệu có một độ tương quan với câu truy vấn Các tài liệu này sẽ được sắp xếp theo độ tương quan giảm dần

và trả về cho người sử dụng

1.2.2 Các hệ thống thông tin khác

Hiện nay các hệ thống thông tin quan trọng nhất là: hệ quản trị cơ sở dữ liệu (DBMS), hệ quản lý thông tin (MIS), hệ hỗ trợ ra quyết định (DSS), hệ trả lời câu hỏi (QAS) và hệ tìm kiếm thông tin (IR) Việc hiểu biết sự khác nhau giữa hệ thống tìm kiếm thông tin và các hệ thống thông tin khác giúp ta hiểu rõ các kỹ thuật tìm kiếm văn bản

 Hệ quản trị cơ sở dữ liệu (DBMS) DBMS đơn giản là một hệ thống được thiết kế nhằm thao tác và duy trì điều khiển cơ sở dữ liệu DBMS tổ chức các dữ liệu của mình dưới dạng các bảng Mỗi một cơ sở dữ liệu được lưu trữ thành nhiều bảng khác nhau Mỗi một cột trong bảng là một thuộc tính, mỗi một dòng là một bộ dữ liệu cụ thể Trong mỗi một bảng có một thuộc tính duy nhất đại diện cho bảng, nó không được trùng lặp và ta gọi

đó là khóa chính Các bảng có mối liên hệ với nhau thông qua các khóa ngoại DBMS có một tập các lệnh để hỗ trợ cho người sử dụng truy vấn đến dữ liệu của mình Vì vậy muốn truy vấn đến cơ sở dữ liệu trong hệ quản trị cơ sở dữ liệu ta phải học hết các tập lệnh này Nhưng ngược lại

nó sẽ cung cấp cho ta các dữ liệu đầy đủ và hoàn toàn chính xác Hiện nay DBMS được sử dụng rộng rãi trên thế giới Một số DBMS thông dụng như: Access, SQL Server, Oracle

 Hệ quản lý thông tin (IMS): IMS là DBMS nhưng có thêm nhiều chức năng

về việc quản lý Những chức năng này phụ thuộc vào giá trị của nhiều kiểu

dữ liệu khác nhau Nói chung bất kỳ hệ thống nào có mục đích đặc biệt phục

vụ cho việc quản lý thì ta gọi là IMS

 Hệ hỗ trợ ra quyết định (DSS): DSS sẽ dựa vào các tập luật được học, từ những luật đã học rút ra những luật mới, sau khi gặp một vấn đề nó sẽ căn cứ vào tập các luật để đưa ra những quyết định thay cho con người

Hệ thống này đang được áp dụng nhiều cho công việc nhận dạng và chẩn đoán bệnh

Ngày đăng: 28/08/2016, 10:18

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w