TỔNG QUAN
Đặt vấn đề
Việc tìm kiếm và xác định chuyên gia là nhu cầu tồn tại từ lâu, nhưng trước đây chỉ có con người mới có khả năng thực hiện các nhiệm vụ này Máy tính gặp khó khăn trong việc hiểu được chuyên môn của một cá nhân cũng như nội dung của văn bản để tiến hành so sánh và phân tích.
Hiện nay, với sự tiến bộ của phương pháp truy hồi thông tin (IR), việc áp dụng thuật toán tìm kiếm tự động đang trở nên khả thi Tuy nhiên, vẫn còn nhiều khía cạnh chưa được nghiên cứu sâu và hiệu quả của việc tìm kiếm chuyên gia bằng công cụ tự động vẫn chưa đạt được kết quả cao.
Nhiều nhà nghiên cứu khoa học máy tính hiện nay đang tập trung vào lĩnh vực tìm kiếm chuyên gia Chúng tôi cũng quan tâm đến nghiên cứu này và muốn thực hiện một nghiên cứu đầu tiên về sự tương đồng chuyên môn giữa các giáo viên bộ môn Tin học tại Trường đại học Lâm nghiệp Cụ thể, chúng tôi nhận thấy rằng mặc dù các giáo viên có chuyên môn tương đồng, sự khác biệt giữa hai thầy cô là rõ rệt Mục tiêu của chúng tôi là phát triển một thuật toán có khả năng xác định mức độ tương đồng chuyên môn giữa các giáo viên với độ chính xác nhất định.
Sau khi phân tích và được sự đồng ý của giáo viên Trần Hồng Diệp cùng sự công nhận của nhà trường, tôi đã được giao đề tài nghiên cứu.
Xây dựng thuật toán đánh giá sự gần gũi về chuyên môn giữa các giáo viên bộ môn Tin học Trường đại học Lâm Nghiệp”.
Mục đích
- Tìm hiểu về IR nói chung và các phương pháp ER nói riêng
- Đƣa ra đƣợc một thuật toán mới
- Kiểm định, kiểm thử sản phẩm
- Thu đƣợc kinh nghiệm làm nghiên cứu khoa học và nghiên cứu độc lập
Đối tƣợng và phạm vi nghiên cứu
- Đối tượng: Giáo viên bộ môn tin học Trường đại học Lâm Nghiệp
Phạm vi nghiên cứu tập trung vào việc xây dựng thuật toán dựa trên bộ dữ liệu của bộ môn Tin học tại Trường đại học Lâm nghiệp Mục tiêu chính là xác định sự tương đồng giữa các chuyên môn trong lĩnh vực này.
Phương pháp nghiên cứu
- Nghiên cứu thử nghiệm phương pháp đã được đề xuất trong luận văn
Mục tiêu
- Có đƣợc một thuật toán mới
- Áp dụng cho các trường hợp đo đếm sự gần gũi giữa các giáo viên
- Có bộ dữ liệu để thử nghiệm
- Đƣa ra đƣợc sản phẩm demo
- Có thêm kinh nghiệm sau khi thực hiện xong
CƠ SỞ LÝ THUYẾT
Truy hồi thông tin ( Information Retrieval ) và tìm kiếm chuyên gia (ER)
Việc tìm kiếm chuyên gia đã là một vấn đề đƣợc sinh ra trong khoảng gần
Trong suốt 20 năm qua, hệ thống tự động đã được đề xuất để giải quyết các vấn đề cụ thể, nhờ vào sự tiến bộ của công nghệ thông tin và các kỹ thuật liên quan đến kiến thức Sự phát triển này cho phép máy tính tự động hóa quá trình định vị chuyên môn, biến điều này thành hiện thực Thập kỷ qua đã chứng kiến sự quan tâm lớn đối với việc tìm kiếm chuyên gia, điều này trở thành một phần không thể thiếu trong cuộc sống hiện đại.
Chúng ta tìm kiếm chuyên gia khi cần tư vấn về một lĩnh vực cụ thể, nhưng chỉ có những người cùng chuyên môn mới thật sự hiểu được giá trị của họ Trong thời đại công nghệ thông tin hiện nay, việc tìm kiếm chuyên gia có thể thực hiện tự động, giúp người tổ chức hội nghị, nhà tuyển dụng và chuyên gia tư vấn dễ dàng kết nối với nhau Nghiên cứu từ những năm 1960 đã chỉ ra rằng việc chia sẻ chuyên môn giữa các công nhân tri thức như nhà nghiên cứu và kỹ sư là rất quan trọng Chiến lược tìm kiếm thông tin phức tạp dựa trên nhiều nguồn khác nhau, bao gồm cả chuyên gia, đã được xác định là cần thiết Kết quả nghiên cứu cho thấy rằng chuyên môn của nhân viên là tài sản quý giá của tổ chức, và việc chia sẻ kiến thức hiệu quả có thể mang lại lợi ích kinh tế đáng kể.
Theo nghiên cứu độc lập của Vanson Bourne, chỉ 55% nhân viên phục vụ chuyên nghiệp tại 170 cơ quan ở Vương quốc Anh cảm thấy đáp ứng được nhu cầu thông tin hiện tại Nghiên cứu này đã khảo sát hơn 1.000 nhân viên, cho thấy một khoảng cách đáng kể trong khả năng cung cấp thông tin hiệu quả.
27 phần trăm nhân viên khu vực có thể định vị chuyên gia bằng cách sử dụng hệ thống tìm kiếm doanh nghiệp.
Những thách thức trong tìm kiếm chuyên gia
Tìm kiếm chuyên gia là một nhiệm vụ khó khăn do chuyên môn thường được xác định một cách lỏng lẻo và khó chính thức hóa Điều này trái ngược với kiến thức rõ ràng đã được ghi chép và lưu trữ Để cải thiện hệ thống tìm kiếm chuyên gia, cần phải dựa vào những kiến thức tường minh rõ ràng Một số thách thức điển hình trong quá trình này bao gồm việc xác định đúng chuyên môn và khả năng tiếp cận thông tin.
Bằng chứng chuyên môn có thể không đồng nhất từ các nguồn thông tin khác nhau Chẳng hạn, khi tìm kiếm bác sĩ chuyên về bệnh tim trên Google, người dùng khó có thể tìm ra bác sĩ phù hợp với nhu cầu của mình.
Mỗi chuyên gia đều có quan điểm riêng, dẫn đến sự khó khăn trong việc đạt được sự đồng thuận Chẳng hạn, trong một nghiên cứu, hai giáo sư có thể đưa ra những ý kiến trái ngược, điều này cho thấy sự đa dạng trong cách tiếp cận và phân tích vấn đề.
Định danh không chính quy gây ra sự nhập nhằng trong việc nhận diện tác giả, khi một tác giả có thể viết 100 bài báo nhưng chỉ để tên thật trong 50 bài, trong khi 50 bài còn lại lại sử dụng tên bí danh.
- Dữ liệu lấy trên mạng thì nó khác nhau từ cấu trúc, từ các nguồn khác nhau rất khó đồng nhất.
Mục tiêu của việc tìm kiếm thông tin
Mục tiêu của việc tìm kiếm thông tin là kết nối con người với các lĩnh vực chuyên môn Nghiên cứu về tìm kiếm chuyên gia chủ yếu tập trung vào việc xác định các chủ đề phù hợp giữa nhu cầu chuyên môn và nội dung tài liệu liên quan đến các chuyên gia.
Tìm kiếm chuyên môn là quá trình kết nối con người với các lĩnh vực chuyên môn từ góc độ lấy con người làm trung tâm, tập trung vào cách mọi người tìm kiếm kiến thức trong bối cảnh nhiệm vụ cụ thể Nghiên cứu về tìm kiếm chuyên môn chủ yếu nhằm tối ưu hóa việc sử dụng kiến thức trong tổ chức Gần đây, nhiều nghiên cứu đã kết hợp hiểu biết từ tìm kiếm thông tin và tìm kiếm chuyên môn, trong đó nội dung từ tìm kiếm thông tin được tích hợp với các yếu tố quyết định của chuyên gia như khả năng tiếp cận và độ tin cậy.
Hai nhiệm vụ chính của tìm kiếm chuyên gia
2.4.1 Thiết lập hồ sơ chuyên gia:
Tìm kiếm chuyên gia bắt đầu từ câu hỏi về chuyên môn của nhà nghiên cứu Để trả lời, cần xây dựng hồ sơ chuyên gia bằng cách trích xuất dữ liệu liên quan đến lĩnh vực và chủ đề của họ để phân tích và so sánh Có nhiều loại chuyên gia với các bằng chứng chuyên môn khác nhau; ví dụ, một gram pro theo chủ đề sẽ bao gồm tất cả ấn phẩm liên quan đến hoạt động chuyên môn trong các dự án xã hội Hồ sơ chuyên gia thường được trình bày dưới dạng vectơ thuật ngữ, đại diện cho kiến thức và được phân tích theo các yếu tố kiến thức cơ bản Để tìm kiếm chuyên gia, cần xác định và đo lường mức độ chuyên môn trên từng kiến thức cơ bản Lượng kiến thức sử dụng ảnh hưởng đến độ chính xác và hiệu quả của hệ thống; quá ít kiến thức có thể dẫn đến sự thiếu đại diện cho chuyên môn, trong khi quá nhiều kiến thức có thể gây phức tạp trong các phép tính.
Việc xác định không gian nghiên cứu là rất quan trọng và thường dựa vào cơ sở dữ liệu thư mục, nhưng những dữ liệu này thường không đồng nhất và không phải lúc nào cũng có sẵn trong tất cả các lĩnh vực khoa học Chẳng hạn, Liang et al (2011) đã đề cập đến mạng tuyển tập ACL Anthology Network như một ví dụ.
ACL được xem như một mẫu dữ liệu quan trọng cho mô hình đề xuất xuất bản Khi xác định khu vực tìm kiếm, việc áp dụng mô hình chuyên gia và ước tính chuyên môn cho từng khía cạnh khảo sát là rất cần thiết và phụ thuộc vào loại chuyên môn được sử dụng Balog et al (2012) đã trình bày tổng quan về các phương pháp khác nhau, mỗi phương pháp dựa trên một bộ bằng chứng cụ thể và áp dụng mô hình hóa cùng đo lường độ tương tự Tương tự, Cabanac (2011) đã sử dụng các mệnh đề từ bài báo như bằng chứng và mô hình chuyên gia dưới dạng điểm cuối, với chuyên môn được xây dựng dựa trên giá trị của từng thuật ngữ.
Trong việc tìm kiếm các chuyên gia, cần xác định mức độ chuyên môn của các ứng cử viên để phân loại họ Có nhiều phương pháp đo lường sức mạnh của liên kết giữa một chủ đề và ứng cử viên, chẳng hạn như dựa vào số lượng bài báo trong một hội nghị để đánh giá mức độ tương tác của nhà nghiên cứu Bằng chứng chuyên môn chủ yếu đến từ các ấn phẩm khoa học, bao gồm các bài báo mà chuyên gia đã viết, đọc hoặc trích dẫn Các hoạt động chuyên môn như hợp tác với đồng nghiệp, tham gia hội nghị cũng là bằng chứng cho mối liên kết theo chủ đề Việc mô hình hóa và đo lường sự tương đồng theo chủ đề giữa ứng cử viên và chủ đề cụ thể cần áp dụng các phương pháp phù hợp, với mô hình vectơ và mô hình đồ thị là những phương pháp phổ biến hiện nay Xác định khoảng cách chủ đề trong mô hình đồ thị giúp giải quyết vấn đề tìm kiếm hiệu quả.
Tìm kiếm chuyên gia trên quan điểm Information Rectrieval
Nhiều hệ thống tìm kiếm thông tin tự động tập trung vào các loại tài liệu cụ thể, như nghiên cứu của McDonald và Ackerman về các chuyên gia định vị trong bộ phận kỹ thuật của công ty phần mềm Mockus và Herbsleb giới thiệu công cụ Expertise Browser để tìm kiếm chuyên môn trong môi trường kỹ thuật phần mềm hợp tác Một số nghiên cứu khác đã tìm kiếm chuyên môn qua email, vì email ghi lại hoạt động, sở thích và mục tiêu của các chuyên gia Yimam và Kobsa cung cấp cái nhìn tổng quan về các hệ thống tìm kiếm chuyên môn tự động, cho phép tìm kiếm tất cả chuyên môn trong tổ chức mà không bị giới hạn bởi tên miền cụ thể Hệ thống này xây dựng đại diện của từng chuyên gia bằng cách kiểm tra tất cả tài liệu liên quan đến họ trong tổ chức.
Hệ thống đã chứng minh tính khả thi trong việc thu hồi chuyên môn từ các bộ sưu tập không đồng nhất, cho thấy sự cần thiết của việc nghiên cứu các phương pháp tìm kiếm chuyên gia Từ 2005 đến 2008, các doanh nghiệp đã cung cấp nền tảng chung cho các nhà nghiên cứu, dẫn đến những phát hiện quan trọng và sự gia tăng đáng kể trong cộng đồng nghiên cứu Information Retrieval Sự tiến bộ nhanh chóng trong mô hình hóa, thiết kế thuật toán và đánh giá đã được thực hiện, với bộ sưu tập thử nghiệm doanh nghiệp dựa trên các tổ chức chuyên sâu về kiến thức như W3C.
“khoa học khối thịnh vượng chung và tổ chức nghiên cứu công nghiệp (CSIRO)”
Tại doanh nghiệp, có hai phương pháp chính để tìm kiếm chuyên gia, được chính thức hóa thông qua các mô hình ngôn ngữ chung, bao gồm mô hình ứng cử viên và mô hình tài liệu.
Mô hình 1 và mô hình 2 là hai cách tiếp cận trong việc tìm kiếm chuyên gia, trong đó mô hình 1 được gọi là phương pháp dựa trên hồ sơ hay độc lập truy vấn Những phương pháp này tạo ra đại diện văn bản của các ứng cử viên và xếp hạng họ dựa trên truy vấn, tương tự như hệ thống truyền thống Mô hình tài liệu, hay còn gọi là phương pháp tiếp cận phụ thuộc truy vấn, nhằm tìm tài liệu liên quan và xác định các chuyên gia tương ứng Nghiên cứu cho thấy mô hình 2 thường hiệu quả hơn mô hình 1 trong việc tìm kiếm chuyên gia Hầu hết các đội tìm kiếm chuyên gia sử dụng một trong hai cách tiếp cận này, với khả năng tinh chỉnh để ước tính sự liên kết của ứng cử viên với chủ đề chuyên môn Khung xác suất tổng quát cho phép mở rộng và bao gồm các dạng bằng chứng khác như tài liệu và chứng cứ ứng cử viên thông qua cấu trúc, tổ chức và bối cảnh.
Gần đây, các mô hình xác suất có điều kiện đã được áp dụng để tìm kiếm chuyên gia, cho thấy hiệu quả và lợi thế rõ rệt Mô hình 2 và mô hình xác suất có điều kiện (AMD) được coi là cặp phân biệt trong thế hệ cổ điển, tương tự như Naive Bayes (NB) và hồi quy logistic (LR) trong phân loại, cũng như mô hình Markov ẩn (HMM) và Trường ngẫu nhiên có điều kiện (CRF) cho học tập quan hệ Các phương pháp này đã chứng minh được hiệu quả thực nghiệm cạnh tranh trong cả thử nghiệm doanh nghiệp và ứng dụng thực tế Macdonald và Ounis đã giải quyết vấn đề xếp hạng chuyên gia thông qua kỹ thuật kết hợp dữ liệu, cho thấy rằng việc áp dụng các mô hình trọng số theo lĩnh vực có thể cải thiện thứ hạng của các ứng cử viên Một phương pháp hiệu quả khác là mô hình quá trình tìm kiếm chuyên gia thông qua việc di chuyển ngẫu nhiên xác suất trên đồ thị chuyên môn, được gọi là tuyên truyền thích hợp.
Các mô hình cơ bản của Expertise Rectrieval
Quy ƣớc đặt tên biến:
Bảng 2.1: Quy ƣớc đặt biến
Q Chủ đề truy vấn t ∈ q Thuật ngữ truy vấn n ( t, q ) Số lần thuật ngữ t xảy ra trong chủ đề truy vấn q
E Người (chuyên gia ứng cử viên)
D Tài liệu n ( e, d ) Số lần người e xảy ra trong tài liệu d
2.6.1 Mô hình xác suất có điều kiện
Mô hình xác suất sinh sinh ước tính các mối quan hệ giữa các chủ đề truy vấn, cho thấy rằng một chủ đề cụ thể được tạo ra từ một ứng cử viên Điều này liên quan đến mô hình tạo chủ đề và mô hình thế hệ ứng cử viên, giúp hiểu rõ hơn về cách thức hình thành các chủ đề trong văn bản.
Mô hình phân biệt xác suất được trình bày bởi Fang Y et al (2010) không giả định mối liên kết giữa chủ đề của truy vấn và chuyên gia Biến nhị phân r ∈ {1, 0} được sử dụng để chỉ ra sự tồn tại của liên kết này, với giá trị 1 cho liên kết dương và 0 cho liên kết âm Trước đó, nhà nghiên cứu chuyên gia và truy vấn q được mô hình hóa độc lập Xác suất có điều kiện P(r | e, q) được tính toán để đo lường mối liên kết giữa nhà nghiên cứu chuyên gia e và truy vấn q, từ đó các ứng cử viên chuyên gia được xếp hạng theo tỷ lệ.
2.6.2 Mô hình xác suất sinh
Chúng tôi nhận thấy mối liên hệ giữa yêu cầu và các chuyên gia Để đánh giá mối liên hệ này, chúng tôi tính xác suất P(e | q), thể hiện khả năng một chuyên gia nghiên cứu là chuyên gia về chủ đề q Giá trị của P(e | q) được xác định qua hai phương pháp, trong đó đầu tiên là dựa trên xác suất đưa ứng viên e vào mô hình ước tính từ truy vấn q.
Xác suất P(d | q) thể hiện khả năng tài liệu d phù hợp với truy vấn q, trong khi P(e | d, q) đo lường khả năng người e liên quan đến tài liệu khi có truy vấn q Các xác suất này được tính toán dựa trên định lý Bayes (Balog K và cộng sự).
( )Sau khi tính toán các chuyên gia P (e│q), chúng đƣợc phân loại trên cơ sở của cùng một P (e | q)
Kỹ thuật kết hợp dữ liệu được áp dụng để phân loại các nhà nghiên cứu và chuyên gia, với việc ước tính từ nhiều bảng xếp hạng khác nhau và tiêu chí đa dạng Thay vì chỉ có một đại diện duy nhất, mỗi chuyên gia có thể xuất hiện trong nhiều bảng với các điểm số khác nhau, tạo ra nhiều phiếu bầu cho họ Cuối cùng, tất cả các bảng này được tổng hợp lại trong một bảng kết quả chung.
Mô hình dựa trên đồ thị
Các mô hình dựa trên đồ thị xác định các truy vấn và mối quan hệ giữa con người thông qua việc suy luận từ một biểu đồ, bao gồm tài liệu và ứng cử viên chuyên gia Đồ thị này có thể được xây dựng dựa trên các truy vấn phụ thuộc hoặc độc lập.
Mô hình này phân tích nội dung tài liệu liên quan đến các chuyên gia ứng cử viên, bao gồm những người được đề cập trong siêu dữ liệu như tác giả hoặc được trích dẫn trong phần thân Việc thu hẹp bối cảnh văn bản xung quanh một cá nhân cung cấp bằng chứng về chuyên môn của họ Do đó, các phương pháp phân tích sự liên quan của văn bản liên quan đến một người trong tài liệu thường mang lại hiệu quả cao Phân tích tài liệu trực tiếp đề cập đến một cá nhân là cách tiếp cận hiệu quả để xác định bằng chứng chuyên môn.
Trong quá trình tìm kiếm bằng chứng về chuyên môn, các phương pháp tìm kiếm chuyên gia xem xét mối quan hệ giữa người và tài liệu, cả tiềm ẩn lẫn rõ ràng Những mối quan hệ này được thể hiện qua chuyên môn đồ thị, trong đó tài liệu và chuyên gia ứng cử viên trở thành các đỉnh, còn các cạnh chỉ dẫn điều kiện Như hình 1 mô tả, biểu đồ có nhiều thành phần nhỏ và ngắt kết nối, tuy nhiên, vẫn có một số lượng đáng kể các chuyên gia ứng cử viên nằm trong một thành phần kết nối lớn.
Hình 2.1 minh họa một phần của đồ thị chuyên môn, thể hiện các liên kết giữa các tài liệu (nút trắng) và các chuyên gia ứng cử viên (nút màu đen) nhằm phục vụ cho việc truy vấn thông tin.
"hệ sinh thái bền vững"(từ tập dữ liệu CERC)
Ví dụ này cho thấy rằng những người có chuyên môn tương tự thường có xu hướng gần gũi trong một tổ chức, ngay cả khi mối quan hệ của họ được hình thành qua các tài liệu Khi tổ chức mô hình hóa mối quan hệ từ người sang người, thường sẽ đối xứng, phản ánh các mối quan hệ hợp tác, đặc biệt giữa những nhân viên trong các bộ phận tương tự hoặc liên quan, mặc dù điều này không nhất thiết đúng với các mạng xã hội không chính thức.
Xác suất chọn tài liệu, được biểu thị bằng P(d | q), thể hiện mức độ liên quan của tài liệu đối với truy vấn của người dùng, vì họ có thể tìm kiếm thông tin liên quan trong các tài liệu xếp hạng cao Quyết định tiếp theo của chuyên gia ứng cử viên phụ thuộc vào xác suất P(e), điều này cho thấy tầm quan trọng của việc tối ưu hóa tài liệu để nâng cao khả năng hiển thị và sự liên quan trong các kết quả tìm kiếm.
Xác suất của chuyên gia ứng cử viên e liên quan đến các phần của tài liệu d trong bối cảnh truy vấn q có thể được hiểu là một quá trình tuyên truyền từ tài liệu đến các chuyên gia liên quan Việc tiếp tục tuyên truyền về sự phù hợp của tài liệu sau bước ban đầu có thể mang lại lợi ích Tìm kiếm chuyên môn thường bao gồm nhiều hành động của người dùng, đôi khi lặp lại, dựa trên thông tin được mã hóa trong biểu đồ chuyên môn Chẳng hạn, trong một biểu đồ chuyên môn với tài liệu cá nhân, tài liệu tham khảo và các đối tượng cạnh tranh, hành động tìm kiếm chuyên môn của người dùng có thể được phân tích và hiểu rõ hơn.
(1) Bất cứ lúc nào: (a) đọc ngẫu nhiên một tài liệu hoặc (b) chỉ cần chọn một chuyên gia ứng cử viên ngẫu nhiên;
Sau khi đọc tài liệu, bạn có thể thực hiện hai bước: (a) liên hệ với một người được nhắc đến trong tài liệu hoặc (b) kiểm tra và đọc các tài liệu liên kết khác có liên quan.
Sau khi liên hệ với một chuyên gia ứng cử viên, bạn nên đọc thêm tài liệu liên quan đến chuyên gia đó hoặc có thể liên hệ với một chuyên gia ứng cử viên khác có mối liên hệ với người này.
Trong quá trình mô hình hóa việc thu nhận kiến thức, việc tập trung vào việc di chuyển ngẫu nhiên quanh các tài liệu liên quan là quan trọng, dựa trên giả định rằng các nguồn kiến thức tương tự nằm gần nhau trong đồ thị chuyên môn Serdyukov và cộng sự đã mô hình hóa xác suất liên quan nhiều bước trong đồ thị chuyên môn cho các chủ đề cụ thể, bao gồm những người và tài liệu hàng đầu Đồ thị chuyên môn là nền tảng cho ba phương pháp tìm kiếm chuyên gia, có thể dựa trên hữu hạn hoặc vô hạn.
Mô hình dịch chuyển ngẫu nhiên vô tận (infinite random walk model) liên quan đến việc tìm kiếm các chuyên gia như một quá trình liên tục, đáp ứng nhu cầu cung cấp thông tin thường xuyên của người dùng Để duy trì sự quan trọng của một ứng cử viên gần với tài liệu liên quan, mô hình này thực hiện các bước chuyển tiếp đến tài liệu trong đồ thị chuyên môn Xác suất P J (d) đối với tài liệu cụ thể d phụ thuộc vào mức độ liên quan của nó với truy vấn hiện tại Giả định này đảm bảo rằng các chuyên gia ứng cử viên gần gũi hơn với các tài liệu thường xuyên được truy cập Biến thể đơn giản nhất của mô hình dịch chuyển ngẫu nhiên vô hạn trên đồ thị chuyên môn không chứa mối liên hệ giữa tài liệu-tài liệu và người-người được mô tả bởi các phương trình (2), (3), (4), được lặp lại cho đến khi đạt được sự hội tụ.
Khi λ là xác suất người dùng dừng theo dõi và nhảy đến một nút tài liệu, xác suất tiếp cận tài liệu thông qua liên kết được biểu diễn bởi Σe → dP (d | e) Pi − 1 (e) Phương trình này cho thấy các nút ứng cử viên có thể đạt được chỉ bằng cách theo các liên kết đến Quá trình Markov được mô tả là chu kỳ không thể sửa chữa, từ đó cho phép xác định chuyên môn của e tỷ lệ thuận với xác suất tĩnh P ∞ (e).
Mô hình dịch chuyển hấp thụ (absorbing walk model) tính toán xác suất đạt được các chuyên gia ứng cử viên từ một số bước tối thiểu, bắt đầu từ các tài liệu liên quan Phương pháp này loại bỏ tất cả các cạnh ra khỏi ứng cử viên được đánh giá, thêm cạnh tự chuyển đổi và áp dụng các phương trình lặp lại để thu được kết quả.
Hình 2.2: Một đồ thị chuyên môn đƣợc sửa đổi bởi mô hình absorbing walk model ( mô hình dịch chuyển hấp thụ)
Tỷ lệ thuận giữa các chuyên gia và xác suất P ∞ (e) tương tự như phương pháp random walk Đặc biệt, xác suất P tự (e | e) đạt giá trị 1.0, do phương thức này loại bỏ tất cả các cạnh khỏi bất kỳ nút e nào.
Nói cách khác, trái ngược với mô hình mô tả trong phần 1.1, phương trình
Cung cấp cơ hội để quảng bá cho một ứng cử viên không chỉ thông qua các tài liệu trực tiếp liên quan, mà còn từ bất kỳ nguồn nào có liên kết đến chuyên gia ứng cử viên.
XÂY DỰNG MÔ HÌNH CHUYÊN MÔN CỦA CÁC GIÁO VIÊN BỘ MÔN TIN HỌC TRƯỜNG ĐẠI HỌC LÂM NGHIỆP
Phương pháp xây dựng mô hình đánh giá
Có 4 phương pháp: Phương pháp xác suất sinh, phương pháp xác suất có điều kiện, phương pháp bỏ phiếu và phương pháp đồ thị
Phương pháp xác suất sinh cho thấy mối liên hệ giữa yêu cầu và chuyên gia Để đánh giá mối liên hệ này, chúng ta tính xác suất P(e | q), cho biết khả năng một chuyên gia nghiên cứu là chuyên gia về chủ đề q Giá trị của P(e | q) được xác định thông qua một công thức cụ thể.
Phương pháp xác suất có điều kiện ước lượng các mối quan hệ giữa các chủ đề truy vấn, cho thấy rằng một chủ đề cụ thể thường được hình thành bởi một ứng cử viên hoặc các yếu tố liên quan khác.
Phương pháp bỏ phiếu là kỹ thuật kết hợp dữ liệu nhằm phân loại các nhà nghiên cứu và chuyên gia Các chuyên gia được đánh giá dựa trên các bảng xếp hạng từ nhiều nguồn khác nhau, với các tiêu chí đa dạng.
Xác định các mô hình truy vấn và người dùng thông qua việc phân tích một biểu đồ, có thể là đồng nhất hoặc không đồng nhất Đồ thị đồng nhất thể hiện rằng mỗi nút đại diện cho một chuyên gia, trong khi mỗi cạnh biểu thị một bài báo chung.
Mỗi nút trong mạng lưới đại diện cho một nhà nghiên cứu, hội nghị hoặc tạp chí, trong khi các cạnh kết nối các nhà nghiên cứu với các hội nghị hoặc tạp chí nơi họ đã công bố bài báo của mình.
Khi so sánh các phương pháp đánh giá, chúng tôi nhận thấy rằng việc sử dụng hai phương pháp xác suất có điều kiện và xác suất sinh gặp nhiều hạn chế do tính phức tạp và khó khăn trong việc xử lý dữ liệu Những phương pháp này chủ yếu dựa vào nội dung văn bản và thống kê từ ngữ, dẫn đến sai số lớn Trong khi đó, với đề tài thống kê tự động, việc sử dụng thống kê từ ngữ là cần thiết Tuy nhiên, chúng tôi quyết định áp dụng phương pháp đồ thị, vì nó dựa trên thống kê thực tế và mang lại độ chính xác cao hơn cho nghiên cứu của mình.
Các tiêu trí đánh giá sử dụng trong mô hình
Sau khi thực hiện khảo sát, chúng tôi nhận thấy rằng các giáo viên bộ môn Tin học tại Trường đại học Lâm nghiệp có chuyên môn tương đồng, tuy nhiên mức độ tương đồng này lại khác nhau giữa các giáo viên.
Việc sử dụng giới tính, quê quán, sở thích và giáo trình để đánh giá sự gần gũi về chuyên môn giữa các giáo viên là không công bằng, vì những yếu tố này không phản ánh đúng năng lực chuyên môn của họ.
Việc sử dụng giáo trình và số lần trao đổi email giữa các giáo viên không đảm bảo rằng thông tin trong email phản ánh đúng chuyên môn của họ Chẳng hạn, nếu mỗi lần trao đổi qua email được cho một điểm, sẽ có những giáo viên có tần suất trao đổi rất cao, điều này có thể dẫn đến sự không chính xác trong thuật toán đánh giá.
Do đó chúng tôi đã dựa vào 3 tiêu chí để xây dựng mô hình chuyên môn của các giáo viên đó là:
+Số lần nghiên cứu chung
+số lần viết bài báo chung
Trong các tiêu chí mà chúng tôi đã nêu ra chúng tôi có thể thấy rằng
Môn dạy đóng vai trò quan trọng nhất trong đánh giá của chúng tôi, vì đây là lĩnh vực mà giáo viên làm việc lâu dài và thường xuyên nhất Do đó, môn dạy sẽ được tính với trọng số cao nhất Tiếp theo là số lần nghiên cứu chung và số lần viết bài báo chung Trong nhiều quốc gia, người ta không chú trọng đến các môn dạy chung và nghiên cứu chung nếu không có xuất bản, mà chỉ quan tâm đến số lượng bài báo đã được xuất bản Tuy nhiên, tại Việt Nam, đặc biệt là trong bộ môn Tin học của Trường đại học Lâm Nghiệp, số lượng bài báo còn hạn chế Vì vậy, chúng tôi quyết định bổ sung các yếu tố môn dạy chung và nghiên cứu chung vào đánh giá hiện tại.
Xác định bằng chứng chuyên môn
ĐÁNH GIÁ TRỌNG SỐ Bảng 3.1: Đánh giá trọng số
Giáo viên với giáo viên Điểm
Số lần viết bài báo chung Nếu hai giáo viên cùng viết chung một bài báo thì hai giáo viên sẽ đƣợc tính 2đ Tổng số nghiên cứu chung
Nếu hai giáo viên cùng nhau nghiên cứu một lĩnh vực thì sẽ đƣợc 3đ
Các môn hai giáo viên dạy chung
Nếu 2 giáo viên có các môn học dạy chung một với nhau thì hai giáo viên đó sẽ đƣợc tính 4đ
Các môn học mà giảng viên giảng dạy gồm có:
Bảng 3.2: Các môn giảng dạy
Mã lớp học Tên môn học
2 2 Hệ cơ sở dữ liệu
4 4 Lập trình cơ sở dữ liệu
5 4 Quản lý dự án công nghệ thông tin
6 2 Phân tích thiết kế hệ thống
7 3 Cấu trúc dữ liệu giải thuật
8 5 Lập trình trên thiết bị di động
9 1 Kiến trúc máy tính và hợp ngữ
12 3 An toàn bảo mật thông tin
14 4 Hệ hỗ trợ ra quyết định
15 4 Các hệ thồng đã phương tiện
16 4 Các vấn đề hiện đại của hệ thống thông tin
22 5 Lập trình hướng đối tượng C++
27 5 Cơ sở dữ liệu nâng cao
28 5 Nhập môn trí tuệ nhân tạo
Các môn giảng dạy chung giữa các giáo viên:
Bảng 3.3: Các môn giảng dạy chung giữa các giáo viên
Số thứ tự Tên giáo viên với giáo viên Tổng số môn dạng dạy chung
1 Giáo viên 1 với giáo viên 2 5
2 Giáo viên 1 với giáo viên 3 4
3 Giáo viên 1 với giáo viên 4 4
4 Giáo viên 1 với giáo viên 5 3
5 Giáo viên 1 với giáo viên 6 4
6 Giáo viên 1 với giáo viên 7 4
7 Giáo viên 1 với giáo viên 8 5
8 Giáo viên 2 và giáo viên 3 3
9 Giáo viên 2 với giáo viên 4 3
10 Giáo viên 2 với giáo viên 5 5
11 Giáo viên 2 với giáo viên 6 4
12 Giáo viên 2 với giáo viên 7 2
13 Giáo viên 2 với giáo viên 8 1
14 Giáo viên 3 với giáo viên 4 4
15 Giáo viên 3 với giáo viên 5 3
16 Giáo viên 3 với giáo viên 6 3
16 Giáo viên 3 với giáo viên 7 4
17 Giáo viên 3 với giáo viên 8 5
18 Giáo viên 4 với giáo viên 5 3
19 Giáo viên 4 với giáo viên 6 3
20 Giáo viên 4 với giáo viên 7 3
21 Giáo viên 4 với giáo viên 8 2
21 Giáo viên 5 với giáo viên 6 4
22 Giáo viên 5 với giáo viên 7 4
23 Giáo viên 5 với giáo viên 8 4
24 Giáo viên 6 với giáo viên 7 5
25 Giáo viên 6 với giáo viên 8 4
26 Giáo viên 7 với giáo viên 8 5
Số lần viết bài báo chung giữa các giáo viên:
Bảng 3.4: Số lần viết bài báo chung giữa các giáo viên
Số thứ tự Tên giáo viên với giáo viên Số lần bài báo chung
1 Giáo viên 1 với giáo viên 3 2
2 Giáo viên 1 với giáo viên 4 1
3 Giáo viên 1 với giáo viên 6 1
4 Giáo viên 1 với giáo viên 7 1
5 Giáo viên 2 với giáo viên 8 1
6 Giáo viên 4 với giáo viên 5 1
Số lần nghiên cứu chung:
Bảng 3.5: Số lần nghiên cứu chung
Số thứ tự Tên giáo viên với giáo viên Số lần nghiên cứu chung
1 Giáo viên 1 với giáo viên 2 2
2 Giáo viên 1 với giáo viên 3 1
3 Giáo viên 1 với giáo viên 8 1
4 Giáo viên 2 và giáo viên 4 1
5 Giáo viên 2 với giáo viên 6 1
6 Giáo viên 5 với giáo viên 7 1
3.3.1 Thu thập dữ liệu cần thiết
- Thu thập dữ liệu cần thiết từ mọi nguồn khác nhau
Chúng tôi chỉ sử dụng một phần nhỏ trong số lượng dữ liệu phong phú hiện có, vì vậy việc xác định dữ liệu cần thiết là rất quan trọng Điều này giúp chúng tôi tránh trùng lặp và loại bỏ các dữ liệu không cần thiết, đảm bảo hiệu quả trong quá trình xử lý thông tin.
Tạo mẫu đóng vai trò quan trọng trong việc nâng cao độ chính xác của chương trình Để đảm bảo mẫu luôn đạt độ chính xác cao, cần phải sử dụng dữ liệu chuẩn và có quy mô lớn Dữ liệu càng phong phú, độ chính xác của mẫu càng được cải thiện.
Việc cập nhật mẫu sản phẩm là rất cần thiết, vì mẫu mã có thể thay đổi theo thời gian và nhu cầu của người tiêu dùng Trước đây, hầu hết mọi người sử dụng điện thoại không màu và không có kết nối internet, nhưng hiện nay, để theo kịp xu hướng phát triển, đa số người dùng đã chuyển sang sử dụng điện thoại thông minh có khả năng kết nối internet Do đó, chúng tôi cần chú trọng vào việc thay đổi mẫu mã để phù hợp hơn với nhu cầu của người tiêu dùng.
- Tính toán trọng số làm sao cho phù hợp với mẫu là nhiều nhất
- Kiểm tra kết quả kiểm thử nếu đúng thì mẫu nếu đúng thì thêm vào để tăng độ chính xác của mẫu
Trọng số không phải là hằng số mà có thể thay đổi theo thời gian, do đó việc điều chỉnh trọng số để phù hợp nhất với mẫu là rất quan trọng Để đạt được kết quả tốt nhất, chúng ta cần thực hiện các điều chỉnh cần thiết cho trọng số.
3.3.3 Xây dựng cơ sở dữ liệu:
- Xây dựng thực thể, liên kết
- Xây dựng khóa chính, khóa ngoại giữa các thực thể
- Mô tả chức năng ứng dụng
- Lợi ích khi sử dụng ứng dụng
- Xác định nhiệm vụ: Xây dựng tập mẫu chọn giáo viên 1 với giáo viên 2 để đánh giá sự gần gũi về chuyên môn
- Xác định các dữ liệu liên quan:
+ Tổng số bài báo chung giữa các giáo viên
+ Lĩnh vực nghiên cứu chung
3.3.6 Tại sao lại sử dụng Mysql
Nếu bạn đang tìm kiếm một hệ thống quản lý cơ sở dữ liệu miễn phí hoặc giá cả phải chăng, MySQL, mSQL và Postgres là những lựa chọn tốt Khi so sánh MySQL với các hệ thống khác, hãy cân nhắc các yếu tố quan trọng như hiệu suất, hỗ trợ, tính năng, điều kiện bản quyền và chi phí MySQL nổi bật với nhiều đặc điểm hấp dẫn, đáp ứng nhu cầu của người dùng.
- Tốc độ: MySQL rất nhanh Những nhà phát triển cho rằng MySQL là cơ sở dữ liệu nhanh nhất mà bạn có thể có
MySQL là một hệ thống cơ sở dữ liệu dễ sử dụng, mặc dù sở hữu nhiều tính năng mạnh mẽ Việc cài đặt và quản trị MySQL không phức tạp như các hệ thống lớn khác, giúp người dùng tiết kiệm thời gian và công sức.
- Giá thành: MySQL là miễn phí cho hầu hết các việc sử dụng trong một tổ chức
MySQL hỗ trợ ngôn ngữ truy vấn SQL, là ngôn ngữ lựa chọn cho các hệ thống cơ sở dữ liệu hiện đại Người dùng cũng có thể truy cập MySQL thông qua các ứng dụng hỗ trợ ODBC (Open Database Connectivity), một giao thức giao tiếp cơ sở dữ liệu do Microsoft phát triển.
Máy chủ có khả năng phục vụ nhiều người dùng đồng thời, cho phép truy cập vào nhiều cơ sở dữ liệu một cách hiệu quả Người dùng có thể tương tác với MySQL thông qua một số giao diện, giúp họ dễ dàng gửi truy vấn và xem kết quả, bao gồm các dòng yêu cầu từ khách hàng và trình duyệt web.
MySQL cung cấp khả năng kết nối mạng hoàn chỉnh, cho phép truy cập cơ sở dữ liệu từ bất kỳ đâu trên Internet, giúp bạn dễ dàng chia sẻ dữ liệu Tuy nhiên, MySQL cũng đảm bảo tính bảo mật bằng cách kiểm soát quyền truy cập, ngăn chặn những người không có quyền nhìn thấy dữ liệu của bạn.
MySQL có tính linh động cao, cho phép chạy trên nhiều hệ điều hành như UNIX, Windows và OS/2 Nó tương thích với mọi loại phần cứng, từ máy PC cá nhân cho đến các máy chủ lớn.
MySQL có khả năng phân phối rộng rãi và dễ dàng truy cập thông qua trình duyệt web Người dùng có thể tìm hiểu cách thức hoạt động của nó bằng cách xem mã nguồn, và nếu không hài lòng với một số phần, họ có thể tự chỉnh sửa theo ý thích.
MySQL cung cấp nhiều tài nguyên hỗ trợ cho người dùng, với cộng đồng rất nhiệt tình và trách nhiệm Các câu hỏi trên mailing list thường được trả lời chỉ trong vài phút Khi phát hiện lỗi, các nhà phát triển nhanh chóng đưa ra giải pháp khắc phục, thường trong vài giờ hoặc vài ngày, và những bản sửa lỗi này sẽ ngay lập tức có sẵn trên Internet.
SQL là ngôn ngữ phi thủ tục, cho phép truy cập cơ sở dữ liệu mà không cần chỉ định cách thức cụ thể Tất cả các câu lệnh SQL được thiết kế dễ sử dụng và ít xảy ra lỗi.
- SQL cung cấp các tập lệnh phong phú cho các công việc hỏi đáp dữ liệu nhƣ:
+ Chèn, xóa và cập nhật các hàng trong 1 quan hệ
+ Tạp, thêm, xóa và sửa đổi các đối tƣợng trong của cơ sở dữ liệu
Điều khiển truy cập cơ sở dữ liệu và các đối tượng liên quan là rất quan trọng để đảm bảo tính bảo mật, tính nhất quán và sự ràng buộc của dữ liệu.
3.3.6.1 Thiết kế cơ sở dữ liệu:
Các bảng cơ sở dữ liệu:
Bảng 3.6: Thiết kế CSDL nghiên cứu chung
Thuộc tính Kiểu dữ liệu Ghi chú
Số lần nghiên cứu chung Nvarchar(50)
Bảng 3.7: Thiết kế CSDL bài báo chung
Thuộc tính Kiểu dữ liệu Ghi chú
Số lần viết bài báo chung int
Bảng 3.8: Thiết kế CSDL môn dạy
Thuộc tính Kiểu dữ liệu Ghi chú
Quy ƣớc và kí hiệu giáo viên
Bảng 3.9: Quy ƣớc và kí hiệu
STT Họ và tên giáo viên Kí hiệu Mã giáo viên Tên gọi
1 Trần Hồng Diệp 1 Giáo viên 1
2 Mai Hà An 2 Giáo viên 2
3 Đặng Kim Anh 3 Giáo viên 3
4 Nguyễn Văn Cường 4 Giáo viên 4
5 Hoàng Việt Dũng 5 Giáo viên 5
6 Trần Xuân Hòa 6 Giáo viên 6
7 Nguyễn Hoàng Ngọc 7 Giáo viên 7
8 Khương Thị Quỳnh 8 Giáo viên 8
3.3.6.2 Mô hình biểu diễn cách xây dựng
Hình 3.1 Mô hình biểu diễn cách xây dựng
Dựa vào mô hình chúng ta thấy rằng có 3 loại cạnh tương ứng với 3 loại màu khác nhau:
- Màu xanh dương đại diện cho môn dạy chung
- Mày xanh lá đại diện cho số lần nghiên cứu chung
- Màu đen đại diện cho số lần viết bài báo chung
Trọng số của cạnh màu xanh dương, màu xanh lá, màu đen với công thức chung là:
Màu xanh dương đại diện cho số môn dạy:
Hình 3.2 Giáo viên thông qua môn dạy
Mỗi một lần hai giáo viên có một môn dạy chung thì hai giáo viên đó sẽ đƣợc 4 điểm Chúng ta có công thức nhƣ sau:
∑ ố môn dạy chung số điểm môn dạy
Trong cơ sở dữ liệu mà chúng tôi thiết kế, giáo viên 1 và giáo viên 2 cùng dạy 5 môn học và có tổng điểm là 20 điểm Ngoài ra, giáo viên 1 cũng dạy chung 4 môn với giáo viên 3, với tổng điểm đạt được là 16 điểm.
Vậy với môn dạy chung nếu lấy giáo viên 1 làm trung tâm giữa giáo viên
2 và giáo viên 3 chúng tôi thấy rằng trong trường hợp này giáo viên 1 và giáo viên 2 gần chuyên môn hơn giáo viên 1 và giáo viên 3
Màu đen đại diện cho số lần nghiên cứu chung:
Hình 3.3 Giáo viên thông qua số lần nghiên cứu chung
Mỗi một lần nghiên cứu chung thì hai giáo viên đó sẽ đƣợc 3 điểm Chúng ta có công thức nhƣ sau:
∑ ố lần nghiên cứu chung số điểm nghiên cứu
KIỂM THỬ THUẬT TOÁN
Công nghệ sử dụng
Với những phân tích ở trên sau một thời gian chúng em đang triển khai trên phần mềm PHP và dữ liệu đƣợc lấy từ cơ sở dữ liệu
Kiểm thử
Do thời gian hạn chế, chúng tôi đã thử nghiệm với một số dữ liệu liên quan đến các thầy cô, nhưng dữ liệu thu thập còn ít và chủ yếu là dữ liệu giả định Vì vậy, chúng tôi chưa thể kiểm định một cách vững chắc Mô hình này là một mô hình mới đối với chúng tôi, nhưng trong bài báo của Hong Diep TRAN và các tác giả CABANAC Gilles HUBERT (2017), đã chứng minh một mô hình tương tự Chúng tôi đã áp dụng mô hình đó để kiểm thử và tính toán thuật toán.
Bảng 3.3 trình bày các môn giảng dạy chung giữa các giáo viên với 20 bộ dữ liệu trong cơ sở dữ liệu Bảng 3.4 thể hiện số lần viết bài báo chung giữa các giáo viên, bao gồm 10 bộ dữ liệu Cuối cùng, Bảng 3.5 cung cấp thông tin về số lần nghiên cứu chung, cũng với 10 bộ dữ liệu trong cơ sở dữ liệu.
Kết quả đạt đƣợc
Khi thử nghiệm mô hình, chúng tôi nhận thấy sự gần gũi giữa các giáo viên, tuy nhiên, do lượng dữ liệu còn hạn chế và dữ liệu tự sinh ra, độ chính xác trong việc đánh giá dữ liệu vẫn chưa đạt yêu cầu cao.