Luận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên Wikipedia

Chia sẻ: Hứa Tung | Ngày: | Loại File: PDF | Số trang:73

Thêm vào BST

Báo xấu

46
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên Wikipedia được thực hiện với mục tiêu nhằm tìm nhãn hoặc phân nhóm, có thể giúp mô tả tốt nhất về vấn đề cốt lõi của văn bản phục vụ cho việc phân loại và xếp nhóm. Tìm ra được những danh mục có trọng số phù hợp với bài báo một cách tự động và đạt độ chính xác cao. Mời các bạn cùng tham khảo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên Wikipedia

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM --------------------------- LÊ HOÀNG OANH NHẬN BIẾT CHỦ ĐỀ CỦA TÀI LIỆU DỰA TRÊN WIKIPEDIA LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP. HỒ CHÍ MINH, tháng 4 năm 2015
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM --------------------------- LÊ HOÀNG OANH NHẬN BIẾT CHỦ ĐỀ TÀI LIỆU DỰA TRÊN WIKIPEDIA LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS. NGUYỄN CHÁNH THÀNH TS. LÊ MẠNH HẢI TP. HỒ CHÍ MINH, tháng 4 năm 2015
CÔNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM Cán bộ hƣớng dẫn khoa học : TS. NGUYỄN CHÁNH THÀNH TS. LÊ MẠNH HẢI (Ghi rõ họ, tên, học hàm, học vị và chữ ký) Luận văn Thạc sĩ đƣợc bảo vệ tại Trƣờng Đại học Công nghệ TP. HCM ngày … tháng … năm … Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ và tên Chức danh Hội đồng 1 PGS.TSKH. Nguyễn Xuân Huy Chủ tịch 2 PGS.TS. Lê Hoài Bắc Phản biện 1 3 PGS.TS. Quản Thành Thơ Phản biện 2 4 TS. Vũ Thanh Hiền Ủy viên 5 TS. Cao Tùng Anh Ủy viên, Thƣ ký Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã đƣợc sửa chữa (nếu có). Chủ tịch Hội đồng đánh giá LV
TRƢỜNG ĐH CÔNG NGHỆ TP. HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự do – Hạnh phúc TP. HCM, ngày 11 tháng 4 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ HOÀNG OANH Giới tính: Nữ Ngày, tháng, năm sinh: 09/03/1985 Nơi sinh: Cần Thơ Chuyên ngành: Công nghệ Thông tin MSHV: 1341860016 I- Tên đề tài: Nhận biết chủ đề của tài liệu dựa trên Wikipedia II- Nhiệm vụ và nội dung: - Khảo sát, phân tích hệ thống chủ đề của tài liệu dạng văn bản lƣu trữ trong Wikipedia . - Khảo sát các nghiên cứu liên quan đến việc nhận biết chủ đề của văn bản trong Wikipedia. - Phát triển (trên cơ sở kế thừa) hoặc cải tiến một phƣơng pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa trên nguồn dữ liệu tên thể loại sẵn có của Wikipedia. - Thực nghiệm, đánh giá và viết báo cáo. III- Ngày giao nhiệm vụ: 18/8/2014 IV- Ngày hoàn thành nhiệm vụ: ........................................................................................ V- Cán bộ hƣớng dẫn: (Ghi rõ học hàm, học vị, họ, tên) ................................................. TS. Nguyễn Chánh Thành TS. Lê Mạnh Hải CÁN BỘ HƢỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên và chữ ký) (Họ tên và chữ ký)
i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác. Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã đƣợc cảm ơn và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn gốc. Học viên thực hiện Luận văn (Ký và ghi rõ họ tên) Lê Hoàng Oanh
ii LỜI CÁM ƠN Lời cảm ơn chân thành em xin gởi Ban Giám Hiệu, toàn thể cán bộ nhân viên, giảng viên trƣờng Đại Học HUTECH, Ban lãnh đạo Phòng Quản Lý Khoa Học và Đào Tạo Sau Đại Học, khoa Công Nghệ Thông Tin đã tạo điều kiện thuận lợi cho em học tập và nghiên cứu trong suốt học trình cao học Với lòng tri ân sâu sắc, em muốn nói lời cảm ơn chân thành đến TS. Nguyễn Chánh Thành và TS. Lê Mạnh Hải đã rất tận tụy và nghiêm túc hƣớng dẫn em trong quá trình thực hiện nghiên cứu này. Em xin chân thành cảm ơn Quý thầy cô ngoài trƣờng đã tận tâm dạy bảo em trong suốt quá trình học tập và giúp đỡ em trong suốt quá trình nghiên cứu. Em xin chân thành cảm ơn những ngƣời thân yêu trong gia đình cùng các anh chị em, bạn bè, đồng nghiệp đã giúp đỡ và động viên em trong quá trình thực hiện và hoàn thành luận văn này. Học viên thực hiện Luận văn (ký và ghi rõ họ tên) LÊ HOÀNG OANH
iii TÓM TẮT (Tóm tắt nội dung LV bằng Tiếng Việt) Wikipedia là một bách khoa toàn thƣ tự do, là kết quả của sự cộng tác của chính những ngƣời đọc từ khắp nơi trên thế giới. Mục tiêu phát triển của Wikipedia là nâng cao chất lƣợng bài viết, thêm nhiều bài viết chọn lọc, bài viết chất lƣợng và ngày càng thu hút nhiều thành viên tham gia. Với số lƣợng bài viết ngày càng gia tăng thì việc tìm kiếm một bài báo nào đó nhƣ mong muốn là rất khó khăn và tốn nhiều thời gian. Chẳng hạn, khi ngƣời dùng muốn tìm kiếm một thông tin nào đó thì kết quả thƣờng trả về rất nhiều danh mục có chứa thông tin đó. Vậy làm thế nào để kết quả chỉ trả về danh mục phù hợp nhất mà không phải là tất cả danh mục có chứa thông tin đó. Việc này đã đặt ra thách thức cho luận văn là tìm kiếm một giải pháp giúp nhận diện đƣợc danh mục nào có trọng số cao nhất phù hợp với thông tin cần tìm kiếm. Chính vì thế, trong nghiên cứu này chúng tôi sẽ trình bày một thuật toán đƣợc sử dụng chỉ để khai thác tiêu đề và phân nhóm các tiêu đề trong Wikipedia. Giúp cho việc tìm ra các danh mục phù hợp với các bài báo một cách tự động và đạt độ chính xác cao.
iv ABSTRACT (Tóm tắt nội dung LV bằng tiếng Anh) Wikipedia is a free encyclopedia, as a result of the collaboration of the readers from all over the world. The objective of development of Wikipedia is to improve the quality of articles; add more selected articles, quality articles and increasingly attract more participants. As regards the increasing number of articles these days, it is very difficult and time-consuming to find a specific article. For instance, when a user wants to search some information, the results are often returned a lot of catalogues containing that information. Thus, how the results are returned the most relevant catalogues related to information instead of all catalogues. This is sue has rise to the challenge to the thesis for seeking a solution identifying the most significant catalogue being suitable for the required information. Therefore, in this study, we will represent an algorithm used to exploit only the titles and divide titles into many groups in Wikipedia. This helps to find the suitable catalogues to the articles automatically and accurately.
v MỤC LỤC LỜI CAM ĐOAN ......................................................................................................... i LỜI CÁM ƠN ............................................................................................................. ii TÓM TẮT .................................................................................................................. iii ABSTRACT ............................................................................................................... iv MỤC LỤC ................................................................................................................ iv Danh mục các từ viết tắt ........................................................................................... vii Danh mục các bảng ................................................................................................... ix Danh mục các biểu đồ, đồ thị, sơ đồ, hình ảnh .......................................................... x CHƢƠNG 1. MỞ ĐẦU ............................................................................................. 1 1.1 Lý do chọn đề tài ............................................................................................. 1 1.2. Mục tiêu, nội dung và phƣơng pháp nghiên cứu ............................................. 2 1.2.1. Mục tiêu nghiên cứu .................................................................................. 2 1.2.2. Nội dung nghiên cứu .................................................................................. 2 1.2.3. Phương pháp nghiên cứu ........................................................................... 4 1.3 Cấu trúc của luận văn ....................................................................................... 4 CHƢƠNG 2. NGHIÊN CỨU TỔNG QUAN ............................................................. 5 2.1 Tình hình nghiên cứu trên thế giới .................................................................. 5 2.2 Tình hình nghiên cứu trong nƣớc ..................................................................... 8 2.3 Tóm lƣợc ........................................................................................................... 9 CHƢƠNG 3. PHƢƠNG PHÁP NHẬN BIẾT VÀ RÚT TRÍCH CHỦ ĐỀ ............ 10 3.1 Khái niệm về Wikipedia ................................................................................. 11 3.1.1 Những ƣu điểm của mô hình Web Wiki ................................................... 14 3.1.2 Wikipedia hoạt động nhƣ thế nào ............................................................. 17 3.1.3 Kiểu cách và định dạng............................................................................. 17 3.1.4 Thực thể trong Wikipedia ......................................................................... 18
vi 3.1.6 Thể loại ..................................................................................................... 20 3.1.7 Kiến trúc Wikipedia .................................................................................. 23 3.2 Phƣơng pháp nghiên cứu đề nghị ................................................................... 24 3.2.1 Hƣớng nghiên cứu chính của luận văn ..................................................... 24 3.2.2 Việc chuẩn bị thu thập .............................................................................. 25 3.2.3 Nhận diện chủ đề của tài liệu .................................................................... 26 3.3 Một số cải thiện của phƣơng pháp đề xuất ..................................................... 30 CHƢƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ..................................................... 32 4.1 Tiến hành thực nghiệm ................................................................................... 33 4.1.1 Môi trƣờng thực nghiệm .......................................................................... 33 4.1.2 Nguồn dữ liệu .......................................................................................... 33 4.1.3. Cấu trúc cơ sở dữ liệu .............................................................................. 36 4.2 Thực hiện chƣơng trình .................................................................................. 38 4.2.1 Gỡ bỏ các từ vô nghĩa ............................................................................... 38 4.2.2 Tính trọng số của các từ trong tài liệu ...................................................... 39 4.2.3 Tính trọng số của tiêu đề của tài liệu ........................................................ 39 4.2.4 Tính trọng số cao nhất của tài liệu ........................................................... 41 4.2.5 Tính trọng số của danh mục...................................................................... 42 4.2.6 Chọn danh mục phù hợp cho bài báo với trọng số của chúng .................. 42 4.3 Chƣơng trình thực nghiệm .............................................................................. 42 4.4 Trƣờng hợp thành công và thất bại ................................................................. 43 4.5 Đánh giá .......................................................................................................... 44 4.5.1 Dữ liệu đánh giá ........................................................................................ 44 4.5.2 Độ chính xác của chƣơng trình ................................................................. 45 4.6 Độ phản hồi của chƣơng trình ........................................................................ 50 4.7 Kết luận ........................................................................................................... 53 CHƢƠNG 5. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .......................................... 53
vii 5.1. Kết luận .......................................................................................................... 54 5.2. Hƣớng phát triển ............................................................................................ 54 TÀI LIỆU THAM KHẢO ......................................................................................... 55
viii Danh mục các từ viết tắt STT Từ hoặc cụm từ Viết tắt 1. Wikipedia Wiki 2. World Wide Web WWW 3. Wikipedia Category Graph WCG 4. Support vector machine SVM 5. Latent Dirichlet Allocation LDA
ix Danh mục các bảng Bảng 4.1 Cấu hình yêu cầu ......................................................................................... 33 Bảng 4.2 Cấu trúc cơ sở dữ liệu .................................................................................. 37 Bảng 4.3 Một số từ vô nghĩa ....................................................................................... 38 Bảng 4.4 Độ chính xác của thuật toán ........................................................................ 49 Bảng 4.5 Độ phản hồi của chƣơng trình ..................................................................... 52
x Danh mục hình ảnh Hình 3.1 Mô hình Web Wiki....................................................................................... 15 Hình 3.2 Giao diện của Wiki....................................................................................... 16 Hình 3.3 Thực thể trong Wikipedia ............................................................................ 19 Hình 3.4 Thể loại trong Wikipedia ............................................................................. 21 Hình 3.5 Mối quan hệ giữa đồ thị bài viết và đồ thị chủ đề Wiki............................... 23 Hình 3.6 Sơ đồ thuật toán............................................................................................ 25
xi Danh mục các biểu đồ Biều đồ 4.1 Đánh giá độ chính xác của thuật toán ...................................................... 50 Biểu đồ 4.2 Độ phản hồi của chƣơng trình ................................................................. 52
1 CHƢƠNG 1. MỞ ĐẦU 1.1 Lý do chọn đề tài Khả năng cung ứng dữ liệu lớn trong World Wide Web (WWW) đã phát triển theo cấp số nhân từ vài năm qua, việc tìm kiếm, trích xuất và duy trì các thông tin là một nhiệm vụ khó khăn và tốn thời gian. Để khắc phục vấn đề quá tải thông tin, một công cụ nhận biết chủ đề của tài liệu rất cần thiết cho ngƣời dùng theo dõi và xác định chính xác vị trí của chủ đề tài liệu mà mình cần tìm kiếm. Wikipedia [28] chính thức bắt đầu vào ngày 15 tháng 01 năm 2001 nhờ hai ngƣời sáng lập Jimmy Wales và Larry Sanger cùng với vài ngƣời cộng tác nhiệt thành và chỉ có phiên bản tiếng Anh. Chỉ hơn ba năm sau, vào tháng 3 năm 2004, đã có 6.000 ngƣời đóng góp tích cực cho 600.000 bài viết với 50 thứ tiếng. Tính đến ngày nay đã có 4.847.953 bài viết tiếng Anh,763.384.059 chỉnh sửa, 24.524.565 ngƣời dùng đăng ký và 1.358 nhà quản trị (Cập nhật 30-3-2015) Mỗi ngày hàng trăm nghìn ngƣời ghé thăm từ khắp nơi để thực hiện hàng chục nghìn sửa đổi cũng nhƣ bắt đầu nhiều bài viết mới. Do số lƣợng bài viết ngày càng tăng, ngƣời dùng khó có thể tìm kiếm tài liệu một cách nhanh chóng và phân loại tiêu đề theo mong muốn. Vì thế, một thách thức mới đƣợc đặt ra là làm thế nào để nhận biết chủ đề có trong một tài liệu văn bản một cách hiệu quả, mà cụ thể là làm thế nào để máy tính có thể trợ giúp xử lý tự động đƣợc chúng. Nhận biết chủ đề của tài liệu dựa vào các động cơ tìm kiếm là một vấn đề hết sức quan trọng trong việc tra cứu tài liệu hằng ngày của ngƣời sử dụng giúp cho ngƣời dùng tiết kiệm đƣợc nhiều thời gian tìm kiếm tài liệu, giúp ngƣời dùng tìm kiếm tài liệu một cách nhanh chóng, chính xác thông tin mình cần. Ngoài ra, việc nhận biết chủ đề tài liệu dựa trên Wikipedia còn giúp ngƣời dùng kiểm soát lƣợng thông tin mình tìm kiếm, tìm kiếm đƣợc những đặc trƣng của tài liệu một cách nhanh chóng và chính xác.
2 Trong những năm gần đây, qui mô và tầm cỡ bách khoa toàn thƣ trực tuyến miễn phí Wikipedia đã đạt đến tầm mức nhƣ một ontology (bản thể luận) và có thể phân loại sử dụng để nhận diện chủ đề có trong một tài liệu văn bản nào đó. Vì vậy đề tài “Nhận biết chủ đề của tài liệu dựa trên Wikipedia” giúp hỗ trợ ngƣời dùng nhận biết đƣợc chủ đề tài liệu mình tìm kiếm một cách nhanh chóng và chính xác. 1.2. Mục tiêu, nội dung và phƣơng pháp nghiên cứu 1.2.1. Mục tiêu nghiên cứu Mục tiêu của việc nhận diện chủ đề của văn bản nhằm để tìm nhãn hoặc phân nhóm, có thể giúp mô tả tốt nhất về vấn đề cốt lõi của văn bản phục vụ cho việc phân loại và xếp nhóm. Tìm ra đƣợc những danh mục có trọng số phù hợp với bài báo một cách tự động và đạt độ chính xác cao. Nhiệm vụ của luận văn: - Khảo sát, phân tích hệ thống chủ đề của tài liệu dạng văn bản lƣu trữ trong Wikipedia - Khảo sát các nghiên cứu liên quan đến việc nhận biết chủ đề của văn bản trong Wikipedia - Phát triển (trên cơ sở kế thừa) hoặc cải tiến một phƣơng pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa trên nguồn dữ liệu tên thể loại sẵn có của Wikipedia. - Thực nghiệm, đánh giá và viết báo cáo. 1.2.2. Nội dung nghiên cứu Wikipedia bao gồm các bài viết, trang hình ảnh tách biệt, những ý kiến tranh luận về nội dung bài viết, về tác giả, các trang thiết kế mẫu…Mỗi bài viết đều có tiêu đề, xếp theo phân loại và có liên hệ đến các bài viết khác. Một số bài viết có thể truy
3 xuất với nhiều tiêu đề, trong trƣờng hợp này, các tiêu đề phụ đƣợc xem nhƣ bài viết đặc biệt hoặc chuyển hƣớng chỉ gồm một liên kết duy nhất đến bài viết chính. Việc phân loại đƣợc tổ chức theo phân tầng theo hạng mục hạ tầng (hạng mục con) và hạng mục thƣợng tầng (hạng mục cha). Nội dung nghiên cứu của luận văn tập trung vào hai vấn đề cơ bản: Thứ nhất, luận văn sẽ trình bày một phƣơng pháp chỉ để khai thác tiêu đề bài viết và phân loại các bài viết trong Wikipedia, để quyết định những yếu tố đặc trƣng nhất của tài liệu. Trƣớc tiên, chúng ta xem xét tất cả các bài viết liên quan đến tài liệu bằng việc kết hợp tìm tiêu đề và những từ khóa trong tài liệu. Sau đó những bài viết này đƣợc xem xét theo ba yếu tố nhƣ sau:  Từ khóa chia sẻ chung giữa tài liệu và tiêu đề, chẳng hạn tần suất hoặc số lƣợng phân nhóm mà từ khóa đó xuất hiện.  Cƣờng độ kết hợp giữa tài liệu và bài viết, chẳng hạn số lƣợng từ khóa phổ biến, tỷ lệ phần trăm tên tiêu đề xuất hiện trong tài liệu.  Bản thân bài viết, chẳng hạn số lƣợng bài viết trong Wikipedia có tiêu đề tƣơng tự. Thứ hai, thu thập việc phân loại gắn liền với bài viết để hình thành nên sự phân loại chủ yếu dựa trên tính chất của bài viết, đồng thời cũng xem xét có bao nhiêu từ có mối liên hệ hỗ tƣơng trong tài liệu và xem xét mức độ mối liên hệ hỗ tƣơng từ khóa chia sẻ thuộc tính với các phân nhóm khác. Luận văn không khai thác sức mạnh tiềm năng của Wikipedia vì luận văn không sử dụng thông tin chứa trong đoạn văn của bài viết, sự liên kết giữa các bài viết, hay sự phân tầng trong phân loại tài liệu. Luận văn chỉ giải quyết hai bài toán lớn sau: Bài toán 1: Loại bỏ từ dừng và dƣ thừa, loại bỏ cả những từ không xuất hiện trong tiêu đề của các bài viết. Thu thập các từ trong tài liệu và thu thập tiêu đề trong Wikipedia (ngoại trừ những tiêu đề chỉ có một từ) có xuất hiện trong tài liệu. Tiếp theo là thu thập bài viết trong Wikipedia dẫn kết đến tiêu đề. Cuối cùng là thu thập phân
4 nhóm trong Wikipedia gắn với tiêu đề. Bài toán 2: Tinh giảm mức độ các phân nhóm có từ chia sẻ với các phân nhóm khác có trị Rc cao nhất. Sau đó chọn phân nhóm chiếm tỷ lệ cao nhất. 1.2.3. Phương pháp nghiên cứu - Phƣơng pháp nghiên cứu lý thuyết: nghiên cứu các tài liệu mô tả cách thức làm việc Wikipedia, cách thức phân nhóm của Wikipedia. - Phƣơng pháp thu thập số liệu: thống kê tổng số phân nhóm trong Wikipedia tiếng anh và tiếng việt tính đến ngày 03/03/2015. - Phƣơng pháp thực nghiệm: tiến hành phân loại và xếp nhóm đối với số tài liệu để tìm ra những tài liệu thuộc phân loại của Wikipedia. 1.3 Cấu trúc của luận văn Chƣơng 1. Mở đầu Trình bày lý do chọn đề tài, mục tiêu nội dung và phƣơng pháp nghiên cứu, cấu trúc của luận văn Chƣơng 2. Nghiên cứu tổng quan Phân tích, đánh giá các công trình nghiên cứu đã có của các tác giả trong và ngoài nƣớc liên quan mật thiết đến đề tài; nêu những vấn đề còn tồn tại; chỉ ra những vấn đề mà đề tài cần tập trung nghiên cứu, giải quyết. Chƣơng 3. Phƣơng pháp nhận biết và rút trích chủ đề Trình bày các cơ sở lý thuyết, lý luận, giả thuyết khoa học và phƣơng pháp nghiên cứu đã đƣợc sử dụng trong Luận văn. Chƣơng 4. Thực nghiệm và đánh giá Mô tả công việc nghiên cứu khoa học đã tiến hành, các số thực nghiệm. Đánh giá độ chính xác của thuật toán Chƣơng 5. Kết luận và hƣớng phát triển Kết luận những việc đã đạt đƣợc và còn hạn chế của luận văn. Đề xuất hƣớng phát triển
5 CHƢƠNG 2. NGHIÊN CỨU TỔNG QUAN Chƣơng 2 phân tích một số nghiên cứu trong và ngoài nƣớc có liên quan đến luận văn. Mục đích nhằm xác định những ƣu điểm hạn chế và các khó khăn của những nghiên cứu có liên quan đến luận văn để từ đó luận văn đƣa ra các giải pháp nhằm phát triển hệ thống đạt kết quả. Trong chƣơng này, 2.1 trình bày tóm lƣợc các nghiên cứu trên thế giới, phần 2.2 trình bày tóm lƣợc về các nghiên cứu trong nƣớc có liên quan đến luận văn, trong đó tập trung các nghiên cứu có liên quan đến Wikipedia để nghiên cứu trong luận văn. 2.1 Tình hình nghiên cứu trên thế giới Trên thế giới, có rất nhiều mô hình phân nhóm chủ đề tài liệu ra đời, một số thì đã đƣợc thƣơng mại hóa, số còn lại là xây dựng riêng cho mình một hệ thống phân nhóm chủ đề tài liệu hay chỉ đóng góp một phần nhỏ cho khoa học. M. Aery, N. Ramamurthy, and Y. A. Aslandogan [11] Nhận diện chủ đề trong văn bản động với mức độ phức tạp cao. Vấn đề phân tích tự động phát hiện dữ liệu văn bản đã phát triển trong vài năm qua. Một ví dụ về dữ liệu đó là các cuộc thảo luận xuất hiện trong dòng chat Internet. Trong nghiên cứu này đề cập đến một phƣơng pháp tách nguồn đƣợc giới thiệu gần đây, đƣợc gọi là theo dõi mức độ phức tạp, đƣợc áp dụng cho các vấn đề tìm kiếm chủ đề trong văn bản động học và đƣợc so sánh ngƣợc lại với một số thuật toán tách mù đối với nội dung xem xét. Theo dõi mức độ phức tạp là khái niệm tổng quát của một phép chiếu chuỗi thời gian và nó có thể sử dụng cả hai biện pháp thống kê bậc cao và thông tin phụ thuộc thời gian trong việc tách các chủ đề. Kết quả thực nghiệm trên dữ liệu dòng chat và nhóm tin đã chứng minh rằng chuỗi thời gian tối thiểu đáp ứng các chủ đề có ý nghĩa vốn có trong dữ liệu văn bản động, và cũng cho thấy khả năng ứng dụng của phƣơng pháp để thu hồi từ một văn bản tạm thời thay đổi truy vấn dựa trên dòng.