Luận án Tiến sĩ Khoa học máy tính: Khai phá luồng văn bản với kỹ thuật gom cụm

Chia sẻ: Nhiên Hà | Ngày: | Loại File: PDF | Số trang:140

Thêm vào BST

Báo xấu

27
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án đề xuất được mô hình mới. Mô hình GOW-Stream thể hiện được tính ưu việt khi so sánh với các thuật toán hiện đại gần đây. Hệ thống TKES cũng có đóng góp mới là đề xuất thuật toán phát hiện các cụm từ xu thế và có tiềm năng ứng dụng vào việc tối ưu hóa mô hình GOW-Stream đã đề xuất. Các công trình nghiên cứu trong luận án gồm 04 bài báo hội nghị quốc tế (Springer/ACM) và 02 bài báo tạp chí quốc tế (01 bài thuộc Scopus-Q3 và 01 bài thuộc SCIE-Q3).

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Khoa học máy tính: Khai phá luồng văn bản với kỹ thuật gom cụm

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ---------------- VÕ THỊ HỒNG THẮM KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Đồng Nai, năm 2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ---------------- VÕ THỊ HỒNG THẮM KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 9480101 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. ĐỖ PHÚC Đồng Nai, năm 2021
LỜI CẢM ƠN Xin chân thành cảm ơn PGS.TS. Đỗ Phúc đã tận tình hướng dẫn nghiên cứu sinh hoàn thành luận án tiến sĩ. Xin chân thành cảm ơn quý thầy/cô khoa sau đại học, trường đại học Lạc Hồng đã tạo điện kiện thuận lợi và hỗ trợ nghiên cứu sinh hoàn thành luận án. Xin trân trọng cảm ơn trường đại học Thủ Dầu Một đã hỗ trợ nghiên cứu sinh tham gia học tập tại trường đại học Lạc Hồng. Xin chân thành cám ơn quý bạn bè, đồng nghiệp đã tạo điều kiện giúp đỡ nghiên cứu sinh hoàn thành luận án. Nghiên cứu sinh - Võ Thị Hồng Thắm
LỜI CAM ĐOAN Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của PGS.TS. Đỗ Phúc. Các số liệu và tài liệu trong nghiên cứu là trung thực và chưa được công bố trong bất kỳ công trình nghiên cứu nào. Tất cả các tham khảo và kế thừa đều được trích dẫn và tham chiếu đầy đủ. Đồng Nai, ngày … tháng 5 năm 2021 Nghiên cứu sinh Võ Thị Hồng Thắm
MỤC LỤC CHƯƠNG 1: GIỚI THIỆU .......................................................................................... 1 1.1 Tổng quan về đề tài luận án ................................................................................... 1 1.1.1 Bài toán nghiên cứu và ý nghĩa .......................................................................1 1.1.2 Thách thức của bài toán gom cụm luồng văn bản...........................................4 1.1.3 Các vấn đề nghiên cứu ....................................................................................8 1.1.4 Các bài toán nghiên cứu ..................................................................................8 1.2 Đóng góp của luận án và các công trình đã được công bố .................................. 10 1.3 Mục tiêu, phạm vi và phương pháp nghiên cứu ................................................... 11 1.3.1 Mục tiêu nghiên cứu......................................................................................11 1.3.2 Phạm vi nghiên cứu .......................................................................................12 1.3.3 Phương pháp nghiên cứu...............................................................................12 1.4 Cấu trúc của luận án ............................................................................................. 13 1.5 Kết chương ........................................................................................................... 13 CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN .................................................... 14 2.1 So sánh một số cách tiếp cận mới liên quan đến gom cụm luồng văn bản .......... 14 2.1.1 Phương pháp tiếp cận dựa trên mô hình chủ đề truyền thống ......................14 2.1.2 Phương pháp tiếp cận dựa trên mô hình hỗn hợp động ................................15 2.1.3 Phương pháp tiếp cận dựa trên biểu diễn không gian vectơ .........................16 2.1.4 Mô hình hóa chủ đề (Topic modeling)..........................................................16 2.1.5 Mô hình hỗn hợp dựa trên quy trình Dirichlet (DPMM) ..............................23 2.1.6 Đồ thị con phổ biến .......................................................................................32 2.1.7 Mô hình hóa sự nổi bật trên luồng văn bản của Kleinberg ...........................35 2.2 Kết chương ........................................................................................................... 40 CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN ĐỒ THỊ TỪ .................................................................................................................. 41 3.1 Phương pháp......................................................................................................... 41
3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW) .....................41 3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW) .....................................................43 3.1.3 Gom cụm luồng văn bản dựa trên mô hình hỗn hợp.....................................49 3.2 Thực nghiệm và bàn luận ..................................................................................... 62 3.3 Kết chương ........................................................................................................... 74 CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN ....... 75 4.1 Phương pháp......................................................................................................... 75 4.2 Thực nghiệm và bàn luận ..................................................................................... 88 4.3 Kết chương ......................................................................................................... 103 CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN .......................................... 104 5.1 Các kết quả đạt được, hạn chế và hướng phát triển ........................................... 104 5.2 Ý nghĩa học thuật và thực tiễn của luận án ........................................................ 106
BẢNG THUẬT NGỮ ANH – VIỆT Tiếng Anh Viết tắt Tiếng Việt Allocation Dirichlet Latent LDA Phân bổ tiềm ẩn Direntlet Bag of Word BOW Túi từ Benchmark Đối sánh Cluster validation Xác nhận cụm Common sub GOWs Đồ thị con phổ biến Concept/topic drift Dòng trôi khái niệm/chủ đề Corpus Kho ngữ liệu Density-based Dựa trên mật độ Dirichlet Process DP Quy trình Dirichlet Dirichlet-Hawkes Topic Model DHTM Mô hình chủ đề Dirichlet-Hawkes Document batch Lô tài liệu Dynamic Clustering Topic DCT Mô hình chủ đề gom cụm động Dynamic Topic Model DTM Mô hình chủ đề động Features of meaning Đặc trưng ngữ nghĩa Filtering Lọc Frequent sub-graph FSG Đồ thị con phổ biến Graph of Word GOW Đồ thị từ Microblogs Bài viết ngắn dạng blog Model’s hyper-parameter Độ nhạy của siêu tham số của mô hình sensitivity (viết ngắn là độ nhạy) Mstream MStream Thuật toán gom cụm luồng dữ liệu dựa trên mô hình hỗn hợp DP Noise Yếu tố nhiễu Outlier Ngoại lệ Politeness Độ sâu Preprocess Tiền xử lý Proximity measure Đo lường lân cận Sequence Monte Carlo SMC Tuần tự Monte Carlo Sparse nature Tính rời rạc tự nhiên Sparsity of text Sự rời rạc của văn bản Stemming and Lemmatization Trả từ về nguyên mẫu Stop word Từ dừng Streaming LDA ST-LDA Streaming LDA Survey Khảo sát
Tiếng Anh Viết tắt Tiếng Việt Temporal Dynamic Process Model TDPM Mô hình hỗn hợp quy trình Dirichlet theo thời gian Temporal model-LDA TM-LDA Mô hình LDA theo thời gian Temporal Text Mining TTM Khai phá văn bản theo thời gian Term Frequency TF Tần số từ Term Frequency-Invert Document TF-IDF Tần số từ -Tần số tài liệu nghịch đảo Frequency Text corpus Tập văn bản Text similarity Sự tương tự văn bản Text to Graph Text2graph Đồ thị hóa văn bản Trendy Keyword Extraction System TKES Hệ thống rút trích từ khóa tiêu biểu Tokenization Tách từ Topic tracking model TTM mô hình theo dõi chủ đề Vector Space model VSM Mô hình không gian vectơ Visualize Hiển thị trực quan Word relatedness Sự liên quan từ Word segmentation Tách từ Word similarity Sự tương tự từ Word vector Véc tơ từ
DANH MỤC BẢNG Bảng 1.1: Phân tích các điểm mạnh và tồn tại của các mô hình .....................................7 Bảng 3.1: Biểu diễn văn bản với BOW truyền thống....................................................42 Bảng 3.2: Biểu diễn văn bản với BOW và TF-IDF .......................................................42 Bảng 3.3: Biểu diễn văn bản với GOW .........................................................................48 Bảng 3.4: Biểu diễn văn bản kết hợp BOW và GOW ...................................................49 Bảng 3.5: Biểu diễn véc tơ chủ đề trong mô hình GOW-Stream ..................................62 Bảng 3.6: Chi tiết về bộ dữ liệu thử nghiệm .................................................................64 Bảng 3.7: Chi tiết về cấu hình cho các mô hình gom cụm luồng văn bản ....................66 Bảng 3.8: Kết quả đầu ra trung bình của tác vụ gom cụm văn bản với các mô hình khác nhau với độ đo NMI ......................................................................................................67 Bảng 3.9: Kết quả đầu ra thử nghiệm của tác vụ gom cụm văn bản với các mô hình khác nhau với độ đo F1 ..........................................................................................................67 Bảng 4.1: Các thuộc tính của nút và mối quan hệ .........................................................80 Bảng 4.2: Một ví dụ về tính toán chỉ số xếp hạng của từ ..............................................82 Bảng 4.3: Một ví dụ về tính tổng trọng số của từ khóa trong chuyên mục ...................83 Bảng 4.4: Thí dụ về cấu trúc lưu trữ Burst ....................................................................87 Bảng 4.5: Các Burst của từ khóa “Facebook” ...............................................................89 Bảng 4.6: Xác định danh sách từ xu thế chung với từ khóa “Facebook”......................90 Bảng 4.7: Thử nghiệm thời gian thực thi trên bộ thu thập thông tin .............................91 Bảng 4.8: Kiểm tra thời gian thực thi của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị..91 Bảng 4.9: Kiểm tra thời gian chạy của bộ xử lý ............................................................91 Bảng 4.10: Thời gian xử lý số lượng bài viết khác nhau với độ dài khác nhau ...........92 Bảng 4.11: Tỷ lệ giống nhau của dữ liệu sinh ra từ 2 thuật toán TF-IDF viết bằng ngôn ngữ lập trình khác nhau .................................................................................................93 Bảng 4.12: Tần số của từ khóa ......................................................................................94 Bảng 4.13: Một số tham số với word2Vec ....................................................................95 Bảng 4.14: Các từ liên quan đến từ khóa “Ứng dụng” ..................................................96
Bảng 4.15: So sánh mức độ tương đồng khi sử dụng các thước đo khoảng cách tương đồng khác nhau ..............................................................................................................96 Bảng 4.16: Thời gian huấn luyện các mô hình ..............................................................97 Bảng 4.17: Thời gian xử lý để tìm 10 từ liên quan .......................................................98 Bảng 4.18: Kiểm tra thời gian xử lý phát hiện Burst của các bài báo trong 19 ngày .100
DANH MỤC HÌNH Hình 1.1: Mối liên hệ giữa các bài toán và các công trình đã công bố đối với từng bài toán ................................................................................................................................11 Hình 2.1: Mô hình sinh LDA ........................................................................................18 Hình 2.2: Mô hình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet ..................26 Hình 2.3: Mô hình sinh của mô hình hỗn hợp hữu hạn .................................................27 Hình 2.4: Tỉ lệ của các sự kiện mục tiêu .......................................................................39 Hình 3.1: Hình ảnh minh họa cấu trúc đồ thị hóa văn bản (text2graph) với đồ thị vô hướng .............................................................................................................................43 Hình 3.2: Biểu diễn đồ thị từ của tập tài liệu 𝐷 .............................................................47 Hình 3.3: Tập đồ thị con phổ biến chung của tập tài liệu 𝐷 ..........................................48 Hình 3.4: Mô hình sinh của mô hình GOW-Stream......................................................52 Hình 3.5: Mô hình sinh của MStream & GOW-Stream ................................................53 Hình 3.6: Lưu đồ thuật toán GOW-Stream ...................................................................59 Hình 3.7: Kết quả thử nghiệm đối với số lượng lô tài liệu khác nhau với độ đo NMI .68 Hình 3.8: Kết quả thử nghiệm trên số lượng lô tài liệu khác nhau với độ đo F1 ..........68 Hình 3.9: So sánh với k-means sử dụng độ đo NMI .....................................................69 Hình 3.10: So sánh với k-means sử dụng độ đo F1.......................................................69 Hình 3.11: Khả năng nâng cao hiệu suất của các kỹ thuật gom cụm luồng văn bản khác nhau ...............................................................................................................................70 Hình 3.12: Tốc độ xử lý của GOW-Stream so với MStream khi tính luôn chi phí tìm đồ thị con phổ biến .............................................................................................................71 Hình 3.13: Đánh giá ảnh hưởng của số lần lặp đến tính chính xác của kết quả của mô hình GOW-Stream .........................................................................................................72 Hình 3.14: Kết quả thực nghiệm về ảnh hưởng của siêu tham số α ..............................73 Hình 3.15: Kết quả thực nghiệm về ảnh hưởng của siêu tham số β ..............................73 Hình 4.1: Hệ thống được đề xuất phục vụ tìm cụm từ xu thế .......................................76 Hình 4.2: Kiến trúc hệ thống TKES ..............................................................................77
Hình 4.3: Trình tự xử lý của hệ thống TKES ................................................................78 Hình 4.4: Luồng văn bản đến liên tục theo thời gian ....................................................79 Hình 4.5: Cấu trúc lưu trữ dạng cây ..............................................................................79 Hình 4.6: Cấu trúc lưu trữ chung và ví dụ .....................................................................80 Hình 4.7: Ví dụ về các bước xử lý rút trích từ khóa......................................................81 Hình 4.8: Cấu trúc lưu trữ dùng để phát hiện sự nổi bật ...............................................86 Hình 4.9: Phát hiện sự nổi bật đối với từ khóa “Facebook” ..........................................89 Hình 4.10: Ảnh hưởng của chiều dài bài viết và số lượng bài viết đối với thời gian chạy của bộ xử lý ...................................................................................................................92 Hình 4.11: So sánh chi phí giữa huấn luyện mới và huấn luyện cập nhật ....................97 Hình 4.12: Thời gian xử lý tìm 10 từ khóa liên quan ....................................................98 Hình 4.13: Thời gian xử lý phát hiện sự nổi bật..........................................................101 Hình 4.14: Cấu trúc lưu trữ dữ liệu chưa qua xử lý ....................................................101 Hình 4.15: Cấu trúc lưu trữ dữ liệu đã qua xử lý .......................................................102 Hình 4.16: Cấu trúc lưu trữ danh sách các từ khóa hàng đầu của bài viết ..................102 Hình 4.17: Cấu trúc lưu trữ danh sách các từ khóa hàng đầu của chuyên mục ..........103
DANH MỤC THUẬT TOÁN Thuật toán 2.1: Thuật toán Gibbs Sampling ..................................................................22 Thuật toán 2.2: Mô hình hỗn hợp Dirichlet hữu hạn .....................................................29 Thuật toán 2.3: Mô hình hỗn hợp Dirichlet vô hạn .......................................................31 Thuật toán 2.4: Thuật toán gSpanAlgorithm .................................................................33 Thuật toán 2.5: Thuật toán con Subgraph_Mining của gSpanAlgorithm .....................34 Thuật toán 3.1: Rút trích các đồ thị con phổ biến từ tập tài liệu đã cho (D) .................45 Thuật toán 3.2: Thuật toán GOW-Stream .....................................................................60 Thuật toán 4.1: Thuật toán tổng quát.............................................................................83 Thuật toán 4.2: Thuật toán thu thập dữ liệu ..................................................................84 Thuật toán 4.3: Tính tần số từ........................................................................................85
MỘT SỐ ĐỊNH NGHĨA Luồng dữ liệu [53]: là một chuỗi các phần tử vô hạn đếm được. Cấu trúc của các phần tử luồng trong các mô hình luồng khác nhau sẽ khác nhau. Xử lý luồng là phân tích các luồng dữ liệu đầu vào một cách nhanh chóng để đưa ra kết quả. Khi xử lý luồng, thời gian là khái niệm trung tâm và mỗi phần tử luồng được liên kết với một hoặc nhiều nhãn thời gian được chỉ định ví dụ như khi phần tử được tạo, hoặc khi phần tử sẵn sàng để xử lý... Luồng văn bản[10]: là chuỗi các văn bản được sắp xếp theo thứ tự đến nhanh chóng và liên tục theo thời gian trong hai dạng chính: tin tức và truyền thông xã hội. Khai phá văn bản[16]: là khai phá dữ liệu từ các bộ sưu tập dữ liệu văn bản với mục đích là khám phá kiến thức (hoặc thông tin, mẫu) từ dữ liệu văn bản không có cấu trúc hoặc bán cấu trúc. Gom cụm văn bản [47]: là tự động nhóm các tài liệu dạng văn bản (ví dụ: tài liệu ở dạng văn bản thuần túy, trang web, email, ...) thành các cụm (thường gọi là chủ đề) dựa trên sự giống nhau (tương đồng) về nội dung của chúng. Văn bản ngắn (short text): là các đoạn bình luận, trao đổi, nhận xét ngắn trên mạng xã hội với số lượng từ giới hạn (thường có vài từ, vài câu, chiều dài trung bình của văn bản trong các tập dữ liệu ngắn tiêu chuẩn thường khoảng 8 từ) khác với các tài liệu dài như các bài báo, văn bản, tin tức gồm nhiều đoạn văn. Sai lệch chủ đề (topic drift): là sự biến đổi các chủ đề kết quả gom cụm khi văn bản đến liên tục theo thời gian, chủ đề mới có thể xuất hiện, chủ đề cũ có thể biến mất. Đồ thị con phổ biến (Frequent subgraph/common sub GOW): là đồ thị con có tần số xuất hiện trong các đồ thị biểu diễn văn bản nhiều hơn một ngưỡng cho trước (min support). Khai phá đồ thị con phổ biến: là kỹ thuật dùng để rút trích ra tập hợp các đồ thị con phổ biến của tập văn bản 𝐷 đã cho và dựa trên tập hợp này để biễu diễn đặc trưng phân biệt cho các văn bản 𝑑 của tập văn bản. Quan hệ đồng hiện từ: là mối quan hệ khi các từ cùng xuất hiện với nhau trong văn bản. Trong phạm vi luận án này, mối quan hệ đồng hiện từ là sự xuất hiện cùng nhau của từng cặp từ trong văn bản, giữa 2 từ đứng cạnh nhau trong văn bản được biểu diễn bằng một cung nối (vô hướng) của đồ thị giữa 2 đỉnh là 2 từ. Sự nổi bật (burst): là khoảng thời gian liên tục mà từ khóa xuất hiện một cách dồn dập, khác thường trên luồng văn bản.
Phát hiện sự nổi bật (burst detection): là quá trình phát hiện ra sự nổi bật. Cụm từ xu thế (tiêu biểu) (trendy keywords): là một tập các từ hàng đầu/tiêu biểu xuất hiện nổi bật trong một sự nổi bật. Các sự nổi bật xu thế (tiêu biểu) (trendy bursts) là tập các sự nổi bật của từ khóa nào đó với trọng số sự nổi bật (burst weight) cao. Trọng số của sự nổi bật (burst weight) được tính dựa vào tổng trọng số của từ khóa (keyword weight). Trọng số của từ khóa (keyword weight) được tính dựa vào tổng tần số của từ khóa xuất hiện trong cùng một sự nổi bật.
TÓM TẮT Gần đây, với xu thế dữ liệu gia tăng, tốc độ cao, kích thước lớn và luôn biến đổi liên tục cần được xử lý theo thời gian thực, nhiều nghiên cứu liên quan đến luồng dữ liệu đã ra đời. Khai phá luồng dữ liệu là hướng nghiên cứu thu hút được nhiều sự quan tâm và Gom cụm là một kỹ thuật quan trọng. Là một dạng thức của luồng dữ liệu, luồng văn bản là chuỗi các văn bản được sắp xếp theo thứ tự đến nhanh chóng và liên tục theo thời gian trong hai dạng chính: Tin tức và truyền thông xã hội. Gom cụm luồng văn bản là một vấn đề quan trọng trong cộng đồng nghiên cứu khai phá dữ liệu văn bản có nhiều ứng dụng như phân nhóm văn bản, sắp xếp tài liệu, phát hiện và theo dõi chủ đề … Gom cụm văn bản là một quá trình phân vùng/nhóm một tập hợp các tài liệu chưa được gắn nhãn vào k chủ đề cụ thể phục vụ nhiều mục đích như: Trong ứng dụng phát hiện sự kiện xã hội, giúp xác định xu hướng đang được quan tâm hoặc đang được thảo luận thường xuyên về các chủ đề trong các mạng xã hội phổ biến gần đây; Trong truy xuất văn bản, giúp nhóm các kết quả tìm kiếm có liên quan để giúp người dùng dễ dàng rút trích thông tin cần thiết. Trong kỷ nguyên BigData, với sự gia tăng mạnh mẽ của các mạng xã hội trực tuyến, số lượng lớn nội dung do người dùng tạo ra thường ở dạng tài liệu văn bản ngắn như: bình luận của người dùng, tweet, bài đăng, … trên Twitter hoặc Facebook, … chứa đựng nhiều thông tin có giá trị đại diện cho các sự kiện thực tế nóng bỏng. Văn bản ngắn là các đoạn bình luận, trao đổi, nhận xét ngắn trên mạng xã hội với số lượng từ giới hạn (thường có vài từ, vài câu) so với các tài liệu dài như các bài báo, văn bản, tin tức gồm nhiều đoạn văn. Hầu hết các nghiên cứu về gom cụm văn bản truyền thống chủ yếu tập trung vào các văn bản tĩnh dài nên không thể áp dụng cho các luồng văn bản có tính chất thay đổi nhanh chóng hay các tài liệu văn bản ngắn. Việc gom cụm tài liệu văn bản ngắn khó khăn hơn do ba đặc tính chính, bao gồm: Độ dài tài liệu khác nhau (rất ngắn chỉ với vài từ hoặc rất dài); Độ rời rạc của đặc trưng dữ liệu văn bản và sự thay đổi nhanh các chủ đề hiện có trong các lô tài liệu văn bản khác nhau (đến tuần tự từ các luồng văn bản). Do đó, không thể áp dụng các kỹ thuật gom cụm văn bản truyền thống để xử lý các tập văn bản đến với tốc độ cao, rời rạc và có độ dài ngắn này. Vấn đề về tối ưu hóa khi gom cụm là một vấn đề quan trọng. Mô hình chủ đề là một trong những cách tiếp cận phổ biến nhất để xử lý tác vụ gom cụm luồng văn bản. Các mô hình dựa trên mô hình chủ đề được thiết kế dựa vào giả định rằng các tài liệu văn bản được tạo bởi một mô hình hỗn hợp. Sau đó, bằng cách ước tính các tham số của mô hình thông qua nhiều kỹ thuật, chẳng hạn như Lấy mẫu Gibbs (GS), Tuần tự Monte Carlo (SMC), …, để rút ra các phân phối chủ đề văn bản trên tập văn bản. Tuy nhiên, các mô hình này chỉ có thể đạt được hiệu suất cao với các tài liệu luồng văn bản dài theo
ngữ cảnh đủ phong phú. Gần đây, các mô hình DCT và MStream/MStreamF được đề xuất để vượt qua thách thức khi gom cụm luồng văn bản ngắn, tuy nhiên, vẫn gặp phải hạn chế chủ yếu bỏ qua các mối quan hệ từ bên trong khi suy ra các phân phối chủ đề từ các tài liệu đã cho. Có hai hạn chế chính khi gom cụm luồng văn bản từ các công trình đã công bố gần đây là không xử lý tốt tài liệu có độ dài ngắn và thiếu đánh giá mối quan hệ của từ trong khi suy ra sự phân bố chủ đề trên các tài liệu văn bản. Bên cạnh đó, vấn đề về nắm bắt thông tin ngữ nghĩa về thời gian xuất hiện của các từ trong văn bản đến theo thời gian từ đó nắm bắt được xu thế của từ có thể là một thách thức trong gom cụm luồng dữ liệu văn bản. Để giải quyết hai thách thức chính nêu trên, luận án đề xuất mô hình GOW-Stream thực hiện gom cụm trên luồng văn bản ngắn và có xem xét mối quan hệ đồng hiện giữa các từ trong nội dung văn bản. Từ các thách thức liên quan khác, luận án đề xuất hệ thống TKES, thuật toán phát hiện cụm từ xu thế trên luồng văn bản. Để hoàn thành nhiệm vụ phát hiện cụm từ xu thế, hệ thống TKES cũng nghiên cứu các cơ chế rút trích từ khóa, từ khóa tương đồng, cơ chế tiền xử lý dữ liệu văn bản tiếng Việt. Các kết quả nghiên cứu này dự kiến sử dụng để cải tiến thêm hiệu quả của mô hình GOW-Stream trong việc nắm bắt thêm xu hướng của các từ trong văn bản đến từ luồng khi thực hiện gom cụm. Như vậy các vấn đề nghiên cứu đặt ra trong luận án bao gồm: Vấn đề gom cụm luồng văn bản ngắn; Vấn đề gom cụm luồng văn bản với chủ đề không cố định; Vấn đề xét mối liên hệ đồng hiện giữa các từ trong gom cụm luồng văn bản; Vấn đề phát hiện cụm từ xu thế trong nắm bắt ngữ nghĩa về xu thế của từ trong văn bản đến từ luồng; Vấn đề biểu diễn đặc trưng văn bản khi gom cụm trên luồng văn bản. Từ đó, luận án đi giải quyết hai bài toán chính: gom cụm luồng văn bản theo ngữ nghĩa với đồ thị từ và nghiên cứu phát hiện các cụm từ xu thế trên luồng dữ liệu văn bản. Bài toán 1 đề xuất một cách tiếp cận áp dụng n-gram vào đồ thị hóa văn bản (text2graph) sử dụng kỹ thuật khai phá đồ thị con phổ biến (FSM) để rút trích các đồ thị con phổ biến từ kho ngữ liệu văn bản đã cho. Sau đó, sự xuất hiện của các đồ thị con phổ biến trong mỗi tài liệu văn bản được sử dụng để hỗ trợ quá trình ước tính phân phối của các chủ đề trên tài liệu. Mô hình đề xuất GOW-Stream là một mô hình dựa trên mô hình hỗn hợp dùng để xử lý hiệu quả tác vụ gom cụm luồng văn bản ngắn bằng cách kết hợp cả đánh giá từ độc lập (các từ riêng biệt trong mỗi tài liệu) và từ phụ thuộc (các từ cùng xuất hiện trong các đồ thị con phổ biến có xét mối quan hệ đồng hiện) không chỉ giải quyết các thách thức về sự thay đổi chủ đề của luồng văn bản mà còn cải thiện được
độ chính xác so sánh với các mô hình dựa trên đánh giá độc lập từ trước đó và đạt được tốc độ suy luận chủ đề nhanh hơn sau khi tốn thêm chi phí đồ thị hóa văn bản và tìm đồ thị con phổ biến. Các thử nghiệm mở rộng trên các bộ dữ liệu tiêu chuẩn của thế giới thực đã chứng minh được tính hiệu quả của mô hình GOW-Stream được đề xuất đối với tác vụ gom cụm luồng văn bản ngắn so sánh với các thuật toán hiện đại gần đây, như: DTM, Sumblr và MStream. Bài toán này được giải quyết dựa trên cơ sở lý thuyết bao gồm: Kỹ thuật đồ thị hóa văn bản, Kỹ thuật tìm đồ thị con phổ biến gSpan, Gom cụm luồng văn bản dựa trên mô hình hỗn hợp động, quy trình Dirichlet và nguyên lý Poly- Urn, nguyên lý nhà hàng Trung Hoa (CRP), kỹ thuật stick-breaking, kỹ thuật lấy mẫu Gibbs. Kết quả thực nghiệm được thực hiện liên quan đến: Độ chính xác; Tốc độ xử lý khi gom cụm; Tốc độ xử lý toàn cục có tính chi phí đồ thị hóa văn bản và tìm đồ thị con phổ biến; Ảnh hưởng của số lần lặp; Độ ổn định của mô hình khi thay đổi các tham số cho thấy mô hình đề xuất đạt được độ chính xác cao hơn các mô hình được so sánh mà không chịu ảnh hưởng nhiều về tốc độ xử lý, đạt được sự cân bằng về độ chính xác của kết quả trong phạm vi 7-10 lần lặp, đạt được hiệu suất ổn định về độ chính xác với các giá trị khác nhau của cả hai siêu tham số từ đó đưa ra kết luận là mô hình GOW-Stream đạt hiệu quả và ổn định trong việc thực hiện tác vụ gom cụm tài liệu trên luồng văn bản ngắn. Bài toán thứ 2 đề xuất hệ thống TKES với đóng góp chính là đề xuất thuật toán phát hiện sự nổi bật của từ khóa dựa trên thuật toán Kleinberg, một thuật toán đã được chứng minh tính hiệu quả và đã được tin tưởng ứng dụng vào nhiều lĩnh vực. Các thuật toán được đề xuất cũng bao gồm cả việc phát hiện các cụm từ xu thế và các sự nổi bật tiêu biểu hàng đầu của từ khóa. Để xây dựng hệ thống TKES, luận án cũng sử dụng các cơ chế rút trích từ khóa với TF-IDF, tìm từ khóa tương đồng sử dụng mạng Nơ ron để huấn luyện mô hình tìm tập từ khóa tương đồng, sử dụng mô hình Skip-gram, các độ đo so sánh độ tương đồng như Cosine, Euclidean, Manhattan, Minkowski, Jaccard, các kỹ thuật tiền xử lý dữ liệu văn bản tiếng Việt. Các kết quả thực nghiệm của nghiên cứu bao gồm: tính toán thời gian xử lý, so sánh thời gian xử lý giữa các giải pháp và giữa các tập dữ liệu khác nhau; Thu thập các tập dữ liệu nguồn và kết xuất kết quả thành các tập dữ liệu phục vụ cho các nghiên cứu liên quan.
Sử dụng phương pháp nghiên cứu tổng luận và phương pháp nghiên cứu thực nghiệm và so sánh, luận án công bố được 04 bài báo đăng kỷ yếu hội thảo quốc tế (ACM và Springer) và 02 bài báo đăng tạp chí (01 bài thuộc danh mục Scopus/Q3 và 01 bài thuộc danh mục SCIE/Q3). Sau cùng, báo cáo luận án được cấu trúc như sau: tóm tắt, chương 1 - giới thiệu, chương 2 - tổng quan tình hình nghiên cứu, chương 3&4 - 02 bài toán chính, chương 5 - kết luận và hướng phát triển, các công trình nghiên cứu đã thực hiện. Từ khóa: text stream clustering; topic model; graph-of-words; event detection; burst detection; keyword extraction; Kleinberg; trendy keywords;
ABSTRACT Coming continuously with high speed, large size, and changing rapidly, there is a need for data to be processed in real-time and many studies related to data stream have been carried out. Data stream mining is a research direction that has been attracting lots of attention and data stream clustering is an important technique. In form of a data stream, a text stream is a set of ordered texts that comes rapidly and continuously over time in two main forms: News and social media. Text stream clustering is an important issue in the text mining research community. This research direction has a wide variety of applications such as text stream clustering, document stream arrangement, topic detection, and tracking topic evolution. … Text clustering is the process of partitioning/grouping a collection of documents that have not been labeled into k specific categories/clusters/topics, serving many purposes such as: In a social event detection application, helping identify trends being of interest or being discussed regularly on topics in popular social networks; In text retrieval, helping to group relevant search results to help users easily extract necessary information. During the BigData era, with the proliferation of online social networks, the vast amount of content generated by users is often in the form of short text documents such as user comments, tweets, posts, etc on Twitter or Facebook, etc contain numerous valuable information representing reallife hot events. Most studies on traditional text clustering mainly focus on long static documents, so they cannot be applied to text streams that change rapidly or short length texts. Short length text clustering is more difficult due to three main issues, including different length (very short with only a few words or very long); the discrete of text feature, and the rapid change/evaluation of existing clusters/topics in different batches of text documents (coming sequentially from text streams). Therefore, it is not possible to apply traditional text clustering techniques to process these short, discrete, and high- speed incoming text sets. Optimization in clustering is an important issue. Topic modeling is one of the most common approaches to text stream clustering. Topic model-based models are designed on the assumption that the text document is generated by a mixed model. Then, by estimating model parameters through a variety of techniques, such as Gibbs Sampling (GS), Monte Carlo Sequence (SMC), etc, to infer subject/cluster distributions over text collections. However, these models can only achieve high performance with long length text streams which are rich enough contextual. Recently, DCT and MStream/MStreamF models have been proposed to overcome the challenge of clustering short-length text streams, however, they still encounter the limitation of mainly ignoring inside relationships when inferring topics/clusters distributions for a given document.