BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
----------------
VÕ THỊ HỒNG THẮM
KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Đồng Nai, năm 2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
----------------
VÕ THỊ HỒNG THẮM
KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Chuyên ngành: Khoa học máy tính
Mã số: 9480101
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. ĐỖ PHÚC
Đồng Nai, năm 2021
LỜI CẢM ƠN
Xin chân thành cảm ơn PGS.TS. Đỗ Phúc đã tận tình hướng dẫn nghiên cứu sinh
hoàn thành luận án tiến sĩ.
Xin chân thành cảm ơn quý thầy/cô khoa sau đại học, trường đại học Lạc Hồng đã
tạo điện kiện thuận lợi và hỗ trợ nghiên cứu sinh hoàn thành luận án.
Xin trân trọng cảm ơn trường đại học Thủ Dầu Một đã hỗ trợ nghiên cứu sinh tham
gia học tập tại trường đại học Lạc Hồng.
Xin chân thành cám ơn quý bạn bè, đồng nghiệp đã tạo điều kiện giúp đỡ nghiên
cứu sinh hoàn thành luận án.
Nghiên cứu sinh - Võ Thị Hồng Thắm
LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi dưới sự hướng
dẫn của PGS.TS. Đỗ Phúc. Các số liệu và tài liệu trong nghiên cứu là trung thực và chưa
được công bố trong bất kỳ công trình nghiên cứu nào. Tất cả các tham khảo và kế thừa đều được trích dẫn và tham chiếu đầy đủ.
Đồng Nai, ngày … tháng 5 năm 2021
Nghiên cứu sinh
Võ Thị Hồng Thắm
MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU .......................................................................................... 1
1.1 Tổng quan về đề tài luận án ................................................................................... 1
1.1.1 Bài toán nghiên cứu và ý nghĩa ....................................................................... 1
1.1.2 Thách thức của bài toán gom cụm luồng văn bản ........................................... 4
1.1.3 Các vấn đề nghiên cứu .................................................................................... 8
1.1.4 Các bài toán nghiên cứu .................................................................................. 8
1.2 Đóng góp của luận án và các công trình đã được công bố .................................. 10
1.3 Mục tiêu, phạm vi và phương pháp nghiên cứu ................................................... 11
1.3.1 Mục tiêu nghiên cứu ...................................................................................... 11
1.3.2 Phạm vi nghiên cứu ....................................................................................... 12
1.3.3 Phương pháp nghiên cứu ............................................................................... 12
1.4 Cấu trúc của luận án ............................................................................................. 13
1.5 Kết chương ........................................................................................................... 13
CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN .................................................... 14
2.1 So sánh một số cách tiếp cận mới liên quan đến gom cụm luồng văn bản .......... 14
2.1.1 Phương pháp tiếp cận dựa trên mô hình chủ đề truyền thống ...................... 14
2.1.2 Phương pháp tiếp cận dựa trên mô hình hỗn hợp động ................................ 15
2.1.3 Phương pháp tiếp cận dựa trên biểu diễn không gian vectơ ......................... 16
2.1.4 Mô hình hóa chủ đề (Topic modeling).......................................................... 16
2.1.5 Mô hình hỗn hợp dựa trên quy trình Dirichlet (DPMM) .............................. 23
2.1.6 Đồ thị con phổ biến ....................................................................................... 32
2.1.7 Mô hình hóa sự nổi bật trên luồng văn bản của Kleinberg ........................... 35
2.2 Kết chương ........................................................................................................... 40
CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN
ĐỒ THỊ TỪ .................................................................................................................. 41
3.1 Phương pháp ......................................................................................................... 41
3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW) ..................... 41
3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW) ..................................................... 43
3.1.3 Gom cụm luồng văn bản dựa trên mô hình hỗn hợp..................................... 49
3.2 Thực nghiệm và bàn luận ..................................................................................... 62
3.3 Kết chương ........................................................................................................... 74
CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN ....... 75
4.1 Phương pháp ......................................................................................................... 75
4.2 Thực nghiệm và bàn luận ..................................................................................... 88
4.3 Kết chương ......................................................................................................... 103
CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN .......................................... 104
5.1 Các kết quả đạt được, hạn chế và hướng phát triển ........................................... 104
5.2 Ý nghĩa học thuật và thực tiễn của luận án ........................................................ 106
BẢNG THUẬT NGỮ ANH – VIỆT
Tiếng Anh
Viết tắt
Tiếng Việt
Allocation Dirichlet Latent
Phân bổ tiềm ẩn Direntlet
LDA
BOW
Túi từ
Bag of Word
Đối sánh
Benchmark
Cluster validation
Xác nhận cụm
Common sub GOWs
Đồ thị con phổ biến
Concept/topic drift
Dòng trôi khái niệm/chủ đề
Corpus
Kho ngữ liệu
Density-based
Dựa trên mật độ
DP
Quy trình Dirichlet
Dirichlet Process
Dirichlet-Hawkes Topic Model
DHTM
Mô hình chủ đề Dirichlet-Hawkes
Document batch
Lô tài liệu
Dynamic Clustering Topic
DCT
Mô hình chủ đề gom cụm động
Dynamic Topic Model
DTM
Mô hình chủ đề động
Features of meaning
Đặc trưng ngữ nghĩa
Filtering
Lọc
Frequent sub-graph
FSG
Đồ thị con phổ biến
Graph of Word
GOW
Đồ thị từ
Microblogs
Bài viết ngắn dạng blog
Model’s hyper-parameter sensitivity
Độ nhạy của siêu tham số của mô hình (viết ngắn là độ nhạy)
Mstream
MStream
Thuật toán gom cụm luồng dữ liệu dựa trên mô hình hỗn hợp DP
Noise
Yếu tố nhiễu
Outlier
Ngoại lệ
Politeness
Độ sâu
Preprocess
Tiền xử lý
Proximity measure
Đo lường lân cận
Sequence Monte Carlo
SMC
Tuần tự Monte Carlo
Sparse nature
Tính rời rạc tự nhiên
Sparsity of text
Sự rời rạc của văn bản
Stemming and Lemmatization
Trả từ về nguyên mẫu
Stop word
Từ dừng
Streaming LDA
ST-LDA
Streaming LDA
Survey
Khảo sát
Tiếng Anh
Viết tắt
Tiếng Việt
Temporal Dynamic Process Model TDPM
Mô hình hỗn hợp quy trình Dirichlet
theo thời gian
Temporal model-LDA
TM-LDA Mô hình LDA theo thời gian
Temporal Text Mining
TTM
Khai phá văn bản theo thời gian
Term Frequency
TF
Tần số từ
Term Frequency-Invert Document
TF-IDF
Tần số từ -Tần số tài liệu nghịch đảo
Frequency
Text corpus
Tập văn bản
Text similarity
Sự tương tự văn bản
Text to Graph
Text2graph Đồ thị hóa văn bản
Trendy Keyword Extraction System TKES
Hệ thống rút trích từ khóa tiêu biểu
Tokenization
Tách từ
Topic tracking model
TTM
mô hình theo dõi chủ đề
Vector Space model
VSM
Mô hình không gian vectơ
Visualize
Hiển thị trực quan
Word relatedness
Sự liên quan từ
Word segmentation
Tách từ
Word similarity
Sự tương tự từ
Word vector
Véc tơ từ
DANH MỤC BẢNG
Bảng 1.1: Phân tích các điểm mạnh và tồn tại của các mô hình ..................................... 7
Bảng 3.1: Biểu diễn văn bản với BOW truyền thống .................................................... 42
Bảng 3.2: Biểu diễn văn bản với BOW và TF-IDF ....................................................... 42
Bảng 3.3: Biểu diễn văn bản với GOW ......................................................................... 48
Bảng 3.4: Biểu diễn văn bản kết hợp BOW và GOW ................................................... 49
Bảng 3.5: Biểu diễn véc tơ chủ đề trong mô hình GOW-Stream .................................. 62
Bảng 3.6: Chi tiết về bộ dữ liệu thử nghiệm ................................................................. 64
Bảng 3.7: Chi tiết về cấu hình cho các mô hình gom cụm luồng văn bản .................... 66
Bảng 3.8: Kết quả đầu ra trung bình của tác vụ gom cụm văn bản với các mô hình khác
nhau với độ đo NMI ...................................................................................................... 67
Bảng 3.9: Kết quả đầu ra thử nghiệm của tác vụ gom cụm văn bản với các mô hình khác
nhau với độ đo F1 .......................................................................................................... 67
Bảng 4.1: Các thuộc tính của nút và mối quan hệ ......................................................... 80
Bảng 4.2: Một ví dụ về tính toán chỉ số xếp hạng của từ .............................................. 82
Bảng 4.3: Một ví dụ về tính tổng trọng số của từ khóa trong chuyên mục ................... 83
Bảng 4.4: Thí dụ về cấu trúc lưu trữ Burst .................................................................... 87
Bảng 4.5: Các Burst của từ khóa “Facebook” ............................................................... 89
Bảng 4.6: Xác định danh sách từ xu thế chung với từ khóa “Facebook” ...................... 90
Bảng 4.7: Thử nghiệm thời gian thực thi trên bộ thu thập thông tin ............................. 91
Bảng 4.8: Kiểm tra thời gian thực thi của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị .. 91
Bảng 4.9: Kiểm tra thời gian chạy của bộ xử lý ............................................................ 91
Bảng 4.10: Thời gian xử lý số lượng bài viết khác nhau với độ dài khác nhau ........... 92
Bảng 4.11: Tỷ lệ giống nhau của dữ liệu sinh ra từ 2 thuật toán TF-IDF viết bằng ngôn ngữ lập trình khác nhau ................................................................................................. 93
Bảng 4.12: Tần số của từ khóa ...................................................................................... 94
Bảng 4.13: Một số tham số với word2Vec .................................................................... 95
Bảng 4.14: Các từ liên quan đến từ khóa “Ứng dụng” .................................................. 96
Bảng 4.15: So sánh mức độ tương đồng khi sử dụng các thước đo khoảng cách tương
đồng khác nhau .............................................................................................................. 96
Bảng 4.16: Thời gian huấn luyện các mô hình .............................................................. 97
Bảng 4.17: Thời gian xử lý để tìm 10 từ liên quan ....................................................... 98
Bảng 4.18: Kiểm tra thời gian xử lý phát hiện Burst của các bài báo trong 19 ngày . 100
DANH MỤC HÌNH
Hình 1.1: Mối liên hệ giữa các bài toán và các công trình đã công bố đối với từng bài
toán ................................................................................................................................ 11
Hình 2.1: Mô hình sinh LDA ........................................................................................ 18
Hình 2.2: Mô hình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet .................. 26
Hình 2.3: Mô hình sinh của mô hình hỗn hợp hữu hạn ................................................. 27
Hình 2.4: Tỉ lệ của các sự kiện mục tiêu ....................................................................... 39
Hình 3.1: Hình ảnh minh họa cấu trúc đồ thị hóa văn bản (text2graph) với đồ thị vô hướng ............................................................................................................................. 43
Hình 3.2: Biểu diễn đồ thị từ của tập tài liệu 𝐷 ............................................................. 47
Hình 3.3: Tập đồ thị con phổ biến chung của tập tài liệu 𝐷 .......................................... 48
Hình 3.4: Mô hình sinh của mô hình GOW-Stream ...................................................... 52
Hình 3.5: Mô hình sinh của MStream & GOW-Stream ................................................ 53
Hình 3.6: Lưu đồ thuật toán GOW-Stream ................................................................... 59
Hình 3.7: Kết quả thử nghiệm đối với số lượng lô tài liệu khác nhau với độ đo NMI . 68
Hình 3.8: Kết quả thử nghiệm trên số lượng lô tài liệu khác nhau với độ đo F1 .......... 68
Hình 3.9: So sánh với k-means sử dụng độ đo NMI ..................................................... 69
Hình 3.10: So sánh với k-means sử dụng độ đo F1 ....................................................... 69
Hình 3.11: Khả năng nâng cao hiệu suất của các kỹ thuật gom cụm luồng văn bản khác
nhau ............................................................................................................................... 70
Hình 3.12: Tốc độ xử lý của GOW-Stream so với MStream khi tính luôn chi phí tìm đồ thị con phổ biến ............................................................................................................. 71
Hình 3.13: Đánh giá ảnh hưởng của số lần lặp đến tính chính xác của kết quả của mô hình GOW-Stream ......................................................................................................... 72
Hình 3.14: Kết quả thực nghiệm về ảnh hưởng của siêu tham số α .............................. 73
Hình 3.15: Kết quả thực nghiệm về ảnh hưởng của siêu tham số β .............................. 73
Hình 4.1: Hệ thống được đề xuất phục vụ tìm cụm từ xu thế ....................................... 76
Hình 4.2: Kiến trúc hệ thống TKES .............................................................................. 77
Hình 4.3: Trình tự xử lý của hệ thống TKES ................................................................ 78
Hình 4.4: Luồng văn bản đến liên tục theo thời gian .................................................... 79
Hình 4.5: Cấu trúc lưu trữ dạng cây .............................................................................. 79
Hình 4.6: Cấu trúc lưu trữ chung và ví dụ ..................................................................... 80
Hình 4.7: Ví dụ về các bước xử lý rút trích từ khóa ...................................................... 81
Hình 4.8: Cấu trúc lưu trữ dùng để phát hiện sự nổi bật ............................................... 86
Hình 4.9: Phát hiện sự nổi bật đối với từ khóa “Facebook” .......................................... 89
Hình 4.10: Ảnh hưởng của chiều dài bài viết và số lượng bài viết đối với thời gian chạy
của bộ xử lý ................................................................................................................... 92
Hình 4.11: So sánh chi phí giữa huấn luyện mới và huấn luyện cập nhật .................... 97
Hình 4.12: Thời gian xử lý tìm 10 từ khóa liên quan .................................................... 98
Hình 4.13: Thời gian xử lý phát hiện sự nổi bật .......................................................... 101
Hình 4.14: Cấu trúc lưu trữ dữ liệu chưa qua xử lý .................................................... 101
Hình 4.15: Cấu trúc lưu trữ dữ liệu đã qua xử lý ....................................................... 102
Hình 4.16: Cấu trúc lưu trữ danh sách các từ khóa hàng đầu của bài viết .................. 102
Hình 4.17: Cấu trúc lưu trữ danh sách các từ khóa hàng đầu của chuyên mục .......... 103
DANH MỤC THUẬT TOÁN
Thuật toán 2.1: Thuật toán Gibbs Sampling .................................................................. 22
Thuật toán 2.2: Mô hình hỗn hợp Dirichlet hữu hạn ..................................................... 29
Thuật toán 2.3: Mô hình hỗn hợp Dirichlet vô hạn ....................................................... 31
Thuật toán 2.4: Thuật toán gSpanAlgorithm ................................................................. 33
Thuật toán 2.5: Thuật toán con Subgraph_Mining của gSpanAlgorithm ..................... 34
Thuật toán 3.1: Rút trích các đồ thị con phổ biến từ tập tài liệu đã cho (D) ................. 45
Thuật toán 3.2: Thuật toán GOW-Stream ..................................................................... 60
Thuật toán 4.1: Thuật toán tổng quát............................................................................. 83
Thuật toán 4.2: Thuật toán thu thập dữ liệu .................................................................. 84
Thuật toán 4.3: Tính tần số từ........................................................................................ 85
MỘT SỐ ĐỊNH NGHĨA
Luồng dữ liệu [53]: là một chuỗi các phần tử vô hạn đếm được. Cấu trúc của các
phần tử luồng trong các mô hình luồng khác nhau sẽ khác nhau. Xử lý luồng là phân tích các luồng dữ liệu đầu vào một cách nhanh chóng để đưa ra kết quả. Khi xử lý luồng,
thời gian là khái niệm trung tâm và mỗi phần tử luồng được liên kết với một hoặc nhiều
nhãn thời gian được chỉ định ví dụ như khi phần tử được tạo, hoặc khi phần tử sẵn sàng
để xử lý...
Luồng văn bản[10]: là chuỗi các văn bản được sắp xếp theo thứ tự đến nhanh
chóng và liên tục theo thời gian trong hai dạng chính: tin tức và truyền thông xã hội.
Khai phá văn bản[16]: là khai phá dữ liệu từ các bộ sưu tập dữ liệu văn bản với
mục đích là khám phá kiến thức (hoặc thông tin, mẫu) từ dữ liệu văn bản không có cấu trúc hoặc bán cấu trúc.
Gom cụm văn bản [47]: là tự động nhóm các tài liệu dạng văn bản (ví dụ: tài liệu
ở dạng văn bản thuần túy, trang web, email, ...) thành các cụm (thường gọi là chủ đề)
dựa trên sự giống nhau (tương đồng) về nội dung của chúng.
Văn bản ngắn (short text): là các đoạn bình luận, trao đổi, nhận xét ngắn trên
mạng xã hội với số lượng từ giới hạn (thường có vài từ, vài câu, chiều dài trung bình
của văn bản trong các tập dữ liệu ngắn tiêu chuẩn thường khoảng 8 từ) khác với các tài
liệu dài như các bài báo, văn bản, tin tức gồm nhiều đoạn văn.
Sai lệch chủ đề (topic drift): là sự biến đổi các chủ đề kết quả gom cụm khi văn
bản đến liên tục theo thời gian, chủ đề mới có thể xuất hiện, chủ đề cũ có thể biến mất.
Đồ thị con phổ biến (Frequent subgraph/common sub GOW): là đồ thị con có
tần số xuất hiện trong các đồ thị biểu diễn văn bản nhiều hơn một ngưỡng cho trước
(min support).
Khai phá đồ thị con phổ biến: là kỹ thuật dùng để rút trích ra tập hợp các đồ thị
con phổ biến của tập văn bản 𝐷 đã cho và dựa trên tập hợp này để biễu diễn đặc trưng
phân biệt cho các văn bản 𝑑 của tập văn bản.
Quan hệ đồng hiện từ: là mối quan hệ khi các từ cùng xuất hiện với nhau trong văn bản. Trong phạm vi luận án này, mối quan hệ đồng hiện từ là sự xuất hiện cùng nhau của từng cặp từ trong văn bản, giữa 2 từ đứng cạnh nhau trong văn bản được biểu diễn bằng một cung nối (vô hướng) của đồ thị giữa 2 đỉnh là 2 từ.
Sự nổi bật (burst): là khoảng thời gian liên tục mà từ khóa xuất hiện một cách dồn
dập, khác thường trên luồng văn bản.
Phát hiện sự nổi bật (burst detection): là quá trình phát hiện ra sự nổi bật.
Cụm từ xu thế (tiêu biểu) (trendy keywords): là một tập các từ hàng đầu/tiêu
biểu xuất hiện nổi bật trong một sự nổi bật.
Các sự nổi bật xu thế (tiêu biểu) (trendy bursts) là tập các sự nổi bật của từ khóa
nào đó với trọng số sự nổi bật (burst weight) cao. Trọng số của sự nổi bật (burst weight) được tính dựa vào tổng trọng số của từ khóa (keyword weight). Trọng số của từ khóa
(keyword weight) được tính dựa vào tổng tần số của từ khóa xuất hiện trong cùng một
sự nổi bật.
TÓM TẮT
Gần đây, với xu thế dữ liệu gia tăng, tốc độ cao, kích thước lớn và luôn biến đổi
liên tục cần được xử lý theo thời gian thực, nhiều nghiên cứu liên quan đến luồng dữ
liệu đã ra đời. Khai phá luồng dữ liệu là hướng nghiên cứu thu hút được nhiều sự quan
tâm và Gom cụm là một kỹ thuật quan trọng.
Là một dạng thức của luồng dữ liệu, luồng văn bản là chuỗi các văn bản được sắp
xếp theo thứ tự đến nhanh chóng và liên tục theo thời gian trong hai dạng chính: Tin tức
và truyền thông xã hội. Gom cụm luồng văn bản là một vấn đề quan trọng trong cộng đồng nghiên cứu khai phá dữ liệu văn bản có nhiều ứng dụng như phân nhóm văn bản,
sắp xếp tài liệu, phát hiện và theo dõi chủ đề … Gom cụm văn bản là một quá trình phân
vùng/nhóm một tập hợp các tài liệu chưa được gắn nhãn vào k chủ đề cụ thể phục vụ
nhiều mục đích như: Trong ứng dụng phát hiện sự kiện xã hội, giúp xác định xu hướng đang được quan tâm hoặc đang được thảo luận thường xuyên về các chủ đề trong các
mạng xã hội phổ biến gần đây; Trong truy xuất văn bản, giúp nhóm các kết quả tìm kiếm
có liên quan để giúp người dùng dễ dàng rút trích thông tin cần thiết. Trong kỷ nguyên
BigData, với sự gia tăng mạnh mẽ của các mạng xã hội trực tuyến, số lượng lớn nội
dung do người dùng tạo ra thường ở dạng tài liệu văn bản ngắn như: bình luận của người
dùng, tweet, bài đăng, … trên Twitter hoặc Facebook, … chứa đựng nhiều thông tin có
giá trị đại diện cho các sự kiện thực tế nóng bỏng. Văn bản ngắn là các đoạn bình luận,
trao đổi, nhận xét ngắn trên mạng xã hội với số lượng từ giới hạn (thường có vài từ, vài
câu) so với các tài liệu dài như các bài báo, văn bản, tin tức gồm nhiều đoạn văn. Hầu
hết các nghiên cứu về gom cụm văn bản truyền thống chủ yếu tập trung vào các văn bản
tĩnh dài nên không thể áp dụng cho các luồng văn bản có tính chất thay đổi nhanh chóng hay các tài liệu văn bản ngắn. Việc gom cụm tài liệu văn bản ngắn khó khăn hơn do ba
đặc tính chính, bao gồm: Độ dài tài liệu khác nhau (rất ngắn chỉ với vài từ hoặc rất dài);
Độ rời rạc của đặc trưng dữ liệu văn bản và sự thay đổi nhanh các chủ đề hiện có trong
các lô tài liệu văn bản khác nhau (đến tuần tự từ các luồng văn bản). Do đó, không thể
áp dụng các kỹ thuật gom cụm văn bản truyền thống để xử lý các tập văn bản đến với tốc độ cao, rời rạc và có độ dài ngắn này.
Vấn đề về tối ưu hóa khi gom cụm là một vấn đề quan trọng. Mô hình chủ đề là một trong những cách tiếp cận phổ biến nhất để xử lý tác vụ gom cụm luồng văn bản. Các mô hình dựa trên mô hình chủ đề được thiết kế dựa vào giả định rằng các tài liệu văn bản được tạo bởi một mô hình hỗn hợp. Sau đó, bằng cách ước tính các tham số của mô hình thông qua nhiều kỹ thuật, chẳng hạn như Lấy mẫu Gibbs (GS), Tuần tự Monte
Carlo (SMC), …, để rút ra các phân phối chủ đề văn bản trên tập văn bản. Tuy nhiên, các mô hình này chỉ có thể đạt được hiệu suất cao với các tài liệu luồng văn bản dài theo
ngữ cảnh đủ phong phú. Gần đây, các mô hình DCT và MStream/MStreamF được đề
xuất để vượt qua thách thức khi gom cụm luồng văn bản ngắn, tuy nhiên, vẫn gặp phải
hạn chế chủ yếu bỏ qua các mối quan hệ từ bên trong khi suy ra các phân phối chủ đề
từ các tài liệu đã cho.
Có hai hạn chế chính khi gom cụm luồng văn bản từ các công trình đã công bố gần đây là không xử lý tốt tài liệu có độ dài ngắn và thiếu đánh giá mối quan hệ của từ trong
khi suy ra sự phân bố chủ đề trên các tài liệu văn bản. Bên cạnh đó, vấn đề về nắm bắt
thông tin ngữ nghĩa về thời gian xuất hiện của các từ trong văn bản đến theo thời gian
từ đó nắm bắt được xu thế của từ có thể là một thách thức trong gom cụm luồng dữ liệu
văn bản.
Để giải quyết hai thách thức chính nêu trên, luận án đề xuất mô hình GOW-Stream
thực hiện gom cụm trên luồng văn bản ngắn và có xem xét mối quan hệ đồng hiện giữa
các từ trong nội dung văn bản. Từ các thách thức liên quan khác, luận án đề xuất hệ
thống TKES, thuật toán phát hiện cụm từ xu thế trên luồng văn bản. Để hoàn thành
nhiệm vụ phát hiện cụm từ xu thế, hệ thống TKES cũng nghiên cứu các cơ chế rút trích
từ khóa, từ khóa tương đồng, cơ chế tiền xử lý dữ liệu văn bản tiếng Việt. Các kết quả nghiên cứu này dự kiến sử dụng để cải tiến thêm hiệu quả của mô hình GOW-Stream
trong việc nắm bắt thêm xu hướng của các từ trong văn bản đến từ luồng khi thực hiện
gom cụm.
Như vậy các vấn đề nghiên cứu đặt ra trong luận án bao gồm: Vấn đề gom cụm
luồng văn bản ngắn; Vấn đề gom cụm luồng văn bản với chủ đề không cố định; Vấn đề
xét mối liên hệ đồng hiện giữa các từ trong gom cụm luồng văn bản; Vấn đề phát hiện
cụm từ xu thế trong nắm bắt ngữ nghĩa về xu thế của từ trong văn bản đến từ luồng; Vấn
đề biểu diễn đặc trưng văn bản khi gom cụm trên luồng văn bản. Từ đó, luận án đi giải
quyết hai bài toán chính: gom cụm luồng văn bản theo ngữ nghĩa với đồ thị từ và nghiên
cứu phát hiện các cụm từ xu thế trên luồng dữ liệu văn bản.
Bài toán 1 đề xuất một cách tiếp cận áp dụng n-gram vào đồ thị hóa văn bản (text2graph) sử dụng kỹ thuật khai phá đồ thị con phổ biến (FSM) để rút trích các đồ thị con phổ biến từ kho ngữ liệu văn bản đã cho. Sau đó, sự xuất hiện của các đồ thị con phổ biến trong mỗi tài liệu văn bản được sử dụng để hỗ trợ quá trình ước tính phân phối của các chủ đề trên tài liệu. Mô hình đề xuất GOW-Stream là một mô hình dựa trên mô hình hỗn hợp dùng để xử lý hiệu quả tác vụ gom cụm luồng văn bản ngắn bằng cách kết
hợp cả đánh giá từ độc lập (các từ riêng biệt trong mỗi tài liệu) và từ phụ thuộc (các từ cùng xuất hiện trong các đồ thị con phổ biến có xét mối quan hệ đồng hiện) không chỉ giải quyết các thách thức về sự thay đổi chủ đề của luồng văn bản mà còn cải thiện được
độ chính xác so sánh với các mô hình dựa trên đánh giá độc lập từ trước đó và đạt được
tốc độ suy luận chủ đề nhanh hơn sau khi tốn thêm chi phí đồ thị hóa văn bản và tìm đồ
thị con phổ biến. Các thử nghiệm mở rộng trên các bộ dữ liệu tiêu chuẩn của thế giới
thực đã chứng minh được tính hiệu quả của mô hình GOW-Stream được đề xuất đối với
tác vụ gom cụm luồng văn bản ngắn so sánh với các thuật toán hiện đại gần đây, như: DTM, Sumblr và MStream. Bài toán này được giải quyết dựa trên cơ sở lý thuyết bao
gồm: Kỹ thuật đồ thị hóa văn bản, Kỹ thuật tìm đồ thị con phổ biến gSpan, Gom cụm
luồng văn bản dựa trên mô hình hỗn hợp động, quy trình Dirichlet và nguyên lý Poly-
Urn, nguyên lý nhà hàng Trung Hoa (CRP), kỹ thuật stick-breaking, kỹ thuật lấy mẫu
Gibbs. Kết quả thực nghiệm được thực hiện liên quan đến: Độ chính xác; Tốc độ xử lý
khi gom cụm; Tốc độ xử lý toàn cục có tính chi phí đồ thị hóa văn bản và tìm đồ thị con
phổ biến; Ảnh hưởng của số lần lặp; Độ ổn định của mô hình khi thay đổi các tham số
cho thấy mô hình đề xuất đạt được độ chính xác cao hơn các mô hình được so sánh mà
không chịu ảnh hưởng nhiều về tốc độ xử lý, đạt được sự cân bằng về độ chính xác của
kết quả trong phạm vi 7-10 lần lặp, đạt được hiệu suất ổn định về độ chính xác với các
giá trị khác nhau của cả hai siêu tham số từ đó đưa ra kết luận là mô hình GOW-Stream đạt hiệu quả và ổn định trong việc thực hiện tác vụ gom cụm tài liệu trên luồng văn bản
ngắn.
Bài toán thứ 2 đề xuất hệ thống TKES với đóng góp chính là đề xuất thuật toán
phát hiện sự nổi bật của từ khóa dựa trên thuật toán Kleinberg, một thuật toán đã được
chứng minh tính hiệu quả và đã được tin tưởng ứng dụng vào nhiều lĩnh vực. Các thuật
toán được đề xuất cũng bao gồm cả việc phát hiện các cụm từ xu thế và các sự nổi bật
tiêu biểu hàng đầu của từ khóa. Để xây dựng hệ thống TKES, luận án cũng sử dụng các
cơ chế rút trích từ khóa với TF-IDF, tìm từ khóa tương đồng sử dụng mạng Nơ ron để
huấn luyện mô hình tìm tập từ khóa tương đồng, sử dụng mô hình Skip-gram, các độ đo
so sánh độ tương đồng như Cosine, Euclidean, Manhattan, Minkowski, Jaccard, các kỹ
thuật tiền xử lý dữ liệu văn bản tiếng Việt. Các kết quả thực nghiệm của nghiên cứu bao gồm: tính toán thời gian xử lý, so sánh thời gian xử lý giữa các giải pháp và giữa các tập dữ liệu khác nhau; Thu thập các tập dữ liệu nguồn và kết xuất kết quả thành các tập dữ liệu phục vụ cho các nghiên cứu liên quan.
Sử dụng phương pháp nghiên cứu tổng luận và phương pháp nghiên cứu thực
nghiệm và so sánh, luận án công bố được 04 bài báo đăng kỷ yếu hội thảo quốc tế (ACM
và Springer) và 02 bài báo đăng tạp chí (01 bài thuộc danh mục Scopus/Q3 và 01 bài
thuộc danh mục SCIE/Q3). Sau cùng, báo cáo luận án được cấu trúc như sau: tóm tắt,
chương 1 - giới thiệu, chương 2 - tổng quan tình hình nghiên cứu, chương 3&4 - 02 bài toán chính, chương 5 - kết luận và hướng phát triển, các công trình nghiên cứu đã thực
hiện.
Từ khóa: text stream clustering; topic model; graph-of-words; event detection;
burst detection; keyword extraction; Kleinberg; trendy keywords;
ABSTRACT
Coming continuously with high speed, large size, and changing rapidly, there is a need for data to be processed in real-time and many studies related to data stream have
been carried out. Data stream mining is a research direction that has been attracting lots
of attention and data stream clustering is an important technique.
In form of a data stream, a text stream is a set of ordered texts that comes rapidly
and continuously over time in two main forms: News and social media. Text stream
clustering is an important issue in the text mining research community. This research
direction has a wide variety of applications such as text stream clustering, document
stream arrangement, topic detection, and tracking topic evolution. … Text clustering is
the process of partitioning/grouping a collection of documents that have not been labeled
into k specific categories/clusters/topics, serving many purposes such as: In a social
event detection application, helping identify trends being of interest or being discussed
regularly on topics in popular social networks; In text retrieval, helping to group relevant
search results to help users easily extract necessary information. During the BigData era,
with the proliferation of online social networks, the vast amount of content generated by
users is often in the form of short text documents such as user comments, tweets, posts,
etc on Twitter or Facebook, etc contain numerous valuable information representing
reallife hot events. Most studies on traditional text clustering mainly focus on long static
documents, so they cannot be applied to text streams that change rapidly or short length
texts. Short length text clustering is more difficult due to three main issues, including
different length (very short with only a few words or very long); the discrete of text
feature, and the rapid change/evaluation of existing clusters/topics in different batches of text documents (coming sequentially from text streams). Therefore, it is not possible
to apply traditional text clustering techniques to process these short, discrete, and high-
speed incoming text sets.
Optimization in clustering is an important issue. Topic modeling is one of the most common approaches to text stream clustering. Topic model-based models are designed on the assumption that the text document is generated by a mixed model. Then, by estimating model parameters through a variety of techniques, such as Gibbs Sampling (GS), Monte Carlo Sequence (SMC), etc, to infer subject/cluster distributions over text
collections. However, these models can only achieve high performance with long length
text streams which are rich enough contextual. Recently, DCT and MStream/MStreamF models have been proposed to overcome the challenge of clustering short-length text
streams, however, they still encounter the limitation of mainly ignoring inside
relationships when inferring topics/clusters distributions for a given document.
There are two main limitations of recently published works when clustering text
streams, such as being unable to handle short texts and lack of word relationship
consideration, capturing semantic relations of words, while inferring topics distribution
on texts. In addition, the problem of ignoring timing features of word occurrences in the
text over time in order to capture the meaning of word trends can be a challenge in text stream clustering.
To solve the two main challenges mentioned above, this thesis proposes the GOW-
Stream model which can handle clustering over short-length text streams and
considering the relationships between words based on their co-occurences within text
contents. To tackle other related challenges, the thesis also proposes the TKES system
with an algorithm to detect bursty words on text streams. In order to complete the task
of detecting bursty words, the TKES system applies methods of extracting keywords,
finding related words of keywords, and preprocessing methods for Vietnamese texts.
The results from the TKES are expected to be used to improve the efficiency of the
GOW-Stream model by capturing the trends of words in texts coming from the stream
when performing clustering tasks.
Thus, the research issues of the thesis are as follows: The problem of clustering
short length text streams; The problem of clustering text stream with non-fixed topics;
The problem of considering the co-occurence relationships between words in text stream
clustering; The problem of detecting bursty words to capture semantics about the trend
of words in texts coming from text streams; The problem of text representation when
clustering text streams. In general, the thesis tackles two main issues: clustering
semantic text stream using graphs of words and detecting bursty words on text stream.
To solve the first issue, the thesis proposes an approach to apply n-gram to
text2graphs using frequent subgraph mining (FSM) technique to extract common sub
GOWs from the given text corpus. Then, the occurrences of the common sub GOWs in
each document are used to support the process of estimating the distribution of topics assigned to the document. The proposed model GOW-Stream is a mixed model-based model used to efficiently handle the task of clustering over short length text streams by combining both independent word evaluations (separate words in each document ) and dependent words evaluations (words that appear together in common sub GOWs based on their co-occurrences in texts). The model not only solves the challenges of the topic
changes of the short length text streams but also improves accuracy compared to models
based on word independent evaluation as well as a little bit improve the speed of clustering process while costing more for text2graph and frequent subgraph detecting
activities. Extensive experiments on standard real-world datasets have demonstrated the
effectiveness of the proposed GOW-Stream model for short text stream clustering
compared with recent modern algorithms, like DTM, Sumblr, and MStream. This
problem is solved based on the basis of theories including texts to graphs technique,
GSpan frequent subgraph mining technique, clustering text stream based on dynamic
mixed model, Dirichlet process, Poly-Urn principles, Chinese restaurant process (CRP), stick-breaking techniques, and Gibbs sampling techniques. Experiments are performed
related to the accuracy, processing speed of the clustering process, processing speed of
the general process (including the text2graph and frequent subgraph detecting
activities), the effect of iterations, model stability when changing parameters shows that
the proposed model achieves higher accuracy than the compared models without much
influence on slowing down the processing speed, achieving a balance of accuracy of
results within 7-10 iterations, achieving stable performance in terms of accuracy with
different values of both hyperparameters from which it is concluded that the GOW-
Stream model is effective, efficient, and stable in performing the task of clustering short
length text stream.
To tackle the second main problem, the thesis proposes the TKES system with the main contribution of proposing an algorithm to detect keyword bursts based on the
Kleinberg algorithm, an algorithm that has been proven effective, trusted, and used in
many fields. The proposed algorithms also detect trendy keywords and trendy bursts.
To build this TKES system, the thesis applies the keyword extraction method using TF-
IDF, finds similar keywords using the Neural network to train the model in order to find
similar keyword sets, uses the Skip-gram model, similarity measures like Cosine,
Euclidean, Manhattan, Minkowski, and Jaccard, and Vietnamese text data
preprocessing techniques. The experimental results of the study include processing
speed calculation, processing speed comparison between solutions and between
different data sets, data sets collection, and dataset exportation from results used for
related studies.
Using the theoretical research methodology and the experimental and comparative
research method, the thesis has published four articles in international conference
proceedings (ACM and Springer) and two journal articles (one articles in a Scopus/Q3
journal and another in a SCIE/Q3 journal). Finally, the thesis report is structured as
follows: summary, chapter 1 - introduction, chapter 2 - literature review, chapters 3 & 4 – the two main problems, chapter 5 – conclusions and future work, study work.
Keywords: text stream clustering; topic model; graph-of-words; event detection;
burst detection; keyword extraction; Kleinberg; trendy keywords;
1
CHƯƠNG 1: GIỚI THIỆU
Chương này trình bày bức tranh tổng quan về luận án gồm: Giới thiệu bài toán nghiên
cứu và ý nghĩa; Các đóng góp của luận án và ý nghĩa; Phương pháp thực hiện; Cấu trúc
của luận án.
1.1 Tổng quan về đề tài luận án
1.1.1 Bài toán nghiên cứu và ý nghĩa
Dữ liệu ngày càng tăng do ngày càng có nhiều mạng xã hội, diễn đàn, phương tiện
truyền thông, thiết bị cảm ứng và người dùng điện thoại thông minh cũng đã và đang
tạo ra lượng lớn dữ liệu. Số lượng thiết bị được kết nối đang tăng dần và các thiết bị này
liên tục tạo ra các luồng dữ liệu [106]. Theo [53], luồng dữ liệu là một chuỗi vô hạn các
phần tử đếm được. Các mô hình khác nhau của luồng dữ liệu có các cách tiếp cận khác
nhau liên quan đến khả năng thay đổi của luồng và cấu trúc của các phần tử luồng. Xử
lý luồng là việc phân tích các luồng dữ liệu để thu được kết quả mới với dữ liệu đầu vào
mới. Thời gian là yêu cầu trọng tâm trong xử lý luồng: trong hầu hết các mô hình luồng,
mỗi phần tử luồng được liên kết với một hoặc nhiều nhãn thời gian, ví dụ: nhãn thời
gian được xác định khi phần tử được tạo, dựa vào tính hợp lệ của nội dung, hoặc khi
phần tử sẵn sàng để xử lý. Gom cụm là một trong các hướng nghiên cứu liên quan đến
khai phá luồng dữ liệu.
Theo [55], các phương pháp gom cụm thường được sử dụng để hiểu về các nhóm
người dùng, tài liệu hoặc các nội dung khác. Một tập dữ liệu chẳng hạn như một tập hồ
sơ chứa đầy các con số và giá trị có thể sẽ rất khó hiểu, và người ta thường có nhu cầu nhóm toàn bộ thành các nhóm nhỏ hơn, mỗi nhóm chứa các mục tương tự với nhau từ đó có thể phân tích và kiểm tra dễ dàng hơn. Phương pháp phổ biến để gom cụm là sử dụng một kho ngữ liệu văn bản chứa các tài liệu với nhiều chủ đề khác nhau. Để phân loại tất cả các tài liệu theo chủ đề từ đó tài liệu có thể được sử dụng và truy xuất nhanh hơn, toàn bộ kho tài liệu có thể được phân tích bằng phương pháp gom cụm, phân tách tài liệu thành các nhóm sao cho tài liệu trong mỗi nhóm có liên quan hay tương đồng với nhau và với các chủ đề của từng nhóm.
Là một dạng thức của luồng dữ liệu, luồng văn bản là một loại luồng dữ liệu đặc biệt, trong đó dữ liệu là các tài liệu văn bản đến liên tục [10], luồng văn bản là chuỗi các
văn bản được sắp xếp theo thứ tự, đến nhanh chóng và liên tục theo thời gian trong hai
2
dạng chính: tin tức và truyền thông xã hội. Khai phá văn bản, theo [16], là hoạt động
khai thác dữ liệu từ các bộ sưu tập dữ liệu văn bản với mục đích là khám phá kiến thức
(hoặc thông tin, mẫu) từ dữ liệu văn bản không có cấu trúc hoặc bán cấu trúc. Vấn đề
về khai phá luồng văn bản cũng thu hút nhiều sự quan tâm với nhiều nghiên cứu liên
quan như: Xử lý ngôn ngữ tự nhiên, Thu thập thông tin [49], Phát hiện chủ đề, Định nghĩa từ ngữ, Khai phá thông tin, Phân tích mạng xã hội [35], Tóm tắt văn bản [25, 28],
Phân tích cảm xúc, Mô hình không gian Vector, Phân lớp văn bản, Gom cụm văn bản,
vv…
Trong các nghiên cứu về khai phá luồng văn bản, gom cụm luồng văn bản là một
vấn đề quan trọng trong cộng đồng nghiên cứu có nhiều ứng dụng như phân nhóm văn
bản, sắp xếp tài liệu, phát hiện và theo dõi chủ đề …Theo [47], gom cụm văn bản là tự
động nhóm các tài liệu dạng văn bản (ví dụ: tài liệu ở dạng văn bản thuần túy, trang
web, email, ...) thành các cụm dựa trên sự giống nhau hay tương đồng về nội dung của
chúng. Vấn đề gom cụm văn bản có thể được định nghĩa như sau. Cho một tập hợp gồm 𝑛 tài liệu được ký hiệu là 𝐷 = {𝑑1, 𝑑2, … , 𝑑𝑛} và một số cụm được xác định trước 𝐾 (thường do người dùng thiết lập), 𝐷 được nhóm thành 𝑘 cụm tài liệu Z={𝑧1, 𝑧2, … , 𝑧𝑘} sao cho các tài liệu trong cùng một cụm tương đồng nhau và các tài liệu khác cụm không
tương đồng nhau. Tùy theo mục đích gom cụm mà sự tương đồng được định nghĩa khác
nhau và tùy theo mô hình gom cụm mà cách thức suy luận cụm dành cho tài liệu cũng
khác nhau. Khi gom cụm trên luồng văn bản, số lượng cụm sẽ thay đổi theo thời gian vì
văn bản đến trên luồng thay đổi. Do đó, không thể xác định trước được số cụm.
Hiện nay, gom cụm luồng văn bản là một vấn đề có ý nghĩa trong hoạt động khai
phá dữ liệu với nhiều ứng dụng mang tính thực tiễn cao như lọc nhóm tin tức, thu thập
văn bản, tổ chức tài liệu, phát hiện và theo dõi chủ đề, gom cụm email ... Ví dụ: trong
ứng dụng phát hiện sự kiện xã hội, gom cụm văn bản có thể giúp xác định xu hướng
đang được quan tâm hoặc đang được thảo luận thường xuyên về các chủ đề trong các
mạng xã hội phổ biến gần đây (như: COVID-19, cuộc chiến thương mại của Trung Quốc Hoa Kỳ,…). Hoặc trong truy xuất văn bản, gom cụm văn bản có thể giúp nhóm các kết quả tìm kiếm có liên quan (dưới dạng tài liệu văn bản) để giúp người dùng dễ dàng rút trích thông tin cần thiết. Gom cụm văn bản ban đầu được phát triển để cải thiện hiệu suất của các công cụ tìm kiếm thông qua phân nhóm trước toàn bộ ngữ liệu. Sau này, gom cụm văn bản sau này cũng đã được được nghiên cứu để duyệt tài liệu kết quả sau
khi trích xuất. Một vài bài toán liên quan đến gom cụm văn bản có thể kể đến:
Cải thiện kết quả rút trích tài liệu bằng cách sử dụng các tài liệu đã được gom cụm.
Phân loại được tài liệu giúp cải thiện quá trình duyệt nội dung các tài liệu văn bản.
Kết quả gom cụm giúp nhận dạng nội dung tin tức giả [33].
3
Ứng dụng vào dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
Ứng dụng vào lọc thư rác.
Phân tích vấn đề hỗ trợ khách hàng: Xác định các vấn đề hỗ trợ thường xuyên diễn
ra.
Sau đây là một số ví dụ về ứng dụng vào doanh nghiệp liên quan đến gom cụm
văn bản:
Tạo lộ trình sản phẩm (product roadmap): Với kết quả gom cụm văn bản, tất cả các bài đánh giá của khách hàng và đối tượng mục tiêu của doanh nghiệp có thể
được phân tích và sử dụng để tạo ra một lộ trình gồm các tính năng và sản phẩm mà họ sẽ yêu thích. Ngoài ra, kết quả gom cụm có thể giúp phân tích các đánh giá
của đối thủ cạnh tranh để tìm ra những đối tượng muốn công kích, chống phá.
Xác định các vấn đề hỗ trợ định kỳ: Nhóm hỗ trợ khách hàng hay được hỏi những câu hỏi giống nhau ngày này qua ngày khác. Tuy nhiên, thật khó để phân tích thực
sự những điểm khó khăn mà khách hàng có thể gặp phải khi sử dụng sản phẩm và giải quyết chính xác. Gom cụm văn bản sẽ cho phép người dùng không chỉ xem
mức độ thường xuyên (hoặc không thường xuyên) của một vấn đề mà còn có thể
giúp xác định gốc rễ của vấn đề.
Tạo bản tin tiếp thị tốt hơn: Một trường hợp sử dụng khác để gom cụm văn bản là trong bản sao tiếp thị. Một tổ chức có thể đã chạy hàng nghìn quảng cáo khác nhau
và có nhiều dữ liệu. Nhưng việc hiểu được ngôn ngữ của quảng cáo tác động đến
hiệu suất có thể rất khó. Rất khó để phát hiện các xu hướng trong dữ liệu phi cấu
trúc, chẳng hạn như bản tin tiếp thị, đây là nơi mà việc gom cụm văn bản có thể
phát huy tác dụng. Kỹ thuật này có thể phân tích và chia nhỏ các chủ đề và từ có
tỷ lệ trao đổi cao nhất cho phép tạo bản tin có hiệu quả tiếp thị cao.
Gần đây, chúng ta đang bước vào kỷ nguyên dữ liệu lớn, với sự gia tăng mạnh mẽ
của các mạng xã hội trực tuyến có hàng tỷ người dùng tương tác với nhau mỗi ngày.
Các phương tiện truyền thông xã hội trực tuyến này đã tạo điều kiện cho sự phát triển và lan truyền nhanh chóng các tin tức trực tuyến và tài nguyên kỹ thuật số tới bất kỳ ai có thể kết nối Internet. Trên thực tế, số lượng lớn nội dung kỹ thuật số do người dùng này tạo ra thường ở dạng văn bản ngắn như: bình luận của người dùng, tweet, bài đăng, … trên Twitter hoặc Facebook, … mang thông tin có giá trị [2, 104] [105] đại diện cho các sự kiện thực tế nóng bỏng, chẳng hạn như bàn luận xã hội về sự lây lan của virus COVID-19, cuộc đụng độ Trung Quốc và Ấn Độ 2020, cuộc chiến thương mại của Trung Quốc và Hoa Kỳ…
4
Khi gom cụm văn bản, văn bản được phân chia thành nhiều cụm khác nhau, mỗi
cụm đại diện cho một chủ đề nên ta có thể xem bài toán gom cụm trên luồng văn bản là
bài toán nhóm các văn bản đến trên luồng với nhau và xác định chủ đề thích hợp cho
từng nhóm văn bản.
1.1.2 Thách thức của bài toán gom cụm luồng văn bản
Từ xưa đến nay, hầu hết các nghiên cứu về gom cụm văn bản chủ yếu tập trung
vào các văn bản tĩnh và dài. Trên thực tế, các mô hình được thiết kế cho phương pháp
gom cụm truyền thống này không thể áp dụng cho các tập ngữ liệu văn bản có tốc độ thay đổi nhanh chóng, gồm các tài liệu văn bản ngắn như bình luận/bài đăng/microblog
trên các mạng xã hội như: Twitters, Facebook, ... gom cụm văn bản ngắn (được áp dụng
vào nhiều lĩnh vực như đa dạng hóa kết quả tìm kiếm, phát hiện sự kiện và tóm tắt tài
liệu [59], hệ thống khuyến nghị [17]) khó khăn hơn so với phương pháp gom cụm văn
bản tĩnh truyền thống do ba đặc tính chính, bao gồm độ dài tài liệu khác nhau (rất ngắn
chỉ với vài từ hoặc rất dài), độ rời rạc của đặc trưng dữ liệu văn bản và sự thay đổi nhanh
chóng của các chủ đề trong các lô tài liệu văn bản khác nhau (đến tuần tự từ các luồng văn bản). Ngoài ra, trong trường hợp dữ liệu văn bản truyền phát nhanh từ các nguồn tài
nguyên truyền thông xã hội, không thể áp dụng các kỹ thuật gom cụm văn bản truyền
thống để xử lý các bộ sưu tập văn bản đến với tốc độ cao và sự rời rạc của các tập dữ
liệu văn bản ngắn này.
Gần đây, nhiều nhà nghiên cứu đã chú ý rất nhiều vào các nghiên cứu gom cụm
luồng văn bản liên quan để tối ưu hóa hiệu suất về cả tính chính xác của gom cụm và
thời gian xử lý của mô hình. Mô hình chủ đề là một trong những cách tiếp cận phổ biến
nhất để xử lý tác vụ gom cụm luồng văn bản. Các mô hình dựa trên mô hình chủ đề
được thiết kế dựa vào giả định rằng các tài liệu văn bản được tạo bởi một mô hình hỗn
hợp. Sau đó, bằng cách ước tính các tham số của mô hình thông qua nhiều kỹ thuật,
chẳng hạn như Lấy mẫu Gibbs (GS), Tuần tự Monte Carlo (SMC), …, để rút ra các phân phối chủ đề văn bản trên tập ngữ liệu văn bản. Lấy cảm hứng từ mô hình Phân bố ẩn Dirichlet ban đầu (LDA) [15], một số phần mở rộng đã được đề xuất để giải quyết các tác vụ mô hình hóa luồng văn bản, chẳng hạn như các mô hình nổi tiếng: DTM (năm 2006) [14], TM-LDA (năm 2012) [85], LDM (năm 2015)[68], USTM (năm 2015) [95], ST-LDA (năm 2016) [9], DCT (năm 2016) [50], MStream/MstreamF (năm 2018) [97],
BTM (năm 2018) [36], DP-BMM (năm 2020) [20], GSDMM (năm 2020) [1]... Các kỹ thuật dựa trên mô hình hỗn hợp này cố gắng tìm ra các phân phối chủ đề trên các tài liệu trong luồng văn bản đã cho để hoàn thành nhiệm vụ gom cụm. Tuy nhiên, các mô hình
5
dựa trên LDA như DTM, TM-LDA, ST-LDA, ... không thể áp dụng để xử lý các tài liệu
văn bản ngắn. Do hạn chế xuất phát từ bản chất của các kỹ thuật dựa trên LDA, mô hình
hỗn hợp tài liệu chủ đề phải có được số lượng từ phổ biến phù hợp từ mỗi tài liệu mới
có thể suy ra các chủ đề đạt chất lượng cao. Do đó, các mô hình dựa trên LDA này chỉ
có thể đạt được hiệu suất cao với các tài liệu luồng văn bản dài theo ngữ cảnh đủ phong phú. GPU-DMM [16] [46] khai thác kiến thức nền tảng đã học được từ hàng triệu tài
liệu bên ngoài để cải thiện mô hình chủ đề của các văn bản ngắn. Tuy nhiên, mô hình
này là một mô hình ngoại tuyến (offline). Gần đây, các mô hình DCT và
MStream/MStreamF được đề xuất để vượt qua thách thức khi gom cụm luồng văn bản
ngắn, tuy nhiên, các mô hình này vẫn gặp phải hạn chế chủ yếu bỏ qua các mối quan hệ
từ bên trong khi suy ra các phân phối chủ đề từ các tài liệu đã cho.
Có hai thách thức chính khi gom cụm luồng văn bản đã được các nhà nghiên cứu
tìm hiểu trước kia. Thách thức chính đầu tiên liên quan đến tài liệu ngắn trong các luồng
văn bản, đặc biệt xảy ra trong cách tiếp cận dựa trên mô hình chủ đề. Thách thức thứ hai
trong gom cụm luồng văn bản là thiếu đánh giá mối liên hệ giữa các từ trong văn bản,
chẳng hạn sự đồng xuất hiện của các cặp từ hay mối quan hệ ngữ nghĩa giữa các từ…, trong khi suy ra chủ đề cho các văn bản của luồng.
Hạn chế trong gom cụm luồng văn bản ngắn
Một cơ chế chính để suy ra chủ đề - mỗi chủ đề là phân bố rời rạc của một tập các
từ - là sử dụng cách tiếp cận mô hình chủ đề hay mô hình hỗn hợp trong gom cụm luồng
văn bản chủ yếu dựa vào nội dung (các từ phân tán) của tài liệu. Nội dung của tài liệu
trong luồng phải đủ phong phú (có số lượng từ xuất hiện hợp lý) để có thể suy ra đúng
phân phối đa thức của chủ đề trên mỗi tài liệu. Do đó, với số lượng từ xuất hiện thấp
trong tài liệu (chỉ có vài từ), độ chính xác của mô hình tổng thể sẽ giảm đáng kể. Các
nghiên cứu gần đây chứng minh rằng hầu hết các kỹ thuật gom cụm luồng văn bản dựa
trên mô hình chủ đề hay mô hình hỗn hợp không thể đạt được hiệu suất tốt đối với các văn bản ngắn, chỉ có vài từ như nhận xét hoặc blog nhỏ trên mạng xã hội. Đã có nhiều nghiên cứu về gom cụm trên luồng văn bản ngắn [13, 27, 45, 46, 65, 66, 73, 82, 97, 99, 108]. Trên thực tế, một trong những khó khăn lớn trong việc gom cụm dữ liệu phát trực tuyến là sự thay đổi nhanh chóng số lượng các chủ đề theo thời gian, chẳng hạn như các
xu hướng “nóng” hoặc các chủ đề thảo luận thường xuyên trên các mạng xã hội phổ
biến như Facebook, Twitter…. Do đó, phân phối chủ đề của các luồng văn bản luôn biến
động theo thời gian do sự thay đổi liên tục các chủ đề. Nhiều văn bản ngắn trong mỗi
luồng đến bao gồm các chủ đề khác nhau và có tính chất rời rạc trong cấu trúc thô của
chúng. Trong cách tiếp cận dựa trên mô hình hóa chủ đề, việc chọn đúng số cụm cho
6
mỗi lô tài liệu từ một luồng nào đó với sự đa dạng của cấu trúc văn bản và các chủ đề
được bao phủ không phải là một nhiệm vụ dễ dàng. Hơn nữa, việc áp dụng số lượng chủ
đề cố định như cách tiếp cận mô hình hóa chủ đề trước đây (vốn là hạn chế của rất nhiều
công trình chẳng hạn như [67, 107]) cho tất cả các lô tài liệu trong một luồng văn bản
nhất định không linh hoạt và không thể giải quyết vấn đề chủ đề thay đổi liên tục khi văn bản đến liên tục. Do đó, việc xác định những thay đổi về phân bố chủ đề của các tài
liệu văn bản có độ dài rất ngắn như bình luận (Facebook), tweet (Twitter), ... là nhiệm
vụ cực kỳ khó khăn và thu hút rất nhiều sự quan tâm của nhiều nhà nghiên cứu trong
những năm gần đây.
Thiếu xem xét mối quan hệ giữa các từ
Mối quan hệ giữa các từ được hiểu ở đây có thể là mối quan hệ của các từ trong
các ngữ cảnh cụ thể của văn bản. Bên cạnh những thách thức liên quan đến vấn đề văn
bản đến liên tục làm thay các chủ đề cũng thay đổi theo trong gom cụm luồng văn bản
ngắn, việc không xem xét mối quan hệ giữa các từ cũng là một hạn chế lớn của các
phương pháp gom cụm luồng văn bản gần đây. Trong hầu hết các kỹ thuật gom cụm luồng văn bản dựa trên mô hình chủ đề, các từ của văn bản được đánh giá độc lập mà
không xem xét các mối quan hệ của chúng trong các ngữ cảnh văn bản cụ thể. Vốn dĩ
tài liệu văn bản là một cấu trúc tự nhiên phức tạp của con người. Tùy thuộc vào cách sử
dụng ngôn ngữ, các từ trong mỗi tài liệu được sắp xếp chặt chẽ theo một cấu trúc hệ
thống cụ thể. Do đó, các thứ tự hoặc tổ hợp từ khác nhau (mối quan hệ giữa các từ) có
thể mang các ý nghĩa ngữ nghĩa khác nhau, điều này chắc chắn gây ảnh hưởng đến việc
xác định các chủ đề của tài liệu chứa những từ này. Một giả định phổ biến của kỹ thuật
gom cụm luồng văn bản dựa trên mô hình là tập tài liệu có cùng nhóm từ thông dụng sẽ
có xu hướng được nhóm cùng chủ đề, kỹ thuật này còn được gọi là cách biểu diễn theo
túi từ (BOW) truyền thống. Hạn chế chính của biểu diễn BOW là phần lớn bỏ qua các
mối quan hệ của từ (ví dụ: “con gà” hoàn toàn khác “gà con”) và các mối quan hệ (như các từ kết hợp : “Hoa Kỳ”, “vi rút Corona”, ...). Do đó, lấy mẫu phân phối các từ phổ biến trên các tài liệu trong quá trình suy luận chủ đề mà không xem xét mối quan hệ của các từ có thể dẫn đến việc hạ thấp độ chính xác của kết quả gom cụm. Cho nên, việc mở rộng đánh giá mối quan hệ giữa các từ trong các ngữ cảnh khác nhau của văn bản trong quá trình suy luận chủ đề có thể giúp cải thiện chất lượng của kết quả gom cụm luồng
văn bản.
Các thế mạnh và thách thức đã được nêu trong một số công trình được cộng đồng nghiên cứu quan tâm nhiều như luận án đã phân tích ở trên có thể khái quát hóa trong
7
Bảng 1.1, bảng khái quát các điểm mạnh và hạn chế của các mô hình như đã được mô
tả ở trên. Bảng 1.1 phân tích các điểm mạnh và hạn chế của các mô hình gom cụm văn
bản và luồng văn bản. Các mô hình được chia thành 03 nhóm chính. Nhóm 1 là nhóm
mô hình gom cụm theo cách tiếp cận dựa trên mô hình chủ đề (topic model) cổ điển [9,
14, 15, 50, 85]. Nhóm 2 tập hợp các thuật toán gom cụm dựa theo cách tiếp cận mô hình hỗn hợp động [23, 50, 97]. Nhóm 3 là nhóm kỹ thuật gom cụm dựa theo cách tiếp cận
không gian véc tơ [3, 18, 74]. Các ô có dấu là các vấn đề mà mô hình/thuật toán giải
quyết được và các ô để trống Bảng 1.1 là các hạn chế của mô hình/thuật toán. Từ các
thách thức đặt ra cũng như việc cải tiến biểu diễn đặc trưng tài liệu nhằm đạt được kết
quả gom cụm tốt hơn đã được nhiều nhà nghiên cứu áp dụng thành công [20, 39, 52]…,
luận án đề xuất mô hình GOW-Stream, thực nghiệm trên các tập dữ liệu chuẩn hóa,
ngôn ngữ sử dụng là tiếng Anh.
Bảng 1.1: Phân tích các điểm mạnh và tồn tại của các mô hình
Xét mối
Nhóm
Thuật toán/cách tiếp cận
Tĩnh Động
Văn bản
Văn bản
quan hệ từ
dài
ngắn
LDA(TTM-2009, DTM-2006,
1
TM-LDA-2012 , ST-LDA-2016)
Dirichlet-Hawkes Topic Model
(DHTM-2015)
Topic
Dynamic Clustering Model (DCT-2016)
2
Temporal Dirichlet Process Mixture Model (TDPM-2008)
MStream/MstreamF-2018 (DPMM)
CluStream (2003)
DenStream (2006)
3
Sumblr (2013)
GOW-Stream (2020)
(GOW)
4
Vấn đề tiền xử lý nội dung văn bản nhằm nâng cao hiệu quả gom cụm
Để cải tiến hiệu quả mô hình gom cụm, việc sử dụng văn bản đầu vào đã qua tiền xử lý và biểu diễn đặc trưng phù hợp đã được luận án thử nghiệm thành công với mô
hình đề xuất GOW-Stream. Để cải tiến kết quả đầu ra của nhiệm vụ gom cụm này, việc
8
nghiên cứu tiền xử lý văn bản, rút gọn nội dung bằng cách áp dụng các cơ chế rút trích
từ khóa và sử dụng các tập từ khóa này để thay thế cho toàn bộ nội dung của văn bản
đến cũng là một ý tưởng nhằm cải tiến chất lượng đầu ra của kết quả gom cụm trên
luồng văn bản.
Vấn đề nắm bắt xu thế, thời gian của từ khóa thông qua phát hiện sự nổi bật của từ khóa
Việc tìm ra các từ khóa quan trọng, đang được nhiều độc giả quan tâm cũng là một
nhu cầu thiết thực. Do đó, nhiều kỹ thuật rút trích từ khóa đã được các nhà nghiên cứu
đề xuất từ đơn giản đến cực kỳ phức tạp [7, 8, 12, 43, 48, 51, 54]. Có thể nói rằng, tính năng rút trích từ khóa là một tính năng quan trọng trong hệ thống tự động rút trích thông
tin. Trong rút trích từ khóa, việc tìm các từ khóa có liên quan với một từ khóa cho trước
cũng có ý nghĩa quan trọng đối với người dùng. Vấn đề tìm các sự nổi bật của một từ
khóa và tìm các từ khóa xu thế có độ “nóng” cao trong một sự nổi bật cũng hỗ trợ rất
nhiều cho người dùng trong rút trích thông tin cần thiết. Hiện chưa có kỹ thuật rút trích
liên quan đến vấn đề sự nổi bật (burst) của từ khóa được công bố. Tuy nhiên, từ ý tưởng
khai phá sự nổi bật trong các lĩnh vực khác đã được đề xuất bởi Kleignberg [42], các ý tưởng này có thể vận dụng vào giải quyết bài toán tìm cụm từ xu thế trên luồng dữ liệu
văn bản. Vấn đề sử dụng các kết quả này vào cải tiến kết quả đầu ra khi gom cụm luồng
văn bản cũng là vấn đề đáng được quan tâm.
1.1.3 Các vấn đề nghiên cứu
Từ việc phân tích các hạn chế của các công trình nghiên cứu, luận án xác định một
số vấn đề nghiên cứu liên quan bao gồm: Vấn đề gom cụm luồng văn bản ngắn; Vấn đề
gom cụm luồng văn bản khi số chủ đề thay đổi do văn bản đến liên tục theo thời gian;
Vấn đề xét mối quan hệ từ trong gom cụm luồng văn bản; Vấn đề gom cụm trên luồng
văn bản tiếng Việt; Vấn đề tiền xử lý nội dung văn bản trước khi tiến hành gom cụm và việc vận dụng các cơ chế rút trích từ khóa trong tiền xử lý văn bản; Vấn đề phát hiện xu thế của từ thông qua phát hiện các cụm từ xu thế. Đây là các vấn đề giúp hình thành nên các bài toán chính của luận án.
1.1.4 Các bài toán nghiên cứu
1.1.4.1 Bài toán 1 – gom cụm luồng văn bản theo ngữ nghĩa với đồ thị từ
Để giải quyết những thách thức nêu trên, trong bài toán 1, luận án đề xuất một cách
tiếp cận mới về gom cụm luồng văn bản dựa trên mô hình hỗn hợp, áp dụng đánh giá đồ
9
thị từ (GOW-Graph of Words) xuất hiện trong các tập ngữ liệu văn bản đã cho, gọi là
mô hình GOW-Stream. Biểu diễn tài liệu văn bản dựa trên GOW là một cách tiếp cận
NLP nổi tiếng nhằm mục đích biểu diễn tài liệu văn bản thành cấu trúc dựa trên đồ thị
trong đó các nút đại diện cho tập hợp các từ phân biệt xuất hiện trong tài liệu và các
cạnh đại diện cho quan hệ đồng xuất hiện tương ứng giữa các từ này (hai từ xuất hiện gần nhau được thể hiện bằng một cung nối giữa hai đỉnh, mỗi đỉnh là một từ). Trong
GOW-Stream, luồng GOW được thiết kế để tận dụng cả hiệu năng về độ chính xác và
thời gian xử lý cho các tác vụ gom cụm luồng văn bản bằng cách đánh giá kỹ lưỡng các
mối quan hệ từ ngữ trong khi suy ra các cụm. Những đóng góp chung của luận án ở
phần này có thể được tóm tắt thành ba điểm chính, đó là:
Đề xuất một cách tiếp cận áp dụng n-gram vào đồ thị hóa văn bản (text2graph) sử dụng kỹ thuật khai phá đồ thị con phổ biến để rút trích các đồ thị con phổ biến từ kho ngữ liệu văn bản đã cho. Đồ thị con phổ biến là đồ thị con có tổng số lần
xuất hiện trong các đồ thị biểu diễn văn bản nhiều hơn một ngưỡng cho trước
(min support). Kỹ thuật khai phá đồ thị con phổ biến là kỹ thuật dùng để rút trích
ra tập hợp các đồ thị con phổ biến từ đó có thể biểu diễn đặc trưng phân biệt cho
các tài liệu đã cho và sau đó được sử dụng để hỗ trợ quá trình ước tính phân phối
của các chủ đề trên tài liệu (xem chi tiết về biểu diễn văn bản bằng đồ thị, cách
tìm đồ thị con phổ biến và biểu diễn đặc trưng văn bản dựa vào đồ thị con phổ
biến trong mô hình GOW-Stream ở chương 3).
Xác định cơ chế của GOW-Stream, là một mô hình dựa trên mô hình hỗn hợp dùng để xử lý hiệu quả tác vụ gom cụm luồng văn bản ngắn bằng cách kết hợp
cả đánh giá từ độc lập (các từ riêng biệt trong mỗi tài liệu) và mối quan hệ từ
(quan hệ đồng hiện của từng cặp từ). GOW-Stream không chỉ giải quyết các thách
thức về sự thay đổi chủ đề của luồng văn bản mà còn cải thiện được chính xác và
thời gian xử lý suy luận chủ đề so sánh với các mô hình dựa trên đánh giá độc lập từ trước đó.
Chứng minh được tính hiệu quả của mô hình GOW-Stream được đề xuất đối với tác vụ gom cụm luồng văn bản ngắn so sánh với các thuật toán hiện đại gần đây, như: DTM[14], Sumblr[74] và MStream[97] bằng các thử nghiệm mở rộng trên các bộ dữ liệu tiêu chuẩn của thế giới thực.
10
1.1.4.2 Bài toán 2 – Tìm cụm từ xu thế trên luồng dữ liệu văn bản
Trong bài toán 2, luận án đề xuất một hệ thống gọi là TKES (Trendy Keyword
Extraction System). Đây là hệ thống hỗ trợ thu thập thông tin tự động, rút trích từ khóa
tự động, xử lý văn bản Tiếng Việt, hướng đến việc xây dựng và hoàn thiện tập dữ liệu
văn bản tiếng Việt phục vụ nghiên cứu, thử nghiệm liên quan đến bài toán gom cụm luồng văn bản. Hệ thống áp dụng kỹ thuật đơn giản TF-IDF vào rút trích từ khóa có tần
số xuất hiện cao, áp dụng một số kỹ thuật huấn luyện mô hình và các phương pháp đo
độ tương đồng của từ khóa vào tìm từ khóa tương đồng, có so sánh kết quả từ việc sử
dụng nhiều phương pháp đo độ tương đồng. Ngoài ra, hệ thống cũng đề xuất huấn luyện
cập nhật mô hình, đo độ ổn định để đưa vào chạy thực tế. Đóng góp chính của luận án
ở bài toán này là đề xuất thuật toán phát hiện cụm từ xu thế, các sự nổi bật tiêu biểu của
từ khóa dựa vào ý tưởng của thuật toán Kleinberg.
1.2 Đóng góp của luận án và các công trình đã được công bố
(1) Gom cụm luồng văn bản theo ngữ nghĩa với đồ thị từ:
Đề xuất một cách tiếp cận mới về gom cụm luồng văn bản dựa trên mô hình hỗn
hợp gọi là GOW-Stream cho độ chính xác khi gom cụm luồng văn bản ngắn cao hơn
các thuật toán gần đây dựa vào kết quả thực nghiệm trên các tập dữ liệu chuẩn nhờ việc
áp dụng xem xét thêm mối quan hệ đồng hiện từ trong biểu diễn đặc trưng văn bản và
suy luận chủ đề khi gom cụm với đồ thị từ, đồ thị con phổ biến.
(2) Phát hiện cụm từ xu thế trên luồng văn bản:
Đề xuất hệ thống TKES: gồm 03 phần chính là Bộ thu thập dữ liệu, Bộ xử lý
dữ liệu và Bộ hiển thị dữ liệu.
Phát hiện các cụm từ xu thế trên luồng dữ liệu văn bản: Đề xuất thuật toán phát hiện các từ khóa đang được quan tâm một cách bất thường và khoảng thời gian các từ này liên tục xuất hiện; Đề xuất thuật toán xếp hạng “độ xuất hiện thường xuyên” của các từ khóa xuất hiện trong cùng một sự nổi bật từ đó xác định cụm từ xu thế. Kết quả nghiên cứu được phân tích, đánh giá, so sánh, rút ra
kết luận và đưa ra các giải pháp cải tiến.
11
(3) Các công trình đã công bố: được mô tả cụ thể trong Hình 1.1
Bài toán 1 Bài toán 2
Đề xuất mô hình gom cụm luồng Nghiên cứu phát hiện cụm từ xu thế,
văn bản ngắn dựa trên mô hình các sự nổi bật tiêu biểu trên luồng văn
bản.
Công trình: [CT1], [CT2], [CT3],
hỗn hợp áp dụng kết hợp biểu diễn văn bản và suy luận chủ đề Hệ thống đề xuất: TKES theo BOW và GOW.
Mô hình đề xuất: GOW-Stream [CT4], [CT5]-Scopus/Q3
Công trình: [CT6]-SCIE/Q3
Hình 1.1: Mối liên hệ giữa các bài toán và các công trình đã công bố đối với từng bài
toán
Hình 1.1 mô tả mối liên quan giữa 02 bài toán nghiên cứu đã được thực hiện trong
luận án này và các công trình đã được công bố trong từng bài toán. Có thể nói, bài toán
2 là bài toán phụ nghiên cứu các vấn đề cơ bản liên quan phục vụ cho bài toán chính là
bài toán 1 giải quyết vấn đề chính luận án đề ra là gom cụm luồng văn bản. Các công
trình đã công bố trong bài toán 2, Nghiên cứu phát hiện cụm từ xu thế, các sự nổi bật
tiêu biểu trên luồng văn bản, gồm 04 bài Hội nghị quốc tế ([CT1], [CT2], [CT3], [CT4])
và 01 bài tạp chí quốc tế ([CT5]-Scopus/Q3). Công trình công bố trong bài toán 1, Đề
xuất mô hình gom cụm luồng văn bản ngắn dựa trên mô hình hỗn hợp áp dụng kết hợp
biểu diễn văn bản và suy luận chủ đề theo BOW và GOW, là 1 bài tạp chí quốc tế
([CT6]-SCIE/Q3). Kết quả nghiên cứu đạt được ở bài toán phụ 2 có ý nghĩa quan trọng
trong việc giải quyết bài toán 1, tiếp tục cải tiến bài toán 1 cũng như tiếp tục các nghiên
cứu sâu hơn về gom cụm luồng văn bản.
1.3 Mục tiêu, phạm vi và phương pháp nghiên cứu
1.3.1 Mục tiêu nghiên cứu
Với các bài toán nghiên cứu đã được xác định, luận án đã đặt ra các mục tiêu nghiên
cứu cụ thể. Để giải quyết bài toán 1, các mục tiêu chính được xác lập bao gồm:
- So sánh các mô hình gom cụm trên luồng văn bản.
- Nhận diện các thách thức của các mô hình.
- Xác định các tập dữ liệu chuẩn phục vụ cho thực nghiệm.
12
- Đề xuất mô hình mới trong gom cụm luồng văn bản.
- Cải tiến mô hình đề xuất.
Các nhiệm vụ được thực hiện trong bài toán 2 gồm:
- Nghiên cứu phát hiện cụm từ xu thế trên luồng dữ liệu văn bản.
- Nghiên cứu phát hiện các sự nổi bật tiêu biểu của từ khóa.
1.3.2 Phạm vi nghiên cứu
Thông qua việc xác định các hạn chế của các công trình nghiên cứu trước, xác định
được các vấn đề nghiên cứu, hình thành các bài toán chính cho luận án, với đối tượng nghiên cứu là luồng dữ liệu văn bản ngắn, phạm vi nghiên cứu của luận án được xác lập
như sau:
(1) Gom cụm trên luồng văn bản ngắn, rời rạc đến từ các mạng xã hội phổ biến
như Facebook, Twitter...
(2) Nghiên cứu đồ thị từ, kỹ thuật khai phá đồ thị con phổ biến, ảnh hưởng của mối quan hệ đồng hiện giữa các cặp từ trong văn bản đến trên luồng đến kết
quả gom cụm.
(3) Nghiên cứu phát hiện cụm từ xu thế trên luồng dữ liệu văn bản.
(4) Nghiên cứu phát hiện các sự nổi bật tiêu biểu trên luồng dữ liệu văn bản.
Trong đó, các nghiên cứu (1), (2) được thực nghiệm trên dữ liệu tiếng Anh và các
nghiên cứu (3), (4) được thực nghiệm trên dữ liệu tiếng Việt.
1.3.3 Phương pháp nghiên cứu
Hai phương pháp chính được sử dụng trong quá trình nghiên cứu là phương pháp
nghiên cứu tổng luận và phương pháp nghiên cứu thực nghiệm và so sánh.
13
1.4 Cấu trúc của luận án
Cấu trúc của luận án được trình bày thành 05 chương, bao gồm:
- Phần mở đầu
Giới thiệu tóm tắt về luận án.
- Chương 1: Giới thiệu
Trình bày về đề tài nghiên cứu và ý nghĩa của đề tài, các mục tiêu nghiên cứu, các vấn đề nghiên cứu đặt ra dựa vào phân tích các ưu điểm và hạn chế của các công trình liên quan tiêu biểu, các bài toán con, phạm vi nghiên cứu, các kết quả đạt được và cấu trúc của luận án.
- Chương 2: Các nghiên cứu liên quan
Trình bày các nghiên cứu, vấn đề lý thuyết liên quan đến bài toán, so sánh một số cách tiếp cận gom cụm luồng văn bản.
- Chương 3: Gom cụm luồng văn bản theo ngữ nghĩa dựa trên đồ thị từ
Trình bày về phương pháp, thực nghiệm và bàn luận về mô hình GOW- Stream.
- Chương 4: Phát hiện cụm từ xu thế trên luồng văn bản theo tiếp cận Kleinberg
Trình bày về phương pháp, thực nghiệm và bàn luận về hệ thống TKES.
- Chương 5: Kết luận và hướng phát triển
Trình bày các kết quả đã đạt được và hướng phát triển của luận án.
- Danh mục các bài báo đã công bố
Liệt kê các công trình đã công bố có liên quan đến đề tài luận án.
1.5 Kết chương
Chương 1 đã giới thiệu các đóng góp của luận án bao gồm việc đề xuất và giải quyết 02 bài toán của luận án. Với bài toán thứ nhất cũng là bài toán chính của luận án, tác giả đề xuất kỹ thuật GOW-Stream gom cụm luồng văn bản theo ngữ nghĩa dựa trên đồ thị từ. Bài toán thứ hai nghiên cứu phát hiện các cụm từ xu thế trên luồng văn bản. Chương này cũng mô tả mục tiêu, phương pháp nghiên cứu, xác lập phạm vi nghiên cứu, các kết quả đạt được. Ngoài ra, chương 1 cũng mô tả rõ cấu trúc của luận án gồm 05 chương: mở đầu, giới thiệu, tổng quan tình hình nghiên cứu, 02 chương về 02 bài toán, chương kết luận và các công trình nghiên cứu đã thực hiện.
14
CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN
Chương 2 trình bày các công trình nghiên cứu liên quan, các khái niệm cơ bản, nghiên
cứu có liên quan trực tiếp đến các công trình cũng như đóng góp chính của luận án: so
sánh một số cách tiếp cận liên quan đến gom cụm luồng văn bản, tiếp cận phát hiện sự kiện trong phát hiện sự nổi bật trên luồng văn bản.
2.1 So sánh một số cách tiếp cận mới liên quan đến gom cụm luồng văn bản
Các nghiên cứu gần đây về gom cụm luồng dữ liệu dạng văn bản có thể được phân
thành ba loại chính, đó là phương pháp tiếp cận dựa trên mô hình chủ đề, phương pháp tiếp cận dựa trên mô hình hỗn hợp động và phương pháp tiếp cận dựa trên biểu diễn không gian véc tơ.
2.1.1 Phương pháp tiếp cận dựa trên mô hình chủ đề truyền thống
Được coi là cách tiếp cận sớm nhất để gom cụm luồng dữ liệu dạng văn bản, mô
hình hóa chủ đề là một nhóm các thuật toán hỗ trợ khám phá các chủ đề/cấu trúc tiềm
ẩn từ các tài liệu văn bản. Phân bổ Dirichlet tiềm ẩn (LDA) [15] là một trong những
thuật toán mô hình hóa chủ đề nổi tiếng nhất, hỗ trợ suy ra các chủ đề tiềm ẩn từ một
tập hợp các tài liệu văn bản dựa vào phân phối xác suất thiên lệch của các từ. LDA biểu
diễn các chủ đề tiềm ẩn được khám phá dưới dạng tập con của các từ và tài liệu được
phân phối thành dạng tập con của các chủ đề tiềm ẩn được phân phối. Các nghiên cứu
đã chứng minh rằng mô hình chủ đề có thể được áp dụng để mô hình hóa đặc tính theo
thời gian của chủ đề trong luồng dữ liệu văn bản cũng như xử lý sự rời rạc của văn bản.
Nhiều nghiên cứu mở rộng dựa trên LDA đã được giới thiệu đáp ứng bản chất động của
các chủ đề trong các loạt luồng văn bản khác nhau, chẳng hạn như chủ đề theo thời gian (TOT) [83], mô hình chủ đề động (DTM)[14], mô hình theo dõi chủ đề (TTM), LDA theo thời gian (TM-LDA) [85], streaming LDA (ST-LDA)[9], ... Các mô hình được đề xuất này có thể hỗ trợ để suy ra các chủ đề động một cách hiệu quả từ tài liệu dài đã cho trong các luồng. Tuy nhiên, các mô hình dựa trên LDA này yêu cầu phải xác định từ đầu số lượng chủ đề cho tất cả các lô tài liệu khác nhau trong một luồng. Điều này không phù hợp với sự thay đổi của các chủ đề theo thời gian.
15
2.1.2 Phương pháp tiếp cận dựa trên mô hình hỗn hợp động
Vì số lượng chủ đề thay đổi theo thời gian và các lô tài liệu khác nhau trong các
luồng, nên yêu cầu biết trước số lượng chủ đề là hạn chế lớn khi áp dụng các kỹ thuật
dựa trên LDA trong việc giải quyết vấn đề phát triển chủ đề tự nhiên của luồng văn bản.
Để khắc phục nhược điểm này, các cải tiến liên tục liên quan đến cách tiếp cận mô hình chủ đề động đã được đề xuất. Cách tiếp cận này còn được gọi là phương pháp quy trình
Dirichlet (DP) [75] được sử dụng rộng rãi để xử lý vấn đề thay đổi và tiến hóa chủ đề
trong gom cụm luồng văn bản. Chủ yếu dựa theo các mô hình dựa trên LDA, các thuật
toán gom cụm luồng văn bản dựa trên mô hình hỗn hợp được thiết kế để suy luận phân
phối của các chủ đề trên các tài liệu. Sau đó, các kỹ thuật lấy mẫu nhiều lần như Gibbs
Sampling, Sequential Monte Carlo, ... được áp dụng để ước tính các tham số của mô
hình, để suy luận sự phân bố của các chủ đề trên luồng văn bản đã cho. Nói cách khác,
các kỹ thuật gom cụm văn bản dựa trên mô hình hỗn hợp động chủ yếu dựa vào định lý
phi tham số Bayes để mô hình hóa chủ đề động. Phương pháp dựa trên mô hình hỗn hợp
động đã chứng minh được tính hiệu quả trong việc tự động khám phá các chủ đề từ các
luồng văn bản rời rạc. Các mô hình nổi tiếng gần đây sử dụng cách tiếp cận này như: Mô hình chủ đề Dirichlet-Hawkes (DHTM)[23], Mô hình chủ đề gom cụm động (DCT)
[50] và Mô hình hỗn hợp quy trình Dirichlet theo thời gian (TDPM)[4]. Các quy trình
Dirichlet dựa trên cơ sở này đã chỉ ra các giải pháp tiềm năng để giải quyết vấn đề thay
đổi chủ đề của các luồng văn bản. Tuy nhiên, các mô hình đề xuất này vẫn còn tồn tại
những mặt hạn chế. DHTM không có khả năng hoạt động tốt trên các tài liệu văn bản
ngắn [23]. Ngược lại, DCT được thiết kế để làm việc với các luồng văn bản ngắn, tuy
nhiên, DCT không thể phát hiện sự thay đổi của các chủ đề trong các lô tài liệu khác
nhau của các luồng văn bản mà số lượng chủ đề có thể được thay đổi theo thời gian. Đây
là hạn chế của kỹ thuật này. TDPM được xem là một framework gom cụm văn bản ngoại
tuyến yêu cầu toàn bộ tập hợp các tài liệu văn bản từ một luồng cho trước. Do đó, TDPM
không phù hợp để áp dụng trong bối cảnh nhiệm vụ gom cụm văn bản đến với tốc độ cao. Gần đây, có một bản nâng cấp mới về gom cụm luồng văn bản ngắn phụ thuộc vào Mô hình hỗn hợp quy trình Dirichlet (DPMM) [98], được gọi là MStream/MStreamF cho phép dự đoán hiệu quả các chủ đề tiềm ẩn từ các luồng văn bản ngắn cho trước. Tuy nhiên, MStreamF vẫn gặp phải điểm hạn chế phổ biến trong việc khai phá biểu diễn từ độc lập trong khi suy ra các chủ đề. Việc bỏ qua sự rời rạc và mối quan hệ giữa các từ
trong văn bản có thể dẫn đến sự mơ hồ về các chủ đề được phát hiện từ các luồng văn bản.
16
2.1.3 Phương pháp tiếp cận dựa trên biểu diễn không gian vectơ
Tương tự như phương pháp gom cụm văn bản cổ điển cho kho ngữ liệu văn bản
tĩnh, cho các tài liệu văn bản trong các luồng được chuyển đổi và biểu diễn dưới dạng
vectơ đặc trưng, sau đó các độ đo dựa trên khoảng cách có sẵn như độ tương tự Cosin,
khoảng cách Euclide, ... được áp dụng để đo lường sự giống nhau giữa các tài liệu văn bản và các chủ đề đã cho. Từ lâu, cách tiếp cận dựa trên biểu diễn không gian vectơ
(VSR) đã được nghiên cứu rộng rãi để xử lý tác vụ gom cụm luồng văn bản tốc độ cao
với các mô hình gom cụm luồng văn bản dựa trên độ tương đồng nổi tiếng, chẳng hạn
như: SSC[100], CluStream, DenStream, Sumblr[74] ... Tuy nhiên, các kỹ thuật gom
cụm văn bản dựa trên VSR có hai hạn chế lớn. Hạn chế đầu tiên liên quan đến thách
thức về sự thay đổi chủ đề vì các thuật toán dựa trên cách tiếp cận này yếu cầu số lượng
chủ đề nên được chỉ định trước. Hạn chế thứ hai của các mô hình dựa trên VSR liên
quan đến việc yêu cầu phải xác định ngưỡng tương đồng từ đầu, ngưỡng tương đồng
thích hợp để xác định một tài liệu văn bản mới từ một luồng nhất định sẽ thuộc về một
chủ đề cụ thể hay không. Hơn nữa, số chiều của các vectơ được đại diện trong tài liệu
cũng bị ảnh hưởng bởi độ dài của tài liệu. Do tồn tại những thách thức nghiêm trọng này, cách tiếp cận dựa trên VSR ít được quan tâm hơn so với cách tiếp cận dựa trên mô
hình hỗn hợp trong việc xử lý tác vụ gom cụm luồng văn bản.
2.1.4 Mô hình hóa chủ đề (Topic modeling)
2.1.4.1 Tìm chủ đề của văn bản
Mô hình LDA [15] của David Blie là mô hình cổ điển nổi tiếng được sử dụng nhiều
trong việc phân tích chủ đề văn bản. Mô hình dựa trên mạng Bayes. Việc tìm chủ đề của
văn bản được thực hiện dựa trên việc tính phân bố xác suất cho mỗi từ đặc trưng trong
tài liệu. Mỗi chủ đề có xác suất riêng cho từng từ khóa và phân bố chủ đề được biểu diễn
như là sự kết hợp nhiều chủ đề trong văn bản.
2.1.4.2 Mạng Bayes
Được dùng để biểu diễn tri thức không chắc chắn, là một họ của mô hình đồ thị xác suất, là sự kết hợp của lý thuyết đồ thị và lý thuyết xác suất thống kê, cho phép biễu diễn trực quan phương pháp tính phân bố xác suất chung của các biến ngẫu nhiên. Với các node là các biến ngẫu nhiên, các cạnh biểu diễn sự phụ thuộc của các biến ngẫu nhiên tương ứng, đây là đồ thị có hướng không có chu trình và được định nghĩa với 02 thành phần: 𝐵 = (𝐺, Θ) với 𝐺 là đồ thị chứa các node 𝑋1, 𝑋2, … 𝑋𝑛 là các biến ngẫu nhiên, sự phụ thuộc của các biến ngẫu nhiên được biểu diễn thông qua các cung của đồ
17
𝑛
𝑛
thị 𝐺. Θ là tập tham số của mạng Bayes bao gồm 𝜃𝑥𝑖|𝜋𝑖 = 𝑃𝐵(𝑥𝑖|𝜋𝑖) cho mỗi khái niệm 𝑥𝑖 của 𝑋𝑖 biết 𝜋𝑖 (biến điều kiện). Công thức (2.1) tính phân bố xác suất chung của tập biến ngẫu nhiên là:
P𝐵(𝑋1, 𝑋2, … 𝑋𝑛) = ∏ 𝑃𝐵(𝑋𝑖|𝜋𝑖) = ∏ 𝜃𝑥𝑖|𝜋𝑖
𝑖=1
𝑖=1
(2.1)
Phân bố xác suất của 𝑋𝑖 gọi là phân bố xác suất có điều kiện nếu như có biến cha
(biến ảnh hưởng đến nó) và ngược lại thì gọi là phân bố xác suất không có điều kiện.
2.1.4.3 Suy diễn trên mạng Bayes
Mạng Bayes dùng 02 phương pháp suy diễn: từ trên xuống hay từ dưới lên. Suy diễn từ trên xuống xuất phát từ nút cha của nút đang xét 𝑋𝑖 và suy diễn từ dưới lên xuất phát từ nút con của nút đang xét 𝑋𝑖
2.1.4.4 Mô hình LDA
Là một mô hình mạng Bayes theo 03 cấp do David Blei phát triển năm 2003. Đây
là mô hình dùng để mô hình hóa tập dữ liệu nhằm phát hiện ra các chủ đề tìm ẩn. Mỗi
chủ đề là một phân bố rởi rạc của một tập các từ. Đây là mô hình phù hợp với tập ngữ
liệu rời rạc nhau được phân nhóm. Mỗi nhóm được mô tả dưới dạng kết hợp ngẫu nhiên
của một tập các chủ đề tiềm ẩn.
Mô hình sinh của mô hình LDA
Xuất phát từ ý tưởng mô tả các văn bản là sự kết hợp nhiều chủ đề [15], mỗi chủ đề được biểu diễn bởi các từ với xác suất của chúng được tính bằng kỹ thuật Gibb
Sampling. Với LDA, giả sử một tài liệu được tạo theo các bước sau:
1) Xác định số lượng các từ 𝑁 mà văn bản có (dựa theo phân bố Poisson).
2) Chọn k chủ đề cho tài liệu dựa theo phân bố đa thức.
3) Sinh ra các từ 𝑤𝑖 cho tài liệu theo các bước:
a. Chọn chủ đề dựa theo phân bố đa thức đã được xác định.
b. Sử dụng chủ đề đã được chọn để tạo ra các từ theo xác suất của từng chủ
đề đã chọn.
Mục đích của việc tạo ra mô hình sinh là khi đảo ngược các bước để suy diễn từ
các tài liệu ta tìm được tập chủ đề ẩn.
18
Như vậy, LDA là một mô hình dạng Bayes với quá trình phát sinh một tập tài liệu
gồm 3 bước:
1) Với mỗi tài liệu, tạo một phân bố xác suất chủ đề của tài liệu đó bằng cách lấy
mẫu từ phân bố xác suất Dirichlet.
2) Với mỗi từ trong tài liệu, một chủ đề duy nhất được chọn từ phân bố chủ đề
trên.
3) Mỗi từ khóa sẽ được rút ra từ phân bố đa thức cho từ khóa theo chủ đề được
chọn. Ta có một số khái niệm:
a. Một từ 𝑤 là một đơn vị dữ liệu cơ bản, được hiểu là một phần tử của tập
từ vựng và được đánh chỉ mục theo các phần tử {1,2, . . . 𝑉}.
b. Một tài liệu 𝑑 được biểu diễn bằng 1 dãy 𝑁 từ và được ký hiệu là: 𝑤 = (𝑤1, 𝑤2, … 𝑤𝑛), với 𝑤𝑖 là tập từ biểu diễn cho tài liệu thứ i của kho ngữ liệu.
Mỗi tài liệu được biểu diễn thông qua các chủ đề mà tài liệu đó đề cập
đến, mỗi chủ đề được đặc trưng bằng các từ khóa.
Hình 2.1: Mô hình sinh LDA
Trong hình Hình 2.1:
𝜙 là ma trận 𝑇𝑥 𝑉 biểu diễn phân bố xác suất một từ khóa 𝜐 𝜖 𝑉 xuất hiện trong
chủ đề 𝑡 𝜖 𝑇 được lấy theo phân bố xác suất Dirichlet.
𝜃 là ma trận 𝐷 𝑥 𝑇 biểu diễn phân bố xác suất chủ đề 𝑡 𝜖 𝑇 trong tài liệu 𝑑 𝜖 𝐷 được
lấy mẫu theo phân bố 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡 (𝛼). Với mỗi từ trong tài liệu 𝐷, 𝑧 là chủ đề lấy từ ma
trận 𝜃 của tài liệu 𝑑, 𝑤 là từ khóa được sinh ra bởi chủ đề 𝑧.
19
Việc tính ma trận 𝜃 và 𝜙 cho ta biết thông tin về chủ đề trong tài liệu và xác xuất
của các chủ đề trong tài liệu.
Lý thuyết về Gibbs Sampling
Là một trong những họ thuật toán Markov Chain Monte Carlo, mục tiêu của Gibbs
Sampling là tạo ra xích Markov có phân bố hậu nghiệm như là phân bố ổn định. Sau khi
lặp lại một số lần trong xích Markov, mẫu từ phân bố hội tụ được mong muốn là giống như mẫu từ xác suất hậu nghiệm. Thuật toán này dựa trên việc lấy mẫu từ các phân bố
điều kiện của các biến của xác suất hậu nghiệm.
Ví dụ: để lấy mẫu x từ phân bố liên hợp 𝑝(𝑥) = 𝑝(𝑥1, 𝑥2, … , 𝑥𝑚), thuật toán thực
hiện các bước:
1) Khởi tạo 𝑥𝑖 ngẫu nhiên.
𝑡 )
𝑡, … , 𝑥𝑚
2) 𝐹𝑜𝑟 𝑡 = 0, . . . , 𝑇 − 1:
𝑡+1~𝑝(𝑥1|𝑥2
𝑡, 𝑥3
𝑡, … , 𝑥𝑚 𝑡 )
2.1) 𝑥1
𝑡+1~𝑝(𝑥2|𝑥1
𝑡+1, 𝑥3
2.2) 𝑥2
𝑡
𝑡 )
...
𝑡+1~𝑝(𝑥𝑗|𝑥1
𝑡+1, 𝑥2
𝑡+1, … , 𝑥𝑗−1
𝑡+1, 𝑥𝑗+1
, … , 𝑥𝑚 2.j) 𝑥𝑗
...
𝑡+1~𝑝(𝑥𝑚|𝑥1
𝑡+1, 𝑥2
𝑡+1 ) 𝑡+1, … , 𝑥𝑚−1
𝑇−1)
2.m) 𝑥𝑚
Return ({𝑥𝑡}𝑡=0
Quá trình được lặp đi lặp lại nhiều lần cho đến khi các mẫu hội tụ nhờ đó đảm bảo
tính đúng đắn của thuật toán. Việc không thể biết chính xác lặp bao nhiêu lần chính là điểm yếu của thuật toán. Cho nên, chỉ có thể ước lượng độ hội tụ thông qua việc tính
toán log-likelihood hay thông qua việc kiểm tra các xác suất hậu nghiệm.
Mô hình LDA quan tâm tới các chủ đề ẩn trong từng văn bản 𝜃𝑑 của tập ngữ liệu, các phân bố từ theo chủ đề Φ(𝑧) và các phép gán vị trí chủ đề cho mỗi từ 𝑧𝑖. Trong khi các phân bố có điều kiện có thể được tạo ra từ một trong những biến tiềm ẩn, cả 𝜃𝑑 và Φ(𝑧) có thể tính được bằng việc sử dụng phép gán vị trí chủ đề 𝑧𝑖. Do đó, thuật toán sẽ trở nên đơn giản hơn nếu như chúng ta hợp nhất các biến đa thức với một mẫu đơn giản 𝑧𝑖. Thuật toán này còn gọi là thuật toán Collapsed Gibbs Sampling, được dùng trong
20
LDA để tính xác suất của một chủ đề 𝑧 đang được gán vào từ 𝑤𝑖 dựa theo tất cả các phép gán của chủ đề khác vào các từ khác, nghĩa là:
(2.2) p(𝑧𝑖|𝑧¬𝑖, 𝛼, 𝛽, 𝑤)
Trong đó:
𝑧¬𝑖 là phân bố xác suất của tất cả các chủ đề ngoại trừ chủ đề 𝑧𝑖
Các luật của xác suất có điều kiện là:
(2.3) 𝑝(𝑧𝑖|𝑧¬𝑖, 𝛼, 𝛽, 𝑤) = ∝ p(𝑧𝑖|𝑧¬𝑖, 𝑤|𝛼, 𝛽) = 𝑝(𝑧, 𝑤|𝛼, 𝛽) 𝑝(𝑧𝑖|𝑧¬𝑖, 𝑤|𝛼, 𝛽) 𝑝(𝑧¬𝑖, 𝑤|𝛼, 𝛽)
Sau đó:
(2.4) 𝑝(𝑤, 𝑧, 𝛼, 𝛽) = ∬ 𝑝(𝑤, 𝑧, 𝜃, ∅|𝛼, 𝛽) 𝑑𝜃𝑑∅
Ta lại có:
(2.5) 𝑝(𝑤, 𝑧, 𝛼, 𝛽) = ∬ 𝑝(∅|𝛽) 𝑝(𝜃|𝛼)𝑝(𝑧|𝜃)𝑝(𝑤|∅𝑧)𝑑𝜃𝑑∅
Suy ra:
(2.6) 𝑝(𝑤, 𝑧, 𝛼, 𝛽) = ∫ 𝑝(𝑧|𝜃) 𝑝(𝜃|𝛼)𝑑𝜃 ∫ 𝑝(𝑤|∅𝑧)𝑝(∅|𝛽)𝑑∅
𝛼𝑑,𝑘+𝛼𝑘
Xét tích phân đầu tiên, ta có:
𝑑𝜃𝑑 =
𝑑𝜃𝑑 =
∫ 𝑝(𝑧|𝜃) 𝑝(𝜃|𝛼)𝑑𝜃 = ∫ ∏ 𝜃𝑑,𝑧𝑖
1 𝐵(𝛼)
1 𝐵(𝛼)
𝐵(𝑛𝑑,𝑘 + 𝛼) 𝐵(𝛼)
𝛼𝑘 ∏ 𝜃𝑑,𝑘 𝑘
∏ 𝜃𝑑,𝑘 𝑘
𝑖
(2.7)
Trong đó:
𝑛𝑑,𝑘 là tần số các từ trong tài liệu 𝑑 được gán vào chủ đề k, tổng chỉ số theo vị trí đó.
∏ 𝑘,¬(𝛼𝑘) ¬(∑ 𝑘𝛼𝑘)
là hàm phân bố đa thức Beta. 𝐵(𝛼) =
Tương tự cho biểu thức tích phân thứ hai (tính likelihood của các từ khi biết trước các phép gán chủ đề nào đó).
∫ 𝑝(𝑤|∅𝑧)𝑝(∅|𝛽)𝑑∅
𝛽𝑤 𝑑∅𝑘
21
1 𝐵(𝛽)
= ∫ ∏ ∏ ∅𝑧𝑑,𝑖𝑤𝑑,𝑖 ∏ 𝑘
𝑑
𝑖
∏ ∅𝑘,𝑤 ư
= ∏
= ∏
𝛽𝑤+𝑛𝑘,𝑤𝑑∅𝑘
1 𝐵(𝛽)
𝐵(𝑛𝑘,𝑤 + 𝛽) 𝐵(𝛽)
𝑘
∫ ∏ ∅𝑘,𝑤 𝑤
𝑘
(2.8)
𝑝(𝑤, 𝑧|𝛼, 𝛽) = ∏
∏
Kết hợp 2 công thức ta có phân bổ liên hợp mở rộng là:
𝐵(𝑛𝑑,𝑘 + 𝛼) 𝐵(𝛼)
𝐵(𝑛𝑘,𝑤 + 𝛽) 𝐵(𝛽)
𝑘
𝑑
(2.9)
Sau đó, công thức lấy mẫu Gibbs cho LDA có thể được rút ra bằng cách sử dụng
quy tắc chuỗi (trong đó chúng ta bỏ qua các siêu tham số 𝛼 và 𝛽). Lưu ý rằng siêu chỉ
(−𝑖) biểu thị việc bỏ thành phần thứ 𝑖 ra khỏi phép tính:
số
=
𝑝(𝑧𝑖|𝑧(−𝑖), 𝑤) =
𝑝(𝑤,𝑧) 𝑝(𝑤,𝑧(−𝑖))
𝑝(𝑧) 𝑝(𝑧(−𝑖))
𝑝(𝑤|𝑧) 𝑝(𝑤(−𝑖)|𝑧(−𝑖))𝑝(𝑤𝑖)
∝ ∏
∏
𝐵(𝑛𝑑,. + 𝛼) (−𝑖) + 𝛼) 𝐵(𝑛𝑑,.
𝐵(𝑛𝑘,. + 𝛽) (−𝑖) + 𝛽) 𝐵(𝑛𝑘,.
𝑑
𝑘
(−𝑖) + 𝛼𝑘)
∝ (𝑛𝑑,𝑘
𝑤′
(−𝑖) + 𝛽𝑤 𝑛𝑘,𝑤 (−𝑖) + 𝛽𝑤′ ∑ 𝑛𝑘,𝑤′
(2.10)
Thuật toán Gibbs Sampling cho mô hình LDA
Suy diễn hậu nghiệm được dùng để suy diễn lại các chủ đề được thực hiện bằng
cách đảo ngược quá trình sinh ra các văn bản và học các phân bố hậu nghiệm trong các biến tiềm ẩn của mô hình trên dữ liệu quan sát. Trong mô hình LDA, các đại lượng này được tính theo công thức (2.11):
(2.11) p(θ, ϕ, z|w, α, β) = p(θ, ϕ, z|w, α, β) 𝑝(𝑤|𝛼, 𝛽)
Do các yếu tố trong thực tế là 𝑝(𝑤|𝛼, 𝛽) không thể tính được một cách chính xác
nên phân bố này chỉ có thể tính toán dựa vào Gibbs Sampling chẳng hạn.
22
Hiện thực Gibbs Sampling cho mô hình LDA [22]
Quy ước:
- 𝑑 là một văn bản trong tập ngữ liệu.
- 𝑤 là một từ.
- 𝑛𝑑,𝑘 là số từ được gán cho chủ đề 𝑘 trong tài liệu 𝑑.
- 𝑛𝑘,𝑤 là số lần từ 𝑤 được gán cho chủ đề 𝑘.
- 𝑛𝑘 là tổng số lần bất kỳ từ nào được gán cho chủ đề 𝑘.
Thuật toán 2.1 của Darling [22] hiện thực Gibbs Sampling cho mô hình LDA:
Thuật toán 2.1: Thuật toán Gibbs Sampling
Input: Tập các từ 𝑤 của tập văn các bản 𝑑 Output: Các phép gán chủ đề 𝑧 và các biến đếm 𝑛𝑑,𝑘, 𝑛𝑘,𝑤, 𝑛𝑘
1:
Khởi tạo ngẫu nhiên tập 𝑧 và tăng các biến đếm
foreach bước lặp://bước lặp mong muốn (thường từ 1000-2000)
2:
3:
𝐟𝐨𝐫 𝑖 = 0 → 𝑁 − 1 𝐝𝐨 //lấy mẫu chủ đề cho mỗi từ trong tập dữ liệu
4:
𝑤𝑜𝑟𝑑 ← 𝑤[𝑖]
5:
𝑡𝑜𝑝𝑖𝑐 ← 𝑧[𝑖]
6:
𝑛𝑑,𝑡𝑜𝑝𝑖𝑐−= 1
7:
𝑛𝑤𝑜𝑟𝑑,𝑡𝑜𝑝𝑖𝑐−= 1
8:
𝑛𝑡𝑜𝑝𝑖𝑐−= 1
9:
𝐟𝐨𝐫 𝑘 = 0 → 𝐾 − 1 𝐝𝐨
10:
𝑝(𝑧 = 𝑘|. ) = (n𝑑,𝑘 + 𝛼𝑘)
𝑛𝑘,𝑤 + 𝛽𝑤 𝑛𝑘 + 𝛽 × 𝑊
11:
end
12:
𝑡𝑜𝑝𝑖𝑐 = 𝑙ấ𝑦 𝑚ẫ𝑢 𝑡ừ 𝑝(𝑧|. )
13:
𝑧[𝑖] ← 𝑡𝑜𝑝𝑖𝑐
14:
𝑛𝑑,𝑡𝑜𝑝𝑖𝑐+= 1
15:
𝑛𝑤𝑜𝑟𝑑,𝑡𝑜𝑝𝑖𝑐+= 1
16:
𝑛𝑡𝑜𝑝𝑖𝑐+= 1
17:
end
18:
end
19:
return 𝑧, 𝑛𝑑,𝑘, 𝑛𝑘,𝑤, 𝑛𝑘
23
Trong Thuật toán 2.1: trình lấy mẫu Gibbs thiết lập các biến đếm cần thiết, khởi
tạo ngẫu nhiên chúng (dòng 1) và sau đó chạy một vòng lặp trên số lần lặp mong muốn
(dòng 2), trong đó trên mỗi vòng lặp, một chủ đề được lấy mẫu cho mỗi trường hợp từ
trong kho ngữ liệu (dòng 12). Trong các lần lặp, các biến đếm được sử dụng để tính toán các phân phối tiềm ẩn 𝜃𝑑 và 𝜙𝑘 (dòng 10).
Các biến đếm được sử dụng bao gồm:
𝑛𝑑,𝑘 là số từ được gán cho chủ đề 𝑘 trong tài liệu 𝑑.
𝑛𝑘,𝑤 là số lần từ 𝑤 được gán cho chủ đề 𝑘.
Tuy nhiên, để đơn giản và khoa học hơn, thuật toán duy trì thêm các biến đếm:
𝑛𝑘 là tổng số lần bất kỳ từ nào được gán cho chủ đề 𝑘.
Cuối cùng, ngoài các biến hiển nhiên, chẳng hạn như đại diện của kho ngữ liệu
(𝑤), thuật toán cần một mảng 𝑧 chứa phép gán chủ đề hiện tại cho mỗi từ trong số 𝑁 từ
trong kho ngữ liệu.
Vì quy trình lấy mẫu Gibbs liên quan đến việc lấy mẫu từ các phân phối được điều
kiện hóa trên tất cả các biến khác (trong LDA, điều này tất nhiên bao gồm tất cả các
phép gán chủ đề hiện tại khác, nhưng không phải chủ đề hiện tại), trước khi xây dựng
một phân phối từ công thức (2.10), chúng ta phải loại bỏ phép gán hiện tại từ công thức.
Điều này có thể được thực hiện bằng cách giảm số lượng liên quan đến phép gán hiện
tại (dòng 6-8) vì phép gán chủ đề trong LDA có thể trao đổi (tức là phân phối xác suất
chung là không đổi khi hoán vị). Sau đó, thuật toán tính xác suất (không chuẩn hóa) của
mỗi phép gán chủ đề (dòng 10) bằng cách sử dụng công thức (2.10). Phân phối rời rạc
này sau đó được lấy mẫu và chủ đề đã chọn được gán vào mảng z (dòng 13) và các biến
đếm tương ứng sau đó được tăng dần (dòng 14-16).
2.1.5 Mô hình hỗn hợp dựa trên quy trình Dirichlet (DPMM)
Đây là một phương pháp tiếp cận được xây dựng chặt chẽ từ mô hình lý thuyết có nhiều ứng dụng thực tiễn chẳng hạn như dùng trong gom cụm (chủ đề), suy luận chủ đề khi chưa biết chính xác số chủ đề trong ngữ cảnh lượng dữ liệu lớn, đến liên tục trên luồng. Mô hình này có được xem như là một phương pháp gom cụm nằm trong nhóm thống kê phi tham số Bayes, mô hình vẫn có tham số nhưng người sử dụng không cần phải thiết lập tham số.
Trong một thời gian dài, quy trình Dirichlet là thước đo ngẫu nhiên rời rạc tiêu chuẩn vàng trong phép đo phi tham số Bayes [76]. Quy trình Pitman – Yor cung cấp
24
một sự tổng quát hóa đơn giản và có thể kiểm soát được về mặt toán học, cho phép kiểm
soát rất hiệu quả hoạt động gom cụm. Hai cách trình bày thường được sử dụng của quy
trình Pitman – Yor là quy trình bẻ que và quy trình nhà hàng Trung Hoa. Quy trình bẻ
que là một biểu diễn mang tính xây dựng rất tiện dụng cho việc triển khai thực tế, trong
khi quy trình nhà hàng Trung Hoa mô tả sự phân bố phân vùng.
2.1.5.1 Nguyên lý Poly Urn
Quy trình rút ra các mẫu liên tiếp 𝒩1, 𝒩2... từ một phân phối được mô tả bởi nguyên lý nhiều chiếc bình poly urn (Blackwell và cộng sự, 1973) có thể được tóm tắt như công
thức (2.12) sau:
𝑛−1 ∑ 𝒩𝑛 − 𝒩𝑘 𝑘=1 α + n − 1
(2.12) + 𝒩𝑛|𝒩1:𝑛−1 ∼ α α + n − 1
𝑛 − 1
Ở đây, 𝛿(𝑥) = 1 nếu 𝑥 = 0 và 𝛿 (𝑥) = 0 nếu ngược lại. Ban đầu, chiếc bình rỗng, vì vậy ta rút ra một màu từ từ phân phối chuẩn, tức là 𝒩1 ∼ 𝒩0, và đặt một trái banh màu đã chọn vào trong bình. Trong lượt tiếp theo, ta rút ra một màu từ phân phối
α + n − 1
αN0 α + n − 1
đã được rút ra với xác suất , hoặc rút ra một màu mới với xác suất . Từ
đó, việc rút ra các mẫu từ phân phối được lặp đi lặp lại, do đó, màu giống nhau có thể
xuất hiện nhiều lần. Điều này xác định rằng ta có 𝐾 số màu riêng biệt với 𝑛 lần rút. Điều
kiện này được xác định bởi một quy trình nổi tiếng được gọi là quy trình nhà hàng Trung
Hoa (CRP) [26]. Trong CRP, ta k sử rằng có vô số bàn trong một nhà hàng và mỗi bàn
có vô số ghế trống xung quanh. Khách hàng đầu tiên ngồi vào bàn đầu tiên, và sau đó,
α
khách hàng tiếp theo hoặc chọn ngồi vào bất kỳ bàn nào đã có người ngồi với xác suất
α + n − 1
n𝑘 α + n − 1 đang ngồi trên một bàn cụ thể. Một khách hàng mới có xu hướng bị thu hút bởi một bàn đông đúc. Hiện tượng này là một phần trong công thức của chúng ta để hiểu việc tạo ra
hoặc chọn bàn trống với xác suất . Ở đây, n𝑘 là số lượng khách hàng
các chủ đề theo thời gian. CRP đại diện cho các lần rút ra từ phân phối 𝒢, trong khi quy
∞
trình bẻ que hiển thị thuộc tính của 𝒢 một cách rõ ràng như công thức (2.13):
(2.13)
𝑘=1
𝒢(𝒩) = ∑ 𝜃𝑘𝛿(𝒩 − 𝒩𝑘) , 𝒩𝑘 ∼ 𝒩0
25
∞ có thể được hình thức hóa bằng 𝜃 ∼ 𝐺𝐸𝑀 (𝛾) (Neal, 2000). Chúng ta khai thác công thức (2.13) cho quy trình sinh của mô
Các trọng số hỗn hợp 𝜃 = {𝜃𝑘} 𝑘 = 1
hình hỗn hợp đa thức quy trình Dirichlet (DPMM) như công thức (2.14) sau:
(2.14) 𝑧𝑑|𝜃 ∼ 𝑀𝑢𝑙𝑡(𝜃) 𝑑 = 1, … , ∞
𝒩𝑘|𝛽 ∼ 𝐷𝑖𝑟(𝛽) 𝑘 = 1,..., ∞
∞ ∼ 𝑝(𝑑|𝒩𝑧𝑑)
𝑑|𝑧𝑑, {𝒩𝑘}𝑘=1
Ở đây, 𝑧𝑑 là các tài liệu được gán cho chủ đề (được phân phối đa thức). Xác suất
của tài liệu 𝑑 được sinh ra bởi chủ đề 𝑧 được tóm tắt như công thức (2.15):
(2.15)
𝑝(𝑑|𝒩𝑧) = ∏ 𝑀𝑢𝑙𝑡(𝜔|𝒩𝑧) 𝜔∈𝑑
Ở đây, giả định Bayes được xem là nơi các từ trong tài liệu được chủ đề tạo ra một
cách độc lập. Trong khi đó, có thể rút ra tuần tự mẫu bằng cách tuân theo CRP. Người
ta cũng giả định rằng vị trí của các từ trong tài liệu không được xem xét trong khi tính
toán xác suất.
2.1.5.2 Quy trình nhà hàng Trung Hoa
“Quy trình nhà hàng Trung Hoa” được định nghĩa bởi Aldous 1985 [5] và Pitman
2006 [64]. Đây là bài toán liên quan đến ý tưởng “vô số cụm hay chưa biết trước số
cụm” trong mô hình. Giả sử có một nhà hàng có số lượng khách là vô hạn và số lượng
bàn của nhà hàng cũng là vô hạn. Mỗi khách khi đến nhà hàng sẽ chọn ngồi vào một
𝑛𝑐 𝛼+∑ 𝑛𝑐𝑐 ngồi vào bàn chưa có người ngồi với xác suất 𝑝(𝑛𝑔ồ𝑖 𝑏à𝑛 𝑘ℎô𝑛𝑔 𝑐ó 𝑛𝑔ườ𝑖 𝑘) =
; chiếc bàn với xác suất: ngồi vào bàn có người ngồi 𝑝(𝑛𝑔ồ𝑖 𝑏à𝑛 𝑐ó 𝑛𝑔ườ𝑖 𝑐) =
𝛼 𝛼+∑ 𝑛𝑐𝑐 mở, 𝑛𝑐 là số lượng người hiện đang ngồi ở bàn c, ∑ 𝑐 là số khách hàng đang ngồi tại nhà hàng.
. Với 𝛼 được gọi là tham số chỉ “độ tập trung”, số này tỉ lệ thuận với số bàn phải
Nếu cần phải trang bị ngẫu nhiên q bàn khi biết hệ số 𝛼 và số n khách tới nhà hàng,
𝑛
𝑛
kỳ vọng và phương sai của q được xấp xỉ theo công thức: kỳ vọng là 𝔼[𝑞|𝛼, 𝑛] ≈
𝛼
𝛼
𝛼ln (1 + ); phương sai là 𝕍[𝑞|𝛼, 𝑛] ≈ 𝛼ln (1 + ).
26
2.1.5.3 Quy trình Dirichlet
Được định nghĩa bởi Ferguson năm 1973 [26], quy trình Dirichlet là một quy trình
ngẫu nhiên thường được sử dụng và là nền tảng quan trọng của các mô hình thống kê
phi tham số Bayes. Quy trình này được xem như là một phân bố dựa trên một phân bố
khác gọi là phân bố nền (base distribution). Như vậy, ta có: 𝐺~𝐷𝑃(𝛼, 𝐻) với 𝐻 là phân
bố nền và 𝛼 là một số dương gọi là tham số độ tập trung.
Cho một tập hữu hạn phần tử không gian xác suất 𝐴1, 𝐴2, … , 𝐴𝑟 với véc tơ ngẫu nhiên là (𝐺(𝐴1), 𝐺(𝐴2), … , 𝐺(𝐴𝑟)) được phân bố ngẫu nhiên theo G. Vậy, G là biến ngẫu nhiên được phân bố theo quy trình Dirichlet với phân bố nền H và độ tập trung 𝛼 nếu véc tơ này thỏa 𝐺(𝐴1), 𝐺(𝐴2), … , 𝐺(𝐴𝑟)~𝐷𝑖𝑟(𝛼𝐻(𝐴1), 𝛼𝐻(𝐴2), … , 𝛼𝐻(𝐴𝑟)), trong đó Dir là phân bố Dirichlet sao cho tập các trường hợp xảy ra thỏa véc tơ có tổng bằng
1. Để thỏa các yêu cầu này, quy trình Dirichlet có thể được xây dựng từ nguyên lý Nhà
hàng Trung Hoa hay kỹ thuật bẻ que.
2.1.5.4 Mô hình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet
Mô hình hỗn hợp là một mô hình xác suất dùng để biểu diễn cho mô hình tổng thể
bằng sự hiện diện của các phân bố con theo hệ số hỗn hợp, có nghĩa là một phân bố tổng
𝐾 𝑘=1
.
𝐾 𝑘=1
𝜋𝑘𝒩(𝑥|𝜇𝑘, ∑𝑘)
quát có thể được biểu diễn bằng việc trộn các phân bố con. Giả sử có 𝐾 phân bố con, mỗi phân bố con 𝑘𝑖 được cho bởi một tham số 𝜃𝑖, ta có: 𝑝(𝑥|𝜃) = ∑ 𝜋𝑘𝑝𝑘(𝑥|𝜃𝑘) Lấy ví dụ mô hình hỗn hợp của phân bố chuẩn được xác định bởi tham số kỳ vọng 𝜇 và ma trận hiệp phương sai ∑ ta có: 𝑝(𝑥|𝜃) = ∑ hay 𝑝(𝑥|𝜃) = 𝜋1𝒩(𝑥|𝜇1) + 𝜋2𝒩(𝑥|𝜇2) + ⋯ + 𝜋𝑘𝒩(𝑥|𝜇𝑘).
Ta có thể biểu diễn mô hình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet
như Hình 2.2.
Hình 2.2: Mô hình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet
27
Qui ước:
H là phân bố cho trước.
𝛼 là tham số tập trung cho trước.
𝜃 là tham số tập trung cho trước bao gồm các tham số 𝜃𝑖̅.
𝑥𝑖 là các điểm dữ liệu.
Quá trình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet được biểu diễn ở
Hình 2.2 có thể được mô tả như sau: giả sử từ phân bố 𝐻 và tham số tập trung 𝛼 cho
trước, ta sử dụng qui trình Dirichlet để sinh ra các tham số 𝜃 hay sinh ra các bộ tham số 𝜃𝑖̅ nào đó 𝑁 lần và mỗi bộ tham số 𝜃𝑖̅ được dùng để sinh ra các điểm dữ liệu 𝑥𝑖. Trong tập các bộ tham số {𝜃1̅̅̅, … , 𝜃𝑛̅̅̅ } tồn tại những bộ tham số được lặp đi lặp lại nhiều lần, giả sử trong đó có K bộ tham số khác nhau 𝜃𝑖̅ ∈ {𝜃1, … , 𝜃𝑘} thì có thể hình dung quá trình này sinh ra một tập dữ liệu có mô hình hỗn hợp K cụm.
2.1.5.5 Mô hình hỗn hợp dựa trên quy trình Dirichlet [56]
Đây là mô hình dựa trên cơ sở lý thuyết giả định rằng phân bố hỗn hợp của dữ liệu
được sinh ra từ một phân bố của tham số 𝜃 thông qua quy trình Dirichlet. Dựa trên mô
hình Bayes, có nhiều cách để tìm tham số trong đó kỹ thuật thông dụng được sử dụng
như Markov Chain Monte Carlo hay biến phân Variantional Inference. Với mỗi cách
giải quyết bài toán khác nhau, có thể định nghĩa các mô hình sinh khác nhau. Ví dụ, với mô hình hỗn hợp 𝐾 cụm sinh 𝑁 điểm dữ liệu 𝑥𝑖, mỗi điểm dữ liệu được gán nhãn thuộc về một cụm 𝑧𝑖 nào đó, có thể biểu diễn mô hình sinh cho mô hình hỗn hợp hữu hạn như Hình 2.3 (các tham số cần thiết 𝛼, 𝜋, 𝜆, 𝜃 đã được gán trước giá trị).
Hình 2.3: Mô hình sinh của mô hình hỗn hợp hữu hạn
28
Qui ước:
𝛼 là tham số tập trung
𝐾 là số cụm 𝑧𝑖
𝑁 là số điểm dữ liệu 𝑥𝑖 (mỗi điểm dữ liệu thuộc về một cụm nào đó)
𝜋 là hệ số hỗn hợp của mô hình
Với tập tham số 𝜃 cho trước, biết điểm dữ liệu 𝑥𝑖 thuộc về cụm 𝑘, ta có: 𝑝(𝑥𝑖|𝑧𝑖 = 𝑘, 𝜃) = 𝑝(𝑥𝑖|𝜃𝑘). Gọi 𝜋 là một véc tơ 𝑘 thành phần có tổng là 1, thể hiện hệ số hỗn hợp của mô hình hỗn hợp, xác suất dữ liệu thuộc về cụm 𝑘 tương ứng là: 𝑝(𝑧𝑖 = 𝑘|𝜋) = 𝜋𝑘. Giả sử 𝜋 được sinh ra từ quy trình phân bố Dirichlet với tham số 𝛼 (ký hiệu 1𝐾 đại diện cho véc tơ 𝐾 tất cả thành phần đều là 1): 𝑝(𝜋|𝛼) = 𝐷𝑖𝑟(𝜋|(𝛼 𝐾⁄ )1𝐾). Mỗi tham số 𝜃𝑘 được sinh ra từ phân bố 𝜃𝑘~𝐻(𝜆), 𝑝(𝜃𝑘|𝜆) được chọn liên hợp với phân bố 𝑝(𝑥𝑖|𝜃𝑘) để thuận lợi cho việc tính toán phân bố tiên nghiệm. Lúc này, nếu biết 𝑥𝑖 thuộc cụm 𝜃𝑘, ta có thể viết 𝑝(𝑥𝑖|𝜃𝑘) được sinh ra từ phân bố 𝑥𝑖~𝐹(𝜃𝑧𝑖) với 𝐹 là phân bố con được sử dụng trong mô hình hỗn hợp. Giả sử rằng phân bố 𝐻 liên hợp với 𝐹, nhờ tính chất giao hoán, có thể sử dụng Collapsed Gibbs Sampling cho mô hình (lượt bỏ 𝜋 và 𝜃𝑘) và tìm 𝑧𝑖. Như vậy, phân bố có điều kiện của z khi biết trước tập dữ liệu x cùng với cụm của các điểm dữ liệu khác như sau: 𝑝(𝑧𝑖 = 𝑘|𝑧−𝑖, 𝑥, 𝛼, 𝜆) ∝ 𝑝(𝑧𝑖 = 𝑘|𝑧−𝑖, 𝛼)𝑝(𝑥𝑖|𝑧−𝑖, 𝑥−𝑖, 𝑧𝑖 = 𝑘, 𝜆) với 𝑛𝑘,−𝑖 là số lượng điểm thuộc cụm 𝑘 ngoại trừ điểm 𝑥𝑖.
Trường hợp biết trước số cụm (hữu hạn)
𝛼
Trong trường hợp này, ta có công thức (2.16)
(2.16)
𝑝(𝑧𝑖 = 𝑘|𝑧−𝑖, 𝛼) = 𝑛𝑘,−𝑖 + 𝑘 𝛼 + 𝑁 − 1
Và công thức (2.17)
(2.17)
𝑗≠𝑖,𝑧𝑖=𝑘
𝑝(𝑥𝑖|𝑧−𝑖, 𝑥−𝑖, 𝑧𝑖 = 𝑘, 𝜆) ∝ ∫ 𝑝(𝑥𝑗|𝜃𝑘) [ ∏ 𝑝(𝑥𝑗|𝜃𝑘) ] 𝐻(𝜃𝑘|𝜆)𝑑𝜃𝑘
Thuật toán dành cho mô hình hữu hạn được mô tả như sau (xem Thuật toán 2.2).
29
Thuật toán 2.2: Mô hình hỗn hợp Dirichlet hữu hạn
Input:
N# số điểm dữ liệu 𝐾#số cụm 𝛼#tham số tập trung
𝑖𝑡𝑒𝑟𝑎𝑡𝑜𝑟#số vòng lặp mong muốn
Output: 𝑧
1:
Initialize: 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 #lưu các cụm
2:
𝑐𝑙𝑢𝑠𝑡𝑒𝑟 ← K cụm, mỗi cụm là 1 phân bố
3:
for i =1 → N do
4:
5:
𝑧𝑖 ← 𝑙ấ𝑦 𝑛𝑔ẫ𝑢 𝑛ℎ𝑖ê𝑛 𝑡ừ 1 − 𝐾 𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑖]. 𝑎𝑑𝑑(𝑥𝑖) 𝑣à 𝑐ậ𝑝 𝑛ℎậ𝑡 𝑐á𝑐 𝑡ℎ𝑎𝑚 𝑠ố
6:
end
7:
for 𝑖𝑡𝑒𝑟 = 1 → 𝑖𝑡𝑒𝑟𝑎𝑡𝑜𝑟 do
8:
for 𝑖 = 1 → 𝑁 do
9:
10:
𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑖]. 𝑟𝑒𝑚𝑜𝑣𝑒(𝑥𝑖) 𝑣à 𝑐ậ𝑝 𝑛ℎậ𝑡 𝑐á𝑐 𝑡ℎ𝑎𝑚 𝑠ố Tính và chuẩn hóa 𝑝(𝑧𝑖|𝑧−𝑖, 𝑥, 𝛼, 𝜆), gọi phân bố rời rạc này là 𝑝(𝑧𝑛𝑒𝑤|. ) #công thức (2.16) và (2.17)
11:
Lấy mẫu 𝑧𝑛𝑒𝑤~𝑝(𝑧𝑛𝑒𝑤|. )
12
13
𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑛𝑒𝑤]. 𝑎𝑑𝑑(𝑥𝑖) 𝑣à 𝑐ậ𝑝 𝑛ℎậ𝑡 𝑐á𝑐 𝑡ℎ𝑎𝑚 𝑠ố 𝑧[𝑖] = 𝑧𝑛𝑒𝑤
14:
end
15: end for
16: return z
Thuật toán 2.2 [56] mô tả các bước gom cụm với mô hình hỗn hợp Dirichlet trong trường hợp số cụm cố định là 𝐾. Đầu tiên, cụm 𝑧𝑖 được lấy ngẫu nhiên từ 𝐾 cụm và thêm các điểm dữ liệu 𝑥𝑖 tương ứng (dòng 4 và 5). Tiếp theo, thuật toán thực hiện lặp với số lần lặp mong muốn là 𝑖𝑡𝑒𝑟𝑎𝑡𝑜𝑟. Trong mỗi bước lặp, tương tự LDA, trước khi xây dựng một phân phối từ công thức (2.10) và (2.17), thuật toán phải loại bỏ phép gán
hiện tại từ công thức. Điều này có thể được thực hiện bằng cách giảm số lượng liên quan đến phép gán hiện tại thông qua việc cập nhật các tham số (dòng 9). Tiếp theo, thuật toán tính xác suất và chuẩn hóa của mỗi phép gán chủ đề (dòng 10) bằng cách sử dụng công thức (2.10) và (2.17). Phân phối rời rạc này sau đó được lấy mẫu (dòng 11), các
30
điểm dữ liệu được gán vào cụm và các tham số được cập nhật (dòng 12), chủ đề đã chọn
sau đó được gán vào mảng z (dòng 13).
Trường hợp chưa biết trước số cụm (vô hạn)
Trong trường hợp này, cụm mới được ký hiệu là 𝑘∗ và tham số cụm mới là 𝜃∗, 𝑘 là cụm cũ và 𝜃 là tham số cụm cũ. Vì chưa biết số cụm, giả sử hiện có 𝐾 cụm và tại mỗi
lần lặp điểm dữ liệu có thể xếp vào cụm cũ hay cụm mới.
Khi 𝐾 → ∞, ta có: nếu là cụm cũ thì xác suất tính theo công thức (2.18):
(2.18) 𝑝(𝑧𝑖 = 𝑘|𝑧−𝑖, 𝛼) = 𝑛𝑘,−𝑖 𝛼 + 𝑁 − 1
𝛼
Nếu là cụm mới thì xác suất được tính theo công thức (2.19):
(2.19) 𝑝(𝑧𝑖 = 𝑘∗|𝑧−𝑖, 𝛼) = 𝛼+𝑁−1
Xác suất một điểm dữ liệu thuộc về cụm cũ được tính theo công thức (2.20):
𝑗≠𝑖,𝑧𝑖=𝑘
(2.20) 𝑝(𝑥𝑖|𝑧−𝑖, 𝑥−𝑖, 𝑧𝑖 = 𝑘, 𝜆) ∝ ∫ 𝑝(𝑥𝑖|𝜃𝑘)[∏ 𝑝(𝑥𝑗|𝜃𝑘) ]𝐻(𝜃𝑘|𝜆)𝑑𝜃𝑘
Xác suất một điểm dữ liệu thuộc về cụm mới được tính theo công thức (2.21):
(2.21)
𝑝(𝑥𝑖|𝑧−𝑖, 𝑥−𝑖, 𝑧𝑖 = 𝑘∗, 𝜆) ∝
∫ 𝑝(𝑥𝑖|𝜃∗)[∏
𝑝(𝑥𝑗|𝜃∗)
]𝐻(𝜃𝑘|𝜆)𝑑𝜃∗ =
𝑗≠𝑖,𝑧𝑖=𝑘
∫ 𝑝(𝑥𝑖|𝜃∗)𝐻(𝜃∗|𝜆)𝑑𝜃∗ = 𝑝(𝑥𝑖|𝜆)
Trong mô hình này, trong mỗi bước lặp xử lý ngoài những cụm đã có ta cần xét xem có nên tạo cụm mới để thêm điểm dữ liệu vào hay không. Do đó, sẽ có trường hợp các cụm được tạo ra là những cụm không cần thiết. Tuy nhiên, hầu hết những cụm thừa
này sẽ bị loại bỏ sau vài lần lặp vì khi lặp đủ nhiều thì 𝐾 sẽ lặp quanh quẩn trong một
khoảng nào đó.
Thuật toán của mô hình không giới hạn được mô tả như sau (xem Thuật toán 2.3)
31
Thuật toán 2.3: Mô hình hỗn hợp Dirichlet vô hạn
Input:
𝐾 #số cụm là số rất lớn 𝛼#tham số tập trung
𝑖𝑡𝑒𝑟𝑎𝑡𝑜𝑟#số vòng lặp mong muốn
Output: 𝑧#kết quả phân cụm
1:
Initialize: cluster #lưu các cụm
2:
clusters ← K cụm, mỗi cụm là 1 phân bố điểm dữ liệu
3:
for i =1 → N do
4:
5:
𝑧𝑖 ← 𝑙ấ𝑦 𝑛𝑔ẫ𝑢 𝑛ℎ𝑖ê𝑛 𝑡ừ 1 − 𝐾 𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑖]. 𝑎𝑑𝑑(𝑥𝑖) 𝑣à 𝑐ậ𝑝 𝑛ℎậ𝑡 𝑐á𝑐 𝑡ℎ𝑎𝑚 𝑠ố
6:
end
7:
for 𝑖𝑡𝑒𝑟 = 1 → 𝑖𝑡𝑒𝑟𝑎𝑡𝑜𝑟 do
8:
for 𝑖 = 1 → 𝑁 do
9:
𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑖]. 𝑟𝑒𝑚𝑜𝑣𝑒(𝑥𝑖) 𝑣à 𝑐ậ𝑝 𝑛ℎậ𝑡 𝑐á𝑐 𝑡ℎ𝑎𝑚 𝑠ố
10:
if (𝑐ụ𝑚 𝑣ừ𝑎 𝑥ó𝑎 rỗng) then xóa 𝑐ụ𝑚 𝑛à𝑦 khỏi 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 và cập nhật các tham số
11:
Tính và chuẩn hóa 𝑝(𝑧𝑖|𝑧−𝑖, 𝑥, 𝛼, 𝜆), gọi phân bố rời rạc này là 𝑝(𝑧𝑛𝑒𝑤|. ) #công thức (2.19)
12:
Lấy mẫu 𝑧𝑛𝑒𝑤~𝑝(𝑧𝑛𝑒𝑤|. )
13:
if 𝑧𝑛𝑒𝑤 là 𝑐ụ𝑚 𝑚ớ𝑖 then 𝑐𝑙𝑢𝑠𝑡𝑒𝑟. 𝑎𝑑𝑑(𝑧𝑛𝑒𝑤) và cập nhật các 𝑡ℎ𝑎𝑚 𝑠ố #sử dụng công thức (2.20) và (2.21) để tính và so sánh
14:
𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑛𝑒𝑤]. 𝑎𝑑𝑑(𝑧𝑛𝑒𝑤) và cập nhật các 𝑡ℎ𝑎𝑚 𝑠ố
15:
end
16:
17:
𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑖]. 𝑎𝑑𝑑(𝑥𝑖) 𝑣à 𝑐ậ𝑝 𝑛ℎậ𝑡 𝑐á𝑐 𝑡ℎ𝑎𝑚 𝑠ố 𝑧[𝑖] = 𝑧𝑛𝑒𝑤
18: end
19: return z
Thuật toán 2.3 [56] mô tả các bước gom cụm với mô hình hỗn hợp Dirichlet trong trường hợp số cụm thay đổi. Đầu tiên, cụm 𝑧𝑖 được lấy ngẫu nhiên từ 𝐾 cụm và thêm các điểm dữ liệu 𝑥𝑖 tương ứng (dòng 4 và 5). Tiếp theo, thuật toán thực hiện lặp với số lần lặp mong muốn là 𝑖𝑡𝑒𝑟𝑎𝑡𝑜𝑟. Trong mỗi bước lặp, tương tự LDA, trước khi xây dựng một phân phối từ công thức (2.19), thuật toán phải loại bỏ phép gán hiện tại từ công
thức. Điều này có thể được thực hiện bằng cách giảm số lượng liên quan đến phép gán
32
hiện tại thông qua việc cập nhật các tham số (dòng 9). Tiếp theo, nếu cụm vừa xóa không
còn chứa điểm dữ liệu nào thì xóa cụm và cập nhật các tham số (dòng 11). Sau đó, thuật
toán tính xác suất và chuẩn hóa của mỗi phép gán chủ đề (dòng 11) bằng cách sử dụng
công thức (2.19). Phân phối rời rạc này sau đó được lấy mẫu (dòng 12) và được xem
xét xem thuộc cụm mới hay cụm cũ dựa vào việc tính và so sánh xác suất thuộc cụm mới hay cụm cũ theo công thức (2.20) và (2.21), nếu là cụm mới thì sẽ được thêm vào
danh sách cụm đồng thời thuật toán cập nhật tham số tương ứng (dòng 14). Sau đó, các
điểm dữ liệu được gán vào cụm và các tham số được cập nhật (dòng 16), chủ đề đã chọn
sau đó được gán vào mảng z (dòng 17).
2.1.6 Đồ thị con phổ biến
Khai phá đồ thị con phổ biến
Với một tập hợp các đồ thị dạng văn bản đã xây dựng ({G1, G2, … G|D|}) từ một kho văn bản nhất định (D), với V và E là tập hợp các từ xuất hiện đặc biệt W là các nút của
đồ thị và các quan hệ đồng xuất hiện tương ứng của chúng. Kỹ thuật khai phá đồ thị con
′ , G2
′ … G|F|
′ ∈ E, được xem là đặc trưng phân biệt cho các tài
phổ biến, chẳng hạn như: gSpan, FFSM, vv... là kỹ thuật dùng để rút trích ra tập hợp các ′ }, trong đó mỗi đồ thị con phổ đồ thị con phổ biến, được ký hiệu là: F = {G1
′ = (Vf
′), với Vf
′ ∈ V và Ef
′, Ef ′. liệu đã cho có chứa đồ thị con Gf
biến: Gf
Thuật toán gSpan
Thuật toán gSpan [9], viết tắt của khai phá mẫu cấu trúc con dựa trên đồ thị (graph-
based Substructure pattern mining), được Yan và Han giới thiệu vào năm 2002. Thuật
toán dựa trên phương pháp tiếp cận tăng trưởng theo mẫu (pattern), sử dụng chiến lược
tìm kiếm theo chiều sâu để duyệt đồ thị, tìm các ứng cử viên và kiểm tra các đồ thị con phổ biến (xuất hiện thường xuyên). Kể từ đó, đã có nhiều công trình khoa học sử dụng thuật toán này hoặc các thuật toán mở rộng của nó để phát hiện các đồ thị con phổ biến trong một tập đồ thị được cho [60, 63].
33
Thuật toán gSpan [9] đề xuất phương pháp tìm theo chiều sâu (DFS Code) để xây
dựng cây tìm kiếm (DFS Code Tree), để tìm ra mã tìm kiếm tối thiểu. Để có thể xác
định xem các đồ thị có đồng dạng với nhau hay không, tìm mã tìm kiếm cực tiểu của hai
đồ thị và so sánh chúng, nếu hai mã tìm kiếm này bằng nhau thì hai đồ thị là đồng dạng.
Thuật toán 2.4: Thuật toán gSpanAlgorithm
Input:
Tập đồ thị của tập tài liệu D Giá trị support nhỏ nhất 𝜎
Output: Tập các đồ thị con phổ biến của tập tài liệu 𝐷, ký hiệu: FD
1:
Sắp xếp thứ tự các nhãn trong 𝐷 dựa vào tần số
2:
Loại bỏ các đỉnh và cạnh không phổ biến
3:
Gán nhãn lại cho các đỉnh và cạnh còn lại
4:
5:
1 ← tất cả đồ thị phổ biến có 1 cạnh trong 𝐹𝐷 1 theo thứ tự từ điển DFS
6:
7:
1 𝐝𝐨
8:
F𝐷 Sắp xếp F𝐷 1 𝐹𝐷 ← F𝐷 for each đỉnh 𝑒 ∈ F𝐷 khởi tạo 𝑠 với 𝑒, gán các đồ thị có chứa 𝑒 cho 𝐷𝑠
9:
Subgraph_Mining (D, 𝐹𝐷,s, 𝜎)
10: 𝐷 ← 𝐷 − 𝑒
11: if |𝐷| < 𝜎 then
12:
break
13: end
14: end
34
Thuật toán 2.5: Thuật toán con Subgraph_Mining của gSpanAlgorithm
Input:
Tập đồ thị của tập tài liệu D Tập đồ thị con 𝑠 Giá trị support nhỏ nhất 𝜎
Output: Tập các đồ thị con phổ biến của tập tài liệu 𝐷, ký hiệu: FD
1:
𝐢𝐟 𝑠 ≠ 𝑚𝑖 𝑛(𝑠) 𝐭𝐡𝐞𝐧
2:
Return
3:
𝐹𝐷 ← 𝐹𝐷 ∪ {𝑠}
4:
liệt kê s trong mỗi đồ thị trong 𝐷 và đếm các con của nó;
5:
𝐟𝐨𝐫 𝐞𝐚𝐜𝐡 c, c là con của s 𝐝𝐨
6:
𝐢𝐟 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑐) ≥ 𝜎 𝐭𝐡𝐞𝐧
7:
s ← c
8:
Subgraph_Mining(D, 𝐹𝐷, 𝑠, 𝜎)
9:
𝐞𝐧𝐝
10: 𝐞𝐧𝐝
Thuật toán 2.4 gSpanAlgorithm có thể tóm tắt thành các bước sau:
(1)- Hệ thống khởi tạo cấu trúc FD để lưu các tập đồ thị con phổ biến của tập tài liệu D
(2)- Với mỗi tập đồ thị từ 𝑠 thuộc về tập đồ thị từ của tập tài liệu D, hệ thống duyệt tất cả đồ thị con của 𝑠 và thêm các đồ thị con thỏa min support α vào tập FD tương ứng
Có thể mô tả chi tiết Thuật toán 2.4 gSpanAlgorithm [9] thành các bước sau. Thuật
toán sử dụng biểu diễn danh sách kề rời rạc để lưu trữ đồ thị. Trong thuật toán 𝐷 đại diện cho tập dữ liệu đồ thị, FD chứa kết quả khai phá đồ thị con phổ biến. Giả sử chúng ta có một tập nhãn {𝐴, 𝐵, 𝐶} đại diện cho các đỉnh và {a, b, c} đại diện cho các cạnh.
Trong Thuật toán 2.4 (dòng 7-12), vòng đầu tiên sẽ khám phá tất cả các đồ thị con phổ
𝑎 ↔ 𝐴. Vòng thứ hai sẽ khám phá tất cả các đồ thị con phổ biến
biến có chứa một cạnh 𝐴
𝑎 ↔ 𝐵, nhưng không chứa bất kỳ 𝐴
𝑎 ↔ 𝐴 nào. Quy trình này lặp lại cho đến khi tất
chứa 𝐴
cả các đồ thị con phổ biến được phát hiện. Cơ sở dữ liệu bị thu hẹp khi quy trình này
tiếp tục (Thuật toán 2.4 dòng 10) và khi đồ thị con lớn hơn (Với Thủ tục con ở Thuật toán 2.1 dòng 8, chỉ những đồ thị chứa đồ thị con này mới được xem xét. 𝐷𝑠 là tập hợp
35
các đồ thị trong đó 𝑠 là một đồ thị con). Hoạt động khai thác đồ thị con được gọi đệ quy
để phát triển các đồ thị và tìm tất cả các con cháu phổ biến của chúng. Khai thác đoạn
con ngừng tìm kiếm khi độ ℎỗ 𝑡𝑟ợ (𝑠𝑢𝑝𝑝𝑜𝑟𝑡) của biểu đồ nhỏ hơn ngưỡng 𝑚𝑖𝑛𝑆𝑢𝑝 𝜎
hoặc đồ thị này và tất cả các đồ thị con của nó đã được tạo và được phát hiện trước đó.
Độ phức tạp của thuật toán gSpan. Khai thác đồ thị con phổ biến từ tập văn bản, độ phức tạp của thuật toán gSpan: 𝒪(|𝑉|2log |𝑉|), với V là tổng đỉnh của tất cả các đồ thị từ trong tập văn bản.
2.1.7 Mô hình hóa sự nổi bật trên luồng văn bản của Kleinberg
Mô hình hóa sự nổi bật
Mô hình hóa sự nổi bật theo chuỗi thời gian là những bài toán thực tế, thu hút rất
nhiều sự quan tâm. Công trình [29] đã giải quyết những vấn đề này bằng cách sử dụng
một mô hình có một tham số gọi là mô hình 𝑏. Một đối tượng được coi là tự tương đồng
nếu nó tương đồng với một phần của chính nó, ví dụ một hoặc nhiều phần của đối tượng
tương đồng với toàn bộ của chính đối tượng đó. Khi một đối tượng có các thuộc tính
thống kê giống nhau ở các mức độ khác nhau, thì đối tượng đó tự tương đồng về mặt
thống kê. Có nhiều đối tượng tự giống nhau qua các mức độ thời gian khác nhau và
chúng là các chuỗi thời gian tương đồng nhau. Các đối tượng chuỗi thời gian tự tương
đồng này trong thế giới thực có rất nhiều ứng dụng như video, tài liệu, hệ thống tập tin,
Ethernet, Tin tức, mạng xã hội, ... Chúng không chỉ giống nhau mà còn thể hiện sự nổi
bật đáng kể và thường áp dụng “Luật 80/20” có nghĩa là 20% dữ liệu được 80% truy
vấn truy cập. Trong mô hình 𝑏, 𝑏 là tham số chệch được sử dụng để lập mô hình tỷ lệ
phần trăm độ lệch của các hoạt động. Vì có nhiều hoạt động hơn trong 𝑏% của các phân
đoạn so với phần còn lại, tham số chệch b được sử dụng để tổng hợp một dấu vết và
𝑒𝑛𝑡𝑟𝑜𝑝𝑦 có thể được sử dụng để mô tả độ nổi bật nhằm đưa mô hình vào dữ liệu huấn
luyện. So với dữ liệu thực, các dấu vết tổng hợp có ý nghĩa thực tế hơn nhiều. Thay vì tập trung vào các hành vi và mô hình nổi bật như [81] và [42] đã làm, [102] tập trung vào một thuật toán hiệu suất cao để phát hiện các sự cố trên nhiều kích thước cửa sổ. Những nghiên cứu này định nghĩa sự nổi bật đơn giản và áp dụng nó cho nhiều ứng
dụng trong thế giới thực.
Việc phát hiện các cụm không gian, được định nghĩa là một vùng hình vuông và được mở rộng thành hình chữ nhật trong các nghiên cứu sau này, đã được thực hiện bởi
nhiều công trình, sử dụng mật độ cao nhất [57, 58]. Không gian đa phương tiện, một
36
vùng hình vuông có mật độ cao nhất, được sử dụng để phát hiện các cụm không gian
quan trọng trong [70]. Những nghiên cứu này sử dụng một hàm không đơn điệu mật độ
chung. Chỉ vùng có mật độ cao nhất mới được xem xét. Để loại bỏ các vùng không thể
thực hiện được, họ sử dụng phương pháp từ trên xuống, phân nhánh và ràng buộc, gọi
là cây chồng chéo 𝑘𝑑 (overlap-kd-tree). Để xác định sự thay đổi theo thời gian của các
từ có tần số cao, cấu trúc sự nổi bật của luồng văn bản được trình bày trong [42]. Có
nhiều ngữ cảnh khác nhau đối với luồng văn bản được đề cập trong các công trình như các bài báo, email, ấn phẩm nghiên cứu và mục đích chính của công trình là thể hiện
một số sự nổi bật và hành vi mang tính thứ bậc và cấp bậc. Vì một số từ xuất hiện thường
xuyên hơn những từ khác trong những khoảng thời gian nhất định và những tần số này
thay đổi theo thời gian, Kleinberg sử dụng một Automát trạng thái không xác định để hạ thấp phân phối hàm mũ để phát hiện các mức độ nổi bật khác nhau trong các thang
thời gian khác nhau và xem xét khoảng cách giữa hai thông điệp liên tiếp.
Phát hiện sự nổi bật
Sự gia tăng nhanh chóng và liên tục trong một sự kiện xác định sự nổi bật trong
luồng văn bản. Vì vậy, một sự nổi bật được định nghĩa là khoảng thời gian mà một từ
khóa xuất hiện liên tục và trở nên phổ biến bất thường trên luồng văn bản và việc xác
định sự nổi bật được gọi là phát hiện sự nổi bật. Kleinberg là một thuật toán xác định và gán nhãn trạng thái cho các sự nổi bật. Quy trình sử dụng một Automát hai trạng thái sử
dụng phương pháp tính sự nổi bật [11, 29] được sử dụng rộng rãi hơn các phương pháp
được đề xuất như phát hiện sự nổi bật cho các sự kiện [69, 87], phương pháp dựa trên
thử nghiệm [78], phương pháp phi tham số [11]. Các phương pháp này được áp dụng
rộng rãi cho các lĩnh vực khác nhau của luồng văn bản bao gồm các ấn phẩm trực tuyến,
blog [103], e-mail [32], và mạng xã hội [91, 103], ... Trong nghiên cứu giải quyết bài
toán số 2, luận án gắn nhãn cho một sự nổi bật là “thời gian bắt đầu- thời gian kết thúc”
và xác định các cụm “từ khóa xu thế” (là tập hợp n từ khóa có trọng số sự nổi bật từ khóa cao nhất) gồm các từ khóa thuộc cùng một sự nổi bật và đề xuất một thuật toán để tìm các từ khóa này. Ngoài ra, luận án cũng đề xuất thuật toán xác định các sự nổi bật xu thế của một từ khóa (là tập hợp n sự nổi bật có trọng số tần số xuất hiện của từ khóa cao nhất).
37
Tiếp cận của Kleinberg
Giả sử có một luồng văn bản ví dụ như một thư mục e-mail lớn về một chủ đề rộng
duy nhất. Xác định sự nổi bật như thế nào và giúp ích gì trong việc cấu trúc luồng văn
bản này? Đặc điểm nổi trội là những sự nổi bật như vậy tương ứng với những thời điểm
mà cường độ thông điệp đến tăng mạnh, có thể từ vài tuần hoặc vài ngày một lần lên vài giờ hoặc vài phút một lần. Nhưng tỷ lệ lượt đến nói chung là rất “dao động (rugged)”:
tỷ lệ này thường không tăng lên một cách mượt mà và sau đó giảm đi, mà biểu hiện sự
luân phiên thường xuyên của các cơn sốt nhanh chóng và các khoảng dừng lâu hơn trong
khoảng thời gian gần. Do đó, các phương pháp phân tích khoảng cách giữa các lần gửi
tin nhắn liên tiếp theo một cách quá đơn giản có thể dễ dàng tập trung chú ý vào việc
xác định số lượng lớn các sự nổi bật ngắn, cũng như phân mảnh các sự nổi bật lớn thành
nhiều sự nổi bật nhỏ hơn. Hơn nữa, việc liệt kê đơn giản các tập hợp thông điệp gần
nhau chỉ là bước đầu tiên hướng tới cấu trúc phức tạp hơn. Do đó, mục tiêu rộng lớn
hơn là rút trích cấu trúc toàn cục từ một loại hình giảm mạnh dữ liệu - chỉ xác định các
sự nổi bật khi chúng đủ cường độ và theo cách cho phép một sự nổi bật liên tục diễn ra
suôn sẻ trên một mẫu (pattern) đến không đồng nhất của thông điệp.
Cách tiếp cận của Kleinberg là lập mô hình luồng bằng cách sử dụng automaton 𝒜
ở trạng thái không xác định, tại bất kỳ thời điểm nào có thể ở một trong các trạng thái
cơ bản và phát ra các thông điệp ở các tốc độ khác nhau tùy thuộc vào trạng thái của mô
hình. Cụ thể, automaton 𝒜 có một tập hợp các trạng thái tương ứng với tốc độ phát ngày
càng nhanh và khởi điểm của một sự nổi bật được báo hiệu bởi một sự chuyển đổi trạng
thái - từ trạng thái thấp hơn sang trạng thái cao hơn. Bằng cách ấn định chi phí cho việc chuyển đổi trạng thái, có thể kiểm soát được tần số của các chuyển đổi đó, ngăn chặn
các đợt nổi bật rất ngắn và giúp dễ dàng xác định các đợt nổi bật dài hơn dù cho tốc độ
của luồng có thay đổi. Khung tổng thể của thuật toán Kleinberg được đề xuất dựa trên
các phương pháp Markov được sử dụng trong việc mô hình hóa sự nổi bật trong lưu
lượng truy cập mạng, và các mô hình Markov ẩn.
Việc sử dụng automaton tự động có các trạng thái tương ứng với cường độ cao cung cấp thêm một nguồn để phân tích bổ sung - các sự nổi bật liên quan đến chuyển đổi trạng thái tạo thành một cấu trúc lồng nhau tự nhiên, với một đợt nổi bật dài cường độ thấp có khả năng chứa một số đợt nổi bật cường độ cao hơn bên trong (đệ quy). Đối với một thư mục gồm các e-mail có liên quan, có thể phân rã theo trật tự thời gian, với các tập dài hạn phân rã thành những tập ngắn gọn hơn theo cấu trúc cây tự nhiên. Do
đó, cây này có thể được xem như là một một cấu trúc tổ chức các tập con trên luồng
thông điệp. Có thể xem thêm các lý thuyết toán học về automaton ở công trình [42].
38
Ý tưởng thuật toán Kleinberg trong việc phát hiện sự nổi bật
Thuật toán xác định các khoảng thời gian khi một sự kiện “mục tiêu” (target)
thường xuyên xuất hiện một cách bất thường, hay còn gọi là “nổi bật”. Thuật toán có
thể được sử dụng để phát hiện các sự nổi bật trong một chuỗi sự kiện liên tục. Có một
tập hợp các sự kiện, bao gồm cả các sự kiện “mục tiêu” và không phải “mục tiêu” (non- target), được quan sát tại mỗi thời điểm t. Nếu chúng ta xem xét ví dụ về các bài viết,
thì các sự kiện “mục tiêu” có thể bao gồm các bài viết có một từ khóa “mục tiêu” được
nhắm đến và các sự kiện không phải mục tiêu có thể bao gồm tất cả các bài viết khác
không bao gồm từ khóa “mục tiêu” đó.
Cho: 𝑑 là tổng số sự kiện tại mỗi thời điểm; 𝑟 là tổng số sự kiện đích; Tỷ lệ các sự
kiện mục tiêu tại mỗi thời điểm được tính theo công thức (2.22):
(2.22) 𝑝 = 𝑟 𝑑⁄
Để phát hiện sự nổi bật, các trạng thái khác nhau được giả định tương ứng với các
xác suất khác nhau của các sự kiện “mục tiêu”. Một trạng thái có thể có xác suất mục
tiêu cao, thấp hoặc trung bình. Nếu giả định rằng chỉ có hai trạng thái có thể xảy ra, thì
chúng ta có thể coi trạng thái có xác suất thấp hơn là trạng thái cơ bản và trạng thái có
xác suất cao hơn là trạng thái nổi bật.
Xác suất cơ sở 𝑝0 bằng tỷ lệ tổng thể của các sự kiện “mục tiêu” (theo công thức
(2.23)).
(2.23) 𝑝0 = 𝑟 𝑑⁄
trong đó r là tổng các sự kiện mục tiêu và d là tổng các sự kiện tại mỗi thời điểm.
Xác suất trạng thái bùng nổ “bursty” p1 bằng xác suất cơ sở nhân với một số hằng
số s có thể được chọn khác nhau (theo công thức (2.24)). Nếu s lớn, xác suất các sự kiện
“mục tiêu” cần phải cao để đạt trạng thái bùng nổ “bursty”.
(2.24) 𝑝1 = 𝑆 ∗ 𝑝0
39
Hình 2.4: Tỉ lệ của các sự kiện mục tiêu
Hình 2.4 trình bày một ví dụ về tỷ lệ các sự kiện “mục tiêu”. Mục tiêu các sự kiện
thường được mong đợi xảy ra với xác suất liên quan đến trạng thái của chúng. Tuy nhiên,
tỷ lệ các sự kiện mục tiêu có thể cao hơn hoặc thấp hơn dự kiến do biến số nhiễu (noise) ngẫu nhiên.
Với tỷ lệ quan sát được của các sự kiện “mục tiêu”, thuật toán phát hiện Burst sẽ
có thể xác định thời điểm hệ thống có thể ở trạng thái cơ bản hoặc trạng thái nổi bật.
Điều này phụ thuộc vào:
Mức độ phù hợp giữa tỷ lệ quan sát được và xác suất mong đợi của mỗi trạng thái. Hệ thống có nhiều khả năng mang một trạng thái hơn nếu tỷ lệ quan
sát được càng gần với xác suất mong đợi của trạng thái đó. Nó được ký hiệu là
sigma, được định nghĩa theo công thức (2.25):
𝑟𝑡(1 − 𝑝𝑖)𝑑𝑡−𝑟𝑡)]
(2.25) 𝜎(𝑖, 𝑟𝑡, 𝑑𝑡) = − ln[( ) (𝑝𝑖 𝑑𝑡 𝑟𝑡
Khó khăn khi chuyển đổi từ trạng thái trước sang trạng thái tiếp theo. Giữ nguyên trạng thái cũ hoặc trở lại trạng thái thấp hơn không tốn kém gì, do đó chi
phí chuyển đổi, ký hiệu là 𝜏𝑎𝑢 = 0. Khi chuyển sang trạng thái cao hơn, phải
mất chi phí, do đó, chi phí chuyển đổi được định nghĩa theo công thức (2.26):
(2.26) 𝜏 = (𝑖𝑛𝑒𝑥𝑡 − 𝑖𝑝𝑟𝑒𝑣 ∗ 𝛾 ∗ ln(𝑛))
40
với n là số điểm thời gian; và gamma là độ khó trong việc chuyển đổi sang các
trạng thái cao hơn (các giá trị gamma cao hơn làm cho việc chuyển đổi sang trạng
thái bùng nổ hơn khó khăn hơn).
Tổng chi phí chuyển đổi từ trạng thái này sang trạng thái khác bằng tổng của hai
hàm (2.25) và (2.26). Với hàm chi phí, có thể tính được chuỗi trạng thái q tối ưu để giảm thiểu tổng chi phí. Chuỗi trạng thái tối ưu này có thể được tìm thấy với
thuật toán Viterbi bằng cách thực hiện một số bước đơn giản sau đây. Đầu tiên,
thuật toán bắt đầu với việc tính toán chi phí ở mỗi trạng thái tại 𝑡 = 1 và chọn
trạng thái có chi phí tối thiểu. Sau đó, hệ thống sẽ tính toán chi phí chuyển đổi từ
trạng thái hiện tại ở 𝑡 = 1 sang từng trạng thái có thể có tại 𝑡 = 2, và lại chọn
trạng thái có chi phí tối thiểu. Các bước này được lặp lại cho tất cả các mốc thời
gian để cuối cùng có được một chuỗi trạng thái mà hàm chi phí là nhỏ nhất. Dựa
trên trình tự trạng thái, chúng ta biết khi nào hệ thống ở trạng thái tăng cao hoặc
trạng thái nổi bật. Thuật toán có thể được thực hiện cho các sự kiện “mục tiêu”
khác nhau để xây dựng khoảng thời gian về những sự kiện phổ biến theo thời
gian.
𝑡2
Công thức (2.27) có thể được sử dụng để ước tính cường độ (hoặc trọng số/chỉ số độ quan trọng) của một sự nổi bật (bắt đầu tại thời điểm t1 và kết thúc tại thời điểm t2 và được gán nhãn 𝑡1 − 𝑡2):
(2.27) (𝜎(0, 𝑟𝑡, 𝑑𝑡) − 𝜎(1, 𝑟𝑡, 𝑑𝑡)) 𝑤𝑒𝑖𝑔ℎ𝑡 = 𝑠𝑢𝑚𝑡=𝑡1
Công thức này cho thấy chi phí phù hợp giảm bao nhiêu khi nhận được trạng thái
nổi bật so với trạng thái cơ bản trong giai đoạn nổi bật. Chi phí phù hợp càng
giảm, trọng số càng lớn và sự nổi bật càng mạnh.
2.2 Kết chương
Trong chương này, luận án trình bày các công trình nghiên cứu liên quan như mô hình chủ đề, mô hình hỗn hợp dựa trên quy trình Dirichlet và một số nguyên lý liên quan, đồ thị hóa văn bản, kỹ thuật tìm đồ thị con phổ biến (thuật toán gSpan), thuật toán phát hiện sự nổi bật trên luồng dữ liệu văn bản…làm cơ sở để xây dựng các thuật toán của luận án.
41
CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ
NGHĨA DỰA TRÊN ĐỒ THỊ TỪ
Chương này trình bày phương pháp tiếp cận được đề xuất của luận án dựa trên mô
hình hỗn hợp giúp tận dụng đánh giá mối quan hệ đồng hiện của từ bằng cách áp dụng phương pháp phân phối biểu đồ của từ phổ biến (GOW) trên các tài liệu trong một luồng
văn bản nhất định, được gọi là GOW-Stream. GOW-Stream là một phương pháp gom
cụm luồng văn bản đa thức theo quy trình Dirichlet (DPMM) có thể cải thiện đáng kể
chất lượng của việc gom cụm các luồng văn bản ngắn với nội dung rời rạc. Phần đầu tiên của chương giới thiệu ngắn gọn cách tiếp cận rút trích đồ thị từ (GOW) phổ biến từ
các tài liệu văn bản bằng cách áp dụng phép đồ thị hóa văn bản text2graph và kỹ thuật khai phá đồ thị con phổ biến (FSM). Nội dung tiếp theo trình bày một kỹ thuật suy luận chủ đề mới chủ yếu dựa trên mô hình MStream/MStreamF đã được công bố trước đó
(năm 2018), các phân phối đa thức của tài liệu được biểu thị dưới dạng phân phối của
các từ xuất hiện và đồ thị con phổ biến. Qua đó, cả từ độc lập và đồ thị con phổ biến
trong mỗi tài liệu của một luồng văn bản đều được xem xét cẩn thận trong quá trình hình
Một phần của chương này được công bố trong bài báo “GOW-Stream: a novel approach of graph-of-words based mixture model for semantic-enhanced text stream clustering” và đã được chấp nhận đăng trong tạp chí “Intelligent Data Analysis” thuộc danh mục SCIE, Q3 năm 2020.
thành chủ đề.
3.1 Phương pháp
Phần này giới thiệu sơ nét các các phương pháp mà mô hình GOW-Stream sử dụng,
so sánh với phương pháp truyền thống khác.
3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW)
Ví dụ về biểu diễn theo lối truyền thống. Giả sử cho tập văn bản 𝐷={𝑑1, 𝑑2, 𝑑3} gồm các văn bản:
𝑑1 = {𝑤1, 𝑤2, 𝑤3}, với 𝑤1 = 𝑎, 𝑤2 = 𝑏, 𝑤3 = 𝑐
𝑑2 = {𝑤1, 𝑤2, 𝑤3, 𝑤4}, với 𝑤1 = 𝑎, 𝑤2 = 𝑏, 𝑤3 = 𝑐, 𝑤4 = 𝑑;
𝑑3 = {𝑤1, 𝑤2, 𝑤3, 𝑤4, 𝑤5,, 𝑤6 }, với 𝑤1 = 𝑎, 𝑤2 = 𝑏, 𝑤3 = 𝑐, 𝑤4 = 𝑑, 𝑤5 =
𝑎, 𝑤6 = 𝑐;
42
Phương pháp BOW truyền thống biểu diễn các văn bản như trong Bảng 3.1.
Bảng 3.1: Biểu diễn văn bản với BOW truyền thống
Chiều dài văn bản
Chiều dài văn bản sau khi
Biểu diễn
Văn
a b c d
ban đầu
loại bỏ từ trùng
véc tơ
1 1 1 0
3
3
[1,1,1,0]
1 1 1 1
4
4
[1,1,1,1]
2 1 2 1
6
4
[2,1,2,1]
bản 𝑑1 𝑑2 𝑑3
Bảng 3.1 mô tả khái quát cách biểu diễn văn bản với túi từ truyền thống đối với 3 văn bản đã cho là 𝑑1, 𝑑2, 𝑑3 với chiều dài sau khi loại bỏ từ trùng lần lượt là 3,4,4. Như vậy, kích thước của ma trận các véc tơ biểu diễn tập văn bản sẽ là 3x4 và từng véc tơ có
giá trị tương ứng như cột “Biểu diễn véc tơ” trong Bảng 3.1.
Ví dụ về sử dụng TF-IDF để biểu diễn. Với TF-IDF, các văn bản đã cho được biểu
diễn như trong Bảng 3.2.
Bảng 3.2: Biểu diễn văn bản với BOW và TF-IDF
Chiều dài
Chiều dài
Biểu diễn véc tơ
văn bản
Văn bản
TF- IDF(a)
TF- IDF(b)
TF- IDF(c)
TF- IDF(d)
văn bản sau khi loại bỏ từ
trùng
0
0
0
3
3
[0,0,0,0]
0
0
0
0,04
4
4
[0;0;0;0,04]
0
0
0
0,03
6
4
[0;0;0;0,03]
0
𝑑1 𝑑2 𝑑3
Bảng 3.2 trình bày ví dụ về phương pháp biểu diễn văn bản với túi từ truyền thống đối với 3 văn bản đã cho là 𝑑1, 𝑑2, 𝑑3 có sử dụng thêm kỹ thuật TF-IDF để tính tần số xuất hiện của các từ tương ứng trong văn bản. Sau đó, véc tơ biểu diễn văn bản sẽ có giá trị là các tần số từ được tính bằng kỹ thuật TF-IDF.
43
3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW)
Kỹ thuật đồ thị hóa văn bản Text2graph. Biểu diễn tài liệu văn bản dựa trên
GOW là một cách tiếp cận NLP nổi tiếng nhằm mục đích biểu diễn tài liệu văn bản d thành cấu trúc dựa trên đồ thị, được ký hiệu là: Gd = (Vd, Ed) với tập hợp các nút (Vd) và các cạnh (Ed) đại diện cho tập hợp các từ phân biệt, như W = {w1, w2 … w|W|}, được xuất hiện trong tài liệu d và quan hệ đồng xuất hiện tương ứng giữa các từ này. Các quan
hệ đồng xuất hiện giữa các từ có thể được rút trích linh hoạt dựa vào một cửa sổ trượt
được xác định trước. Đây còn được gọi là kỹ thuật đồ thị hóa văn bản text2graph, phương
pháp thống kê để biểu diễn các mối quan hệ đồng xuất hiện giữa các từ trong văn bản
mà không cần cân nhắc về ý nghĩa ngữ nghĩa giữa các từ. Các đồ thị dạng văn bản sau khi biến đổi có thể có hướng hoặc vô hướng. Cách triển khai đơn giản nhất của biểu
diễn GOW cho tài liệu văn bản là sử dụng đồ thị vô hướng để biểu diễn quan hệ đồng
xuất hiện giữa các từ (minh họa trong Hình 3.1) được áp dụng trong mô hình đề xuất
GOW-Stream. Trong trường hợp cần xem xét thứ tự xuất hiện của các từ trong tài liệu,
các đồ thị được xây dựng nên là đồ thị có hướng. Để triển khai nâng cao phương pháp tiếp cận text2graph, có thể cân nhắc để tính đến tần suất xuất hiện đồng thời của hai từ
và gán nhãn bằng chú thích từng phần của từ cho các đồ thị văn bản đã xây dựng. Trong
nghiên cứu này, luận án sử dụng đồ thị vô hướng và phương pháp biểu diễn mối quan
hệ đồng xuất hiện của từng cặp từ trong văn bản làm nền tảng để biểu diễn văn bản.
Hình 3.1: Hình ảnh minh họa cấu trúc đồ thị hóa văn bản (text2graph) với đồ thị vô hướng
Hình 3.1 minh họa cho việc biểu diễn bằng đồ thị văn bản 𝑑 có nội dung là “The
lazy dog jumped over the big brown fox”. Sau khi loại bỏ từ trùng (“the”) thì văn bản 𝑑
44
còn lại 8 từ tương ứng với 8 đỉnh của đồ thị. Các cặp từ đứng gần nhau (trong văn bản
d trước khi loại bỏ từ trùng) sẽ được biểu diễn bằng các cung nối (có tổng cộng 8 cung):
the-lazy, lazy-dog, dog-jumped, jumped-over, over-the, the-big, big-brown, brown-fox.
Đồ thị con phổ biến là đặc trưng cho tài liệu. Tiếp theo, với một tập hợp các đồ thị dạng văn bản đã xây dựng 𝐺 = {G1, G2, … G|D|) từ một kho văn bản nhất định (D), với V và E là tập hợp các từ xuất hiện đặc biệt W là các nút của đồ thị và các quan hệ
′ , G2
′ … G|F|
′ ∈ V và Ef
′), với Vf
′, Ef
đồng xuất hiện tương ứng của chúng. Sau đó, luận án áp dụng các kỹ thuật khai phá đồ
thị con phổ biến, chẳng hạn như: gSpan, FFSM, vv... để rút trích ra tập hợp các đồ thị ′ }, trong đó mỗi đồ thị con phổ biến: con phổ biến, được ký hiệu là: F = {G1 ′ = (Vf ′ ∈ E, được dùng để biểu diễn đặc trưng phân biệt cho các Gf ′. Khác với việc sử dụng các từ phổ biến làm các đặc tài liệu đã cho có chứa đồ thị con Gf trưng phân biệt để biểu diễn văn bản, hay còn gọi là biểu diễn theo túi từ (BOW), việc
sử dụng các đồ thị con phổ biến để biểu diễn văn bản mang tính ngữ nghĩa hơn do khả
năng nắm bắt các mối quan hệ đồng xuất hiện của các cặp từ (n-gram với n=1) được áp
dụng vào mô hình đề xuất.
Biểu diễn tài liệu kết hợp BOW và GOW. Kết hợp với biểu diễn dựa trên BOW
cổ điển, một tài liệu d bây giờ được phân rã thành bộ giá trị sau (như thể hiện trong công
thức (3.1)):
⟨Wd: Nd|𝐅𝐝⟩
(3.1)
w là tần số
Với:
Wd là tập hợp các từ duy nhất xuất hiện trong tài liệu 𝑑 Nd là tần số của chúng được biểu diễn dưới dạng vectơ Nd, trong đó Nd
w∈d
w Nd
. xuất hiện của (w) cụ thể trong tài liệu đã cho d hay Nd = ∑
Fd là tập các đồ thị con phổ biến của tài liệu d.
Đối với mỗi tập đồ thị con phổ biến Fd trong tài liệu 𝑑, mỗi đồ thị con phổ biến chỉ xuất hiện một lần, do đó không cần tính tần suất xuất hiện của đồ thị con phổ biến trong
mỗi tài liệu (vì luôn là 1). Thuật toán 3.1 do luận án đề xuất minh họa các bước để rút trích đồ thị con phổ biến từ một kho ngữ liệu văn bản thô nhất định với thuật toán gSpan [92] để khai phá đồ thị con văn bản phổ biến. Tóm lại, ý tưởng quan trọng đằng sau gSpan là thay vì liệt kê tất cả các đồ thị con và kiểm tra tính đẳng cấu trong toàn bộ bộ sưu tập, trước tiên nó xây dựng cho mỗi đồ thị một thứ tự từ vựng của tất cả các cạnh
bằng cách sử dụng tìm kiếm Depth First Search (DFS) và gán cho nó một mã DFS tối
thiểu duy nhất. Dựa trên tất cả các mã DFS này, cây tìm kiếm phân cấp được xây dựng
45
ở cấp bộ sưu tập. Bằng cách sắp xếp trước việc duyệt cây này, gSpan phát hiện ra tất cả
các đồ thị con phổ biến thỏa ngưỡng min support σ yêu cầu.
Thuật toán 3.1: Rút trích các đồ thị con phổ biến từ tập tài liệu đã cho (D)
Input:
Tập tài liệu D Cửa sổ trượt s=1//chỉ xét từng cặp từ Ngưỡng support nhỏ nhất 𝜎=0,2//(20%).
Output: Tập các đồ thị con phổ biến của tập tài liệu D, ký hiệu: FD
1:
Function ExtractGOWs(D, σ)
2:
Initialize: GD = {} #Khởi tạo tập các GOW của tập tài liệu 𝐷, ký hiệu 𝐺𝐷
3:
For document d in D:
4:
Initialize: Gd = Text2Graph(d)#Khởi tạo từng đồ thị từ 𝐺𝑑
5:
Update: GD. append(Gd)#Cập nhật vào tập đồ thị từ 𝐺𝐷
6:
End for
7:
Initialize: FD = gSpanAlgorithm(GD, σ) #Tìm tập đồ thị con phổ biến 𝐹𝐷
8:
Return FD
9:
End function
10: Function Text2Graph(d):
11:
Initialize: G𝑑 #cấu trúc đồ thị của tài liệu 𝑑
12:
Initialize: Wd = {}, WSeqd = {}#Danh sách từ, ds từ theo thứ tự của tài liệu 𝑑
13:
For word w in tokenize(d):
14:
If w not in Wd: Wd.append(w)#Tạo ds từ không trùng
15:
Update: WSeqd.append(w) #Tạo ds từ theo thứ tự
16:
End for
17:
Update: G. nodes. create(Wd) #Tạo tập các nút từ tập từ không trùng đã có
18:
For word w in WSeqd:
19:
For i in range(0, s):
20:
Update: G. edges. create([w], [Seqd[w − i])#Tạo cạnh với từ phía trước
21:
Update: G. edges. create([w], [Seqd[w + i]) #Tạo cạnh với từ phía sau
22:
End for
23:
End for
24:
Return G𝑑
25: End function
26
46
Function gSpanAlgorithm (GD, σ):
27:
Initialize: FD = {} #lưu các đồ thị con phổ biến của tập tài liệu 𝐷
28:
For Gd in GD:
29:
For c in children(Gd): #Duyệt tất cả các đồ thị con của Gd
30:
If support(c, GD) 𝜎: Update: FD. append(c)#Cập nhật đồ thị con phổ biến tương ứng vào tập đồ thị con phổ biến 𝐹𝐷
31:
End for
32:
End for
33
Return FD
34
End function
Như vậy, Thuật toán 3.1 tìm đồ thị con phổ biến của tập tài liệu 𝐷 là ExtractGOWs
có thể tóm tắt thành các bước như sau:
(1)- Với mỗi tài liệu 𝑑 trong tập tài liệu 𝐷, hệ thống khởi tạo GOW của tài liệu 𝑑 là 𝐺𝑑 (dòng 2) và cập nhật vào danh sách GOW 𝐺𝐷 của tập tài liệu 𝐷 sử dụng hàm Text2Graph(d) (dòng 4 và 5).
(2)- Hệ thống tìm tập đồ thị con phổ biến 𝐹𝐷 tương ứng với tập tài liệu 𝐷 bao gồm các tập đồ thị con phổ biến 𝐹𝑑 của từng tài liệu 𝑑 sao cho 𝐹𝑑 chỉ chứa các đồ thị con phổ biến 𝑓𝑑 có tần số xuất hiện lớn hơn ngưỡng phổ biến tối thiểu minsupp σ sử dụng thuật toán gSpan, thuật toán tìm đồ thị con phổ biến của tài liệu 𝑑 (dòng 7).
Hàm Text2Graph(d) có thể tóm tắt thành các bước sau:
(1)- Hệ thống khởi tạo cấu trúc đồ thị G𝑑 của tài liệu 𝑑 (dòng 11)
(2)-Hệ thống khởi tạo danh sách sách từ 𝑊𝑑 không trùng và từ theo thứ tự
𝑊𝑆𝑒𝑞𝑑 của tài liệu 𝑑 (dòng 12)
(3)- Với mỗi từ trong danh sách từ 𝑊𝑑 của tài liệu 𝑑, hệ thống tạo đỉnh cho đồ thị Gd sau đó dựa vào danh sách từ theo thứ tự 𝑊𝑆𝑒𝑞𝑑 của tài liệu 𝑑, hệ thống tạo cạnh cho đồ thị Gd (dòng 18 - 23)
* Đỉnh đồ thị chỉ có một từ duy nhất nên tham số trượt s (trong n-gram) được thiết
lập là 1.
Có thể tóm tắt các bước của hàm gSpanAlgorithm như sau:
47
(1)- Hệ thống khởi tạo cấu trúc FD để lưu các tập đồ thị con phổ biến của tập tài
liệu D (dòng 27).
(2)- Với mỗi tập đồ thị từ Gd của tài liệu 𝑑 thuộc về tập đồ thị từ GD của tập tài liệu D, hệ thống duyệt tất cả đồ thị con của Gd và thêm các đồ thị con thỏa min support α vào tập FD tương ứng (dòng 28-32).
Ví dụ về biểu diễn văn bản bằng đồ thị và tìm đồ thị con phổ biến. Phần sau
đây trình bày ví dụ về biểu diễn văn bản bằng GOW.
Giả sử cho tập văn bản 𝐷={𝑑1, 𝑑2, 𝑑3} gồm các văn bản
𝑑1 = {𝑤1, 𝑤2, 𝑤3}, với 𝑤1 = 𝑎, 𝑤2 = 𝑏, 𝑤3 = 𝑐
𝑑2 = {𝑤1, 𝑤2, 𝑤3, 𝑤4}, với 𝑤1 = 𝑎, 𝑤2 = 𝑏, 𝑤3 = 𝑐, 𝑤4 = 𝑑;
𝑑3 = {𝑤1, 𝑤2, 𝑤3, 𝑤4, 𝑤5,, 𝑤6 }, với 𝑤1 = 𝑎, 𝑤2 = 𝑏, 𝑤3 = 𝑐, 𝑤4 = 𝑑, 𝑤5 =
3}, với:
𝑎, 𝑤6 = 𝑐;
1, 𝑔𝑑
1 = 𝐺𝑂𝑊(𝑑1); 𝑔𝑑
2 = 𝐺𝑂𝑊(𝑑2); 𝑔𝑑
3 = 𝐺𝑂𝑊(𝑑3); 𝑔𝑑
{𝑔𝑑 Ta có thể biểu diễn cho tập 𝐷 bằng đồ thị từ và được tập đồ thị từ tương ứng 𝐺𝐷 = 2, 𝑔𝑑
a
a
a
d
d
b
b
b
c
c
c
1 𝑔𝑑
2 𝑔𝑑
3 𝑔𝑑
Tập đồ thị từ 𝐺𝐷 có thể được minh họa bằng các hình vẽ như sau:
Hình 3.2: Biểu diễn đồ thị từ của tập tài liệu 𝐷
3}
48
1, 𝑔𝑑
2, 𝑔𝑑
Vậy ta tìm ra được tập 𝐺𝐷 = {𝑔𝑑
Giả sử ta dùng thuật toán gSpan để tìm đồ thị con phổ biến với ngưỡng min support
a
a
d
b
b
c
c
1 𝑓𝐺
2 𝑓𝐺
= 50%, ta được các đồ thị con phổ biến trên toàn tập D gồm:
2 } và:
Hình 3.3: Tập đồ thị con phổ biến chung của tập tài liệu 𝐷
1, 𝑓𝐺
𝑑1 =
Như vậy, tập các đồ thị con phổ biến là 𝐹𝐺 = {𝑓𝐺
1, ta có tập đồ thị con phổ biến của 𝑑1 là 𝑓𝐺
1}
𝑑1 có 1 đồ thị con phổ biến là 𝑓𝐺
2, ta có tập đồ thị con phổ biến của 𝑑2 là
{𝑓𝐺
1 và 𝑓𝐺
2}
1, 𝑓𝐺
𝑑2 = {𝑓𝐺 𝑓𝐺
2, ta có tập đồ thị con phổ biến của 𝑑3 là
𝑑2 có 2 đồ thị con phổ biến là 𝑓𝐺
1 và 𝑓𝐺
2}
1, 𝑓𝐺
𝑑3 = {𝑓𝐺 𝑓𝐺
𝑑3 có 2 đồ thị con phổ biến là 𝑓𝐺
𝑑3 }
𝐷 = {𝑓𝐺 𝐹𝐺
𝑑1, 𝑓𝐺
𝑑2, 𝑓𝐺
𝑑3 } hay gọi tắt FD = {𝑓𝐺
𝑑1, 𝑓𝐺
𝑑2, 𝑓𝐺
Và ta có tập đồ thị con phổ biến cuối cùng như sau:
Vậy, sử dụng đồ thị con phổ biến để biểu diễn các văn bản như trong Bảng 3.3.
Bảng 3.3: Biểu diễn văn bản với GOW
𝟏 𝒇𝑮 𝟐 Số đồ thị con phổ biến Biểu diễn véc tơ Văn bản 𝒇𝑮 0 1
[1,0]
1
1
1
2
[1,1]
1
1
2
[1,1]
𝑑1 𝑑2 𝑑3
1, 𝑓𝐺
49
Bảng 3.3 trình bày ví dụ về cách biểu diễn văn bản sử dụng đồ thị từ đối với 3 văn bản được cho là 𝑑1, 𝑑2, 𝑑3. Đầu tiên, các văn bản được đồ thị hóa. Tiếp theo, hệ thống tìm tập đồ thị con phổ biến với thuật toán gSpanAlgorithm theo ngưỡng min support 2 }. Dựa vào kết quả được thiết lập là 50% được tập đồ thị con phổ biến là 𝐹𝐺 = {𝑓𝐺 này, véc tơ biểu diễn của các văn bản sẽ có số chiều là 2 vì tập đồ thị con phổ biến có 2
đồ thị con phổ biến và các véc tơ này được biểu diễn giá trị tương ứng như trong Bảng
3.3, cột “Biểu diễn véc tơ”.
Khi kết hợp giữa BOW và GOW trong mô hình luận án đề xuất GOW-Stream, các
văn bản được biểu diễn như Bảng 3.4.
Bảng 3.4: Biểu diễn văn bản kết hợp BOW và GOW
Chiều
Biểu diễn véc tơ
Văn bản
BOW
GOW
dài văn bản
0
0
0
0
1
0
3
[0,0,0,0,1,0]
0
0
0
0,04
1
1
4
[0;0;0;0,04;1;1]
0
0
0
0,03
1
1
6
[0;0;0;0,03;1;1]
𝑑1 𝑑2 𝑑3
Bảng 3.4 trình bày ví dụ minh họa về cách biểu diễn văn bản kết hợp BOW và
GOW, trong đó véc tơ văn bản được kết hợp lại có số chiều là 4 (theo BOW) + 2 (theo
GOW) = 6 và có giá trị cụ thể tương ứng như trong Bảng 3.4, cột “Biểu diễn véc tơ”.
3.1.3 Gom cụm luồng văn bản dựa trên mô hình hỗn hợp
Gom cụm luồng văn bản với mô hình hỗn hợp. Nói chung, gom cụm luồng văn
bản với mô hình hỗn hợp hoàn toàn khác với phương pháp gom cụm văn bản tĩnh cổ điển. Trong bối cảnh liên tục xuất hiện các tài liệu văn bản có độ dài khác nhau theo thời gian, đối với dữ liệu luồng văn bản phổ biến, chẳng hạn như khuyến nghị, blog, vv... từ mạng xã hội, số lượng tài liệu, độ dài của tài liệu và các chủ đề được đề cập có thể đa
dạng và có thể thay đổi nhanh chóng tại các thời điểm khác nhau (t). Về mặt hình thức,
đối với mỗi tập tài liệu đến, còn được gọi là luồng batch, đến với hệ thống tại một thời điểm cụ thể (t) - được ký hiệu là: Dt = {d1, d2 … d|Dt|}, trong đó mỗi tài liệu dt chứa một tập hợp các từ duy nhất: Ndt = {w1, w2 … w|Ndt|}. Với tất cả các tập tài liệu tuần tự đến luồng văn bản, D = {D1, D2 … DT} với T → ∞, mục tiêu cuối cùng của phương pháp
50
gom cụm luồng văn bản dựa trên mô hình hỗn hợp là nhóm các tài liệu có liên quan trong Dt thành các chủ đề, được ký hiệu là: Zt = {z1, z2 … zK} với K → ∞. Theo giả định dòng trôi khái niệm/chủ đề, số lượng chủ đề K của luồng văn bản nhất định có thể thay
đổi theo thời gian (t). Theo cách tiếp cận mô hình chủ đề truyền thống, mỗi chủ đề được
phát hiện được biểu diễn dưới dạng đa phân phối các từ duy nhất xuất hiện trong lô tài
liệu thời gian thứ t nhất định, được ký hiệu là:
zt = {prob(w1), prob(w2) … prob(w|Ndt|)},
với prob (.) là viết tắt của phân phối xác suất.
Sau đó, mỗi tài liệu dt được biểu diễn dưới dạng:
dt = {prob(z1), prob(z2) … prob(z|Zt|)},
b} (mỗi tài liệu dt
b = {d1
a = {d1
a … dn
b … dn
b, d2
a, d2
a, dt
a} và zt
với dt là tập xác suất phân phối của các chủ đề được rút trích.
b = ∅.
a ∩ zt zt
Tuy nhiên, để đáp ứng sự thay đổi của các chủ đề trong mỗi lô tài liệu đến, mỗi tài liệu dt chỉ được chọn với một chủ đề phù hợp nhất zt, do đó cho hai chủ đề khác nhau, b ∈ Dt) là a và b với a ≠ b và zt tài liệu tương ứng của từng cụm, ta có:
Chủ đề theo mô hình của David Blei [15] ở đây sẽ là phân bố của từ, tài liệu và đồ
thị con phổ biến như trình bày ở phần phía sau biểu diễn chủ đề dựa trên GOW.
Quy trình Dirichlet & lược đồ Poly-Urn. Thường được áp dụng trong phương
pháp tiếp cận luồng văn bản dựa trên mô hình hỗn hợp, quy trình Dirichlet (DP) được
∑
xem là quy trình phi tham số dùng để mô hình hóa dữ liệu. Quy trình hỗ trợ để đưa ra một mẫu 𝒩 từ phân phối G với các phân phối nền G0 đã cho, được ký hiệu là: G~DP(α, G0) với α là siêu tham số tập trung để kiểm soát sự phân phối của việc rút ra từng mẫu 𝒩. Để rút ra một mẫu tuần tự: {𝒩0, 𝒩1 … 𝒩𝑛} từ phân phối G, định lý lược đồ Poly-Urn được áp dụng như sau (như thể hiện trong công thức (3.2)):
n−1 k=1
(3.2) + 𝒩n|𝒩1:n−1~ α α + n − 1 δ(𝒩n − 𝒩k) α + n − 1
Trong đó:
n là số lần rút ra từ phân phối G.
δ(𝑥) là hàm chỉ thị, trong đó δ(𝑥) = 1 khi 𝑥 = 0, ngược lại δ(𝑥) = 0.
51
Lặp lại n lần rút ra từ phân phối 𝐺, chúng ta có thể nhận một tập hợp 𝐾 giá trị đặc
biệt, trong đó 𝐾 < 𝑛 để phân chia n lần rút ra 𝐾 chủ đề. Việc phân phối trên 𝐾 phân
vùng xác định được phát triển bằng cách áp dụng một nguyên lý nổi tiếng, được gọi là
nguyên lý Nhà hàng Trung Hoa (CRP). Các lần rút ra của phân phối G được biểu diễn
∞ k=1
θ𝑘δ(𝒩𝑛 − 𝒩𝑘)
bằng cách áp dụng Nguyên lý Nhà hàng Trung Hoa và quá trình stick-breaking minh họa tính chất của phân phối G là: 𝐺(𝒩) = ∑ 𝑣ớ𝑖 𝒩𝑘~𝒩0. Trọng số ∞ được xây dựng bằng công thức phân phối GEM (Griffiths, Engen hỗn hợp θ θ = {θ𝑘}k=1 và McCloskey) của DP là: θ~GEM(α). Sau đó, cấu trúc stick-breaking được áp dụng
cho quá trình tạo ra mô hình DPMM như sau (như thể hiện trong công thức (3.3)):
(3.3) θ|α~GEM(α)
𝒩k|β~Dirichlet(β), k → ∞
zd|θ~Mult(θ), k → ∞
∞ ~prob(d|𝒩zd)
d|zd, {𝒩k}k=1
Trong đó:
z đại diện cho cụm sinh ra tài liệu (d). prob(d|𝒩zd) là xác suất phân phối mà một tài liệu nhất định (d) được sinh ra bởi
w∈d
Mult(w| một cụm z, được định nghĩa là: prob(d|𝒩zd) = ∏ 𝒩zd).
Từ công thức (3.3) đã cho, Bayes giả định là việc tạo ra các từ (Wd) trong mỗi tài liệu (𝑑) là độc lập với một chủ đề z đã biết mà (𝑑) được gán. Sau đó, việc rút ra các mẫu
liên tiếp có thể được thực hiện bằng CRP. Phương pháp này giả định rằng xác suất phân phối của các từ trong mỗi tài liệu được đánh giá một cách độc lập mà không cần xem
xét vị trí của chúng cũng như các mối quan hệ đồng xuất hiện. Hình 3.4 là mô hình biểu diễn đặc trưng dạng đồ thị của GOW-Stream hay còn gọi là mô hình sinh của GOW- Stream.
52
Hình 3.4: Mô hình sinh của mô hình GOW-Stream
Trong Hình 3.4, ta có:
z: cụm, chủ đề được rút ra từ phân bố đa thức của θ, zd|θ~Mult(θ)
w: Tập phân bố từ đặc trưng của tài liệu dD được rút ra từ phân bố đa thức
với phân bố ban đầu là phân bố chuẩn N: prob(d|𝒩zd).
f: Tập phân bố đồ thị con phổ biến đặc trưng dD được rút ra từ phân bố đa
thức với phân bố ban đầu là phân bố chuẩn N: prob(d|𝒩zd).
𝛼: siêu tham số tập trung.
𝛽: siêu tham số tập trung.
𝜃: phân bố tham số mô hình 𝜃 được lấy ra từ mô hình phân bố GEM:
GEM(α).
Hình 3.4 cho thấy dựa trên tham số kiểm soát độ tập trung của mô hình 𝛼, phân bố
tham số mô hình 𝜃 được lấy ra từ mô hình phân bố GEM, θ~GEM(𝛼). Từ 𝜃, mẫu phân
bố chủ đề z được rút ra, được xác định bằng phân bố đa thức của từ và các đồ thị con
phổ biến trong một tài liệu (𝑑) dựa theo công thức (3.6).
𝛽 là siêu tham số dùng để lấy mẫu ngẫu nhiên của tập từ đặc trưng và đồ thị con
phổ biến đặc trưng từ tài liệu (𝑑) với phân bố ngẫu nhiên ban đầu là một phân bố chuẩn.
Sau đó, với từ và đồ thị con phổ biến vừa được lấy ra ngẫu nhiên, mô hình áp dụng phân bố theo quy trình Dirichlet để xác định xác xuất lấy ra được phân bố chủ đề có sẵn nào hay khả năng chọn mới một chủ đề dựa vào nguyên lý Nhà hàng Trung Hoa và Poly
Urn. Kế đến, hai khả năng này được hợp lại như công thức (3.8) nếu xác xuất lấy ra
được phân bố chủ đề có sẵn lớn hơn. Ngược lại, hai khả năng này được hợp lại như
công thức (3.9).
53
Mô hình GOW-Stream luận án đề xuất dựa trên việc cải tiến từ mô hình MStream,
GOW-Stream
và Hình 3.5 trình bày hai mô hình sinh tương ứng của GOW-Stream và MStream.
MStream
Hình 3.5: Mô hình sinh của MStream & GOW-Stream
Hình 3.5 nêu bật sự cải tiến của mô hình do luận án đề xuất GOW-Stream so với
mô hình được công bố MStream [97]. Cải tiến chính của mô hình GOW-Stream chính
là cải tiến biểu diễn đặc trưng văn bản, kết hợp từ phổ biến (trong biểu diễn văn bản
bằng BOW) và đồ thị con phổ biến (trong biểu diễn văn bản bằng GOW).
Như vậy, điểm khác nhau chính trong nguyên lý hoạt động của 2 mô hình chính là
ở mô hình cải tiến GOW-Stream là từ 𝜃, mẫu phân bố chủ đề z được rút ra, được xác
định bằng phân bố đa thức của từ và các đồ thị con phổ biến trong một tài liệu (𝑑) dựa
theo công thức (3.6) thì phần thứ 2 của công thức (3.6) có xem xét sự liên quan giữa đồ
thị con phổ biến và các từ do đó công thức (3.8) có bổ sung thêm nội dung này. Tương
tự, công thức (3.9) cũng có sự thay đổi ở phần thứ 2 của công thức.
Mô hình GOW-Stream
Phần này trình bày những đóng góp chính của luận án về đề xuất một kỹ thuật gom cụm luồng văn bản hiệu quả giúp nâng cao chất lượng của các chủ đề đã xác định trong luồng văn bản nhất định bằng cách sử dụng các bản phân phối đồ thị con phổ biến được rút trích trên các tài liệu. GOW-Stream là một mô hình dựa trên DPMM, lấy ý tưởng từ các công trình trước đây dựa vào mô hình MStream/MStreams.
54
Sai lệch chủ đề (Topic drift) khi gom cụm luồng văn bản.
Sai lệch chủ đề là sự biến đổi các chủ đề kết quả gom cụm khi văn bản đến liên tục
theo thời gian, chủ đề mới có thể xuất hiện, chủ đề cũ có thể biến mất.
Khác với gom cụm văn bản tĩnh, khi gom cụm luồng văn bản, sai lệch chủ đề là
vấn đề phổ biến và không mong muốn do tính chất của luồng văn bản là dữ liệu đến liên tục theo thời gian. Do sự sai lệch chủ đề, hiệu suất của các mô hình sẽ giảm xuống vì sự
sai lệch trong dự đoán tăng lên. Do đó, cần phải xác định và giải quyết tốt những sai
lệch như vậy để xây dựng mô hình có độ chính xác cao.
Giả sử tại thời điểm 𝑡 có batch văn bản thứ 𝑡 đến, mô hình xác định từng văn bản
thuộc về các chủ đề nào hiện có. Tuy nhiên, các văn bản mới đến này có thể làm xuất
hiện thêm chủ đề mới hay làm cho các chủ đề cũ không còn phù hợp nữa đối với xu thế hiện tại. Cho nên, mô hình cần phải linh hoạt đáp ứng việc thêm chủ đề mới cũng như
loại bỏ các chủ đề cũ cho phù hợp với hoàn cảnh hiện tại. Các chủ đề cần được cập nhật
cho phù hợp các văn bản cần được gán chủ đề cho phù hợp.
Đối với các mô hình chủ đề tĩnh, việc gom cụm được thực hiện 1 lần trên 1 batch
dữ liệu và các chủ đề được xác định một lần. Khi có batch dữ liệu mới đến, các mô hình
này phải thực hiện gom cụm lại trên toàn bộ dữ liệu để xác định lại các chủ đề cho phù
hợp với ngữ cảnh mới.
Trong bối cảnh dữ liệu văn bản đến liên tục theo thời gian, để làm việc hiệu quả với dữ liệu luồng thời gian thực này, các mô hình cần xử lý một batch tại một thời điểm
mà vẫn đảm bảo tinh cập nhật liên tục và do đó có thể giải quyết tốt vấn đề sai lệch chủ
đề. Dựa trên mô hình DPMM, GOW-Stream thực hiện gom cụm luồng văn bản và đảm
bảo giải quyết tốt sự sai lệch chủ đề.
Như vậy bên cạnh các vấn đề liên quan đến văn bản như độ dài của văn bản, mối
quan hệ đồng hiện từ, khi làm việc với dữ liệu văn bản “streaming”, luận án đã giải
quyết được vấn đề liên quan đến “luồng” là vấn đề “sai lệch chủ đề”, đáp ứng tốt sự thay
đổi chủ đề trên luồng văn bản.
Biểu diễn chủ đề dựa trên GOW
Khác với cách tiếp cận truyền thống của gom cụm ngữ liệu văn bản tĩnh, các chủ đề được biểu diễn như các mean của tập tài liệu trong không gian vectơ đã cho. Trong cách tiếp cận gần đây của mô hình hỗn hợp, các chủ đề được biểu diễn dưới dạng các vectơ đặc trưng của chủ đề hoặc gọi đơn giản là vectơ chủ đề. Một vectơ chủ đề được biểu diễn dưới dạng một bộ, được ký hiệu là: 〈nz: nz⃗⃗⃗⃗ , mz〉, trong đó nz: nz⃗⃗⃗⃗ biểu diễn số lượng từ trong chủ đề z nhất định và tần suất xuất hiện tương ứng của chúng trong chủ
55
đề z đã cho, và mz là số lượng tài liệu được gán cho chủ đề z. Để kết hợp với việc phân phối đồ thị con phổ biến rút trích từ các tài liệu, luận án cấu trúc lại véc tơ chủ đề như sau (như công thức (3.4)):
〈𝐟𝐳: 𝐟𝐳
⃗⃗⃗ , nz: nz⃗⃗⃗⃗ , mz〉
(3.4)
Trong đó:
⃗⃗ , biểu thị cho số lượng đồ thị con phổ biến được rút trích, được gán cho chủ
fz: fz đề z và tần số xuất hiện tương ứng của chúng.
nz: nz⃗⃗⃗⃗ , thể hiện số từ được gán cho chủ đề z và tần số xuất hiện tương ứng của
chúng.
mz, là số lượng tài liệu được gán cho chủ đề z.
Tương tự như cách tiếp cận trước đây của mô hình MStream/MStreamF, biểu diễn
vector chủ đề này cũng có các thuộc tính quan trọng, bao gồm: có thể thêm vào và có
thể bỏ ra. Nói cách khác, một tài liệu 𝑑 có thể được thêm vào và bỏ ra khỏi chủ đề 𝑧
𝐠, ∀𝐠 ∈ 𝐝
𝐠 = 𝐟𝐳 𝐟𝐳
𝐠 + 𝐅𝐝
𝐟𝐳 = 𝐟𝐳 + 𝐅𝐝
bằng cách cập nhật véc tơ chủ đề theo công thức (3.5):
w, ∀w ∈ d
w = nz nz
w + Nd
(3.5)
nz = nz + Nd
mz = mz + 1
𝐠, ∀𝐠 ∈ 𝐝
𝐠 = 𝐟𝐳 𝐟𝐳
𝐠 − 𝐅𝐝
𝐟𝐳 = 𝐟𝐳 − 𝐅𝐝
(a)
w, ∀w ∈ d
w = nz nz
w − Nd
nz = nz − Nd
mz = mz − 1
(b)
56
Trong đó:
w là tần số từ 𝑤 trong chủ đề 𝑧. w là số lần xuất hiện của từ 𝑤 trong tài liệu 𝑑.
g là tần số của đồ thị con phổ biến 𝑔 trong chủ dề 𝑧. fz g là số lần xuất hiện của đồ thị con phổ biến g trong tài liệu 𝑑. Mỗi đồ thị con Fd g luôn là 1. phổ biến 𝑔 chỉ xuất hiện một lần trong mỗi tài liệu, do đó giá trị của Fd fz là số đồ thị con phổ biến trong chủ đề 𝑧. Fd là số đồ thị con phổ biến trong tài liệu 𝑑. nz Nd nz là số từ trong chủ đề 𝑧. Nd là tổng số từ trong tài liệu d. mz là số tài liệu trong chủ đề 𝑧.
Độ phức tạp của hoạt động thêm một tài liệu 𝑑 vào cụm 𝑧 và xóa một tài liệu 𝑑 ra
khỏi cụm 𝑧 đều là 𝒪(𝐿) với 𝐿 là chiều dài trung bình của các tài liệu.
Suy diễn chủ đề trong mô hình GOW-Stream
Phần quan trọng nhất của thuật toán gom cụm luồng văn bản dựa trên mô hình hỗn hợp là định nghĩa các mối quan hệ giữa các tài liệu và các chủ đề khi phân tách. Nó có
nghĩa là xác suất một tài liệu mới có thể được gán cho một chủ đề cụ thể. Cách tiếp cận
truyền thống của gom cụm văn bản dựa trên sự tương đồng chủ yếu sử dụng ngưỡng
tương đồng để kiểm soát quá trình phân bố chủ đề cho mỗi tài liệu văn bản trong một
luồng nhất định. Tuy nhiên, việc chọn ngưỡng tương đồng thích hợp là một nhiệm vụ
khó khăn do sự thay đổi chủ đề và sự đa dạng về độ dài của tài liệu đối với các luồng
văn bản trong thế giới thực. Dựa vào các công trình trước đó, luận án sử dụng kỹ thuật
khám phá chủ đề động chủ yếu dựa trên DPMM [98] để đạt được xác suất tài liệu 𝑑 chọn một chủ đề hiện có 𝑧, được ký hiệu là: prob(zd = z|z ¬d, d⃗ , α, β). Với d⃗⃗ là các tài liệu được thu thập đã cho từ luồng dưới dạng vectơ và z⃗ là tập các chủ đề được ghi lại, xác suất được tính theo tỷ lệ như sau (như thể hiện trong công thức (3.6)):
z,¬d, β)
(3.6) prob(zd = z|z ¬d, d⃗ , α, β) ∝ prob(zd = z|z ¬d, α). prob(d|zd = z, d⃗
57
Trong đó,
z⃗ ¬d, là tập hợp các chủ đề được ghi lại không chứa tài liệu được cho d. d⃗ z,¬d, là tập hợp các tài liệu được gán cho chủ đề 𝑧 và không chứa tài liệu đã cho 𝑑.
Thêm tài liệu vào một chủ đề hiện có. Như đã cho trong công thức (3.6), phần đầu của công thức này: prob(zd = z|z ¬d, α) cho biết xác suất tài liệu (d) chọn một chủ đề (z) sau khi được đưa ra chủ đề gán cho các tài liệu khác ngoại trừ tài liệu hiện tại (d).
Để đạt được phân phối xác suất của phần đầu tiên, luận án áp dụng các kỹ thuật suy luận của các mô hình chủ đề dựa trên DP cổ điển. Phần đầu của công thức (3.6) được tính
như sau (xem công thức (3.7)):
prob(zd = z|z ¬d, α) ∝
mz,¬d D − 1 + αD
(3.7)
D là số lượng tài liệu tổng thể trong lô phát trực tuyến hiện tại.
Trong đó:
mz,¬d là số tài liệu trong chủ đề hiện tại (z), ngoại trừ tài liệu (d).
z,¬d, β), phần này xem xét sự liên quan giữa đồ thị con phổ biến (g) và các từ (w) trong một chủ đề nhất định
Đối với phần thứ hai của công thức (3.6): prob(d|zd = z, d⃗
(z) và tài liệu (d) có thể được suy ra thêm như sau (xem công thức (3.8)):
∏
w + β + j − 1)
∏ (nz,¬d
w Nd j=1
𝐠 𝐅𝐝 ∏ ∏ (𝐟𝐳,¬𝐝 𝐣=𝟏
+
𝐠 + 𝛃 + 𝐣 − 𝟏)
prob(d|zd = z, d⃗
z,¬d, β) =
∏ (𝐧𝐳,¬𝐝 + 𝐅𝛃 + 𝐢 − 𝟏)
∏ (nz,¬d + Wβ + i − 1)
𝐠∈𝐝 𝐅𝐝 𝐢=𝟏
w∈d Nd i=1
(3.8)
Trong đó,
g
W và F là đại diện cho các tập hợp các từ xuất hiện và các đồ thị con phổ biến
là số lượng từ xuất hiện và đồ thị con phổ biến trong chủ đề (z) được nz,¬d
trong các bộ sưu tập tài liệu hiện tại (D). w và fz,¬d cho, không chứa tài liệu được cho (d).
58
Thêm tài liệu vào một chủ đề mới. Phần trước đã xác định một trường hợp xác
suất mà một tài liệu mới chọn một chủ đề hiện có. Tuy nhiên, trong trường hợp tài liệu
mới không khớp với bất kỳ chủ đề nào hiện có, hệ thống sẽ cần tạo một chủ đề mới cho
tài liệu đó bằng cách xác định xác suất để tạo một chủ đề mới cho tài liệu. Đối với
phương pháp suy luận chủ đề động dựa trên DPMM trong trường hợp số lượng chủ đề
là vô hạn, nên áp dụng phép biến đổi θ~GEM(α) thành θ~GEM(αD). Do đó, xác suất
của một chủ đề mới (K + 1), với K là số chủ đề hiện tại, được tạo cho một tài liệu được
cho 𝑑 được thay đổi bằng cách sửa đổi của phần đầu tiên (công thức (3.9) tại mục (a))
và phần thứ hai (công thức (3.9) tại mục (b)) của công thức (3.6) như sau:
prob(zd = K + 1|z ¬d, α) ∝
𝛼𝐷 D − 1 + αD
(3.9)
(a)
∏
∏ (β + j − 1)
w Nd j=1
𝐠 𝐅𝐝 𝐣=𝟏
∏ ∏ (𝛃 + 𝐣 − 𝟏)
+
prob(d|zd = K + 1, d⃗
z,¬d, β) =
∏ (𝐅𝛃 + 𝐢 − 𝟏)
∏ (Wβ + i − 1)
𝐠∈𝐝 𝐅𝐝 𝐢=𝟏
w∈d Nd i=1
(b)
Trong đó,
K là số chủ đề hiện tại đã được khám phá từ luồng văn bản nhất định.
αD và β là số giả (pseudo) của tài liệu và số lần xuất hiện của mỗi từ và các đồ
thị con phổ biến trong chủ đề mới được tạo thứ (K + 1).
Trên thực tế, mô hình GOW-Stream được đề xuất là sự kết hợp giữa các phân phối
từ và đồ thị con phổ biến trong suy luận chủ đề cho các luồng văn bản thông qua cách
tiếp cận dựa trên DPMM. Bằng cách tích hợp với sự phân phối của các đồ thị con phổ
biến trong tài liệu, mô hình GOW-Stream mà luận án đề xuất với mong muốn nắm bắt ý nghĩa ngữ nghĩa phong phú hơn của các chủ đề được phát hiện bằng cách sử dụng các mối quan hệ đồng xuất hiện trong tài liệu văn bản. Nó không chỉ giúp đạt được độ chính xác của đầu ra gom cụm mà còn loại bỏ sự mơ hồ trong các chủ đề được phát hiện. Hình 3.6 trình bày lưu đồ thuật toán GOW-Stream do luận án đề xuất.
59
Tiền Biểu diễn văn bản bằng BOW
xử lý Biểu diễn văn bản bằng GOW
Biểu diễn văn bản
Tính xác suất văn bản
thuộc chủ đề mới/cũ
Sai Đúng Chủ đề
mới?
Thêm chủ đề mới Gán chủ đề cho văn bản
Suy luận chủ đề
Hình 3.6: Lưu đồ thuật toán GOW-Stream
Hình 3.6 mô tả quy trình gom cụm tổng quát của mô hình đề xuất GOW-Stream.
Cụ thể, có 2 quá trình chính là biểu diễn văn bản và suy luận chủ đề. Để biểu diễn văn bản, các văn bản đến trên luồng sẽ được xử lý biểu diễn đặc trưng bằng BOW (sử dụng thuật toán TF-IDF) và GOW (bước đồ thị hóa văn bản và trích xuất các GOW con phổ biến sau đó biểu diễn đặc trưng). Các văn bản đều được tiền xử lý trước khi biểu diễn (tách từ, loại bỏ từ dừng, chuyển từ về định dạng gốc…). Sau đó, mô hình sẽ tính xác suất văn bản thuộc chủ đề đã có hay chủ đề mới để xử lý gán chủ đề cho phù hợp. Quá
trình suy luận chủ đề tuân thủ theo mô hình chủ đề hỗn hợp Dirichlet (DPMM) như được mô tả chi tiết trong phần “Mô hình GOW-Stream” và trong Thuật toán 3.2.
Quy trình tổng thể của GOW-Stream được mô tả trong Thuật toán 3.2.
60
Thuật toán 3.2: Thuật toán GOW-Stream
Input:
Tập tài liệu Dt tại thời điểm (t) đến từ luồng văn bản. Cửa số trượt (s) và giá trị support nhỏ nhất (𝜎). Siêu tham số mô hình: α, β Output: chủ đề zd cho tài liệu hiện tại
1: Initialize: K = [] #lưu các véc tơ đặc trưng của chủ đề được gán cho tập tài liệu 𝐷𝑡
2:
3: Initialize: Z = [|Dt|] #cấu trúc lưu trữ mã tài liệu, mã cụm như
4: For document (d) in Dt: #duyệt hết tài liệu của tập 𝐷𝑡
5: Set: PZ,d = [] #Tập xác suất
6: Set: Fd = F[d], #rút trích các đồ thị con phổ biến trong tài liệu (𝑑)
7: For zi in K: #duyệt hết các cụm
8:
9: Calculate: Pzi,d = prob(zi, d) #tính toán xác suất tài liệu (𝑑) thuộc về cụm (𝑧𝑖) đã có – theo công thức (3.6)(3.7)(3.8). Update: PZ,d.append(Pzi,d)#Thêm vào tập xác suất
existing = argmax
10: End for
i
new = prob(zi, d) #tính xác suất tài liệu (𝑑) tạo cụm mới (𝑧 =
(PZ,d)#Xác định xác suất lớn nhất và cụm có xác suất lớn 11:
12: Set: Pzi,d nhất z = zi Calculate: Pzi,d 𝑧|𝐾|+1) – theo công thức (3.6)(3.9).
new then: #tạo véc tơ đặc trưng mới cho cụm mới 𝑧𝐾+1
13:
If Pzi,d 14:
existing < Pzi,d Set: mz|K|+1 = 1#gán số lượng cụm mới là 1
g|# tính véc tơ tần số
g = |Fd
15: For common sub GOWs (g) in Fd: → Set: fz đồ thị con phổ biến của cụm K+1
w
w#tính tập từ của cụm K+1
Set: fz|K|+1 = |Fd|# tính số lượng đồ thị con phổ biến của cụm K+1 16:
17: = Nd For word (w) in Wd: → Set: nz|K|+1
Set: nz|K|+1 = Nd#cập nhật số lượng từ của cụm K+1 18:
Update: K. append(z|K|+1)#Thêm cụm K+1 19:
61
20: Update: Z[d] = z|K|+1#Cập nhật các chỉ số liên quan đến việc thêm cụm K+1
21: Else: #Cập nhật đặc trưng véc tơ cho cụm 𝑧𝑖 với một tài liệu mới (như mô tả trong công thức (3.5) a)
g|#cập nhật tập
g += |Fd
Update: m𝑧𝑖+= 1# Tăng số lượng tài liệu được gán cho chủ đề 22:
23: For common sub GOWs (g) in Fd: → Update: fz𝑖 đồ thị con phổ biến
w#cập nhật tập từ
24:
w += Nd
25: Update: fzi+= |Fd|#cập nhật véc tơ tần số của tập đồ thị con phổ biến For word (w) in Wd: → Update: nz|K|+1
26:
27: Update: nzi+= Nd#cập nhật số lượng từ Update: K[zi] #cập nhật véc tơ đặc trưng của cụm 𝑧𝑖 với một tài liệu mới (𝑑) được thêm vào.
28: Update: Z[d] = zi#cập nhật các chỉ số liên quan đến việc cập nhật tài liệu d vào véc tơ cụm 𝑧𝑖
29: End if
30: End for
31: Return K và Z
Thuật toán 3.2 được giải thích như sau: Ở giai đoạn đầu, các bộ tài liệu đầu vào sẽ được đánh giá để rút trích các đồ thị con phổ biến, được ký hiệu là: Fd với cửa sổ trượt ban đầu và giá trị hỗ trợ tối thiểu (σ) (dòng 3). Tập hợp các đồ thị con phổ biến được rút trích: Fd sau đó được sử dụng cho các quá trình suy luận chủ đề tiếp theo. Ban đầu, đối với tài liệu văn bản đầu tiên (d) trong một lô nhất định (Dt), mô hình sẽ tạo một chủ đề mới cho tài liệu. Sau đó, mỗi tài liệu đến tiếp theo trong luồng sẽ được đánh giá để quyết
định chọn một cụm hiện có hoặc tạo một cụm mới khác cho nó bằng cách tính toán các xác suất tương ứng. Đối với mỗi tài liệu, xác suất chọn một chủ đề chủ đề đã được ghi nhận sẵn trong (K) sẽ được tính toán. Sau đó, một cụm (zi), với xác suất cao nhất (dòng existing. Tiếp theo, xác suất tạo cụm mới 12) cho tài liệu (d) được chọn, được ký hiệu là: Pzi,d new. Nếu xác suất chọn một cụm hiện cho tài liệu (d) cũng được tính toán, ký hiệu là: Pzi,d existing > Pzi,d new) (dòng 13-29), vectơ đặc trưng cụm có lớn hơn việc tạo một cụm mới (Pzi,d của zi sẽ được cập nhật với các tham số (f, n, m) của tài liệu mới được thêm vào (d) (dòng 13-20), tuân theo công thức (3.5) a. Nếu không, một cụm mới z|K|+1 sẽ được tạo với các tham số ban đầu của tài liệu (d) (dòng 21-29).
62
Ví dụ về biểu diễn chủ đề z với GOW
Với đề xuất kết hợp BOW và GOW, véc tơ chủ đề được cấu trúc lại và được biểu diễn
như trong Bảng 3.5.
Bảng 3.5: Biểu diễn véc tơ chủ đề trong mô hình GOW-Stream
GOW
BOW
Suy luận
Biểu diễn véc tơ chủ
chủ đề
đề z
Số đồ thị con phổ
Tần số của đồ thị con
Số từ phân
Tần số từ
biến
phổ biến
biệt
3
0 0 0
0
[1,1,0,3,0,0,0,0,1]
1
1
0
4
0 0 0 0,04 [2;1;1;4;0;0;0;0,04;1]
𝑑1 gán cho chủ
2
1
1
đề 𝑧 mới 𝑑2 gán cho chủ
4
0 0 0 0.03 [3;2;1;7;0;0;0;0,04;2]
đề 𝑧 mới 𝑑2 gán cho chủ
2
1
1
đề 𝑧 đã có 𝑑1
Bảng 3.5 trình bày ví dụ minh họa về việc biểu diễn véc tơ chủ đề trong mô hình
GOW-Stream và việc thêm một tài liệu d vào chủ đề đã có hay thêm một tài liệu d vào
một chủ đề mới. Thành phần của một véc tơ chủ đề được biểu diễn bao gồm: véc tơ tài
liệu d được biểu diễn với GOW (số đồ thị con phổ biến, tần số của đồ thị con phổ biến),
véc tơ tài liệu d được biểu diễn với BOW (số từ phân biệt, tần số từ). Khi gán một tài
liệu cho chủ đề đã có ta thực hiện phép cộng để cập nhật các giá trị tương ứng vào véc
tơ chủ đề hiện có (xem dòng cuối cùng của Bảng 3.5).
3.2 Thực nghiệm và bàn luận
Phần này thực hiện các thử nghiệm mở rộng trên bộ dữ liệu trong thế giới thực để đánh giá hiệu quả của mô hình GOW-Stream được đề xuất so với các thuật toán gom cụm luồng văn bản dựa trên mô hình hỗn hợp được công bố gần đây, bao gồm: DTM, Sumblr và MStream.
63
Tập dữ liệu và chỉ số đánh giá
Mô tả tập dữ liệu
Để đánh giá công bằng hiệu quả của các mô hình gom cụm luồng văn bản khác
nhau bao gồm GOW-Stream được đề xuất, thực nghiệm sử dụng hai tập dữ liệu được
gắn nhãn trong thế giới thực thường được sử dụng cho hầu hết các nghiên cứu thực nghiệm trong các công trình trước đây. Hai tập dữ liệu này là:
Google-News (GN) (tải tại https://news.google.com/): tập dữ liệu này lần đầu tiên được giới thiệu bởi [Yin and Wang, 2014], chứa 11.109 tài liệu được gắn
nhãn. Các tài liệu trong bộ dữ liệu này được gán cho 152 chủ đề khác nhau.
Tweets (Tw) (tải tại http://trec.nist.gov/data/microblog.html): tập dữ liệu này được xây dựng bằng cách thu thập các tweet từ mạng xã hội Twitter. Những tweet
này được gắn nhãn trong các bài hát trên microblog 2011-2015 tại Hội nghị Truy
xuất văn bản (TREC), NIST. Tập dữ liệu này chứa 269 chủ đề bao gồm 30.322
tài liệu văn bản có các tweet độ dài khác nhau.
Tập dữ liệu tổng hợp (GN-T, Tw-T): Hai tập dữ liệu này là phiên bản chỉnh sửa của Google-News (GN) và Tweets (Tw) ở trên để kích thích trạng thái dạt
trôi chủ đề/khái niệm trong các luồng văn bản trong thế giới thực khi mà các chủ
đề (mỗi chủ đề là một cụm) chỉ xuất hiện vào thời điểm cụ thể (ví dụ: COVID-
19, Cuộc giao tranh Trung Quốc-Ấn Độ, …) và sau đó biến mất. Theo quy trình
của các công trình trước, trước tiên, tác giả sắp xếp các tweet (Tw) và tin tức
(GN) theo các chủ đề được gán nhãn của chúng. Sau đó, tác giả tiến hành chia
đều các tweet/tin tức này thành 16 phần trước khi xáo trộn chúng.
Tương tự như các công trình trước, hệ thống áp dụng quy trình tiền xử lý văn bản
đơn giản bao gồm: chuyển đổi tất cả văn bản thành chữ thường, loại bỏ tất cả các từ
dừng và biến đổi các từ về dạng gốc với stemming. Hai bộ dữ liệu này được sử dụng chủ
yếu trong các thực nghiệm cũng có thể được xem là có độ dài ngắn và rời rạc do số lượng từ trung bình trong mỗi tài liệu thấp cũng như số lượng lớn các chủ đề được bao
quát (như thể hiện trong thống kê ở Bảng 3.6).
64
Bảng 3.6: Chi tiết về bộ dữ liệu thử nghiệm
Độ dài
Số đồ thị con phổ
Số lượng tài liệu
Số lượng chủ đề
Số lượng từ không trùng
trung bình (số từ)
biến (min support =20%)
GN và GN- T (tổng
11.109
152
8.110
6,23
382
hợp)
Tw và Tw-
30.322
269
12.301
7,97
107
T (tổng hợp)
Nhìn chung, tập dữ liệu Tw/Tw-T thách thức hơn so với GN/GN-T do trong các
tài liệu văn bản trong tập dữ liệu này có số lượng lớn các chủ đề được gán nhãn.
Các độ đo được sử dụng để đánh giá hiệu suất
Để đánh giá hiệu suất một cách chính xác đối với các tác vụ gom cụm văn bản với
các thuật toán gom cụm luồng văn bản khác nhau, thực nghiệm sử dụng hai độ đo để
đánh giá chính là NMI và F1. Các chỉ số đánh giá này được sử dụng trong thực nghiệm
như sau:
Thông tin tương hỗ chuẩn hóa (Normalized Mutual Information - NMI). Đây
là độ đo phổ biến nhất được sử dụng rộng rãi để đánh giá chất lượng của đầu ra gom
cụm với nhãn đầu ra thực sự cho trước. NMI được nhận định là thước đo nghiêm ngặt
nhất để đánh giá hiệu suất của nhiệm vụ gom cụm trong phạm vi [0, 1]. Trong trường
hợp các đầu ra gom cụm hoàn toàn khớp với các lớp có nhãn/nhãn đầu ra thực sự đã
cho, giá trị NMI sẽ là 1, trong khi giá trị của nó sẽ gần bằng 0 khi các đầu ra gom cụm
được tạo ngẫu nhiên. Chỉ số NMI được định nghĩa chính thức như sau (xem công thức (3.10)):
c,k
N.nc,k nc.nk
(3.10) ) ∑ nc,klog ( NMI =
nc N
nk N
) √(∑ nclog c ) . (∑ nklog k
65
Trong đó:
nc, nk là số tài liệu trong một lớp (c) và số tài liệu trong một cụm (k). nc,k là số lượng tài liệu trong cả lớp (c) và cụm (k). N là tổng số tất cả các tài liệu trong tập dữ liệu đã cho.
Độ đo F1. Đây là một độ đo nổi tiếng cho cả nhiệm vụ gom cụm và phân lớp. Độ đo F1 xem xét cả giá trị precision (P) và giá trị recall (R) của đầu ra gom cụm để tính
giá trị F1. Độ đo F1 được định nghĩa chính thức như sau (xem công thức (3.11)):
P =
, R =
, F1 = 2 .
TP TP+FP
TP TP+FN
P.R P + R
(3.11)
Trong đó:
TP, là số lượng tài liệu văn bản được gán cho các cụm chính xác (dựa trên các
lớp được gắn nhãn tương ứng của chúng).
FP và FN, là số lượng tài liệu dự kiến được gán cho các cụm cụ thể nhưng không
chính xác và không được chỉ định thuộc về các cụm đó.
Thiết lập thực nghiệm
Để so sánh hiệu suất của mô hình GOW-Stream được đề xuất, ba thuật toán gom
cụm luồng văn bản được triển khai trong các thử nghiệm của tác giả bao gồm: DTM
[14], Sumblr [74] và MStream[97]. Các cấu hình cho các mô hình gom cụm luồng văn
bản này được mô tả ngắn gọn như sau:
DTM[14]: được xem là mô hình ra đời sớm nhất sử dụng cách tiếp cận mô hình chủ đề động cho phép khám phá các chủ đề tiềm ẩn từ các tài liệu văn bản tuần
tự như luồng văn bản. Tuy nhiên, DTM được coi là phương pháp tiếp cận với “số
lượng chủ đề cố định” có nghĩa là trước tiên phải xác định số lượng chủ đề. Do đó, nó không thể đối phó với thách thức chủ đề thay đổi trong giải quyết nhiệm vụ gom cụm luồng văn bản.
Sumblr [74]: là mô hình nổi tiếng nhất trong cách tiếp cận dựa trên độ tương đồng để gom cụm luồng văn bản. Sumblr là một phiên bản trực tuyến để gom cụm các tweet trong mạng xã hội Twitter. Sumblr là kỹ thuật hiệu quả khi xử lý tác vụ gom cụm văn bản ngắn chỉ cần một lần xử lý lặp lại hàng loạt để vừa gán
các tài liệu mới cho cụm vừa duy trì thống kê cụm. Tuy nhiên, tương tự như mô hình DTM trước đó, trong mô hình Sumblr, số chủ đề phải được thiết lập từ đầu nên kỹ thuật này không thể giải quyết vấn đề chủ đề thay đổi.
66
MStream [97]: là mô hình hỗn hợp mới nhất để xử lý vấn đề gom cụm luồng văn bản ngắn cũng như giải quyết vấn đề chủ đề thay đổi. Mô hình MStream áp
dụng kỹ thuật suy luận dựa trên DPMM để gom chủ đề trên tài liệu trong một
luồng văn bản nhất định. Các thực nghiệm mở rộng trên bộ dữ liệu tiêu chuẩn đã chứng minh tính hiệu quả của mô hình MStream trong cả gom cụm tài liệu văn
bản một lần cũng như các quá trình cập nhật/duy trì cụm. Tuy nhiên, MStream
được coi là phương pháp đánh giá độc lập với từ, phần lớn bỏ qua các mối quan
hệ giữa các từ trong tài liệu văn bản. Do đó, kỹ thuật này có thể không thể giải quyết được thách thức về vấn đề mơ hồ của các chủ đề được rút trích từ các luồng
văn bản.
Đối với các cấu hình ban đầu của mỗi mô hình, các cài đặt khác nhau tương ứng với các thiết lập mặc định của từng mô hình được áp dụng để đạt được hiệu suất chính
xác cao nhất từ các công trình gốc. Chi tiết về cấu hình cho từng mô hình gom cụm
luồng văn bản sử dụng các bộ dữ liệu khác nhau được mô tả trong Bảng 3.7.
Bảng 3.7: Chi tiết về cấu hình cho các mô hình gom cụm luồng văn bản
Siêu tham số
Tập dữ liệu
Mô hình
Số lượng chủ đề khởi tạo (𝑲)
𝛼
𝛽
0,01 N/A
DTM
170
N/A
0,02
Sumblr
170
GN và GN-T (tổng hợp)
0,03
0,03
Mstream
N/A (K = 0)
0,03
GOW-Stream 0,03
N/A (K = 0)
0,01 N/A
DTM
300
N/A
0,02
Sumblr
300
Tw và Tw-T (tổng hợp)
0,03
0,03
Mstream
N/A (K = 0)
0,03
GOW-Stream 0,03
N/A (K = 0)
Bảng 3.7 mô tả chi tiết về cấu hình cho các mô hình gom cụm luồng văn bản được trong thực nghiệm này. Đối với mô hình DTM và Sumblr, trước tiên phải chỉ định số lượng chủ đề ban đầu, với các bộ dữ liệu khác nhau, áp dụng số lượng chủ đề khác nhau tương ứng (xem cột số lượng chủ đề khởi tạo (K)).
Đối với mỗi mô hình luồng văn bản, số lần lặp lại cho mỗi lô tài liệu đến đều được
định cấu hình là 10. Nhìn chung, mỗi tập dữ liệu được chia thành 16 lô tài liệu khác
nhau, sau đó kết quả thực hiện gom cụm tương ứng được đánh giá bằng cách sử dụng
67
các độ đo được liệt kê ở trên (trong phần 4.2 mục độ đo đánh giá). Đối với các thử
nghiệm trong mỗi lô tài liệu, mỗi mô hình được chạy 10 thử nghiệm độc lập và báo cáo
kết quả trung bình. Các thiết lập về siêu tham số được giữ mặc định cho từng mô hình
để các mô hình có thể đạt được hiệu suất chính xác cao nhất (thiết lập dựa vào các công
trình gốc).
Kết quả thực nghiệm và bàn luận
Nhiệm vụ gom cụm trên luồng văn bản
Thử nghiệm này so sánh hiệu suất của mô hình GOW-Stream được đề xuất với các kỹ thuật gom cụm luồng văn bản hiện đại khác nhau, bao gồm: DTM, Sumblr và
MStream sử dụng hai tập dữ liệu chuẩn của Google News và Twitter. Đối với mỗi mô
hình, tiến hành thử nghiệm nhiệm vụ gom cụm văn bản với cả hai tập dữ liệu 10 lần và
báo cáo kết quả trung bình với độ lệch chuẩn, dùng độ đo NMI và F1. Bảng 3.8 và Bảng
3.9 cho thấy kết quả đầu ra thử nghiệm cho tác vụ gom cụm luồng văn bản với các mô
hình khác nhau sử dụng chỉ số độ đo NMI và F1 tương ứng.
Bảng 3.8: Kết quả đầu ra trung bình của tác vụ gom cụm văn bản với các mô hình
khác nhau với độ đo NMI
Tập dữ liệu
Mô hình
GN
GN-T
Tw
Tw-T
DTM
0,723003±0,03 0,685827±0,05 0,676872±0,03 0,681405±0,02
Sumblr
0,580666±0,05 0,548127±0,08 0,542124±0,06 0,580197±0,05
Mstream
0,895725±0,01 0,872712±0,03 0,852766±0,02 0,889187±0,02
GOW-Stream 0,928976±0,01 0,896155±0,03 0,873884±0,02 0,905492±0,01
Bảng 3.9: Kết quả đầu ra thử nghiệm của tác vụ gom cụm văn bản với các mô hình khác nhau với độ đo F1
Tập dữ liệu
Mô hình
GN
GN-T
Tw
Tw-T
DTM
0,876349±0,02 0,832146±0,01 0,839111±0,01 0,885007±0,02
Sumblr
0,891121±0,01 0,848805±0,02 0,855527±0,03 0,907313±0,01
Mstream
0,976687±0,01 0,930837±0,01 0,940604±0,01 0,978933±0,01
GOW-Stream 0,985201±0,01 0,935536±0,01 0,943755±0,02 0,979442±0,01
68
Nhìn chung, thông qua các kết quả thử nghiệm được trình bày trong Bảng 3.8 và
Bảng 3.9, GOW-Stream được đề xuất luôn đạt được độ chính xác cao hơn so với các
mô hình gom cụm luồng văn bản gần đây với tất cả các tập dữ liệu đã cho. Mô hình
GOW-Stream đạt hiệu suất cao nhất trong tập dữ liệu của Google Tin tức (GN và GN
tổng hợp) với trung bình lần lượt là 91,25% và 96,03% theo các độ đo NMI và F1. Đối với tập dữ liệu Tweets được coi là thách thức hơn tập dữ liệu GN, mô hình GOW-Stream
cũng ổn định đạt được hiệu suất chính xác hợp lý với 88,96% và 96,15% tương ứng với
hai độ đo NMI và F1. Khi so sánh với tác vụ gom cụm luồng văn bản gần đây, GOW-
Stream vượt trội hơn đáng kể so với các mô hình Sumblr và DTM tương ứng khoảng
60,12% và 30,26% đối với độ đo NMI. Kết quả thử nghiệm cũng cho thấy GOW-Stream
đạt hiệu suất tốt hơn một chút so với mô hình MStream dựa trên mô hình hỗn hợp nổi
tiếng gần đây khoảng 2,68% với độ đo NMI.
Hình 3.7: Kết quả thử nghiệm đối với số lượng lô tài liệu khác nhau với độ đo NMI
Hình 3.8: Kết quả thử nghiệm trên số lượng lô tài liệu khác nhau với độ đo F1
69
Các đánh giá sâu hơn (như trong Hình 3.7 và Hình 3.8) về kết quả độ chính xác
với từng lô tài liệu riêng biệt của mỗi mô hình gom cụm luồng văn bản chứng minh rằng
cả MStream và GOW-Stream đều tạo ra kết quả gom cụm luồng văn bản tốt hơn và ổn
định hơn so với các mô hình DTM và Sumblr trước đó. Hơn nữa, các đánh giá với độ
đo F1 trên tác vụ luồng văn bản với các mô hình khác nhau trong cũng chỉ ra rằng cách tiếp cận dựa trên mô hình hỗn hợp của MStream và GOW-Stream được coi là linh hoạt
và ổn định hơn với độ dài tài liệu khác nhau so với cách tiếp cận cổ điển về mô hình hóa
chủ đề và tìm chủ đề dựa trên sự tương đồng. Tóm lại, thông qua các thử nghiệm, GOW-
Stream thể hiện tính hiệu quả và hiệu suất trong nhiệm vụ gom cụm luồng văn bản so
với các nghiên cứu gần đây, chứng minh rằng việc sử dụng phân phối GOW trong các
tài liệu văn bản có thể giúp gia tăng độ chính xác trên văn bản ngắn trong xử lý nhiệm
vụ gom cụm luồng.
Ngoài ra, khi so sánh GOW-Stream với thuật toán gom cụm tĩnh cổ điển như k-
means, kết quả cho thấy GOW-Stream và các thuật toán xử gom cụm luồng dữ liệu
(DTM, Sumblr, MStream) có độ chính xác thấp cao hơn nhiểu so với k-means.
Hình 3.9: So sánh với k-means sử dụng độ đo NMI
Hình 3.10: So sánh với k-means sử dụng độ đo F1
70
Hình 3.9 và Hình 3.10 cho thấy các thuật toán gom cụm động có độ chính xác cao
hơn nhiều so với thuật toán k-means. TF-IDF kết hợp với k-means là phương pháp kinh
điển thực hiện gom cụm dữ liệu tĩnh, không được thiết kế để đáp ứng chủ đề thay đổi
theo thời gian trong luồng văn bản cũng như không giải quyết tốt được vấn đề “concept
drift” và do đó hiệu quả về tính chính xác cũng không cao khi so sánh với các thuật toán trên luồng.
Tốc độ và độ ổn định của mô hình
Thực nghiệm về tốc độ xử lý (chỉ xét quá trình suy luận chủ đề, không tính chi phí tìm đồ thị con phổ biến). Phần này đánh tốc độ xử lý của mô hình GOW-Stream
so với các mô hình gom cụm luồng văn bản khác. Thực nghiệm đã triển khai và chạy
GOW-Stream, MStream, Sumblr và DTM trong cùng một máy tính CentOS 6.5 với
CPU Intel Xeon E5-2620 v4 2.10GHz (8 lõi - 16 luồng) và bộ nhớ 64Gb. Tất cả các mô
hình được cấu hình với 10 lần lặp cho mỗi lô tài liệu, với 16 lô cho hai tập dữ liệu GN
và Tw. Mỗi mô hình đã được chạy 5 lần và báo cáo kết quả cuối cùng là thời gian thực
hiện trung bình (tính bằng giây).
Hình 3.11: Khả năng nâng cao hiệu suất của các kỹ thuật gom cụm luồng văn bản khác nhau
Hình 3.11 cho thấy tốc độ của mô hình gom cụm luồng văn bản khác nhau trong tập dữ liệu Tw (Hình 3.11A) và GN (Hình 3.11B). Kết quả thử nghiệm cho thấy cả MStream và GOW-Stream đều nhanh hơn đáng kể so với các phương pháp tiếp cận truyền thống của Sumblr và DTM. Cụ thể, GOW-Stream nhanh hơn DTM khoảng 20,08 và 7,29 lần so với DTM và Sumblr tương ứng cho cả hai tập dữ liệu GN và Tw. So với mô hình MStream, GOW-Stream cũng cải thiện một chút với khoảng 2,8 lần tốc độ.
Thử nghiệm về khả năng nâng cao hiệu suất của mô hình chứng minh rằng sự kết hợp
71
giữa đánh giá từ độc lập và đánh giá đồ thị con phổ biến trong khi suy ra các chủ đề từ
các luồng văn bản có cải thiện một chút về tốc độ.
Thực nghiệm về tốc độ xử lý (xét tổng thể, có tính chi phí tìm đồ thị con phổ biến). Hình 3.12 thể hiện kết quả thực nghiệm. Áp dụng ngưỡng min supp = 20%, với tập dữ liệu Tw (tổng số đồ thị con phổ biến sinh ra là 107), GOW-Stream chậm hơn
MStream từ 1,31 đến 3,33 lần tốc độ. Với tập dữ liệu GN (tổng số đồ thị con phổ biến
là 382), GOW-Stream chậm hơn MStream từ 2,38 đến 12,95 lần. Như vậy, mô hình đề
xuất GOW-Stream thể hiện khả năng tối ưu hóa về tốc độ trong quá trình suy luận chủ
đề. Mô hình sẽ tốn chi phí hơn cho hoạt động tìm đồ thị con phổ biến và do đó sẽ chậm
hơn tính trên tổng thể quá trình xử lý.
Hình 3.12: Tốc độ xử lý của GOW-Stream so với MStream khi tính luôn chi phí tìm
đồ thị con phổ biến
Ảnh hưởng của số lần lặp. Hầu hết các cách tiếp cận dựa trên mô hình chủ đề và
mô hình hỗn hợp cần số lần lặp lại phù hợp cho mỗi lô tài liệu để đạt được hiệu suất chính xác có thể chấp nhận được. Phần thực nghiệm này phân tích ảnh hưởng của số lần lặp lại cho mỗi lô tài liệu đối với hiệu suất tổng thể về độ chính xác của mô hình GOW- Stream với độ đo NMI. Tương tự như những thử nghiệm trước, thử nghiệm này được tiến hành trên hai tập dữ liệu Tw và GN với số lần lặp khác nhau cho mỗi lô tài liệu. Mỗi thử nghiệm được chạy lặp lại 10 lần và báo cáo kết quả trung bình.
72
Hình 3.13: Đánh giá ảnh hưởng của số lần lặp đến tính chính xác của kết quả của mô
hình GOW-Stream
Hình 3.13 cho thấy những thay đổi về tính chính xác của kết quả của tác vụ gom
cụm luồng văn bản với số lần lặp khác nhau cho mỗi lô tài liệu trong cả hai tập dữ liệu Tw và GN. Kết quả thử nghiệm chứng minh rằng mô hình đề xuất này đạt được sự cân
bằng về độ chính xác của kết quả trong phạm vi 7-10 lần lặp cho mỗi lô tài liệu. Điều
này cho thấy rằng mô hình GOW-Stream đáp ứng sự ổn định về độ chính xác của kết
quả khá nhanh.
Độ nhạy của siêu tham số đối với mô hình
Để đánh giá mức độ ảnh hưởng của các tham số của mô hình đến kết quả độ chính
xác, các thử nghiệm mở rộng được thực hiện để phân tích sự thay đổi của các hyper-
parameter α và β có ảnh hưởng như thế nào đến chất lượng kết quả gom cụm văn bản.
Đối với phương pháp tiếp cận gom cụm luồng văn bản dựa trên cả hai mô hình chủ đề
và mô hình hỗn hợp động, các hyper-parameter thiết lập ban đầu có thể có tác động toàn diện đến kết quả đầu ra cũng như quá trình đạt được sự ổn định của mô hình. Do đó,
việc chọn một hyper-parameter mặc định thích hợp là rất quan trọng trong việc giúp cho mô hình đã cho có thể đạt hiệu suất cao nhất về cả độ chính xác và thời gian xử lý. Để kiểm tra đánh giá mức độ ảnh hưởng của các tham số của mô hình, tác giả đã triển khai mô hình GOW-Stream với các cấu hình mặc định (như trong Bảng 3.7) và thay đổi giá trị của các hyper-parameter α và β ban đầu trong một phạm vi cụ thể để quan sát sự biến động về độ chính xác đầu ra của mô hình được đánh giá bằng độ đo NMI. Các thử nghiệm về độ nhạy của tham số trong phần này cũng sử dụng hai tập dữ liệu tiêu chuẩn
Tw và GN với các biến thể khác nhau của hyper-parameter α và β trong phạm vi [0,01;
73
0,05]. Đối với mỗi thử nghiệm, giá trị của hyper-parameter tương ứng được thay đổi
trong khi các giá trị khác được cố định.
Hình 3.14: Kết quả thực nghiệm về ảnh Hình 3.15: Kết quả thực nghiệm về ảnh
hưởng của siêu tham số α hưởng của siêu tham số β
Hình 3.14 và Hình 3.15 cho thấy các kết quả thực nghiệm về ảnh hưởng của các
siêu tham số (hyper-parameter) α và β, tương ứng đến kết quả độ chính xác theo độ đo
NMI của mô hình GOW-Stream.
Kết quả thực nghiệm cho thấy rằng mô hình GOW-Stream được đề xuất có thể đạt
được hiệu suất ổn định về độ chính xác với các giá trị khác nhau của cả siêu tham số α
và β. Hiệu suất độ chính xác của mô hình được cân bằng trong phạm vi [0,84 ± 0,02,
0,94 ± 0,01] và với giá trị 0,03 cho cả hyper-parameter 𝛼 và 𝛽, mô hình GOW-Stream
đạt hiệu suất về độ chính xác cao nhất. Nhìn chung, các thử nghiệm mở rộng về độ nhạy
của tham số đối với mô hình GOW-Stream đã chứng minh được tính hiệu quả cũng như
tính ổn định của mô hình trong việc áp dụng đánh giá đồ thị con phổ biến trong tác vụ gom cụm tài liệu luồng văn bản rời rạc có độ dài ngắn.
Về mặt thời gian, mô hình GOW-Stream cần thời gian để xử lý đồ thị con phổ biến nhưng thời gian này cũng không đáng kể so với độ chính xác đạt được trong bối cảnh bài toán của luận án.
74
3.3 Kết chương
Chương này trình bày một cách tiếp cận mới nâng cao tính ngữ nghĩa để gom cụm
luồng văn bản bằng cách áp dụng các phân phối đồ thị từ phổ biến (GOW) trên các tài
liệu văn bản ngắn. Việc áp dụng đánh giá GOW để thực hiện nhiệm vụ khai phá văn bản
đã chứng minh được một số hiệu quả liên quan đến khả năng nắm bắt tự nhiên các mối quan hệ phụ thuộc của các từ như mối quan hệ đồng xuất hiện của từ. GOW được coi là
kỹ thuật tái cấu trúc văn bản không có giám sát đã được áp dụng rộng rãi trong nhiều
phương pháp tiếp cận nâng cao theo từng giai đoạn do tính đơn giản và hiệu quả trong
việc thực hiện mà không cần sử dụng bất kỳ kỹ thuật NLP tiên tiến có giám sát nào.
Bằng cách kết hợp với việc khai phá đồ thị con phổ biến (FSM), chúng ta có thể rút trích
các đồ thị con phổ biến từ kho văn bản nhất định, các đồ thị con phổ biến này đóng vai
trò là các đặc trưng đặc biệt cho các tài liệu văn bản. Để khắc phục các nhược điểm liên
quan đến đánh giá các mối quan hệ của từ trong các mô hình gom cụm luồng văn bản
trước đó, nghiên cứu kết hợp đánh giá dựa trên các đồ thị con phổ biến và đánh giá từ
độc lập trong quy trình suy luận chủ đề của Mô hình hỗn hợp quy trình Dirichlet
(DPMM) để nâng cao kết quả gom cụm văn bản từ luồng dữ liệu. Các thử nghiệm mở rộng trên bộ dữ liệu chuẩn có thể chứng minh tính hiệu quả của mô hình được đề xuất
trong việc xử lý tác vụ gom cụm luồng văn bản nắng có nội dung rời rạc so sánh với các
kỹ thuật được công bố gần đây, bao gồm: DTM, Sumblr và MStream. Trong các cải tiến
trong tương lai, nghiên cứu này dự kiến mở rộng việc triển khai mô hình GOW-Stream
trên môi trường xử lý phân tán chủ yếu được thiết kế để xử lý luồng dữ liệu dạng văn
bản quy mô lớn và tốc độ cao, và xử lý phân tán trên Apache Spark Streaming.
75
CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ
TRÊN LUỒNG VĂN BẢN
Chương này trình bày phương pháp, kết quả thực nghiệm và bàn luận của luận án khi
nghiên cứu giải quyết bài toán thứ hai được chia làm 03 phần: Phương pháp được mô tả ở mục 4.1, kết quả thực nghiệm và bàn luận được trình bày ở mục 4.2.
Một phần của nghiên cứu phát hiện cụm từ xu thế trên luồng văn bản được nêu trong bài báo “TKES: A Novel System for Extracting Trendy Keywords from Online News Sites” đăng trong tạp chí “Journal of the Operations Research Society of China”
thuộc danh mục Scopus, Q3 vào tháng 03 năm 2021. Một phần nội dung liên quan khác của nghiên cứu được đăng kỷ yếu và báo cáo tại các Hội nghị quốc tế;
4.1 Phương pháp
Giới thiệu
Để giải quyết vấn đề phát hiện xu hướng thông tin nào đang “nóng” từ các trang
tin tức điện tử, dựa trên ý tưởng của Kleinberg, nghiên cứu đề xuất phương pháp tìm
cụm từ xu thế trên luồng dữ liệu văn bản và cài đặt tính năng tìm các xu hướng thời sự
và theo dõi sự phát triển của các chủ đề theo thời gian cho hệ thống TKES (Trendy
Keyword Extraction System), một hệ thống mới mà luận án đề xuất sử dụng kỹ thuật
phát hiện sự nổi bật (Burst) để phát hiện các cụm từ xu thế (trendy words) trên luồng
văn bản. Bên cạnh đó, hệ thống TKES cũng đề xuất thuật toán xếp hạng sự nổi bật để
từ đó có thể tìm ra các sự nổi bật tiêu biểu (trendy bursts) hàng đầu của từ khóa.
Hệ thống TKES
Hệ thống bao gồm ba mô-đun chính: Bộ thu thập dữ liệu, Bộ xử lý dữ liệu (với 2 bước chính: Tiền xử lý và Xử lý) và Bộ hiển thị dữ liệu. Hình 4.1 cho thấy mối quan hệ của hệ thống với các công trình nghiên cứu khác.
76
Hình 4.1: Hệ thống được đề xuất phục vụ tìm cụm từ xu thế
Hình 4.1 thể hiện các các kỹ thuật liên quan có thể vận dụng vào thiết kế 03 mô-
đun của hệ thống TKES. Trong số các phương pháp được tìm hiểu, kỹ thuật Focused
Web Crawler được chọn áp dụng vào thiết kế bộ thu thập dữ liệu, kỹ thuật VnTokenizer
vào được áp dụng vào giai đoạn tiền xử lý, cơ sở dữ liệu đồ thị Neo4j được nghiên cứu
để xây dựng bộ hiển thị kết quả trực quan.
Kiến trúc của hệ thống được mô tả cụ thể hơn ở Hình 4.2, đầu tiên dữ liệu được thu thập bởi bộ thu thập thông tin và được chuyển đến bộ xử lý. Ở đây, dữ liệu được tổ
chức theo cấu trúc cây. Tiếp theo, bộ xử lý thực hiện hai nhóm thuật toán chính: nhóm đầu tiên bao gồm các thuật toán xử lý văn bản, bao gồm tách từ trong văn bản tiếng Việt, loại bỏ từ dừng. Nhóm thuật toán này chịu trách nhiệm xử lý, tính toán và lưu trữ kết quả. Nhóm thứ hai bao gồm các thuật toán loại bỏ dữ liệu đã lỗi thời, loại bỏ các từ dừng khỏi hệ thống, sử dụng cửa sổ trượt thời gian, bao gồm một số thuật toán như Wjoin, PWJoin, vv.... Cuối cùng, bộ hiển thị trực quan dữ liệu tương tác với người dùng thông qua giao diện trực quan và cho phép người dùng xem, sắp xếp và lưu dữ liệu kết quả
theo yêu cầu của họ.
77
Cửa sổ trượt thời gian Tạp chí
BỘ HIỂN THỊ
Dữ liệu nguồn
TRỰC QUAN
Lưu trữ
BỘ THU THẬP THÔNG TIN
Dữ liệu kết quả
Loại bỏ từ dừng/hư từ
WJoin
Tách từ với VnTokenizer Phát hiện cụm từ xu thế
PWJoin
Các thuật toán xử lý văn bản Các thuật toán cửa sổ thời gian
BỘ XỬ LÝ
Hình 4.2: Kiến trúc hệ thống TKES
Trong hệ thống TKES, dữ liệu văn bản đến liên tục hàng ngày được thu thập, xử
lý và sau đó có thể được được lưu trữ, kết xuất thành các kho ngữ liệu văn bản. Hệ thống
xác định một đối tượng được gọi là Bài viết (Tiêu đề, Tác giả, Mô tả, Nội dung) đại diện
cho mỗi bài viết trong luồng văn bản. Các bài viết được nhóm theo Ngày, Chuyên mục
nên mỗi Chuyên mục có n Bài viết. Hệ thống sử dụng cấu trúc cây để lưu dữ liệu đến
(cũng có thể sử dụng bộ nhớ ngoài nếu cần), sau đó thực hiện một số hoạt động tiền xử
lý bao gồm phân đoạn văn bản, dừng loại bỏ từ dừng/hư từ. Để phát hiện các cụm từ xu
thế, hệ thống trước tiên thực hiện tính toán tầm quan trọng của từ khóa sử dụng kỹ thuật TF-IDF, tìm các từ khóa tương đồng. Kết quả theo yêu cầu của người dùng có thể được hiển thị trực quan sử dụng đồ thị. Hệ thống cũng sử dụng cơ chế cửa sổ trượt để loại bỏ dữ liệu hết hạn. Nhìn chung, hệ thống TKES tập trung vào việc phát hiện sự nổi bật, cụm từ xu thế, các sự nổi bật vượt trội, tiêu biểu của từ khóa.
Sự nổi bật (burst) được định nghĩa là khoảng thời gian liên tục mà từ khóa xuất hiện một cách khác thường trên luồng văn bản và phát hiện sự nổi bật (burst detection) là quá trình phát hiện ra sự nổi bật. Cụm từ/tập từ xu thế (trendy keywords) là một tập
các từ hàng đầu/tiêu biểu xuất hiện trong một sự nổi bật. Các sự nổi bật hàng đầu/tiêu biểu (trendy bursts) là tập các sự nổi bật của từ khóa nào đó với trọng số sự nổi bật (burst
78
weight) cao. Trọng số của sự nổi bật (burst weight) được tính dựa vào tổng trọng số của
từ khóa (keyword weight). Trọng số của từ khóa (keyword weight) được tính dựa vào
tổng tần số của từ khóa xuất hiện trong cùng một sự nổi bật.
Hình 4.3 mô tả trình tự thực hiện xử lý tìm cụm từ xu thế, từ dữ liệu đầu vào là các
bài báo đã qua xử lý và tập từ khóa được rút trích từ dữ liệu đầu vào này, hệ thống tính toán dựa trên nhãn thời gian của chúng. Sự nổi bật được xem là khoảng thời gian mà từ
khóa xuất hiện liên tục, đơn vị thời gian được xét ở đây là đơn vị ngày. Hình 4.3 mô tả
5 bước xử lý chính trong hệ thống luận án đề xuất, TKES. Ở bước 1, các bài báo được
thu thập hàng ngày đến theo luồng văn bản và được lưu trữ bằng CSDL đồ thị Neo4j ở
bước 2. Hệ thống tiếp tục tiền xử lý dữ liệu ở bước 3. Do đặc điểm của ngôn ngữ tiếng
Việt, mỗi từ có thể cấu thành từ nhiều đơn vị “tiếng”, ví dụ “thành_phố” có 2 tiếng là
“thành” và “phố” nên ở bước này, hệ thống sử dụng công cụ xử lý tách từ chuyên biệt
là Vntokenizer [44]. Như vậy, để chuyển đổi ngôn ngữ, hệ thống chỉ cần linh hoạt thay
đổi cách thức tiền xử lý dữ liệu ở bước này. Trong bước tiền xử lý, hệ thống cũng loại
bỏ từ dừng (stop words). Bước tiếp theo, bước 4, hệ thống tiến hành rút trích top-n từ
khóa. Bước 5 hiện thực việc phát hiện sự nổi bật, cụm từ xu thế, phát hiện các sự nổi bật tiêu biểu của từ khóa. Sau cùng, bước 6 hỗ trợ hiển thị trực quan kết quả.
(1) Thu thập dữ liệu từ các trang tin tức
(2) Lưu dữ liệu vào CSDL đồ thị
(4) Rút trích từ khóa
(6) Lưu/Hiển thị kết quả
(3) Tiền xử lý dữ liệu
(5) Phát hiện cụm từ xu thế
Crawling
Procesing
Visualizing
Hình 4.3: Trình tự xử lý của hệ thống TKES
Thu thập dữ liệu
Mỗi bài viết được xem là một đối tượng được gọi là bài báo (Tiêu đề, Tác giả, Mô tả, Nội dung). Các bài viết liên tục theo thời gian được đưa vào một luồng văn bản lớn. Dựa trên đặc điểm của các bài viết, chúng được phân nhóm theo ngày, chuyên mục như trong Hình 4.5: Mỗi ngày có n chuyên mục, mỗi chuyên mục có n bài báo.
79
Hình 4.4: Luồng văn bản đến liên tục theo thời gian
Lưu trữ dữ liệu vào cơ sở dữ liệu đồ thị
Hình 4.5: Cấu trúc lưu trữ dạng cây
Như thể hiện trong Hình 4.5, dữ liệu thu được được lưu trữ trực tuyến (cũng lưu
trữ ngoại tuyến nếu cần) và được chuyển đến cấu trúc lưu trữ dạng cây. Nút gốc (𝑅) có các nút con 𝐷𝑖 (𝑖: 1𝑛); nút ngày (Day) 𝐷𝑖 có các nút con 𝐶𝑗 (𝑗: 1𝑚); Nút chuyên mục (Category) 𝐶𝑗 có các nút con bài báo (Article) 𝐴𝑘 (𝑘: 1𝑝); Mỗi nút 𝐴𝑘 chỉ có một nút con chủ đề (Topic) 𝑇𝑘 là tập hợp các từ khóa (Keywords) quan trọng 𝐾𝑔 (𝑔: 1𝑘).
80
Hình 4.6: Cấu trúc lưu trữ chung và ví dụ
Hình 4.6 mô tả cách dữ liệu được lưu trữ với cơ sở dữ liệu đồ thị. Cấu trúc lưu trữ
chung có 5 nút: Gốc, Ngày, Chuyên mục, Bài viết và từ khóa (Root, Day, Category,
Article, Keyword).
Bảng 4.1 mô tả các thuộc tính của các nút và các mối quan hệ. Mỗi nút hoặc mối
quan hệ có các thuộc tính được sử dụng để lưu trữ dữ liệu có liên quan.
Bảng 4.1: Các thuộc tính của nút và mối quan hệ
STT Tên nút/mối quan hệ
Thuộc tính
Mô tả
ID; Name
Node
1
Root
ID; Value
Node
2
Day
ID; Name
Node
3
Column
ID; Path; Title
Node
4
Article
ID; Value
Node
5
Keyword
Weight
Relationship
6
Presents
Written_in
ImportanceIndex Relationship
7
81
Tiền xử lý dữ liệu
Để tiền xử lý dữ liệu, các bài viết được xử lý bằng thuật toán tách từ tiếng Việt tên
là Vntokenizer [44] để tạo ra các từ kết nối có nhiều từ hơn một tiếng. Vntokenizer được
chứng minh có độ chính xác 96% đến 98% về việc nhận dạng từ ghép, theo [44]. Kế
đến, các bài viết tiếp tục được xử lý bằng cách loại bỏ các từ dừng, những từ ít có nghĩa trong ngữ cảnh đang xét được tính toán bằng thuật toán TF-IDF trên một tập hợp lớn
các văn bản.
Rút trích từ khóa với TF-IDF
Sau khi tiền xử lý, trong bước 4 ở Hình 4.7, tần số từ được tính bằng cách sử dụng
thuật toán TF-IDF để rút trích từ khóa và tập hợp các từ khóa quan trọng hàng đầu của
mỗi bài viết. Sau khi các từ khóa hàng đầu của mỗi bài viết (như bước 4 trong Hình 4.7
mô tả) được tìm thấy, chúng được sắp xếp thứ tự dựa theo giá trị tần số từ.
Hình 4.7: Ví dụ về các bước xử lý rút trích từ khóa
82
Bảng 4.2 cho thấy 5 từ khóa hàng đầu của 2 bài báo (bài 1 và bài 2) trong chuyên
mục có tên là “Tin tức” vào ngày 01 tháng 4 năm 2018. Bảng này cũng cho biết tần số
của từ tính theo TF-IDF ở bước trên và chỉ số xếp hạng (trọng số) dựa trên tần số từ, có
nghĩa là từ khóa có giá trị tần số từ cao nhất sẽ có chỉ số xếp hạng cao nhất, bước
tăng/giảm của chỉ số xếp hạng là 1. Trường hợp ví dụ này lấy danh sách top 5, vì vậy giá trị trọng số cao nhất ở đây là 5.
Bảng 4.2: Một ví dụ về tính toán chỉ số xếp hạng của từ
Bài báo 1
Bài báo 2
Từ khóa
Tần số
Trọng
Từ khóa
Tần số
Trọng
từ
số
từ
số
0,15
5
0,229
5
Giá (price)
nhà_thờ (church)
0,09
4
0,159
4
Vé (ticket)
Ngói (tile)
trùng_tu (renovate)
0,09
3
3
0,132
công_trình (construction)
0,07
2
0,125
2
dịch_vụ (service)
đức_bà (notre dame)
1
Phí
0,106
1
0,04
công_trình
(fee)
(construction)
Sau đó, tổng giá trị chỉ số xếp hạng cho mỗi từ khóa được tính bằng tổng tất cả các
giá trị chỉ số xếp hạng của từ khóa (xem Bảng 4.3). Và tiếp theo, 5 từ khóa hàng đầu mà
tổng giá trị chỉ số xếp hạng cao nhất là những từ có ý nghĩa nhất trong toàn bộ 6 chuyên
mục bài viết được thu thập được chọn ra. Đó là 5 từ khóa đến từ chuyên mục “Tin tức”
bao gồm nhà_thờ, giá, ngói, vé và công_trình. Tổng giá trị trọng số tương ứng của chúng là 5, 5, 4, 4; và 4.
83
Bảng 4.3: Một ví dụ về tính tổng trọng số của từ khóa trong chuyên mục
Bài báo 1 Bài báo 2
Tổng trọng số Từ khóa Tổng trọng số Từ khóa
5 5
nhà_thờ (church) giá (price)
ngói 4 vé 4
(tile) (ticket)
3 công_trình 4
trùng_tu (renovate) (construction)
2 2
đức_bà (notre dame) dịch_vụ (service)
phí 1 4
(fee) công_trình (construction)
Và cuối cùng, trong bước năm (Hình 4.7), hệ thống hỗ trợ người dùng hiển thị trực
quan kết quả cũng như lưu kết quả họ cần.
Thuật toán
Nội dung trong phần này mô tả các thuật toán chính của hệ thống do luận án đề
xuất. Một thuật toán chung được trình bày đầu tiên và tiếp theo là các thuật toán chi tiết.
Thuật toán 4.1: Thuật toán tổng quát
Thuật toán 4.1. Thuật toán tổng quát
1:loop
2: Đọc thông số từ tập tin config.txt
3: Thu thập các bài báo (lưu trữ ngoại tuyến nếu cần)
4: 5: 6: 7: Tạo cấu trúc cây dữ liệu Tiền xử lý (tách từ:Vntokenizer) và loại từ dừng (stop words) Tính tần số bằng TF-IDF Cập nhật kết quả tính toán
8: 9: 10: 11: Nhận yêu cầu từ người dùng Hiển thị trực quan kết quả (lưu kết quả nếu cần) if (quá thời gian)= True then Loại các bộ dữ liệu hết hạn
12: end if 13:end loop
84
Ở bước 5 của Thuật toán 4.1 sau khi thu thập dữ liệu, công cụ gọi là Vntokenizer
[44] được dùng để tiền xử lý dữ liệu với việc tách từ trong tiếng Việt. Tiếp theo, các từ
dừng được loại bỏ. Sau đó, hệ thống được lập trình các phần còn lại của các bước trên.
Thuật toán 4.2: Thuật toán thu thập dữ liệu
Thuật toán 4.2. Thuật toán thu thập dữ liệu (bước 3&4 trong thuật toán 1)
if ( Được cho phép) then 1:loop 2:
Lấy trang web 3:
Rút trích tiêu đề, tóm tắt, nội dung, URL, tạo cấu trúc dữ liệu 4:
5: else
Lấy URL tiếp theo trong hàng đợi 6:
Kết nối máy chủ 7:
end if
8: 9:end loop
Thuật toán 4.3 (4.3.1 đến 4.3.3) được sử dụng để rút trích từ khóa từ mỗi bài viết
bằng cách sử dụng tập văn bản bao gồm các bài báo trong cùng một chuyên mục trên
một khoảng thời gian mặc định trong một ngày. Thuật toán 4.3.4 được sử dụng để xác
định tập hợp các từ khóa quan trọng cho mỗi chuyên mục trong một khoảng thời gian
mặc định là một ngày. Nhìn chung, các thuật toán con cho bước 6 của thể hiện trong
Thuật toán 4.1 như mô tả sau đây.
85
Thuật toán 4.3: Tính tần số từ
Thuật toán 4.3.1. TermFrequency
Input: array docOfWords, string term
Output:double result
1:int occurrences 2:for each word in docOfWords
if(word giống term) then 3:
occurrences ++; 4:
end if 5:
6: end for 7: resultoccurrences / docOfWords.length
Thuật toán 4.3.2. InverseDocumentFrequency
Input: array listOfDocs, string term Output:double result
1:int totalDoc
2:for eachdoc in listOfDocs
if(doc chứa term) then 3:
totalDoc ++ 4:
end if break 5: 6:
7: end for 8: resultMath.log(listOfDocs.length / totalDoc)
Thuật toán 4.3.3. CalTermFrequency
Input: array docOfwords, array listOfDocs, string term
Output:double result 1:resultTermFrequency(docOfwords,term)*InverseDocumentFrequency (listOfDocs, term)
Thuật toán 4.3.4. ColumnKeywordExtraction
Input: Column Output: List result 1: Lấy danh sách n từ khóa hàng đầu của mỗi bài báo 2: Gán thứ hạng cho các từ khóa trong từng danh sách từ 1 đến n theo tần số của mỗi
từ khóa 3: Tính chỉ số xếp hạng cho mỗi từ khóa (tổng chỉ số hạng) 4: result Danh sách n từ khóa có chỉ số xếp hạng lớn nhất
86
Rút trích từ khóa tương đồng
Ngữ nghĩa của từ dựa trên ngữ cảnh của chúng, chẳng hạn như các từ xuất hiện
gần nhau. Giả định rằng ngữ cảnh là mỗi bài báo và các từ xuất hiện cùng nhau trên một
bài báo sẽ có liên quan hay là có sự tương đồng với nhau. Vì vậy, với một từ khóa mà
người dùng quan tâm, nghiên cứu rút trích từ khóa tương đồng tìm ra được tập các từ liên quan khác.
Các bước tìm tập từ khóa tương đồng bao gồm: Đầu tiên, hệ thống huấn luyện
mạng nơ-ron để thực hiện nhiệm vụ cụ thể như đã đề cập. Cho một từ khóa cụ thể trong
danh sách từ khóa của một bài báo (từ khóa đầu vào), bằng cách xem xét các từ cùng
xuất hiện, mô hình sẽ tính toán xác suất mỗi từ khóa tương đồng với từ khóa đã cho từ
đó chọn n từ tương đồng hàng đầu với xác suất cao nhất.
Để rút trích từ khóa tương đồng, luận án dùng mạng Nơron để huấn luyện mô hình
thông qua sử dụng tập tài liệu huấn luyện là dữ liệu đến từ luồng văn bản các bài viết
được thu thập từ các trang tin tức trực tuyến đã được tiền xử lý, từ đó tính tương đồng
dựa trên độ đo tương đồng Cosine, sử dụng mô hình Skip-gram, phương pháp Softmax
phân cấp và thiết lập kích thước của vectơ từ là 300. Luận án cũng so sánh kết quả của nhiều phương pháp tương đồng khác nhau trong phần thực nghiệm.
Rút trích cụm từ xu thế
Hình 4.8 mô tả cấu trúc lưu trữ để tính toán các sự nổi bật. Từ các từ khóa đã được
rút trích, nghiên cứu này sử dụng kỹ thuật phát hiện sự nổi bật của từ khóa để giải quyết
Sự nổi bật
Thuộc_về
Xuất_hiện_lúc
Nhãn thời gian
Từ khóa
trong
Chuyên mục
bài toán đặt ra sử dụng cơ sở dữ liệu Neo4j.
Hình 4.8: Cấu trúc lưu trữ dùng để phát hiện sự nổi bật
87
Hình 4.8 thể hiện cấu trúc lưu trữ gồm có 4 nút: Từ khóa, sự nổi bật, nhãn thời
gian và chuyên mục. Cấu trúc lưu trữ bao gồm 3 quan hệ là: “Thuộc_về”,
“Xuất_hiện_lúc” và “trong” cho biết từ khóa thuộc về chuyên mục nào, xuất hiện lúc
nào và nổi bật khi nào (thuộc về sự nổi bật nào).
Bảng 4.4 trình bày một ví dụ về cấu trúc lưu trữ, ví dụ về từ khóa “Facebook” xuất hiện ở 4 thời điểm tạo ra 4 sự kiện và nó thuộc về Burst có nhãn “20180321-20180324”.
Bảng 4.4 cũng mô tả sự nổi bật của từ khóa “Facebook” trong thời gian 03 ngày từ ngày
21 tháng 03 năm 2018 đến ngày 24 tháng 03 năm 2018. Các chỉ số ảnh hưởng lần lượt
có giá trị là 8, 25, 11 và 10 là thứ hạng (từ 1 đến n) của từ khóa “Facebook” so với n-1
từ khóa khác xuất hiện cùng thời điểm. Sau đó, hệ thống lấy tổng các thứ hạng này = 54
làm trọng số được sử dụng để so sánh tầm quan trọng của sự nổi bật này với các sự nổi
bật khác của từ khóa này.
Bảng 4.4: Thí dụ về cấu trúc lưu trữ Burst
Sự kiện
từ khóa Nhãn thời gian
Nhãn Burst
Chỉ số Burst
Trọng số từ khóa
1
20180321
8
2
20180322
25
20180321-20180324
54
3
20180323
11
4
20180324
10
Tìm sự nổi bật
Lấy ý tưởng từ thuật toán của Kleinberg [42], nghiên cứu đề xuất một phương pháp phù hợp để xử lý phát hiện sự nổi bật nhằm giải quyết bài toán đặt ra trong hệ thống
TKES. Phương pháp này phát hiện sự nổi bật dựa trên thuật toán Kleinberg, thực hiện
tính toán trọng số từ khóa KeywordWeight (tổng tần số của tất cả các lần xuất hiện của
một từ khóa trong một sự nổi bật). Trọng số này phục vụ cho việc phát hiện các sự nổi bật tiêu biểu của từ khóa (có trọng số xuất hiện của từ khóa cao) cũng như chọn ra được danh sách các từ khóa nổi bật tiêu biểu hàng đầu (trendy keywords).
88
4.2 Thực nghiệm và bàn luận
Các framework dùng để lập trình
Một số công cụ sau đây đã được sử dụng để phát triển hệ thống: Scala 2.10.5, Java
8, Spark 1.6.3, Windows Utilities 2.6.x, Maven 3.3, Neo4j 3.2, Apache-tomcat-9.x,
IntelliJ IDEA và Vis.js. Ngoài ra, hệ thống cũng sử dụng VnTokenizer [44] và danh sách từ dừng được tải xuống từ Github được bổ sung thêm một số ký tự xuất hiện trong văn
bản nhưng không có bất kỳ ý nghĩa nào vào danh sách này.
Các thử nghiệm được thực hiện trên máy tính có cấu hình CPU Intel (R) Core (TM)
6700HQ @ 2.60GHz, bộ nhớ DDR4 8GB, sử dụng hệ điều hành Windows 10. Ngôn ngữ lập trình chính được sử dụng là Python 3.6. Cơ sở dữ liệu đồ thị là Neo4j.
Tính năng phát hiện sự nổi bật của một từ khóa cụ thể
Luận án thực hiện thử nghiệm trên dữ liệu là các bài báo được hệ thống thu thập
từ các trang Tin tức trực tuyến trong 1 năm với tổng số gần 80.000 bài viết. Thuật toán
dựa trên ý tưởng của Kleinberg được sử dụng để phát hiện các sự nổi bật trong tập dữ
liệu. Thời gian được quy ước là liên tục theo đơn vị ngày. Thử nghiệm thực hiện tìm mức độ liên tục của một sự kiện (một từ khóa xuất hiện trong một bài báo tại một thời
điểm). Có nghĩa là, đối với một từ w nhất định, hệ thống tìm xem w có thu hút được sự
chú ý hay không trong dòng văn bản bằng cách:
1. Chọn các bài báo có từ 𝑤.
2. Sắp xếp các mục này theo thứ tự ngày.
3. Áp dụng thuật toán cho các mục này.
4. Xuất kết quả, bài báo ở trạng thái nổi bật, trọng số nổi bật (nếu cần).
Bảng 4.5 thể hiện kết quả về các khoảng thời gian nổi bật từ khóa “Facebook”. Mỗi Burst (BurstID, Start, End, Burst weight) được phân biệt bởi một mã số phân biệt (BurstID) được tính từ 1, thời gian bắt đầu, thời gian kết thúc và trọng số của Burst cho
biết chỉ số về mức độ quan tâm của người dùng đối với từ khóa này. Trọng số Burst của từ khóa được tính bằng cách tổng tất cả các giá trị tần số từ khóa trong một Burst. Vì vậy, trọng số càng cao thì mức độ quan tâm của người dùng đối với từ khóa càng cao.
89
Bảng 4.5: Các Burst của từ khóa “Facebook”
Từ khóa Mã số Burst Bắt đầu
Kết thúc Trọng số nổi bật
1
03-21-2018 03-24-2018
46
2
03-26-2018 03-29-2018
22
3
04-03-2018 04-04-2018
78
4
04-06-2018 04-08-2018
69
Bảng 4.5 phát hiện từ khóa “Facebook” đã xuất hiện trong các bài báo từ ngày 21
tháng 03 đến ngày 08 tháng 04, năm 2019. Có thể thấy rằng “Facebook” trở nên phổ
biến nhất trong 02 ngày từ 03 tháng 04 đến 04 tháng 04. Sau đó, mọi người tiếp tục nhắc đến Facebook từ ngày 06 đến ngày 08 tháng 04. Do đó, phát hiện Burst có thể giúp
người dùng theo dõi xu hướng, độ “nóng” của các từ khóa. Như chúng ta đã biết, lý do
tại sao “Facebook” trở nên được quan tâm với tần số cao trong các giai đoạn trên là do
vụ việc rò rỉ thông tin người dùng liên quan đến cuộc bầu cử Tổng thống Trump tại Hoa
Kỳ. Hệ thống được xây dựng cũng hỗ trợ người dùng xem kết quả một cách trực quan
(như được thấy trong Hình 4.9).
Hình 4.9: Phát hiện sự nổi bật đối với từ khóa “Facebook”
Hình 4.9 cho thấy từ khóa “Facebook” có 04 giai đoạn nổi bật, trục ngang thể hiện kích thước sự nổi bật và trục dọc thể hiện trọng số của giai đoạn nổi bật. Như vậy, khoảng thời gian nổi bật dài nhất là 04 ngày từ 21-24/03/2018, và trọng số xuất hiện cao
nhất là trong 02 ngày từ ngày 03-04/04/2018 (xấp xỉ 80).
90
Lựa chọn các từ thu hút sự chú ý trong một khoảng thời gian
Mục tiêu của thử nghiệm này là chọn các từ khóa tượng trưng, tiêu biểu cho những gì xảy ra trong một khoảng thời gian trong luồng tài liệu. Danh sách các từ được lập
bằng cách:
1. Chọn các bài viết bao gồm từ w và tìm xem có sự nổi bật của từ khóa này hay
không. Nếu có nhiều sự nổi bật, chọn sự nổi bật có trọng số lớn nhất.
2. Nếu có một sự nổi bật, lưu từ và khoảng thời gian nổi bật của từ.
3. Rút trích tất cả các từ liên quan của các bài báo xuất hiện trong khoảng thời gian
nổi bật vừa xác định.
4. Sắp xếp theo trọng số, chọn top-n và xuất kết quả.
Bảng 4.6: Xác định danh sách từ xu thế chung với từ khóa “Facebook” Giai đoạn nổi bật 04/03/2018 - 04/04/2018
Trọng số 101,9
Từ khóa Cấm
Lưu_trữ
04/03/2018 - 04/04/2018
89,4
Quản_trị
04/03/2018 - 04/04/2018
88
Nhà_tù
04/03/2018 - 04/04/2018
52,2
31,6
Chính_phủ
04/03/2018 - 04/04/2018
Bảng 4.6 trình bày top-5 từ khóa (top-5 trendy keywords) xuất hiện trong sự nổi
bật từ 03-04-2018 đến 04-04-2018 xếp theo giá trị trọng số từ cao tới thấp.
Đo thời gian xử lý của bộ thu thập dữ liệu
Ba mô-đun: bộ thu thập thông tin, bộ xử lý và bộ hiển thị trực quan được kiểm tra
riêng để tính toán thời gian hoạt động của từng mô-đun. Mỗi ngày, khoảng 130 bài báo của 6 chuyên mục bao gồm Công nghệ, Giáo dục, Khoa học, Pháp luật, Thế giới và Tin tức được hệ thống thu thập. Bảng 4.7 chứng minh rằng hệ thống thu thập các bài viết trong khoảng thời gian ngắn.
91
Bảng 4.7: Thử nghiệm thời gian thực thi trên bộ thu thập thông tin
Ngày
Số bài báo Thời gian xử lý (s)
11/28/2017
127
67
11/29/2017
143
34
11/30/2017
141
44
12/01/2017
147
111
12/02/2017
125
40
Đo thời gian xử lý thêm dữ liệu vào cơ sở dữ liệu đồ thị
Các kịch bản thử nghiệm để kiểm tra tốc độ xử lý của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị (xem Bảng 4.8) cũng được thực hiện. Số lượng bài báo sử dụng cho thử
nghiệm là khoảng 134 (một ngày), gần 900 (một tuần) và gần 4000 (một tháng). Bảng
4.8 cho thấy việc thêm dữ liệu vào cơ sở dữ liệu đồ thị mất rất ít thời gian, chỉ trong
khoảng một phút.
Bảng 4.8: Kiểm tra thời gian thực thi của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị
STT
Ngày
Số bài báo Thời gian (s) Số nút Số quan hệ
Test 1
09/28/2017
134
08
142
141
Test 2 09/28/2017- 10/04/2017
896
65
946
945
Test 3 09/28/2017- 10/27/2017
3.742
204
3.953
3.952
Đo thời gian xử lý của bộ xử lý dữ liệu
Các kết quả thử nghiệm với bộ xử lý được trình bày ở Bảng 4.9. Bảng này cho thấy
rằng bộ xử lý dữ liệu tiêu tốn thời gian nhất. Mất khoảng 20 phút, 2 giờ và 8 giờ để xử
lý dữ liệu hàng ngày, hàng tuần và hàng tháng.
Bảng 4.9: Kiểm tra thời gian chạy của bộ xử lý
Bộ dữ liệu Thời gian xử lý (s) Số đỉnh Số cung
1.299
1.482
2.681
Test 1
8.387
4.535
15.237
Test 2
31.138
12458
74.326
Test 3
92
So sánh thời gian xử lý trên dữ liệu có số lượng và kích thước khác nhau
Nguyên nhân dẫn đến chi phí đề cập ở phần trên cũng được kiểm tra thông qua thử
nghiệm trên dữ liệu bài viết với số lượng và kích thước (độ dài) khác nhau. Kết quả thử
nghiệm được trình bày ở Bảng 4.10.
1
5
10
15
Số lượng từ
109
585 1.153
1.940
Bảng 4.10: Thời gian xử lý số lượng bài viết khác nhau với độ dài khác nhau
Số lượng bài báo 1 t s e T
Thời gian (s)
114
155
236
391
1
5
10
15
Số lượng từ
864 4.264 9.669 14.548
Số lượng bài báo 2 t s e T
Thời gian (s)
130
179
287
359
Kết quả thu được được thể hiện tại Bảng 4.10 và biểu đồ (xem Hình 4.10 được phát
họa từ dữ liệu ở Bảng 4.10).
Hình 4.10: Ảnh hưởng của chiều dài bài viết và số lượng bài viết đối với thời gian
chạy của bộ xử lý
93
Hình 4.10 cho thấy rằng số lượng bài viết là lý do chính của vấn đề tốn thời gian.
Dựa trên kết quả này, hệ thống có cơ hội được cải thiện về tốc độ đối với bộ xử lý thông
qua việc thực hiện các nghiên cứu sâu hơn có liên quan.
So sánh dữ liệu kết quả chạy các phiên bản TF-IDF lập trình bằng ngôn ngữ khác
nhau
Phần này trình bày việc thực hiện so sánh các kết quả đầu ra từ hai thuật toán được
viết bằng ngôn ngữ lập trình Java và Python và đề xuất một số tùy chọn để sử dụng các
kết quả đầu ra hiệu quả hơn. Các bộ dữ liệu được sử dụng bao gồm 5294 bài báo được thu thập trong một tháng từ ngày 21 tháng 3 năm 2018 đến ngày 21 tháng 4 năm 2018,
được tổ chức thành 6 chuyên mục từ 2 tạp chí trực tuyến (VnExpress và VietnamNet).
Kích thước thư mục các tập tin trên đĩa là 17MB. Sau bước tiền xử lý trước dữ liệu, một
thư mục mới có dung lượng 11 MB khác được tạo. Thử nghiệm tính toán tỷ lệ chính xác
cho bốn trường hợp bao gồm 10, 20, 30 và 40 từ khóa quan trọng hàng đầu. Các tỷ lệ
này là 86,6%, 89,1%, 91% và 91,8% (xem Bảng 4.11).
Bảng 4.11: Tỷ lệ giống nhau của dữ liệu sinh ra từ 2 thuật toán TF-IDF viết bằng ngôn ngữ lập trình khác nhau
Số bài báo
10 từ khóa đầu tiên
20 từ khóa đầu tiên
30 từ khóa đầu tiên
40 từ khóa đầu tiên
5294
86.6%
89.1 %
91 %
91,8 %
94
Bảng 4.12: Tần số của từ khóa
Mã bài báo
Từ khóa
Tần số
69331
phát_âm
0,10591451753481180
Drink
0,09886992125092042
trọng_âm
0,09886992125092042
tiếng
0,08695281898093078
You
0,08239160104243368
nhấn
0,08239160104243368
nối
0,08239160104243368
Âm
0,08239160104243368
ví_dụ
0,05295725876740590
nội_dung
0,05000154587608109
69330
ĐH
0,12387313754395837
Thi
0,07519608378236309
quốc_gia
0,06945752449747143
cụm
0,06940755124852771
ĐT
0,05698959117298020
GD
0,05698959117298020
THPT
0,04423299046021358
phối_hợp
0,04310711180367380
Cần_Thơ
0,03812281648233688
Công_nghiệp 0,03812281648233688
95
Bảng 4.12 cho thấy rằng nhiều từ khóa có cùng giá trị trọng số tần số, do đó việc
sắp xếp và lọc khi chọn từ khóa hàng đầu tạo ra sự khác biệt giữa các kết quả đầu ra.
Nhiều từ khóa có cùng tần số là do việc làm tròn các giá trị tần số của chúng. Vì vậy,
chúng ta cần phải cẩn thận khi làm tròn các giá trị này và cần thiết lập tiêu chí rõ ràng
để chọn các từ khóa có cùng tần số.
Tính toán thời gian huấn luyện mô hình tìm từ khóa tương đồng
Thiết lập tham số
Bảng 4.13 mô tả các thiết lập tham số khi sử dụng mô-đun word2vec của Gensim để huấn luyện các mô hình hệ thống. Kích thước của vectơ từ là 300. Các mô hình được
đào tạo với phương pháp Skip-Gram và Phân cấp Softmax.
Bảng 4.13: Một số tham số với word2Vec
Tham số Giải thích Size Kích thước của vectơ từ Giá trị 300
Mô hình huấn luyện:
Sg 0-CBOW 1
1-Skip-Gram
Phương pháp huấn luyện
Hs 0-Negative Sampling 1
1-Hierarchical Softmax method
Others Default
Các tập dữ liệu
Các tập dữ liệu được thu thập từ các trang báo điện tử Việt Nam là VNExpress và
VietnamNet dùng để thực nghiệm, bao gồm:
Tập dữ liệu T1 chứa văn bản của các bài báo được thu thập trong 41 ngày (hơn 4000 bài viết) được sử dụng để so sánh thời gian xử lý các mô hình huấn luyện mới và cập nhật bổ sung. Mục đích của thực nghiệm này là so sánh chi phí huấn luyện các mô hình mới với việc huấn luyện bổ sung các mô hình hiện có.
Tập dữ liệu T2 có các bài viết xuất hiện trong 10 ngày (hơn 100 bài viết) được sử
dụng để đo thời gian xử lý tìm kiếm từ liên quan. Mô hình được huấn luyện với dữ liệu thu thập trong 41 ngày được sử dụng cho thử nghiệm này. Mỗi ngày, tác giả chọn 10 từ
khóa cho mỗi bài viết, từ mỗi từ khóa tác giả chọn 10 từ khóa liên quan. Sau đó, tác giả
96
so sánh thời gian xử lý tìm kiếm trên các bộ dữ liệu khác nhau đến từ các ngày khác
nhau.
Tập dữ liệu T3 có hơn 40.000 bài viết được sử dụng để kiểm tra tính ổn định của
mô hình. Để thực hiện kiểm tra này, tác giả chọn các từ khóa tần số cao được rút trích
từ các bài viết trong hệ thống. Sau đó tác giả chọn các từ liên quan từ mỗi từ khóa. Như đã đề cập trước đây, có 6 chuyên mục bài viết xuất hiện hàng ngày, vì vậy hệ thống huấn
luyện 6 mô hình sử dụng Word2Vec và Skip-gram. Các mô hình này được huấn luyện
bằng tập dữ liệu T3 và tiếp tục được huấn luyện bổ sung cho đến khi các mô hình này
đạt trạng thái ổn định. Điều này có nghĩa là khi mô hình được tiếp tục huấn luyện bổ
sung, hầu như không có thay đổi nào về đầu ra (các từ liên quan) của cùng một đầu vào
(các từ khóa được rút trích). Với bộ dữ liệu T3, nghiên cứu sinh tiếp tục theo dõi sự khác
biệt của đầu ra giữa các phiên bản mô hình được huấn luyện bổ sung cho đến khi kết
quả đạt được sự ổn định nhất định. Với sự ổn định này, có thể ngừng huấn luyện và đưa
mô hình vào sử dụng thực tế.
Bảng 4.14 trình bày các từ liên quan đến từ khóa “ứng dụng”. Chúng tôi huấn
luyện mô hình với 4.379 bài viết.
Bảng 4.14: Các từ liên quan đến từ khóa “Ứng dụng”
Từ khóa Từ liên quan Mức độ liên quan
Ứng dụng Google play
0,837
Trẻ em
0,815
Block chain
0,788
Play store
0,770
Như đã đề cập ở trên, nghiên cứu sinh sử dụng năm độ đo khoảng cách tương đồng
phổ biến gồm khoảng cách Euclide, khoảng cách Manhattan, khoảng cách Minkowski, độ tương đồng Cosine và độ tương đồng Jaccard. Nghiên cứu sinh cũng so sánh kết quả từ việc sử dụng các phương pháp này và kết quả được trình bày trong Bảng 4.15.
Bảng 4.15: So sánh mức độ tương đồng khi sử dụng các thước đo khoảng cách tương đồng khác nhau
Từ khóa Từ liên quan Euclidean Manhattan Minkowski Cosine Jaccard
Google play
0,837
0,842
0,842
0,739
0,856
Ứng dụng
Trẻ em
0,815
0,812
0,812
0,701
0,790
Block chain
0,788
0,773
0,657
0,780
0,775
Play store
0,770
0,763
0,774
0,512
0,763
97
Nghiên cứu sinh tính toán thời gian xử lý dựa trên 3 hoạt động chính bao gồm hoạt
động huấn luyện mô hình, hoạt động tìm kiếm từ liên quan và huấn luyện mô hình đáp
ứng thực tế.
98
Bảng 4.16: Thời gian huấn luyện các mô hình
Số ngày thu dữ
Huấn luyện mới
Huấn luyện bổ sung
liệu
Số bài báo
Số bài báo
Thời gian xử lý (ms)
Thời gian xử lý (ms)
1
157
3.716
0
3.151
30
3.478
22.719
3.221
7.814
41
4.379
27.846
1.058
9.266
Với hoạt động huấn luyện mô hình, trước tiên nghiên cứu sinh huấn luyện mô hình
mới bằng cách sử dụng bộ dữ liệu T1 với số lượng bài viết được thu thập trong một ngày (hơn 100 bài viết), 30 ngày (hơn 3000 bài viết) và 41 ngày (hơn 4000 bài viết) như được
hiển thị trong Bảng 4.16. Do có 6 chuyên mục trong mỗi tập dữ liệu, tác giả đào tạo 6
mô hình tương ứng. Sau đó, tác giả huấn luyện bổ sung cho 6 mô hình với số lượng bài
viết được thu thập trong một ngày (hơn 100 bài viết), 30 ngày (hơn 3000 bài viết) và 41
ngày (hơn 1000 bài viết). Thời gian xử lý được đo trong 2 lần chạy thử.
Hình 4.11: So sánh chi phí giữa huấn luyện mới và huấn luyện cập nhật
Hình 4.11 cho thấy mô hình huấn luyện bổ sung ít tốn thời gian hơn so với huấn
luyện mới mô hình.
Kết quả thực nghiệm cho thấy chi phí huấn luyện mô hình có thể giảm khi huấn luyện mô hình bổ sung thay vì huấn luyện mới mô hình. Việc huấn luyện bổ sung có thể được thực hiện hàng tuần hoặc hàng tháng.
99
Tính toán thời gian tìm từ liên quan
Bảng 4.17: Thời gian xử lý để tìm 10 từ liên quan
Ngày
Số tài liệu Số từ khóa Thời gian xử lý
01-05-2018
71
710
72.391
02-05-2018
73
730
72.391
03-05-2018
230
2.300
213.933
04-05-2018
13
127
13.769
05-05-2018
136
1359
126.039
06-05-2018
96
960
91.647
07-05-2018
88
880
85.939
08-05-2018
122
1.207
113.016
09-05-2018
127
1.270
115.336
10-05-2018
128
1.276
115.808
Với chức năng tìm kiếm từ liên quan, thực nghiệm tiến hành kiểm tra và đo thời
gian xử lý để tìm ra 10 từ khóa liên quan hàng đầu. Dữ liệu được sử dụng cho bài kiểm
tra là các bài viết được thu thập trong 10 ngày từ ngày 01 tháng 5 năm 2018 đến ngày
10 tháng 5 năm 2018. Đối với mỗi bài viết, 10 từ khóa quan trọng nhất được tính toán
và rút trích bằng thuật toán TF-IDF. Đối với mỗi từ khóa, hệ thống tìm một bộ gồm 10
từ liên quan dựa trên mô hình được huấn luyện. Sau đó, nghiên cứu tiến hành đo tổng
thời gian xử lý của quá trình tìm kiếm 10 từ khóa liên quan cho tất cả các từ khóa rút
trích từ các bài viết đến theo ngày (xem Bảng 4.17).
Hình 4.12: Thời gian xử lý tìm 10 từ khóa liên quan
100
Hình 4.12 được phác họa dựa trên dữ liệu ở Bảng 4.17, cho thấy thời gian xử lý
tìm kiếm từ khóa liên quan phụ thuộc vào số lượng từ khóa. Càng nhiều từ khóa, càng
mất nhiều thời gian để xử lý.
Tính toán thời gian rút trích các cụm từ xu thế
Các tập dữ liệu
1. Tập dữ liệu T1 (gần 80.000 bài) ở dạng tài liệu văn bản (230M) được sử dụng
để chạy thực nghiệm cho toàn hệ thống.
2. Tập dữ liệu T2 (3.057 bài báo được thu thập trong 19 ngày) được sử dụng để
kiểm tra thời gian thực thi của chức năng Phát hiện các sự nổi bật Burst.
Kết quả thực nghiệm và bàn luận
Các trường hợp thử nghiệm cho chức năng phát hiện Burst được thực hiện như sau.
Kết quả thử nghiệm của chức năng Phát hiện Burst trên các bài báo thu được trong thời
gian liên tục 19 ngày (tập dữ liệu T2) được trình bày trong Bảng 4.18 cho thấy số liệu
thống kê về số lượng bài báo được thu thập, từ khóa được phân tích, tần số xuất hiện
của từ khóa, sự nổi bật được tìm thấy và thời gian xử lý tương ứng. Bảng 4.18 làm rõ
các yếu tố ảnh hưởng đến thời gian xử lý của hệ thống.
Nói chung, thời gian xử lý thấp nhất là 11.770 ms trong ngày đầu tiên khi không
tính Burst, thời gian xử lý sau đó thay đổi trong những ngày tiếp theo khi Burst được
phát hiện và đặc biệt là khi sự nổi bật đạt số lượng cao nhất là 170, thời gian xử lý gần
như đạt được mức cao nhất ở 19.220 ms. Như vậy, có thể thấy rằng khi số lượng Burst
tăng lên, thời gian xử lý tăng lên.
101
Bảng 4.18: Kiểm tra thời gian xử lý phát hiện Burst của các bài báo trong 19 ngày Số lần xuất hiện
Ngà y
Số bài báo
Số từ khóa
Thời gian xử lý (10*ms)
Số sự nổi bật
1
162
180
180
0
1.177
2
165
179
218
39
1.193
3
162
179
251
57
1.408
4
159
180
288
73
1.534
5
163
177
328
94
1.650
6
164
180
272
48
1.781
7
159
179
368
133
1.620
8
159
179
351
77
1.781
9
165
179
350
72
1.639
10
163
179
402
111
1.512
11
153
179
398
89
1.169
12
155
179
455
129
1.459
13
156
180
567
170
1.922
14
159
179
442
101
1.385
15
157
179
514
159
1.857
16
159
179
505
115
1.561
17
192
177
531
140
1.740
18
155
178
454
114
1.851
19
150
180
541
146
1.923
Hơn nữa, các yếu tố khác như số lượng bài viết, số lượng từ khóa, số lần xuất hiện
của từ khóa cũng ít ảnh hưởng đến thời gian xử lý. Cụ thể, vào ngày 19, mặc dù số lượng Burst không phải là tối đa, thời gian xử lý đạt mức cao nhất là 19.230 ms khi số lượng từ khóa đạt mức cao nhất là 180.
102
Hình 4.13 được phác họa từ Bảng 4.18 cho thấy mối tương quan giữa số lượng bài
báo được thu thập mỗi ngày và thời gian xử lý phát hiện Burst. Nói chung, thời gian xử
lý tỷ lệ thuận với số lượng bài báo. Do đó, khi số lượng từ khóa xuất hiện tăng theo thời
gian, việc tính toán phát hiện Burst mất nhiều thời gian hơn. Có thể thấy trong Bảng
4.18 rằng khi số lần xuất hiện đạt giá trị gần như cao nhất (567 và 541 vào 2 ngày 13 và 19), thời gian xử lý cũng là cao nhất (19.220 ms và 19.230 ms). Do đó, các giải pháp
lưu trữ hoặc hết hạn dữ liệu trong quá khứ cần được thực hiện trong tương lai gần để tối
ưu hóa thời gian xử lý của hệ thống.
Hình 4.13: Thời gian xử lý phát hiện sự nổi bật
Các tập dữ liệu của hệ thống
Hệ thống tạo các bộ dữ liệu bao gồm: tập dữ liệu các bài báo, tập dữ liệu của các
bài báo sau bước tiền xử lý, tập dữ liệu của n các từ khóa quan trọng hàng đầu của các
bài viết, tập dữ liệu của n các từ khóa hàng đầu của chuyên mục. Các bộ dữ liệu này
được cấu trúc như sau:
Hình 4.14: Cấu trúc lưu trữ dữ liệu chưa qua xử lý
103
Tập dữ liệu của các bài báo bao gồm các bài báo được thu thập và sắp xếp trong
các thư mục theo cấu trúc Ngày/Chuyên mục/Bài báo dưới dạng các tập tin văn bản.
Tên tập tin là tiêu đề bài viết và tập tin chứa thông tin bao gồm tiêu đề, mô tả và nội
dung (Hình 4.14).
Tập dữ liệu của các bài báo sau khi đã qua bước tiền xử lý có cấu trúc tương tự với
tập dữ liệu các bài báo. Điều khác biệt duy nhất là nội dung của các bài báo đã được tiền
xử lý bằng cách tách từ và loại bỏ từ dừng (Hình 4.15).
Hình 4.15: Cấu trúc lưu trữ dữ liệu Hình 4.16: Cấu trúc lưu trữ danh
đã qua xử lý sách các từ khóa hàng đầu của bài
viết
Tập dữ liệu của các từ khóa hàng đầu của bài viết được lưu trong các tập tin văn
bản có cấu trúc 4 trường bao gồm: ngày (Date), mã bài báo (PaperID), từ khóa
(KeyWord) và tần số (Weight) (Hình 4.16).
Tập dữ liệu của các từ khóa hàng đầu của chuyên mục có cấu trúc tương tự với tập
dữ liệu của các từ khóa hàng đầu của bài báo.
104
Hình 4.17: Cấu trúc lưu trữ danh sách các từ khóa hàng đầu của chuyên mục
Tập dữ liệu này được lưu dưới dạng tập tin văn bản với 4 trường bao gồm: ngày
(Date), mã chuyên mục (Category), từ khóa (KeyWord) và chỉ số xếp hạng (Rank) (Hình
4.17).
Trên đây là một số định dạng, cấu trúc của một số tập dữ liệu. Hệ thống hoàn toàn
có thể linh hoạt đáp ứng việc cấu trúc dữ liệu cho phù hợp theo các yêu cầu về dữ liệu
thực nghiệm trong nghiên cứu.
4.3 Kết chương
Chương này trình bày phương pháp, kết quả thực nghiệm và bàn luận trong nghiên
cứu giải quyết bài toán thứ hai, nghiên cứu tìm các cụm từ xu thế trên luồng dữ liệu văn bản. Nghiên cứu đề xuất hệ thống TKES và áp dụng thuật toán đề xuất AdaptingBurst
tìm cụm từ xu thế dựa trên ý tưởng của thuật toán trước đây là Kleinbergn. Các thuật
toán được đề xuất cũng giải quyết vấn đề phát hiện sự nổi bật, tính toán, xếp hạng từ đó
tìm ra các sự nổi bật tiêu biểu. Nghiên cứu cũng hỗ trợ kết xuất các tập dữ liệu để phục vụ các nghiên cứu sâu hơn. Ngoài ra, hướng phát triển của hệ thống có thể hướng đến xử lý, tính toán song song để tăng tốc độ. Nghiên cứu sinh cũng dự kiến hướng phát triển như sử dụng các độ đo đánh giá hiệu suất các mô hình đề xuất vận dụng kết quả từ nghiên cứu này vào gom cụm luồng văn bản chẳng hạn như cải tiến biểu diễn đặc trưng văn bản trong gom cụm. Bên cạnh đó, trong nghiên cứu này, các bước tiền xử lý dữ liệu, rút trích từ khóa, rút trích từ khóa tương đồng phục vụ cho việc tìm các cụm từ xu thế cũng được trình bày chi tiết và thử nghiệm tính toán thời gian xử lý, so sánh thời gian
xử lý và độ chính xác của kết quả.
105
CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN
Chương này tổng kết các kết quả đã đạt được, tập trung làm rõ các bài toán chính giải
quyết vấn đề mà đề tài luận án đặt ra. Chương này cũng đánh giá lại về các nội dung:
nghiên cứu các công trình khoa học liên quan, phương pháp đặt ra và giải quyết 02 bài toán của luận án. Với mỗi kỹ thuật, giải pháp đề xuất, các mô tả bài toán, phương pháp,
thực nghiệm, điểm mạnh, tính mới/tính cải tiến liên tục, điểm điểm hạn chế và hướng
phát triển được làm rõ. Chương này chia thành 02 nội dung chính là: Mục 5.1 đánh giá
về các kết quả đạt được, hạn chế và hướng phát triển, Mục 5.2 đánh giá ý nghĩa học
thuật và thực tiễn của luận án.
5.1 Các kết quả đạt được, hạn chế và hướng phát triển
Phần nghiên cứu tổng quan của luận án đã: Lược sử các công trình liên quan đến
hướng nghiên cứu của đề tài và các bài toán đặt ra từ đó giúp mang lại cái nhìn tổng thể
đối với vấn đề đang nghiên cứu; Tìm hiểu các kỹ thuật nền tảng của vấn đề nghiên cứu;
Phân tích điểm mạnh yếu của các nghiên cứu liên quan từ đó quyết định bài toán và các
phương án giải quyết; So sánh các giải pháp hiện có sử dụng cùng cách tiếp cận từ đó
tìm ra ưu điểm và hạn chế của từng giải pháp; Cập nhật liên tục cho đến thời điểm hiện
tại các nghiên cứu liên quan từ đó thấy được sự phát triển liên tục của hướng nghiên
cứu; Hoạt động của các nhóm nghiên cứu đầu ngành, các chuyên gia nổi tiếng trong
cộng đồng nghiên cứu thuộc lĩnh vực nghiên cứu liên quan được theo dõi và nêu rõ.
Có thể nói, bài toán 1 cũng là bài toán chính của luận án và đã thể hiện được những
đóng góp quan trọng, cụ thể như sau:
Đề xuất một cách tiếp cận mới về gom cụm luồng văn bản dựa trên mô hình hỗn hợp, áp dụng đánh giá đồ thị từ (GOW) xuất hiện trong tập ngữ liệu văn bản đã cho.
Thực hiện đánh giá các mối quan hệ từ trong khi suy ra các cụm.
Đề xuất một cách tiếp cận áp dụng văn bản n-gram vào đồ thị hóa văn bản (text2graph) với kỹ thuật khai phá đồ thị con phổ biến (FSM) để rút trích các đồ thị con phổ biến từ kho ngữ liệu văn bản đã cho.
Sử dụng kỹ thuật rút trích đồ thị con phổ biến trong mỗi tài liệu văn bản để hỗ
trợ quá trình ước tính phân phối của các chủ đề trên tài liệu.
106
Xử lý hiệu quả tác vụ gom cụm luồng văn bản ngắn bằng cách kết hợp cả đánh giá từ độc lập (các từ riêng biệt trong mỗi tài liệu) và từ phụ thuộc (các từ cùng
xuất hiện trong các đồ thị con phổ biến).
Kết hợp đánh giá dựa trên các đồ thị con phổ biến và đánh giá từ một cách độc lập trong quá trình suy luận chủ đề của mô hình hỗn hợp quy trình Dirichlet
(DPMM) để nâng cao kết quả gom cụm văn bản từ luồng dữ liệu.
Giải quyết các thách thức liên quan đến sự thay đổi chủ đề tự nhiên của luồng văn bản và còn cải thiện được độ chính xác và và thời gian xử lý gom cụm so
với các mô hình dựa trên đánh giá độc lập từ trước đó khi so sánh hiệu quả của
GOW-Stream với các thuật toán hiện đại gần đây, như: DTM, Sumblr và Mstream.
Điểm mạnh của GOW-Stream là có hiệu suất tốt hơn các thuật toán hiện đại được
công bố gần đây như: DTM, Sumblr và Mstream. GOW-Stream, có thời gian xử lý gom
cụm tốt, tuy nhiên phải tốn thời gian hơn cho quá trình đồ thị hóa văn bản và tìm đồ thị
con phổ biến. Hướng phát triển được đề nghị là: xem xét tối ưu hóa mô hình như biểu
diễn văn bản bằng các dạng đồ thị phức tạp hơn, áp dụng một số cách biểu diễn đặc
trưng mới như xem xét thêm ngữ nghĩa về thời gian, lấy kết quả từ nghiên cứu phát hiện
cụm từ xu thế vào cải tiến biểu diễn đặc trưng văn bản; Xem xét các phương pháp khác
để biểu diễn mối quan hệ của từ trong văn bản; Xem xét mở rộng việc triển khai mô
hình GOW-Stream trên môi trường xử lý phân tán chủ yếu được thiết kế để xử lý luồng
dữ liệu dạng văn bản quy mô lớn và tốc độ cao, chẳng hạn như Apache Spark Streaming.
Ngoài ra, mô hình đề xuất có thể được sử dụng để cải thiện hiệu suất của các ứng dụng khai thác văn bản khác, chẳng hạn như phân định từ ngữ (word sense disambiguation)
[84], khai thác bình luận [101] và các nhiệm vụ theo chuỗi thời gian [34]. Hơn thế nữa,
nhiều nghiên cứu gần đây cũng áp dụng hiệu quả học sâu (deep learning) vào cải thiện
kết quả gom cụm như [6, 19, 38, 40, 71, 86, 90, 96], [21, 24, 30, 31, 37, 41, 61, 62, 72, 77, 79, 80, 88, 89, 93, 94]. Thiết nghĩ đây cũng là một hướng phát triển cho luận án.
Bài toán thứ 2 đề xuất hệ thống TKES với đóng góp chính là đề xuất thuật toán
phát hiện các sự nổi bật của từ khóa dựa trên thuật toán Kleinberg, một thuật toán đã được chứng minh tính hiệu quả và đã được tin tưởng ứng dụng vào nhiều lĩnh vực. Cụ thể nghiên cứu đã đề xuất thuật toán phát hiện sự nổi bật, các cụm từ xu thế, các sự nổi bật tiêu biểu. Để xây dựng hệ thống TKES, luận án cũng sử dụng TF-IDF để tìm từ khóa, sử dụng mạng Nơ ron để huấn luyện mô hình tìm tập từ khóa tương đồng, sử dụng mô hình Skip-gram, các độ đo so sánh độ tương đồng như Cosine, Euclidean,
Manhattan, Minkowski, Jaccard, các kỹ thuật tiền xử lý dữ liệu văn bản tiếng Việt. Các
107
kết quả thực nghiệm của nghiên cứu bao gồm: tính toán thời gian xử lý, so sánh thời
gian xử lý giữa các giải pháp và giữa các tập dữ liệu khác nhau; Thu thập các tập dữ liệu
nguồn và kết xuất kết quả thành các tập dữ liệu phục vụ cho các nghiên cứu liên quan.
Hướng phát triển được đề xuất như sau: Nghiên cứu, cấu trúc lại các tập dữ liệu theo
dạng chuẩn chung để công bố; Hoàn thiện đáp ứng yêu cầu người dùng vào nhiều nền tảng khác nhau như Smart phone, Web …để có thể đáp ứng triển khai thực tiễn; Sử dụng
kết quả nghiên cứu phát hiện cụm từ xu thế để nâng cao hiệu quả của mô hình GOW-
Stream trong việc nắm bắt thêm xu hướng của các từ trong văn bản đến từ luồng khi
thực hiện gom cụm.
5.2 Ý nghĩa học thuật và thực tiễn của luận án
Về học thuật, luận án đã đề xuất được mô hình mới. Mô hình GOW-Stream thể
hiện được tính ưu việt khi so sánh với các thuật toán hiện đại gần đây. Hệ thống TKES
cũng có đóng góp mới là đề xuất thuật toán phát hiện các cụm từ xu thế và có tiềm năng
ứng dụng vào việc tối ưu hóa mô hình GOW-Stream đã đề xuất. Các công trình nghiên
cứu trong luận án gồm 04 bài báo hội nghị quốc tế (Springer/ACM) và 02 bài báo tạp
chí quốc tế (01 bài thuộc Scopus-Q3 và 01 bài thuộc SCIE-Q3).
Về thực tiễn, các mô hình, thuật toán đề xuất đều có thể ứng dụng trong nhiều lĩnh
vực, hệ thống được xây dựng có ý nghĩa thực tiễn cao, phục vụ nhu cầu khai phá thông
tin của đông đảo người dùng trong thời đại cách mạng công nghiệp 4.0 như hiện nay.
DANH MỤC CÁC BÀI BÁO ĐÃ CÔNG BỐ
Bốn bài báo hội nghị đã công bố:
[CT1] Hong, T. V. T., & Do, P. (2018, February). Developing a graph-based system for storing, exploiting and visualizing text stream. In Proceedings of the
2nd International Conference on Machine Learning and Soft Computing (pp. 82-
86). (https://dl.acm.org/doi/abs/10.1145/3184066.3184084).
[CT2] Hong, T.V.T. and Do, P., 2018, October. SAR: A Graph-Based System with Text Stream Burst Detection and Visualization. In International Conference
on Intelligent Computing & Optimization (pp. 35-45). Springer, Cham.
(https://link.springer.com/chapter/10.1007/978-3-030-00979-3_4)
[CT3] Hong, T.V.T. and Do, P., 2019, October. A Novel System for Related Keyword Extraction over a Text Stream of Articles. In International Conference
on Intelligent Computing & Optimization (pp. 409-419). Springer, Cham.
(https://link.springer.com/chapter/10.1007/978-3-030-33585-4_41)
[CT4] Hong, T.V.T. and Do, P., 2019, October. Comparing Two Models of Document Similarity Search over a Text Stream of Articles from Online News
Sites. In International Conference on Intelligent Computing & Optimization (pp.
379-388). Springer, Cham. (https://link.springer.com/chapter/10.1007/978-3-
030-33585-4_38)
Hai bài báo tạp chí (chỉ mục Scopus/SCIE) đã được chấp nhận đăng:
[CT5] Hong, Tham Vo Thi, and Phuc Do. “TKES: A Novel System for Extracting Trendy Keywords from Online News Sites”. In: Journal of the
Operations Research Society of China (ISSN: 2194-6698) (Scopus indexed) Q3, (https://www.springer.com/journal/40305) (Scopus
http://link.springer.com/article/10.1007/s40305-020-00327-4).
[CT6] Hong, Tham Vo Thi, and Phuc Do. “GOW-Stream: a novel approach of graph-of-words based mixture model for semantic-enhanced text stream 1571-4128). Data clustering”. Analysis (ISSN: Intelligent In:
(https://www.iospress.nl/journal/intelligent-data-analysis) (SCIE Q3, accepted for publication – 2020, September).
TÀI LIỆU THAM KHẢO
1.
Agarwal Neha, Sikka Geeta, and Awasthi Lalit Kumar, Evaluation of web service clustering using Dirichlet Multinomial Mixture model based approach for Dimensionality Reduction in service representation. Information Processing & Management, 2020. 57(4): p. 102238.
2.
Aggarwal Charu C, A Survey of Stream Clustering Algorithms, in Data Clustering: Algorithms and Applications, C.K.R. Charu C. Aggarwal, Editor. 2013, CRC Press. p. 229-253.
3. Aggarwal Charu C, et al. A framework for clustering evolving data streams. in Proceedings 2003 VLDB conference. 2003. Elsevier.
4.
Ahmed Amr and Xing Eric. Dynamic non-parametric mixture models and the recurrent chinese restaurant process: with applications to evolutionary clustering. in Proceedings of the 2008 SIAM International Conference on Data Mining. 2008. SIAM.
5. Aldous David J, Exchangeability and related topics, in École d'Été de Probabilités de Saint-Flour XIII—1983. 1985, Springer. p. 1-198.
6. Aljalbout Elie, et al., Clustering with deep learning: Taxonomy and new methods. arXiv preprint arXiv:1801.07648, 2018.
7.
Alrehamy Hassan and Walker Coral, Exploiting extensible background knowledge for clustering-based automatic keyphrase extraction. Soft Computing, 2018. 22(21): p. 7041-7057.
8.
Alzaidy Rabah, Caragea Cornelia, and Giles C Lee. Bi-LSTM-CRF sequence labeling for keyphrase extraction from scholarly documents. in The world wide web conference. 2019.
9.
Amoualian Hesam, et al. Streaming-lda: A copula-based approach to modeling topic dependencies in document streams. in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.
10. Antonellis Panagiotis, et al., Efficient Algorithms for Clustering Data and Text Streams, in Encyclopedia of Information Science and Technology, Third Edition. 2015, IGI Global. p. 1767-1776.
11. Bakkum Douglas J, et al., Parameters for burst detection. Frontiers in computational neuroscience, 2014. 7: p. 193.
12. Beliga Slobodan, Meštrović Ana, and Martinčić-Ipšić Sanda, Selectivity-based keyword extraction method. International Journal on Semantic Web and Information Systems (IJSWIS), 2016. 12(3): p. 1-26.
13. Bicalho Paulo, et al., A general framework to expand short text for topic modeling. Information Sciences, 2017. 393: p. 66-81.
14. Blei David M and Lafferty John D. Dynamic topic models. in Proceedings of the
23rd international conference on Machine learning. 2006.
15. Blei David M, Ng Andrew Y, and Jordan Michael I, Latent Dirichlet Allocation. Journal of machine Learning research, 2003. 3(Jan): p. 993-1022.
16. Cai Yanli and Sun Jian-Tao, Text Mining, in Encyclopedia of Database Systems, L. Liu and M.T. ÖZsu, Editors. 2009, Springer US: Boston, MA. p. 3061-3065.
17. Cami Bagher Rahimpour, Hassanpour Hamid, and Mashayekhi Hoda, User preferences modeling using dirichlet process mixture model for a content-based recommender system. Knowledge-Based Systems, 2019. 163: p. 644-655.
18. Cao Feng, et al. Density-based clustering over an evolving data stream with noise. in Proceedings of the 2006 SIAM international conference on data mining. 2006. SIAM.
19. Chen Gang, Deep learning with nonparametric clustering. arXiv preprint arXiv:1501.03084, 2015.
20. Chen Junyang, Gong Zhiguo, and Liu Weiwen, A Dirichlet process biterm-based mixture model for short text stream clustering. Applied Intelligence, 2020: p. 1- 11.
21. Curiskis Stephan A, et al., An evaluation of document clustering and topic modelling in two online social networks: Twitter and Reddit. Information Processing & Management, 2020. 57(2): p. 102034.
22. Darling William M. A theoretical and practical implementation tutorial on topic modeling and gibbs sampling. in Proceedings of the 49th annual meeting of the association for computational linguistics: Human language technologies. 2011.
23. Du Nan, et al. Dirichlet-hawkes processes with applications to clustering continuous-time document streams. in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2015.
24. Duan Tiehang, et al. Sequential embedding induced text clustering, a non- parametric bayesian approach. in Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2019. Springer.
25.
Erkan Günes and Radev Dragomir R, Lexrank: Graph-based lexical centrality as salience in text summarization. Journal of Artificial Intelligence Research, 2004. 22: p. 457-479.
26. Ferguson Thomas S, A Bayesian analysis of some nonparametric problems. The annals of statistics, 1973: p. 209-230.
27.
Finegan-Dollak Catherine, et al. Effects of creativity and cluster tightness on short text clustering performance. in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016.
28.
Fisher David, et al., Evaluating ranking diversity and summarization in microblogs using hashtags. University of Massachusetts, Boston, MA, Technical Report, 2015.
29.
Fung Gabriel Pui Cheong, et al. Parameter free bursty events detection in text streams. in Proceedings of the 31st international conference on Very large data bases. 2005. VLDB Endowment.
30. Guo Xifeng, et al. Improved deep embedded clustering with local structure preservation. in IJCAI. 2017.
31. Guo Xifeng, et al. Deep clustering with convolutional autoencoders. in International conference on neural information processing. 2017. Springer.
32. Heydari Atefeh, et al., Detection of review spam: A survey. Expert Systems with Applications, 2015. 42(7): p. 3634-3642.
33. Hosseinimotlagh Seyedmehdi and Papalexakis Evangelos E. Unsupervised content-based identification of fake news articles with tensor decomposition ensembles. in Proceedings of the Workshop on Misinformation and Misbehavior Mining on the Web (MIS2). 2018.
34. Hu Jun and Zheng Wendong. Transformation-gated LSTM: Efficient capture of short-term mutation dependencies for multivariate time series prediction tasks. in 2019 International Joint Conference on Neural Networks (IJCNN). 2019. IEEE.
35. Hu Xia and Liu Huan, Text analytics in social media. Mining text data, 2012: p. 385-414.
36. Hu Xuegang, Wang Haiyan, and Li Peipei, Online Biterm Topic Model based short text stream classification using short text expansion and concept drifting detection. Pattern Recognition Letters, 2018. 116: p. 187-194.
37. Jiang Zhuxi, et al., Variational deep embedding: An unsupervised and generative approach to clustering. arXiv preprint arXiv:1611.05148, 2016.
38.
Jindal Vasu. A personalized Markov clustering and deep learning approach for Arabic text categorization. in Proceedings of the ACL 2016 Student Research Workshop. 2016.
39. Kalogeratos Argyris, Zagorisios Panagiotis, and Likas Aristidis. Improving text stream clustering using term burstiness and co-burstiness. in Proceedings of the 9th Hellenic Conference on Artificial Intelligence. 2016.
40. Kampffmeyer Michael, et al., Deep divergence-based approach to clustering. Neural Networks, 2019. 113: p. 91-101.
41. Kim Jaeyoung, et al., Patent document clustering with deep embeddings. Scientometrics, 2020: p. 1-15.
42. Kleinberg Jon, Bursty and hierarchical structure in streams. Data Mining and Knowledge Discovery, 2003. 7(4): p. 373-397.
43. Lahiri Shibamouli, Mihalcea Rada, and Lai P-H, Keyword extraction from emails. Natural Language Engineering, 2017. 23(2): p. 295-317.
44.
Le Hong Phuong Nguyen Thi Minh, Huyen Azim Roussanaly, and Vinh Hô Tuong, A hybrid approach to word segmentation of Vietnamese texts. Language and Automata Theory and Applications, 2008: p. 240.
45.
Li Chenliang, et al., Enhancing topic modeling for short texts with auxiliary word embeddings. ACM Transactions on Information Systems (TOIS), 2017. 36(2): p. 1-30.
46.
Li Chenliang, et al. Topic modeling for short texts with auxiliary word embeddings. in Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. 2016.
47. Li Hua, Text Clustering, in Encyclopedia of Database Systems, L. Liu and M.T. ÖZsu, Editors. 2009, Springer US: Boston, MA. p. 3044-3046.
48.
Li Shan-Qing, Du Sheng-Mei, and Xing Xiao-Zhao. A keyword extraction method for chinese scientific abstracts. in Proceedings of the 2017 International Conference on Wireless Communications, Networking and Applications. 2017.
49. Liang Shangsong and de Rijke Maarten, Burst-aware data fusion for microblog search. Information Processing & Management, 2015. 51(2): p. 89-113.
50.
Liang Shangsong, Yilmaz Emine, and Kanoulas Evangelos. Dynamic clustering of streaming short documents. in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.
51.
Lynn Htet Myet, et al., Swiftrank: an unsupervised statistical approach of keyword and salient sentence extraction for individual documents. Procedia computer science, 2017. 113: p. 472-477.
52. Mai Khai, et al. Enabling hierarchical Dirichlet processes to work better for short texts at large scale. in Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2016. Springer.
53. Margara Alessandro and Rabl Tilmann, Definition of Data Streams, in Encyclopedia of Big Data Technologies, S. Sakr and A.Y. Zomaya, Editors. 2019, Springer International Publishing: Cham. p. 648-652.
54. Martínez-Fernández José Luis, et al. Automatic keyword extraction for news finder. in International Workshop on Adaptive Multimedia Retrieval. 2003. Springer.
55. Musselman Andrew, Apache Mahout, in Encyclopedia of Big Data Technologies, S. Sakr and A.Y. Zomaya, Editors. 2019, Springer International Publishing: Cham. p. 66-70.
56. Neal Radford M, Markov chain sampling methods for Dirichlet process mixture models. Journal of computational and graphical statistics, 2000. 9(2): p. 249-265.
57. Neill Daniel B and Moore Andrew W. Anomalous spatial cluster detection. in Proceedings of the KDD 2005 Workshop on Data Mining Methods for Anomaly Detection. 2005.
58. Neill Daniel B, et al. Detecting significant multidimensional spatial clusters. in Advances in Neural Information Processing Systems. 2005.
59. Nguyen Hai-Long, Woon Yew-Kwong, and Ng Wee-Keong, A survey on data stream clustering and classification. Knowledge and information systems, 2015. 45(3): p. 535-569.
60. Nguyen Tri and Do Phuc. Topic discovery using frequent subgraph mining in International Conference on Computational Science and approach. Technology. 2017. Springer.
61. Park Jinuk, et al., ADC: Advanced document clustering using contextualized representations. Expert Systems with Applications, 2019. 137: p. 157-166.
62. Peters Matthew E, et al., Deep contextualized word representations. arXiv preprint arXiv:1802.05365, 2018.
63.
Pham Phu, Do Phuc, and Ta Chien DC. GOW-LDA: Applying Term Co- occurrence Graph Representation in LDA Topic Models Improvement. in International Conference on Computational Science and Technology. 2017. Springer.
64. Pitman Jim, Combinatorial Stochastic Processes: Ecole d'Eté de Probabilités de Saint-Flour XXXII-2002. 2006: Springer.
65. Qiang Jipeng, et al. Topic modeling over short texts by incorporating word embeddings. in Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2017. Springer.
66. Qiang Jipeng, et al., Short text clustering based on Pitman-Yor process mixture model. Applied Intelligence, 2018. 48(7): p. 1802-1812.
67. Quan Xiaojun, et al. Short and sparse text topic modeling via self-aggregation. in Twenty-fourth international joint conference on artificial intelligence. 2015.
68. Quan Xiaojun, et al., Latent discriminative models for social emotion detection with emotional dependency. ACM Transactions on Information Systems (TOIS), 2015. 34(1): p. 1-19.
69. Romsaiyud Walisa. Detecting emergency events and geo-location awareness from twitter streams. in The International Conference on E-Technologies and Business on the Web (EBW2013). 2013. The Society of Digital Information and Wireless Communication.
70.
Saul Lawrence K, Weiss Yair, and Bottou Léon, Advances in neural information processing systems 17: Proceedings of the 2004 conference. Vol. 17. 2005: MIT press.
71.
Shah Setu and Luo Xiao. Comparison of deep learning based concept representations for biomedical document clustering. in 2018 IEEE EMBS international conference on biomedical & health informatics (BHI). 2018. IEEE.
72. Shaham Uri, et al., Spectralnet: Spectral clustering using deep neural networks. arXiv preprint arXiv:1801.01587, 2018.
73.
Shi Tian, et al. Short-text topic modeling via non-negative matrix factorization enriched with local word-context correlations. in Proceedings of the 2018 World Wide Web Conference. 2018.
74.
Shou Lidan, et al. Sumblr: continuous summarization of evolving tweet streams. in Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval. 2013.
75. Teh Yee Whye, Dirichlet Process. 2010: p. 280-287.
Teh Yee Whye, Dirichlet Process. 2010. 76.
77.
Tian Kai, Zhou Shuigeng, and Guan Jihong. Deepcluster: A general clustering framework based on deep learning. in Joint European Conference on Machine Learning and Knowledge Discovery in Databases. 2017. Springer.
78. Vlachos Michail, et al. Identifying similarities, periodicities and bursts for online search queries. in Proceedings of the 2004 ACM SIGMOD international conference on Management of data. 2004. ACM.
79. Wan Haowen, et al., Research on Chinese Short Text Clustering Ensemble via Convolutional Neural Networks, in Artificial Intelligence in China. 2020, Springer. p. 622-628.
80. Wang Binyu, et al., Text clustering algorithm based on deep representation learning. The Journal of Engineering, 2018. 2018(16): p. 1407-1414.
81. Wang Mengzhi, et al. Data mining meets performance evaluation: Fast algorithms for modeling bursty traffic. in Proceedings 18th International Conference on Data Engineering. 2002. IEEE.
82. Wang Wu, et al. Learning latent topics from the word co-occurrence network. in National Conference of Theoretical Computer Science. 2017. Springer.
83. Wang Xuerui and McCallum Andrew. Topics over time: a non-Markov continuous-time model of topical trends. in Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. 2006.
84. Wang Yinglin, Wang Ming, and Fujita Hamido, Word sense disambiguation: A comprehensive knowledge exploitation framework. Knowledge-Based Systems, 2020. 190: p. 105030.
85. Wang Yu, Agichtein Eugene, and Benzi Michele. TM-LDA: efficient online modeling of latent topic transitions in social media. in Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. 2012.
86. Wang Zhiguo, Mi Haitao, and Ittycheriah Abraham, Semi-supervised clustering for short text via deep representation learning. arXiv preprint arXiv:1602.06797, 2016.
87. Weng Jianshu and Lee Bu-Sung, Event detection in twitter. ICWSM, 2011. 11: p. 401-408.
88. Xie Junyuan, Girshick Ross, and Farhadi Ali. Unsupervised deep embedding for clustering analysis. in International conference on machine learning. 2016.
89. Xu Dongkuan, et al. Deep co-clustering. in Proceedings of the 2019 SIAM International Conference on Data Mining. 2019. SIAM.
90. Xu Jiaming, et al., Self-taught convolutional neural networks for short text clustering. Neural Networks, 2017. 88: p. 22-31.
91. Yamamoto Shuhei, et al., Twitter user tagging method based on burst time series.
International Journal of Web Information Systems, 2016. 12(3): p. 292-311.
92. Yan Xifeng and Han Jiawei. gspan: Graph-based substructure pattern mining. in 2002 IEEE International Conference on Data Mining, 2002. Proceedings. 2002. IEEE.
93. Yang Bo, et al. Towards k-means-friendly spaces: Simultaneous deep learning and clustering. in international conference on machine learning. 2017. PMLR.
94. Yang Min, et al., Cross-domain aspect/sentiment-aware abstractive review summarization by combining topic modeling and deep reinforcement learning. Neural Computing and Applications, 2020. 32(11): p. 6421-6433.
95. Yang Zaihan, et al. Parametric and non-parametric user-aware sentiment topic models. in Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2015.
96. Yi Junkai, et al., A novel text clustering approach using deep-learning vocabulary network. Mathematical Problems in Engineering, 2017. 2017.
97. Yin Jianhua, et al. Model-based clustering of short text streams. in Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.
98. Yin Jianhua and Wang Jianyong. A model-based approach for text clustering with outlier detection. in 2016 IEEE 32nd International Conference on Data Engineering (ICDE). 2016. IEEE.
99. Yin Jianhua and Wang Jianyong. A text clustering algorithm using an online clustering scheme for initialization. in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016.
100. Yoo Shinjae, Huang Hao, and Kasiviswanathan Shiva Prasad. Streaming spectral clustering. in 2016 IEEE 32nd international conference on data engineering (ICDE). 2016. IEEE.
101. Yuan Chunyuan, et al. Learning review representations from user and product level information for spam detection. in 2019 IEEE International Conference on Data Mining (ICDM). 2019. IEEE.
102. Zhang Xin, Fast algorithms for burst detection. 2006, New York University, Graduate School of Arts and Science.
103. Zhang Yun, Hua Weina, and Yuan Shunbo, Mapping the scientific research on open data: A bibliometric review. Learned Publishing, 2018. 31(2): p. 95-106.
104. Zhou Deyu, et al., Unsupervised event exploration from social text streams. Intelligent Data Analysis, 2017. 21(4): p. 849-866.
105. Zhu Longxia, et al., A joint model of extended LDA and IBTM over streaming Chinese short texts. Intelligent Data Analysis, 2019. 23(3): p. 681-699.
106. Zubaroğlu Alaettin and Atalay Volkan, Data stream clustering: a review. Artificial Intelligence Review, 2020.
107. Zuo Yuan, et al. Topic modeling of short texts: A pseudo-document view. in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.
108. Zuo Yuan, Zhao Jichang, and Xu Ke, Word network topic model: a simple but general solution for short and imbalanced texts. Knowledge and Information Systems, 2016. 48(2): p. 379-398.