Luận án Tiến sĩ Khoa học máy tính: Khai phá luồng văn bản với kỹ thuật gom cụm

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC LẠC HỒNG

----------------

VÕ THỊ HỒNG THẮM

KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Đồng Nai, năm 2021

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC LẠC HỒNG

----------------

VÕ THỊ HỒNG THẮM

KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Chuyên ngành: Khoa học máy tính

Mã số: 9480101

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS.TS. ĐỖ PHÚC

Đồng Nai, năm 2021

LỜI CẢM ƠN

Xin chân thành cảm ơn PGS.TS. Đỗ Phúc đã tận tình hướng dẫn nghiên cứu sinh

hoàn thành luận án tiến sĩ.

Xin chân thành cảm ơn quý thầy/cô khoa sau đại học, trường đại học Lạc Hồng đã

tạo điện kiện thuận lợi và hỗ trợ nghiên cứu sinh hoàn thành luận án.

Xin trân trọng cảm ơn trường đại học Thủ Dầu Một đã hỗ trợ nghiên cứu sinh tham

gia học tập tại trường đại học Lạc Hồng.

Xin chân thành cám ơn quý bạn bè, đồng nghiệp đã tạo điều kiện giúp đỡ nghiên

cứu sinh hoàn thành luận án.

Nghiên cứu sinh - Võ Thị Hồng Thắm

LỜI CAM ĐOAN

Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi dưới sự hướng

dẫn của PGS.TS. Đỗ Phúc. Các số liệu và tài liệu trong nghiên cứu là trung thực và chưa

được công bố trong bất kỳ công trình nghiên cứu nào. Tất cả các tham khảo và kế thừa đều được trích dẫn và tham chiếu đầy đủ.

Đồng Nai, ngày … tháng 5 năm 2021

Nghiên cứu sinh

Võ Thị Hồng Thắm

MỤC LỤC

CHƯƠNG 1: GIỚI THIỆU .......................................................................................... 1

1.1 Tổng quan về đề tài luận án ................................................................................... 1

1.1.1 Bài toán nghiên cứu và ý nghĩa ....................................................................... 1

1.1.2 Thách thức của bài toán gom cụm luồng văn bản ........................................... 4

1.1.3 Các vấn đề nghiên cứu .................................................................................... 8

1.1.4 Các bài toán nghiên cứu .................................................................................. 8

1.2 Đóng góp của luận án và các công trình đã được công bố .................................. 10

1.3 Mục tiêu, phạm vi và phương pháp nghiên cứu ................................................... 11

1.3.1 Mục tiêu nghiên cứu ...................................................................................... 11

1.3.2 Phạm vi nghiên cứu ....................................................................................... 12

1.3.3 Phương pháp nghiên cứu ............................................................................... 12

1.4 Cấu trúc của luận án ............................................................................................. 13

1.5 Kết chương ........................................................................................................... 13

CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN .................................................... 14

2.1 So sánh một số cách tiếp cận mới liên quan đến gom cụm luồng văn bản .......... 14

2.1.1 Phương pháp tiếp cận dựa trên mô hình chủ đề truyền thống ...................... 14

2.1.2 Phương pháp tiếp cận dựa trên mô hình hỗn hợp động ................................ 15

2.1.3 Phương pháp tiếp cận dựa trên biểu diễn không gian vectơ ......................... 16

2.1.4 Mô hình hóa chủ đề (Topic modeling).......................................................... 16

2.1.5 Mô hình hỗn hợp dựa trên quy trình Dirichlet (DPMM) .............................. 23

2.1.6 Đồ thị con phổ biến ....................................................................................... 32

2.1.7 Mô hình hóa sự nổi bật trên luồng văn bản của Kleinberg ........................... 35

2.2 Kết chương ........................................................................................................... 40

CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN

ĐỒ THỊ TỪ .................................................................................................................. 41

3.1 Phương pháp ......................................................................................................... 41

3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW) ..................... 41

3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW) ..................................................... 43

3.1.3 Gom cụm luồng văn bản dựa trên mô hình hỗn hợp..................................... 49

3.2 Thực nghiệm và bàn luận ..................................................................................... 62

3.3 Kết chương ........................................................................................................... 74

CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN ....... 75

4.1 Phương pháp ......................................................................................................... 75

4.2 Thực nghiệm và bàn luận ..................................................................................... 88

4.3 Kết chương ......................................................................................................... 103

CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN .......................................... 104

5.1 Các kết quả đạt được, hạn chế và hướng phát triển ........................................... 104

5.2 Ý nghĩa học thuật và thực tiễn của luận án ........................................................ 106

BẢNG THUẬT NGỮ ANH – VIỆT

Tiếng Anh

Viết tắt

Tiếng Việt

Allocation Dirichlet Latent

Phân bổ tiềm ẩn Direntlet

LDA

BOW

Túi từ

Bag of Word

Đối sánh

Benchmark

Cluster validation

Xác nhận cụm

Common sub GOWs

Đồ thị con phổ biến

Concept/topic drift

Dòng trôi khái niệm/chủ đề

Corpus

Kho ngữ liệu

Density-based

Dựa trên mật độ

Quy trình Dirichlet

Dirichlet Process

Dirichlet-Hawkes Topic Model

DHTM

Mô hình chủ đề Dirichlet-Hawkes

Document batch

Lô tài liệu

Dynamic Clustering Topic

DCT

Mô hình chủ đề gom cụm động

Dynamic Topic Model

DTM

Mô hình chủ đề động

Features of meaning

Đặc trưng ngữ nghĩa

Filtering

Lọc

Frequent sub-graph

FSG

Đồ thị con phổ biến

Graph of Word

GOW

Đồ thị từ

Microblogs

Bài viết ngắn dạng blog

Model’s hyper-parameter sensitivity

Độ nhạy của siêu tham số của mô hình (viết ngắn là độ nhạy)

Mstream

MStream

Thuật toán gom cụm luồng dữ liệu dựa trên mô hình hỗn hợp DP

Noise

Yếu tố nhiễu

Outlier

Ngoại lệ

Politeness

Độ sâu

Preprocess

Tiền xử lý

Proximity measure

Đo lường lân cận

Sequence Monte Carlo

SMC

Tuần tự Monte Carlo

Sparse nature

Tính rời rạc tự nhiên

Sparsity of text

Sự rời rạc của văn bản

Stemming and Lemmatization

Trả từ về nguyên mẫu

Stop word

Từ dừng

Streaming LDA

ST-LDA

Streaming LDA

Survey

Khảo sát

Tiếng Anh

Viết tắt

Tiếng Việt

Temporal Dynamic Process Model TDPM

Mô hình hỗn hợp quy trình Dirichlet

theo thời gian

Temporal model-LDA

TM-LDA Mô hình LDA theo thời gian

Temporal Text Mining

TTM

Khai phá văn bản theo thời gian

Term Frequency

Tần số từ

Term Frequency-Invert Document

TF-IDF

Tần số từ -Tần số tài liệu nghịch đảo

Frequency

Text corpus

Tập văn bản

Text similarity

Sự tương tự văn bản

Text to Graph

Text2graph Đồ thị hóa văn bản

Trendy Keyword Extraction System TKES

Hệ thống rút trích từ khóa tiêu biểu

Tokenization

Tách từ

Topic tracking model

TTM

mô hình theo dõi chủ đề

Vector Space model

VSM

Mô hình không gian vectơ

Visualize

Hiển thị trực quan

Word relatedness

Sự liên quan từ

Word segmentation

Tách từ

Word similarity

Sự tương tự từ

Word vector

Véc tơ từ

DANH MỤC BẢNG

Bảng 1.1: Phân tích các điểm mạnh và tồn tại của các mô hình ..................................... 7

Bảng 3.1: Biểu diễn văn bản với BOW truyền thống .................................................... 42

Bảng 3.2: Biểu diễn văn bản với BOW và TF-IDF ....................................................... 42

Bảng 3.3: Biểu diễn văn bản với GOW ......................................................................... 48

Bảng 3.4: Biểu diễn văn bản kết hợp BOW và GOW ................................................... 49

Bảng 3.5: Biểu diễn véc tơ chủ đề trong mô hình GOW-Stream .................................. 62

Bảng 3.6: Chi tiết về bộ dữ liệu thử nghiệm ................................................................. 64

Bảng 3.7: Chi tiết về cấu hình cho các mô hình gom cụm luồng văn bản .................... 66

Bảng 3.8: Kết quả đầu ra trung bình của tác vụ gom cụm văn bản với các mô hình khác

nhau với độ đo NMI ...................................................................................................... 67

Bảng 3.9: Kết quả đầu ra thử nghiệm của tác vụ gom cụm văn bản với các mô hình khác

nhau với độ đo F1 .......................................................................................................... 67

Bảng 4.1: Các thuộc tính của nút và mối quan hệ ......................................................... 80

Bảng 4.2: Một ví dụ về tính toán chỉ số xếp hạng của từ .............................................. 82

Bảng 4.3: Một ví dụ về tính tổng trọng số của từ khóa trong chuyên mục ................... 83

Bảng 4.4: Thí dụ về cấu trúc lưu trữ Burst .................................................................... 87

Bảng 4.5: Các Burst của từ khóa “Facebook” ............................................................... 89

Bảng 4.6: Xác định danh sách từ xu thế chung với từ khóa “Facebook” ...................... 90

Bảng 4.7: Thử nghiệm thời gian thực thi trên bộ thu thập thông tin ............................. 91

Bảng 4.8: Kiểm tra thời gian thực thi của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị .. 91

Bảng 4.9: Kiểm tra thời gian chạy của bộ xử lý ............................................................ 91

Bảng 4.10: Thời gian xử lý số lượng bài viết khác nhau với độ dài khác nhau ........... 92

Bảng 4.11: Tỷ lệ giống nhau của dữ liệu sinh ra từ 2 thuật toán TF-IDF viết bằng ngôn ngữ lập trình khác nhau ................................................................................................. 93

Bảng 4.12: Tần số của từ khóa ...................................................................................... 94

Bảng 4.13: Một số tham số với word2Vec .................................................................... 95

Bảng 4.14: Các từ liên quan đến từ khóa “Ứng dụng” .................................................. 96

Bảng 4.15: So sánh mức độ tương đồng khi sử dụng các thước đo khoảng cách tương

đồng khác nhau .............................................................................................................. 96

Bảng 4.16: Thời gian huấn luyện các mô hình .............................................................. 97

Bảng 4.17: Thời gian xử lý để tìm 10 từ liên quan ....................................................... 98

Bảng 4.18: Kiểm tra thời gian xử lý phát hiện Burst của các bài báo trong 19 ngày . 100

DANH MỤC HÌNH

Hình 1.1: Mối liên hệ giữa các bài toán và các công trình đã công bố đối với từng bài

toán ................................................................................................................................ 11

Hình 2.1: Mô hình sinh LDA ........................................................................................ 18

Hình 2.2: Mô hình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet .................. 26

Hình 2.3: Mô hình sinh của mô hình hỗn hợp hữu hạn ................................................. 27

Hình 2.4: Tỉ lệ của các sự kiện mục tiêu ....................................................................... 39

Hình 3.1: Hình ảnh minh họa cấu trúc đồ thị hóa văn bản (text2graph) với đồ thị vô hướng ............................................................................................................................. 43

Hình 3.2: Biểu diễn đồ thị từ của tập tài liệu 𝐷 ............................................................. 47

Hình 3.3: Tập đồ thị con phổ biến chung của tập tài liệu 𝐷 .......................................... 48

Hình 3.4: Mô hình sinh của mô hình GOW-Stream ...................................................... 52

Hình 3.5: Mô hình sinh của MStream & GOW-Stream ................................................ 53

Hình 3.6: Lưu đồ thuật toán GOW-Stream ................................................................... 59

Hình 3.7: Kết quả thử nghiệm đối với số lượng lô tài liệu khác nhau với độ đo NMI . 68

Hình 3.8: Kết quả thử nghiệm trên số lượng lô tài liệu khác nhau với độ đo F1 .......... 68

Hình 3.9: So sánh với k-means sử dụng độ đo NMI ..................................................... 69

Hình 3.10: So sánh với k-means sử dụng độ đo F1 ....................................................... 69

Hình 3.11: Khả năng nâng cao hiệu suất của các kỹ thuật gom cụm luồng văn bản khác

nhau ............................................................................................................................... 70

Hình 3.12: Tốc độ xử lý của GOW-Stream so với MStream khi tính luôn chi phí tìm đồ thị con phổ biến ............................................................................................................. 71

Hình 3.13: Đánh giá ảnh hưởng của số lần lặp đến tính chính xác của kết quả của mô hình GOW-Stream ......................................................................................................... 72

Hình 3.14: Kết quả thực nghiệm về ảnh hưởng của siêu tham số α .............................. 73

Hình 3.15: Kết quả thực nghiệm về ảnh hưởng của siêu tham số β .............................. 73

Hình 4.1: Hệ thống được đề xuất phục vụ tìm cụm từ xu thế ....................................... 76

Hình 4.2: Kiến trúc hệ thống TKES .............................................................................. 77

Hình 4.3: Trình tự xử lý của hệ thống TKES ................................................................ 78

Hình 4.4: Luồng văn bản đến liên tục theo thời gian .................................................... 79

Hình 4.5: Cấu trúc lưu trữ dạng cây .............................................................................. 79

Hình 4.6: Cấu trúc lưu trữ chung và ví dụ ..................................................................... 80

Hình 4.7: Ví dụ về các bước xử lý rút trích từ khóa ...................................................... 81

Hình 4.8: Cấu trúc lưu trữ dùng để phát hiện sự nổi bật ............................................... 86

Hình 4.9: Phát hiện sự nổi bật đối với từ khóa “Facebook” .......................................... 89

Hình 4.10: Ảnh hưởng của chiều dài bài viết và số lượng bài viết đối với thời gian chạy

của bộ xử lý ................................................................................................................... 92

Hình 4.11: So sánh chi phí giữa huấn luyện mới và huấn luyện cập nhật .................... 97

Hình 4.12: Thời gian xử lý tìm 10 từ khóa liên quan .................................................... 98

Hình 4.13: Thời gian xử lý phát hiện sự nổi bật .......................................................... 101

Hình 4.14: Cấu trúc lưu trữ dữ liệu chưa qua xử lý .................................................... 101

Hình 4.15: Cấu trúc lưu trữ dữ liệu đã qua xử lý ....................................................... 102

Hình 4.16: Cấu trúc lưu trữ danh sách các từ khóa hàng đầu của bài viết .................. 102

Hình 4.17: Cấu trúc lưu trữ danh sách các từ khóa hàng đầu của chuyên mục .......... 103

DANH MỤC THUẬT TOÁN

Thuật toán 2.1: Thuật toán Gibbs Sampling .................................................................. 22

Thuật toán 2.2: Mô hình hỗn hợp Dirichlet hữu hạn ..................................................... 29

Thuật toán 2.3: Mô hình hỗn hợp Dirichlet vô hạn ....................................................... 31

Thuật toán 2.4: Thuật toán gSpanAlgorithm ................................................................. 33

Thuật toán 2.5: Thuật toán con Subgraph_Mining của gSpanAlgorithm ..................... 34

Thuật toán 3.1: Rút trích các đồ thị con phổ biến từ tập tài liệu đã cho (D) ................. 45

Thuật toán 3.2: Thuật toán GOW-Stream ..................................................................... 60

Thuật toán 4.1: Thuật toán tổng quát............................................................................. 83

Thuật toán 4.2: Thuật toán thu thập dữ liệu .................................................................. 84

Thuật toán 4.3: Tính tần số từ........................................................................................ 85

MỘT SỐ ĐỊNH NGHĨA

Luồng dữ liệu [53]: là một chuỗi các phần tử vô hạn đếm được. Cấu trúc của các

phần tử luồng trong các mô hình luồng khác nhau sẽ khác nhau. Xử lý luồng là phân tích các luồng dữ liệu đầu vào một cách nhanh chóng để đưa ra kết quả. Khi xử lý luồng,

thời gian là khái niệm trung tâm và mỗi phần tử luồng được liên kết với một hoặc nhiều

nhãn thời gian được chỉ định ví dụ như khi phần tử được tạo, hoặc khi phần tử sẵn sàng

để xử lý...

Luồng văn bản[10]: là chuỗi các văn bản được sắp xếp theo thứ tự đến nhanh

chóng và liên tục theo thời gian trong hai dạng chính: tin tức và truyền thông xã hội.

Khai phá văn bản[16]: là khai phá dữ liệu từ các bộ sưu tập dữ liệu văn bản với

mục đích là khám phá kiến thức (hoặc thông tin, mẫu) từ dữ liệu văn bản không có cấu trúc hoặc bán cấu trúc.

Gom cụm văn bản [47]: là tự động nhóm các tài liệu dạng văn bản (ví dụ: tài liệu

ở dạng văn bản thuần túy, trang web, email, ...) thành các cụm (thường gọi là chủ đề)

dựa trên sự giống nhau (tương đồng) về nội dung của chúng.

Văn bản ngắn (short text): là các đoạn bình luận, trao đổi, nhận xét ngắn trên

mạng xã hội với số lượng từ giới hạn (thường có vài từ, vài câu, chiều dài trung bình

của văn bản trong các tập dữ liệu ngắn tiêu chuẩn thường khoảng 8 từ) khác với các tài

liệu dài như các bài báo, văn bản, tin tức gồm nhiều đoạn văn.

Sai lệch chủ đề (topic drift): là sự biến đổi các chủ đề kết quả gom cụm khi văn

bản đến liên tục theo thời gian, chủ đề mới có thể xuất hiện, chủ đề cũ có thể biến mất.

Đồ thị con phổ biến (Frequent subgraph/common sub GOW): là đồ thị con có

tần số xuất hiện trong các đồ thị biểu diễn văn bản nhiều hơn một ngưỡng cho trước

(min support).

Khai phá đồ thị con phổ biến: là kỹ thuật dùng để rút trích ra tập hợp các đồ thị

con phổ biến của tập văn bản 𝐷 đã cho và dựa trên tập hợp này để biễu diễn đặc trưng

phân biệt cho các văn bản 𝑑 của tập văn bản.

Quan hệ đồng hiện từ: là mối quan hệ khi các từ cùng xuất hiện với nhau trong văn bản. Trong phạm vi luận án này, mối quan hệ đồng hiện từ là sự xuất hiện cùng nhau của từng cặp từ trong văn bản, giữa 2 từ đứng cạnh nhau trong văn bản được biểu diễn bằng một cung nối (vô hướng) của đồ thị giữa 2 đỉnh là 2 từ.

Sự nổi bật (burst): là khoảng thời gian liên tục mà từ khóa xuất hiện một cách dồn

dập, khác thường trên luồng văn bản.

Phát hiện sự nổi bật (burst detection): là quá trình phát hiện ra sự nổi bật.

Cụm từ xu thế (tiêu biểu) (trendy keywords): là một tập các từ hàng đầu/tiêu

biểu xuất hiện nổi bật trong một sự nổi bật.

Các sự nổi bật xu thế (tiêu biểu) (trendy bursts) là tập các sự nổi bật của từ khóa

nào đó với trọng số sự nổi bật (burst weight) cao. Trọng số của sự nổi bật (burst weight) được tính dựa vào tổng trọng số của từ khóa (keyword weight). Trọng số của từ khóa

(keyword weight) được tính dựa vào tổng tần số của từ khóa xuất hiện trong cùng một

sự nổi bật.

TÓM TẮT

Gần đây, với xu thế dữ liệu gia tăng, tốc độ cao, kích thước lớn và luôn biến đổi

liên tục cần được xử lý theo thời gian thực, nhiều nghiên cứu liên quan đến luồng dữ

liệu đã ra đời. Khai phá luồng dữ liệu là hướng nghiên cứu thu hút được nhiều sự quan

tâm và Gom cụm là một kỹ thuật quan trọng.

Là một dạng thức của luồng dữ liệu, luồng văn bản là chuỗi các văn bản được sắp

xếp theo thứ tự đến nhanh chóng và liên tục theo thời gian trong hai dạng chính: Tin tức

và truyền thông xã hội. Gom cụm luồng văn bản là một vấn đề quan trọng trong cộng đồng nghiên cứu khai phá dữ liệu văn bản có nhiều ứng dụng như phân nhóm văn bản,

sắp xếp tài liệu, phát hiện và theo dõi chủ đề … Gom cụm văn bản là một quá trình phân

vùng/nhóm một tập hợp các tài liệu chưa được gắn nhãn vào k chủ đề cụ thể phục vụ

nhiều mục đích như: Trong ứng dụng phát hiện sự kiện xã hội, giúp xác định xu hướng đang được quan tâm hoặc đang được thảo luận thường xuyên về các chủ đề trong các

mạng xã hội phổ biến gần đây; Trong truy xuất văn bản, giúp nhóm các kết quả tìm kiếm

có liên quan để giúp người dùng dễ dàng rút trích thông tin cần thiết. Trong kỷ nguyên

BigData, với sự gia tăng mạnh mẽ của các mạng xã hội trực tuyến, số lượng lớn nội

dung do người dùng tạo ra thường ở dạng tài liệu văn bản ngắn như: bình luận của người

dùng, tweet, bài đăng, … trên Twitter hoặc Facebook, … chứa đựng nhiều thông tin có

giá trị đại diện cho các sự kiện thực tế nóng bỏng. Văn bản ngắn là các đoạn bình luận,

trao đổi, nhận xét ngắn trên mạng xã hội với số lượng từ giới hạn (thường có vài từ, vài

câu) so với các tài liệu dài như các bài báo, văn bản, tin tức gồm nhiều đoạn văn. Hầu

hết các nghiên cứu về gom cụm văn bản truyền thống chủ yếu tập trung vào các văn bản

tĩnh dài nên không thể áp dụng cho các luồng văn bản có tính chất thay đổi nhanh chóng hay các tài liệu văn bản ngắn. Việc gom cụm tài liệu văn bản ngắn khó khăn hơn do ba

đặc tính chính, bao gồm: Độ dài tài liệu khác nhau (rất ngắn chỉ với vài từ hoặc rất dài);

Độ rời rạc của đặc trưng dữ liệu văn bản và sự thay đổi nhanh các chủ đề hiện có trong

các lô tài liệu văn bản khác nhau (đến tuần tự từ các luồng văn bản). Do đó, không thể

áp dụng các kỹ thuật gom cụm văn bản truyền thống để xử lý các tập văn bản đến với tốc độ cao, rời rạc và có độ dài ngắn này.

Vấn đề về tối ưu hóa khi gom cụm là một vấn đề quan trọng. Mô hình chủ đề là một trong những cách tiếp cận phổ biến nhất để xử lý tác vụ gom cụm luồng văn bản. Các mô hình dựa trên mô hình chủ đề được thiết kế dựa vào giả định rằng các tài liệu văn bản được tạo bởi một mô hình hỗn hợp. Sau đó, bằng cách ước tính các tham số của mô hình thông qua nhiều kỹ thuật, chẳng hạn như Lấy mẫu Gibbs (GS), Tuần tự Monte

Carlo (SMC), …, để rút ra các phân phối chủ đề văn bản trên tập văn bản. Tuy nhiên, các mô hình này chỉ có thể đạt được hiệu suất cao với các tài liệu luồng văn bản dài theo

ngữ cảnh đủ phong phú. Gần đây, các mô hình DCT và MStream/MStreamF được đề

xuất để vượt qua thách thức khi gom cụm luồng văn bản ngắn, tuy nhiên, vẫn gặp phải

hạn chế chủ yếu bỏ qua các mối quan hệ từ bên trong khi suy ra các phân phối chủ đề

từ các tài liệu đã cho.

Có hai hạn chế chính khi gom cụm luồng văn bản từ các công trình đã công bố gần đây là không xử lý tốt tài liệu có độ dài ngắn và thiếu đánh giá mối quan hệ của từ trong

khi suy ra sự phân bố chủ đề trên các tài liệu văn bản. Bên cạnh đó, vấn đề về nắm bắt

thông tin ngữ nghĩa về thời gian xuất hiện của các từ trong văn bản đến theo thời gian

từ đó nắm bắt được xu thế của từ có thể là một thách thức trong gom cụm luồng dữ liệu

văn bản.

Để giải quyết hai thách thức chính nêu trên, luận án đề xuất mô hình GOW-Stream

thực hiện gom cụm trên luồng văn bản ngắn và có xem xét mối quan hệ đồng hiện giữa

các từ trong nội dung văn bản. Từ các thách thức liên quan khác, luận án đề xuất hệ

thống TKES, thuật toán phát hiện cụm từ xu thế trên luồng văn bản. Để hoàn thành

nhiệm vụ phát hiện cụm từ xu thế, hệ thống TKES cũng nghiên cứu các cơ chế rút trích

từ khóa, từ khóa tương đồng, cơ chế tiền xử lý dữ liệu văn bản tiếng Việt. Các kết quả nghiên cứu này dự kiến sử dụng để cải tiến thêm hiệu quả của mô hình GOW-Stream

trong việc nắm bắt thêm xu hướng của các từ trong văn bản đến từ luồng khi thực hiện

gom cụm.

Như vậy các vấn đề nghiên cứu đặt ra trong luận án bao gồm: Vấn đề gom cụm

luồng văn bản ngắn; Vấn đề gom cụm luồng văn bản với chủ đề không cố định; Vấn đề

xét mối liên hệ đồng hiện giữa các từ trong gom cụm luồng văn bản; Vấn đề phát hiện

cụm từ xu thế trong nắm bắt ngữ nghĩa về xu thế của từ trong văn bản đến từ luồng; Vấn

đề biểu diễn đặc trưng văn bản khi gom cụm trên luồng văn bản. Từ đó, luận án đi giải

quyết hai bài toán chính: gom cụm luồng văn bản theo ngữ nghĩa với đồ thị từ và nghiên

cứu phát hiện các cụm từ xu thế trên luồng dữ liệu văn bản.

Bài toán 1 đề xuất một cách tiếp cận áp dụng n-gram vào đồ thị hóa văn bản (text2graph) sử dụng kỹ thuật khai phá đồ thị con phổ biến (FSM) để rút trích các đồ thị con phổ biến từ kho ngữ liệu văn bản đã cho. Sau đó, sự xuất hiện của các đồ thị con phổ biến trong mỗi tài liệu văn bản được sử dụng để hỗ trợ quá trình ước tính phân phối của các chủ đề trên tài liệu. Mô hình đề xuất GOW-Stream là một mô hình dựa trên mô hình hỗn hợp dùng để xử lý hiệu quả tác vụ gom cụm luồng văn bản ngắn bằng cách kết

hợp cả đánh giá từ độc lập (các từ riêng biệt trong mỗi tài liệu) và từ phụ thuộc (các từ cùng xuất hiện trong các đồ thị con phổ biến có xét mối quan hệ đồng hiện) không chỉ giải quyết các thách thức về sự thay đổi chủ đề của luồng văn bản mà còn cải thiện được

độ chính xác so sánh với các mô hình dựa trên đánh giá độc lập từ trước đó và đạt được

tốc độ suy luận chủ đề nhanh hơn sau khi tốn thêm chi phí đồ thị hóa văn bản và tìm đồ

thị con phổ biến. Các thử nghiệm mở rộng trên các bộ dữ liệu tiêu chuẩn của thế giới

thực đã chứng minh được tính hiệu quả của mô hình GOW-Stream được đề xuất đối với

tác vụ gom cụm luồng văn bản ngắn so sánh với các thuật toán hiện đại gần đây, như: DTM, Sumblr và MStream. Bài toán này được giải quyết dựa trên cơ sở lý thuyết bao

gồm: Kỹ thuật đồ thị hóa văn bản, Kỹ thuật tìm đồ thị con phổ biến gSpan, Gom cụm

luồng văn bản dựa trên mô hình hỗn hợp động, quy trình Dirichlet và nguyên lý Poly-

Urn, nguyên lý nhà hàng Trung Hoa (CRP), kỹ thuật stick-breaking, kỹ thuật lấy mẫu

Gibbs. Kết quả thực nghiệm được thực hiện liên quan đến: Độ chính xác; Tốc độ xử lý

khi gom cụm; Tốc độ xử lý toàn cục có tính chi phí đồ thị hóa văn bản và tìm đồ thị con

phổ biến; Ảnh hưởng của số lần lặp; Độ ổn định của mô hình khi thay đổi các tham số

cho thấy mô hình đề xuất đạt được độ chính xác cao hơn các mô hình được so sánh mà

không chịu ảnh hưởng nhiều về tốc độ xử lý, đạt được sự cân bằng về độ chính xác của

kết quả trong phạm vi 7-10 lần lặp, đạt được hiệu suất ổn định về độ chính xác với các

giá trị khác nhau của cả hai siêu tham số từ đó đưa ra kết luận là mô hình GOW-Stream đạt hiệu quả và ổn định trong việc thực hiện tác vụ gom cụm tài liệu trên luồng văn bản

ngắn.

Bài toán thứ 2 đề xuất hệ thống TKES với đóng góp chính là đề xuất thuật toán

phát hiện sự nổi bật của từ khóa dựa trên thuật toán Kleinberg, một thuật toán đã được

chứng minh tính hiệu quả và đã được tin tưởng ứng dụng vào nhiều lĩnh vực. Các thuật

toán được đề xuất cũng bao gồm cả việc phát hiện các cụm từ xu thế và các sự nổi bật

tiêu biểu hàng đầu của từ khóa. Để xây dựng hệ thống TKES, luận án cũng sử dụng các

cơ chế rút trích từ khóa với TF-IDF, tìm từ khóa tương đồng sử dụng mạng Nơ ron để

huấn luyện mô hình tìm tập từ khóa tương đồng, sử dụng mô hình Skip-gram, các độ đo

so sánh độ tương đồng như Cosine, Euclidean, Manhattan, Minkowski, Jaccard, các kỹ

thuật tiền xử lý dữ liệu văn bản tiếng Việt. Các kết quả thực nghiệm của nghiên cứu bao gồm: tính toán thời gian xử lý, so sánh thời gian xử lý giữa các giải pháp và giữa các tập dữ liệu khác nhau; Thu thập các tập dữ liệu nguồn và kết xuất kết quả thành các tập dữ liệu phục vụ cho các nghiên cứu liên quan.

Sử dụng phương pháp nghiên cứu tổng luận và phương pháp nghiên cứu thực

nghiệm và so sánh, luận án công bố được 04 bài báo đăng kỷ yếu hội thảo quốc tế (ACM

và Springer) và 02 bài báo đăng tạp chí (01 bài thuộc danh mục Scopus/Q3 và 01 bài

thuộc danh mục SCIE/Q3). Sau cùng, báo cáo luận án được cấu trúc như sau: tóm tắt,

chương 1 - giới thiệu, chương 2 - tổng quan tình hình nghiên cứu, chương 3&4 - 02 bài toán chính, chương 5 - kết luận và hướng phát triển, các công trình nghiên cứu đã thực

hiện.

Từ khóa: text stream clustering; topic model; graph-of-words; event detection;

burst detection; keyword extraction; Kleinberg; trendy keywords;

ABSTRACT

Coming continuously with high speed, large size, and changing rapidly, there is a need for data to be processed in real-time and many studies related to data stream have

been carried out. Data stream mining is a research direction that has been attracting lots

of attention and data stream clustering is an important technique.

In form of a data stream, a text stream is a set of ordered texts that comes rapidly

and continuously over time in two main forms: News and social media. Text stream

clustering is an important issue in the text mining research community. This research

direction has a wide variety of applications such as text stream clustering, document

stream arrangement, topic detection, and tracking topic evolution. … Text clustering is

the process of partitioning/grouping a collection of documents that have not been labeled

into k specific categories/clusters/topics, serving many purposes such as: In a social

event detection application, helping identify trends being of interest or being discussed

regularly on topics in popular social networks; In text retrieval, helping to group relevant

search results to help users easily extract necessary information. During the BigData era,

with the proliferation of online social networks, the vast amount of content generated by

users is often in the form of short text documents such as user comments, tweets, posts,

etc on Twitter or Facebook, etc contain numerous valuable information representing

reallife hot events. Most studies on traditional text clustering mainly focus on long static

documents, so they cannot be applied to text streams that change rapidly or short length

texts. Short length text clustering is more difficult due to three main issues, including

different length (very short with only a few words or very long); the discrete of text

feature, and the rapid change/evaluation of existing clusters/topics in different batches of text documents (coming sequentially from text streams). Therefore, it is not possible

to apply traditional text clustering techniques to process these short, discrete, and high-

speed incoming text sets.

Optimization in clustering is an important issue. Topic modeling is one of the most common approaches to text stream clustering. Topic model-based models are designed on the assumption that the text document is generated by a mixed model. Then, by estimating model parameters through a variety of techniques, such as Gibbs Sampling (GS), Monte Carlo Sequence (SMC), etc, to infer subject/cluster distributions over text

collections. However, these models can only achieve high performance with long length

text streams which are rich enough contextual. Recently, DCT and MStream/MStreamF models have been proposed to overcome the challenge of clustering short-length text

streams, however, they still encounter the limitation of mainly ignoring inside

relationships when inferring topics/clusters distributions for a given document.

There are two main limitations of recently published works when clustering text

streams, such as being unable to handle short texts and lack of word relationship

consideration, capturing semantic relations of words, while inferring topics distribution

on texts. In addition, the problem of ignoring timing features of word occurrences in the

text over time in order to capture the meaning of word trends can be a challenge in text stream clustering.

To solve the two main challenges mentioned above, this thesis proposes the GOW-

Stream model which can handle clustering over short-length text streams and

considering the relationships between words based on their co-occurences within text

contents. To tackle other related challenges, the thesis also proposes the TKES system

with an algorithm to detect bursty words on text streams. In order to complete the task

of detecting bursty words, the TKES system applies methods of extracting keywords,

finding related words of keywords, and preprocessing methods for Vietnamese texts.

The results from the TKES are expected to be used to improve the efficiency of the

GOW-Stream model by capturing the trends of words in texts coming from the stream

when performing clustering tasks.

Thus, the research issues of the thesis are as follows: The problem of clustering

short length text streams; The problem of clustering text stream with non-fixed topics;

The problem of considering the co-occurence relationships between words in text stream

clustering; The problem of detecting bursty words to capture semantics about the trend

of words in texts coming from text streams; The problem of text representation when

clustering text streams. In general, the thesis tackles two main issues: clustering

semantic text stream using graphs of words and detecting bursty words on text stream.

To solve the first issue, the thesis proposes an approach to apply n-gram to

text2graphs using frequent subgraph mining (FSM) technique to extract common sub

GOWs from the given text corpus. Then, the occurrences of the common sub GOWs in

each document are used to support the process of estimating the distribution of topics assigned to the document. The proposed model GOW-Stream is a mixed model-based model used to efficiently handle the task of clustering over short length text streams by combining both independent word evaluations (separate words in each document ) and dependent words evaluations (words that appear together in common sub GOWs based on their co-occurrences in texts). The model not only solves the challenges of the topic

changes of the short length text streams but also improves accuracy compared to models

based on word independent evaluation as well as a little bit improve the speed of clustering process while costing more for text2graph and frequent subgraph detecting

activities. Extensive experiments on standard real-world datasets have demonstrated the

effectiveness of the proposed GOW-Stream model for short text stream clustering

compared with recent modern algorithms, like DTM, Sumblr, and MStream. This

problem is solved based on the basis of theories including texts to graphs technique,

GSpan frequent subgraph mining technique, clustering text stream based on dynamic

mixed model, Dirichlet process, Poly-Urn principles, Chinese restaurant process (CRP), stick-breaking techniques, and Gibbs sampling techniques. Experiments are performed

related to the accuracy, processing speed of the clustering process, processing speed of

the general process (including the text2graph and frequent subgraph detecting

activities), the effect of iterations, model stability when changing parameters shows that

the proposed model achieves higher accuracy than the compared models without much

influence on slowing down the processing speed, achieving a balance of accuracy of

results within 7-10 iterations, achieving stable performance in terms of accuracy with

different values of both hyperparameters from which it is concluded that the GOW-

Stream model is effective, efficient, and stable in performing the task of clustering short

length text stream.

To tackle the second main problem, the thesis proposes the TKES system with the main contribution of proposing an algorithm to detect keyword bursts based on the

Kleinberg algorithm, an algorithm that has been proven effective, trusted, and used in

many fields. The proposed algorithms also detect trendy keywords and trendy bursts.

To build this TKES system, the thesis applies the keyword extraction method using TF-

IDF, finds similar keywords using the Neural network to train the model in order to find

similar keyword sets, uses the Skip-gram model, similarity measures like Cosine,

Euclidean, Manhattan, Minkowski, and Jaccard, and Vietnamese text data

preprocessing techniques. The experimental results of the study include processing

speed calculation, processing speed comparison between solutions and between

different data sets, data sets collection, and dataset exportation from results used for

related studies.

Using the theoretical research methodology and the experimental and comparative

research method, the thesis has published four articles in international conference

proceedings (ACM and Springer) and two journal articles (one articles in a Scopus/Q3

journal and another in a SCIE/Q3 journal). Finally, the thesis report is structured as

follows: summary, chapter 1 - introduction, chapter 2 - literature review, chapters 3 & 4 – the two main problems, chapter 5 – conclusions and future work, study work.

Keywords: text stream clustering; topic model; graph-of-words; event detection;

burst detection; keyword extraction; Kleinberg; trendy keywords;

CHƯƠNG 1: GIỚI THIỆU

Chương này trình bày bức tranh tổng quan về luận án gồm: Giới thiệu bài toán nghiên

cứu và ý nghĩa; Các đóng góp của luận án và ý nghĩa; Phương pháp thực hiện; Cấu trúc

của luận án.

1.1 Tổng quan về đề tài luận án

1.1.1 Bài toán nghiên cứu và ý nghĩa

Dữ liệu ngày càng tăng do ngày càng có nhiều mạng xã hội, diễn đàn, phương tiện

truyền thông, thiết bị cảm ứng và người dùng điện thoại thông minh cũng đã và đang

tạo ra lượng lớn dữ liệu. Số lượng thiết bị được kết nối đang tăng dần và các thiết bị này

liên tục tạo ra các luồng dữ liệu [106]. Theo [53], luồng dữ liệu là một chuỗi vô hạn các

phần tử đếm được. Các mô hình khác nhau của luồng dữ liệu có các cách tiếp cận khác

nhau liên quan đến khả năng thay đổi của luồng và cấu trúc của các phần tử luồng. Xử

lý luồng là việc phân tích các luồng dữ liệu để thu được kết quả mới với dữ liệu đầu vào

mới. Thời gian là yêu cầu trọng tâm trong xử lý luồng: trong hầu hết các mô hình luồng,

mỗi phần tử luồng được liên kết với một hoặc nhiều nhãn thời gian, ví dụ: nhãn thời

gian được xác định khi phần tử được tạo, dựa vào tính hợp lệ của nội dung, hoặc khi

phần tử sẵn sàng để xử lý. Gom cụm là một trong các hướng nghiên cứu liên quan đến

khai phá luồng dữ liệu.

Theo [55], các phương pháp gom cụm thường được sử dụng để hiểu về các nhóm

người dùng, tài liệu hoặc các nội dung khác. Một tập dữ liệu chẳng hạn như một tập hồ

sơ chứa đầy các con số và giá trị có thể sẽ rất khó hiểu, và người ta thường có nhu cầu nhóm toàn bộ thành các nhóm nhỏ hơn, mỗi nhóm chứa các mục tương tự với nhau từ đó có thể phân tích và kiểm tra dễ dàng hơn. Phương pháp phổ biến để gom cụm là sử dụng một kho ngữ liệu văn bản chứa các tài liệu với nhiều chủ đề khác nhau. Để phân loại tất cả các tài liệu theo chủ đề từ đó tài liệu có thể được sử dụng và truy xuất nhanh hơn, toàn bộ kho tài liệu có thể được phân tích bằng phương pháp gom cụm, phân tách tài liệu thành các nhóm sao cho tài liệu trong mỗi nhóm có liên quan hay tương đồng với nhau và với các chủ đề của từng nhóm.

Là một dạng thức của luồng dữ liệu, luồng văn bản là một loại luồng dữ liệu đặc biệt, trong đó dữ liệu là các tài liệu văn bản đến liên tục [10], luồng văn bản là chuỗi các

văn bản được sắp xếp theo thứ tự, đến nhanh chóng và liên tục theo thời gian trong hai

dạng chính: tin tức và truyền thông xã hội. Khai phá văn bản, theo [16], là hoạt động

khai thác dữ liệu từ các bộ sưu tập dữ liệu văn bản với mục đích là khám phá kiến thức

(hoặc thông tin, mẫu) từ dữ liệu văn bản không có cấu trúc hoặc bán cấu trúc. Vấn đề

về khai phá luồng văn bản cũng thu hút nhiều sự quan tâm với nhiều nghiên cứu liên

quan như: Xử lý ngôn ngữ tự nhiên, Thu thập thông tin [49], Phát hiện chủ đề, Định nghĩa từ ngữ, Khai phá thông tin, Phân tích mạng xã hội [35], Tóm tắt văn bản [25, 28],

Phân tích cảm xúc, Mô hình không gian Vector, Phân lớp văn bản, Gom cụm văn bản,

vv…

Trong các nghiên cứu về khai phá luồng văn bản, gom cụm luồng văn bản là một

vấn đề quan trọng trong cộng đồng nghiên cứu có nhiều ứng dụng như phân nhóm văn

bản, sắp xếp tài liệu, phát hiện và theo dõi chủ đề …Theo [47], gom cụm văn bản là tự

động nhóm các tài liệu dạng văn bản (ví dụ: tài liệu ở dạng văn bản thuần túy, trang

web, email, ...) thành các cụm dựa trên sự giống nhau hay tương đồng về nội dung của

chúng. Vấn đề gom cụm văn bản có thể được định nghĩa như sau. Cho một tập hợp gồm 𝑛 tài liệu được ký hiệu là 𝐷 = {𝑑1, 𝑑2, … , 𝑑𝑛} và một số cụm được xác định trước 𝐾 (thường do người dùng thiết lập), 𝐷 được nhóm thành 𝑘 cụm tài liệu Z={𝑧1, 𝑧2, … , 𝑧𝑘} sao cho các tài liệu trong cùng một cụm tương đồng nhau và các tài liệu khác cụm không

tương đồng nhau. Tùy theo mục đích gom cụm mà sự tương đồng được định nghĩa khác

nhau và tùy theo mô hình gom cụm mà cách thức suy luận cụm dành cho tài liệu cũng

khác nhau. Khi gom cụm trên luồng văn bản, số lượng cụm sẽ thay đổi theo thời gian vì

văn bản đến trên luồng thay đổi. Do đó, không thể xác định trước được số cụm.

Hiện nay, gom cụm luồng văn bản là một vấn đề có ý nghĩa trong hoạt động khai

phá dữ liệu với nhiều ứng dụng mang tính thực tiễn cao như lọc nhóm tin tức, thu thập

văn bản, tổ chức tài liệu, phát hiện và theo dõi chủ đề, gom cụm email ... Ví dụ: trong

ứng dụng phát hiện sự kiện xã hội, gom cụm văn bản có thể giúp xác định xu hướng

đang được quan tâm hoặc đang được thảo luận thường xuyên về các chủ đề trong các

mạng xã hội phổ biến gần đây (như: COVID-19, cuộc chiến thương mại của Trung Quốc Hoa Kỳ,…). Hoặc trong truy xuất văn bản, gom cụm văn bản có thể giúp nhóm các kết quả tìm kiếm có liên quan (dưới dạng tài liệu văn bản) để giúp người dùng dễ dàng rút trích thông tin cần thiết. Gom cụm văn bản ban đầu được phát triển để cải thiện hiệu suất của các công cụ tìm kiếm thông qua phân nhóm trước toàn bộ ngữ liệu. Sau này, gom cụm văn bản sau này cũng đã được được nghiên cứu để duyệt tài liệu kết quả sau

khi trích xuất. Một vài bài toán liên quan đến gom cụm văn bản có thể kể đến:

 Cải thiện kết quả rút trích tài liệu bằng cách sử dụng các tài liệu đã được gom cụm.

 Phân loại được tài liệu giúp cải thiện quá trình duyệt nội dung các tài liệu văn bản.

 Kết quả gom cụm giúp nhận dạng nội dung tin tức giả [33].

 Ứng dụng vào dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.

 Ứng dụng vào lọc thư rác.

 Phân tích vấn đề hỗ trợ khách hàng: Xác định các vấn đề hỗ trợ thường xuyên diễn

ra.

Sau đây là một số ví dụ về ứng dụng vào doanh nghiệp liên quan đến gom cụm

văn bản:

 Tạo lộ trình sản phẩm (product roadmap): Với kết quả gom cụm văn bản, tất cả các bài đánh giá của khách hàng và đối tượng mục tiêu của doanh nghiệp có thể

được phân tích và sử dụng để tạo ra một lộ trình gồm các tính năng và sản phẩm mà họ sẽ yêu thích. Ngoài ra, kết quả gom cụm có thể giúp phân tích các đánh giá

của đối thủ cạnh tranh để tìm ra những đối tượng muốn công kích, chống phá.

 Xác định các vấn đề hỗ trợ định kỳ: Nhóm hỗ trợ khách hàng hay được hỏi những câu hỏi giống nhau ngày này qua ngày khác. Tuy nhiên, thật khó để phân tích thực

sự những điểm khó khăn mà khách hàng có thể gặp phải khi sử dụng sản phẩm và giải quyết chính xác. Gom cụm văn bản sẽ cho phép người dùng không chỉ xem

mức độ thường xuyên (hoặc không thường xuyên) của một vấn đề mà còn có thể

giúp xác định gốc rễ của vấn đề.

 Tạo bản tin tiếp thị tốt hơn: Một trường hợp sử dụng khác để gom cụm văn bản là trong bản sao tiếp thị. Một tổ chức có thể đã chạy hàng nghìn quảng cáo khác nhau

và có nhiều dữ liệu. Nhưng việc hiểu được ngôn ngữ của quảng cáo tác động đến

hiệu suất có thể rất khó. Rất khó để phát hiện các xu hướng trong dữ liệu phi cấu

trúc, chẳng hạn như bản tin tiếp thị, đây là nơi mà việc gom cụm văn bản có thể

phát huy tác dụng. Kỹ thuật này có thể phân tích và chia nhỏ các chủ đề và từ có

tỷ lệ trao đổi cao nhất cho phép tạo bản tin có hiệu quả tiếp thị cao.

Gần đây, chúng ta đang bước vào kỷ nguyên dữ liệu lớn, với sự gia tăng mạnh mẽ

của các mạng xã hội trực tuyến có hàng tỷ người dùng tương tác với nhau mỗi ngày.

Các phương tiện truyền thông xã hội trực tuyến này đã tạo điều kiện cho sự phát triển và lan truyền nhanh chóng các tin tức trực tuyến và tài nguyên kỹ thuật số tới bất kỳ ai có thể kết nối Internet. Trên thực tế, số lượng lớn nội dung kỹ thuật số do người dùng này tạo ra thường ở dạng văn bản ngắn như: bình luận của người dùng, tweet, bài đăng, … trên Twitter hoặc Facebook, … mang thông tin có giá trị [2, 104] [105] đại diện cho các sự kiện thực tế nóng bỏng, chẳng hạn như bàn luận xã hội về sự lây lan của virus COVID-19, cuộc đụng độ Trung Quốc và Ấn Độ 2020, cuộc chiến thương mại của Trung Quốc và Hoa Kỳ…

Khi gom cụm văn bản, văn bản được phân chia thành nhiều cụm khác nhau, mỗi

cụm đại diện cho một chủ đề nên ta có thể xem bài toán gom cụm trên luồng văn bản là

bài toán nhóm các văn bản đến trên luồng với nhau và xác định chủ đề thích hợp cho

từng nhóm văn bản.

1.1.2 Thách thức của bài toán gom cụm luồng văn bản

Từ xưa đến nay, hầu hết các nghiên cứu về gom cụm văn bản chủ yếu tập trung

vào các văn bản tĩnh và dài. Trên thực tế, các mô hình được thiết kế cho phương pháp

gom cụm truyền thống này không thể áp dụng cho các tập ngữ liệu văn bản có tốc độ thay đổi nhanh chóng, gồm các tài liệu văn bản ngắn như bình luận/bài đăng/microblog

trên các mạng xã hội như: Twitters, Facebook, ... gom cụm văn bản ngắn (được áp dụng

vào nhiều lĩnh vực như đa dạng hóa kết quả tìm kiếm, phát hiện sự kiện và tóm tắt tài

liệu [59], hệ thống khuyến nghị [17]) khó khăn hơn so với phương pháp gom cụm văn

bản tĩnh truyền thống do ba đặc tính chính, bao gồm độ dài tài liệu khác nhau (rất ngắn

chỉ với vài từ hoặc rất dài), độ rời rạc của đặc trưng dữ liệu văn bản và sự thay đổi nhanh

chóng của các chủ đề trong các lô tài liệu văn bản khác nhau (đến tuần tự từ các luồng văn bản). Ngoài ra, trong trường hợp dữ liệu văn bản truyền phát nhanh từ các nguồn tài

nguyên truyền thông xã hội, không thể áp dụng các kỹ thuật gom cụm văn bản truyền

thống để xử lý các bộ sưu tập văn bản đến với tốc độ cao và sự rời rạc của các tập dữ

liệu văn bản ngắn này.

Gần đây, nhiều nhà nghiên cứu đã chú ý rất nhiều vào các nghiên cứu gom cụm

luồng văn bản liên quan để tối ưu hóa hiệu suất về cả tính chính xác của gom cụm và

thời gian xử lý của mô hình. Mô hình chủ đề là một trong những cách tiếp cận phổ biến

nhất để xử lý tác vụ gom cụm luồng văn bản. Các mô hình dựa trên mô hình chủ đề

được thiết kế dựa vào giả định rằng các tài liệu văn bản được tạo bởi một mô hình hỗn

hợp. Sau đó, bằng cách ước tính các tham số của mô hình thông qua nhiều kỹ thuật,

chẳng hạn như Lấy mẫu Gibbs (GS), Tuần tự Monte Carlo (SMC), …, để rút ra các phân phối chủ đề văn bản trên tập ngữ liệu văn bản. Lấy cảm hứng từ mô hình Phân bố ẩn Dirichlet ban đầu (LDA) [15], một số phần mở rộng đã được đề xuất để giải quyết các tác vụ mô hình hóa luồng văn bản, chẳng hạn như các mô hình nổi tiếng: DTM (năm 2006) [14], TM-LDA (năm 2012) [85], LDM (năm 2015)[68], USTM (năm 2015) [95], ST-LDA (năm 2016) [9], DCT (năm 2016) [50], MStream/MstreamF (năm 2018) [97],

BTM (năm 2018) [36], DP-BMM (năm 2020) [20], GSDMM (năm 2020) [1]... Các kỹ thuật dựa trên mô hình hỗn hợp này cố gắng tìm ra các phân phối chủ đề trên các tài liệu trong luồng văn bản đã cho để hoàn thành nhiệm vụ gom cụm. Tuy nhiên, các mô hình

dựa trên LDA như DTM, TM-LDA, ST-LDA, ... không thể áp dụng để xử lý các tài liệu

văn bản ngắn. Do hạn chế xuất phát từ bản chất của các kỹ thuật dựa trên LDA, mô hình

hỗn hợp tài liệu chủ đề phải có được số lượng từ phổ biến phù hợp từ mỗi tài liệu mới

có thể suy ra các chủ đề đạt chất lượng cao. Do đó, các mô hình dựa trên LDA này chỉ

có thể đạt được hiệu suất cao với các tài liệu luồng văn bản dài theo ngữ cảnh đủ phong phú. GPU-DMM [16] [46] khai thác kiến thức nền tảng đã học được từ hàng triệu tài

liệu bên ngoài để cải thiện mô hình chủ đề của các văn bản ngắn. Tuy nhiên, mô hình

này là một mô hình ngoại tuyến (offline). Gần đây, các mô hình DCT và

MStream/MStreamF được đề xuất để vượt qua thách thức khi gom cụm luồng văn bản

ngắn, tuy nhiên, các mô hình này vẫn gặp phải hạn chế chủ yếu bỏ qua các mối quan hệ

từ bên trong khi suy ra các phân phối chủ đề từ các tài liệu đã cho.

Có hai thách thức chính khi gom cụm luồng văn bản đã được các nhà nghiên cứu

tìm hiểu trước kia. Thách thức chính đầu tiên liên quan đến tài liệu ngắn trong các luồng

văn bản, đặc biệt xảy ra trong cách tiếp cận dựa trên mô hình chủ đề. Thách thức thứ hai

trong gom cụm luồng văn bản là thiếu đánh giá mối liên hệ giữa các từ trong văn bản,

chẳng hạn sự đồng xuất hiện của các cặp từ hay mối quan hệ ngữ nghĩa giữa các từ…, trong khi suy ra chủ đề cho các văn bản của luồng.

Hạn chế trong gom cụm luồng văn bản ngắn

Một cơ chế chính để suy ra chủ đề - mỗi chủ đề là phân bố rời rạc của một tập các

từ - là sử dụng cách tiếp cận mô hình chủ đề hay mô hình hỗn hợp trong gom cụm luồng

văn bản chủ yếu dựa vào nội dung (các từ phân tán) của tài liệu. Nội dung của tài liệu

trong luồng phải đủ phong phú (có số lượng từ xuất hiện hợp lý) để có thể suy ra đúng

phân phối đa thức của chủ đề trên mỗi tài liệu. Do đó, với số lượng từ xuất hiện thấp

trong tài liệu (chỉ có vài từ), độ chính xác của mô hình tổng thể sẽ giảm đáng kể. Các

nghiên cứu gần đây chứng minh rằng hầu hết các kỹ thuật gom cụm luồng văn bản dựa

trên mô hình chủ đề hay mô hình hỗn hợp không thể đạt được hiệu suất tốt đối với các văn bản ngắn, chỉ có vài từ như nhận xét hoặc blog nhỏ trên mạng xã hội. Đã có nhiều nghiên cứu về gom cụm trên luồng văn bản ngắn [13, 27, 45, 46, 65, 66, 73, 82, 97, 99, 108]. Trên thực tế, một trong những khó khăn lớn trong việc gom cụm dữ liệu phát trực tuyến là sự thay đổi nhanh chóng số lượng các chủ đề theo thời gian, chẳng hạn như các

xu hướng “nóng” hoặc các chủ đề thảo luận thường xuyên trên các mạng xã hội phổ

biến như Facebook, Twitter…. Do đó, phân phối chủ đề của các luồng văn bản luôn biến

động theo thời gian do sự thay đổi liên tục các chủ đề. Nhiều văn bản ngắn trong mỗi

luồng đến bao gồm các chủ đề khác nhau và có tính chất rời rạc trong cấu trúc thô của

chúng. Trong cách tiếp cận dựa trên mô hình hóa chủ đề, việc chọn đúng số cụm cho

mỗi lô tài liệu từ một luồng nào đó với sự đa dạng của cấu trúc văn bản và các chủ đề

được bao phủ không phải là một nhiệm vụ dễ dàng. Hơn nữa, việc áp dụng số lượng chủ

đề cố định như cách tiếp cận mô hình hóa chủ đề trước đây (vốn là hạn chế của rất nhiều

công trình chẳng hạn như [67, 107]) cho tất cả các lô tài liệu trong một luồng văn bản

nhất định không linh hoạt và không thể giải quyết vấn đề chủ đề thay đổi liên tục khi văn bản đến liên tục. Do đó, việc xác định những thay đổi về phân bố chủ đề của các tài

liệu văn bản có độ dài rất ngắn như bình luận (Facebook), tweet (Twitter), ... là nhiệm

vụ cực kỳ khó khăn và thu hút rất nhiều sự quan tâm của nhiều nhà nghiên cứu trong

những năm gần đây.

Thiếu xem xét mối quan hệ giữa các từ

Mối quan hệ giữa các từ được hiểu ở đây có thể là mối quan hệ của các từ trong

các ngữ cảnh cụ thể của văn bản. Bên cạnh những thách thức liên quan đến vấn đề văn

bản đến liên tục làm thay các chủ đề cũng thay đổi theo trong gom cụm luồng văn bản

ngắn, việc không xem xét mối quan hệ giữa các từ cũng là một hạn chế lớn của các

phương pháp gom cụm luồng văn bản gần đây. Trong hầu hết các kỹ thuật gom cụm luồng văn bản dựa trên mô hình chủ đề, các từ của văn bản được đánh giá độc lập mà

không xem xét các mối quan hệ của chúng trong các ngữ cảnh văn bản cụ thể. Vốn dĩ

tài liệu văn bản là một cấu trúc tự nhiên phức tạp của con người. Tùy thuộc vào cách sử

dụng ngôn ngữ, các từ trong mỗi tài liệu được sắp xếp chặt chẽ theo một cấu trúc hệ

thống cụ thể. Do đó, các thứ tự hoặc tổ hợp từ khác nhau (mối quan hệ giữa các từ) có

thể mang các ý nghĩa ngữ nghĩa khác nhau, điều này chắc chắn gây ảnh hưởng đến việc

xác định các chủ đề của tài liệu chứa những từ này. Một giả định phổ biến của kỹ thuật

gom cụm luồng văn bản dựa trên mô hình là tập tài liệu có cùng nhóm từ thông dụng sẽ

có xu hướng được nhóm cùng chủ đề, kỹ thuật này còn được gọi là cách biểu diễn theo

túi từ (BOW) truyền thống. Hạn chế chính của biểu diễn BOW là phần lớn bỏ qua các

mối quan hệ của từ (ví dụ: “con gà” hoàn toàn khác “gà con”) và các mối quan hệ (như các từ kết hợp : “Hoa Kỳ”, “vi rút Corona”, ...). Do đó, lấy mẫu phân phối các từ phổ biến trên các tài liệu trong quá trình suy luận chủ đề mà không xem xét mối quan hệ của các từ có thể dẫn đến việc hạ thấp độ chính xác của kết quả gom cụm. Cho nên, việc mở rộng đánh giá mối quan hệ giữa các từ trong các ngữ cảnh khác nhau của văn bản trong quá trình suy luận chủ đề có thể giúp cải thiện chất lượng của kết quả gom cụm luồng

văn bản.

Các thế mạnh và thách thức đã được nêu trong một số công trình được cộng đồng nghiên cứu quan tâm nhiều như luận án đã phân tích ở trên có thể khái quát hóa trong

Bảng 1.1, bảng khái quát các điểm mạnh và hạn chế của các mô hình như đã được mô

tả ở trên. Bảng 1.1 phân tích các điểm mạnh và hạn chế của các mô hình gom cụm văn

bản và luồng văn bản. Các mô hình được chia thành 03 nhóm chính. Nhóm 1 là nhóm

mô hình gom cụm theo cách tiếp cận dựa trên mô hình chủ đề (topic model) cổ điển [9,

14, 15, 50, 85]. Nhóm 2 tập hợp các thuật toán gom cụm dựa theo cách tiếp cận mô hình hỗn hợp động [23, 50, 97]. Nhóm 3 là nhóm kỹ thuật gom cụm dựa theo cách tiếp cận

không gian véc tơ [3, 18, 74]. Các ô có dấu  là các vấn đề mà mô hình/thuật toán giải

quyết được và các ô để trống Bảng 1.1 là các hạn chế của mô hình/thuật toán. Từ các

thách thức đặt ra cũng như việc cải tiến biểu diễn đặc trưng tài liệu nhằm đạt được kết

quả gom cụm tốt hơn đã được nhiều nhà nghiên cứu áp dụng thành công [20, 39, 52]…,

luận án đề xuất mô hình GOW-Stream, thực nghiệm trên các tập dữ liệu chuẩn hóa,

ngôn ngữ sử dụng là tiếng Anh.

Bảng 1.1: Phân tích các điểm mạnh và tồn tại của các mô hình

Xét mối

Nhóm

Thuật toán/cách tiếp cận

Tĩnh Động

Văn bản

quan hệ từ

dài

ngắn

LDA(TTM-2009, DTM-2006,



TM-LDA-2012 , ST-LDA-2016)

Dirichlet-Hawkes Topic Model



(DHTM-2015)

Topic



Dynamic Clustering Model (DCT-2016)



Temporal Dirichlet Process Mixture Model (TDPM-2008)



MStream/MstreamF-2018 (DPMM)

CluStream (2003)



DenStream (2006)



Sumblr (2013)



GOW-Stream (2020)

 (GOW)



Vấn đề tiền xử lý nội dung văn bản nhằm nâng cao hiệu quả gom cụm

Để cải tiến hiệu quả mô hình gom cụm, việc sử dụng văn bản đầu vào đã qua tiền xử lý và biểu diễn đặc trưng phù hợp đã được luận án thử nghiệm thành công với mô

hình đề xuất GOW-Stream. Để cải tiến kết quả đầu ra của nhiệm vụ gom cụm này, việc

nghiên cứu tiền xử lý văn bản, rút gọn nội dung bằng cách áp dụng các cơ chế rút trích

từ khóa và sử dụng các tập từ khóa này để thay thế cho toàn bộ nội dung của văn bản

đến cũng là một ý tưởng nhằm cải tiến chất lượng đầu ra của kết quả gom cụm trên

luồng văn bản.

Vấn đề nắm bắt xu thế, thời gian của từ khóa thông qua phát hiện sự nổi bật của từ khóa

Việc tìm ra các từ khóa quan trọng, đang được nhiều độc giả quan tâm cũng là một

nhu cầu thiết thực. Do đó, nhiều kỹ thuật rút trích từ khóa đã được các nhà nghiên cứu

đề xuất từ đơn giản đến cực kỳ phức tạp [7, 8, 12, 43, 48, 51, 54]. Có thể nói rằng, tính năng rút trích từ khóa là một tính năng quan trọng trong hệ thống tự động rút trích thông

tin. Trong rút trích từ khóa, việc tìm các từ khóa có liên quan với một từ khóa cho trước

cũng có ý nghĩa quan trọng đối với người dùng. Vấn đề tìm các sự nổi bật của một từ

khóa và tìm các từ khóa xu thế có độ “nóng” cao trong một sự nổi bật cũng hỗ trợ rất

nhiều cho người dùng trong rút trích thông tin cần thiết. Hiện chưa có kỹ thuật rút trích

liên quan đến vấn đề sự nổi bật (burst) của từ khóa được công bố. Tuy nhiên, từ ý tưởng

khai phá sự nổi bật trong các lĩnh vực khác đã được đề xuất bởi Kleignberg [42], các ý tưởng này có thể vận dụng vào giải quyết bài toán tìm cụm từ xu thế trên luồng dữ liệu

văn bản. Vấn đề sử dụng các kết quả này vào cải tiến kết quả đầu ra khi gom cụm luồng

văn bản cũng là vấn đề đáng được quan tâm.

1.1.3 Các vấn đề nghiên cứu

Từ việc phân tích các hạn chế của các công trình nghiên cứu, luận án xác định một

số vấn đề nghiên cứu liên quan bao gồm: Vấn đề gom cụm luồng văn bản ngắn; Vấn đề

gom cụm luồng văn bản khi số chủ đề thay đổi do văn bản đến liên tục theo thời gian;

Vấn đề xét mối quan hệ từ trong gom cụm luồng văn bản; Vấn đề gom cụm trên luồng

văn bản tiếng Việt; Vấn đề tiền xử lý nội dung văn bản trước khi tiến hành gom cụm và việc vận dụng các cơ chế rút trích từ khóa trong tiền xử lý văn bản; Vấn đề phát hiện xu thế của từ thông qua phát hiện các cụm từ xu thế. Đây là các vấn đề giúp hình thành nên các bài toán chính của luận án.

1.1.4 Các bài toán nghiên cứu

1.1.4.1 Bài toán 1 – gom cụm luồng văn bản theo ngữ nghĩa với đồ thị từ

Để giải quyết những thách thức nêu trên, trong bài toán 1, luận án đề xuất một cách

tiếp cận mới về gom cụm luồng văn bản dựa trên mô hình hỗn hợp, áp dụng đánh giá đồ

thị từ (GOW-Graph of Words) xuất hiện trong các tập ngữ liệu văn bản đã cho, gọi là

mô hình GOW-Stream. Biểu diễn tài liệu văn bản dựa trên GOW là một cách tiếp cận

NLP nổi tiếng nhằm mục đích biểu diễn tài liệu văn bản thành cấu trúc dựa trên đồ thị

trong đó các nút đại diện cho tập hợp các từ phân biệt xuất hiện trong tài liệu và các

cạnh đại diện cho quan hệ đồng xuất hiện tương ứng giữa các từ này (hai từ xuất hiện gần nhau được thể hiện bằng một cung nối giữa hai đỉnh, mỗi đỉnh là một từ). Trong

GOW-Stream, luồng GOW được thiết kế để tận dụng cả hiệu năng về độ chính xác và

thời gian xử lý cho các tác vụ gom cụm luồng văn bản bằng cách đánh giá kỹ lưỡng các

mối quan hệ từ ngữ trong khi suy ra các cụm. Những đóng góp chung của luận án ở

phần này có thể được tóm tắt thành ba điểm chính, đó là:

 Đề xuất một cách tiếp cận áp dụng n-gram vào đồ thị hóa văn bản (text2graph) sử dụng kỹ thuật khai phá đồ thị con phổ biến để rút trích các đồ thị con phổ biến từ kho ngữ liệu văn bản đã cho. Đồ thị con phổ biến là đồ thị con có tổng số lần

xuất hiện trong các đồ thị biểu diễn văn bản nhiều hơn một ngưỡng cho trước

(min support). Kỹ thuật khai phá đồ thị con phổ biến là kỹ thuật dùng để rút trích

ra tập hợp các đồ thị con phổ biến từ đó có thể biểu diễn đặc trưng phân biệt cho

các tài liệu đã cho và sau đó được sử dụng để hỗ trợ quá trình ước tính phân phối

của các chủ đề trên tài liệu (xem chi tiết về biểu diễn văn bản bằng đồ thị, cách

tìm đồ thị con phổ biến và biểu diễn đặc trưng văn bản dựa vào đồ thị con phổ

biến trong mô hình GOW-Stream ở chương 3).

 Xác định cơ chế của GOW-Stream, là một mô hình dựa trên mô hình hỗn hợp dùng để xử lý hiệu quả tác vụ gom cụm luồng văn bản ngắn bằng cách kết hợp

cả đánh giá từ độc lập (các từ riêng biệt trong mỗi tài liệu) và mối quan hệ từ

(quan hệ đồng hiện của từng cặp từ). GOW-Stream không chỉ giải quyết các thách

thức về sự thay đổi chủ đề của luồng văn bản mà còn cải thiện được chính xác và

thời gian xử lý suy luận chủ đề so sánh với các mô hình dựa trên đánh giá độc lập từ trước đó.

 Chứng minh được tính hiệu quả của mô hình GOW-Stream được đề xuất đối với tác vụ gom cụm luồng văn bản ngắn so sánh với các thuật toán hiện đại gần đây, như: DTM[14], Sumblr[74] và MStream[97] bằng các thử nghiệm mở rộng trên các bộ dữ liệu tiêu chuẩn của thế giới thực.

1.1.4.2 Bài toán 2 – Tìm cụm từ xu thế trên luồng dữ liệu văn bản

Trong bài toán 2, luận án đề xuất một hệ thống gọi là TKES (Trendy Keyword

Extraction System). Đây là hệ thống hỗ trợ thu thập thông tin tự động, rút trích từ khóa

tự động, xử lý văn bản Tiếng Việt, hướng đến việc xây dựng và hoàn thiện tập dữ liệu

văn bản tiếng Việt phục vụ nghiên cứu, thử nghiệm liên quan đến bài toán gom cụm luồng văn bản. Hệ thống áp dụng kỹ thuật đơn giản TF-IDF vào rút trích từ khóa có tần

số xuất hiện cao, áp dụng một số kỹ thuật huấn luyện mô hình và các phương pháp đo

độ tương đồng của từ khóa vào tìm từ khóa tương đồng, có so sánh kết quả từ việc sử

dụng nhiều phương pháp đo độ tương đồng. Ngoài ra, hệ thống cũng đề xuất huấn luyện

cập nhật mô hình, đo độ ổn định để đưa vào chạy thực tế. Đóng góp chính của luận án

ở bài toán này là đề xuất thuật toán phát hiện cụm từ xu thế, các sự nổi bật tiêu biểu của

từ khóa dựa vào ý tưởng của thuật toán Kleinberg.

1.2 Đóng góp của luận án và các công trình đã được công bố

(1) Gom cụm luồng văn bản theo ngữ nghĩa với đồ thị từ:

Đề xuất một cách tiếp cận mới về gom cụm luồng văn bản dựa trên mô hình hỗn

hợp gọi là GOW-Stream cho độ chính xác khi gom cụm luồng văn bản ngắn cao hơn

các thuật toán gần đây dựa vào kết quả thực nghiệm trên các tập dữ liệu chuẩn nhờ việc

áp dụng xem xét thêm mối quan hệ đồng hiện từ trong biểu diễn đặc trưng văn bản và

suy luận chủ đề khi gom cụm với đồ thị từ, đồ thị con phổ biến.

(2) Phát hiện cụm từ xu thế trên luồng văn bản:

 Đề xuất hệ thống TKES: gồm 03 phần chính là Bộ thu thập dữ liệu, Bộ xử lý

dữ liệu và Bộ hiển thị dữ liệu.

 Phát hiện các cụm từ xu thế trên luồng dữ liệu văn bản: Đề xuất thuật toán phát hiện các từ khóa đang được quan tâm một cách bất thường và khoảng thời gian các từ này liên tục xuất hiện; Đề xuất thuật toán xếp hạng “độ xuất hiện thường xuyên” của các từ khóa xuất hiện trong cùng một sự nổi bật từ đó xác định cụm từ xu thế. Kết quả nghiên cứu được phân tích, đánh giá, so sánh, rút ra

kết luận và đưa ra các giải pháp cải tiến.

(3) Các công trình đã công bố: được mô tả cụ thể trong Hình 1.1

Bài toán 1 Bài toán 2

Đề xuất mô hình gom cụm luồng Nghiên cứu phát hiện cụm từ xu thế,

văn bản ngắn dựa trên mô hình các sự nổi bật tiêu biểu trên luồng văn

bản.

Công trình: [CT1], [CT2], [CT3],

hỗn hợp áp dụng kết hợp biểu diễn văn bản và suy luận chủ đề Hệ thống đề xuất: TKES theo BOW và GOW.

Mô hình đề xuất: GOW-Stream [CT4], [CT5]-Scopus/Q3

Công trình: [CT6]-SCIE/Q3

Hình 1.1: Mối liên hệ giữa các bài toán và các công trình đã công bố đối với từng bài

toán

Hình 1.1 mô tả mối liên quan giữa 02 bài toán nghiên cứu đã được thực hiện trong

luận án này và các công trình đã được công bố trong từng bài toán. Có thể nói, bài toán

2 là bài toán phụ nghiên cứu các vấn đề cơ bản liên quan phục vụ cho bài toán chính là

bài toán 1 giải quyết vấn đề chính luận án đề ra là gom cụm luồng văn bản. Các công

trình đã công bố trong bài toán 2, Nghiên cứu phát hiện cụm từ xu thế, các sự nổi bật

tiêu biểu trên luồng văn bản, gồm 04 bài Hội nghị quốc tế ([CT1], [CT2], [CT3], [CT4])

và 01 bài tạp chí quốc tế ([CT5]-Scopus/Q3). Công trình công bố trong bài toán 1, Đề

xuất mô hình gom cụm luồng văn bản ngắn dựa trên mô hình hỗn hợp áp dụng kết hợp

biểu diễn văn bản và suy luận chủ đề theo BOW và GOW, là 1 bài tạp chí quốc tế

([CT6]-SCIE/Q3). Kết quả nghiên cứu đạt được ở bài toán phụ 2 có ý nghĩa quan trọng

trong việc giải quyết bài toán 1, tiếp tục cải tiến bài toán 1 cũng như tiếp tục các nghiên

cứu sâu hơn về gom cụm luồng văn bản.

1.3 Mục tiêu, phạm vi và phương pháp nghiên cứu

1.3.1 Mục tiêu nghiên cứu

Với các bài toán nghiên cứu đã được xác định, luận án đã đặt ra các mục tiêu nghiên

cứu cụ thể. Để giải quyết bài toán 1, các mục tiêu chính được xác lập bao gồm:

- So sánh các mô hình gom cụm trên luồng văn bản.

- Nhận diện các thách thức của các mô hình.

- Xác định các tập dữ liệu chuẩn phục vụ cho thực nghiệm.

- Đề xuất mô hình mới trong gom cụm luồng văn bản.

- Cải tiến mô hình đề xuất.

Các nhiệm vụ được thực hiện trong bài toán 2 gồm:

- Nghiên cứu phát hiện cụm từ xu thế trên luồng dữ liệu văn bản.

- Nghiên cứu phát hiện các sự nổi bật tiêu biểu của từ khóa.

1.3.2 Phạm vi nghiên cứu

Thông qua việc xác định các hạn chế của các công trình nghiên cứu trước, xác định

được các vấn đề nghiên cứu, hình thành các bài toán chính cho luận án, với đối tượng nghiên cứu là luồng dữ liệu văn bản ngắn, phạm vi nghiên cứu của luận án được xác lập

như sau:

(1) Gom cụm trên luồng văn bản ngắn, rời rạc đến từ các mạng xã hội phổ biến

như Facebook, Twitter...

(2) Nghiên cứu đồ thị từ, kỹ thuật khai phá đồ thị con phổ biến, ảnh hưởng của mối quan hệ đồng hiện giữa các cặp từ trong văn bản đến trên luồng đến kết

quả gom cụm.

(3) Nghiên cứu phát hiện cụm từ xu thế trên luồng dữ liệu văn bản.

(4) Nghiên cứu phát hiện các sự nổi bật tiêu biểu trên luồng dữ liệu văn bản.

Trong đó, các nghiên cứu (1), (2) được thực nghiệm trên dữ liệu tiếng Anh và các

nghiên cứu (3), (4) được thực nghiệm trên dữ liệu tiếng Việt.

1.3.3 Phương pháp nghiên cứu

Hai phương pháp chính được sử dụng trong quá trình nghiên cứu là phương pháp

nghiên cứu tổng luận và phương pháp nghiên cứu thực nghiệm và so sánh.

1.4 Cấu trúc của luận án

Cấu trúc của luận án được trình bày thành 05 chương, bao gồm:

- Phần mở đầu

Giới thiệu tóm tắt về luận án.

- Chương 1: Giới thiệu

Trình bày về đề tài nghiên cứu và ý nghĩa của đề tài, các mục tiêu nghiên cứu, các vấn đề nghiên cứu đặt ra dựa vào phân tích các ưu điểm và hạn chế của các công trình liên quan tiêu biểu, các bài toán con, phạm vi nghiên cứu, các kết quả đạt được và cấu trúc của luận án.

- Chương 2: Các nghiên cứu liên quan

Trình bày các nghiên cứu, vấn đề lý thuyết liên quan đến bài toán, so sánh một số cách tiếp cận gom cụm luồng văn bản.

- Chương 3: Gom cụm luồng văn bản theo ngữ nghĩa dựa trên đồ thị từ

Trình bày về phương pháp, thực nghiệm và bàn luận về mô hình GOW- Stream.

- Chương 4: Phát hiện cụm từ xu thế trên luồng văn bản theo tiếp cận Kleinberg

Trình bày về phương pháp, thực nghiệm và bàn luận về hệ thống TKES.

- Chương 5: Kết luận và hướng phát triển

Trình bày các kết quả đã đạt được và hướng phát triển của luận án.

- Danh mục các bài báo đã công bố

Liệt kê các công trình đã công bố có liên quan đến đề tài luận án.

1.5 Kết chương

Chương 1 đã giới thiệu các đóng góp của luận án bao gồm việc đề xuất và giải quyết 02 bài toán của luận án. Với bài toán thứ nhất cũng là bài toán chính của luận án, tác giả đề xuất kỹ thuật GOW-Stream gom cụm luồng văn bản theo ngữ nghĩa dựa trên đồ thị từ. Bài toán thứ hai nghiên cứu phát hiện các cụm từ xu thế trên luồng văn bản. Chương này cũng mô tả mục tiêu, phương pháp nghiên cứu, xác lập phạm vi nghiên cứu, các kết quả đạt được. Ngoài ra, chương 1 cũng mô tả rõ cấu trúc của luận án gồm 05 chương: mở đầu, giới thiệu, tổng quan tình hình nghiên cứu, 02 chương về 02 bài toán, chương kết luận và các công trình nghiên cứu đã thực hiện.

CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN

Chương 2 trình bày các công trình nghiên cứu liên quan, các khái niệm cơ bản, nghiên

cứu có liên quan trực tiếp đến các công trình cũng như đóng góp chính của luận án: so

sánh một số cách tiếp cận liên quan đến gom cụm luồng văn bản, tiếp cận phát hiện sự kiện trong phát hiện sự nổi bật trên luồng văn bản.

2.1 So sánh một số cách tiếp cận mới liên quan đến gom cụm luồng văn bản

Các nghiên cứu gần đây về gom cụm luồng dữ liệu dạng văn bản có thể được phân

thành ba loại chính, đó là phương pháp tiếp cận dựa trên mô hình chủ đề, phương pháp tiếp cận dựa trên mô hình hỗn hợp động và phương pháp tiếp cận dựa trên biểu diễn không gian véc tơ.

2.1.1 Phương pháp tiếp cận dựa trên mô hình chủ đề truyền thống

Được coi là cách tiếp cận sớm nhất để gom cụm luồng dữ liệu dạng văn bản, mô

hình hóa chủ đề là một nhóm các thuật toán hỗ trợ khám phá các chủ đề/cấu trúc tiềm

ẩn từ các tài liệu văn bản. Phân bổ Dirichlet tiềm ẩn (LDA) [15] là một trong những

thuật toán mô hình hóa chủ đề nổi tiếng nhất, hỗ trợ suy ra các chủ đề tiềm ẩn từ một

tập hợp các tài liệu văn bản dựa vào phân phối xác suất thiên lệch của các từ. LDA biểu

diễn các chủ đề tiềm ẩn được khám phá dưới dạng tập con của các từ và tài liệu được

phân phối thành dạng tập con của các chủ đề tiềm ẩn được phân phối. Các nghiên cứu

đã chứng minh rằng mô hình chủ đề có thể được áp dụng để mô hình hóa đặc tính theo

thời gian của chủ đề trong luồng dữ liệu văn bản cũng như xử lý sự rời rạc của văn bản.

Nhiều nghiên cứu mở rộng dựa trên LDA đã được giới thiệu đáp ứng bản chất động của

các chủ đề trong các loạt luồng văn bản khác nhau, chẳng hạn như chủ đề theo thời gian (TOT) [83], mô hình chủ đề động (DTM)[14], mô hình theo dõi chủ đề (TTM), LDA theo thời gian (TM-LDA) [85], streaming LDA (ST-LDA)[9], ... Các mô hình được đề xuất này có thể hỗ trợ để suy ra các chủ đề động một cách hiệu quả từ tài liệu dài đã cho trong các luồng. Tuy nhiên, các mô hình dựa trên LDA này yêu cầu phải xác định từ đầu số lượng chủ đề cho tất cả các lô tài liệu khác nhau trong một luồng. Điều này không phù hợp với sự thay đổi của các chủ đề theo thời gian.

2.1.2 Phương pháp tiếp cận dựa trên mô hình hỗn hợp động

Vì số lượng chủ đề thay đổi theo thời gian và các lô tài liệu khác nhau trong các

luồng, nên yêu cầu biết trước số lượng chủ đề là hạn chế lớn khi áp dụng các kỹ thuật

dựa trên LDA trong việc giải quyết vấn đề phát triển chủ đề tự nhiên của luồng văn bản.

Để khắc phục nhược điểm này, các cải tiến liên tục liên quan đến cách tiếp cận mô hình chủ đề động đã được đề xuất. Cách tiếp cận này còn được gọi là phương pháp quy trình

Dirichlet (DP) [75] được sử dụng rộng rãi để xử lý vấn đề thay đổi và tiến hóa chủ đề

trong gom cụm luồng văn bản. Chủ yếu dựa theo các mô hình dựa trên LDA, các thuật

toán gom cụm luồng văn bản dựa trên mô hình hỗn hợp được thiết kế để suy luận phân

phối của các chủ đề trên các tài liệu. Sau đó, các kỹ thuật lấy mẫu nhiều lần như Gibbs

Sampling, Sequential Monte Carlo, ... được áp dụng để ước tính các tham số của mô

hình, để suy luận sự phân bố của các chủ đề trên luồng văn bản đã cho. Nói cách khác,

các kỹ thuật gom cụm văn bản dựa trên mô hình hỗn hợp động chủ yếu dựa vào định lý

phi tham số Bayes để mô hình hóa chủ đề động. Phương pháp dựa trên mô hình hỗn hợp

động đã chứng minh được tính hiệu quả trong việc tự động khám phá các chủ đề từ các

luồng văn bản rời rạc. Các mô hình nổi tiếng gần đây sử dụng cách tiếp cận này như: Mô hình chủ đề Dirichlet-Hawkes (DHTM)[23], Mô hình chủ đề gom cụm động (DCT)

[50] và Mô hình hỗn hợp quy trình Dirichlet theo thời gian (TDPM)[4]. Các quy trình

Dirichlet dựa trên cơ sở này đã chỉ ra các giải pháp tiềm năng để giải quyết vấn đề thay

đổi chủ đề của các luồng văn bản. Tuy nhiên, các mô hình đề xuất này vẫn còn tồn tại

những mặt hạn chế. DHTM không có khả năng hoạt động tốt trên các tài liệu văn bản

ngắn [23]. Ngược lại, DCT được thiết kế để làm việc với các luồng văn bản ngắn, tuy

nhiên, DCT không thể phát hiện sự thay đổi của các chủ đề trong các lô tài liệu khác

nhau của các luồng văn bản mà số lượng chủ đề có thể được thay đổi theo thời gian. Đây

là hạn chế của kỹ thuật này. TDPM được xem là một framework gom cụm văn bản ngoại

tuyến yêu cầu toàn bộ tập hợp các tài liệu văn bản từ một luồng cho trước. Do đó, TDPM

không phù hợp để áp dụng trong bối cảnh nhiệm vụ gom cụm văn bản đến với tốc độ cao. Gần đây, có một bản nâng cấp mới về gom cụm luồng văn bản ngắn phụ thuộc vào Mô hình hỗn hợp quy trình Dirichlet (DPMM) [98], được gọi là MStream/MStreamF cho phép dự đoán hiệu quả các chủ đề tiềm ẩn từ các luồng văn bản ngắn cho trước. Tuy nhiên, MStreamF vẫn gặp phải điểm hạn chế phổ biến trong việc khai phá biểu diễn từ độc lập trong khi suy ra các chủ đề. Việc bỏ qua sự rời rạc và mối quan hệ giữa các từ

trong văn bản có thể dẫn đến sự mơ hồ về các chủ đề được phát hiện từ các luồng văn bản.

2.1.3 Phương pháp tiếp cận dựa trên biểu diễn không gian vectơ

Tương tự như phương pháp gom cụm văn bản cổ điển cho kho ngữ liệu văn bản

tĩnh, cho các tài liệu văn bản trong các luồng được chuyển đổi và biểu diễn dưới dạng

vectơ đặc trưng, sau đó các độ đo dựa trên khoảng cách có sẵn như độ tương tự Cosin,

khoảng cách Euclide, ... được áp dụng để đo lường sự giống nhau giữa các tài liệu văn bản và các chủ đề đã cho. Từ lâu, cách tiếp cận dựa trên biểu diễn không gian vectơ

(VSR) đã được nghiên cứu rộng rãi để xử lý tác vụ gom cụm luồng văn bản tốc độ cao

với các mô hình gom cụm luồng văn bản dựa trên độ tương đồng nổi tiếng, chẳng hạn

như: SSC[100], CluStream, DenStream, Sumblr[74] ... Tuy nhiên, các kỹ thuật gom

cụm văn bản dựa trên VSR có hai hạn chế lớn. Hạn chế đầu tiên liên quan đến thách

thức về sự thay đổi chủ đề vì các thuật toán dựa trên cách tiếp cận này yếu cầu số lượng

chủ đề nên được chỉ định trước. Hạn chế thứ hai của các mô hình dựa trên VSR liên

quan đến việc yêu cầu phải xác định ngưỡng tương đồng từ đầu, ngưỡng tương đồng

thích hợp để xác định một tài liệu văn bản mới từ một luồng nhất định sẽ thuộc về một

chủ đề cụ thể hay không. Hơn nữa, số chiều của các vectơ được đại diện trong tài liệu

cũng bị ảnh hưởng bởi độ dài của tài liệu. Do tồn tại những thách thức nghiêm trọng này, cách tiếp cận dựa trên VSR ít được quan tâm hơn so với cách tiếp cận dựa trên mô

hình hỗn hợp trong việc xử lý tác vụ gom cụm luồng văn bản.

2.1.4 Mô hình hóa chủ đề (Topic modeling)

2.1.4.1 Tìm chủ đề của văn bản

Mô hình LDA [15] của David Blie là mô hình cổ điển nổi tiếng được sử dụng nhiều

trong việc phân tích chủ đề văn bản. Mô hình dựa trên mạng Bayes. Việc tìm chủ đề của

văn bản được thực hiện dựa trên việc tính phân bố xác suất cho mỗi từ đặc trưng trong

tài liệu. Mỗi chủ đề có xác suất riêng cho từng từ khóa và phân bố chủ đề được biểu diễn

như là sự kết hợp nhiều chủ đề trong văn bản.

2.1.4.2 Mạng Bayes

Được dùng để biểu diễn tri thức không chắc chắn, là một họ của mô hình đồ thị xác suất, là sự kết hợp của lý thuyết đồ thị và lý thuyết xác suất thống kê, cho phép biễu diễn trực quan phương pháp tính phân bố xác suất chung của các biến ngẫu nhiên. Với các node là các biến ngẫu nhiên, các cạnh biểu diễn sự phụ thuộc của các biến ngẫu nhiên tương ứng, đây là đồ thị có hướng không có chu trình và được định nghĩa với 02 thành phần: 𝐵 = (𝐺, Θ) với 𝐺 là đồ thị chứa các node 𝑋1, 𝑋2, … 𝑋𝑛 là các biến ngẫu nhiên, sự phụ thuộc của các biến ngẫu nhiên được biểu diễn thông qua các cung của đồ

𝑛

thị 𝐺. Θ là tập tham số của mạng Bayes bao gồm 𝜃𝑥𝑖|𝜋𝑖 = 𝑃𝐵(𝑥𝑖|𝜋𝑖) cho mỗi khái niệm 𝑥𝑖 của 𝑋𝑖 biết 𝜋𝑖 (biến điều kiện). Công thức (2.1) tính phân bố xác suất chung của tập biến ngẫu nhiên là:

P𝐵(𝑋1, 𝑋2, … 𝑋𝑛) = ∏ 𝑃𝐵(𝑋𝑖|𝜋𝑖) = ∏ 𝜃𝑥𝑖|𝜋𝑖

𝑖=1

(2.1)

Phân bố xác suất của 𝑋𝑖 gọi là phân bố xác suất có điều kiện nếu như có biến cha

(biến ảnh hưởng đến nó) và ngược lại thì gọi là phân bố xác suất không có điều kiện.

2.1.4.3 Suy diễn trên mạng Bayes

Mạng Bayes dùng 02 phương pháp suy diễn: từ trên xuống hay từ dưới lên. Suy diễn từ trên xuống xuất phát từ nút cha của nút đang xét 𝑋𝑖 và suy diễn từ dưới lên xuất phát từ nút con của nút đang xét 𝑋𝑖

2.1.4.4 Mô hình LDA

Là một mô hình mạng Bayes theo 03 cấp do David Blei phát triển năm 2003. Đây

là mô hình dùng để mô hình hóa tập dữ liệu nhằm phát hiện ra các chủ đề tìm ẩn. Mỗi

chủ đề là một phân bố rởi rạc của một tập các từ. Đây là mô hình phù hợp với tập ngữ

liệu rời rạc nhau được phân nhóm. Mỗi nhóm được mô tả dưới dạng kết hợp ngẫu nhiên

của một tập các chủ đề tiềm ẩn.

Mô hình sinh của mô hình LDA

Xuất phát từ ý tưởng mô tả các văn bản là sự kết hợp nhiều chủ đề [15], mỗi chủ đề được biểu diễn bởi các từ với xác suất của chúng được tính bằng kỹ thuật Gibb

Sampling. Với LDA, giả sử một tài liệu được tạo theo các bước sau:

1) Xác định số lượng các từ 𝑁 mà văn bản có (dựa theo phân bố Poisson).

2) Chọn k chủ đề cho tài liệu dựa theo phân bố đa thức.

3) Sinh ra các từ 𝑤𝑖 cho tài liệu theo các bước:

a. Chọn chủ đề dựa theo phân bố đa thức đã được xác định.

b. Sử dụng chủ đề đã được chọn để tạo ra các từ theo xác suất của từng chủ

đề đã chọn.

Mục đích của việc tạo ra mô hình sinh là khi đảo ngược các bước để suy diễn từ

các tài liệu ta tìm được tập chủ đề ẩn.

Như vậy, LDA là một mô hình dạng Bayes với quá trình phát sinh một tập tài liệu

gồm 3 bước:

1) Với mỗi tài liệu, tạo một phân bố xác suất chủ đề của tài liệu đó bằng cách lấy

mẫu từ phân bố xác suất Dirichlet.

2) Với mỗi từ trong tài liệu, một chủ đề duy nhất được chọn từ phân bố chủ đề

trên.

3) Mỗi từ khóa sẽ được rút ra từ phân bố đa thức cho từ khóa theo chủ đề được

chọn. Ta có một số khái niệm:

a. Một từ 𝑤 là một đơn vị dữ liệu cơ bản, được hiểu là một phần tử của tập

từ vựng và được đánh chỉ mục theo các phần tử {1,2, . . . 𝑉}.

b. Một tài liệu 𝑑 được biểu diễn bằng 1 dãy 𝑁 từ và được ký hiệu là: 𝑤 = (𝑤1, 𝑤2, … 𝑤𝑛), với 𝑤𝑖 là tập từ biểu diễn cho tài liệu thứ i của kho ngữ liệu.

Mỗi tài liệu được biểu diễn thông qua các chủ đề mà tài liệu đó đề cập

đến, mỗi chủ đề được đặc trưng bằng các từ khóa.

Hình 2.1: Mô hình sinh LDA

Trong hình Hình 2.1:

𝜙 là ma trận 𝑇𝑥 𝑉 biểu diễn phân bố xác suất một từ khóa 𝜐 𝜖 𝑉 xuất hiện trong

chủ đề 𝑡 𝜖 𝑇 được lấy theo phân bố xác suất Dirichlet.

𝜃 là ma trận 𝐷 𝑥 𝑇 biểu diễn phân bố xác suất chủ đề 𝑡 𝜖 𝑇 trong tài liệu 𝑑 𝜖 𝐷 được

lấy mẫu theo phân bố 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡 (𝛼). Với mỗi từ trong tài liệu 𝐷, 𝑧 là chủ đề lấy từ ma

trận 𝜃 của tài liệu 𝑑, 𝑤 là từ khóa được sinh ra bởi chủ đề 𝑧.

Việc tính ma trận 𝜃 và 𝜙 cho ta biết thông tin về chủ đề trong tài liệu và xác xuất

của các chủ đề trong tài liệu.

Lý thuyết về Gibbs Sampling

Là một trong những họ thuật toán Markov Chain Monte Carlo, mục tiêu của Gibbs

Sampling là tạo ra xích Markov có phân bố hậu nghiệm như là phân bố ổn định. Sau khi

lặp lại một số lần trong xích Markov, mẫu từ phân bố hội tụ được mong muốn là giống như mẫu từ xác suất hậu nghiệm. Thuật toán này dựa trên việc lấy mẫu từ các phân bố

điều kiện của các biến của xác suất hậu nghiệm.

Ví dụ: để lấy mẫu x từ phân bố liên hợp 𝑝(𝑥) = 𝑝(𝑥1, 𝑥2, … , 𝑥𝑚), thuật toán thực

hiện các bước:

1) Khởi tạo 𝑥𝑖 ngẫu nhiên.

𝑡 )

𝑡, … , 𝑥𝑚

2) 𝐹𝑜𝑟 𝑡 = 0, . . . , 𝑇 − 1:

𝑡+1~𝑝(𝑥1|𝑥2

𝑡, 𝑥3

𝑡, … , 𝑥𝑚 𝑡 )

2.1) 𝑥1

𝑡+1~𝑝(𝑥2|𝑥1

𝑡+1, 𝑥3

2.2) 𝑥2

𝑡

𝑡 )

...

𝑡+1~𝑝(𝑥𝑗|𝑥1

𝑡+1, 𝑥2

𝑡+1, … , 𝑥𝑗−1

𝑡+1, 𝑥𝑗+1

, … , 𝑥𝑚 2.j) 𝑥𝑗

...

𝑡+1~𝑝(𝑥𝑚|𝑥1

𝑡+1, 𝑥2

𝑡+1 ) 𝑡+1, … , 𝑥𝑚−1

𝑇−1)

2.m) 𝑥𝑚

Return ({𝑥𝑡}𝑡=0

Quá trình được lặp đi lặp lại nhiều lần cho đến khi các mẫu hội tụ nhờ đó đảm bảo

tính đúng đắn của thuật toán. Việc không thể biết chính xác lặp bao nhiêu lần chính là điểm yếu của thuật toán. Cho nên, chỉ có thể ước lượng độ hội tụ thông qua việc tính

toán log-likelihood hay thông qua việc kiểm tra các xác suất hậu nghiệm.

Mô hình LDA quan tâm tới các chủ đề ẩn trong từng văn bản 𝜃𝑑 của tập ngữ liệu, các phân bố từ theo chủ đề Φ(𝑧) và các phép gán vị trí chủ đề cho mỗi từ 𝑧𝑖. Trong khi các phân bố có điều kiện có thể được tạo ra từ một trong những biến tiềm ẩn, cả 𝜃𝑑 và Φ(𝑧) có thể tính được bằng việc sử dụng phép gán vị trí chủ đề 𝑧𝑖. Do đó, thuật toán sẽ trở nên đơn giản hơn nếu như chúng ta hợp nhất các biến đa thức với một mẫu đơn giản 𝑧𝑖. Thuật toán này còn gọi là thuật toán Collapsed Gibbs Sampling, được dùng trong

LDA để tính xác suất của một chủ đề 𝑧 đang được gán vào từ 𝑤𝑖 dựa theo tất cả các phép gán của chủ đề khác vào các từ khác, nghĩa là:

(2.2) p(𝑧𝑖|𝑧¬𝑖, 𝛼, 𝛽, 𝑤)

Trong đó:

𝑧¬𝑖 là phân bố xác suất của tất cả các chủ đề ngoại trừ chủ đề 𝑧𝑖

Các luật của xác suất có điều kiện là:

(2.3) 𝑝(𝑧𝑖|𝑧¬𝑖, 𝛼, 𝛽, 𝑤) = ∝ p(𝑧𝑖|𝑧¬𝑖, 𝑤|𝛼, 𝛽) = 𝑝(𝑧, 𝑤|𝛼, 𝛽) 𝑝(𝑧𝑖|𝑧¬𝑖, 𝑤|𝛼, 𝛽) 𝑝(𝑧¬𝑖, 𝑤|𝛼, 𝛽)

Sau đó:

(2.4) 𝑝(𝑤, 𝑧, 𝛼, 𝛽) = ∬ 𝑝(𝑤, 𝑧, 𝜃, ∅|𝛼, 𝛽) 𝑑𝜃𝑑∅

Ta lại có:

(2.5) 𝑝(𝑤, 𝑧, 𝛼, 𝛽) = ∬ 𝑝(∅|𝛽) 𝑝(𝜃|𝛼)𝑝(𝑧|𝜃)𝑝(𝑤|∅𝑧)𝑑𝜃𝑑∅

Suy ra:

(2.6) 𝑝(𝑤, 𝑧, 𝛼, 𝛽) = ∫ 𝑝(𝑧|𝜃) 𝑝(𝜃|𝛼)𝑑𝜃 ∫ 𝑝(𝑤|∅𝑧)𝑝(∅|𝛽)𝑑∅

𝛼𝑑,𝑘+𝛼𝑘

Xét tích phân đầu tiên, ta có:

𝑑𝜃𝑑 =

∫ 𝑝(𝑧|𝜃) 𝑝(𝜃|𝛼)𝑑𝜃 = ∫ ∏ 𝜃𝑑,𝑧𝑖

1 𝐵(𝛼)

𝐵(𝑛𝑑,𝑘 + 𝛼) 𝐵(𝛼)

𝛼𝑘 ∏ 𝜃𝑑,𝑘 𝑘

∏ 𝜃𝑑,𝑘 𝑘

𝑖

(2.7)

Trong đó:

𝑛𝑑,𝑘 là tần số các từ trong tài liệu 𝑑 được gán vào chủ đề k, tổng chỉ số theo vị trí đó.

∏ 𝑘,¬(𝛼𝑘) ¬(∑ 𝑘𝛼𝑘)

là hàm phân bố đa thức Beta. 𝐵(𝛼) =

Tương tự cho biểu thức tích phân thứ hai (tính likelihood của các từ khi biết trước các phép gán chủ đề nào đó).

∫ 𝑝(𝑤|∅𝑧)𝑝(∅|𝛽)𝑑∅

𝛽𝑤 𝑑∅𝑘

1 𝐵(𝛽)

= ∫ ∏ ∏ ∅𝑧𝑑,𝑖𝑤𝑑,𝑖 ∏ 𝑘

𝑑

𝑖

∏ ∅𝑘,𝑤 ư

= ∏

𝛽𝑤+𝑛𝑘,𝑤𝑑∅𝑘

1 𝐵(𝛽)

𝐵(𝑛𝑘,𝑤 + 𝛽) 𝐵(𝛽)

𝑘

∫ ∏ ∅𝑘,𝑤 𝑤

𝑘

(2.8)

𝑝(𝑤, 𝑧|𝛼, 𝛽) = ∏

∏

Kết hợp 2 công thức ta có phân bổ liên hợp mở rộng là:

𝐵(𝑛𝑑,𝑘 + 𝛼) 𝐵(𝛼)

𝐵(𝑛𝑘,𝑤 + 𝛽) 𝐵(𝛽)

𝑘

𝑑

(2.9)

Sau đó, công thức lấy mẫu Gibbs cho LDA có thể được rút ra bằng cách sử dụng

quy tắc chuỗi (trong đó chúng ta bỏ qua các siêu tham số 𝛼 và 𝛽). Lưu ý rằng siêu chỉ

(−𝑖) biểu thị việc bỏ thành phần thứ 𝑖 ra khỏi phép tính:

số

=

𝑝(𝑧𝑖|𝑧(−𝑖), 𝑤) =

𝑝(𝑤,𝑧) 𝑝(𝑤,𝑧(−𝑖))

𝑝(𝑧) 𝑝(𝑧(−𝑖))

𝑝(𝑤|𝑧) 𝑝(𝑤(−𝑖)|𝑧(−𝑖))𝑝(𝑤𝑖)

∝ ∏

∏

𝐵(𝑛𝑑,. + 𝛼) (−𝑖) + 𝛼) 𝐵(𝑛𝑑,.

𝐵(𝑛𝑘,. + 𝛽) (−𝑖) + 𝛽) 𝐵(𝑛𝑘,.

𝑑

𝑘

(−𝑖) + 𝛼𝑘)

∝ (𝑛𝑑,𝑘

𝑤′

(−𝑖) + 𝛽𝑤 𝑛𝑘,𝑤 (−𝑖) + 𝛽𝑤′ ∑ 𝑛𝑘,𝑤′

(2.10)

Thuật toán Gibbs Sampling cho mô hình LDA

Suy diễn hậu nghiệm được dùng để suy diễn lại các chủ đề được thực hiện bằng

cách đảo ngược quá trình sinh ra các văn bản và học các phân bố hậu nghiệm trong các biến tiềm ẩn của mô hình trên dữ liệu quan sát. Trong mô hình LDA, các đại lượng này được tính theo công thức (2.11):

(2.11) p(θ, ϕ, z|w, α, β) = p(θ, ϕ, z|w, α, β) 𝑝(𝑤|𝛼, 𝛽)

Do các yếu tố trong thực tế là 𝑝(𝑤|𝛼, 𝛽) không thể tính được một cách chính xác

nên phân bố này chỉ có thể tính toán dựa vào Gibbs Sampling chẳng hạn.

Hiện thực Gibbs Sampling cho mô hình LDA [22]

Quy ước:

- 𝑑 là một văn bản trong tập ngữ liệu.

- 𝑤 là một từ.

- 𝑛𝑑,𝑘 là số từ được gán cho chủ đề 𝑘 trong tài liệu 𝑑.

- 𝑛𝑘,𝑤 là số lần từ 𝑤 được gán cho chủ đề 𝑘.

- 𝑛𝑘 là tổng số lần bất kỳ từ nào được gán cho chủ đề 𝑘.

Thuật toán 2.1 của Darling [22] hiện thực Gibbs Sampling cho mô hình LDA:

Thuật toán 2.1: Thuật toán Gibbs Sampling

Input: Tập các từ 𝑤 của tập văn các bản 𝑑 Output: Các phép gán chủ đề 𝑧 và các biến đếm 𝑛𝑑,𝑘, 𝑛𝑘,𝑤, 𝑛𝑘

Khởi tạo ngẫu nhiên tập 𝑧 và tăng các biến đếm

foreach bước lặp://bước lặp mong muốn (thường từ 1000-2000)

𝐟𝐨𝐫 𝑖 = 0 → 𝑁 − 1 𝐝𝐨 //lấy mẫu chủ đề cho mỗi từ trong tập dữ liệu

𝑤𝑜𝑟𝑑 ← 𝑤[𝑖]

𝑡𝑜𝑝𝑖𝑐 ← 𝑧[𝑖]

𝑛𝑑,𝑡𝑜𝑝𝑖𝑐−= 1

𝑛𝑤𝑜𝑟𝑑,𝑡𝑜𝑝𝑖𝑐−= 1

𝑛𝑡𝑜𝑝𝑖𝑐−= 1

𝐟𝐨𝐫 𝑘 = 0 → 𝐾 − 1 𝐝𝐨

10:

𝑝(𝑧 = 𝑘|. ) = (n𝑑,𝑘 + 𝛼𝑘)

𝑛𝑘,𝑤 + 𝛽𝑤 𝑛𝑘 + 𝛽 × 𝑊

11:

end

12:

𝑡𝑜𝑝𝑖𝑐 = 𝑙ấ𝑦 𝑚ẫ𝑢 𝑡ừ 𝑝(𝑧|. )

13:

𝑧[𝑖] ← 𝑡𝑜𝑝𝑖𝑐

14:

𝑛𝑑,𝑡𝑜𝑝𝑖𝑐+= 1

15:

𝑛𝑤𝑜𝑟𝑑,𝑡𝑜𝑝𝑖𝑐+= 1

16:

𝑛𝑡𝑜𝑝𝑖𝑐+= 1

17:

end

18:

end

19:

return 𝑧, 𝑛𝑑,𝑘, 𝑛𝑘,𝑤, 𝑛𝑘

Trong Thuật toán 2.1: trình lấy mẫu Gibbs thiết lập các biến đếm cần thiết, khởi

tạo ngẫu nhiên chúng (dòng 1) và sau đó chạy một vòng lặp trên số lần lặp mong muốn

(dòng 2), trong đó trên mỗi vòng lặp, một chủ đề được lấy mẫu cho mỗi trường hợp từ

trong kho ngữ liệu (dòng 12). Trong các lần lặp, các biến đếm được sử dụng để tính toán các phân phối tiềm ẩn 𝜃𝑑 và 𝜙𝑘 (dòng 10).

Các biến đếm được sử dụng bao gồm:

 𝑛𝑑,𝑘 là số từ được gán cho chủ đề 𝑘 trong tài liệu 𝑑.

 𝑛𝑘,𝑤 là số lần từ 𝑤 được gán cho chủ đề 𝑘.

Tuy nhiên, để đơn giản và khoa học hơn, thuật toán duy trì thêm các biến đếm:

 𝑛𝑘 là tổng số lần bất kỳ từ nào được gán cho chủ đề 𝑘.

Cuối cùng, ngoài các biến hiển nhiên, chẳng hạn như đại diện của kho ngữ liệu

(𝑤), thuật toán cần một mảng 𝑧 chứa phép gán chủ đề hiện tại cho mỗi từ trong số 𝑁 từ

trong kho ngữ liệu.

Vì quy trình lấy mẫu Gibbs liên quan đến việc lấy mẫu từ các phân phối được điều

kiện hóa trên tất cả các biến khác (trong LDA, điều này tất nhiên bao gồm tất cả các

phép gán chủ đề hiện tại khác, nhưng không phải chủ đề hiện tại), trước khi xây dựng

một phân phối từ công thức (2.10), chúng ta phải loại bỏ phép gán hiện tại từ công thức.

Điều này có thể được thực hiện bằng cách giảm số lượng liên quan đến phép gán hiện

tại (dòng 6-8) vì phép gán chủ đề trong LDA có thể trao đổi (tức là phân phối xác suất

chung là không đổi khi hoán vị). Sau đó, thuật toán tính xác suất (không chuẩn hóa) của

mỗi phép gán chủ đề (dòng 10) bằng cách sử dụng công thức (2.10). Phân phối rời rạc

này sau đó được lấy mẫu và chủ đề đã chọn được gán vào mảng z (dòng 13) và các biến

đếm tương ứng sau đó được tăng dần (dòng 14-16).

2.1.5 Mô hình hỗn hợp dựa trên quy trình Dirichlet (DPMM)

Đây là một phương pháp tiếp cận được xây dựng chặt chẽ từ mô hình lý thuyết có nhiều ứng dụng thực tiễn chẳng hạn như dùng trong gom cụm (chủ đề), suy luận chủ đề khi chưa biết chính xác số chủ đề trong ngữ cảnh lượng dữ liệu lớn, đến liên tục trên luồng. Mô hình này có được xem như là một phương pháp gom cụm nằm trong nhóm thống kê phi tham số Bayes, mô hình vẫn có tham số nhưng người sử dụng không cần phải thiết lập tham số.

Trong một thời gian dài, quy trình Dirichlet là thước đo ngẫu nhiên rời rạc tiêu chuẩn vàng trong phép đo phi tham số Bayes [76]. Quy trình Pitman – Yor cung cấp

một sự tổng quát hóa đơn giản và có thể kiểm soát được về mặt toán học, cho phép kiểm

soát rất hiệu quả hoạt động gom cụm. Hai cách trình bày thường được sử dụng của quy

trình Pitman – Yor là quy trình bẻ que và quy trình nhà hàng Trung Hoa. Quy trình bẻ

que là một biểu diễn mang tính xây dựng rất tiện dụng cho việc triển khai thực tế, trong

khi quy trình nhà hàng Trung Hoa mô tả sự phân bố phân vùng.

2.1.5.1 Nguyên lý Poly Urn

Quy trình rút ra các mẫu liên tiếp 𝒩1, 𝒩2... từ một phân phối được mô tả bởi nguyên lý nhiều chiếc bình poly urn (Blackwell và cộng sự, 1973) có thể được tóm tắt như công

thức (2.12) sau:

𝑛−1 ∑ 𝒩𝑛 − 𝒩𝑘 𝑘=1 α + n − 1

(2.12) + 𝒩𝑛|𝒩1:𝑛−1 ∼ α α + n − 1

𝑛 − 1

Ở đây, 𝛿(𝑥) = 1 nếu 𝑥 = 0 và 𝛿 (𝑥) = 0 nếu ngược lại. Ban đầu, chiếc bình rỗng, vì vậy ta rút ra một màu từ từ phân phối chuẩn, tức là 𝒩1 ∼ 𝒩0, và đặt một trái banh màu đã chọn vào trong bình. Trong lượt tiếp theo, ta rút ra một màu từ phân phối

α + n − 1

αN0 α + n − 1

đã được rút ra với xác suất , hoặc rút ra một màu mới với xác suất . Từ

đó, việc rút ra các mẫu từ phân phối được lặp đi lặp lại, do đó, màu giống nhau có thể

xuất hiện nhiều lần. Điều này xác định rằng ta có 𝐾 số màu riêng biệt với 𝑛 lần rút. Điều

kiện này được xác định bởi một quy trình nổi tiếng được gọi là quy trình nhà hàng Trung

Hoa (CRP) [26]. Trong CRP, ta k sử rằng có vô số bàn trong một nhà hàng và mỗi bàn

có vô số ghế trống xung quanh. Khách hàng đầu tiên ngồi vào bàn đầu tiên, và sau đó,

khách hàng tiếp theo hoặc chọn ngồi vào bất kỳ bàn nào đã có người ngồi với xác suất

α + n − 1

n𝑘 α + n − 1 đang ngồi trên một bàn cụ thể. Một khách hàng mới có xu hướng bị thu hút bởi một bàn đông đúc. Hiện tượng này là một phần trong công thức của chúng ta để hiểu việc tạo ra

hoặc chọn bàn trống với xác suất . Ở đây, n𝑘 là số lượng khách hàng

các chủ đề theo thời gian. CRP đại diện cho các lần rút ra từ phân phối 𝒢, trong khi quy

∞

trình bẻ que hiển thị thuộc tính của 𝒢 một cách rõ ràng như công thức (2.13):

(2.13)

𝑘=1

𝒢(𝒩) = ∑ 𝜃𝑘𝛿(𝒩 − 𝒩𝑘) , 𝒩𝑘 ∼ 𝒩0

∞ có thể được hình thức hóa bằng 𝜃 ∼ 𝐺𝐸𝑀 (𝛾) (Neal, 2000). Chúng ta khai thác công thức (2.13) cho quy trình sinh của mô

Các trọng số hỗn hợp 𝜃 = {𝜃𝑘} 𝑘 = 1

hình hỗn hợp đa thức quy trình Dirichlet (DPMM) như công thức (2.14) sau:

(2.14) 𝑧𝑑|𝜃 ∼ 𝑀𝑢𝑙𝑡(𝜃) 𝑑 = 1, … , ∞

𝒩𝑘|𝛽 ∼ 𝐷𝑖𝑟(𝛽) 𝑘 = 1,..., ∞

∞ ∼ 𝑝(𝑑|𝒩𝑧𝑑)

𝑑|𝑧𝑑, {𝒩𝑘}𝑘=1

Ở đây, 𝑧𝑑 là các tài liệu được gán cho chủ đề (được phân phối đa thức). Xác suất

của tài liệu 𝑑 được sinh ra bởi chủ đề 𝑧 được tóm tắt như công thức (2.15):

(2.15)

𝑝(𝑑|𝒩𝑧) = ∏ 𝑀𝑢𝑙𝑡(𝜔|𝒩𝑧) 𝜔∈𝑑

Ở đây, giả định Bayes được xem là nơi các từ trong tài liệu được chủ đề tạo ra một

cách độc lập. Trong khi đó, có thể rút ra tuần tự mẫu bằng cách tuân theo CRP. Người

ta cũng giả định rằng vị trí của các từ trong tài liệu không được xem xét trong khi tính

toán xác suất.

2.1.5.2 Quy trình nhà hàng Trung Hoa

“Quy trình nhà hàng Trung Hoa” được định nghĩa bởi Aldous 1985 [5] và Pitman

2006 [64]. Đây là bài toán liên quan đến ý tưởng “vô số cụm hay chưa biết trước số

cụm” trong mô hình. Giả sử có một nhà hàng có số lượng khách là vô hạn và số lượng

bàn của nhà hàng cũng là vô hạn. Mỗi khách khi đến nhà hàng sẽ chọn ngồi vào một

𝑛𝑐 𝛼+∑ 𝑛𝑐𝑐 ngồi vào bàn chưa có người ngồi với xác suất 𝑝(𝑛𝑔ồ𝑖 𝑏à𝑛 𝑘ℎô𝑛𝑔 𝑐ó 𝑛𝑔ườ𝑖 𝑘) =

; chiếc bàn với xác suất: ngồi vào bàn có người ngồi 𝑝(𝑛𝑔ồ𝑖 𝑏à𝑛 𝑐ó 𝑛𝑔ườ𝑖 𝑐) =

𝛼 𝛼+∑ 𝑛𝑐𝑐 mở, 𝑛𝑐 là số lượng người hiện đang ngồi ở bàn c, ∑ 𝑐 là số khách hàng đang ngồi tại nhà hàng.

. Với 𝛼 được gọi là tham số chỉ “độ tập trung”, số này tỉ lệ thuận với số bàn phải

Nếu cần phải trang bị ngẫu nhiên q bàn khi biết hệ số 𝛼 và số n khách tới nhà hàng,

𝑛

kỳ vọng và phương sai của q được xấp xỉ theo công thức: kỳ vọng là 𝔼[𝑞|𝛼, 𝑛] ≈

𝛼

𝛼ln (1 + ); phương sai là 𝕍[𝑞|𝛼, 𝑛] ≈ 𝛼ln (1 + ).

2.1.5.3 Quy trình Dirichlet

Được định nghĩa bởi Ferguson năm 1973 [26], quy trình Dirichlet là một quy trình

ngẫu nhiên thường được sử dụng và là nền tảng quan trọng của các mô hình thống kê

phi tham số Bayes. Quy trình này được xem như là một phân bố dựa trên một phân bố

khác gọi là phân bố nền (base distribution). Như vậy, ta có: 𝐺~𝐷𝑃(𝛼, 𝐻) với 𝐻 là phân

bố nền và 𝛼 là một số dương gọi là tham số độ tập trung.

Cho một tập hữu hạn phần tử không gian xác suất 𝐴1, 𝐴2, … , 𝐴𝑟 với véc tơ ngẫu nhiên là (𝐺(𝐴1), 𝐺(𝐴2), … , 𝐺(𝐴𝑟)) được phân bố ngẫu nhiên theo G. Vậy, G là biến ngẫu nhiên được phân bố theo quy trình Dirichlet với phân bố nền H và độ tập trung 𝛼 nếu véc tơ này thỏa 𝐺(𝐴1), 𝐺(𝐴2), … , 𝐺(𝐴𝑟)~𝐷𝑖𝑟(𝛼𝐻(𝐴1), 𝛼𝐻(𝐴2), … , 𝛼𝐻(𝐴𝑟)), trong đó Dir là phân bố Dirichlet sao cho tập các trường hợp xảy ra thỏa véc tơ có tổng bằng

1. Để thỏa các yêu cầu này, quy trình Dirichlet có thể được xây dựng từ nguyên lý Nhà

hàng Trung Hoa hay kỹ thuật bẻ que.

2.1.5.4 Mô hình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet

Mô hình hỗn hợp là một mô hình xác suất dùng để biểu diễn cho mô hình tổng thể

bằng sự hiện diện của các phân bố con theo hệ số hỗn hợp, có nghĩa là một phân bố tổng

𝐾 𝑘=1

𝜋𝑘𝒩(𝑥|𝜇𝑘, ∑𝑘)

quát có thể được biểu diễn bằng việc trộn các phân bố con. Giả sử có 𝐾 phân bố con, mỗi phân bố con 𝑘𝑖 được cho bởi một tham số 𝜃𝑖, ta có: 𝑝(𝑥|𝜃) = ∑ 𝜋𝑘𝑝𝑘(𝑥|𝜃𝑘) Lấy ví dụ mô hình hỗn hợp của phân bố chuẩn được xác định bởi tham số kỳ vọng 𝜇 và ma trận hiệp phương sai ∑ ta có: 𝑝(𝑥|𝜃) = ∑ hay 𝑝(𝑥|𝜃) = 𝜋1𝒩(𝑥|𝜇1) + 𝜋2𝒩(𝑥|𝜇2) + ⋯ + 𝜋𝑘𝒩(𝑥|𝜇𝑘).

Ta có thể biểu diễn mô hình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet

như Hình 2.2.

Hình 2.2: Mô hình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet

Qui ước:

 H là phân bố cho trước.

 𝛼 là tham số tập trung cho trước.

 𝜃 là tham số tập trung cho trước bao gồm các tham số 𝜃𝑖̅.

 𝑥𝑖 là các điểm dữ liệu.

Quá trình sinh của mô hình hỗn hợp dựa trên quy trình Dirichlet được biểu diễn ở

Hình 2.2 có thể được mô tả như sau: giả sử từ phân bố 𝐻 và tham số tập trung 𝛼 cho

trước, ta sử dụng qui trình Dirichlet để sinh ra các tham số 𝜃 hay sinh ra các bộ tham số 𝜃𝑖̅ nào đó 𝑁 lần và mỗi bộ tham số 𝜃𝑖̅ được dùng để sinh ra các điểm dữ liệu 𝑥𝑖. Trong tập các bộ tham số {𝜃1̅̅̅, … , 𝜃𝑛̅̅̅ } tồn tại những bộ tham số được lặp đi lặp lại nhiều lần, giả sử trong đó có K bộ tham số khác nhau 𝜃𝑖̅ ∈ {𝜃1, … , 𝜃𝑘} thì có thể hình dung quá trình này sinh ra một tập dữ liệu có mô hình hỗn hợp K cụm.

2.1.5.5 Mô hình hỗn hợp dựa trên quy trình Dirichlet [56]

Đây là mô hình dựa trên cơ sở lý thuyết giả định rằng phân bố hỗn hợp của dữ liệu

được sinh ra từ một phân bố của tham số 𝜃 thông qua quy trình Dirichlet. Dựa trên mô

hình Bayes, có nhiều cách để tìm tham số trong đó kỹ thuật thông dụng được sử dụng

như Markov Chain Monte Carlo hay biến phân Variantional Inference. Với mỗi cách

giải quyết bài toán khác nhau, có thể định nghĩa các mô hình sinh khác nhau. Ví dụ, với mô hình hỗn hợp 𝐾 cụm sinh 𝑁 điểm dữ liệu 𝑥𝑖, mỗi điểm dữ liệu được gán nhãn thuộc về một cụm 𝑧𝑖 nào đó, có thể biểu diễn mô hình sinh cho mô hình hỗn hợp hữu hạn như Hình 2.3 (các tham số cần thiết 𝛼, 𝜋, 𝜆, 𝜃 đã được gán trước giá trị).

Hình 2.3: Mô hình sinh của mô hình hỗn hợp hữu hạn

Qui ước:

 𝛼 là tham số tập trung

 𝐾 là số cụm 𝑧𝑖

 𝑁 là số điểm dữ liệu 𝑥𝑖 (mỗi điểm dữ liệu thuộc về một cụm nào đó)

 𝜋 là hệ số hỗn hợp của mô hình

Với tập tham số 𝜃 cho trước, biết điểm dữ liệu 𝑥𝑖 thuộc về cụm 𝑘, ta có: 𝑝(𝑥𝑖|𝑧𝑖 = 𝑘, 𝜃) = 𝑝(𝑥𝑖|𝜃𝑘). Gọi 𝜋 là một véc tơ 𝑘 thành phần có tổng là 1, thể hiện hệ số hỗn hợp của mô hình hỗn hợp, xác suất dữ liệu thuộc về cụm 𝑘 tương ứng là: 𝑝(𝑧𝑖 = 𝑘|𝜋) = 𝜋𝑘. Giả sử 𝜋 được sinh ra từ quy trình phân bố Dirichlet với tham số 𝛼 (ký hiệu 1𝐾 đại diện cho véc tơ 𝐾 tất cả thành phần đều là 1): 𝑝(𝜋|𝛼) = 𝐷𝑖𝑟(𝜋|(𝛼 𝐾⁄ )1𝐾). Mỗi tham số 𝜃𝑘 được sinh ra từ phân bố 𝜃𝑘~𝐻(𝜆), 𝑝(𝜃𝑘|𝜆) được chọn liên hợp với phân bố 𝑝(𝑥𝑖|𝜃𝑘) để thuận lợi cho việc tính toán phân bố tiên nghiệm. Lúc này, nếu biết 𝑥𝑖 thuộc cụm 𝜃𝑘, ta có thể viết 𝑝(𝑥𝑖|𝜃𝑘) được sinh ra từ phân bố 𝑥𝑖~𝐹(𝜃𝑧𝑖) với 𝐹 là phân bố con được sử dụng trong mô hình hỗn hợp. Giả sử rằng phân bố 𝐻 liên hợp với 𝐹, nhờ tính chất giao hoán, có thể sử dụng Collapsed Gibbs Sampling cho mô hình (lượt bỏ 𝜋 và 𝜃𝑘) và tìm 𝑧𝑖. Như vậy, phân bố có điều kiện của z khi biết trước tập dữ liệu x cùng với cụm của các điểm dữ liệu khác như sau: 𝑝(𝑧𝑖 = 𝑘|𝑧−𝑖, 𝑥, 𝛼, 𝜆) ∝ 𝑝(𝑧𝑖 = 𝑘|𝑧−𝑖, 𝛼)𝑝(𝑥𝑖|𝑧−𝑖, 𝑥−𝑖, 𝑧𝑖 = 𝑘, 𝜆) với 𝑛𝑘,−𝑖 là số lượng điểm thuộc cụm 𝑘 ngoại trừ điểm 𝑥𝑖.

Trường hợp biết trước số cụm (hữu hạn)

𝛼

Trong trường hợp này, ta có công thức (2.16)

(2.16)

𝑝(𝑧𝑖 = 𝑘|𝑧−𝑖, 𝛼) = 𝑛𝑘,−𝑖 + 𝑘 𝛼 + 𝑁 − 1

Và công thức (2.17)

(2.17)

𝑗≠𝑖,𝑧𝑖=𝑘

𝑝(𝑥𝑖|𝑧−𝑖, 𝑥−𝑖, 𝑧𝑖 = 𝑘, 𝜆) ∝ ∫ 𝑝(𝑥𝑗|𝜃𝑘) [ ∏ 𝑝(𝑥𝑗|𝜃𝑘) ] 𝐻(𝜃𝑘|𝜆)𝑑𝜃𝑘

Thuật toán dành cho mô hình hữu hạn được mô tả như sau (xem Thuật toán 2.2).

Thuật toán 2.2: Mô hình hỗn hợp Dirichlet hữu hạn

Input:

 N# số điểm dữ liệu  𝐾#số cụm  𝛼#tham số tập trung 

𝑖𝑡𝑒𝑟𝑎𝑡𝑜𝑟#số vòng lặp mong muốn

Output: 𝑧

Initialize: 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 #lưu các cụm

𝑐𝑙𝑢𝑠𝑡𝑒𝑟 ← K cụm, mỗi cụm là 1 phân bố

for i =1 → N do

𝑧𝑖 ← 𝑙ấ𝑦 𝑛𝑔ẫ𝑢 𝑛ℎ𝑖ê𝑛 𝑡ừ 1 − 𝐾 𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑖]. 𝑎𝑑𝑑(𝑥𝑖) 𝑣à 𝑐ậ𝑝 𝑛ℎậ𝑡 𝑐á𝑐 𝑡ℎ𝑎𝑚 𝑠ố

end

for 𝑖𝑡𝑒𝑟 = 1 → 𝑖𝑡𝑒𝑟𝑎𝑡𝑜𝑟 do

for 𝑖 = 1 → 𝑁 do

10:

𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑖]. 𝑟𝑒𝑚𝑜𝑣𝑒(𝑥𝑖) 𝑣à 𝑐ậ𝑝 𝑛ℎậ𝑡 𝑐á𝑐 𝑡ℎ𝑎𝑚 𝑠ố Tính và chuẩn hóa 𝑝(𝑧𝑖|𝑧−𝑖, 𝑥, 𝛼, 𝜆), gọi phân bố rời rạc này là 𝑝(𝑧𝑛𝑒𝑤|. ) #công thức (2.16) và (2.17)

11:

Lấy mẫu 𝑧𝑛𝑒𝑤~𝑝(𝑧𝑛𝑒𝑤|. )

𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑛𝑒𝑤]. 𝑎𝑑𝑑(𝑥𝑖) 𝑣à 𝑐ậ𝑝 𝑛ℎậ𝑡 𝑐á𝑐 𝑡ℎ𝑎𝑚 𝑠ố 𝑧[𝑖] = 𝑧𝑛𝑒𝑤

14:

end

15: end for

16: return z

Thuật toán 2.2 [56] mô tả các bước gom cụm với mô hình hỗn hợp Dirichlet trong trường hợp số cụm cố định là 𝐾. Đầu tiên, cụm 𝑧𝑖 được lấy ngẫu nhiên từ 𝐾 cụm và thêm các điểm dữ liệu 𝑥𝑖 tương ứng (dòng 4 và 5). Tiếp theo, thuật toán thực hiện lặp với số lần lặp mong muốn là 𝑖𝑡𝑒𝑟𝑎𝑡𝑜𝑟. Trong mỗi bước lặp, tương tự LDA, trước khi xây dựng một phân phối từ công thức (2.10) và (2.17), thuật toán phải loại bỏ phép gán

hiện tại từ công thức. Điều này có thể được thực hiện bằng cách giảm số lượng liên quan đến phép gán hiện tại thông qua việc cập nhật các tham số (dòng 9). Tiếp theo, thuật toán tính xác suất và chuẩn hóa của mỗi phép gán chủ đề (dòng 10) bằng cách sử dụng công thức (2.10) và (2.17). Phân phối rời rạc này sau đó được lấy mẫu (dòng 11), các

điểm dữ liệu được gán vào cụm và các tham số được cập nhật (dòng 12), chủ đề đã chọn

sau đó được gán vào mảng z (dòng 13).

Trường hợp chưa biết trước số cụm (vô hạn)

Trong trường hợp này, cụm mới được ký hiệu là 𝑘∗ và tham số cụm mới là 𝜃∗, 𝑘 là cụm cũ và 𝜃 là tham số cụm cũ. Vì chưa biết số cụm, giả sử hiện có 𝐾 cụm và tại mỗi

lần lặp điểm dữ liệu có thể xếp vào cụm cũ hay cụm mới.

Khi 𝐾 → ∞, ta có: nếu là cụm cũ thì xác suất tính theo công thức (2.18):

(2.18) 𝑝(𝑧𝑖 = 𝑘|𝑧−𝑖, 𝛼) = 𝑛𝑘,−𝑖 𝛼 + 𝑁 − 1

𝛼

Nếu là cụm mới thì xác suất được tính theo công thức (2.19):

(2.19) 𝑝(𝑧𝑖 = 𝑘∗|𝑧−𝑖, 𝛼) = 𝛼+𝑁−1

Xác suất một điểm dữ liệu thuộc về cụm cũ được tính theo công thức (2.20):

𝑗≠𝑖,𝑧𝑖=𝑘

(2.20) 𝑝(𝑥𝑖|𝑧−𝑖, 𝑥−𝑖, 𝑧𝑖 = 𝑘, 𝜆) ∝ ∫ 𝑝(𝑥𝑖|𝜃𝑘)[∏ 𝑝(𝑥𝑗|𝜃𝑘) ]𝐻(𝜃𝑘|𝜆)𝑑𝜃𝑘

Xác suất một điểm dữ liệu thuộc về cụm mới được tính theo công thức (2.21):

(2.21)

𝑝(𝑥𝑖|𝑧−𝑖, 𝑥−𝑖, 𝑧𝑖 = 𝑘∗, 𝜆) ∝

∫ 𝑝(𝑥𝑖|𝜃∗)[∏

𝑝(𝑥𝑗|𝜃∗)

]𝐻(𝜃𝑘|𝜆)𝑑𝜃∗ =

𝑗≠𝑖,𝑧𝑖=𝑘

∫ 𝑝(𝑥𝑖|𝜃∗)𝐻(𝜃∗|𝜆)𝑑𝜃∗ = 𝑝(𝑥𝑖|𝜆)

Trong mô hình này, trong mỗi bước lặp xử lý ngoài những cụm đã có ta cần xét xem có nên tạo cụm mới để thêm điểm dữ liệu vào hay không. Do đó, sẽ có trường hợp các cụm được tạo ra là những cụm không cần thiết. Tuy nhiên, hầu hết những cụm thừa

này sẽ bị loại bỏ sau vài lần lặp vì khi lặp đủ nhiều thì 𝐾 sẽ lặp quanh quẩn trong một

khoảng nào đó.

Thuật toán của mô hình không giới hạn được mô tả như sau (xem Thuật toán 2.3)

Thuật toán 2.3: Mô hình hỗn hợp Dirichlet vô hạn

Input:

 𝐾 #số cụm là số rất lớn  𝛼#tham số tập trung 

𝑖𝑡𝑒𝑟𝑎𝑡𝑜𝑟#số vòng lặp mong muốn

Output: 𝑧#kết quả phân cụm

Initialize: cluster #lưu các cụm

clusters ← K cụm, mỗi cụm là 1 phân bố điểm dữ liệu

for i =1 → N do

end

for 𝑖𝑡𝑒𝑟 = 1 → 𝑖𝑡𝑒𝑟𝑎𝑡𝑜𝑟 do

for 𝑖 = 1 → 𝑁 do

𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑖]. 𝑟𝑒𝑚𝑜𝑣𝑒(𝑥𝑖) 𝑣à 𝑐ậ𝑝 𝑛ℎậ𝑡 𝑐á𝑐 𝑡ℎ𝑎𝑚 𝑠ố

10:

if (𝑐ụ𝑚 𝑣ừ𝑎 𝑥ó𝑎 rỗng) then xóa 𝑐ụ𝑚 𝑛à𝑦 khỏi 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 và cập nhật các tham số

11:

Tính và chuẩn hóa 𝑝(𝑧𝑖|𝑧−𝑖, 𝑥, 𝛼, 𝜆), gọi phân bố rời rạc này là 𝑝(𝑧𝑛𝑒𝑤|. ) #công thức (2.19)

12:

Lấy mẫu 𝑧𝑛𝑒𝑤~𝑝(𝑧𝑛𝑒𝑤|. )

13:

if 𝑧𝑛𝑒𝑤 là 𝑐ụ𝑚 𝑚ớ𝑖 then 𝑐𝑙𝑢𝑠𝑡𝑒𝑟. 𝑎𝑑𝑑(𝑧𝑛𝑒𝑤) và cập nhật các 𝑡ℎ𝑎𝑚 𝑠ố #sử dụng công thức (2.20) và (2.21) để tính và so sánh

14:

𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑛𝑒𝑤]. 𝑎𝑑𝑑(𝑧𝑛𝑒𝑤) và cập nhật các 𝑡ℎ𝑎𝑚 𝑠ố

15:

end

16:

17:

𝑐𝑙𝑢𝑠𝑡𝑒𝑟[𝑧𝑖]. 𝑎𝑑𝑑(𝑥𝑖) 𝑣à 𝑐ậ𝑝 𝑛ℎậ𝑡 𝑐á𝑐 𝑡ℎ𝑎𝑚 𝑠ố 𝑧[𝑖] = 𝑧𝑛𝑒𝑤

18: end

19: return z

Thuật toán 2.3 [56] mô tả các bước gom cụm với mô hình hỗn hợp Dirichlet trong trường hợp số cụm thay đổi. Đầu tiên, cụm 𝑧𝑖 được lấy ngẫu nhiên từ 𝐾 cụm và thêm các điểm dữ liệu 𝑥𝑖 tương ứng (dòng 4 và 5). Tiếp theo, thuật toán thực hiện lặp với số lần lặp mong muốn là 𝑖𝑡𝑒𝑟𝑎𝑡𝑜𝑟. Trong mỗi bước lặp, tương tự LDA, trước khi xây dựng một phân phối từ công thức (2.19), thuật toán phải loại bỏ phép gán hiện tại từ công

thức. Điều này có thể được thực hiện bằng cách giảm số lượng liên quan đến phép gán

hiện tại thông qua việc cập nhật các tham số (dòng 9). Tiếp theo, nếu cụm vừa xóa không

còn chứa điểm dữ liệu nào thì xóa cụm và cập nhật các tham số (dòng 11). Sau đó, thuật

toán tính xác suất và chuẩn hóa của mỗi phép gán chủ đề (dòng 11) bằng cách sử dụng

công thức (2.19). Phân phối rời rạc này sau đó được lấy mẫu (dòng 12) và được xem

xét xem thuộc cụm mới hay cụm cũ dựa vào việc tính và so sánh xác suất thuộc cụm mới hay cụm cũ theo công thức (2.20) và (2.21), nếu là cụm mới thì sẽ được thêm vào

danh sách cụm đồng thời thuật toán cập nhật tham số tương ứng (dòng 14). Sau đó, các

điểm dữ liệu được gán vào cụm và các tham số được cập nhật (dòng 16), chủ đề đã chọn

sau đó được gán vào mảng z (dòng 17).

2.1.6 Đồ thị con phổ biến

Khai phá đồ thị con phổ biến

Với một tập hợp các đồ thị dạng văn bản đã xây dựng ({G1, G2, … G|D|}) từ một kho văn bản nhất định (D), với V và E là tập hợp các từ xuất hiện đặc biệt W là các nút của

đồ thị và các quan hệ đồng xuất hiện tương ứng của chúng. Kỹ thuật khai phá đồ thị con

′ , G2

′ … G|F|

′ ∈ E, được xem là đặc trưng phân biệt cho các tài

phổ biến, chẳng hạn như: gSpan, FFSM, vv... là kỹ thuật dùng để rút trích ra tập hợp các ′ }, trong đó mỗi đồ thị con phổ đồ thị con phổ biến, được ký hiệu là: F = {G1

′ = (Vf

′), với Vf

′ ∈ V và Ef

′, Ef ′. liệu đã cho có chứa đồ thị con Gf

biến: Gf

Thuật toán gSpan

Thuật toán gSpan [9], viết tắt của khai phá mẫu cấu trúc con dựa trên đồ thị (graph-

based Substructure pattern mining), được Yan và Han giới thiệu vào năm 2002. Thuật

toán dựa trên phương pháp tiếp cận tăng trưởng theo mẫu (pattern), sử dụng chiến lược

tìm kiếm theo chiều sâu để duyệt đồ thị, tìm các ứng cử viên và kiểm tra các đồ thị con phổ biến (xuất hiện thường xuyên). Kể từ đó, đã có nhiều công trình khoa học sử dụng thuật toán này hoặc các thuật toán mở rộng của nó để phát hiện các đồ thị con phổ biến trong một tập đồ thị được cho [60, 63].

Thuật toán gSpan [9] đề xuất phương pháp tìm theo chiều sâu (DFS Code) để xây

dựng cây tìm kiếm (DFS Code Tree), để tìm ra mã tìm kiếm tối thiểu. Để có thể xác

định xem các đồ thị có đồng dạng với nhau hay không, tìm mã tìm kiếm cực tiểu của hai

đồ thị và so sánh chúng, nếu hai mã tìm kiếm này bằng nhau thì hai đồ thị là đồng dạng.

Thuật toán 2.4: Thuật toán gSpanAlgorithm

Input:

 Tập đồ thị của tập tài liệu D  Giá trị support nhỏ nhất 𝜎

Output: Tập các đồ thị con phổ biến của tập tài liệu 𝐷, ký hiệu: FD

Sắp xếp thứ tự các nhãn trong 𝐷 dựa vào tần số

Loại bỏ các đỉnh và cạnh không phổ biến

Gán nhãn lại cho các đỉnh và cạnh còn lại

1 ← tất cả đồ thị phổ biến có 1 cạnh trong 𝐹𝐷 1 theo thứ tự từ điển DFS

1 𝐝𝐨

F𝐷 Sắp xếp F𝐷 1 𝐹𝐷 ← F𝐷 for each đỉnh 𝑒 ∈ F𝐷 khởi tạo 𝑠 với 𝑒, gán các đồ thị có chứa 𝑒 cho 𝐷𝑠

Subgraph_Mining (D, 𝐹𝐷,s, 𝜎)

10: 𝐷 ← 𝐷 − 𝑒

11: if |𝐷| < 𝜎 then

12:

break

13: end

14: end

Thuật toán 2.5: Thuật toán con Subgraph_Mining của gSpanAlgorithm

Input:

 Tập đồ thị của tập tài liệu D  Tập đồ thị con 𝑠  Giá trị support nhỏ nhất 𝜎

Output: Tập các đồ thị con phổ biến của tập tài liệu 𝐷, ký hiệu: FD

𝐢𝐟 𝑠 ≠ 𝑚𝑖 𝑛(𝑠) 𝐭𝐡𝐞𝐧

Return

𝐹𝐷 ← 𝐹𝐷 ∪ {𝑠}

liệt kê s trong mỗi đồ thị trong 𝐷 và đếm các con của nó;

𝐟𝐨𝐫 𝐞𝐚𝐜𝐡 c, c là con của s 𝐝𝐨

𝐢𝐟 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑐) ≥ 𝜎 𝐭𝐡𝐞𝐧

s ← c

Subgraph_Mining(D, 𝐹𝐷, 𝑠, 𝜎)

𝐞𝐧𝐝

10: 𝐞𝐧𝐝

Thuật toán 2.4 gSpanAlgorithm có thể tóm tắt thành các bước sau:

(1)- Hệ thống khởi tạo cấu trúc FD để lưu các tập đồ thị con phổ biến của tập tài liệu D

(2)- Với mỗi tập đồ thị từ 𝑠 thuộc về tập đồ thị từ của tập tài liệu D, hệ thống duyệt tất cả đồ thị con của 𝑠 và thêm các đồ thị con thỏa min support α vào tập FD tương ứng

Có thể mô tả chi tiết Thuật toán 2.4 gSpanAlgorithm [9] thành các bước sau. Thuật

toán sử dụng biểu diễn danh sách kề rời rạc để lưu trữ đồ thị. Trong thuật toán 𝐷 đại diện cho tập dữ liệu đồ thị, FD chứa kết quả khai phá đồ thị con phổ biến. Giả sử chúng ta có một tập nhãn {𝐴, 𝐵, 𝐶} đại diện cho các đỉnh và {a, b, c} đại diện cho các cạnh.

Trong Thuật toán 2.4 (dòng 7-12), vòng đầu tiên sẽ khám phá tất cả các đồ thị con phổ

𝑎 ↔ 𝐴. Vòng thứ hai sẽ khám phá tất cả các đồ thị con phổ biến

biến có chứa một cạnh 𝐴

𝑎 ↔ 𝐵, nhưng không chứa bất kỳ 𝐴

𝑎 ↔ 𝐴 nào. Quy trình này lặp lại cho đến khi tất

chứa 𝐴

cả các đồ thị con phổ biến được phát hiện. Cơ sở dữ liệu bị thu hẹp khi quy trình này

tiếp tục (Thuật toán 2.4 dòng 10) và khi đồ thị con lớn hơn (Với Thủ tục con ở Thuật toán 2.1 dòng 8, chỉ những đồ thị chứa đồ thị con này mới được xem xét. 𝐷𝑠 là tập hợp

các đồ thị trong đó 𝑠 là một đồ thị con). Hoạt động khai thác đồ thị con được gọi đệ quy

để phát triển các đồ thị và tìm tất cả các con cháu phổ biến của chúng. Khai thác đoạn

con ngừng tìm kiếm khi độ ℎỗ 𝑡𝑟ợ (𝑠𝑢𝑝𝑝𝑜𝑟𝑡) của biểu đồ nhỏ hơn ngưỡng 𝑚𝑖𝑛𝑆𝑢𝑝 𝜎

hoặc đồ thị này và tất cả các đồ thị con của nó đã được tạo và được phát hiện trước đó.

Độ phức tạp của thuật toán gSpan. Khai thác đồ thị con phổ biến từ tập văn bản, độ phức tạp của thuật toán gSpan: 𝒪(|𝑉|2log |𝑉|), với V là tổng đỉnh của tất cả các đồ thị từ trong tập văn bản.

2.1.7 Mô hình hóa sự nổi bật trên luồng văn bản của Kleinberg

Mô hình hóa sự nổi bật

Mô hình hóa sự nổi bật theo chuỗi thời gian là những bài toán thực tế, thu hút rất

nhiều sự quan tâm. Công trình [29] đã giải quyết những vấn đề này bằng cách sử dụng

một mô hình có một tham số gọi là mô hình 𝑏. Một đối tượng được coi là tự tương đồng

nếu nó tương đồng với một phần của chính nó, ví dụ một hoặc nhiều phần của đối tượng

tương đồng với toàn bộ của chính đối tượng đó. Khi một đối tượng có các thuộc tính

thống kê giống nhau ở các mức độ khác nhau, thì đối tượng đó tự tương đồng về mặt

thống kê. Có nhiều đối tượng tự giống nhau qua các mức độ thời gian khác nhau và

chúng là các chuỗi thời gian tương đồng nhau. Các đối tượng chuỗi thời gian tự tương

đồng này trong thế giới thực có rất nhiều ứng dụng như video, tài liệu, hệ thống tập tin,

Ethernet, Tin tức, mạng xã hội, ... Chúng không chỉ giống nhau mà còn thể hiện sự nổi

bật đáng kể và thường áp dụng “Luật 80/20” có nghĩa là 20% dữ liệu được 80% truy

vấn truy cập. Trong mô hình 𝑏, 𝑏 là tham số chệch được sử dụng để lập mô hình tỷ lệ

phần trăm độ lệch của các hoạt động. Vì có nhiều hoạt động hơn trong 𝑏% của các phân

đoạn so với phần còn lại, tham số chệch b được sử dụng để tổng hợp một dấu vết và

𝑒𝑛𝑡𝑟𝑜𝑝𝑦 có thể được sử dụng để mô tả độ nổi bật nhằm đưa mô hình vào dữ liệu huấn

luyện. So với dữ liệu thực, các dấu vết tổng hợp có ý nghĩa thực tế hơn nhiều. Thay vì tập trung vào các hành vi và mô hình nổi bật như [81] và [42] đã làm, [102] tập trung vào một thuật toán hiệu suất cao để phát hiện các sự cố trên nhiều kích thước cửa sổ. Những nghiên cứu này định nghĩa sự nổi bật đơn giản và áp dụng nó cho nhiều ứng

dụng trong thế giới thực.

Việc phát hiện các cụm không gian, được định nghĩa là một vùng hình vuông và được mở rộng thành hình chữ nhật trong các nghiên cứu sau này, đã được thực hiện bởi

nhiều công trình, sử dụng mật độ cao nhất [57, 58]. Không gian đa phương tiện, một

vùng hình vuông có mật độ cao nhất, được sử dụng để phát hiện các cụm không gian

quan trọng trong [70]. Những nghiên cứu này sử dụng một hàm không đơn điệu mật độ

chung. Chỉ vùng có mật độ cao nhất mới được xem xét. Để loại bỏ các vùng không thể

thực hiện được, họ sử dụng phương pháp từ trên xuống, phân nhánh và ràng buộc, gọi

là cây chồng chéo 𝑘𝑑 (overlap-kd-tree). Để xác định sự thay đổi theo thời gian của các

từ có tần số cao, cấu trúc sự nổi bật của luồng văn bản được trình bày trong [42]. Có

nhiều ngữ cảnh khác nhau đối với luồng văn bản được đề cập trong các công trình như các bài báo, email, ấn phẩm nghiên cứu và mục đích chính của công trình là thể hiện

một số sự nổi bật và hành vi mang tính thứ bậc và cấp bậc. Vì một số từ xuất hiện thường

xuyên hơn những từ khác trong những khoảng thời gian nhất định và những tần số này

thay đổi theo thời gian, Kleinberg sử dụng một Automát trạng thái không xác định để hạ thấp phân phối hàm mũ để phát hiện các mức độ nổi bật khác nhau trong các thang

thời gian khác nhau và xem xét khoảng cách giữa hai thông điệp liên tiếp.

Phát hiện sự nổi bật

Sự gia tăng nhanh chóng và liên tục trong một sự kiện xác định sự nổi bật trong

luồng văn bản. Vì vậy, một sự nổi bật được định nghĩa là khoảng thời gian mà một từ

khóa xuất hiện liên tục và trở nên phổ biến bất thường trên luồng văn bản và việc xác

định sự nổi bật được gọi là phát hiện sự nổi bật. Kleinberg là một thuật toán xác định và gán nhãn trạng thái cho các sự nổi bật. Quy trình sử dụng một Automát hai trạng thái sử

dụng phương pháp tính sự nổi bật [11, 29] được sử dụng rộng rãi hơn các phương pháp

được đề xuất như phát hiện sự nổi bật cho các sự kiện [69, 87], phương pháp dựa trên

thử nghiệm [78], phương pháp phi tham số [11]. Các phương pháp này được áp dụng

rộng rãi cho các lĩnh vực khác nhau của luồng văn bản bao gồm các ấn phẩm trực tuyến,

blog [103], e-mail [32], và mạng xã hội [91, 103], ... Trong nghiên cứu giải quyết bài

toán số 2, luận án gắn nhãn cho một sự nổi bật là “thời gian bắt đầu- thời gian kết thúc”

và xác định các cụm “từ khóa xu thế” (là tập hợp n từ khóa có trọng số sự nổi bật từ khóa cao nhất) gồm các từ khóa thuộc cùng một sự nổi bật và đề xuất một thuật toán để tìm các từ khóa này. Ngoài ra, luận án cũng đề xuất thuật toán xác định các sự nổi bật xu thế của một từ khóa (là tập hợp n sự nổi bật có trọng số tần số xuất hiện của từ khóa cao nhất).

Tiếp cận của Kleinberg

Giả sử có một luồng văn bản ví dụ như một thư mục e-mail lớn về một chủ đề rộng

duy nhất. Xác định sự nổi bật như thế nào và giúp ích gì trong việc cấu trúc luồng văn

bản này? Đặc điểm nổi trội là những sự nổi bật như vậy tương ứng với những thời điểm

mà cường độ thông điệp đến tăng mạnh, có thể từ vài tuần hoặc vài ngày một lần lên vài giờ hoặc vài phút một lần. Nhưng tỷ lệ lượt đến nói chung là rất “dao động (rugged)”:

tỷ lệ này thường không tăng lên một cách mượt mà và sau đó giảm đi, mà biểu hiện sự

luân phiên thường xuyên của các cơn sốt nhanh chóng và các khoảng dừng lâu hơn trong

khoảng thời gian gần. Do đó, các phương pháp phân tích khoảng cách giữa các lần gửi

tin nhắn liên tiếp theo một cách quá đơn giản có thể dễ dàng tập trung chú ý vào việc

xác định số lượng lớn các sự nổi bật ngắn, cũng như phân mảnh các sự nổi bật lớn thành

nhiều sự nổi bật nhỏ hơn. Hơn nữa, việc liệt kê đơn giản các tập hợp thông điệp gần

nhau chỉ là bước đầu tiên hướng tới cấu trúc phức tạp hơn. Do đó, mục tiêu rộng lớn

hơn là rút trích cấu trúc toàn cục từ một loại hình giảm mạnh dữ liệu - chỉ xác định các

sự nổi bật khi chúng đủ cường độ và theo cách cho phép một sự nổi bật liên tục diễn ra

suôn sẻ trên một mẫu (pattern) đến không đồng nhất của thông điệp.

Cách tiếp cận của Kleinberg là lập mô hình luồng bằng cách sử dụng automaton 𝒜

ở trạng thái không xác định, tại bất kỳ thời điểm nào có thể ở một trong các trạng thái

cơ bản và phát ra các thông điệp ở các tốc độ khác nhau tùy thuộc vào trạng thái của mô

hình. Cụ thể, automaton 𝒜 có một tập hợp các trạng thái tương ứng với tốc độ phát ngày

càng nhanh và khởi điểm của một sự nổi bật được báo hiệu bởi một sự chuyển đổi trạng

thái - từ trạng thái thấp hơn sang trạng thái cao hơn. Bằng cách ấn định chi phí cho việc chuyển đổi trạng thái, có thể kiểm soát được tần số của các chuyển đổi đó, ngăn chặn

các đợt nổi bật rất ngắn và giúp dễ dàng xác định các đợt nổi bật dài hơn dù cho tốc độ

của luồng có thay đổi. Khung tổng thể của thuật toán Kleinberg được đề xuất dựa trên

các phương pháp Markov được sử dụng trong việc mô hình hóa sự nổi bật trong lưu

lượng truy cập mạng, và các mô hình Markov ẩn.

Việc sử dụng automaton tự động có các trạng thái tương ứng với cường độ cao cung cấp thêm một nguồn để phân tích bổ sung - các sự nổi bật liên quan đến chuyển đổi trạng thái tạo thành một cấu trúc lồng nhau tự nhiên, với một đợt nổi bật dài cường độ thấp có khả năng chứa một số đợt nổi bật cường độ cao hơn bên trong (đệ quy). Đối với một thư mục gồm các e-mail có liên quan, có thể phân rã theo trật tự thời gian, với các tập dài hạn phân rã thành những tập ngắn gọn hơn theo cấu trúc cây tự nhiên. Do

đó, cây này có thể được xem như là một một cấu trúc tổ chức các tập con trên luồng

thông điệp. Có thể xem thêm các lý thuyết toán học về automaton ở công trình [42].

Ý tưởng thuật toán Kleinberg trong việc phát hiện sự nổi bật

Thuật toán xác định các khoảng thời gian khi một sự kiện “mục tiêu” (target)

thường xuyên xuất hiện một cách bất thường, hay còn gọi là “nổi bật”. Thuật toán có

thể được sử dụng để phát hiện các sự nổi bật trong một chuỗi sự kiện liên tục. Có một

tập hợp các sự kiện, bao gồm cả các sự kiện “mục tiêu” và không phải “mục tiêu” (non- target), được quan sát tại mỗi thời điểm t. Nếu chúng ta xem xét ví dụ về các bài viết,

thì các sự kiện “mục tiêu” có thể bao gồm các bài viết có một từ khóa “mục tiêu” được

nhắm đến và các sự kiện không phải mục tiêu có thể bao gồm tất cả các bài viết khác

không bao gồm từ khóa “mục tiêu” đó.

Cho: 𝑑 là tổng số sự kiện tại mỗi thời điểm; 𝑟 là tổng số sự kiện đích; Tỷ lệ các sự

kiện mục tiêu tại mỗi thời điểm được tính theo công thức (2.22):

(2.22) 𝑝 = 𝑟 𝑑⁄

Để phát hiện sự nổi bật, các trạng thái khác nhau được giả định tương ứng với các

xác suất khác nhau của các sự kiện “mục tiêu”. Một trạng thái có thể có xác suất mục

tiêu cao, thấp hoặc trung bình. Nếu giả định rằng chỉ có hai trạng thái có thể xảy ra, thì

chúng ta có thể coi trạng thái có xác suất thấp hơn là trạng thái cơ bản và trạng thái có

xác suất cao hơn là trạng thái nổi bật.

Xác suất cơ sở 𝑝0 bằng tỷ lệ tổng thể của các sự kiện “mục tiêu” (theo công thức

(2.23)).

(2.23) 𝑝0 = 𝑟 𝑑⁄

trong đó r là tổng các sự kiện mục tiêu và d là tổng các sự kiện tại mỗi thời điểm.

Xác suất trạng thái bùng nổ “bursty” p1 bằng xác suất cơ sở nhân với một số hằng

số s có thể được chọn khác nhau (theo công thức (2.24)). Nếu s lớn, xác suất các sự kiện

“mục tiêu” cần phải cao để đạt trạng thái bùng nổ “bursty”.

(2.24) 𝑝1 = 𝑆 ∗ 𝑝0

Hình 2.4: Tỉ lệ của các sự kiện mục tiêu

Hình 2.4 trình bày một ví dụ về tỷ lệ các sự kiện “mục tiêu”. Mục tiêu các sự kiện

thường được mong đợi xảy ra với xác suất liên quan đến trạng thái của chúng. Tuy nhiên,

tỷ lệ các sự kiện mục tiêu có thể cao hơn hoặc thấp hơn dự kiến do biến số nhiễu (noise) ngẫu nhiên.

Với tỷ lệ quan sát được của các sự kiện “mục tiêu”, thuật toán phát hiện Burst sẽ

có thể xác định thời điểm hệ thống có thể ở trạng thái cơ bản hoặc trạng thái nổi bật.

Điều này phụ thuộc vào:

 Mức độ phù hợp giữa tỷ lệ quan sát được và xác suất mong đợi của mỗi trạng thái. Hệ thống có nhiều khả năng mang một trạng thái hơn nếu tỷ lệ quan

sát được càng gần với xác suất mong đợi của trạng thái đó. Nó được ký hiệu là

sigma, được định nghĩa theo công thức (2.25):

𝑟𝑡(1 − 𝑝𝑖)𝑑𝑡−𝑟𝑡)]

(2.25) 𝜎(𝑖, 𝑟𝑡, 𝑑𝑡) = − ln[( ) (𝑝𝑖 𝑑𝑡 𝑟𝑡

 Khó khăn khi chuyển đổi từ trạng thái trước sang trạng thái tiếp theo. Giữ nguyên trạng thái cũ hoặc trở lại trạng thái thấp hơn không tốn kém gì, do đó chi

phí chuyển đổi, ký hiệu là 𝜏𝑎𝑢 = 0. Khi chuyển sang trạng thái cao hơn, phải

mất chi phí, do đó, chi phí chuyển đổi được định nghĩa theo công thức (2.26):

(2.26) 𝜏 = (𝑖𝑛𝑒𝑥𝑡 − 𝑖𝑝𝑟𝑒𝑣 ∗ 𝛾 ∗ ln(𝑛))

với n là số điểm thời gian; và gamma là độ khó trong việc chuyển đổi sang các

trạng thái cao hơn (các giá trị gamma cao hơn làm cho việc chuyển đổi sang trạng

thái bùng nổ hơn khó khăn hơn).

Tổng chi phí chuyển đổi từ trạng thái này sang trạng thái khác bằng tổng của hai

hàm (2.25) và (2.26). Với hàm chi phí, có thể tính được chuỗi trạng thái q tối ưu để giảm thiểu tổng chi phí. Chuỗi trạng thái tối ưu này có thể được tìm thấy với

thuật toán Viterbi bằng cách thực hiện một số bước đơn giản sau đây. Đầu tiên,

thuật toán bắt đầu với việc tính toán chi phí ở mỗi trạng thái tại 𝑡 = 1 và chọn

trạng thái có chi phí tối thiểu. Sau đó, hệ thống sẽ tính toán chi phí chuyển đổi từ

trạng thái hiện tại ở 𝑡 = 1 sang từng trạng thái có thể có tại 𝑡 = 2, và lại chọn

trạng thái có chi phí tối thiểu. Các bước này được lặp lại cho tất cả các mốc thời

gian để cuối cùng có được một chuỗi trạng thái mà hàm chi phí là nhỏ nhất. Dựa

trên trình tự trạng thái, chúng ta biết khi nào hệ thống ở trạng thái tăng cao hoặc

trạng thái nổi bật. Thuật toán có thể được thực hiện cho các sự kiện “mục tiêu”

khác nhau để xây dựng khoảng thời gian về những sự kiện phổ biến theo thời

gian.

𝑡2

Công thức (2.27) có thể được sử dụng để ước tính cường độ (hoặc trọng số/chỉ số độ quan trọng) của một sự nổi bật (bắt đầu tại thời điểm t1 và kết thúc tại thời điểm t2 và được gán nhãn 𝑡1 − 𝑡2):

(2.27) (𝜎(0, 𝑟𝑡, 𝑑𝑡) − 𝜎(1, 𝑟𝑡, 𝑑𝑡)) 𝑤𝑒𝑖𝑔ℎ𝑡 = 𝑠𝑢𝑚𝑡=𝑡1

Công thức này cho thấy chi phí phù hợp giảm bao nhiêu khi nhận được trạng thái

nổi bật so với trạng thái cơ bản trong giai đoạn nổi bật. Chi phí phù hợp càng

giảm, trọng số càng lớn và sự nổi bật càng mạnh.

2.2 Kết chương

Trong chương này, luận án trình bày các công trình nghiên cứu liên quan như mô hình chủ đề, mô hình hỗn hợp dựa trên quy trình Dirichlet và một số nguyên lý liên quan, đồ thị hóa văn bản, kỹ thuật tìm đồ thị con phổ biến (thuật toán gSpan), thuật toán phát hiện sự nổi bật trên luồng dữ liệu văn bản…làm cơ sở để xây dựng các thuật toán của luận án.

CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ

NGHĨA DỰA TRÊN ĐỒ THỊ TỪ

Chương này trình bày phương pháp tiếp cận được đề xuất của luận án dựa trên mô

hình hỗn hợp giúp tận dụng đánh giá mối quan hệ đồng hiện của từ bằng cách áp dụng phương pháp phân phối biểu đồ của từ phổ biến (GOW) trên các tài liệu trong một luồng

văn bản nhất định, được gọi là GOW-Stream. GOW-Stream là một phương pháp gom

cụm luồng văn bản đa thức theo quy trình Dirichlet (DPMM) có thể cải thiện đáng kể

chất lượng của việc gom cụm các luồng văn bản ngắn với nội dung rời rạc. Phần đầu tiên của chương giới thiệu ngắn gọn cách tiếp cận rút trích đồ thị từ (GOW) phổ biến từ

các tài liệu văn bản bằng cách áp dụng phép đồ thị hóa văn bản text2graph và kỹ thuật khai phá đồ thị con phổ biến (FSM). Nội dung tiếp theo trình bày một kỹ thuật suy luận chủ đề mới chủ yếu dựa trên mô hình MStream/MStreamF đã được công bố trước đó

(năm 2018), các phân phối đa thức của tài liệu được biểu thị dưới dạng phân phối của

các từ xuất hiện và đồ thị con phổ biến. Qua đó, cả từ độc lập và đồ thị con phổ biến

trong mỗi tài liệu của một luồng văn bản đều được xem xét cẩn thận trong quá trình hình

 Một phần của chương này được công bố trong bài báo “GOW-Stream: a novel approach of graph-of-words based mixture model for semantic-enhanced text stream clustering” và đã được chấp nhận đăng trong tạp chí “Intelligent Data Analysis” thuộc danh mục SCIE, Q3 năm 2020.

thành chủ đề.

3.1 Phương pháp

Phần này giới thiệu sơ nét các các phương pháp mà mô hình GOW-Stream sử dụng,

so sánh với phương pháp truyền thống khác.

3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW)

Ví dụ về biểu diễn theo lối truyền thống. Giả sử cho tập văn bản 𝐷={𝑑1, 𝑑2, 𝑑3} gồm các văn bản:

𝑑1 = {𝑤1, 𝑤2, 𝑤3}, với 𝑤1 = 𝑎, 𝑤2 = 𝑏, 𝑤3 = 𝑐

𝑑2 = {𝑤1, 𝑤2, 𝑤3, 𝑤4}, với 𝑤1 = 𝑎, 𝑤2 = 𝑏, 𝑤3 = 𝑐, 𝑤4 = 𝑑;

𝑑3 = {𝑤1, 𝑤2, 𝑤3, 𝑤4, 𝑤5,, 𝑤6 }, với 𝑤1 = 𝑎, 𝑤2 = 𝑏, 𝑤3 = 𝑐, 𝑤4 = 𝑑, 𝑤5 =

𝑎, 𝑤6 = 𝑐;

Phương pháp BOW truyền thống biểu diễn các văn bản như trong Bảng 3.1.

Bảng 3.1: Biểu diễn văn bản với BOW truyền thống

Chiều dài văn bản

Chiều dài văn bản sau khi

Biểu diễn

Văn

a b c d

ban đầu

loại bỏ từ trùng

véc tơ

1 1 1 0

[1,1,1,0]

1 1 1 1

[1,1,1,1]

2 1 2 1

[2,1,2,1]

bản 𝑑1 𝑑2 𝑑3

Bảng 3.1 mô tả khái quát cách biểu diễn văn bản với túi từ truyền thống đối với 3 văn bản đã cho là 𝑑1, 𝑑2, 𝑑3 với chiều dài sau khi loại bỏ từ trùng lần lượt là 3,4,4. Như vậy, kích thước của ma trận các véc tơ biểu diễn tập văn bản sẽ là 3x4 và từng véc tơ có

giá trị tương ứng như cột “Biểu diễn véc tơ” trong Bảng 3.1.

Ví dụ về sử dụng TF-IDF để biểu diễn. Với TF-IDF, các văn bản đã cho được biểu

diễn như trong Bảng 3.2.

Bảng 3.2: Biểu diễn văn bản với BOW và TF-IDF

Chiều dài

Biểu diễn véc tơ

văn bản

Văn bản

TF- IDF(a)

TF- IDF(b)

TF- IDF(c)

TF- IDF(d)

văn bản sau khi loại bỏ từ

trùng

[0,0,0,0]

0,04

[0;0;0;0,04]

0,03

[0;0;0;0,03]

𝑑1 𝑑2 𝑑3

Bảng 3.2 trình bày ví dụ về phương pháp biểu diễn văn bản với túi từ truyền thống đối với 3 văn bản đã cho là 𝑑1, 𝑑2, 𝑑3 có sử dụng thêm kỹ thuật TF-IDF để tính tần số xuất hiện của các từ tương ứng trong văn bản. Sau đó, véc tơ biểu diễn văn bản sẽ có giá trị là các tần số từ được tính bằng kỹ thuật TF-IDF.

3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW)

Kỹ thuật đồ thị hóa văn bản Text2graph. Biểu diễn tài liệu văn bản dựa trên

GOW là một cách tiếp cận NLP nổi tiếng nhằm mục đích biểu diễn tài liệu văn bản d thành cấu trúc dựa trên đồ thị, được ký hiệu là: Gd = (Vd, Ed) với tập hợp các nút (Vd) và các cạnh (Ed) đại diện cho tập hợp các từ phân biệt, như W = {w1, w2 … w|W|}, được xuất hiện trong tài liệu d và quan hệ đồng xuất hiện tương ứng giữa các từ này. Các quan

hệ đồng xuất hiện giữa các từ có thể được rút trích linh hoạt dựa vào một cửa sổ trượt

được xác định trước. Đây còn được gọi là kỹ thuật đồ thị hóa văn bản text2graph, phương

pháp thống kê để biểu diễn các mối quan hệ đồng xuất hiện giữa các từ trong văn bản

mà không cần cân nhắc về ý nghĩa ngữ nghĩa giữa các từ. Các đồ thị dạng văn bản sau khi biến đổi có thể có hướng hoặc vô hướng. Cách triển khai đơn giản nhất của biểu

diễn GOW cho tài liệu văn bản là sử dụng đồ thị vô hướng để biểu diễn quan hệ đồng

xuất hiện giữa các từ (minh họa trong Hình 3.1) được áp dụng trong mô hình đề xuất

GOW-Stream. Trong trường hợp cần xem xét thứ tự xuất hiện của các từ trong tài liệu,

các đồ thị được xây dựng nên là đồ thị có hướng. Để triển khai nâng cao phương pháp tiếp cận text2graph, có thể cân nhắc để tính đến tần suất xuất hiện đồng thời của hai từ

và gán nhãn bằng chú thích từng phần của từ cho các đồ thị văn bản đã xây dựng. Trong

nghiên cứu này, luận án sử dụng đồ thị vô hướng và phương pháp biểu diễn mối quan

hệ đồng xuất hiện của từng cặp từ trong văn bản làm nền tảng để biểu diễn văn bản.

Hình 3.1: Hình ảnh minh họa cấu trúc đồ thị hóa văn bản (text2graph) với đồ thị vô hướng

Hình 3.1 minh họa cho việc biểu diễn bằng đồ thị văn bản 𝑑 có nội dung là “The

lazy dog jumped over the big brown fox”. Sau khi loại bỏ từ trùng (“the”) thì văn bản 𝑑

còn lại 8 từ tương ứng với 8 đỉnh của đồ thị. Các cặp từ đứng gần nhau (trong văn bản

d trước khi loại bỏ từ trùng) sẽ được biểu diễn bằng các cung nối (có tổng cộng 8 cung):

the-lazy, lazy-dog, dog-jumped, jumped-over, over-the, the-big, big-brown, brown-fox.

Đồ thị con phổ biến là đặc trưng cho tài liệu. Tiếp theo, với một tập hợp các đồ thị dạng văn bản đã xây dựng 𝐺 = {G1, G2, … G|D|) từ một kho văn bản nhất định (D), với V và E là tập hợp các từ xuất hiện đặc biệt W là các nút của đồ thị và các quan hệ

′ , G2

′ … G|F|

′ ∈ V và Ef

′), với Vf

′, Ef

đồng xuất hiện tương ứng của chúng. Sau đó, luận án áp dụng các kỹ thuật khai phá đồ

thị con phổ biến, chẳng hạn như: gSpan, FFSM, vv... để rút trích ra tập hợp các đồ thị ′ }, trong đó mỗi đồ thị con phổ biến: con phổ biến, được ký hiệu là: F = {G1 ′ = (Vf ′ ∈ E, được dùng để biểu diễn đặc trưng phân biệt cho các Gf ′. Khác với việc sử dụng các từ phổ biến làm các đặc tài liệu đã cho có chứa đồ thị con Gf trưng phân biệt để biểu diễn văn bản, hay còn gọi là biểu diễn theo túi từ (BOW), việc

sử dụng các đồ thị con phổ biến để biểu diễn văn bản mang tính ngữ nghĩa hơn do khả

năng nắm bắt các mối quan hệ đồng xuất hiện của các cặp từ (n-gram với n=1) được áp

dụng vào mô hình đề xuất.

Biểu diễn tài liệu kết hợp BOW và GOW. Kết hợp với biểu diễn dựa trên BOW

cổ điển, một tài liệu d bây giờ được phân rã thành bộ giá trị sau (như thể hiện trong công

thức (3.1)):

⟨Wd: Nd|𝐅𝐝⟩

(3.1)

w là tần số

Với:

 Wd là tập hợp các từ duy nhất xuất hiện trong tài liệu 𝑑  Nd là tần số của chúng được biểu diễn dưới dạng vectơ Nd, trong đó Nd

w∈d

w Nd

. xuất hiện của (w) cụ thể trong tài liệu đã cho d hay Nd = ∑

 Fd là tập các đồ thị con phổ biến của tài liệu d.

Đối với mỗi tập đồ thị con phổ biến Fd trong tài liệu 𝑑, mỗi đồ thị con phổ biến chỉ xuất hiện một lần, do đó không cần tính tần suất xuất hiện của đồ thị con phổ biến trong

mỗi tài liệu (vì luôn là 1). Thuật toán 3.1 do luận án đề xuất minh họa các bước để rút trích đồ thị con phổ biến từ một kho ngữ liệu văn bản thô nhất định với thuật toán gSpan [92] để khai phá đồ thị con văn bản phổ biến. Tóm lại, ý tưởng quan trọng đằng sau gSpan là thay vì liệt kê tất cả các đồ thị con và kiểm tra tính đẳng cấu trong toàn bộ bộ sưu tập, trước tiên nó xây dựng cho mỗi đồ thị một thứ tự từ vựng của tất cả các cạnh

bằng cách sử dụng tìm kiếm Depth First Search (DFS) và gán cho nó một mã DFS tối

thiểu duy nhất. Dựa trên tất cả các mã DFS này, cây tìm kiếm phân cấp được xây dựng

ở cấp bộ sưu tập. Bằng cách sắp xếp trước việc duyệt cây này, gSpan phát hiện ra tất cả

các đồ thị con phổ biến thỏa ngưỡng min support σ yêu cầu.

Thuật toán 3.1: Rút trích các đồ thị con phổ biến từ tập tài liệu đã cho (D)

Input:

 Tập tài liệu D  Cửa sổ trượt s=1//chỉ xét từng cặp từ  Ngưỡng support nhỏ nhất 𝜎=0,2//(20%).

Output: Tập các đồ thị con phổ biến của tập tài liệu D, ký hiệu: FD

Function ExtractGOWs(D, σ)

Initialize: GD = {} #Khởi tạo tập các GOW của tập tài liệu 𝐷, ký hiệu 𝐺𝐷

For document d in D:

Initialize: Gd = Text2Graph(d)#Khởi tạo từng đồ thị từ 𝐺𝑑

Update: GD. append(Gd)#Cập nhật vào tập đồ thị từ 𝐺𝐷

End for

Initialize: FD = gSpanAlgorithm(GD, σ) #Tìm tập đồ thị con phổ biến 𝐹𝐷

Return FD

End function

10: Function Text2Graph(d):

11:

Initialize: G𝑑 #cấu trúc đồ thị của tài liệu 𝑑

12:

Initialize: Wd = {}, WSeqd = {}#Danh sách từ, ds từ theo thứ tự của tài liệu 𝑑

13:

For word w in tokenize(d):

14:

If w not in Wd: Wd.append(w)#Tạo ds từ không trùng

15:

Update: WSeqd.append(w) #Tạo ds từ theo thứ tự

16:

End for

17:

Update: G. nodes. create(Wd) #Tạo tập các nút từ tập từ không trùng đã có

18:

For word w in WSeqd:

19:

For i in range(0, s):

20:

Update: G. edges. create([w], [Seqd[w − i])#Tạo cạnh với từ phía trước

21:

Update: G. edges. create([w], [Seqd[w + i]) #Tạo cạnh với từ phía sau

22:

End for

23:

End for

24:

Return G𝑑

25: End function

Function gSpanAlgorithm (GD, σ):

27:

Initialize: FD = {} #lưu các đồ thị con phổ biến của tập tài liệu 𝐷

28:

For Gd in GD:

29:

For c in children(Gd): #Duyệt tất cả các đồ thị con của Gd

30:

If support(c, GD)  𝜎: Update: FD. append(c)#Cập nhật đồ thị con phổ biến tương ứng vào tập đồ thị con phổ biến 𝐹𝐷

31:

End for

32:

End for

Return FD

End function

Như vậy, Thuật toán 3.1 tìm đồ thị con phổ biến của tập tài liệu 𝐷 là ExtractGOWs

có thể tóm tắt thành các bước như sau:

(1)- Với mỗi tài liệu 𝑑 trong tập tài liệu 𝐷, hệ thống khởi tạo GOW của tài liệu 𝑑 là 𝐺𝑑 (dòng 2) và cập nhật vào danh sách GOW 𝐺𝐷 của tập tài liệu 𝐷 sử dụng hàm Text2Graph(d) (dòng 4 và 5).

(2)- Hệ thống tìm tập đồ thị con phổ biến 𝐹𝐷 tương ứng với tập tài liệu 𝐷 bao gồm các tập đồ thị con phổ biến 𝐹𝑑 của từng tài liệu 𝑑 sao cho 𝐹𝑑 chỉ chứa các đồ thị con phổ biến 𝑓𝑑 có tần số xuất hiện lớn hơn ngưỡng phổ biến tối thiểu minsupp σ sử dụng thuật toán gSpan, thuật toán tìm đồ thị con phổ biến của tài liệu 𝑑 (dòng 7).

Hàm Text2Graph(d) có thể tóm tắt thành các bước sau:

(1)- Hệ thống khởi tạo cấu trúc đồ thị G𝑑 của tài liệu 𝑑 (dòng 11)

(2)-Hệ thống khởi tạo danh sách sách từ 𝑊𝑑 không trùng và từ theo thứ tự

𝑊𝑆𝑒𝑞𝑑 của tài liệu 𝑑 (dòng 12)

(3)- Với mỗi từ trong danh sách từ 𝑊𝑑 của tài liệu 𝑑, hệ thống tạo đỉnh cho đồ thị Gd sau đó dựa vào danh sách từ theo thứ tự 𝑊𝑆𝑒𝑞𝑑 của tài liệu 𝑑, hệ thống tạo cạnh cho đồ thị Gd (dòng 18 - 23)

* Đỉnh đồ thị chỉ có một từ duy nhất nên tham số trượt s (trong n-gram) được thiết

lập là 1.

Có thể tóm tắt các bước của hàm gSpanAlgorithm như sau:

(1)- Hệ thống khởi tạo cấu trúc FD để lưu các tập đồ thị con phổ biến của tập tài

liệu D (dòng 27).

(2)- Với mỗi tập đồ thị từ Gd của tài liệu 𝑑 thuộc về tập đồ thị từ GD của tập tài liệu D, hệ thống duyệt tất cả đồ thị con của Gd và thêm các đồ thị con thỏa min support α vào tập FD tương ứng (dòng 28-32).

Ví dụ về biểu diễn văn bản bằng đồ thị và tìm đồ thị con phổ biến. Phần sau

đây trình bày ví dụ về biểu diễn văn bản bằng GOW.

Giả sử cho tập văn bản 𝐷={𝑑1, 𝑑2, 𝑑3} gồm các văn bản

𝑑1 = {𝑤1, 𝑤2, 𝑤3}, với 𝑤1 = 𝑎, 𝑤2 = 𝑏, 𝑤3 = 𝑐

𝑑2 = {𝑤1, 𝑤2, 𝑤3, 𝑤4}, với 𝑤1 = 𝑎, 𝑤2 = 𝑏, 𝑤3 = 𝑐, 𝑤4 = 𝑑;

𝑑3 = {𝑤1, 𝑤2, 𝑤3, 𝑤4, 𝑤5,, 𝑤6 }, với 𝑤1 = 𝑎, 𝑤2 = 𝑏, 𝑤3 = 𝑐, 𝑤4 = 𝑑, 𝑤5 =

3}, với:

𝑎, 𝑤6 = 𝑐;

1, 𝑔𝑑

1 = 𝐺𝑂𝑊(𝑑1); 𝑔𝑑

2 = 𝐺𝑂𝑊(𝑑2); 𝑔𝑑

3 = 𝐺𝑂𝑊(𝑑3); 𝑔𝑑

{𝑔𝑑 Ta có thể biểu diễn cho tập 𝐷 bằng đồ thị từ và được tập đồ thị từ tương ứng 𝐺𝐷 = 2, 𝑔𝑑

1 𝑔𝑑

2 𝑔𝑑

3 𝑔𝑑

Tập đồ thị từ 𝐺𝐷 có thể được minh họa bằng các hình vẽ như sau:

Hình 3.2: Biểu diễn đồ thị từ của tập tài liệu 𝐷

1, 𝑔𝑑

2, 𝑔𝑑

Vậy ta tìm ra được tập 𝐺𝐷 = {𝑔𝑑

Giả sử ta dùng thuật toán gSpan để tìm đồ thị con phổ biến với ngưỡng min support

1 𝑓𝐺

2 𝑓𝐺

= 50%, ta được các đồ thị con phổ biến trên toàn tập D gồm:

2 } và:

Hình 3.3: Tập đồ thị con phổ biến chung của tập tài liệu 𝐷

1, 𝑓𝐺

𝑑1 =

Như vậy, tập các đồ thị con phổ biến là 𝐹𝐺 = {𝑓𝐺

1, ta có tập đồ thị con phổ biến của 𝑑1 là 𝑓𝐺

𝑑1 có 1 đồ thị con phổ biến là 𝑓𝐺

2, ta có tập đồ thị con phổ biến của 𝑑2 là

{𝑓𝐺

1 và 𝑓𝐺

1, 𝑓𝐺

𝑑2 = {𝑓𝐺 𝑓𝐺

2, ta có tập đồ thị con phổ biến của 𝑑3 là

𝑑2 có 2 đồ thị con phổ biến là 𝑓𝐺

1 và 𝑓𝐺

1, 𝑓𝐺

𝑑3 = {𝑓𝐺 𝑓𝐺

𝑑3 có 2 đồ thị con phổ biến là 𝑓𝐺

𝑑3 }

𝐷 = {𝑓𝐺 𝐹𝐺

𝑑1, 𝑓𝐺

𝑑2, 𝑓𝐺

𝑑3 } hay gọi tắt FD = {𝑓𝐺

𝑑1, 𝑓𝐺

𝑑2, 𝑓𝐺

Và ta có tập đồ thị con phổ biến cuối cùng như sau:

Vậy, sử dụng đồ thị con phổ biến để biểu diễn các văn bản như trong Bảng 3.3.

Bảng 3.3: Biểu diễn văn bản với GOW

𝟏 𝒇𝑮 𝟐 Số đồ thị con phổ biến Biểu diễn véc tơ Văn bản 𝒇𝑮 0 1

[1,0]

[1,1]

𝑑1 𝑑2 𝑑3

1, 𝑓𝐺

Bảng 3.3 trình bày ví dụ về cách biểu diễn văn bản sử dụng đồ thị từ đối với 3 văn bản được cho là 𝑑1, 𝑑2, 𝑑3. Đầu tiên, các văn bản được đồ thị hóa. Tiếp theo, hệ thống tìm tập đồ thị con phổ biến với thuật toán gSpanAlgorithm theo ngưỡng min support 2 }. Dựa vào kết quả được thiết lập là 50% được tập đồ thị con phổ biến là 𝐹𝐺 = {𝑓𝐺 này, véc tơ biểu diễn của các văn bản sẽ có số chiều là 2 vì tập đồ thị con phổ biến có 2

đồ thị con phổ biến và các véc tơ này được biểu diễn giá trị tương ứng như trong Bảng

3.3, cột “Biểu diễn véc tơ”.

Khi kết hợp giữa BOW và GOW trong mô hình luận án đề xuất GOW-Stream, các

văn bản được biểu diễn như Bảng 3.4.

Bảng 3.4: Biểu diễn văn bản kết hợp BOW và GOW

Chiều

Biểu diễn véc tơ

Văn bản

BOW

GOW

dài văn bản

[0,0,0,0,1,0]

0,04

[0;0;0;0,04;1;1]

0,03

[0;0;0;0,03;1;1]

𝑑1 𝑑2 𝑑3

Bảng 3.4 trình bày ví dụ minh họa về cách biểu diễn văn bản kết hợp BOW và

GOW, trong đó véc tơ văn bản được kết hợp lại có số chiều là 4 (theo BOW) + 2 (theo

GOW) = 6 và có giá trị cụ thể tương ứng như trong Bảng 3.4, cột “Biểu diễn véc tơ”.

3.1.3 Gom cụm luồng văn bản dựa trên mô hình hỗn hợp

Gom cụm luồng văn bản với mô hình hỗn hợp. Nói chung, gom cụm luồng văn

bản với mô hình hỗn hợp hoàn toàn khác với phương pháp gom cụm văn bản tĩnh cổ điển. Trong bối cảnh liên tục xuất hiện các tài liệu văn bản có độ dài khác nhau theo thời gian, đối với dữ liệu luồng văn bản phổ biến, chẳng hạn như khuyến nghị, blog, vv... từ mạng xã hội, số lượng tài liệu, độ dài của tài liệu và các chủ đề được đề cập có thể đa

dạng và có thể thay đổi nhanh chóng tại các thời điểm khác nhau (t). Về mặt hình thức,

đối với mỗi tập tài liệu đến, còn được gọi là luồng batch, đến với hệ thống tại một thời điểm cụ thể (t) - được ký hiệu là: Dt = {d1, d2 … d|Dt|}, trong đó mỗi tài liệu dt chứa một tập hợp các từ duy nhất: Ndt = {w1, w2 … w|Ndt|}. Với tất cả các tập tài liệu tuần tự đến luồng văn bản, D = {D1, D2 … DT} với T → ∞, mục tiêu cuối cùng của phương pháp

gom cụm luồng văn bản dựa trên mô hình hỗn hợp là nhóm các tài liệu có liên quan trong Dt thành các chủ đề, được ký hiệu là: Zt = {z1, z2 … zK} với K → ∞. Theo giả định dòng trôi khái niệm/chủ đề, số lượng chủ đề K của luồng văn bản nhất định có thể thay

đổi theo thời gian (t). Theo cách tiếp cận mô hình chủ đề truyền thống, mỗi chủ đề được

phát hiện được biểu diễn dưới dạng đa phân phối các từ duy nhất xuất hiện trong lô tài

liệu thời gian thứ t nhất định, được ký hiệu là:

zt = {prob(w1), prob(w2) … prob(w|Ndt|)},

với prob (.) là viết tắt của phân phối xác suất.

Sau đó, mỗi tài liệu dt được biểu diễn dưới dạng:

dt = {prob(z1), prob(z2) … prob(z|Zt|)},

b} (mỗi tài liệu dt

b = {d1

a = {d1

a … dn

b … dn

b, d2

a, d2

a, dt

a} và zt

với dt là tập xác suất phân phối của các chủ đề được rút trích.

b = ∅.

a ∩ zt zt

Tuy nhiên, để đáp ứng sự thay đổi của các chủ đề trong mỗi lô tài liệu đến, mỗi tài liệu dt chỉ được chọn với một chủ đề phù hợp nhất zt, do đó cho hai chủ đề khác nhau, b ∈ Dt) là a và b với a ≠ b và zt tài liệu tương ứng của từng cụm, ta có:

Chủ đề theo mô hình của David Blei [15] ở đây sẽ là phân bố của từ, tài liệu và đồ

thị con phổ biến như trình bày ở phần phía sau biểu diễn chủ đề dựa trên GOW.

Quy trình Dirichlet & lược đồ Poly-Urn. Thường được áp dụng trong phương

pháp tiếp cận luồng văn bản dựa trên mô hình hỗn hợp, quy trình Dirichlet (DP) được

∑

xem là quy trình phi tham số dùng để mô hình hóa dữ liệu. Quy trình hỗ trợ để đưa ra một mẫu 𝒩 từ phân phối G với các phân phối nền G0 đã cho, được ký hiệu là: G~DP(α, G0) với α là siêu tham số tập trung để kiểm soát sự phân phối của việc rút ra từng mẫu 𝒩. Để rút ra một mẫu tuần tự: {𝒩0, 𝒩1 … 𝒩𝑛} từ phân phối G, định lý lược đồ Poly-Urn được áp dụng như sau (như thể hiện trong công thức (3.2)):

n−1 k=1

(3.2) + 𝒩n|𝒩1:n−1~ α α + n − 1 δ(𝒩n − 𝒩k) α + n − 1

Trong đó:

 n là số lần rút ra từ phân phối G.

 δ(𝑥) là hàm chỉ thị, trong đó δ(𝑥) = 1 khi 𝑥 = 0, ngược lại δ(𝑥) = 0.

Lặp lại n lần rút ra từ phân phối 𝐺, chúng ta có thể nhận một tập hợp 𝐾 giá trị đặc

biệt, trong đó 𝐾 < 𝑛 để phân chia n lần rút ra 𝐾 chủ đề. Việc phân phối trên 𝐾 phân

vùng xác định được phát triển bằng cách áp dụng một nguyên lý nổi tiếng, được gọi là

nguyên lý Nhà hàng Trung Hoa (CRP). Các lần rút ra của phân phối G được biểu diễn

∞ k=1

θ𝑘δ(𝒩𝑛 − 𝒩𝑘)

bằng cách áp dụng Nguyên lý Nhà hàng Trung Hoa và quá trình stick-breaking minh họa tính chất của phân phối G là: 𝐺(𝒩) = ∑ 𝑣ớ𝑖 𝒩𝑘~𝒩0. Trọng số ∞ được xây dựng bằng công thức phân phối GEM (Griffiths, Engen hỗn hợp θ θ = {θ𝑘}k=1 và McCloskey) của DP là: θ~GEM(α). Sau đó, cấu trúc stick-breaking được áp dụng

cho quá trình tạo ra mô hình DPMM như sau (như thể hiện trong công thức (3.3)):

(3.3) θ|α~GEM(α)

𝒩k|β~Dirichlet(β), k → ∞

zd|θ~Mult(θ), k → ∞

∞ ~prob(d|𝒩zd)

d|zd, {𝒩k}k=1

Trong đó:

 z đại diện cho cụm sinh ra tài liệu (d).  prob(d|𝒩zd) là xác suất phân phối mà một tài liệu nhất định (d) được sinh ra bởi

w∈d

Mult(w| một cụm z, được định nghĩa là: prob(d|𝒩zd) = ∏ 𝒩zd).

Từ công thức (3.3) đã cho, Bayes giả định là việc tạo ra các từ (Wd) trong mỗi tài liệu (𝑑) là độc lập với một chủ đề z đã biết mà (𝑑) được gán. Sau đó, việc rút ra các mẫu

liên tiếp có thể được thực hiện bằng CRP. Phương pháp này giả định rằng xác suất phân phối của các từ trong mỗi tài liệu được đánh giá một cách độc lập mà không cần xem

xét vị trí của chúng cũng như các mối quan hệ đồng xuất hiện. Hình 3.4 là mô hình biểu diễn đặc trưng dạng đồ thị của GOW-Stream hay còn gọi là mô hình sinh của GOW- Stream.

Hình 3.4: Mô hình sinh của mô hình GOW-Stream

Trong Hình 3.4, ta có:

 z: cụm, chủ đề được rút ra từ phân bố đa thức của θ, zd|θ~Mult(θ)

 w: Tập phân bố từ đặc trưng của tài liệu dD được rút ra từ phân bố đa thức

với phân bố ban đầu là phân bố chuẩn N: prob(d|𝒩zd).

 f: Tập phân bố đồ thị con phổ biến đặc trưng dD được rút ra từ phân bố đa

thức với phân bố ban đầu là phân bố chuẩn N: prob(d|𝒩zd).

 𝛼: siêu tham số tập trung.

 𝛽: siêu tham số tập trung.

 𝜃: phân bố tham số mô hình 𝜃 được lấy ra từ mô hình phân bố GEM:

GEM(α).

Hình 3.4 cho thấy dựa trên tham số kiểm soát độ tập trung của mô hình 𝛼, phân bố

tham số mô hình 𝜃 được lấy ra từ mô hình phân bố GEM, θ~GEM(𝛼). Từ 𝜃, mẫu phân

bố chủ đề z được rút ra, được xác định bằng phân bố đa thức của từ và các đồ thị con

phổ biến trong một tài liệu (𝑑) dựa theo công thức (3.6).

𝛽 là siêu tham số dùng để lấy mẫu ngẫu nhiên của tập từ đặc trưng và đồ thị con

phổ biến đặc trưng từ tài liệu (𝑑) với phân bố ngẫu nhiên ban đầu là một phân bố chuẩn.

Sau đó, với từ và đồ thị con phổ biến vừa được lấy ra ngẫu nhiên, mô hình áp dụng phân bố theo quy trình Dirichlet để xác định xác xuất lấy ra được phân bố chủ đề có sẵn nào hay khả năng chọn mới một chủ đề dựa vào nguyên lý Nhà hàng Trung Hoa và Poly

Urn. Kế đến, hai khả năng này được hợp lại như công thức (3.8) nếu xác xuất lấy ra

được phân bố chủ đề có sẵn lớn hơn. Ngược lại, hai khả năng này được hợp lại như

công thức (3.9).

Mô hình GOW-Stream luận án đề xuất dựa trên việc cải tiến từ mô hình MStream,

GOW-Stream

và Hình 3.5 trình bày hai mô hình sinh tương ứng của GOW-Stream và MStream.

MStream

Hình 3.5: Mô hình sinh của MStream & GOW-Stream

Hình 3.5 nêu bật sự cải tiến của mô hình do luận án đề xuất GOW-Stream so với

mô hình được công bố MStream [97]. Cải tiến chính của mô hình GOW-Stream chính

là cải tiến biểu diễn đặc trưng văn bản, kết hợp từ phổ biến (trong biểu diễn văn bản

bằng BOW) và đồ thị con phổ biến (trong biểu diễn văn bản bằng GOW).

Như vậy, điểm khác nhau chính trong nguyên lý hoạt động của 2 mô hình chính là

ở mô hình cải tiến GOW-Stream là từ 𝜃, mẫu phân bố chủ đề z được rút ra, được xác

định bằng phân bố đa thức của từ và các đồ thị con phổ biến trong một tài liệu (𝑑) dựa

theo công thức (3.6) thì phần thứ 2 của công thức (3.6) có xem xét sự liên quan giữa đồ

thị con phổ biến và các từ do đó công thức (3.8) có bổ sung thêm nội dung này. Tương

tự, công thức (3.9) cũng có sự thay đổi ở phần thứ 2 của công thức.

Mô hình GOW-Stream

Phần này trình bày những đóng góp chính của luận án về đề xuất một kỹ thuật gom cụm luồng văn bản hiệu quả giúp nâng cao chất lượng của các chủ đề đã xác định trong luồng văn bản nhất định bằng cách sử dụng các bản phân phối đồ thị con phổ biến được rút trích trên các tài liệu. GOW-Stream là một mô hình dựa trên DPMM, lấy ý tưởng từ các công trình trước đây dựa vào mô hình MStream/MStreams.

Sai lệch chủ đề (Topic drift) khi gom cụm luồng văn bản.

Sai lệch chủ đề là sự biến đổi các chủ đề kết quả gom cụm khi văn bản đến liên tục

theo thời gian, chủ đề mới có thể xuất hiện, chủ đề cũ có thể biến mất.

Khác với gom cụm văn bản tĩnh, khi gom cụm luồng văn bản, sai lệch chủ đề là

vấn đề phổ biến và không mong muốn do tính chất của luồng văn bản là dữ liệu đến liên tục theo thời gian. Do sự sai lệch chủ đề, hiệu suất của các mô hình sẽ giảm xuống vì sự

sai lệch trong dự đoán tăng lên. Do đó, cần phải xác định và giải quyết tốt những sai

lệch như vậy để xây dựng mô hình có độ chính xác cao.

Giả sử tại thời điểm 𝑡 có batch văn bản thứ 𝑡 đến, mô hình xác định từng văn bản

thuộc về các chủ đề nào hiện có. Tuy nhiên, các văn bản mới đến này có thể làm xuất

hiện thêm chủ đề mới hay làm cho các chủ đề cũ không còn phù hợp nữa đối với xu thế hiện tại. Cho nên, mô hình cần phải linh hoạt đáp ứng việc thêm chủ đề mới cũng như

loại bỏ các chủ đề cũ cho phù hợp với hoàn cảnh hiện tại. Các chủ đề cần được cập nhật

cho phù hợp các văn bản cần được gán chủ đề cho phù hợp.

Đối với các mô hình chủ đề tĩnh, việc gom cụm được thực hiện 1 lần trên 1 batch

dữ liệu và các chủ đề được xác định một lần. Khi có batch dữ liệu mới đến, các mô hình

này phải thực hiện gom cụm lại trên toàn bộ dữ liệu để xác định lại các chủ đề cho phù

hợp với ngữ cảnh mới.

Trong bối cảnh dữ liệu văn bản đến liên tục theo thời gian, để làm việc hiệu quả với dữ liệu luồng thời gian thực này, các mô hình cần xử lý một batch tại một thời điểm

mà vẫn đảm bảo tinh cập nhật liên tục và do đó có thể giải quyết tốt vấn đề sai lệch chủ

đề. Dựa trên mô hình DPMM, GOW-Stream thực hiện gom cụm luồng văn bản và đảm

bảo giải quyết tốt sự sai lệch chủ đề.

Như vậy bên cạnh các vấn đề liên quan đến văn bản như độ dài của văn bản, mối

quan hệ đồng hiện từ, khi làm việc với dữ liệu văn bản “streaming”, luận án đã giải

quyết được vấn đề liên quan đến “luồng” là vấn đề “sai lệch chủ đề”, đáp ứng tốt sự thay

đổi chủ đề trên luồng văn bản.

Biểu diễn chủ đề dựa trên GOW

Khác với cách tiếp cận truyền thống của gom cụm ngữ liệu văn bản tĩnh, các chủ đề được biểu diễn như các mean của tập tài liệu trong không gian vectơ đã cho. Trong cách tiếp cận gần đây của mô hình hỗn hợp, các chủ đề được biểu diễn dưới dạng các vectơ đặc trưng của chủ đề hoặc gọi đơn giản là vectơ chủ đề. Một vectơ chủ đề được biểu diễn dưới dạng một bộ, được ký hiệu là: 〈nz: nz⃗⃗⃗⃗ , mz〉, trong đó nz: nz⃗⃗⃗⃗ biểu diễn số lượng từ trong chủ đề z nhất định và tần suất xuất hiện tương ứng của chúng trong chủ

đề z đã cho, và mz là số lượng tài liệu được gán cho chủ đề z. Để kết hợp với việc phân phối đồ thị con phổ biến rút trích từ các tài liệu, luận án cấu trúc lại véc tơ chủ đề như sau (như công thức (3.4)):

〈𝐟𝐳: 𝐟𝐳

⃗⃗⃗ , nz: nz⃗⃗⃗⃗ , mz〉

(3.4)

Trong đó:

⃗⃗ , biểu thị cho số lượng đồ thị con phổ biến được rút trích, được gán cho chủ



fz: fz đề z và tần số xuất hiện tương ứng của chúng.

 nz: nz⃗⃗⃗⃗ , thể hiện số từ được gán cho chủ đề z và tần số xuất hiện tương ứng của

chúng.

 mz, là số lượng tài liệu được gán cho chủ đề z.

Tương tự như cách tiếp cận trước đây của mô hình MStream/MStreamF, biểu diễn

vector chủ đề này cũng có các thuộc tính quan trọng, bao gồm: có thể thêm vào và có

thể bỏ ra. Nói cách khác, một tài liệu 𝑑 có thể được thêm vào và bỏ ra khỏi chủ đề 𝑧

𝐠, ∀𝐠 ∈ 𝐝

𝐠 = 𝐟𝐳 𝐟𝐳

𝐠 + 𝐅𝐝

𝐟𝐳 = 𝐟𝐳 + 𝐅𝐝

bằng cách cập nhật véc tơ chủ đề theo công thức (3.5):

w, ∀w ∈ d

w = nz nz

w + Nd

(3.5)

nz = nz + Nd

mz = mz + 1

𝐠, ∀𝐠 ∈ 𝐝

𝐠 = 𝐟𝐳 𝐟𝐳

𝐠 − 𝐅𝐝

𝐟𝐳 = 𝐟𝐳 − 𝐅𝐝

(a)

w, ∀w ∈ d

w = nz nz

w − Nd

nz = nz − Nd

mz = mz − 1

(b)

Trong đó:

w là tần số từ 𝑤 trong chủ đề 𝑧. w là số lần xuất hiện của từ 𝑤 trong tài liệu 𝑑.

g là tần số của đồ thị con phổ biến 𝑔 trong chủ dề 𝑧.  fz g là số lần xuất hiện của đồ thị con phổ biến g trong tài liệu 𝑑. Mỗi đồ thị con  Fd g luôn là 1. phổ biến 𝑔 chỉ xuất hiện một lần trong mỗi tài liệu, do đó giá trị của Fd fz là số đồ thị con phổ biến trong chủ đề 𝑧.  Fd là số đồ thị con phổ biến trong tài liệu 𝑑.  nz  Nd  nz là số từ trong chủ đề 𝑧.  Nd là tổng số từ trong tài liệu d.  mz là số tài liệu trong chủ đề 𝑧.



Độ phức tạp của hoạt động thêm một tài liệu 𝑑 vào cụm 𝑧 và xóa một tài liệu 𝑑 ra

khỏi cụm 𝑧 đều là 𝒪(𝐿) với 𝐿 là chiều dài trung bình của các tài liệu.

Suy diễn chủ đề trong mô hình GOW-Stream

Phần quan trọng nhất của thuật toán gom cụm luồng văn bản dựa trên mô hình hỗn hợp là định nghĩa các mối quan hệ giữa các tài liệu và các chủ đề khi phân tách. Nó có

nghĩa là xác suất một tài liệu mới có thể được gán cho một chủ đề cụ thể. Cách tiếp cận

truyền thống của gom cụm văn bản dựa trên sự tương đồng chủ yếu sử dụng ngưỡng

tương đồng để kiểm soát quá trình phân bố chủ đề cho mỗi tài liệu văn bản trong một

luồng nhất định. Tuy nhiên, việc chọn ngưỡng tương đồng thích hợp là một nhiệm vụ

khó khăn do sự thay đổi chủ đề và sự đa dạng về độ dài của tài liệu đối với các luồng

văn bản trong thế giới thực. Dựa vào các công trình trước đó, luận án sử dụng kỹ thuật

khám phá chủ đề động chủ yếu dựa trên DPMM [98] để đạt được xác suất tài liệu 𝑑 chọn một chủ đề hiện có 𝑧, được ký hiệu là: prob(zd = z|z ¬d, d⃗ , α, β). Với d⃗⃗ là các tài liệu được thu thập đã cho từ luồng dưới dạng vectơ và z⃗ là tập các chủ đề được ghi lại, xác suất được tính theo tỷ lệ như sau (như thể hiện trong công thức (3.6)):

z,¬d, β)

(3.6) prob(zd = z|z ¬d, d⃗ , α, β) ∝ prob(zd = z|z ¬d, α). prob(d|zd = z, d⃗

Trong đó,

 z⃗ ¬d, là tập hợp các chủ đề được ghi lại không chứa tài liệu được cho d.  d⃗ z,¬d, là tập hợp các tài liệu được gán cho chủ đề 𝑧 và không chứa tài liệu đã cho 𝑑.

Thêm tài liệu vào một chủ đề hiện có. Như đã cho trong công thức (3.6), phần đầu của công thức này: prob(zd = z|z ¬d, α) cho biết xác suất tài liệu (d) chọn một chủ đề (z) sau khi được đưa ra chủ đề gán cho các tài liệu khác ngoại trừ tài liệu hiện tại (d).

Để đạt được phân phối xác suất của phần đầu tiên, luận án áp dụng các kỹ thuật suy luận của các mô hình chủ đề dựa trên DP cổ điển. Phần đầu của công thức (3.6) được tính

như sau (xem công thức (3.7)):

prob(zd = z|z ¬d, α) ∝

mz,¬d D − 1 + αD

(3.7)

 D là số lượng tài liệu tổng thể trong lô phát trực tuyến hiện tại.

Trong đó:

 mz,¬d là số tài liệu trong chủ đề hiện tại (z), ngoại trừ tài liệu (d).

z,¬d, β), phần này xem xét sự liên quan giữa đồ thị con phổ biến (g) và các từ (w) trong một chủ đề nhất định

Đối với phần thứ hai của công thức (3.6): prob(d|zd = z, d⃗

(z) và tài liệu (d) có thể được suy ra thêm như sau (xem công thức (3.8)):

∏

w + β + j − 1)

∏ (nz,¬d

w Nd j=1

𝐠 𝐅𝐝 ∏ ∏ (𝐟𝐳,¬𝐝 𝐣=𝟏

𝐠 + 𝛃 + 𝐣 − 𝟏)

prob(d|zd = z, d⃗

z,¬d, β) =

∏ (𝐧𝐳,¬𝐝 + 𝐅𝛃 + 𝐢 − 𝟏)

∏ (nz,¬d + Wβ + i − 1)

𝐠∈𝐝 𝐅𝐝 𝐢=𝟏

w∈d Nd i=1

(3.8)

Trong đó,

 W và F là đại diện cho các tập hợp các từ xuất hiện và các đồ thị con phổ biến

là số lượng từ xuất hiện và đồ thị con phổ biến trong chủ đề (z) được  nz,¬d

trong các bộ sưu tập tài liệu hiện tại (D). w và fz,¬d cho, không chứa tài liệu được cho (d).

Thêm tài liệu vào một chủ đề mới. Phần trước đã xác định một trường hợp xác

suất mà một tài liệu mới chọn một chủ đề hiện có. Tuy nhiên, trong trường hợp tài liệu

mới không khớp với bất kỳ chủ đề nào hiện có, hệ thống sẽ cần tạo một chủ đề mới cho

tài liệu đó bằng cách xác định xác suất để tạo một chủ đề mới cho tài liệu. Đối với

phương pháp suy luận chủ đề động dựa trên DPMM trong trường hợp số lượng chủ đề

là vô hạn, nên áp dụng phép biến đổi θ~GEM(α) thành θ~GEM(αD). Do đó, xác suất

của một chủ đề mới (K + 1), với K là số chủ đề hiện tại, được tạo cho một tài liệu được

cho 𝑑 được thay đổi bằng cách sửa đổi của phần đầu tiên (công thức (3.9) tại mục (a))

và phần thứ hai (công thức (3.9) tại mục (b)) của công thức (3.6) như sau:

prob(zd = K + 1|z ¬d, α) ∝

𝛼𝐷 D − 1 + αD

(3.9)

(a)

∏

∏ (β + j − 1)

w Nd j=1

𝐠 𝐅𝐝 𝐣=𝟏

∏ ∏ (𝛃 + 𝐣 − 𝟏)

prob(d|zd = K + 1, d⃗

z,¬d, β) =

∏ (𝐅𝛃 + 𝐢 − 𝟏)

∏ (Wβ + i − 1)

𝐠∈𝐝 𝐅𝐝 𝐢=𝟏

w∈d Nd i=1

(b)

Trong đó,

 K là số chủ đề hiện tại đã được khám phá từ luồng văn bản nhất định.

 αD và β là số giả (pseudo) của tài liệu và số lần xuất hiện của mỗi từ và các đồ

thị con phổ biến trong chủ đề mới được tạo thứ (K + 1).

Trên thực tế, mô hình GOW-Stream được đề xuất là sự kết hợp giữa các phân phối

từ và đồ thị con phổ biến trong suy luận chủ đề cho các luồng văn bản thông qua cách

tiếp cận dựa trên DPMM. Bằng cách tích hợp với sự phân phối của các đồ thị con phổ

biến trong tài liệu, mô hình GOW-Stream mà luận án đề xuất với mong muốn nắm bắt ý nghĩa ngữ nghĩa phong phú hơn của các chủ đề được phát hiện bằng cách sử dụng các mối quan hệ đồng xuất hiện trong tài liệu văn bản. Nó không chỉ giúp đạt được độ chính xác của đầu ra gom cụm mà còn loại bỏ sự mơ hồ trong các chủ đề được phát hiện. Hình 3.6 trình bày lưu đồ thuật toán GOW-Stream do luận án đề xuất.

Tiền Biểu diễn văn bản bằng BOW

xử lý Biểu diễn văn bản bằng GOW

Biểu diễn văn bản

Tính xác suất văn bản

thuộc chủ đề mới/cũ

Sai Đúng Chủ đề

mới?

Thêm chủ đề mới Gán chủ đề cho văn bản

Suy luận chủ đề

Hình 3.6: Lưu đồ thuật toán GOW-Stream

Hình 3.6 mô tả quy trình gom cụm tổng quát của mô hình đề xuất GOW-Stream.

Cụ thể, có 2 quá trình chính là biểu diễn văn bản và suy luận chủ đề. Để biểu diễn văn bản, các văn bản đến trên luồng sẽ được xử lý biểu diễn đặc trưng bằng BOW (sử dụng thuật toán TF-IDF) và GOW (bước đồ thị hóa văn bản và trích xuất các GOW con phổ biến sau đó biểu diễn đặc trưng). Các văn bản đều được tiền xử lý trước khi biểu diễn (tách từ, loại bỏ từ dừng, chuyển từ về định dạng gốc…). Sau đó, mô hình sẽ tính xác suất văn bản thuộc chủ đề đã có hay chủ đề mới để xử lý gán chủ đề cho phù hợp. Quá

trình suy luận chủ đề tuân thủ theo mô hình chủ đề hỗn hợp Dirichlet (DPMM) như được mô tả chi tiết trong phần “Mô hình GOW-Stream” và trong Thuật toán 3.2.

Quy trình tổng thể của GOW-Stream được mô tả trong Thuật toán 3.2.

Thuật toán 3.2: Thuật toán GOW-Stream

Input:

 Tập tài liệu Dt tại thời điểm (t) đến từ luồng văn bản.  Cửa số trượt (s) và giá trị support nhỏ nhất (𝜎).  Siêu tham số mô hình: α, β Output: chủ đề zd cho tài liệu hiện tại

1: Initialize: K = [] #lưu các véc tơ đặc trưng của chủ đề được gán cho tập tài liệu 𝐷𝑡

3: Initialize: Z = [|Dt|] #cấu trúc lưu trữ mã tài liệu, mã cụm như , ... Initialize: F = ExtractGOWs(𝐷𝑡, σ) #rút trích các đồ thị con phổ biến từ tập tài liệu (𝐷𝑡) – xem Thuật toán 3.1

4: For document (d) in Dt: #duyệt hết tài liệu của tập 𝐷𝑡

5: Set: PZ,d = [] #Tập xác suất

6: Set: Fd = F[d], #rút trích các đồ thị con phổ biến trong tài liệu (𝑑)

7: For zi in K: #duyệt hết các cụm

9: Calculate: Pzi,d = prob(zi, d) #tính toán xác suất tài liệu (𝑑) thuộc về cụm (𝑧𝑖) đã có – theo công thức (3.6)(3.7)(3.8). Update: PZ,d.append(Pzi,d)#Thêm vào tập xác suất

existing = argmax

10: End for

new = prob(zi, d) #tính xác suất tài liệu (𝑑) tạo cụm mới (𝑧 =

(PZ,d)#Xác định xác suất lớn nhất và cụm có xác suất lớn 11:

12: Set: Pzi,d nhất z = zi Calculate: Pzi,d 𝑧|𝐾|+1) – theo công thức (3.6)(3.9).

new then: #tạo véc tơ đặc trưng mới cho cụm mới 𝑧𝐾+1

13:

If Pzi,d 14:

existing < Pzi,d Set: mz|K|+1 = 1#gán số lượng cụm mới là 1

g|# tính véc tơ tần số

g = |Fd

15: For common sub GOWs (g) in Fd: → Set: fz đồ thị con phổ biến của cụm K+1

w#tính tập từ của cụm K+1

Set: fz|K|+1 = |Fd|# tính số lượng đồ thị con phổ biến của cụm K+1 16:

17: = Nd For word (w) in Wd: → Set: nz|K|+1

Set: nz|K|+1 = Nd#cập nhật số lượng từ của cụm K+1 18:

Update: K. append(z|K|+1)#Thêm cụm K+1 19:

20: Update: Z[d] = z|K|+1#Cập nhật các chỉ số liên quan đến việc thêm cụm K+1

21: Else: #Cập nhật đặc trưng véc tơ cho cụm 𝑧𝑖 với một tài liệu mới (như mô tả trong công thức (3.5) a)

g|#cập nhật tập

g += |Fd

Update: m𝑧𝑖+= 1# Tăng số lượng tài liệu được gán cho chủ đề 22:

23: For common sub GOWs (g) in Fd: → Update: fz𝑖 đồ thị con phổ biến

w#cập nhật tập từ

24:

w += Nd

25: Update: fzi+= |Fd|#cập nhật véc tơ tần số của tập đồ thị con phổ biến For word (w) in Wd: → Update: nz|K|+1

26:

27: Update: nzi+= Nd#cập nhật số lượng từ Update: K[zi] #cập nhật véc tơ đặc trưng của cụm 𝑧𝑖 với một tài liệu mới (𝑑) được thêm vào.

28: Update: Z[d] = zi#cập nhật các chỉ số liên quan đến việc cập nhật tài liệu d vào véc tơ cụm 𝑧𝑖

29: End if

30: End for

31: Return K và Z

Thuật toán 3.2 được giải thích như sau: Ở giai đoạn đầu, các bộ tài liệu đầu vào sẽ được đánh giá để rút trích các đồ thị con phổ biến, được ký hiệu là: Fd với cửa sổ trượt ban đầu và giá trị hỗ trợ tối thiểu (σ) (dòng 3). Tập hợp các đồ thị con phổ biến được rút trích: Fd sau đó được sử dụng cho các quá trình suy luận chủ đề tiếp theo. Ban đầu, đối với tài liệu văn bản đầu tiên (d) trong một lô nhất định (Dt), mô hình sẽ tạo một chủ đề mới cho tài liệu. Sau đó, mỗi tài liệu đến tiếp theo trong luồng sẽ được đánh giá để quyết

định chọn một cụm hiện có hoặc tạo một cụm mới khác cho nó bằng cách tính toán các xác suất tương ứng. Đối với mỗi tài liệu, xác suất chọn một chủ đề chủ đề đã được ghi nhận sẵn trong (K) sẽ được tính toán. Sau đó, một cụm (zi), với xác suất cao nhất (dòng existing. Tiếp theo, xác suất tạo cụm mới 12) cho tài liệu (d) được chọn, được ký hiệu là: Pzi,d new. Nếu xác suất chọn một cụm hiện cho tài liệu (d) cũng được tính toán, ký hiệu là: Pzi,d existing > Pzi,d new) (dòng 13-29), vectơ đặc trưng cụm có lớn hơn việc tạo một cụm mới (Pzi,d của zi sẽ được cập nhật với các tham số (f, n, m) của tài liệu mới được thêm vào (d) (dòng 13-20), tuân theo công thức (3.5) a. Nếu không, một cụm mới z|K|+1 sẽ được tạo với các tham số ban đầu của tài liệu (d) (dòng 21-29).

Ví dụ về biểu diễn chủ đề z với GOW

Với đề xuất kết hợp BOW và GOW, véc tơ chủ đề được cấu trúc lại và được biểu diễn

như trong Bảng 3.5.

Bảng 3.5: Biểu diễn véc tơ chủ đề trong mô hình GOW-Stream

GOW

BOW

Suy luận

Biểu diễn véc tơ chủ

chủ đề

đề z

Số đồ thị con phổ

Tần số của đồ thị con

Số từ phân

Tần số từ

biến

phổ biến

biệt

0 0 0

[1,1,0,3,0,0,0,0,1]

1

0

0 0 0 0,04 [2;1;1;4;0;0;0;0,04;1]

𝑑1 gán cho chủ

2

1

đề 𝑧 mới 𝑑2 gán cho chủ

0 0 0 0.03 [3;2;1;7;0;0;0;0,04;2]

đề 𝑧 mới 𝑑2 gán cho chủ

2

1

đề 𝑧 đã có 𝑑1

Bảng 3.5 trình bày ví dụ minh họa về việc biểu diễn véc tơ chủ đề trong mô hình

GOW-Stream và việc thêm một tài liệu d vào chủ đề đã có hay thêm một tài liệu d vào

một chủ đề mới. Thành phần của một véc tơ chủ đề được biểu diễn bao gồm: véc tơ tài

liệu d được biểu diễn với GOW (số đồ thị con phổ biến, tần số của đồ thị con phổ biến),

véc tơ tài liệu d được biểu diễn với BOW (số từ phân biệt, tần số từ). Khi gán một tài

liệu cho chủ đề đã có ta thực hiện phép cộng để cập nhật các giá trị tương ứng vào véc

tơ chủ đề hiện có (xem dòng cuối cùng của Bảng 3.5).

3.2 Thực nghiệm và bàn luận

Phần này thực hiện các thử nghiệm mở rộng trên bộ dữ liệu trong thế giới thực để đánh giá hiệu quả của mô hình GOW-Stream được đề xuất so với các thuật toán gom cụm luồng văn bản dựa trên mô hình hỗn hợp được công bố gần đây, bao gồm: DTM, Sumblr và MStream.

Tập dữ liệu và chỉ số đánh giá

Mô tả tập dữ liệu

Để đánh giá công bằng hiệu quả của các mô hình gom cụm luồng văn bản khác

nhau bao gồm GOW-Stream được đề xuất, thực nghiệm sử dụng hai tập dữ liệu được

gắn nhãn trong thế giới thực thường được sử dụng cho hầu hết các nghiên cứu thực nghiệm trong các công trình trước đây. Hai tập dữ liệu này là:

 Google-News (GN) (tải tại https://news.google.com/): tập dữ liệu này lần đầu tiên được giới thiệu bởi [Yin and Wang, 2014], chứa 11.109 tài liệu được gắn

nhãn. Các tài liệu trong bộ dữ liệu này được gán cho 152 chủ đề khác nhau.

 Tweets (Tw) (tải tại http://trec.nist.gov/data/microblog.html): tập dữ liệu này được xây dựng bằng cách thu thập các tweet từ mạng xã hội Twitter. Những tweet

này được gắn nhãn trong các bài hát trên microblog 2011-2015 tại Hội nghị Truy

xuất văn bản (TREC), NIST. Tập dữ liệu này chứa 269 chủ đề bao gồm 30.322

tài liệu văn bản có các tweet độ dài khác nhau.

 Tập dữ liệu tổng hợp (GN-T, Tw-T): Hai tập dữ liệu này là phiên bản chỉnh sửa của Google-News (GN) và Tweets (Tw) ở trên để kích thích trạng thái dạt

trôi chủ đề/khái niệm trong các luồng văn bản trong thế giới thực khi mà các chủ

đề (mỗi chủ đề là một cụm) chỉ xuất hiện vào thời điểm cụ thể (ví dụ: COVID-

19, Cuộc giao tranh Trung Quốc-Ấn Độ, …) và sau đó biến mất. Theo quy trình

của các công trình trước, trước tiên, tác giả sắp xếp các tweet (Tw) và tin tức

(GN) theo các chủ đề được gán nhãn của chúng. Sau đó, tác giả tiến hành chia

đều các tweet/tin tức này thành 16 phần trước khi xáo trộn chúng.

Tương tự như các công trình trước, hệ thống áp dụng quy trình tiền xử lý văn bản

đơn giản bao gồm: chuyển đổi tất cả văn bản thành chữ thường, loại bỏ tất cả các từ

dừng và biến đổi các từ về dạng gốc với stemming. Hai bộ dữ liệu này được sử dụng chủ

yếu trong các thực nghiệm cũng có thể được xem là có độ dài ngắn và rời rạc do số lượng từ trung bình trong mỗi tài liệu thấp cũng như số lượng lớn các chủ đề được bao

quát (như thể hiện trong thống kê ở Bảng 3.6).

Bảng 3.6: Chi tiết về bộ dữ liệu thử nghiệm

Độ dài

Số đồ thị con phổ

Số lượng tài liệu

Số lượng chủ đề

Số lượng từ không trùng

trung bình (số từ)

biến (min support =20%)

GN và GN- T (tổng

11.109

152

8.110

6,23

382

hợp)

Tw và Tw-

30.322

269

12.301

7,97

107

T (tổng hợp)

Nhìn chung, tập dữ liệu Tw/Tw-T thách thức hơn so với GN/GN-T do trong các

tài liệu văn bản trong tập dữ liệu này có số lượng lớn các chủ đề được gán nhãn.

Các độ đo được sử dụng để đánh giá hiệu suất

Để đánh giá hiệu suất một cách chính xác đối với các tác vụ gom cụm văn bản với

các thuật toán gom cụm luồng văn bản khác nhau, thực nghiệm sử dụng hai độ đo để

đánh giá chính là NMI và F1. Các chỉ số đánh giá này được sử dụng trong thực nghiệm

như sau:

Thông tin tương hỗ chuẩn hóa (Normalized Mutual Information - NMI). Đây

là độ đo phổ biến nhất được sử dụng rộng rãi để đánh giá chất lượng của đầu ra gom

cụm với nhãn đầu ra thực sự cho trước. NMI được nhận định là thước đo nghiêm ngặt

nhất để đánh giá hiệu suất của nhiệm vụ gom cụm trong phạm vi [0, 1]. Trong trường

hợp các đầu ra gom cụm hoàn toàn khớp với các lớp có nhãn/nhãn đầu ra thực sự đã

cho, giá trị NMI sẽ là 1, trong khi giá trị của nó sẽ gần bằng 0 khi các đầu ra gom cụm

được tạo ngẫu nhiên. Chỉ số NMI được định nghĩa chính thức như sau (xem công thức (3.10)):

c,k

N.nc,k nc.nk

(3.10) ) ∑ nc,klog ( NMI =

nc N

nk N

) √(∑ nclog c ) . (∑ nklog k

Trong đó:

 nc, nk là số tài liệu trong một lớp (c) và số tài liệu trong một cụm (k).  nc,k là số lượng tài liệu trong cả lớp (c) và cụm (k).  N là tổng số tất cả các tài liệu trong tập dữ liệu đã cho.

Độ đo F1. Đây là một độ đo nổi tiếng cho cả nhiệm vụ gom cụm và phân lớp. Độ đo F1 xem xét cả giá trị precision (P) và giá trị recall (R) của đầu ra gom cụm để tính

giá trị F1. Độ đo F1 được định nghĩa chính thức như sau (xem công thức (3.11)):

P =

, R =

, F1 = 2 .

TP TP+FP

TP TP+FN

P.R P + R

(3.11)

Trong đó:

 TP, là số lượng tài liệu văn bản được gán cho các cụm chính xác (dựa trên các

lớp được gắn nhãn tương ứng của chúng).

 FP và FN, là số lượng tài liệu dự kiến được gán cho các cụm cụ thể nhưng không

chính xác và không được chỉ định thuộc về các cụm đó.

Thiết lập thực nghiệm

Để so sánh hiệu suất của mô hình GOW-Stream được đề xuất, ba thuật toán gom

cụm luồng văn bản được triển khai trong các thử nghiệm của tác giả bao gồm: DTM

[14], Sumblr [74] và MStream[97]. Các cấu hình cho các mô hình gom cụm luồng văn

bản này được mô tả ngắn gọn như sau:

 DTM[14]: được xem là mô hình ra đời sớm nhất sử dụng cách tiếp cận mô hình chủ đề động cho phép khám phá các chủ đề tiềm ẩn từ các tài liệu văn bản tuần

tự như luồng văn bản. Tuy nhiên, DTM được coi là phương pháp tiếp cận với “số

lượng chủ đề cố định” có nghĩa là trước tiên phải xác định số lượng chủ đề. Do đó, nó không thể đối phó với thách thức chủ đề thay đổi trong giải quyết nhiệm vụ gom cụm luồng văn bản.

 Sumblr [74]: là mô hình nổi tiếng nhất trong cách tiếp cận dựa trên độ tương đồng để gom cụm luồng văn bản. Sumblr là một phiên bản trực tuyến để gom cụm các tweet trong mạng xã hội Twitter. Sumblr là kỹ thuật hiệu quả khi xử lý tác vụ gom cụm văn bản ngắn chỉ cần một lần xử lý lặp lại hàng loạt để vừa gán

các tài liệu mới cho cụm vừa duy trì thống kê cụm. Tuy nhiên, tương tự như mô hình DTM trước đó, trong mô hình Sumblr, số chủ đề phải được thiết lập từ đầu nên kỹ thuật này không thể giải quyết vấn đề chủ đề thay đổi.

 MStream [97]: là mô hình hỗn hợp mới nhất để xử lý vấn đề gom cụm luồng văn bản ngắn cũng như giải quyết vấn đề chủ đề thay đổi. Mô hình MStream áp

dụng kỹ thuật suy luận dựa trên DPMM để gom chủ đề trên tài liệu trong một

luồng văn bản nhất định. Các thực nghiệm mở rộng trên bộ dữ liệu tiêu chuẩn đã chứng minh tính hiệu quả của mô hình MStream trong cả gom cụm tài liệu văn

bản một lần cũng như các quá trình cập nhật/duy trì cụm. Tuy nhiên, MStream

được coi là phương pháp đánh giá độc lập với từ, phần lớn bỏ qua các mối quan

hệ giữa các từ trong tài liệu văn bản. Do đó, kỹ thuật này có thể không thể giải quyết được thách thức về vấn đề mơ hồ của các chủ đề được rút trích từ các luồng

văn bản.

Đối với các cấu hình ban đầu của mỗi mô hình, các cài đặt khác nhau tương ứng với các thiết lập mặc định của từng mô hình được áp dụng để đạt được hiệu suất chính

xác cao nhất từ các công trình gốc. Chi tiết về cấu hình cho từng mô hình gom cụm

luồng văn bản sử dụng các bộ dữ liệu khác nhau được mô tả trong Bảng 3.7.

Bảng 3.7: Chi tiết về cấu hình cho các mô hình gom cụm luồng văn bản

Siêu tham số

Tập dữ liệu

Mô hình

Số lượng chủ đề khởi tạo (𝑲)

𝛼

𝛽

0,01 N/A

DTM

170

N/A

0,02

Sumblr

170

GN và GN-T (tổng hợp)

0,03

Mstream

N/A (K = 0)

0,03

GOW-Stream 0,03

N/A (K = 0)

0,01 N/A

DTM

300

N/A

0,02

Sumblr

300

Tw và Tw-T (tổng hợp)

0,03

Mstream

N/A (K = 0)

0,03

GOW-Stream 0,03

N/A (K = 0)

Bảng 3.7 mô tả chi tiết về cấu hình cho các mô hình gom cụm luồng văn bản được trong thực nghiệm này. Đối với mô hình DTM và Sumblr, trước tiên phải chỉ định số lượng chủ đề ban đầu, với các bộ dữ liệu khác nhau, áp dụng số lượng chủ đề khác nhau tương ứng (xem cột số lượng chủ đề khởi tạo (K)).

Đối với mỗi mô hình luồng văn bản, số lần lặp lại cho mỗi lô tài liệu đến đều được

định cấu hình là 10. Nhìn chung, mỗi tập dữ liệu được chia thành 16 lô tài liệu khác

nhau, sau đó kết quả thực hiện gom cụm tương ứng được đánh giá bằng cách sử dụng

các độ đo được liệt kê ở trên (trong phần 4.2 mục độ đo đánh giá). Đối với các thử

nghiệm trong mỗi lô tài liệu, mỗi mô hình được chạy 10 thử nghiệm độc lập và báo cáo

kết quả trung bình. Các thiết lập về siêu tham số được giữ mặc định cho từng mô hình

để các mô hình có thể đạt được hiệu suất chính xác cao nhất (thiết lập dựa vào các công

trình gốc).

Kết quả thực nghiệm và bàn luận

Nhiệm vụ gom cụm trên luồng văn bản

Thử nghiệm này so sánh hiệu suất của mô hình GOW-Stream được đề xuất với các kỹ thuật gom cụm luồng văn bản hiện đại khác nhau, bao gồm: DTM, Sumblr và

MStream sử dụng hai tập dữ liệu chuẩn của Google News và Twitter. Đối với mỗi mô

hình, tiến hành thử nghiệm nhiệm vụ gom cụm văn bản với cả hai tập dữ liệu 10 lần và

báo cáo kết quả trung bình với độ lệch chuẩn, dùng độ đo NMI và F1. Bảng 3.8 và Bảng

3.9 cho thấy kết quả đầu ra thử nghiệm cho tác vụ gom cụm luồng văn bản với các mô

hình khác nhau sử dụng chỉ số độ đo NMI và F1 tương ứng.

Bảng 3.8: Kết quả đầu ra trung bình của tác vụ gom cụm văn bản với các mô hình

khác nhau với độ đo NMI

Tập dữ liệu

Mô hình

GN

GN-T

Tw

Tw-T

DTM

0,723003±0,03 0,685827±0,05 0,676872±0,03 0,681405±0,02

Sumblr

0,580666±0,05 0,548127±0,08 0,542124±0,06 0,580197±0,05

Mstream

0,895725±0,01 0,872712±0,03 0,852766±0,02 0,889187±0,02

GOW-Stream 0,928976±0,01 0,896155±0,03 0,873884±0,02 0,905492±0,01

Bảng 3.9: Kết quả đầu ra thử nghiệm của tác vụ gom cụm văn bản với các mô hình khác nhau với độ đo F1

Tập dữ liệu

Mô hình

GN

GN-T

Tw

Tw-T

DTM

0,876349±0,02 0,832146±0,01 0,839111±0,01 0,885007±0,02

Sumblr

0,891121±0,01 0,848805±0,02 0,855527±0,03 0,907313±0,01

Mstream

0,976687±0,01 0,930837±0,01 0,940604±0,01 0,978933±0,01

GOW-Stream 0,985201±0,01 0,935536±0,01 0,943755±0,02 0,979442±0,01

Nhìn chung, thông qua các kết quả thử nghiệm được trình bày trong Bảng 3.8 và

Bảng 3.9, GOW-Stream được đề xuất luôn đạt được độ chính xác cao hơn so với các

mô hình gom cụm luồng văn bản gần đây với tất cả các tập dữ liệu đã cho. Mô hình

GOW-Stream đạt hiệu suất cao nhất trong tập dữ liệu của Google Tin tức (GN và GN

tổng hợp) với trung bình lần lượt là 91,25% và 96,03% theo các độ đo NMI và F1. Đối với tập dữ liệu Tweets được coi là thách thức hơn tập dữ liệu GN, mô hình GOW-Stream

cũng ổn định đạt được hiệu suất chính xác hợp lý với 88,96% và 96,15% tương ứng với

hai độ đo NMI và F1. Khi so sánh với tác vụ gom cụm luồng văn bản gần đây, GOW-

Stream vượt trội hơn đáng kể so với các mô hình Sumblr và DTM tương ứng khoảng

60,12% và 30,26% đối với độ đo NMI. Kết quả thử nghiệm cũng cho thấy GOW-Stream

đạt hiệu suất tốt hơn một chút so với mô hình MStream dựa trên mô hình hỗn hợp nổi

tiếng gần đây khoảng 2,68% với độ đo NMI.

Hình 3.7: Kết quả thử nghiệm đối với số lượng lô tài liệu khác nhau với độ đo NMI

Hình 3.8: Kết quả thử nghiệm trên số lượng lô tài liệu khác nhau với độ đo F1

Các đánh giá sâu hơn (như trong Hình 3.7 và Hình 3.8) về kết quả độ chính xác

với từng lô tài liệu riêng biệt của mỗi mô hình gom cụm luồng văn bản chứng minh rằng

cả MStream và GOW-Stream đều tạo ra kết quả gom cụm luồng văn bản tốt hơn và ổn

định hơn so với các mô hình DTM và Sumblr trước đó. Hơn nữa, các đánh giá với độ

đo F1 trên tác vụ luồng văn bản với các mô hình khác nhau trong cũng chỉ ra rằng cách tiếp cận dựa trên mô hình hỗn hợp của MStream và GOW-Stream được coi là linh hoạt

và ổn định hơn với độ dài tài liệu khác nhau so với cách tiếp cận cổ điển về mô hình hóa

chủ đề và tìm chủ đề dựa trên sự tương đồng. Tóm lại, thông qua các thử nghiệm, GOW-

Stream thể hiện tính hiệu quả và hiệu suất trong nhiệm vụ gom cụm luồng văn bản so

với các nghiên cứu gần đây, chứng minh rằng việc sử dụng phân phối GOW trong các

tài liệu văn bản có thể giúp gia tăng độ chính xác trên văn bản ngắn trong xử lý nhiệm

vụ gom cụm luồng.

Ngoài ra, khi so sánh GOW-Stream với thuật toán gom cụm tĩnh cổ điển như k-

means, kết quả cho thấy GOW-Stream và các thuật toán xử gom cụm luồng dữ liệu

(DTM, Sumblr, MStream) có độ chính xác thấp cao hơn nhiểu so với k-means.

Hình 3.9: So sánh với k-means sử dụng độ đo NMI

Hình 3.10: So sánh với k-means sử dụng độ đo F1

Hình 3.9 và Hình 3.10 cho thấy các thuật toán gom cụm động có độ chính xác cao

hơn nhiều so với thuật toán k-means. TF-IDF kết hợp với k-means là phương pháp kinh

điển thực hiện gom cụm dữ liệu tĩnh, không được thiết kế để đáp ứng chủ đề thay đổi

theo thời gian trong luồng văn bản cũng như không giải quyết tốt được vấn đề “concept

drift” và do đó hiệu quả về tính chính xác cũng không cao khi so sánh với các thuật toán trên luồng.

Tốc độ và độ ổn định của mô hình

Thực nghiệm về tốc độ xử lý (chỉ xét quá trình suy luận chủ đề, không tính chi phí tìm đồ thị con phổ biến). Phần này đánh tốc độ xử lý của mô hình GOW-Stream

so với các mô hình gom cụm luồng văn bản khác. Thực nghiệm đã triển khai và chạy

GOW-Stream, MStream, Sumblr và DTM trong cùng một máy tính CentOS 6.5 với

CPU Intel Xeon E5-2620 v4 2.10GHz (8 lõi - 16 luồng) và bộ nhớ 64Gb. Tất cả các mô

hình được cấu hình với 10 lần lặp cho mỗi lô tài liệu, với 16 lô cho hai tập dữ liệu GN

và Tw. Mỗi mô hình đã được chạy 5 lần và báo cáo kết quả cuối cùng là thời gian thực

hiện trung bình (tính bằng giây).

Hình 3.11: Khả năng nâng cao hiệu suất của các kỹ thuật gom cụm luồng văn bản khác nhau

Hình 3.11 cho thấy tốc độ của mô hình gom cụm luồng văn bản khác nhau trong tập dữ liệu Tw (Hình 3.11A) và GN (Hình 3.11B). Kết quả thử nghiệm cho thấy cả MStream và GOW-Stream đều nhanh hơn đáng kể so với các phương pháp tiếp cận truyền thống của Sumblr và DTM. Cụ thể, GOW-Stream nhanh hơn DTM khoảng 20,08 và 7,29 lần so với DTM và Sumblr tương ứng cho cả hai tập dữ liệu GN và Tw. So với mô hình MStream, GOW-Stream cũng cải thiện một chút với khoảng 2,8 lần tốc độ.

Thử nghiệm về khả năng nâng cao hiệu suất của mô hình chứng minh rằng sự kết hợp

giữa đánh giá từ độc lập và đánh giá đồ thị con phổ biến trong khi suy ra các chủ đề từ

các luồng văn bản có cải thiện một chút về tốc độ.

Thực nghiệm về tốc độ xử lý (xét tổng thể, có tính chi phí tìm đồ thị con phổ biến). Hình 3.12 thể hiện kết quả thực nghiệm. Áp dụng ngưỡng min supp = 20%, với tập dữ liệu Tw (tổng số đồ thị con phổ biến sinh ra là 107), GOW-Stream chậm hơn

MStream từ 1,31 đến 3,33 lần tốc độ. Với tập dữ liệu GN (tổng số đồ thị con phổ biến

là 382), GOW-Stream chậm hơn MStream từ 2,38 đến 12,95 lần. Như vậy, mô hình đề

xuất GOW-Stream thể hiện khả năng tối ưu hóa về tốc độ trong quá trình suy luận chủ

đề. Mô hình sẽ tốn chi phí hơn cho hoạt động tìm đồ thị con phổ biến và do đó sẽ chậm

hơn tính trên tổng thể quá trình xử lý.

Hình 3.12: Tốc độ xử lý của GOW-Stream so với MStream khi tính luôn chi phí tìm

đồ thị con phổ biến

Ảnh hưởng của số lần lặp. Hầu hết các cách tiếp cận dựa trên mô hình chủ đề và

mô hình hỗn hợp cần số lần lặp lại phù hợp cho mỗi lô tài liệu để đạt được hiệu suất chính xác có thể chấp nhận được. Phần thực nghiệm này phân tích ảnh hưởng của số lần lặp lại cho mỗi lô tài liệu đối với hiệu suất tổng thể về độ chính xác của mô hình GOW- Stream với độ đo NMI. Tương tự như những thử nghiệm trước, thử nghiệm này được tiến hành trên hai tập dữ liệu Tw và GN với số lần lặp khác nhau cho mỗi lô tài liệu. Mỗi thử nghiệm được chạy lặp lại 10 lần và báo cáo kết quả trung bình.

Hình 3.13: Đánh giá ảnh hưởng của số lần lặp đến tính chính xác của kết quả của mô

hình GOW-Stream

Hình 3.13 cho thấy những thay đổi về tính chính xác của kết quả của tác vụ gom

cụm luồng văn bản với số lần lặp khác nhau cho mỗi lô tài liệu trong cả hai tập dữ liệu Tw và GN. Kết quả thử nghiệm chứng minh rằng mô hình đề xuất này đạt được sự cân

bằng về độ chính xác của kết quả trong phạm vi 7-10 lần lặp cho mỗi lô tài liệu. Điều

này cho thấy rằng mô hình GOW-Stream đáp ứng sự ổn định về độ chính xác của kết

quả khá nhanh.

Độ nhạy của siêu tham số đối với mô hình

Để đánh giá mức độ ảnh hưởng của các tham số của mô hình đến kết quả độ chính

xác, các thử nghiệm mở rộng được thực hiện để phân tích sự thay đổi của các hyper-

parameter α và β có ảnh hưởng như thế nào đến chất lượng kết quả gom cụm văn bản.

Đối với phương pháp tiếp cận gom cụm luồng văn bản dựa trên cả hai mô hình chủ đề

và mô hình hỗn hợp động, các hyper-parameter thiết lập ban đầu có thể có tác động toàn diện đến kết quả đầu ra cũng như quá trình đạt được sự ổn định của mô hình. Do đó,

việc chọn một hyper-parameter mặc định thích hợp là rất quan trọng trong việc giúp cho mô hình đã cho có thể đạt hiệu suất cao nhất về cả độ chính xác và thời gian xử lý. Để kiểm tra đánh giá mức độ ảnh hưởng của các tham số của mô hình, tác giả đã triển khai mô hình GOW-Stream với các cấu hình mặc định (như trong Bảng 3.7) và thay đổi giá trị của các hyper-parameter α và β ban đầu trong một phạm vi cụ thể để quan sát sự biến động về độ chính xác đầu ra của mô hình được đánh giá bằng độ đo NMI. Các thử nghiệm về độ nhạy của tham số trong phần này cũng sử dụng hai tập dữ liệu tiêu chuẩn

Tw và GN với các biến thể khác nhau của hyper-parameter α và β trong phạm vi [0,01;

0,05]. Đối với mỗi thử nghiệm, giá trị của hyper-parameter tương ứng được thay đổi

trong khi các giá trị khác được cố định.

Hình 3.14: Kết quả thực nghiệm về ảnh Hình 3.15: Kết quả thực nghiệm về ảnh

hưởng của siêu tham số α hưởng của siêu tham số β

Hình 3.14 và Hình 3.15 cho thấy các kết quả thực nghiệm về ảnh hưởng của các

siêu tham số (hyper-parameter) α và β, tương ứng đến kết quả độ chính xác theo độ đo

NMI của mô hình GOW-Stream.

Kết quả thực nghiệm cho thấy rằng mô hình GOW-Stream được đề xuất có thể đạt

được hiệu suất ổn định về độ chính xác với các giá trị khác nhau của cả siêu tham số α

và β. Hiệu suất độ chính xác của mô hình được cân bằng trong phạm vi [0,84 ± 0,02,

0,94 ± 0,01] và với giá trị 0,03 cho cả hyper-parameter 𝛼 và 𝛽, mô hình GOW-Stream

đạt hiệu suất về độ chính xác cao nhất. Nhìn chung, các thử nghiệm mở rộng về độ nhạy

của tham số đối với mô hình GOW-Stream đã chứng minh được tính hiệu quả cũng như

tính ổn định của mô hình trong việc áp dụng đánh giá đồ thị con phổ biến trong tác vụ gom cụm tài liệu luồng văn bản rời rạc có độ dài ngắn.

Về mặt thời gian, mô hình GOW-Stream cần thời gian để xử lý đồ thị con phổ biến nhưng thời gian này cũng không đáng kể so với độ chính xác đạt được trong bối cảnh bài toán của luận án.

3.3 Kết chương

Chương này trình bày một cách tiếp cận mới nâng cao tính ngữ nghĩa để gom cụm

luồng văn bản bằng cách áp dụng các phân phối đồ thị từ phổ biến (GOW) trên các tài

liệu văn bản ngắn. Việc áp dụng đánh giá GOW để thực hiện nhiệm vụ khai phá văn bản

đã chứng minh được một số hiệu quả liên quan đến khả năng nắm bắt tự nhiên các mối quan hệ phụ thuộc của các từ như mối quan hệ đồng xuất hiện của từ. GOW được coi là

kỹ thuật tái cấu trúc văn bản không có giám sát đã được áp dụng rộng rãi trong nhiều

phương pháp tiếp cận nâng cao theo từng giai đoạn do tính đơn giản và hiệu quả trong

việc thực hiện mà không cần sử dụng bất kỳ kỹ thuật NLP tiên tiến có giám sát nào.

Bằng cách kết hợp với việc khai phá đồ thị con phổ biến (FSM), chúng ta có thể rút trích

các đồ thị con phổ biến từ kho văn bản nhất định, các đồ thị con phổ biến này đóng vai

trò là các đặc trưng đặc biệt cho các tài liệu văn bản. Để khắc phục các nhược điểm liên

quan đến đánh giá các mối quan hệ của từ trong các mô hình gom cụm luồng văn bản

trước đó, nghiên cứu kết hợp đánh giá dựa trên các đồ thị con phổ biến và đánh giá từ

độc lập trong quy trình suy luận chủ đề của Mô hình hỗn hợp quy trình Dirichlet

(DPMM) để nâng cao kết quả gom cụm văn bản từ luồng dữ liệu. Các thử nghiệm mở rộng trên bộ dữ liệu chuẩn có thể chứng minh tính hiệu quả của mô hình được đề xuất

trong việc xử lý tác vụ gom cụm luồng văn bản nắng có nội dung rời rạc so sánh với các

kỹ thuật được công bố gần đây, bao gồm: DTM, Sumblr và MStream. Trong các cải tiến

trong tương lai, nghiên cứu này dự kiến mở rộng việc triển khai mô hình GOW-Stream

trên môi trường xử lý phân tán chủ yếu được thiết kế để xử lý luồng dữ liệu dạng văn

bản quy mô lớn và tốc độ cao, và xử lý phân tán trên Apache Spark Streaming.

CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ

TRÊN LUỒNG VĂN BẢN

Chương này trình bày phương pháp, kết quả thực nghiệm và bàn luận của luận án khi

nghiên cứu giải quyết bài toán thứ hai được chia làm 03 phần: Phương pháp được mô tả ở mục 4.1, kết quả thực nghiệm và bàn luận được trình bày ở mục 4.2.

 Một phần của nghiên cứu phát hiện cụm từ xu thế trên luồng văn bản được nêu trong bài báo “TKES: A Novel System for Extracting Trendy Keywords from Online News Sites” đăng trong tạp chí “Journal of the Operations Research Society of China”

thuộc danh mục Scopus, Q3 vào tháng 03 năm 2021.  Một phần nội dung liên quan khác của nghiên cứu được đăng kỷ yếu và báo cáo tại các Hội nghị quốc tế;

4.1 Phương pháp

Giới thiệu

Để giải quyết vấn đề phát hiện xu hướng thông tin nào đang “nóng” từ các trang

tin tức điện tử, dựa trên ý tưởng của Kleinberg, nghiên cứu đề xuất phương pháp tìm

cụm từ xu thế trên luồng dữ liệu văn bản và cài đặt tính năng tìm các xu hướng thời sự

và theo dõi sự phát triển của các chủ đề theo thời gian cho hệ thống TKES (Trendy

Keyword Extraction System), một hệ thống mới mà luận án đề xuất sử dụng kỹ thuật

phát hiện sự nổi bật (Burst) để phát hiện các cụm từ xu thế (trendy words) trên luồng

văn bản. Bên cạnh đó, hệ thống TKES cũng đề xuất thuật toán xếp hạng sự nổi bật để

từ đó có thể tìm ra các sự nổi bật tiêu biểu (trendy bursts) hàng đầu của từ khóa.

Hệ thống TKES

Hệ thống bao gồm ba mô-đun chính: Bộ thu thập dữ liệu, Bộ xử lý dữ liệu (với 2 bước chính: Tiền xử lý và Xử lý) và Bộ hiển thị dữ liệu. Hình 4.1 cho thấy mối quan hệ của hệ thống với các công trình nghiên cứu khác.

Hình 4.1: Hệ thống được đề xuất phục vụ tìm cụm từ xu thế

Hình 4.1 thể hiện các các kỹ thuật liên quan có thể vận dụng vào thiết kế 03 mô-

đun của hệ thống TKES. Trong số các phương pháp được tìm hiểu, kỹ thuật Focused

Web Crawler được chọn áp dụng vào thiết kế bộ thu thập dữ liệu, kỹ thuật VnTokenizer

vào được áp dụng vào giai đoạn tiền xử lý, cơ sở dữ liệu đồ thị Neo4j được nghiên cứu

để xây dựng bộ hiển thị kết quả trực quan.

Kiến trúc của hệ thống được mô tả cụ thể hơn ở Hình 4.2, đầu tiên dữ liệu được thu thập bởi bộ thu thập thông tin và được chuyển đến bộ xử lý. Ở đây, dữ liệu được tổ

chức theo cấu trúc cây. Tiếp theo, bộ xử lý thực hiện hai nhóm thuật toán chính: nhóm đầu tiên bao gồm các thuật toán xử lý văn bản, bao gồm tách từ trong văn bản tiếng Việt, loại bỏ từ dừng. Nhóm thuật toán này chịu trách nhiệm xử lý, tính toán và lưu trữ kết quả. Nhóm thứ hai bao gồm các thuật toán loại bỏ dữ liệu đã lỗi thời, loại bỏ các từ dừng khỏi hệ thống, sử dụng cửa sổ trượt thời gian, bao gồm một số thuật toán như Wjoin, PWJoin, vv.... Cuối cùng, bộ hiển thị trực quan dữ liệu tương tác với người dùng thông qua giao diện trực quan và cho phép người dùng xem, sắp xếp và lưu dữ liệu kết quả

theo yêu cầu của họ.

Cửa sổ trượt thời gian Tạp chí

BỘ HIỂN THỊ

Dữ liệu nguồn

TRỰC QUAN

Lưu trữ

BỘ THU THẬP THÔNG TIN

Dữ liệu kết quả

Loại bỏ từ dừng/hư từ

WJoin

Tách từ với VnTokenizer Phát hiện cụm từ xu thế

PWJoin

Các thuật toán xử lý văn bản Các thuật toán cửa sổ thời gian

BỘ XỬ LÝ

Hình 4.2: Kiến trúc hệ thống TKES

Trong hệ thống TKES, dữ liệu văn bản đến liên tục hàng ngày được thu thập, xử

lý và sau đó có thể được được lưu trữ, kết xuất thành các kho ngữ liệu văn bản. Hệ thống

xác định một đối tượng được gọi là Bài viết (Tiêu đề, Tác giả, Mô tả, Nội dung) đại diện

cho mỗi bài viết trong luồng văn bản. Các bài viết được nhóm theo Ngày, Chuyên mục

nên mỗi Chuyên mục có n Bài viết. Hệ thống sử dụng cấu trúc cây để lưu dữ liệu đến

(cũng có thể sử dụng bộ nhớ ngoài nếu cần), sau đó thực hiện một số hoạt động tiền xử

lý bao gồm phân đoạn văn bản, dừng loại bỏ từ dừng/hư từ. Để phát hiện các cụm từ xu

thế, hệ thống trước tiên thực hiện tính toán tầm quan trọng của từ khóa sử dụng kỹ thuật TF-IDF, tìm các từ khóa tương đồng. Kết quả theo yêu cầu của người dùng có thể được hiển thị trực quan sử dụng đồ thị. Hệ thống cũng sử dụng cơ chế cửa sổ trượt để loại bỏ dữ liệu hết hạn. Nhìn chung, hệ thống TKES tập trung vào việc phát hiện sự nổi bật, cụm từ xu thế, các sự nổi bật vượt trội, tiêu biểu của từ khóa.

Sự nổi bật (burst) được định nghĩa là khoảng thời gian liên tục mà từ khóa xuất hiện một cách khác thường trên luồng văn bản và phát hiện sự nổi bật (burst detection) là quá trình phát hiện ra sự nổi bật. Cụm từ/tập từ xu thế (trendy keywords) là một tập

các từ hàng đầu/tiêu biểu xuất hiện trong một sự nổi bật. Các sự nổi bật hàng đầu/tiêu biểu (trendy bursts) là tập các sự nổi bật của từ khóa nào đó với trọng số sự nổi bật (burst

weight) cao. Trọng số của sự nổi bật (burst weight) được tính dựa vào tổng trọng số của

từ khóa (keyword weight). Trọng số của từ khóa (keyword weight) được tính dựa vào

tổng tần số của từ khóa xuất hiện trong cùng một sự nổi bật.

Hình 4.3 mô tả trình tự thực hiện xử lý tìm cụm từ xu thế, từ dữ liệu đầu vào là các

bài báo đã qua xử lý và tập từ khóa được rút trích từ dữ liệu đầu vào này, hệ thống tính toán dựa trên nhãn thời gian của chúng. Sự nổi bật được xem là khoảng thời gian mà từ

khóa xuất hiện liên tục, đơn vị thời gian được xét ở đây là đơn vị ngày. Hình 4.3 mô tả

5 bước xử lý chính trong hệ thống luận án đề xuất, TKES. Ở bước 1, các bài báo được

thu thập hàng ngày đến theo luồng văn bản và được lưu trữ bằng CSDL đồ thị Neo4j ở

bước 2. Hệ thống tiếp tục tiền xử lý dữ liệu ở bước 3. Do đặc điểm của ngôn ngữ tiếng

Việt, mỗi từ có thể cấu thành từ nhiều đơn vị “tiếng”, ví dụ “thành_phố” có 2 tiếng là

“thành” và “phố” nên ở bước này, hệ thống sử dụng công cụ xử lý tách từ chuyên biệt

là Vntokenizer [44]. Như vậy, để chuyển đổi ngôn ngữ, hệ thống chỉ cần linh hoạt thay

đổi cách thức tiền xử lý dữ liệu ở bước này. Trong bước tiền xử lý, hệ thống cũng loại

bỏ từ dừng (stop words). Bước tiếp theo, bước 4, hệ thống tiến hành rút trích top-n từ

khóa. Bước 5 hiện thực việc phát hiện sự nổi bật, cụm từ xu thế, phát hiện các sự nổi bật tiêu biểu của từ khóa. Sau cùng, bước 6 hỗ trợ hiển thị trực quan kết quả.

(1) Thu thập dữ liệu từ các trang tin tức

(2) Lưu dữ liệu vào CSDL đồ thị

(4) Rút trích từ khóa

(6) Lưu/Hiển thị kết quả

(3) Tiền xử lý dữ liệu

(5) Phát hiện cụm từ xu thế

Crawling

Procesing

Visualizing

Hình 4.3: Trình tự xử lý của hệ thống TKES

Thu thập dữ liệu

Mỗi bài viết được xem là một đối tượng được gọi là bài báo (Tiêu đề, Tác giả, Mô tả, Nội dung). Các bài viết liên tục theo thời gian được đưa vào một luồng văn bản lớn. Dựa trên đặc điểm của các bài viết, chúng được phân nhóm theo ngày, chuyên mục như trong Hình 4.5: Mỗi ngày có n chuyên mục, mỗi chuyên mục có n bài báo.

Hình 4.4: Luồng văn bản đến liên tục theo thời gian

Lưu trữ dữ liệu vào cơ sở dữ liệu đồ thị

Hình 4.5: Cấu trúc lưu trữ dạng cây

Như thể hiện trong Hình 4.5, dữ liệu thu được được lưu trữ trực tuyến (cũng lưu

trữ ngoại tuyến nếu cần) và được chuyển đến cấu trúc lưu trữ dạng cây. Nút gốc (𝑅) có các nút con 𝐷𝑖 (𝑖: 1𝑛); nút ngày (Day) 𝐷𝑖 có các nút con 𝐶𝑗 (𝑗: 1𝑚); Nút chuyên mục (Category) 𝐶𝑗 có các nút con bài báo (Article) 𝐴𝑘 (𝑘: 1𝑝); Mỗi nút 𝐴𝑘 chỉ có một nút con chủ đề (Topic) 𝑇𝑘 là tập hợp các từ khóa (Keywords) quan trọng 𝐾𝑔 (𝑔: 1𝑘).

Hình 4.6: Cấu trúc lưu trữ chung và ví dụ

Hình 4.6 mô tả cách dữ liệu được lưu trữ với cơ sở dữ liệu đồ thị. Cấu trúc lưu trữ

chung có 5 nút: Gốc, Ngày, Chuyên mục, Bài viết và từ khóa (Root, Day, Category,

Article, Keyword).

Bảng 4.1 mô tả các thuộc tính của các nút và các mối quan hệ. Mỗi nút hoặc mối

quan hệ có các thuộc tính được sử dụng để lưu trữ dữ liệu có liên quan.

Bảng 4.1: Các thuộc tính của nút và mối quan hệ

STT Tên nút/mối quan hệ

Thuộc tính

Mô tả

ID; Name

Node

Root

ID; Value

Node

Day

ID; Name

Node

Column

ID; Path; Title

Node

Article

ID; Value

Node

Keyword

Weight

Relationship

Presents

Written_in

ImportanceIndex Relationship

Tiền xử lý dữ liệu

Để tiền xử lý dữ liệu, các bài viết được xử lý bằng thuật toán tách từ tiếng Việt tên

là Vntokenizer [44] để tạo ra các từ kết nối có nhiều từ hơn một tiếng. Vntokenizer được

chứng minh có độ chính xác 96% đến 98% về việc nhận dạng từ ghép, theo [44]. Kế

đến, các bài viết tiếp tục được xử lý bằng cách loại bỏ các từ dừng, những từ ít có nghĩa trong ngữ cảnh đang xét được tính toán bằng thuật toán TF-IDF trên một tập hợp lớn

các văn bản.

Rút trích từ khóa với TF-IDF

Sau khi tiền xử lý, trong bước 4 ở Hình 4.7, tần số từ được tính bằng cách sử dụng

thuật toán TF-IDF để rút trích từ khóa và tập hợp các từ khóa quan trọng hàng đầu của

mỗi bài viết. Sau khi các từ khóa hàng đầu của mỗi bài viết (như bước 4 trong Hình 4.7

mô tả) được tìm thấy, chúng được sắp xếp thứ tự dựa theo giá trị tần số từ.

Hình 4.7: Ví dụ về các bước xử lý rút trích từ khóa

Bảng 4.2 cho thấy 5 từ khóa hàng đầu của 2 bài báo (bài 1 và bài 2) trong chuyên

mục có tên là “Tin tức” vào ngày 01 tháng 4 năm 2018. Bảng này cũng cho biết tần số

của từ tính theo TF-IDF ở bước trên và chỉ số xếp hạng (trọng số) dựa trên tần số từ, có

nghĩa là từ khóa có giá trị tần số từ cao nhất sẽ có chỉ số xếp hạng cao nhất, bước

tăng/giảm của chỉ số xếp hạng là 1. Trường hợp ví dụ này lấy danh sách top 5, vì vậy giá trị trọng số cao nhất ở đây là 5.

Bảng 4.2: Một ví dụ về tính toán chỉ số xếp hạng của từ

Bài báo 1

Bài báo 2

Từ khóa

Tần số

Trọng

Từ khóa

Tần số

Trọng

từ

số

từ

số

0,15

0,229

Giá (price)

nhà_thờ (church)

0,09

0,159

Vé (ticket)

Ngói (tile)

trùng_tu (renovate)

0,09

0,132

công_trình (construction)

0,07

0,125

dịch_vụ (service)

đức_bà (notre dame)

Phí

0,106

0,04

công_trình

(fee)

(construction)

Sau đó, tổng giá trị chỉ số xếp hạng cho mỗi từ khóa được tính bằng tổng tất cả các

giá trị chỉ số xếp hạng của từ khóa (xem Bảng 4.3). Và tiếp theo, 5 từ khóa hàng đầu mà

tổng giá trị chỉ số xếp hạng cao nhất là những từ có ý nghĩa nhất trong toàn bộ 6 chuyên

mục bài viết được thu thập được chọn ra. Đó là 5 từ khóa đến từ chuyên mục “Tin tức”

bao gồm nhà_thờ, giá, ngói, vé và công_trình. Tổng giá trị trọng số tương ứng của chúng là 5, 5, 4, 4; và 4.

Bảng 4.3: Một ví dụ về tính tổng trọng số của từ khóa trong chuyên mục

Bài báo 1 Bài báo 2

Tổng trọng số Từ khóa Tổng trọng số Từ khóa

5 5

nhà_thờ (church) giá (price)

ngói 4 vé 4

(tile) (ticket)

3 công_trình 4

trùng_tu (renovate) (construction)

2 2

đức_bà (notre dame) dịch_vụ (service)

phí 1 4

(fee) công_trình (construction)

Và cuối cùng, trong bước năm (Hình 4.7), hệ thống hỗ trợ người dùng hiển thị trực

quan kết quả cũng như lưu kết quả họ cần.

Thuật toán

Nội dung trong phần này mô tả các thuật toán chính của hệ thống do luận án đề

xuất. Một thuật toán chung được trình bày đầu tiên và tiếp theo là các thuật toán chi tiết.

Thuật toán 4.1: Thuật toán tổng quát

Thuật toán 4.1. Thuật toán tổng quát

1:loop

2: Đọc thông số từ tập tin config.txt

3: Thu thập các bài báo (lưu trữ ngoại tuyến nếu cần)

4: 5: 6: 7: Tạo cấu trúc cây dữ liệu Tiền xử lý (tách từ:Vntokenizer) và loại từ dừng (stop words) Tính tần số bằng TF-IDF Cập nhật kết quả tính toán

8: 9: 10: 11: Nhận yêu cầu từ người dùng Hiển thị trực quan kết quả (lưu kết quả nếu cần) if (quá thời gian)= True then Loại các bộ dữ liệu hết hạn

12: end if 13:end loop

Ở bước 5 của Thuật toán 4.1 sau khi thu thập dữ liệu, công cụ gọi là Vntokenizer

[44] được dùng để tiền xử lý dữ liệu với việc tách từ trong tiếng Việt. Tiếp theo, các từ

dừng được loại bỏ. Sau đó, hệ thống được lập trình các phần còn lại của các bước trên.

Thuật toán 4.2: Thuật toán thu thập dữ liệu

Thuật toán 4.2. Thuật toán thu thập dữ liệu (bước 3&4 trong thuật toán 1)

if ( Được cho phép) then 1:loop 2:

Lấy trang web 3:

Rút trích tiêu đề, tóm tắt, nội dung, URL, tạo cấu trúc dữ liệu 4:

5: else

Lấy URL tiếp theo trong hàng đợi 6:

Kết nối máy chủ 7:

end if

8: 9:end loop

Thuật toán 4.3 (4.3.1 đến 4.3.3) được sử dụng để rút trích từ khóa từ mỗi bài viết

bằng cách sử dụng tập văn bản bao gồm các bài báo trong cùng một chuyên mục trên

một khoảng thời gian mặc định trong một ngày. Thuật toán 4.3.4 được sử dụng để xác

định tập hợp các từ khóa quan trọng cho mỗi chuyên mục trong một khoảng thời gian

mặc định là một ngày. Nhìn chung, các thuật toán con cho bước 6 của thể hiện trong

Thuật toán 4.1 như mô tả sau đây.

Thuật toán 4.3: Tính tần số từ

Thuật toán 4.3.1. TermFrequency

Input: array docOfWords, string term

Output:double result

1:int occurrences 2:for each word in docOfWords

if(word giống term) then 3:

occurrences ++; 4:

end if 5:

6: end for 7: resultoccurrences / docOfWords.length

Thuật toán 4.3.2. InverseDocumentFrequency

Input: array listOfDocs, string term Output:double result

1:int totalDoc

2:for eachdoc in listOfDocs

if(doc chứa term) then 3:

totalDoc ++ 4:

end if break 5: 6:

7: end for 8: resultMath.log(listOfDocs.length / totalDoc)

Thuật toán 4.3.3. CalTermFrequency

Input: array docOfwords, array listOfDocs, string term

Output:double result 1:resultTermFrequency(docOfwords,term)*InverseDocumentFrequency (listOfDocs, term)

Thuật toán 4.3.4. ColumnKeywordExtraction

Input: Column Output: List result 1: Lấy danh sách n từ khóa hàng đầu của mỗi bài báo 2: Gán thứ hạng cho các từ khóa trong từng danh sách từ 1 đến n theo tần số của mỗi

từ khóa 3: Tính chỉ số xếp hạng cho mỗi từ khóa (tổng chỉ số hạng) 4: result  Danh sách n từ khóa có chỉ số xếp hạng lớn nhất

Rút trích từ khóa tương đồng

Ngữ nghĩa của từ dựa trên ngữ cảnh của chúng, chẳng hạn như các từ xuất hiện

gần nhau. Giả định rằng ngữ cảnh là mỗi bài báo và các từ xuất hiện cùng nhau trên một

bài báo sẽ có liên quan hay là có sự tương đồng với nhau. Vì vậy, với một từ khóa mà

người dùng quan tâm, nghiên cứu rút trích từ khóa tương đồng tìm ra được tập các từ liên quan khác.

Các bước tìm tập từ khóa tương đồng bao gồm: Đầu tiên, hệ thống huấn luyện

mạng nơ-ron để thực hiện nhiệm vụ cụ thể như đã đề cập. Cho một từ khóa cụ thể trong

danh sách từ khóa của một bài báo (từ khóa đầu vào), bằng cách xem xét các từ cùng

xuất hiện, mô hình sẽ tính toán xác suất mỗi từ khóa tương đồng với từ khóa đã cho từ

đó chọn n từ tương đồng hàng đầu với xác suất cao nhất.

Để rút trích từ khóa tương đồng, luận án dùng mạng Nơron để huấn luyện mô hình

thông qua sử dụng tập tài liệu huấn luyện là dữ liệu đến từ luồng văn bản các bài viết

được thu thập từ các trang tin tức trực tuyến đã được tiền xử lý, từ đó tính tương đồng

dựa trên độ đo tương đồng Cosine, sử dụng mô hình Skip-gram, phương pháp Softmax

phân cấp và thiết lập kích thước của vectơ từ là 300. Luận án cũng so sánh kết quả của nhiều phương pháp tương đồng khác nhau trong phần thực nghiệm.

Rút trích cụm từ xu thế

Hình 4.8 mô tả cấu trúc lưu trữ để tính toán các sự nổi bật. Từ các từ khóa đã được

rút trích, nghiên cứu này sử dụng kỹ thuật phát hiện sự nổi bật của từ khóa để giải quyết

Sự nổi bật

Thuộc_về

Xuất_hiện_lúc

Nhãn thời gian

Từ khóa

trong

Chuyên mục

bài toán đặt ra sử dụng cơ sở dữ liệu Neo4j.

Hình 4.8: Cấu trúc lưu trữ dùng để phát hiện sự nổi bật

Hình 4.8 thể hiện cấu trúc lưu trữ gồm có 4 nút: Từ khóa, sự nổi bật, nhãn thời

gian và chuyên mục. Cấu trúc lưu trữ bao gồm 3 quan hệ là: “Thuộc_về”,

“Xuất_hiện_lúc” và “trong” cho biết từ khóa thuộc về chuyên mục nào, xuất hiện lúc

nào và nổi bật khi nào (thuộc về sự nổi bật nào).

Bảng 4.4 trình bày một ví dụ về cấu trúc lưu trữ, ví dụ về từ khóa “Facebook” xuất hiện ở 4 thời điểm tạo ra 4 sự kiện và nó thuộc về Burst có nhãn “20180321-20180324”.

Bảng 4.4 cũng mô tả sự nổi bật của từ khóa “Facebook” trong thời gian 03 ngày từ ngày

21 tháng 03 năm 2018 đến ngày 24 tháng 03 năm 2018. Các chỉ số ảnh hưởng lần lượt

có giá trị là 8, 25, 11 và 10 là thứ hạng (từ 1 đến n) của từ khóa “Facebook” so với n-1

từ khóa khác xuất hiện cùng thời điểm. Sau đó, hệ thống lấy tổng các thứ hạng này = 54

làm trọng số được sử dụng để so sánh tầm quan trọng của sự nổi bật này với các sự nổi

bật khác của từ khóa này.

Bảng 4.4: Thí dụ về cấu trúc lưu trữ Burst

Sự kiện

từ khóa Nhãn thời gian

Nhãn Burst

Chỉ số Burst

Trọng số từ khóa

Facebook

20180321

Facebook

20180322

20180321-20180324

Facebook

20180323

Facebook

20180324

Tìm sự nổi bật

Lấy ý tưởng từ thuật toán của Kleinberg [42], nghiên cứu đề xuất một phương pháp phù hợp để xử lý phát hiện sự nổi bật nhằm giải quyết bài toán đặt ra trong hệ thống

TKES. Phương pháp này phát hiện sự nổi bật dựa trên thuật toán Kleinberg, thực hiện

tính toán trọng số từ khóa KeywordWeight (tổng tần số của tất cả các lần xuất hiện của

một từ khóa trong một sự nổi bật). Trọng số này phục vụ cho việc phát hiện các sự nổi bật tiêu biểu của từ khóa (có trọng số xuất hiện của từ khóa cao) cũng như chọn ra được danh sách các từ khóa nổi bật tiêu biểu hàng đầu (trendy keywords).

4.2 Thực nghiệm và bàn luận

Các framework dùng để lập trình

Một số công cụ sau đây đã được sử dụng để phát triển hệ thống: Scala 2.10.5, Java

8, Spark 1.6.3, Windows Utilities 2.6.x, Maven 3.3, Neo4j 3.2, Apache-tomcat-9.x,

IntelliJ IDEA và Vis.js. Ngoài ra, hệ thống cũng sử dụng VnTokenizer [44] và danh sách từ dừng được tải xuống từ Github được bổ sung thêm một số ký tự xuất hiện trong văn

bản nhưng không có bất kỳ ý nghĩa nào vào danh sách này.

Các thử nghiệm được thực hiện trên máy tính có cấu hình CPU Intel (R) Core (TM)

6700HQ @ 2.60GHz, bộ nhớ DDR4 8GB, sử dụng hệ điều hành Windows 10. Ngôn ngữ lập trình chính được sử dụng là Python 3.6. Cơ sở dữ liệu đồ thị là Neo4j.

Tính năng phát hiện sự nổi bật của một từ khóa cụ thể

Luận án thực hiện thử nghiệm trên dữ liệu là các bài báo được hệ thống thu thập

từ các trang Tin tức trực tuyến trong 1 năm với tổng số gần 80.000 bài viết. Thuật toán

dựa trên ý tưởng của Kleinberg được sử dụng để phát hiện các sự nổi bật trong tập dữ

liệu. Thời gian được quy ước là liên tục theo đơn vị ngày. Thử nghiệm thực hiện tìm mức độ liên tục của một sự kiện (một từ khóa xuất hiện trong một bài báo tại một thời

điểm). Có nghĩa là, đối với một từ w nhất định, hệ thống tìm xem w có thu hút được sự

chú ý hay không trong dòng văn bản bằng cách:

1. Chọn các bài báo có từ 𝑤.

2. Sắp xếp các mục này theo thứ tự ngày.

3. Áp dụng thuật toán cho các mục này.

4. Xuất kết quả, bài báo ở trạng thái nổi bật, trọng số nổi bật (nếu cần).

Bảng 4.5 thể hiện kết quả về các khoảng thời gian nổi bật từ khóa “Facebook”. Mỗi Burst (BurstID, Start, End, Burst weight) được phân biệt bởi một mã số phân biệt (BurstID) được tính từ 1, thời gian bắt đầu, thời gian kết thúc và trọng số của Burst cho

biết chỉ số về mức độ quan tâm của người dùng đối với từ khóa này. Trọng số Burst của từ khóa được tính bằng cách tổng tất cả các giá trị tần số từ khóa trong một Burst. Vì vậy, trọng số càng cao thì mức độ quan tâm của người dùng đối với từ khóa càng cao.

Bảng 4.5: Các Burst của từ khóa “Facebook”

Từ khóa Mã số Burst Bắt đầu

Kết thúc Trọng số nổi bật

Facebook

03-21-2018 03-24-2018

Facebook

03-26-2018 03-29-2018

Facebook

04-03-2018 04-04-2018

Facebook

04-06-2018 04-08-2018

Bảng 4.5 phát hiện từ khóa “Facebook” đã xuất hiện trong các bài báo từ ngày 21

tháng 03 đến ngày 08 tháng 04, năm 2019. Có thể thấy rằng “Facebook” trở nên phổ

biến nhất trong 02 ngày từ 03 tháng 04 đến 04 tháng 04. Sau đó, mọi người tiếp tục nhắc đến Facebook từ ngày 06 đến ngày 08 tháng 04. Do đó, phát hiện Burst có thể giúp

người dùng theo dõi xu hướng, độ “nóng” của các từ khóa. Như chúng ta đã biết, lý do

tại sao “Facebook” trở nên được quan tâm với tần số cao trong các giai đoạn trên là do

vụ việc rò rỉ thông tin người dùng liên quan đến cuộc bầu cử Tổng thống Trump tại Hoa

Kỳ. Hệ thống được xây dựng cũng hỗ trợ người dùng xem kết quả một cách trực quan

(như được thấy trong Hình 4.9).

Hình 4.9: Phát hiện sự nổi bật đối với từ khóa “Facebook”

Hình 4.9 cho thấy từ khóa “Facebook” có 04 giai đoạn nổi bật, trục ngang thể hiện kích thước sự nổi bật và trục dọc thể hiện trọng số của giai đoạn nổi bật. Như vậy, khoảng thời gian nổi bật dài nhất là 04 ngày từ 21-24/03/2018, và trọng số xuất hiện cao

nhất là trong 02 ngày từ ngày 03-04/04/2018 (xấp xỉ 80).

Lựa chọn các từ thu hút sự chú ý trong một khoảng thời gian

Mục tiêu của thử nghiệm này là chọn các từ khóa tượng trưng, tiêu biểu cho những gì xảy ra trong một khoảng thời gian trong luồng tài liệu. Danh sách các từ được lập

bằng cách:

1. Chọn các bài viết bao gồm từ w và tìm xem có sự nổi bật của từ khóa này hay

không. Nếu có nhiều sự nổi bật, chọn sự nổi bật có trọng số lớn nhất.

2. Nếu có một sự nổi bật, lưu từ và khoảng thời gian nổi bật của từ.

3. Rút trích tất cả các từ liên quan của các bài báo xuất hiện trong khoảng thời gian

nổi bật vừa xác định.

4. Sắp xếp theo trọng số, chọn top-n và xuất kết quả.

Bảng 4.6: Xác định danh sách từ xu thế chung với từ khóa “Facebook” Giai đoạn nổi bật 04/03/2018 - 04/04/2018

Trọng số 101,9

Từ khóa Cấm

Lưu_trữ

04/03/2018 - 04/04/2018

89,4

Quản_trị

04/03/2018 - 04/04/2018

Nhà_tù

04/03/2018 - 04/04/2018

52,2

31,6

Chính_phủ

04/03/2018 - 04/04/2018

Bảng 4.6 trình bày top-5 từ khóa (top-5 trendy keywords) xuất hiện trong sự nổi

bật từ 03-04-2018 đến 04-04-2018 xếp theo giá trị trọng số từ cao tới thấp.

Đo thời gian xử lý của bộ thu thập dữ liệu

Ba mô-đun: bộ thu thập thông tin, bộ xử lý và bộ hiển thị trực quan được kiểm tra

riêng để tính toán thời gian hoạt động của từng mô-đun. Mỗi ngày, khoảng 130 bài báo của 6 chuyên mục bao gồm Công nghệ, Giáo dục, Khoa học, Pháp luật, Thế giới và Tin tức được hệ thống thu thập. Bảng 4.7 chứng minh rằng hệ thống thu thập các bài viết trong khoảng thời gian ngắn.

Bảng 4.7: Thử nghiệm thời gian thực thi trên bộ thu thập thông tin

Ngày

Số bài báo Thời gian xử lý (s)

11/28/2017

127

11/29/2017

143

11/30/2017

141

12/01/2017

147

111

12/02/2017

125

Đo thời gian xử lý thêm dữ liệu vào cơ sở dữ liệu đồ thị

Các kịch bản thử nghiệm để kiểm tra tốc độ xử lý của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị (xem Bảng 4.8) cũng được thực hiện. Số lượng bài báo sử dụng cho thử

nghiệm là khoảng 134 (một ngày), gần 900 (một tuần) và gần 4000 (một tháng). Bảng

4.8 cho thấy việc thêm dữ liệu vào cơ sở dữ liệu đồ thị mất rất ít thời gian, chỉ trong

khoảng một phút.

Bảng 4.8: Kiểm tra thời gian thực thi của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị

STT

Ngày

Số bài báo Thời gian (s) Số nút Số quan hệ

Test 1

09/28/2017

134

142

141

Test 2 09/28/2017- 10/04/2017

896

946

945

Test 3 09/28/2017- 10/27/2017

3.742

204

3.953

3.952

Đo thời gian xử lý của bộ xử lý dữ liệu

Các kết quả thử nghiệm với bộ xử lý được trình bày ở Bảng 4.9. Bảng này cho thấy

rằng bộ xử lý dữ liệu tiêu tốn thời gian nhất. Mất khoảng 20 phút, 2 giờ và 8 giờ để xử

lý dữ liệu hàng ngày, hàng tuần và hàng tháng.

Bảng 4.9: Kiểm tra thời gian chạy của bộ xử lý

Bộ dữ liệu Thời gian xử lý (s) Số đỉnh Số cung

1.299

1.482

2.681

Test 1

8.387

4.535

15.237

Test 2

31.138

12458

74.326

Test 3

So sánh thời gian xử lý trên dữ liệu có số lượng và kích thước khác nhau

Nguyên nhân dẫn đến chi phí đề cập ở phần trên cũng được kiểm tra thông qua thử

nghiệm trên dữ liệu bài viết với số lượng và kích thước (độ dài) khác nhau. Kết quả thử

nghiệm được trình bày ở Bảng 4.10.

Số lượng từ

109

585 1.153

1.940

Bảng 4.10: Thời gian xử lý số lượng bài viết khác nhau với độ dài khác nhau

Số lượng bài báo 1 t s e T

Thời gian (s)

114

155

236

391

Số lượng từ

864 4.264 9.669 14.548

Số lượng bài báo 2 t s e T

Thời gian (s)

130

179

287

359

Kết quả thu được được thể hiện tại Bảng 4.10 và biểu đồ (xem Hình 4.10 được phát

họa từ dữ liệu ở Bảng 4.10).

Hình 4.10: Ảnh hưởng của chiều dài bài viết và số lượng bài viết đối với thời gian

chạy của bộ xử lý

Hình 4.10 cho thấy rằng số lượng bài viết là lý do chính của vấn đề tốn thời gian.

Dựa trên kết quả này, hệ thống có cơ hội được cải thiện về tốc độ đối với bộ xử lý thông

qua việc thực hiện các nghiên cứu sâu hơn có liên quan.

So sánh dữ liệu kết quả chạy các phiên bản TF-IDF lập trình bằng ngôn ngữ khác

nhau

Phần này trình bày việc thực hiện so sánh các kết quả đầu ra từ hai thuật toán được

viết bằng ngôn ngữ lập trình Java và Python và đề xuất một số tùy chọn để sử dụng các

kết quả đầu ra hiệu quả hơn. Các bộ dữ liệu được sử dụng bao gồm 5294 bài báo được thu thập trong một tháng từ ngày 21 tháng 3 năm 2018 đến ngày 21 tháng 4 năm 2018,

được tổ chức thành 6 chuyên mục từ 2 tạp chí trực tuyến (VnExpress và VietnamNet).

Kích thước thư mục các tập tin trên đĩa là 17MB. Sau bước tiền xử lý trước dữ liệu, một

thư mục mới có dung lượng 11 MB khác được tạo. Thử nghiệm tính toán tỷ lệ chính xác

cho bốn trường hợp bao gồm 10, 20, 30 và 40 từ khóa quan trọng hàng đầu. Các tỷ lệ

này là 86,6%, 89,1%, 91% và 91,8% (xem Bảng 4.11).

Bảng 4.11: Tỷ lệ giống nhau của dữ liệu sinh ra từ 2 thuật toán TF-IDF viết bằng ngôn ngữ lập trình khác nhau

Số bài báo

10 từ khóa đầu tiên

20 từ khóa đầu tiên

30 từ khóa đầu tiên

40 từ khóa đầu tiên

5294

86.6%

89.1 %

91 %

91,8 %

Bảng 4.12: Tần số của từ khóa

Mã bài báo

Từ khóa

Tần số

69331

phát_âm

0,10591451753481180

Drink

0,09886992125092042

trọng_âm

0,09886992125092042

tiếng

0,08695281898093078

You

0,08239160104243368

nhấn

0,08239160104243368

nối

0,08239160104243368

Âm

0,08239160104243368

ví_dụ

0,05295725876740590

nội_dung

0,05000154587608109

69330

ĐH

0,12387313754395837

Thi

0,07519608378236309

quốc_gia

0,06945752449747143

cụm

0,06940755124852771

ĐT

0,05698959117298020

THPT

0,04423299046021358

phối_hợp

0,04310711180367380

Cần_Thơ

0,03812281648233688

Công_nghiệp 0,03812281648233688

Bảng 4.12 cho thấy rằng nhiều từ khóa có cùng giá trị trọng số tần số, do đó việc

sắp xếp và lọc khi chọn từ khóa hàng đầu tạo ra sự khác biệt giữa các kết quả đầu ra.

Nhiều từ khóa có cùng tần số là do việc làm tròn các giá trị tần số của chúng. Vì vậy,

chúng ta cần phải cẩn thận khi làm tròn các giá trị này và cần thiết lập tiêu chí rõ ràng

để chọn các từ khóa có cùng tần số.

Tính toán thời gian huấn luyện mô hình tìm từ khóa tương đồng

Thiết lập tham số

Bảng 4.13 mô tả các thiết lập tham số khi sử dụng mô-đun word2vec của Gensim để huấn luyện các mô hình hệ thống. Kích thước của vectơ từ là 300. Các mô hình được

đào tạo với phương pháp Skip-Gram và Phân cấp Softmax.

Bảng 4.13: Một số tham số với word2Vec

Tham số Giải thích Size Kích thước của vectơ từ Giá trị 300

Mô hình huấn luyện:

Sg 0-CBOW 1

1-Skip-Gram

Phương pháp huấn luyện

Hs 0-Negative Sampling 1

1-Hierarchical Softmax method

Others Default

Các tập dữ liệu

Các tập dữ liệu được thu thập từ các trang báo điện tử Việt Nam là VNExpress và

VietnamNet dùng để thực nghiệm, bao gồm:

Tập dữ liệu T1 chứa văn bản của các bài báo được thu thập trong 41 ngày (hơn 4000 bài viết) được sử dụng để so sánh thời gian xử lý các mô hình huấn luyện mới và cập nhật bổ sung. Mục đích của thực nghiệm này là so sánh chi phí huấn luyện các mô hình mới với việc huấn luyện bổ sung các mô hình hiện có.

Tập dữ liệu T2 có các bài viết xuất hiện trong 10 ngày (hơn 100 bài viết) được sử

dụng để đo thời gian xử lý tìm kiếm từ liên quan. Mô hình được huấn luyện với dữ liệu thu thập trong 41 ngày được sử dụng cho thử nghiệm này. Mỗi ngày, tác giả chọn 10 từ

khóa cho mỗi bài viết, từ mỗi từ khóa tác giả chọn 10 từ khóa liên quan. Sau đó, tác giả

so sánh thời gian xử lý tìm kiếm trên các bộ dữ liệu khác nhau đến từ các ngày khác

nhau.

Tập dữ liệu T3 có hơn 40.000 bài viết được sử dụng để kiểm tra tính ổn định của

mô hình. Để thực hiện kiểm tra này, tác giả chọn các từ khóa tần số cao được rút trích

từ các bài viết trong hệ thống. Sau đó tác giả chọn các từ liên quan từ mỗi từ khóa. Như đã đề cập trước đây, có 6 chuyên mục bài viết xuất hiện hàng ngày, vì vậy hệ thống huấn

luyện 6 mô hình sử dụng Word2Vec và Skip-gram. Các mô hình này được huấn luyện

bằng tập dữ liệu T3 và tiếp tục được huấn luyện bổ sung cho đến khi các mô hình này

đạt trạng thái ổn định. Điều này có nghĩa là khi mô hình được tiếp tục huấn luyện bổ

sung, hầu như không có thay đổi nào về đầu ra (các từ liên quan) của cùng một đầu vào

(các từ khóa được rút trích). Với bộ dữ liệu T3, nghiên cứu sinh tiếp tục theo dõi sự khác

biệt của đầu ra giữa các phiên bản mô hình được huấn luyện bổ sung cho đến khi kết

quả đạt được sự ổn định nhất định. Với sự ổn định này, có thể ngừng huấn luyện và đưa

mô hình vào sử dụng thực tế.

Bảng 4.14 trình bày các từ liên quan đến từ khóa “ứng dụng”. Chúng tôi huấn

luyện mô hình với 4.379 bài viết.

Bảng 4.14: Các từ liên quan đến từ khóa “Ứng dụng”

Từ khóa Từ liên quan Mức độ liên quan

Ứng dụng Google play

0,837

Trẻ em

0,815

Block chain

0,788

Play store

0,770

Như đã đề cập ở trên, nghiên cứu sinh sử dụng năm độ đo khoảng cách tương đồng

phổ biến gồm khoảng cách Euclide, khoảng cách Manhattan, khoảng cách Minkowski, độ tương đồng Cosine và độ tương đồng Jaccard. Nghiên cứu sinh cũng so sánh kết quả từ việc sử dụng các phương pháp này và kết quả được trình bày trong Bảng 4.15.

Bảng 4.15: So sánh mức độ tương đồng khi sử dụng các thước đo khoảng cách tương đồng khác nhau

Từ khóa Từ liên quan Euclidean Manhattan Minkowski Cosine Jaccard

Google play

0,837

0,842

0,739

0,856

Ứng dụng

Trẻ em

0,815

0,812

0,701

0,790

Block chain

0,788

0,773

0,657

0,780

0,775

Play store

0,770

0,763

0,774

0,512

0,763

Nghiên cứu sinh tính toán thời gian xử lý dựa trên 3 hoạt động chính bao gồm hoạt

động huấn luyện mô hình, hoạt động tìm kiếm từ liên quan và huấn luyện mô hình đáp

ứng thực tế.

Bảng 4.16: Thời gian huấn luyện các mô hình

Số ngày thu dữ

Huấn luyện mới

Huấn luyện bổ sung

liệu

Số bài báo

Thời gian xử lý (ms)

157

3.716

3.151

3.478

22.719

3.221

7.814

4.379

27.846

1.058

9.266

Với hoạt động huấn luyện mô hình, trước tiên nghiên cứu sinh huấn luyện mô hình

mới bằng cách sử dụng bộ dữ liệu T1 với số lượng bài viết được thu thập trong một ngày (hơn 100 bài viết), 30 ngày (hơn 3000 bài viết) và 41 ngày (hơn 4000 bài viết) như được

hiển thị trong Bảng 4.16. Do có 6 chuyên mục trong mỗi tập dữ liệu, tác giả đào tạo 6

mô hình tương ứng. Sau đó, tác giả huấn luyện bổ sung cho 6 mô hình với số lượng bài

viết được thu thập trong một ngày (hơn 100 bài viết), 30 ngày (hơn 3000 bài viết) và 41

ngày (hơn 1000 bài viết). Thời gian xử lý được đo trong 2 lần chạy thử.

Hình 4.11: So sánh chi phí giữa huấn luyện mới và huấn luyện cập nhật

Hình 4.11 cho thấy mô hình huấn luyện bổ sung ít tốn thời gian hơn so với huấn

luyện mới mô hình.

Kết quả thực nghiệm cho thấy chi phí huấn luyện mô hình có thể giảm khi huấn luyện mô hình bổ sung thay vì huấn luyện mới mô hình. Việc huấn luyện bổ sung có thể được thực hiện hàng tuần hoặc hàng tháng.

Tính toán thời gian tìm từ liên quan

Bảng 4.17: Thời gian xử lý để tìm 10 từ liên quan

Ngày

Số tài liệu Số từ khóa Thời gian xử lý

01-05-2018

710

72.391

02-05-2018

730

72.391

03-05-2018

230

2.300

213.933

04-05-2018

127

13.769

05-05-2018

136

1359

126.039

06-05-2018

960

91.647

07-05-2018

880

85.939

08-05-2018

122

1.207

113.016

09-05-2018

127

1.270

115.336

10-05-2018

128

1.276

115.808

Với chức năng tìm kiếm từ liên quan, thực nghiệm tiến hành kiểm tra và đo thời

gian xử lý để tìm ra 10 từ khóa liên quan hàng đầu. Dữ liệu được sử dụng cho bài kiểm

tra là các bài viết được thu thập trong 10 ngày từ ngày 01 tháng 5 năm 2018 đến ngày

10 tháng 5 năm 2018. Đối với mỗi bài viết, 10 từ khóa quan trọng nhất được tính toán

và rút trích bằng thuật toán TF-IDF. Đối với mỗi từ khóa, hệ thống tìm một bộ gồm 10

từ liên quan dựa trên mô hình được huấn luyện. Sau đó, nghiên cứu tiến hành đo tổng

thời gian xử lý của quá trình tìm kiếm 10 từ khóa liên quan cho tất cả các từ khóa rút

trích từ các bài viết đến theo ngày (xem Bảng 4.17).

Hình 4.12: Thời gian xử lý tìm 10 từ khóa liên quan

100

Hình 4.12 được phác họa dựa trên dữ liệu ở Bảng 4.17, cho thấy thời gian xử lý

tìm kiếm từ khóa liên quan phụ thuộc vào số lượng từ khóa. Càng nhiều từ khóa, càng

mất nhiều thời gian để xử lý.

Tính toán thời gian rút trích các cụm từ xu thế

Các tập dữ liệu

1. Tập dữ liệu T1 (gần 80.000 bài) ở dạng tài liệu văn bản (230M) được sử dụng

để chạy thực nghiệm cho toàn hệ thống.

2. Tập dữ liệu T2 (3.057 bài báo được thu thập trong 19 ngày) được sử dụng để

kiểm tra thời gian thực thi của chức năng Phát hiện các sự nổi bật Burst.

Kết quả thực nghiệm và bàn luận

Các trường hợp thử nghiệm cho chức năng phát hiện Burst được thực hiện như sau.

Kết quả thử nghiệm của chức năng Phát hiện Burst trên các bài báo thu được trong thời

gian liên tục 19 ngày (tập dữ liệu T2) được trình bày trong Bảng 4.18 cho thấy số liệu

thống kê về số lượng bài báo được thu thập, từ khóa được phân tích, tần số xuất hiện

của từ khóa, sự nổi bật được tìm thấy và thời gian xử lý tương ứng. Bảng 4.18 làm rõ

các yếu tố ảnh hưởng đến thời gian xử lý của hệ thống.

Nói chung, thời gian xử lý thấp nhất là 11.770 ms trong ngày đầu tiên khi không

tính Burst, thời gian xử lý sau đó thay đổi trong những ngày tiếp theo khi Burst được

phát hiện và đặc biệt là khi sự nổi bật đạt số lượng cao nhất là 170, thời gian xử lý gần

như đạt được mức cao nhất ở 19.220 ms. Như vậy, có thể thấy rằng khi số lượng Burst

tăng lên, thời gian xử lý tăng lên.

101

Bảng 4.18: Kiểm tra thời gian xử lý phát hiện Burst của các bài báo trong 19 ngày Số lần xuất hiện

Ngà y

Số bài báo

Số từ khóa

Thời gian xử lý (10*ms)

Số sự nổi bật

162

180

1.177

165

179

218

1.193

162

179

251

1.408

159

180

288

1.534

163

177

328

1.650

164

180

272

1.781

159

179

368

133

1.620

159

179

351

1.781

165

179

350

1.639

163

179

402

111

1.512

153

179

398

1.169

155

179

455

129

1.459

156

180

567

170

1.922

159

179

442

101

1.385

157

179

514

159

1.857

159

179

505

115

1.561

192

177

531

140

1.740

155

178

454

114

1.851

150

180

541

146

1.923

Hơn nữa, các yếu tố khác như số lượng bài viết, số lượng từ khóa, số lần xuất hiện

của từ khóa cũng ít ảnh hưởng đến thời gian xử lý. Cụ thể, vào ngày 19, mặc dù số lượng Burst không phải là tối đa, thời gian xử lý đạt mức cao nhất là 19.230 ms khi số lượng từ khóa đạt mức cao nhất là 180.

102

Hình 4.13 được phác họa từ Bảng 4.18 cho thấy mối tương quan giữa số lượng bài

báo được thu thập mỗi ngày và thời gian xử lý phát hiện Burst. Nói chung, thời gian xử

lý tỷ lệ thuận với số lượng bài báo. Do đó, khi số lượng từ khóa xuất hiện tăng theo thời

gian, việc tính toán phát hiện Burst mất nhiều thời gian hơn. Có thể thấy trong Bảng

4.18 rằng khi số lần xuất hiện đạt giá trị gần như cao nhất (567 và 541 vào 2 ngày 13 và 19), thời gian xử lý cũng là cao nhất (19.220 ms và 19.230 ms). Do đó, các giải pháp

lưu trữ hoặc hết hạn dữ liệu trong quá khứ cần được thực hiện trong tương lai gần để tối

ưu hóa thời gian xử lý của hệ thống.

Hình 4.13: Thời gian xử lý phát hiện sự nổi bật

Các tập dữ liệu của hệ thống

Hệ thống tạo các bộ dữ liệu bao gồm: tập dữ liệu các bài báo, tập dữ liệu của các

bài báo sau bước tiền xử lý, tập dữ liệu của n các từ khóa quan trọng hàng đầu của các

bài viết, tập dữ liệu của n các từ khóa hàng đầu của chuyên mục. Các bộ dữ liệu này

được cấu trúc như sau:

Hình 4.14: Cấu trúc lưu trữ dữ liệu chưa qua xử lý

103

Tập dữ liệu của các bài báo bao gồm các bài báo được thu thập và sắp xếp trong

các thư mục theo cấu trúc Ngày/Chuyên mục/Bài báo dưới dạng các tập tin văn bản.

Tên tập tin là tiêu đề bài viết và tập tin chứa thông tin bao gồm tiêu đề, mô tả và nội

dung (Hình 4.14).

Tập dữ liệu của các bài báo sau khi đã qua bước tiền xử lý có cấu trúc tương tự với

tập dữ liệu các bài báo. Điều khác biệt duy nhất là nội dung của các bài báo đã được tiền

xử lý bằng cách tách từ và loại bỏ từ dừng (Hình 4.15).

Hình 4.15: Cấu trúc lưu trữ dữ liệu Hình 4.16: Cấu trúc lưu trữ danh

đã qua xử lý sách các từ khóa hàng đầu của bài

viết

Tập dữ liệu của các từ khóa hàng đầu của bài viết được lưu trong các tập tin văn

bản có cấu trúc 4 trường bao gồm: ngày (Date), mã bài báo (PaperID), từ khóa

(KeyWord) và tần số (Weight) (Hình 4.16).

Tập dữ liệu của các từ khóa hàng đầu của chuyên mục có cấu trúc tương tự với tập

dữ liệu của các từ khóa hàng đầu của bài báo.

104

Hình 4.17: Cấu trúc lưu trữ danh sách các từ khóa hàng đầu của chuyên mục

Tập dữ liệu này được lưu dưới dạng tập tin văn bản với 4 trường bao gồm: ngày

(Date), mã chuyên mục (Category), từ khóa (KeyWord) và chỉ số xếp hạng (Rank) (Hình

4.17).

Trên đây là một số định dạng, cấu trúc của một số tập dữ liệu. Hệ thống hoàn toàn

có thể linh hoạt đáp ứng việc cấu trúc dữ liệu cho phù hợp theo các yêu cầu về dữ liệu

thực nghiệm trong nghiên cứu.

4.3 Kết chương

Chương này trình bày phương pháp, kết quả thực nghiệm và bàn luận trong nghiên

cứu giải quyết bài toán thứ hai, nghiên cứu tìm các cụm từ xu thế trên luồng dữ liệu văn bản. Nghiên cứu đề xuất hệ thống TKES và áp dụng thuật toán đề xuất AdaptingBurst

tìm cụm từ xu thế dựa trên ý tưởng của thuật toán trước đây là Kleinbergn. Các thuật

toán được đề xuất cũng giải quyết vấn đề phát hiện sự nổi bật, tính toán, xếp hạng từ đó

tìm ra các sự nổi bật tiêu biểu. Nghiên cứu cũng hỗ trợ kết xuất các tập dữ liệu để phục vụ các nghiên cứu sâu hơn. Ngoài ra, hướng phát triển của hệ thống có thể hướng đến xử lý, tính toán song song để tăng tốc độ. Nghiên cứu sinh cũng dự kiến hướng phát triển như sử dụng các độ đo đánh giá hiệu suất các mô hình đề xuất vận dụng kết quả từ nghiên cứu này vào gom cụm luồng văn bản chẳng hạn như cải tiến biểu diễn đặc trưng văn bản trong gom cụm. Bên cạnh đó, trong nghiên cứu này, các bước tiền xử lý dữ liệu, rút trích từ khóa, rút trích từ khóa tương đồng phục vụ cho việc tìm các cụm từ xu thế cũng được trình bày chi tiết và thử nghiệm tính toán thời gian xử lý, so sánh thời gian

xử lý và độ chính xác của kết quả.

105

CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN

Chương này tổng kết các kết quả đã đạt được, tập trung làm rõ các bài toán chính giải

quyết vấn đề mà đề tài luận án đặt ra. Chương này cũng đánh giá lại về các nội dung:

nghiên cứu các công trình khoa học liên quan, phương pháp đặt ra và giải quyết 02 bài toán của luận án. Với mỗi kỹ thuật, giải pháp đề xuất, các mô tả bài toán, phương pháp,

thực nghiệm, điểm mạnh, tính mới/tính cải tiến liên tục, điểm điểm hạn chế và hướng

phát triển được làm rõ. Chương này chia thành 02 nội dung chính là: Mục 5.1 đánh giá

về các kết quả đạt được, hạn chế và hướng phát triển, Mục 5.2 đánh giá ý nghĩa học

thuật và thực tiễn của luận án.

5.1 Các kết quả đạt được, hạn chế và hướng phát triển

Phần nghiên cứu tổng quan của luận án đã: Lược sử các công trình liên quan đến

hướng nghiên cứu của đề tài và các bài toán đặt ra từ đó giúp mang lại cái nhìn tổng thể

đối với vấn đề đang nghiên cứu; Tìm hiểu các kỹ thuật nền tảng của vấn đề nghiên cứu;

Phân tích điểm mạnh yếu của các nghiên cứu liên quan từ đó quyết định bài toán và các

phương án giải quyết; So sánh các giải pháp hiện có sử dụng cùng cách tiếp cận từ đó

tìm ra ưu điểm và hạn chế của từng giải pháp; Cập nhật liên tục cho đến thời điểm hiện

tại các nghiên cứu liên quan từ đó thấy được sự phát triển liên tục của hướng nghiên

cứu; Hoạt động của các nhóm nghiên cứu đầu ngành, các chuyên gia nổi tiếng trong

cộng đồng nghiên cứu thuộc lĩnh vực nghiên cứu liên quan được theo dõi và nêu rõ.

Có thể nói, bài toán 1 cũng là bài toán chính của luận án và đã thể hiện được những

đóng góp quan trọng, cụ thể như sau:

 Đề xuất một cách tiếp cận mới về gom cụm luồng văn bản dựa trên mô hình hỗn hợp, áp dụng đánh giá đồ thị từ (GOW) xuất hiện trong tập ngữ liệu văn bản đã cho.

 Thực hiện đánh giá các mối quan hệ từ trong khi suy ra các cụm.

 Đề xuất một cách tiếp cận áp dụng văn bản n-gram vào đồ thị hóa văn bản (text2graph) với kỹ thuật khai phá đồ thị con phổ biến (FSM) để rút trích các đồ thị con phổ biến từ kho ngữ liệu văn bản đã cho.

 Sử dụng kỹ thuật rút trích đồ thị con phổ biến trong mỗi tài liệu văn bản để hỗ

trợ quá trình ước tính phân phối của các chủ đề trên tài liệu.

106

 Xử lý hiệu quả tác vụ gom cụm luồng văn bản ngắn bằng cách kết hợp cả đánh giá từ độc lập (các từ riêng biệt trong mỗi tài liệu) và từ phụ thuộc (các từ cùng

xuất hiện trong các đồ thị con phổ biến).

 Kết hợp đánh giá dựa trên các đồ thị con phổ biến và đánh giá từ một cách độc lập trong quá trình suy luận chủ đề của mô hình hỗn hợp quy trình Dirichlet

(DPMM) để nâng cao kết quả gom cụm văn bản từ luồng dữ liệu.

 Giải quyết các thách thức liên quan đến sự thay đổi chủ đề tự nhiên của luồng văn bản và còn cải thiện được độ chính xác và và thời gian xử lý gom cụm so

với các mô hình dựa trên đánh giá độc lập từ trước đó khi so sánh hiệu quả của

GOW-Stream với các thuật toán hiện đại gần đây, như: DTM, Sumblr và Mstream.

Điểm mạnh của GOW-Stream là có hiệu suất tốt hơn các thuật toán hiện đại được

công bố gần đây như: DTM, Sumblr và Mstream. GOW-Stream, có thời gian xử lý gom

cụm tốt, tuy nhiên phải tốn thời gian hơn cho quá trình đồ thị hóa văn bản và tìm đồ thị

con phổ biến. Hướng phát triển được đề nghị là: xem xét tối ưu hóa mô hình như biểu

diễn văn bản bằng các dạng đồ thị phức tạp hơn, áp dụng một số cách biểu diễn đặc

trưng mới như xem xét thêm ngữ nghĩa về thời gian, lấy kết quả từ nghiên cứu phát hiện

cụm từ xu thế vào cải tiến biểu diễn đặc trưng văn bản; Xem xét các phương pháp khác

để biểu diễn mối quan hệ của từ trong văn bản; Xem xét mở rộng việc triển khai mô

hình GOW-Stream trên môi trường xử lý phân tán chủ yếu được thiết kế để xử lý luồng

dữ liệu dạng văn bản quy mô lớn và tốc độ cao, chẳng hạn như Apache Spark Streaming.

Ngoài ra, mô hình đề xuất có thể được sử dụng để cải thiện hiệu suất của các ứng dụng khai thác văn bản khác, chẳng hạn như phân định từ ngữ (word sense disambiguation)

[84], khai thác bình luận [101] và các nhiệm vụ theo chuỗi thời gian [34]. Hơn thế nữa,

nhiều nghiên cứu gần đây cũng áp dụng hiệu quả học sâu (deep learning) vào cải thiện

kết quả gom cụm như [6, 19, 38, 40, 71, 86, 90, 96], [21, 24, 30, 31, 37, 41, 61, 62, 72, 77, 79, 80, 88, 89, 93, 94]. Thiết nghĩ đây cũng là một hướng phát triển cho luận án.

Bài toán thứ 2 đề xuất hệ thống TKES với đóng góp chính là đề xuất thuật toán

phát hiện các sự nổi bật của từ khóa dựa trên thuật toán Kleinberg, một thuật toán đã được chứng minh tính hiệu quả và đã được tin tưởng ứng dụng vào nhiều lĩnh vực. Cụ thể nghiên cứu đã đề xuất thuật toán phát hiện sự nổi bật, các cụm từ xu thế, các sự nổi bật tiêu biểu. Để xây dựng hệ thống TKES, luận án cũng sử dụng TF-IDF để tìm từ khóa, sử dụng mạng Nơ ron để huấn luyện mô hình tìm tập từ khóa tương đồng, sử dụng mô hình Skip-gram, các độ đo so sánh độ tương đồng như Cosine, Euclidean,

Manhattan, Minkowski, Jaccard, các kỹ thuật tiền xử lý dữ liệu văn bản tiếng Việt. Các

107

kết quả thực nghiệm của nghiên cứu bao gồm: tính toán thời gian xử lý, so sánh thời

gian xử lý giữa các giải pháp và giữa các tập dữ liệu khác nhau; Thu thập các tập dữ liệu

nguồn và kết xuất kết quả thành các tập dữ liệu phục vụ cho các nghiên cứu liên quan.

Hướng phát triển được đề xuất như sau: Nghiên cứu, cấu trúc lại các tập dữ liệu theo

dạng chuẩn chung để công bố; Hoàn thiện đáp ứng yêu cầu người dùng vào nhiều nền tảng khác nhau như Smart phone, Web …để có thể đáp ứng triển khai thực tiễn; Sử dụng

kết quả nghiên cứu phát hiện cụm từ xu thế để nâng cao hiệu quả của mô hình GOW-

Stream trong việc nắm bắt thêm xu hướng của các từ trong văn bản đến từ luồng khi

thực hiện gom cụm.

5.2 Ý nghĩa học thuật và thực tiễn của luận án

Về học thuật, luận án đã đề xuất được mô hình mới. Mô hình GOW-Stream thể

hiện được tính ưu việt khi so sánh với các thuật toán hiện đại gần đây. Hệ thống TKES

cũng có đóng góp mới là đề xuất thuật toán phát hiện các cụm từ xu thế và có tiềm năng

ứng dụng vào việc tối ưu hóa mô hình GOW-Stream đã đề xuất. Các công trình nghiên

cứu trong luận án gồm 04 bài báo hội nghị quốc tế (Springer/ACM) và 02 bài báo tạp

chí quốc tế (01 bài thuộc Scopus-Q3 và 01 bài thuộc SCIE-Q3).

Về thực tiễn, các mô hình, thuật toán đề xuất đều có thể ứng dụng trong nhiều lĩnh

vực, hệ thống được xây dựng có ý nghĩa thực tiễn cao, phục vụ nhu cầu khai phá thông

tin của đông đảo người dùng trong thời đại cách mạng công nghiệp 4.0 như hiện nay.

DANH MỤC CÁC BÀI BÁO ĐÃ CÔNG BỐ

Bốn bài báo hội nghị đã công bố:

 [CT1] Hong, T. V. T., & Do, P. (2018, February). Developing a graph-based system for storing, exploiting and visualizing text stream. In Proceedings of the

2nd International Conference on Machine Learning and Soft Computing (pp. 82-

86). (https://dl.acm.org/doi/abs/10.1145/3184066.3184084).

 [CT2] Hong, T.V.T. and Do, P., 2018, October. SAR: A Graph-Based System with Text Stream Burst Detection and Visualization. In International Conference

on Intelligent Computing & Optimization (pp. 35-45). Springer, Cham.

(https://link.springer.com/chapter/10.1007/978-3-030-00979-3_4)

 [CT3] Hong, T.V.T. and Do, P., 2019, October. A Novel System for Related Keyword Extraction over a Text Stream of Articles. In International Conference

on Intelligent Computing & Optimization (pp. 409-419). Springer, Cham.

(https://link.springer.com/chapter/10.1007/978-3-030-33585-4_41)

 [CT4] Hong, T.V.T. and Do, P., 2019, October. Comparing Two Models of Document Similarity Search over a Text Stream of Articles from Online News

Sites. In International Conference on Intelligent Computing & Optimization (pp.

379-388). Springer, Cham. (https://link.springer.com/chapter/10.1007/978-3-

030-33585-4_38)

Hai bài báo tạp chí (chỉ mục Scopus/SCIE) đã được chấp nhận đăng:

 [CT5] Hong, Tham Vo Thi, and Phuc Do. “TKES: A Novel System for Extracting Trendy Keywords from Online News Sites”. In: Journal of the

Operations Research Society of China (ISSN: 2194-6698) (Scopus indexed) Q3, (https://www.springer.com/journal/40305) (Scopus

http://link.springer.com/article/10.1007/s40305-020-00327-4).

 [CT6] Hong, Tham Vo Thi, and Phuc Do. “GOW-Stream: a novel approach of graph-of-words based mixture model for semantic-enhanced text stream 1571-4128). Data clustering”. Analysis (ISSN: Intelligent In:

(https://www.iospress.nl/journal/intelligent-data-analysis) (SCIE Q3, accepted for publication – 2020, September).

TÀI LIỆU THAM KHẢO

Agarwal Neha, Sikka Geeta, and Awasthi Lalit Kumar, Evaluation of web service clustering using Dirichlet Multinomial Mixture model based approach for Dimensionality Reduction in service representation. Information Processing & Management, 2020. 57(4): p. 102238.

Aggarwal Charu C, A Survey of Stream Clustering Algorithms, in Data Clustering: Algorithms and Applications, C.K.R. Charu C. Aggarwal, Editor. 2013, CRC Press. p. 229-253.

3. Aggarwal Charu C, et al. A framework for clustering evolving data streams. in Proceedings 2003 VLDB conference. 2003. Elsevier.

Ahmed Amr and Xing Eric. Dynamic non-parametric mixture models and the recurrent chinese restaurant process: with applications to evolutionary clustering. in Proceedings of the 2008 SIAM International Conference on Data Mining. 2008. SIAM.

5. Aldous David J, Exchangeability and related topics, in École d'Été de Probabilités de Saint-Flour XIII—1983. 1985, Springer. p. 1-198.

6. Aljalbout Elie, et al., Clustering with deep learning: Taxonomy and new methods. arXiv preprint arXiv:1801.07648, 2018.

Alrehamy Hassan and Walker Coral, Exploiting extensible background knowledge for clustering-based automatic keyphrase extraction. Soft Computing, 2018. 22(21): p. 7041-7057.

Alzaidy Rabah, Caragea Cornelia, and Giles C Lee. Bi-LSTM-CRF sequence labeling for keyphrase extraction from scholarly documents. in The world wide web conference. 2019.

Amoualian Hesam, et al. Streaming-lda: A copula-based approach to modeling topic dependencies in document streams. in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.

10. Antonellis Panagiotis, et al., Efficient Algorithms for Clustering Data and Text Streams, in Encyclopedia of Information Science and Technology, Third Edition. 2015, IGI Global. p. 1767-1776.

11. Bakkum Douglas J, et al., Parameters for burst detection. Frontiers in computational neuroscience, 2014. 7: p. 193.

12. Beliga Slobodan, Meštrović Ana, and Martinčić-Ipšić Sanda, Selectivity-based keyword extraction method. International Journal on Semantic Web and Information Systems (IJSWIS), 2016. 12(3): p. 1-26.

13. Bicalho Paulo, et al., A general framework to expand short text for topic modeling. Information Sciences, 2017. 393: p. 66-81.

14. Blei David M and Lafferty John D. Dynamic topic models. in Proceedings of the

23rd international conference on Machine learning. 2006.

15. Blei David M, Ng Andrew Y, and Jordan Michael I, Latent Dirichlet Allocation. Journal of machine Learning research, 2003. 3(Jan): p. 993-1022.

16. Cai Yanli and Sun Jian-Tao, Text Mining, in Encyclopedia of Database Systems, L. Liu and M.T. ÖZsu, Editors. 2009, Springer US: Boston, MA. p. 3061-3065.

17. Cami Bagher Rahimpour, Hassanpour Hamid, and Mashayekhi Hoda, User preferences modeling using dirichlet process mixture model for a content-based recommender system. Knowledge-Based Systems, 2019. 163: p. 644-655.

18. Cao Feng, et al. Density-based clustering over an evolving data stream with noise. in Proceedings of the 2006 SIAM international conference on data mining. 2006. SIAM.

19. Chen Gang, Deep learning with nonparametric clustering. arXiv preprint arXiv:1501.03084, 2015.

20. Chen Junyang, Gong Zhiguo, and Liu Weiwen, A Dirichlet process biterm-based mixture model for short text stream clustering. Applied Intelligence, 2020: p. 1- 11.

21. Curiskis Stephan A, et al., An evaluation of document clustering and topic modelling in two online social networks: Twitter and Reddit. Information Processing & Management, 2020. 57(2): p. 102034.

22. Darling William M. A theoretical and practical implementation tutorial on topic modeling and gibbs sampling. in Proceedings of the 49th annual meeting of the association for computational linguistics: Human language technologies. 2011.

23. Du Nan, et al. Dirichlet-hawkes processes with applications to clustering continuous-time document streams. in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2015.

24. Duan Tiehang, et al. Sequential embedding induced text clustering, a non- parametric bayesian approach. in Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2019. Springer.

25.

Erkan Günes and Radev Dragomir R, Lexrank: Graph-based lexical centrality as salience in text summarization. Journal of Artificial Intelligence Research, 2004. 22: p. 457-479.

26. Ferguson Thomas S, A Bayesian analysis of some nonparametric problems. The annals of statistics, 1973: p. 209-230.

27.

Finegan-Dollak Catherine, et al. Effects of creativity and cluster tightness on short text clustering performance. in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016.

28.

Fisher David, et al., Evaluating ranking diversity and summarization in microblogs using hashtags. University of Massachusetts, Boston, MA, Technical Report, 2015.

29.

Fung Gabriel Pui Cheong, et al. Parameter free bursty events detection in text streams. in Proceedings of the 31st international conference on Very large data bases. 2005. VLDB Endowment.

30. Guo Xifeng, et al. Improved deep embedded clustering with local structure preservation. in IJCAI. 2017.

31. Guo Xifeng, et al. Deep clustering with convolutional autoencoders. in International conference on neural information processing. 2017. Springer.

32. Heydari Atefeh, et al., Detection of review spam: A survey. Expert Systems with Applications, 2015. 42(7): p. 3634-3642.

33. Hosseinimotlagh Seyedmehdi and Papalexakis Evangelos E. Unsupervised content-based identification of fake news articles with tensor decomposition ensembles. in Proceedings of the Workshop on Misinformation and Misbehavior Mining on the Web (MIS2). 2018.

34. Hu Jun and Zheng Wendong. Transformation-gated LSTM: Efficient capture of short-term mutation dependencies for multivariate time series prediction tasks. in 2019 International Joint Conference on Neural Networks (IJCNN). 2019. IEEE.

35. Hu Xia and Liu Huan, Text analytics in social media. Mining text data, 2012: p. 385-414.

36. Hu Xuegang, Wang Haiyan, and Li Peipei, Online Biterm Topic Model based short text stream classification using short text expansion and concept drifting detection. Pattern Recognition Letters, 2018. 116: p. 187-194.

37. Jiang Zhuxi, et al., Variational deep embedding: An unsupervised and generative approach to clustering. arXiv preprint arXiv:1611.05148, 2016.

38.

Jindal Vasu. A personalized Markov clustering and deep learning approach for Arabic text categorization. in Proceedings of the ACL 2016 Student Research Workshop. 2016.

39. Kalogeratos Argyris, Zagorisios Panagiotis, and Likas Aristidis. Improving text stream clustering using term burstiness and co-burstiness. in Proceedings of the 9th Hellenic Conference on Artificial Intelligence. 2016.

40. Kampffmeyer Michael, et al., Deep divergence-based approach to clustering. Neural Networks, 2019. 113: p. 91-101.

41. Kim Jaeyoung, et al., Patent document clustering with deep embeddings. Scientometrics, 2020: p. 1-15.

42. Kleinberg Jon, Bursty and hierarchical structure in streams. Data Mining and Knowledge Discovery, 2003. 7(4): p. 373-397.

43. Lahiri Shibamouli, Mihalcea Rada, and Lai P-H, Keyword extraction from emails. Natural Language Engineering, 2017. 23(2): p. 295-317.

44.

Le Hong Phuong Nguyen Thi Minh, Huyen Azim Roussanaly, and Vinh Hô Tuong, A hybrid approach to word segmentation of Vietnamese texts. Language and Automata Theory and Applications, 2008: p. 240.

45.

Li Chenliang, et al., Enhancing topic modeling for short texts with auxiliary word embeddings. ACM Transactions on Information Systems (TOIS), 2017. 36(2): p. 1-30.

46.

Li Chenliang, et al. Topic modeling for short texts with auxiliary word embeddings. in Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. 2016.

47. Li Hua, Text Clustering, in Encyclopedia of Database Systems, L. Liu and M.T. ÖZsu, Editors. 2009, Springer US: Boston, MA. p. 3044-3046.

48.

Li Shan-Qing, Du Sheng-Mei, and Xing Xiao-Zhao. A keyword extraction method for chinese scientific abstracts. in Proceedings of the 2017 International Conference on Wireless Communications, Networking and Applications. 2017.

49. Liang Shangsong and de Rijke Maarten, Burst-aware data fusion for microblog search. Information Processing & Management, 2015. 51(2): p. 89-113.

50.

Liang Shangsong, Yilmaz Emine, and Kanoulas Evangelos. Dynamic clustering of streaming short documents. in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.

51.

Lynn Htet Myet, et al., Swiftrank: an unsupervised statistical approach of keyword and salient sentence extraction for individual documents. Procedia computer science, 2017. 113: p. 472-477.

52. Mai Khai, et al. Enabling hierarchical Dirichlet processes to work better for short texts at large scale. in Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2016. Springer.

53. Margara Alessandro and Rabl Tilmann, Definition of Data Streams, in Encyclopedia of Big Data Technologies, S. Sakr and A.Y. Zomaya, Editors. 2019, Springer International Publishing: Cham. p. 648-652.

54. Martínez-Fernández José Luis, et al. Automatic keyword extraction for news finder. in International Workshop on Adaptive Multimedia Retrieval. 2003. Springer.

55. Musselman Andrew, Apache Mahout, in Encyclopedia of Big Data Technologies, S. Sakr and A.Y. Zomaya, Editors. 2019, Springer International Publishing: Cham. p. 66-70.

56. Neal Radford M, Markov chain sampling methods for Dirichlet process mixture models. Journal of computational and graphical statistics, 2000. 9(2): p. 249-265.

57. Neill Daniel B and Moore Andrew W. Anomalous spatial cluster detection. in Proceedings of the KDD 2005 Workshop on Data Mining Methods for Anomaly Detection. 2005.

58. Neill Daniel B, et al. Detecting significant multidimensional spatial clusters. in Advances in Neural Information Processing Systems. 2005.

59. Nguyen Hai-Long, Woon Yew-Kwong, and Ng Wee-Keong, A survey on data stream clustering and classification. Knowledge and information systems, 2015. 45(3): p. 535-569.

60. Nguyen Tri and Do Phuc. Topic discovery using frequent subgraph mining in International Conference on Computational Science and approach. Technology. 2017. Springer.

61. Park Jinuk, et al., ADC: Advanced document clustering using contextualized representations. Expert Systems with Applications, 2019. 137: p. 157-166.

62. Peters Matthew E, et al., Deep contextualized word representations. arXiv preprint arXiv:1802.05365, 2018.

63.

Pham Phu, Do Phuc, and Ta Chien DC. GOW-LDA: Applying Term Co- occurrence Graph Representation in LDA Topic Models Improvement. in International Conference on Computational Science and Technology. 2017. Springer.

64. Pitman Jim, Combinatorial Stochastic Processes: Ecole d'Eté de Probabilités de Saint-Flour XXXII-2002. 2006: Springer.

65. Qiang Jipeng, et al. Topic modeling over short texts by incorporating word embeddings. in Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2017. Springer.

66. Qiang Jipeng, et al., Short text clustering based on Pitman-Yor process mixture model. Applied Intelligence, 2018. 48(7): p. 1802-1812.

67. Quan Xiaojun, et al. Short and sparse text topic modeling via self-aggregation. in Twenty-fourth international joint conference on artificial intelligence. 2015.

68. Quan Xiaojun, et al., Latent discriminative models for social emotion detection with emotional dependency. ACM Transactions on Information Systems (TOIS), 2015. 34(1): p. 1-19.

69. Romsaiyud Walisa. Detecting emergency events and geo-location awareness from twitter streams. in The International Conference on E-Technologies and Business on the Web (EBW2013). 2013. The Society of Digital Information and Wireless Communication.

70.

Saul Lawrence K, Weiss Yair, and Bottou Léon, Advances in neural information processing systems 17: Proceedings of the 2004 conference. Vol. 17. 2005: MIT press.

71.

Shah Setu and Luo Xiao. Comparison of deep learning based concept representations for biomedical document clustering. in 2018 IEEE EMBS international conference on biomedical & health informatics (BHI). 2018. IEEE.

72. Shaham Uri, et al., Spectralnet: Spectral clustering using deep neural networks. arXiv preprint arXiv:1801.01587, 2018.

73.

Shi Tian, et al. Short-text topic modeling via non-negative matrix factorization enriched with local word-context correlations. in Proceedings of the 2018 World Wide Web Conference. 2018.

74.

Shou Lidan, et al. Sumblr: continuous summarization of evolving tweet streams. in Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval. 2013.

75. Teh Yee Whye, Dirichlet Process. 2010: p. 280-287.

Teh Yee Whye, Dirichlet Process. 2010. 76.

77.

Tian Kai, Zhou Shuigeng, and Guan Jihong. Deepcluster: A general clustering framework based on deep learning. in Joint European Conference on Machine Learning and Knowledge Discovery in Databases. 2017. Springer.

78. Vlachos Michail, et al. Identifying similarities, periodicities and bursts for online search queries. in Proceedings of the 2004 ACM SIGMOD international conference on Management of data. 2004. ACM.

79. Wan Haowen, et al., Research on Chinese Short Text Clustering Ensemble via Convolutional Neural Networks, in Artificial Intelligence in China. 2020, Springer. p. 622-628.

80. Wang Binyu, et al., Text clustering algorithm based on deep representation learning. The Journal of Engineering, 2018. 2018(16): p. 1407-1414.

81. Wang Mengzhi, et al. Data mining meets performance evaluation: Fast algorithms for modeling bursty traffic. in Proceedings 18th International Conference on Data Engineering. 2002. IEEE.

82. Wang Wu, et al. Learning latent topics from the word co-occurrence network. in National Conference of Theoretical Computer Science. 2017. Springer.

83. Wang Xuerui and McCallum Andrew. Topics over time: a non-Markov continuous-time model of topical trends. in Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. 2006.

84. Wang Yinglin, Wang Ming, and Fujita Hamido, Word sense disambiguation: A comprehensive knowledge exploitation framework. Knowledge-Based Systems, 2020. 190: p. 105030.

85. Wang Yu, Agichtein Eugene, and Benzi Michele. TM-LDA: efficient online modeling of latent topic transitions in social media. in Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. 2012.

86. Wang Zhiguo, Mi Haitao, and Ittycheriah Abraham, Semi-supervised clustering for short text via deep representation learning. arXiv preprint arXiv:1602.06797, 2016.

87. Weng Jianshu and Lee Bu-Sung, Event detection in twitter. ICWSM, 2011. 11: p. 401-408.

88. Xie Junyuan, Girshick Ross, and Farhadi Ali. Unsupervised deep embedding for clustering analysis. in International conference on machine learning. 2016.

89. Xu Dongkuan, et al. Deep co-clustering. in Proceedings of the 2019 SIAM International Conference on Data Mining. 2019. SIAM.

90. Xu Jiaming, et al., Self-taught convolutional neural networks for short text clustering. Neural Networks, 2017. 88: p. 22-31.

91. Yamamoto Shuhei, et al., Twitter user tagging method based on burst time series.

International Journal of Web Information Systems, 2016. 12(3): p. 292-311.

92. Yan Xifeng and Han Jiawei. gspan: Graph-based substructure pattern mining. in 2002 IEEE International Conference on Data Mining, 2002. Proceedings. 2002. IEEE.

93. Yang Bo, et al. Towards k-means-friendly spaces: Simultaneous deep learning and clustering. in international conference on machine learning. 2017. PMLR.

94. Yang Min, et al., Cross-domain aspect/sentiment-aware abstractive review summarization by combining topic modeling and deep reinforcement learning. Neural Computing and Applications, 2020. 32(11): p. 6421-6433.

95. Yang Zaihan, et al. Parametric and non-parametric user-aware sentiment topic models. in Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2015.

96. Yi Junkai, et al., A novel text clustering approach using deep-learning vocabulary network. Mathematical Problems in Engineering, 2017. 2017.

97. Yin Jianhua, et al. Model-based clustering of short text streams. in Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.

98. Yin Jianhua and Wang Jianyong. A model-based approach for text clustering with outlier detection. in 2016 IEEE 32nd International Conference on Data Engineering (ICDE). 2016. IEEE.

99. Yin Jianhua and Wang Jianyong. A text clustering algorithm using an online clustering scheme for initialization. in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016.

100. Yoo Shinjae, Huang Hao, and Kasiviswanathan Shiva Prasad. Streaming spectral clustering. in 2016 IEEE 32nd international conference on data engineering (ICDE). 2016. IEEE.

101. Yuan Chunyuan, et al. Learning review representations from user and product level information for spam detection. in 2019 IEEE International Conference on Data Mining (ICDM). 2019. IEEE.

102. Zhang Xin, Fast algorithms for burst detection. 2006, New York University, Graduate School of Arts and Science.

103. Zhang Yun, Hua Weina, and Yuan Shunbo, Mapping the scientific research on open data: A bibliometric review. Learned Publishing, 2018. 31(2): p. 95-106.

104. Zhou Deyu, et al., Unsupervised event exploration from social text streams. Intelligent Data Analysis, 2017. 21(4): p. 849-866.

105. Zhu Longxia, et al., A joint model of extended LDA and IBTM over streaming Chinese short texts. Intelligent Data Analysis, 2019. 23(3): p. 681-699.

106. Zubaroğlu Alaettin and Atalay Volkan, Data stream clustering: a review. Artificial Intelligence Review, 2020.

107. Zuo Yuan, et al. Topic modeling of short texts: A pseudo-document view. in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.

108. Zuo Yuan, Zhao Jichang, and Xu Ke, Word network topic model: a simple but general solution for short and imbalanced texts. Knowledge and Information Systems, 2016. 48(2): p. 379-398.