Nghiên cứu khoa học công nghệ<br />
<br />
MÔ HÌNH TỰ ĐỘNG PHÁT HIỆN CHỦ ĐỀ NÓNG TRÊN CÁC<br />
TRANG THÔNG TIN ĐIỆN TỬ TIẾNG VIỆT DỰA TRÊN THUẬT<br />
TOÁN PHÂN CỤM DBSCAN CẢI TIẾN<br />
Nguyễn Nhật An*, Cao Đăng Huy<br />
Tóm tắt: Hiện nay, với sự phát triển mạnh mẽ của công nghệ thông tin, số lượng<br />
thông tin được chuyển tải trên các trang thông tin điện tử (báo điện tử, mạng xã<br />
hội, blog...) càng lớn. Việc theo dõi thông tin nhằm phát hiện ra các vấn đề mới,<br />
nóng (chủ đề nóng) được dư luận quan tâm, theo dõi chiều hướng phát triển của<br />
chúng để dự báo các nguy cơ được xem là rất quan trọng đối với nhiều lĩnh vực,<br />
đặc biệt đối với lĩnh vực an ninh quốc phòng. Bài báo này đề xuất mô hình tự động<br />
phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt trong một khoảng<br />
thời gian dựa trên thuật toán phân cụm DBSCAN cải tiến và cách xác định “độ<br />
nóng” của các chủ đề được phân cụm.<br />
Từ khoá: Chủ đề nóng tiếng Việt; Thuật toán phân cụmDBSCAN cải tiến; “Độ nóng”chủ đề.<br />
<br />
1. ĐẶT VẤN ĐỀ<br />
1.1. Giới thiệu<br />
Với sự phát triển nhanh chóng của công nghệ thông tin, thông tin các sự kiện<br />
xảy ra được đăng tải trên các trang thông tin điện tử trên Internet đã trở thành một<br />
trong những nguồn thông tin quan trọng. Theo báo cáo thống kê của Bộ Thông tin<br />
và Truyền thông, tính đến năm 2016, Việt Nam có số lượng người sử dụng Internet<br />
lớn, đạt tỷ lệ khoảnglà 62,76% dân số [1]. Số báo điện tử là 135, chủ yếu là báo<br />
điện tử của các cơ quan báo chí in; Số trang thông tin điện tử của các cơ quan báo<br />
chí được cấp phép là 258 [2], ngoài ra, còn hàng trăm trang tin không chính thống<br />
cũng tham gia tổng hợp, truyền tải thông tin trên mạng. Khi có một sự kiện xảy ra,<br />
lập tức các phóng viên viết bài và đăng trên trang thông tin điện tử của mình với<br />
các quan điểm khác nhau, số lượng thông tin tăng lên nhanh chóng. Do vậy, việc<br />
phát hiện, phân cụm chủ đề, theo dõi chủ đề nóng một cách tự động trở nên cần<br />
thiết, là giải pháp để xử lý vấn đề quá tải thông tin. Vấn đề này đã được nhiều nhà<br />
khoa học quan tâm và được gọi chung là bài toán “Phát hiện và theo dõi chủ đề”<br />
(Topic Detection and Tracking) [6].<br />
1.2. Các nghiên cứu liên quan<br />
Bài toán Phát hiện và theo dõi chủ đề (Topic Detection and Tracking) được giới<br />
thiệu lần đầu tiên vào năm 1996, sau đó bài toán này được đông đảo các nhà khoa<br />
học trên thế giới quan tâm và nghiên cứu. Một số nghiên cứu giải quyết bài toán<br />
này dựa trên các đặc trưng của văn bản và thuật toán phân cụm [14, 8, 17, 24]; một<br />
số lại tập trung vào các mô hình ngôn ngữ và xác xuất [16, 20, 21, 23, 18, 19]. Có<br />
thể kể một số nghiên cứu gần đây: Khoo đề xuất sử dụng đặc trưng TF-IDF (Term<br />
Frequency * Proportional Document Frequency) để tạo vector văn bản tìm ra chủ<br />
đề quan trọng[7]; Chel dựa trên ý tưởng của Khoo để đề xuất một phương pháp<br />
mới phát hiện chủ đề nóng dựa trên phân tích thời gian và mô hình câu đa chiều<br />
[8]; Ruiguo Yu đề xuất phương pháp phát hiện chủ đề nóng dựa trên phân đoạn<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 125<br />
Công nghệ thông tin<br />
<br />
thời gian và lý thuyết lão hoá [14]; PGS.TS Đỗ Phúc đề xuất mô hình phát hiện<br />
chủ đề nóng trên mạng xã hội dựa trên lý thuyết lão hoá [13]...<br />
Tuy nhiên, các công trình trên chủ yếu thực hiện việc phát hiện và theo dõi<br />
chủ đề tiếng Anh mà chưa có các công trình nghiên cứu cho tiếng Việt. Do vậy,<br />
chúng tôi tập trung nghiên cứu, đề xuất mô hình phát hiện chủ đề nóng trên các<br />
trang thông tin điện tử tiếng Việt và xem xét tính hiệu quả của phương pháp đề<br />
xuất dựa vào lựa chọn thuật toán phân cụm phù hợp và cách xác định thế nào là<br />
“chủ đề nóng”.<br />
Nghiên cứu của chúng tôi giải quyết hai vấn đề chính: Một là, đề xuất sử dụng<br />
thuật toán phân cụm DBSCAN cải tiến để tự động phân cụm các chủ đề tiếng Việt;<br />
hai là, dựa trên số lượng bài viết, số lượng trang thông tin điện tử đăng tải, trọng số<br />
trang thông tin điện tử để đánh giá “độ nóng” của các chủ đề được phân cụm. Sau<br />
đó, chúng tôi tiến hành thử nghiệm trên tập dữ liệu thu thập và đánh giá chúng.<br />
Bài báo được trình bày theo thứ tự sau: Phần 2 trình bày nội dung nghiên cứu;<br />
Phần 3 trình bày các kết quả thử nghiệm và đánh giá; cuối cùng kết luận được<br />
trình bày trong Phần 4.<br />
2. NỘI DUNG CẦN GIẢI QUYẾT<br />
2.1. Mô hình đề xuất<br />
<br />
<br />
Trang Chủ đề<br />
Chủ đề 1<br />
thông tin nóng 1<br />
điện tử 1<br />
<br />
<br />
<br />
Trang Chủ đề 2 Tính “độ Chủ đề<br />
Phân nóng 2<br />
thông tin nóng”, sắp<br />
cụm<br />
điện tử 2 xếp chủ đề<br />
văn<br />
bản theo “độ<br />
nóng”<br />
<br />
<br />
<br />
Trang<br />
thông tin Chủ đề m Chủ đề<br />
điện tử n nóng m<br />
<br />
<br />
<br />
Hình 1. Mô hình phát hiện chủ đề nóng.<br />
Mô hình phát hiện chủ đề nóng bao gồm hai bước:<br />
Bước 1: Phát hiện chủ đề dựa trên thuật toán phân cụm văn bản<br />
Bước 2: Phát hiện chủ đề nóng bằng cách tính “độ nóng” cho các chủ đề đã<br />
được xác định ở bước 1 dựa vào các đặc trưng: số văn bản trong chủ đề; thời gian<br />
xuất hiện;“độ chính thống” của các trang thông tin điện tử (trang thông tin điện tử<br />
được cấp phép hay trang tin tổng hợp không được cấp phép)...<br />
2.2. Phát hiện chủ đề<br />
<br />
<br />
126 N. N. An, C. Đ. Huy, “Mô hình tự động phát hiện chủ đề nóng … DBSCAN cải tiến.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
Mục tiêu của phát hiện chủ đề là xác định những vấn đề liên quan đến nhau<br />
được trình bày trong các bài viết. Đó chính là bài toán phân cụm văn bản, mục đích<br />
của bải toán này là tự động nhóm các bài viết về cùng một vấn đề vào một cụm<br />
nhất định. Trong nghiên cứu này, chúng tôi lựa chọn thuật toán DBSCAN cải tiến<br />
để phân cụm văn bản, thuật toán này dựa trên thuật toán DBSCAN gốc và cải tiến<br />
cách tự động tính giá trị của các tham số eps, MinPts dựa trên các thuộc tính thống<br />
kê của bộ dữ liệu đầu vào.<br />
Vector hóa văn bản<br />
Để sử dụng được thuật toán DBSCAN cải tiến để phân loại văn bản, ta cần mô<br />
hình hóa văn bản thành vector. Cụ thể, ta sẽ sử dụng mô hình Bags of words (word<br />
count document representation). Mô hình này biểu diễn văn bản như những điểm<br />
trong không gian Euclid m-chiều, mỗi chiều tương ứng với một từ trong tập hợp m<br />
từ khác nhau của tập văn bản. Giá trị của các thành phần trong vector này được<br />
tính bằng tính bằng công thức TF*IDF. Đây là công thức giúp đánh giá mức độ<br />
quan trọng của một từ đối với văn bản trong một tập văn bản. Trong đó:<br />
o TF (term frequency) là tần số xuất hiện của một từ trong một văn bản.<br />
o IDF (inverse document frequency) là tần số nghịch của 1 từ trong tập văn bản.<br />
Để giảm chiều của vector, trong bước xây dựng vector cho văn bản tiếng Việt<br />
các hư từ sẽ bị loại bỏ chỉ còn lại các thực từ [3]. Mặt khác, các thực từ có tần số<br />
TF*IDF dưới 1 ngưỡng quy định sẽ bị lọc bỏ. Việc lọc này nhằm lựa ra những<br />
thực từ đủ tính chất đặc trưng cho văn bản, loại bỏ những thực từ quá hiếm xuất<br />
hiện hoặc xuất hiện quá phổ biến trong tập văn bản.<br />
Khoảng cách giữa hai văn bản chính là độ tương tự giữa hai văn bản được tính<br />
bằng độ đo Cosine similary. Độ đo Cosinesimilary của 2 văn bản A và B được xác<br />
định như công thức sau:<br />
. ∑ ×<br />
( , )= =<br />
‖ ‖‖ ‖ (1)<br />
∑ × ∑<br />
trong đó:<br />
= { ,…, } là vector của văn bản A với là trọng số TF*IDF của từ<br />
thứ i của văn bản A;<br />
= { ,…, } là vector của văn bản B với là trọng số TF*IDF của từ<br />
thứ i của văn bản B.<br />
Thuật toán DBSCAN<br />
Thuật toán DBSCAN gốc dùng phân cụm văn bản được trình bày như sau [4]:<br />
Cần có 2 tham số quan trọng trong DBSCAN là epsilon (eps) và số điểm tối<br />
thiểu (MinPts). Thông số eps định nghĩa bán kính khu vực lân cận xung quanh một<br />
văn bản (chính là một điểm trong không gian n chiều). Tham số MinPts là số lượng<br />
văn bản lân cận tối thiểu trong bán kính eps. Ứng với eps và MinPts cho trước,<br />
DBSCAN xác định một cụm thông qua 2 bước:<br />
1) Chọn văn bản bất kỳ thoả mãn điều kiện văn bản lõi làm văn bản hạt giống;<br />
2) Tìm các văn bảnđến được theo mật độ từ văn bản hạt giống.<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 127<br />
Công nghệ thông tin<br />
<br />
Qua thuật toán này, ta có thể thấy để thuật toán hoạt động hiệu quả phụ thuộc<br />
vào 2 yếu tố chính đó là tham số eps và MinPts. Trong trường hợp lý tưởng thì ứng<br />
với mỗi cụm cần phải xác định được thông số eps và MinPts ít nhất một văn bản<br />
thuộc cụm. Sau đó, tìm tất cả các văn bản cho từng cụm. Tuy nhiên, không dễ gì để<br />
xác định được các thông tin trên nhanh chóng và chính xác nên DBSCAN sử dụng<br />
thông số eps, MinPts của cụm có mật độ ít dày đặc nhất làm thông số chung cho tất<br />
cả các cụm.<br />
Đối với một eps xác định, số văn bản lõi sẽ giảm đáng kể khi giá trị của MinPts<br />
lớn. Trong trường hợp này, một vài văn bản của một số cụm có có thể bị loại bỏ.<br />
Ngược lại, một số văn bản sẽ bị đánh giá nhầm thành văn bản lõi nếu giá trị<br />
MinPts quá nhỏ. Mặt khác, đối với giá trị MinPts xác định, một số văn bản có thể<br />
trở thành nhiễu hoặc một cụm có thể bị chia thành vài cụm nhỏ hơn nếu giá trị eps<br />
quá nhỏ. Một số nhiễu có thể được phân vào một cụm không chính xác hoặc một<br />
số cụm rời rạc có thể bị gom lại thành một cụm một cách không chính xác khi giá<br />
trị eps quá lớn. Dựa trên phân tích này, một thuật toán được trình bày để ước tính<br />
hai tham số eps và MinPts một cách tối ưu[5].<br />
Ý tưởng của thuật toán DBSCAN cải tiến là tự động tính giá trị của các tham số<br />
eps, MinPts được ước tính dựa trên các thuộc tính thống kê của bộ dữ liệu. Trong<br />
trường hợp lý tưởng, một ma trận khoảng cách × được đưa ra:<br />
<br />
× ={ ( , )|1 ≤ ≤ , 1 ≤ ≤ } (2)<br />
trong đó:<br />
- là số lượng văn bản của tập văn bản đầu vào D;<br />
- × là một ma trận đối xứng hàng cột trong đó mỗi thành phần thể<br />
khoảng cách được tính bằng độ đo cosine giữa văn bản i và j trong tập văn<br />
bản đầu vào D.<br />
Xác định thông số eps tối ưu<br />
Thông số eps cho thuật toán DBSCAN có thể được xác đinh bằng tay hoặc<br />
thông qua thuật toán Heuristics xác định thông số eps cho cụm có mật độ ít dày<br />
đặc nhất. Thuật toán dựa trên 2 quan sát:<br />
1) Gọi Xi là khoảng cách giữa văn bản i và văn bản gần nhất thứ k thì vùng lân<br />
cận Xi của văn bản i chứa k+1 văn bản (hoặc nhiều hơn k+1văn bản khi<br />
nhiều văn bản có cùng khoảng cách đến i).<br />
2) Thay đổi giá trị k không dấn đến thay đổi lớn giá trị của Xitrừ khi kvăn bản<br />
này cùng nằm xấp xỉ trên cùng một đường thẳng.<br />
Chúng ta xác định giá trị của mỗi thành phần trong ma trận × , sau đó sắp<br />
xếp theo thứ tự tăng dần theo từng hàng. Sử dụng × để thể hiện giá trị của<br />
cột thứ i trong × . Với giá trị k cho trước và các dữ liệu trong × được<br />
sắp xếp theo thứ tự tăng dần dẫn đến × là cột thể hiện khoảng cách từ điểm<br />
p đến điểm gần nhất thứ k. Từ đó, chúng ta sử dụng ước lượng khả năng tối đa<br />
trong toán học để ước lượng giá trị của eps. Tức là, eps có thể thu được bằng<br />
phương pháp tính giá trị trung bình của × .<br />
<br />
= ∑ (3)<br />
<br />
<br />
<br />
128 N. N. An, C. Đ. Huy, “Mô hình tự động phát hiện chủ đề nóng … DBSCAN cải tiến.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
Thực nghiệm cho thấy số lượng cụm có xu hướng ổn định khi k = 4 và chi phí<br />
tính toán lại giảm đáng kể [4,5]. Vì vậy, có thể thấy kết quả phân nhóm có thể tối<br />
ưu ngay tại thời điểm này.<br />
Thuật toán DBSCAN cải tiến để tìm eps tối ưu trong tập dữ liệu<br />
Mục đích Tìm giá trị tối ưu của eps<br />
Bộ dữ liệu n văn bản<br />
Input<br />
Số lượng k điểm lân cận tối thiểu<br />
Output Thông số eps tối ưu cho tập dữ liệu<br />
for i=1 to n<br />
for j=1 to n<br />
tính khoảng cáchgiữa 2 văn bản i và j:<br />
(, )= (, )<br />
Thủ tục<br />
end for<br />
sắp xếp các giá trị khoảng cách theo thứ tự tăng dần<br />
end for<br />
tính eps tối ưu dựa vào bộ dữ liệu khoảng cách tìm được<br />
Xác định tham số MinPts tối ưu<br />
Sau khi eps tối ưu được xác định, ta cần phải ước tính giá trị của MinPts. Đầu<br />
tiên, ta cần tính số lượng các văn bản trong vùng bán kính eps lân cận với mọi<br />
điểm trong tập dữ liệu từng điểm một. Sau đó, tính trung bình giá trị của tất cả các<br />
dữ liệu này, đó chính là giá trị MinPts tối ưu.<br />
1<br />
= (4)<br />
<br />
Trong đó, pi là số điểm lân cận trong vùng bán kính eps của điểm i.<br />
2.3. Phát hiện chủ đề nóng<br />
Số lượng tài liệu trong một chủ đề là yếu tố quan trọng để đánh giá mức độ<br />
nóng, ngoài ra, nguồn trang thông tin điện tử cũng nên được xem như là một đóng<br />
góp quan trọng cho mức độ nóng của một chủ đề. Chúng tôi cho rằng các chủ đề<br />
được thảo luận bởi nhiều trang thông tin điện tử quan trọng hơn những chủ đề chỉ<br />
được thảo luận bởi ít trang thông tin điện tử, mặc dù các chủ đề này có thể chứa<br />
nhiều tài liệu. Mặt khác, số ngày đăng tin trong một khoảng thời gian nhất định<br />
cũng đóng góp vào mức độ nóng của chủ đề.<br />
Dựa trên nguyên tắc thuật toán TF-PDF (Term Frequency - Proportional<br />
Document Frequency) đã được trình bày trong một số công trình nghiên cứu<br />
[7,8,22], chúng tôi đề xuất phương pháp tính “độ nóng” của một chủ đề được phân<br />
cụm. Cụ thể, độ nóng của một chủ đề T trong khoảng thời gian được ký hiệu là<br />
ℎ (T) được tính như sau:<br />
<br />
ℎ (T) = ⎛ × × ⎞× (5)<br />
∑<br />
⎝ ⎠<br />
trong đó:<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 129<br />
Công nghệ thông tin<br />
<br />
: là số trang thông tin điện tử chứa các bài viết đang được xem xét.<br />
: là tổng số chủ đề được phân cụm mà chứa các bài viết của trang thông tin<br />
điện tử thứ i.<br />
: Là số bài viết của chủ đề T được đăng trên trang thông tin điện tử thứ i.<br />
: Là số bài viết của trang trang thông tin điện tử thứ i trong chủ đề thứ j<br />
( ∈ ).<br />
: Là tổng số bài viết trên trang thông tin điện tử thứ i.<br />
: Là trọng số của trang thông tin điện tử thứ i, = 1 nếu trang thông tin<br />
điện tử thứ i là một trang thông tin điện tử được cấp phép (chính thống), =<br />
0.5 nếu trang thông tin điện tửthứ i là một trang thông tin điện tử không được cấp<br />
phép, = 0.1 nếu trang thông tin điện tử thứ i chỉ là trang thông tin điện tử tổng<br />
hợp tin tức từ các nguồn khác.<br />
: Là số ngày khác nhau của các bài viết trong chủ đề T.<br />
: Là số ngày khác nhau của tất cả các bài viết đang được xem xét.<br />
3. THỬ NGHIỆM, ĐÁNH GIÁ<br />
3.1. Kho ngữ liệu<br />
Kho ngữ liệu thử nghiệm được xây dựng dựa trên việc thu thập dữ liệu trong<br />
một khoảng thời gian từ 09/08 – 15/08/2017 từ các trang thông tin điện tửBáo<br />
Nhân dân, Báo Quân đội nhân dân, Báo Dân trí, Báo Thanh niên, Báo vnexpress,<br />
news.zing.vn. Chúng tôi chọn khoảng thời gian này vì có một số sự kiện quan<br />
trọng nổi lên như: căng thẳng Triều Tiên, trạm thu phí Cai Lậy, bạo lực ở bang<br />
Virginia Hoa Kỳ, bút phê lãnh đạo vào hồ sơ sinh viên... Tổng số văn bản thu thập<br />
được từ các nguồn trên là 131 bài được phân thành 10 cụm chủ đề (bằng phương<br />
pháp thủ công do con người thực hiện).<br />
Do đặc điểm riêng của tiếng Việt [3], ở bước tiền xử lý tiếng Việt chúng tôi sử<br />
dụng các bộ công cụ sau:<br />
Sử dụng các kỹ thuật tách từ của nhóm tác giả [10, 11,12] được dùng để tách từ<br />
tiếng Việt. Sử dụng bộ công cụ vnTagger [15] để gán nhãn từ loại với bộ 18 nhãn.<br />
Ngoài ra, để nâng cao độ chính xác, các thực từ đồng nghĩa trong tiêu đề, tóm<br />
tắt, nội dung của các văn bản thử nghiệm được thay thế bằng một từ duy nhất bằng<br />
cách sử dụng từ điển đồng nghĩa của tác giả Nguyễn Văn Tu [9].<br />
3.2. Thử nghiệm, đánh giá<br />
Trong quá trình phân cụm ở giai đoạn đầu tiên,với 131 văn bản đầu vào chưa<br />
được phân cụm, chúng tôi sử dụng thuật toán DBSCAN cải tiến với k=4 [4,5],<br />
thuật toán tính ra các hệ số tối ưu eps = 0,952, MinPts=4. Kết quả thực hiện phân<br />
ra thành 10 cụm chủ đề, chúng ta so sánh với 10 cụm chủ đề đã được phân cụm<br />
bằng phương pháp thủ công. Kết quả được trình bày ở bảng 1, trong đó chúng tôi<br />
sử dụng độ đo Precision, Recall, F-score để đánh giá độ chính xác của thuật<br />
toánphân cụm.<br />
=<br />
( + )<br />
=<br />
( + )<br />
<br />
<br />
130 N. N. An, C. Đ. Huy, “Mô hình tự động phát hiện chủ đề nóng … DBSCAN cải tiến.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
2× ×<br />
=<br />
( + )<br />
trong đó:<br />
TP: Số lượng các bài thuộc cụm c được phân loại chính xác vào cụm c;<br />
FP: Số lượng các bài không thuộc cụm c bị phân loại nhầm vào cụm c;<br />
FN: Số lượng các bài thuộc cụm c bị phân loại nhầm vào các lớp cụm khác c.<br />
Bảng 1. Bảng kết quả phân cụm sử dụng thuật toán DBSCAN cải tiến.<br />
<br />
Số lượng văn bản<br />
T Pre Recall F<br />
Tên cụm TP FP FN<br />
T PP (%) (%) (%)<br />
DBSCAN<br />
thủ<br />
cải tiến<br />
công<br />
1 Căng thẳng Triều<br />
40 19 19 0 21 100 47,5 64,4<br />
Tiên<br />
Phản đối trạm thu<br />
2 17 14 14 0 3 100 82,4 90,4<br />
phí BOT Cai Lậy<br />
Thời tiết nắng<br />
3 16 15 15 0 1 100 93,8 96,8<br />
nóng tại Bắc bộ<br />
Khắc phục hậu quả<br />
4 trận lũ quét Yên 12 8 8 0 4 100 66,7 80,0<br />
Bái<br />
Phê lý lịch sinh<br />
5 9 9 9 0 0 100 100 100<br />
viên<br />
Ông Đoàn Ngọc<br />
6 Hải xử lý vi phạm 9 6 6 0 3 100 66,7 80,0<br />
lấn chiếm vỉa hè<br />
Lao xe vào cuộc<br />
7 biểu tình tại bang 7 5 5 0 2 100 71,4 83,3<br />
Virginia - Mỹ<br />
Căng thắng biên<br />
8 giới Trung Quốc - 7 7 7 0 0 100 100 100<br />
Ấn Độ<br />
Bé trai bị bỏ rơi tại<br />
9 trước bệnh viện 7 7 7 0 0 100 100 100<br />
Sài Gòn<br />
Căng thẳng biên<br />
10 giới Campuchia - 7 6 6 0 1 100 85,7 92,3<br />
Lào<br />
Trên cơ sở của các cụm chủ đề được phân, ở giai đoạn 2 chúng tôi tính “độ<br />
nóng” chủ đề. Bảng 2 trình bày các chủ đề với “độ nóng” chủ đề được tính bằng<br />
công thức (5).<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 131<br />
Công nghệ thông tin<br />
<br />
Từ bảng 2, chúng ta có thể thấy chủ đề nóng nhất là “Tình hình căng thẳng<br />
Triều Tiên”, sau đó đến chủ đề “Phản đối trạm thu phí BOT Cai Lậy” xảy ra ngày<br />
05/08/2017.... Qua kết quả trên, chúng ta có thể thấy các chủ đề nóng được phát<br />
hiện phản ánh đúng các sự kiện diễn ra trong khoảng thời gian từ ngày 09 tháng 08<br />
đến ngày 15 tháng 08 năm 2017.<br />
Bảng 2. Bảng thống kê 10 chủ đề nóng được phát hiện.<br />
STT Chủ đề “Độ nóng” chủ đề<br />
1 Căng thẳng Triều Tiên 2,017<br />
2 Phản đối trạm thu phí BOT Cai Lậy 1,624<br />
3 Thời tiết nắng nóng tại Bắc bộ 1,393<br />
4 Khắc phục hậu quả trận lũ quét Yên Bái 0,746<br />
5 Phê lý lịch sinh viên 0,591<br />
6 Ông Đoàn Ngọc Hải xử lý vi phạm lấn chiếm vỉa hè 0,587<br />
7 Lao xe vào cuộc biểu tình tại bang Virginia - Mỹ 0,562<br />
8 Căng thắng biên giới Trung Quốc - Ấn Độ 0,535<br />
9 Bé trai bị bỏ rơi tại trước bệnh viện Sài Gòn 0,503<br />
10 Căng thẳng biên giới Campuchia - Lào 0,437<br />
<br />
4. KẾT LUẬN<br />
Bài báo này đã trình bày mô hình phát hiện chủ đề nóng trên các trang thông tin<br />
điện tử tiếng Việt trong một khoảng thời gian nhất định. Nội dung nghiên cứu của<br />
bài báo tập trung giải quyết hai vấn đề trọng tâm:<br />
- Sử dụng thuật toán phân cụm DBSAN cải tiến sử dụng cách tự động tính giá trị<br />
của các tham số eps, MinPts dựa trên các thuộc tính thống kê của bộ dữ liệu đầu vào.<br />
- Xác định “độ nóng” chủ đề dựa trên một số tiêu chí: số lượng bài viết, độ quan<br />
trọng của các trang thông tin điện tử,...<br />
Kết quả thử nghiệm trên 131 văn bản thu thập được từ 6 trang báo điện tử khác<br />
nhau trong thời gian 1 tuầncho thấy mô hình đề xuất đưa ra các chủ đề nóng phản<br />
ánh đúng các sự kiện thực tế đang diễn ra trên thế giới.<br />
Lời cảm ơn: Tác giả cảm ơn sự tài trợ về kinh phí của đề tài mã số CNN-2017 cấp<br />
Viện Khoa học và Công nghệ quân sự.<br />
TÀI LIỆU THAM KHẢO<br />
[1]. Bộ Thông tin và Truyền thông, “Báo cáo tổng kết công tác năm 2016 và<br />
phương hướng, nhiệm vụ năm 2017”, (2016).<br />
[2]. Bộ Thông tin và Truyền thông, “Hội nghị báo chí toàn quốc triển khai nhiệm<br />
vụ năm 2017”, Cổng thông tin điện tử - Bộ Thông tin và Truyền thông (2017).<br />
[3]. Diệp Quang Ban, “Ngữ Pháp Tiếng Việt”, NXB giáo dục (2008).<br />
<br />
<br />
<br />
<br />
132 N. N. An, C. Đ. Huy, “Mô hình tự động phát hiện chủ đề nóng … DBSCAN cải tiến.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
[4]. Ester, M., H. P. Kriegel, J. Sander, and X. Xu, “A Density-Based Algorithm<br />
for Discovering Clusters in Large Spatial Databases with Noise”, Conference<br />
on Knowledge Discovery and Data Mining, Portland, OR, AAAI Press,<br />
(1996), pp. 226-231.<br />
[5]. Hongfang Zhou,Peng Wang,Hongyan Li. “Research on Adaptive Parameters<br />
Determination in DBSCAN Algorithm”, Journal of Information &<br />
Computational Science, (2012), 9(7): 1967-1973.<br />
[6]. J. Allan, “Introduction to topic detection and tracking”, Springer US, (2002).<br />
[7]. K. K. Bun and M. Ishizuka, “Topic extraction from news archive using<br />
TF*PDF algorithm”, Proceedings of the Third International Conference on<br />
Web Information Systems Engineering, Singapore, (2002), pp. 73-73<br />
[8]. K. Y. Chen, L. Luesukprasert and S. Chou, “Hot topic extraction based on<br />
timeline analysis and multidimensional sentence modeling”, IEEE<br />
Transactions on Knowledge and Data Engineering, (2007), pp. 1016-1025.<br />
[9]. Nguyễn Văn Tu, “Từ điển đồng nghĩa Tiếng Việt”, NXB giáo dục (2001).<br />
[10]. Nguyễn Nhật An, Trần Ngọc Anh, Phan Thị Nguyệt Hoa, “Kỹ thuật Voting<br />
trong bài toán tách từ tiếng Việt”, Tạp chí Nghiên cứu Khoa học & Công<br />
nghệ Quân sự, Đặc san CNTT 04/2014, (2014), tr.54-61.<br />
[11]. Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen, "An Effective<br />
Context-based Method for Vietnamese Word Segmentation", Proceedings of<br />
the First International Workshop on Vietnamese Language and Speech<br />
Processing (VLSP 2012), pp.34-40, In Conjunction with 9th IEEE-RIVF<br />
Conference on Computing and Communication Technologies (RIVF 2012).<br />
[12]. Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen, "Identifying<br />
Coordinated Compound Words for Vietnamese Word Segmentation",<br />
Proceedings of the Fifth International Conference of Soft Computing and<br />
Pattern Recognition (SoCPaR 2013).<br />
[13]. Thanh Ho, Duy Doan, Phuc Do, “Discovering Hot topic on Social Net work<br />
based on Improving the aging theory”. Advances in Computer Science: An<br />
international Journal: Volume 3, Issue 3, (4/2014), ISSN: 2322-5157.<br />
[14]. Ruiguo Yu, Xiaodong Xie, Yongxing Li,Mankun Zhao, “Online Hot Topic<br />
Detection Based on Segmented Timeline and Aging Theory”, SERSC,<br />
International Journal of Hybrid Information Technology , Vol 9. (2016), p.<br />
247-258<br />
[15]. VLSP project, Vietnamese Language Processing, http://vlsp.vietlp.org<br />
[16]. X. Guo, Y. Xiang, Q. Chen, Z. Huang and Y. Hao, “LDA-based online topic<br />
detection using tensor factorization”, Journal of Information Science, (2013).<br />
[17]. XU Hui-jie, CAI Wan-dong, CHEN Gui-rong, "A Fast Method to Detect Hot<br />
Topic from BBS", International Conference on Advanced Information and<br />
Communication Technology for Education (ICAICTE 2013).<br />
[18]. Xianwen Wang and Zhichao Fang, "Detecting and Tracking The Real-time<br />
Hot Topics - A Study on Computational Neuroscience", (STI2016).<br />
[19]. Xi Ding, Lanshan Zhang, Ye Tian, Xiangyang Gong and Wendong Wang<br />
(2015), "Dynamic Topic Detection Model by Fusing Sentiment Polarity",<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 133<br />
Công nghệ thông tin<br />
<br />
Proceedings of the 38th Australasian Computer Science Conference (ACSC<br />
2015), Sydney, Australia.<br />
[20]. Y. Zhuang, “An improved TFIDF algorithm in electronic information feature<br />
extraction based on document position”, Advances in Mechanical and<br />
Electronic Engineering, (2012), pp. 449-454.<br />
[21]. Y. Chen, H. Amiri, Z. Li and T. Chua, “Emerging topic detection for<br />
organizations from microblogs”, Proceedings of the 36th international ACM<br />
SIGIR conference on Research and development in information retrieval,<br />
Dublin, Ireland, (2013), pp. 43-52.<br />
[22]. Ye, H-M. and Cheng, W. 'Design and implementation of on-line hot topic<br />
discovery model', Wuhan University Journal of Natural Sciences; Vol. 11,<br />
(2006), p. 21-26.<br />
[23]. Yonghui Wu, Yuxin Ding, Xiaolong Wang and Jun Xu, "On-line Hot Topic<br />
Recommendation Using Tolerance Rough Set Based Topic Clustering",<br />
Journal of Computers, Vol. 5, No. 4, (April 2010).<br />
[24]. Yuexin Sun, Huifang Ma, Meihuizi Jia, Wang Peiqing, "An Efficient<br />
Microblog Hot Topic Detection Algorithm Based on Two Stage Clustering",<br />
8th International Conference on Intelligent Information Processing (IIP), Oct<br />
2014, Hangzhou, China. Springer, IFIP Advances in Information and<br />
Communication Technology, AICT-432, (2014), pp.90-95.<br />
ABSTRACT<br />
MODEL HOT TOPIC DETECTION ON VIETNAMESE WEBSITE<br />
BASED ON IMPROVED DBSCAN CLUSTERING ALGORITHM<br />
Currently, with the rapid development of information technology, the amount<br />
of information is transmitted on the websites (online newspapers, social networks,<br />
blogs, etc.) as large. The tracking information to detect new, hot issues (hot<br />
topics) is public attention, monitoring their development trends to forecast the risk<br />
is very important in many fields, especially in security and defense. This article<br />
proposes the model to detect hot topics on Vietnamese websites in a period of time<br />
based on the improved DBSCAN algorithm and how to determine the "hotness" of<br />
clustered topics.<br />
Keywords: Detecting Vietnamese hot topics; Improving DBSCAN clustering algorithm; “Hotness of topics”.<br />
<br />
Nhận bài ngày 16 tháng 8 năm 2017<br />
Hoàn thiện ngày 26 tháng 11 năm 2017<br />
Chấp nhận đăng ngày 28 tháng 11 năm 2017<br />
<br />
Địa chỉ: Viện Công nghệ Thông tin, Viện KHCNQS.<br />
*<br />
Email: nguyennhatan@gmail.com.<br />
<br />
<br />
<br />
<br />
134 N. N. An, C. Đ. Huy, “Mô hình tự động phát hiện chủ đề nóng … DBSCAN cải tiến.”<br />