YOMEDIA
ADSENSE
Gom nhóm văn bản dựa trên mẫu hữu ích được đánh trọng phổ biến
48
lượt xem 0
download
lượt xem 0
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Trong bài báo này, các tác giả đề xuất một phương pháp mới để gom nhóm văn bản dựa vào mẫu hữu ích được đánh trọng phổ biến thông qua việc sử dụng TF (Term Frequency) cho mỗi từ trong văn bản. Trọng số của từ trên toàn bộ tập văn bản được tính dựa vào IDF (Inverse Document Frequency), sau đó sử dụng thuật toán MWIT-FWUI để khai thác các mẫu hữu ích phổ biến.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Gom nhóm văn bản dựa trên mẫu hữu ích được đánh trọng phổ biến
Khoa học Tự nhiên<br />
<br />
Gom nhóm văn bản dựa trên mẫu hữu ích<br />
được đánh trọng phổ biến<br />
Trần Thanh Trâm1, Võ Đình Bảy2*<br />
Trường Đại học Công nghệ thông tin, Đại học Quốc gia TP Hồ Chí Minh<br />
Khoa Công nghệ thông tin, Trường Đại học Công nghệ TP Hồ Chí Minh<br />
<br />
1<br />
<br />
2<br />
<br />
Ngày nhận bài 26/3/2018; ngày chuyển phản biện 30/3/2018; ngày nhận phản biện 22/4/2018; ngày chấp nhận đăng 27/4/2018<br />
<br />
Tóm tắt:<br />
Gom nhóm văn bản là chủ đề quan trọng trong khai thác dữ liệu văn bản, và phương pháp hiệu quả để gom nhóm<br />
văn bản là dựa trên mẫu phổ biến. Đã có nhiều thuật toán được phát triển nhằm nâng cao độ chính xác cho bài toán<br />
gom nhóm văn bản dựa trên mẫu phổ biến, nhưng lại không quan tâm tới trọng số của từ trong văn bản. Trong bài<br />
báo này, các tác giả đề xuất một phương pháp mới để gom nhóm văn bản dựa vào mẫu hữu ích được đánh trọng phổ<br />
biến thông qua việc sử dụng TF (Term Frequency) cho mỗi từ trong văn bản. Trọng số của từ trên toàn bộ tập văn<br />
bản được tính dựa vào IDF (Inverse Document Frequency), sau đó sử dụng thuật toán MWIT-FWUI để khai thác<br />
các mẫu hữu ích phổ biến. Tiếp theo, tiến hành gom nhóm văn bản bằng thuật toán MC (Maximum Capturing). Kết<br />
quả thử nghiệm trên kho ngữ liệu gồm 1.600 văn bản (16 chủ đề) cho thấy, phương pháp mới đã cải thiện đáng kể<br />
độ chính xác của việc gom nhóm văn bản so với phương pháp dựa vào mẫu phổ biến.<br />
Từ khóa: cơ sở dữ liệu số lượng, gom nhóm văn bản, mẫu hữu ích được đánh trọng phổ biến, mẫu phổ biến, trọng<br />
số của từ.<br />
Chỉ số phân loại: 1.2<br />
<br />
Đặt vấn đề<br />
<br />
Hiện nay, các công trình nghiên cứu về bài toán gom<br />
nhóm văn bản tiếng Việt còn rất ít, hầu hết sử dụng các<br />
phương pháp truyền thống như phương pháp gom nhóm đồ<br />
thị [1], gom nhóm dựa trên thực thể có tên [2]…<br />
Năm 2002, Beil và cộng sự đã giới thiệu một hướng tiếp<br />
cận mới cho bài toán gom nhóm văn bản, đó là gom nhóm<br />
văn bản dựa vào mẫu phổ biến [3]. Kết quả thực nghiệm cho<br />
thấy, gom nhóm văn bản dựa vào mẫu phổ biến có độ chính<br />
xác cao hơn, thời gian xử lý tốt hơn so với gom nhóm văn<br />
bản dựa vào bisecting k-means [4]. Công trình này mở ra<br />
một hướng tiếp cận hoàn toàn mới cho bài toán gom nhóm<br />
văn bản và là tiền đề cho rất nhiều công trình nghiên cứu<br />
sau này.<br />
Một số thuật toán gần đây đã giải quyết được vấn đề<br />
gom nhóm văn bản dựa trên mẫu phổ biến như phương pháp<br />
CMS [5], phương pháp FIHC [6], phương pháp CFWS [7].<br />
Tuy nhiên, các phương pháp này lại không quan tâm tới<br />
trọng số của từ trong các văn bản, chỉ quan tâm tới tần số<br />
xuất hiện của các item trong mẫu phổ biến. Trong [8], tác<br />
giả đã chỉ ra một số hạn chế của các thuật toán trên như sau:<br />
1) Có thể dẫn tới việc trùng lặp các văn bản trong kết quả<br />
*<br />
<br />
gom nhóm cuối cùng; 2) Có khuynh hướng chọn nhóm ứng<br />
viên có số văn bản ít, trong khi độ phổ biến của những văn<br />
bản đó lớn để gom thành 1 nhóm, dẫn tới kết quả một số<br />
lớn các nhóm được gom chỉ có 1 văn bản; 3) Không thể giải<br />
quyết được mâu thuẫn nhóm khi chỉ định các văn bản vào<br />
các nhóm, một văn bản có thể được chia thành nhiều nhóm<br />
khác nhau…<br />
Khai thác mẫu phổ biến không quan tâm đến trọng số<br />
của các mục, vì vậy khi áp dụng các thuật toán khai thác<br />
mẫu phổ biến để gom nhóm văn bản, các tác giả chỉ quan<br />
tâm đến sự xuất hiện hay không xuất hiện của mỗi từ trong<br />
văn bản. Thực tế, các từ trong văn bản có số lần xuất hiện<br />
khác nhau, nên có đóng góp khác nhau. Trong bài báo này,<br />
chúng tôi đề xuất phương pháp gom nhóm văn bản dựa trên<br />
trọng số (chẳng hạn TF-IDF, tần số xuất hiện…) của các từ<br />
và thuật toán MC với mục tiêu cải thiện độ chính xác của<br />
kết quả gom nhóm.<br />
Phương pháp nghiên cứu<br />
<br />
Cơ sở dữ liệu (CSDL) số lượng: cho một CSDL D với<br />
một tập các giao dịch T = {t1, t2,... tm}, một tập các mặt hàng<br />
I = {i1, i2,… in} và một tập các trọng số W = {w1, w2,…,<br />
wn} tương ứng với mỗi mặt hàng trong I. Với mỗi giao dịch<br />
<br />
Tác giả liên hệ: Email: bayvodinh@gmail.com<br />
<br />
60(8) 8.2018<br />
<br />
1<br />
<br />
Phương pháp nghiên cứu<br />
Cơ sở dữ liệu (CSDL) số lượng: Cho một CSDL D với một tập các giao dịch T = {t1,<br />
t2,... tm}, một tập các mặt hàng I = {i1, i2,… in} và một tập các trọng số W = {w1, w2,…, wn}<br />
tương ứng với mỗi mặt hàng trong I. Với mỗi giao dịch tk = {xk1, xk2,… xkn} mà trong đó xki<br />
là số lượng sản phẩm được mua bởi mặt hàng thứ i trong giao dịch tk.<br />
Trọng số của từ (TF-IDF): TF-IDF (term frequency - inverse document frequency)<br />
của một từ thể hiện mức độ quan trọng của từ này trong một văn bản nằm trong một tập hợp<br />
các văn bản. Nó dựa vào tần số xuất hiện của 1 từ trong 1 văn bản (TF) và tần số nghịch của<br />
1 từ trong tập văn bản (IDF).<br />
TFtần(term<br />
frequency)<br />
số1xuất<br />
hiệnGiá<br />
củatrị1 TF<br />
từ của<br />
trong<br />
TF (term frequency) là<br />
số xuất<br />
hiện của 1là<br />
từtần<br />
trong<br />
văn bản.<br />
một1<br />
từ t trong văn bản d đượcvăn<br />
tínhbản.<br />
theo công<br />
thức<br />
(1).<br />
Giá trị TF của một từ t trong văn bản d được tính<br />
<br />
Khoa học Tự nhiên<br />
<br />
Text clustering using frequent<br />
weighted utility itemsets<br />
Thanh Tram Tran , Dinh Bay Vo<br />
1<br />
<br />
theo công thức (1).<br />
�� (�, �) =<br />
<br />
2*<br />
<br />
�(�, �)<br />
�(�)<br />
<br />
(1)<br />
(1)<br />
<br />
đó,hiện<br />
n(t,từd)t trong<br />
là số văn<br />
lần bản<br />
xuấtd;hiện<br />
t trong<br />
vănhiện<br />
bản d;<br />
Trong<br />
đó, n(t, d) là sốTrong<br />
lần xuất<br />
n(d) từ<br />
là số<br />
lần xuất<br />
của<br />
University of Information Technology, Vietnam National<br />
University<br />
n(d)<br />
tất cả các từ trong văn bản<br />
d. là số lần xuất hiện của tất cả các từ trong văn bản d.<br />
Ho Chi Minh City<br />
2<br />
Faculty of Information Technology, Ho Chi Minh CityIDF<br />
University<br />
(inverseof document frequency) là tần số nghịch của một từ trong tập văn bản<br />
IDF (inverse document frequency) là tần số nghịch của<br />
(corpus). Trong tập văn bản, mỗi từ chỉ có 1 giá trị IDF duy nhất được tính theo công thức<br />
Technology<br />
một từ trong tập văn bản (corpus). Trong tập văn bản, mỗi<br />
(2):<br />
Received 26 March 2018; accepted 27 April 2018<br />
từ chỉ có 1 giá trị IDF duy nhất được tính theo công thức (2):<br />
1<br />
<br />
Abstract:<br />
<br />
��� (�, �) = ���<br />
<br />
|�|<br />
|{� Î �|� Î � }|<br />
<br />
2 (2)<br />
(2)<br />
<br />
Ma trận trọng số<br />
<br />
Text clustering is one of the important topics of the<br />
|D|trong<br />
là tập<br />
tổng<br />
số văn bảnlà trong<br />
tậpd có<br />
D,xuất<br />
tổng sốđó,<br />
văn bản<br />
D, |{� Î �|� Î � }|<br />
số văn bản<br />
text mining. One of the most effective methods forTrong<br />
text đó, |D| làTrong<br />
hiện<br />
từ<br />
t<br />
trong<br />
tập<br />
D.<br />
Nếu<br />
từ<br />
đó<br />
không<br />
xuất<br />
hiện<br />
ở<br />
bất<br />
cứ<br />
một<br />
văn<br />
bản<br />
nào<br />
trong<br />
tập<br />
D thì<br />
|{d<br />
∈<br />
D|t<br />
∈<br />
d<br />
}|<br />
là<br />
số<br />
văn<br />
bản<br />
d<br />
có<br />
xuất<br />
hiện<br />
từ<br />
t<br />
trong<br />
clustering is the frequent itemsets based approach.<br />
mẫu số sẽ bằng 0, dẫn tới phép chia không hợp lệ, vì thế người ta thường thay bằng công<br />
tập D. Nếu từ đó không xuất hiện ở bất cứ một văn bản<br />
There are many frequent itemsets based algorithms<br />
thức 1 + |{� Î �|� Î �}|. Cơ số logarit trong công thức này không thay đổi giá trị của 1 từ<br />
to improve the accuracy of text clustering. mà<br />
However,<br />
nào trong<br />
D đó.<br />
thì Việc<br />
mẫuthay<br />
số đổi<br />
sẽ cơ<br />
bằng<br />
dẫn ảnh<br />
tới hưởng<br />
phép đến<br />
chiatỷ lệ<br />
chỉ thu hẹp khoảng<br />
giá trị tập<br />
của từ<br />
số sẽ0,không<br />
these algorithms do not focus on the weight of<br />
terms<br />
intrị IDF.<br />
giữa<br />
các giá<br />
Tuyhợp<br />
nhiên,<br />
thay người<br />
đổi khoảng<br />
giá trị sẽthay<br />
giúpbằng<br />
tỷ lệ giữa<br />
và TF<br />
không<br />
lệ,việc<br />
vì thế<br />
ta thường<br />
côngIDF<br />
thức<br />
tương<br />
thức<br />
như sau:trong công thức này không<br />
documents. In fact, the frequency of each term<br />
in đồng<br />
eachđể dùng<br />
1+ cho<br />
|{d công<br />
∈ D|t<br />
∈ tính<br />
d}. TF-IDF<br />
Cơ số logarit<br />
document has a great impact on results. In this paper, thay<br />
đổi giá trị của<br />
từmà<br />
TF-IDF(t,d,D)<br />
= tf(t,1 d)<br />
idf chỉ<br />
(t, D)thu hẹp khoảng giá trị của từ (3)<br />
we propose a new method for text clustering based on đó. Việc thay đổi cơ số sẽ không ảnh hưởng đến tỷ lệ giữa<br />
Trong<br />
từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản<br />
frequent weighted utility itemsets. First, we calculate<br />
TF đó, những<br />
giácáctrịvăn<br />
IDF.<br />
khoảng<br />
sẽ lại<br />
này và ít xuất hiệncác<br />
trong<br />
bản Tuy<br />
khác.nhiên,<br />
Việc nàyviệc<br />
giúpthay<br />
lọc rađổi<br />
những<br />
từ phổ giá<br />
biến trị<br />
và giữ<br />
(Term Frequency) for each term in documents những<br />
to create<br />
|�|<br />
từ cóagiá trị<br />
cao (từ<br />
của�)<br />
văn<br />
giúp<br />
tỷ khoá<br />
lệ��� (�,<br />
giữa<br />
IDF<br />
= bản).<br />
���và TF tương đồng để dùng cho công (2)<br />
|{� Î �|� Î � }|<br />
number matrix for the documents. The weights<br />
of terms<br />
Nội dung nghiênthức<br />
cứu tính TF-IDF như sau:<br />
in the documents is based on the IDF (Inverse Document<br />
Mô hình Trong đó, |D| là tổng số văn bản trong tập D, |{� Î �|� Î � }| là số văn bản d có xuất<br />
hiện từ t trong<br />
tập D. Nếu từ đó không<br />
hiện<br />
ở bất<br />
một văn bản nào trong tập(3)<br />
D thì<br />
TF-IDF(t,d,D)<br />
= nhóm<br />
tf(t,xuất<br />
d)<br />
× idf<br />
(t,cứD)<br />
Frequency). Next, we use MWIT-FWUI algorithmMôfor<br />
hìnhsốgiải<br />
quyết<br />
gom<br />
văn<br />
thể hiện<br />
trên sơ<br />
đồ<br />
mẫu<br />
sẽ bằng<br />
0, bài<br />
dẫn toán<br />
tới phép<br />
chia<br />
không<br />
hợpbản<br />
lệ, tiếng<br />
vì thế Việt<br />
ngườiđược<br />
ta thường<br />
thay bằng<br />
công<br />
mining frequent weighted utility itemsets fromhình<br />
a number<br />
1. thức 1 + |{� Î �|� Î �}|.<br />
số logarit<br />
côngtrị<br />
thức<br />
này khôngcao<br />
thay là<br />
đổinhững<br />
giá trị củatừ<br />
1 từ<br />
Trong đó, Cơ<br />
những<br />
từ trong<br />
có giá<br />
TF-IDF<br />
matrix and the weight of terms in the documents. Finally,<br />
mà chỉ thu hẹp khoảng giá trị của từ đó. Việc thay đổi cơ số sẽ không ảnh hưởng đến tỷ lệ<br />
Tập văn bản xuất hiện nhiều<br />
Tập văn trong<br />
bản đã đượcvăn<br />
xử lý bản này và ít xuất<br />
Tập các từ<br />
trong<br />
các<br />
văn Tuy nhiên,<br />
giữa các giá Xử<br />
trịlýIDF.<br />
việc thay đổi<br />
khoảng<br />
trị sẽ giúphiện<br />
tỷ lệ giữa<br />
IDFsố<br />
và TF<br />
Loại bỏgiá<br />
hư từ<br />
Đánh trọng<br />
based on frequent utility itemsets, we cluster text using<br />
bản<br />
tương đồng<br />
đểbản<br />
dùngkhác.<br />
cho công<br />
thứcnày<br />
tính TF-IDF<br />
nhưra<br />
sau:<br />
văn<br />
Việc<br />
giúp<br />
lọc<br />
những<br />
từ<br />
phổ<br />
biến<br />
và<br />
giữ<br />
(Stopword)<br />
MC (Maximum Capturing) algorithm. We have tested<br />
từ có giá trị<br />
caod)(từ<br />
(3)<br />
= tf(t,<br />
idfkhoá<br />
(t, D) của văn bản).<br />
this method on a corpus consisting of 1,600 documents lại nhữngTF-IDF(t,d,D)<br />
including 16 different topics. Experimental results Trong đó, những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản<br />
nghiên<br />
cứu <br />
này và ítNội<br />
xuấtdung<br />
hiện trong<br />
các văn<br />
bản khác. Việc này giúp lọc ra những từ phổ biến và giữ lại<br />
have shown that our method significantly improves<br />
những từ có giá trị cao (từ khoá của văn bản).<br />
the accuracy of the text clustering compared with the<br />
Mô hình<br />
Tập mẫu hữu ích được đánh<br />
Nội dung nghiên cứu<br />
clustering method using frequent itemsets.<br />
trọng phổ biến<br />
Mô hình<br />
Gom nhóm văn<br />
Mô hình giải quyết bài toán gom nhóm Khai<br />
văn<br />
thác bản<br />
mẫu hữutiếng<br />
ích được<br />
Văn<br />
được giải quyết bài toán gom<br />
bản nhóm văn bản tiếng Việt được thể hiện trên sơ đồ<br />
Môbảnhình<br />
đánh trọng phổ biến<br />
Keywords: frequent itemsets, frequent weighted utility<br />
Việt<br />
nhómđược thể hiện trên sơ đồ hình 1.<br />
hình 1. gom<br />
itemsets, quantitative databases, text clustering, weight<br />
Tập<br />
văn bản<br />
Tập văn<br />
bản đã<br />
được xửvăn<br />
lý<br />
Hình 1. Mô hình<br />
giải quyết<br />
bài toán<br />
gom<br />
nhóm<br />
bản Loại<br />
tiếng<br />
Việt. Tập các từ Đánh trọng số<br />
Xử lý văn<br />
bỏ hư từ<br />
of terms.<br />
bản<br />
(Stopword)<br />
<br />
Xử lý văn bản<br />
Tách từ tiếng Việt: Trước khi thực hiện gom nhóm văn bản cần tiến hành tách từ<br />
tiếng Việt. Không như tiếng Anh, ranh giới giữa các từ trong tiếng Việt không đơn thuần chỉ<br />
là những khoảng trắng, đòi hỏi phải xử lý riêng trước. Ví dụ câu “Tổ quốc ta đẹp như tranh<br />
vẽ” sẽ được tách ra thành: Tổ_quốc | ta | đẹp | như | tranh_vẽ.<br />
Tập mẫu hữu ích được đánh<br />
trọng phổ biến<br />
Gom<br />
văn<br />
Nhận dạng tên riêng tiếng Việt (NER<br />
- nhóm<br />
Named<br />
Entity<br />
Recogniton)<br />
tk = {xk1, xk2,… xkn} mà trong đó xki là số lượng sản phẩm<br />
Khai thác mẫu hữu ích được<br />
Văn bản được<br />
bản<br />
đánh trọng<br />
phổ biến<br />
Sau khi tách từ tiếng<br />
Việt,<br />
hệ<br />
thống<br />
sẽ<br />
tiến<br />
hành<br />
nhận<br />
dạng tên riêng<br />
tiếng<br />
Việt. Ví<br />
gom nhóm<br />
được mua bởi mặt hàng thứ i trong giao dịch tk.<br />
dụ câu “Triển lãm diễn ra từ 22 đến 30/6 tại Bảo tàng Mỹ thuật”. Sau khi tách từ và tiến<br />
Hình<br />
1. Môtiếng<br />
quyết<br />
bài<br />
gomcác<br />
nhóm<br />
văn<br />
bản tiếng Việt.<br />
hành nhận dạng tên<br />
riêng<br />
Việt,<br />
sẽ<br />
ratoán<br />
thành<br />
từ:<br />
Triển_lãm<br />
| diễn_ra<br />
từ | 22/NUM<br />
1. hình<br />
Mô giải<br />
hình<br />
giải<br />
quyết<br />
bài<br />
toán<br />
gom nhóm<br />
văn | bản<br />
tiếng |<br />
Trọng số của từ (TF-IDF): TF-IDF (term frequency<br />
- |Hình<br />
đến | 30/6/NUM<br />
tạilý| văn<br />
Bảo_tàng<br />
Mỹ_thuật/PER |.<br />
Xử<br />
bản<br />
Việt.<br />
Tách bài<br />
từ tiếng<br />
thựcdạng<br />
hiệntên<br />
gomriêng<br />
nhómtiếng<br />
văn bản<br />
cầnchúng<br />
tiến hành<br />
táchdụng<br />
từ<br />
inverse document frequency) của một từ thể hiện mức<br />
Việt,<br />
tôi sử<br />
Để độ<br />
giải quyết<br />
toánViệt:<br />
táchTrước<br />
từ vàkhi<br />
nhận<br />
tiếng Việt. Không<br />
như tiếng<br />
ranh giới<br />
từ trong<br />
tiếng Việt không để<br />
đơnnhận<br />
thuầndạng<br />
chỉ<br />
công cụ VnTokenizer<br />
để phân<br />
đoạnAnh,<br />
từ tiếng<br />
Việtgiữa<br />
và các<br />
công<br />
cụ CLC_VN_NER<br />
Xử lý văn bản<br />
quan trọng của từ này trong một văn bản nằm trong<br />
một tập<br />
là những<br />
tên riêng tiếng<br />
Việt.khoảng trắng, đòi hỏi phải xử lý riêng trước. Ví dụ câu “Tổ quốc ta đẹp như tranh<br />
Ma trận trọng số<br />
<br />
Classification number: 1.2<br />
<br />
vẽ” sẽ được tách ra thành: Tổ_quốc | ta | đẹp | như | tranh_vẽ.<br />
từriêng<br />
tiếng<br />
Việt:<br />
trước- Named<br />
khi thực<br />
gom nhóm văn<br />
NhậnTách<br />
dạng tên<br />
tiếng<br />
Việt (NER<br />
Entityhiện<br />
Recogniton)<br />
3<br />
táchtiến<br />
từ tiếng<br />
Việt,tách<br />
hệ thống<br />
sẽ tiến Việt.<br />
hành nhận<br />
dạng tên<br />
riêng<br />
tiếngAnh,<br />
Việt. Ví<br />
bản Sau<br />
bảnkhicần<br />
hành<br />
từ tiếng<br />
Không<br />
như<br />
tiếng<br />
dụ câu “Triển lãm diễn ra từ 22 đến 30/6 tại Bảo tàng Mỹ thuật”. Sau khi tách từ và tiến<br />
ranh<br />
giữatiếng<br />
cácViệt,<br />
từ sẽtrong<br />
tiếng<br />
Việt<br />
không<br />
đơn thuần<br />
chỉ |<br />
hành nhận<br />
dạnggiới<br />
tên riêng<br />
ra thành<br />
các từ:<br />
Triển_lãm<br />
| diễn_ra<br />
| từ | 22/NUM<br />
đến | 30/6/NUM | tại | Bảo_tàng Mỹ_thuật/PER |.<br />
Để giải quyết bài toán tách từ và nhận dạng tên riêng tiếng Việt, chúng tôi sử dụng<br />
công cụ VnTokenizer để phân đoạn từ tiếng Việt và công cụ CLC_VN_NER để nhận dạng<br />
tên riêng tiếng Việt.<br />
<br />
hợp các văn bản. Nó dựa vào tần số xuất hiện của 1 từ trong<br />
1 văn bản (TF) và tần số nghịch của 1 từ trong tập văn<br />
(IDF).<br />
<br />
60(8) 8.2018<br />
<br />
2<br />
<br />
3<br />
<br />
Khoa học Tự nhiên<br />
<br />
là những khoảng trắng, đòi hỏi phải xử lý riêng trước. Ví dụ<br />
câu “Tổ quốc ta đẹp như tranh vẽ” sẽ được tách ra thành:<br />
Tổ_quốc | ta | đẹp | như | tranh_vẽ.<br />
Nhận dạng tên riêng tiếng Việt (NER - Named Entity<br />
Recogniton)<br />
Sau khi tách từ tiếng Việt, hệ thống sẽ tiến hành nhận<br />
dạng tên riêng tiếng Việt. Ví dụ câu “Triển lãm diễn ra từ<br />
22 đến 30/6 tại Bảo tàng Mỹ thuật”. Sau khi tách từ và tiến<br />
hành nhận dạng tên riêng tiếng Việt, sẽ ra thành các từ:<br />
Triển_lãm | diễn_ra | từ | 22/NUM | đến | 30/6/NUM | tại |<br />
Bảo_tàng Mỹ_thuật/PER |.<br />
Để giải quyết bài toán tách từ và nhận dạng tên riêng<br />
tiếng Việt, chúng tôi sử dụng công cụ VnTokenizer để phân<br />
đoạn từ tiếng Việt và công cụ CLC_VN_NER để nhận dạng<br />
tên riêng tiếng Việt.<br />
Loại bỏ các hư từ<br />
Sau khi tách văn bản thành danh sách các từ, hệ thống<br />
tiến hành loại bỏ các hư từ (stopword) không có ý nghĩa đặc<br />
trưng (thì, là, nhỉ, vâng, nếu, như…). Để loại bỏ các hư từ,<br />
chúng tôi sử dụng từ điển các hư từ được chúng tôi tổng hợp<br />
lại (gồm 880 từ).<br />
<br />
Hình 2. Thuật toán MWIT-FWUI.<br />
<br />
Thuật toán tìm mẫu hữu ích được đánh trọng phổ biến<br />
Loại<br />
bỏ<br />
các<br />
hư<br />
từ<br />
Loại bỏ các hư từ<br />
Như đã được trình bày ở trên, các công trình trước đây<br />
Sau<br />
khi<br />
tách<br />
văn<br />
bảnthành<br />
thànhdanh<br />
danhsách<br />
sáchcác<br />
cáctừ,<br />
từ,hệhệthống<br />
thốngtiến<br />
tiếnhành<br />
hànhloại<br />
loại bỏ cáchư<br />
hưtừtừ<br />
Sau khi tách quan<br />
văn bản<br />
tâm đến<br />
trọng<br />
số(thì,<br />
của là,<br />
cácnhỉ,<br />
itemvâng,<br />
hoặc nếu,<br />
vừa quan<br />
tâmĐể<br />
đếnloạibỏbỏcác<br />
pword)<br />
không<br />
có<br />
ý<br />
nghĩa<br />
đặc<br />
trưng<br />
như…).<br />
các<br />
hư<br />
từ,<br />
word) không cótrọng<br />
ý nghĩa<br />
đặccác<br />
trưng<br />
(thì,<br />
là,trọng<br />
nhỉ, số<br />
vâng,<br />
nếu,<br />
như…).<br />
Đểcác<br />
loại bỏ các hư từ,<br />
số<br />
của<br />
item,<br />
lẫn<br />
của<br />
mỗi<br />
item<br />
trong<br />
tôisửsửdụng<br />
dụngtừtừđiển<br />
điểncác<br />
cáchư<br />
hư từđược<br />
đượcchúng<br />
chúngtôi<br />
tôitổng<br />
tổnghợp<br />
hợplạilại(gồm<br />
(gồm880<br />
880từ).<br />
từ).<br />
gngtôi<br />
giao<br />
dịch.hữu<br />
Đốitừích<br />
vớiđược<br />
CSDL<br />
đượctrọng<br />
xây dựng<br />
từ các văn<br />
bản,<br />
Thuật<br />
toán<br />
tìm<br />
mẫu<br />
đánh<br />
phổ<br />
biến<br />
Thuật toán tìm<br />
phổtrong<br />
biến các giao dịch.<br />
chỉmẫu<br />
quanhữu<br />
tâm ích<br />
đến được<br />
trọng đánh<br />
số củatrọng<br />
các item<br />
Như<br />
đã<br />
được<br />
trình<br />
bày<br />
ở<br />
trên,<br />
các<br />
công<br />
trình<br />
trước<br />
đâyquan<br />
quantâm<br />
tâmđến<br />
đếntrọng<br />
trọngsốsốcủa<br />
củacác<br />
các<br />
Như đã đượcVì<br />
trình<br />
bày<br />
trên,<br />
các<br />
công<br />
trình<br />
trước<br />
đây<br />
vậy,<br />
cóởtrọng<br />
thể<br />
ápsố<br />
dụng<br />
thuật<br />
toán<br />
MWIT-FWUI<br />
(hình<br />
2) trong<br />
mhoặc<br />
hoặcvừa<br />
vừaquan<br />
quantâm<br />
tâm<br />
đến<br />
của<br />
các<br />
item,<br />
lẫn<br />
trọng<br />
số<br />
của<br />
mỗi<br />
item<br />
các<br />
giao<br />
đếnthác<br />
trọng<br />
sốhữu<br />
củaích<br />
cácđược<br />
item,đánh<br />
lẫn trọng<br />
số<br />
của<br />
mỗi<br />
item trong các giao<br />
để được<br />
khai<br />
mẫu<br />
trọng<br />
phổ<br />
biến.<br />
Trong<br />
h.Đối<br />
Đốivới<br />
vớiCSDL<br />
CSDL<br />
xâydựng<br />
dựngtừ<br />
từcác<br />
cácvăn<br />
vănbản,<br />
bản,chỉ<br />
chỉ<br />
quan<br />
tâm<br />
đếntrọng<br />
trọngsốsốcủa<br />
củacác<br />
cácitem<br />
item<br />
được<br />
xây<br />
quan<br />
tâm<br />
đến<br />
phần<br />
này,<br />
các<br />
tác<br />
giả<br />
đề<br />
xuất<br />
thuật<br />
toán<br />
cho<br />
phép<br />
khai<br />
thác<br />
cácgiao<br />
giaodịch.<br />
dịch.VìVìvậy,<br />
vậy,cócóthể<br />
thểápápdụng<br />
dụngthuật<br />
thuậttoán<br />
toánMWIT-FWUI<br />
MWIT-FWUI(hình<br />
(hình1)1)đểđểkhai<br />
khaithác<br />
thác<br />
gngcác<br />
mẫu<br />
hữu<br />
íchphổ<br />
được<br />
đánh<br />
trọngphần<br />
phổ này,<br />
biến các<br />
từ ma<br />
trận<br />
tần<br />
số thuật toán cho<br />
uhữu<br />
hữuích<br />
íchđược<br />
đượcđánh<br />
đánhtrọng<br />
trọng<br />
biến.<br />
Trong<br />
tác<br />
giả<br />
đề<br />
xuất<br />
phổ biến. Trong phần này, các tác giả đề xuất thuật toán cho<br />
pkhai<br />
khaithác<br />
thácmẫu<br />
mẫuxuất<br />
hữuhiện<br />
íchđược<br />
được<br />
đánh<br />
trọngvăn<br />
phổbản<br />
biến<br />
matrận<br />
trậntần<br />
tầnsốsốxuất<br />
xuấthiện<br />
hiệncủa<br />
củacác<br />
cáctừtừ<br />
của<br />
các<br />
từ trọng<br />
trong<br />
như<br />
trên<br />
hình<br />
3.<br />
hữu<br />
ích<br />
đánh<br />
phổ<br />
biến<br />
từtừma<br />
ng<br />
văn<br />
bản<br />
như<br />
trên<br />
hình<br />
2.<br />
g văn bản như trên Định<br />
hình 2.<br />
nghĩa 1: theo [9] Trọng số hữu ích của giao dịch tk,<br />
Định<br />
nghĩa<br />
1:<br />
Theo<br />
[9] Trọngsốsốhữu<br />
hữu íchcủa<br />
củagiao<br />
giaodịch<br />
dịch t , ký hiệu twu (t ), được tính<br />
Định nghĩa 1:kýTheo<br />
theo công<br />
thức (4).tk,kký hiệu twu (tk),k được tính<br />
hiệu [9]<br />
twuTrọng<br />
(tk), được tínhích<br />
ocông<br />
côngthức<br />
thức(4).<br />
(4).<br />
<br />
∑�� ∈ �(��) �� × ���� <br />
∑<br />
�� ∈ �(�� ) �� × ���� <br />
(4)<br />
)<br />
���(�<br />
=<br />
<br />
�<br />
���(�� ) = <br />
|�<br />
|<br />
�<br />
|�� |<br />
Trongđó,<br />
đó,�����là<br />
làtrọng<br />
trọng<br />
của<br />
itemi isố<br />
giaoidịch<br />
dịch<br />
thứ<br />
j trong<br />
Trong<br />
làitem<br />
trọng<br />
của giao<br />
item<br />
trong<br />
giao<br />
đó,<br />
Trong<br />
sốsốxcủa<br />
trong<br />
thứ<br />
t t.k.dịch thứ t .<br />
��� <br />
<br />
kij<br />
<br />
j<br />
<br />
j<br />
<br />
k<br />
<br />
(4)<br />
(4)<br />
<br />
k<br />
<br />
Địnhnghĩa<br />
nghĩa22[9]:<br />
[9]:<br />
Độhỗ<br />
hỗtrợ<br />
trợ2hữu<br />
hữu<br />
ích<br />
(wus<br />
weighted<br />
utility<br />
support)của<br />
củamột<br />
mộtitemset<br />
itemset<br />
Định<br />
nghĩa<br />
[9]:ích<br />
độ(wus<br />
hỗ trợ<br />
hữu<br />
ích (wus<br />
- support)<br />
weighted<br />
Định<br />
Độ<br />
- -weighted<br />
utility<br />
htheo<br />
theocông<br />
côngthức<br />
thức(5).<br />
(5).<br />
utility support) của một itemset tính theo công thức (5).<br />
∑�� ∈ �(�) ���(�)� )<br />
∑<br />
�� ∈ �(�) ���(��<br />
(<br />
)<br />
���<br />
�<br />
=<br />
<br />
(5)<br />
���(�) = ∑<br />
(5)<br />
(5)<br />
���(�(�)� ) <br />
∑�� �� ∈ �∈ ����<br />
�<br />
Hình 3. Thuật toán Gom nhóm văn bản.<br />
60(8) 8.2018<br />
<br />
3<br />
<br />
5<br />
6<br />
7<br />
8<br />
9<br />
<br />
Khoa học Tự nhiên<br />
<br />
0<br />
0,167<br />
0,286<br />
0<br />
0<br />
<br />
0,5<br />
0<br />
0,286<br />
0,5<br />
0<br />
<br />
�<br />
<br />
Xét cơ sở dữ liệu tần số xuất hiện của các từ như trên<br />
bảng 1.<br />
<br />
Item<br />
<br />
Bảng 1. Cơ sở dữ liệu số lần xuất hiện của các từ.<br />
<br />
A<br />
<br />
0,35<br />
<br />
B<br />
<br />
0,25<br />
<br />
C<br />
<br />
0,11<br />
<br />
D<br />
<br />
0,25<br />
<br />
E<br />
<br />
0,18<br />
<br />
ITEM<br />
B<br />
<br />
C<br />
<br />
D<br />
<br />
E<br />
<br />
IDF<br />
<br />
TID<br />
<br />
dụ minh họa<br />
1<br />
0<br />
0<br />
cơ sở dữ liệu tần<br />
số xuất hiện2 của các<br />
từ như 3trên bảng<br />
1.<br />
2<br />
3<br />
<br />
0<br />
0,5<br />
0<br />
0<br />
0,333<br />
<br />
0,5<br />
0<br />
0<br />
0<br />
0,222<br />
<br />
Sử dụng công thức (2) để tính trọng số của các từ trong văn bản. Mỗi từ chỉ có 1 giá<br />
trị IDF duy nhất trong tập văn bản, được xem như là trọng số của mỗi từ trong tập văn bản<br />
�<br />
Ta có: IDF (A, D) =Bảng<br />
log 3.; Trọng<br />
tươngsốtựcủa<br />
thucác<br />
được<br />
kết quả như ở bảng 3.<br />
Item.<br />
<br />
Ví dụ minh họa<br />
<br />
A<br />
h 2. Thuật toán Gom nhóm văn bản.<br />
<br />
0<br />
0,333<br />
0,429<br />
0,5<br />
0,444<br />
<br />
Bảng 3. Trọng số của các Item.<br />
Item<br />
IDF<br />
A<br />
0,35<br />
B<br />
0,25<br />
C<br />
0,11<br />
D<br />
0,25<br />
E<br />
0,18<br />
<br />
Tính trọng số hữu ích giao dịch (twu) của mỗi văn bản:<br />
từ<br />
dữ<br />
ở bảng<br />
2 và<br />
bảng<br />
3, mỗi<br />
tính văn<br />
đượcbản:<br />
trọng<br />
Tính<br />
trọng số hữu liệu<br />
ích giao<br />
dịch<br />
(twu)<br />
của<br />
Từsố<br />
dữhữu<br />
liệuích<br />
ở bảng 2 và bảng<br />
0<br />
2<br />
0<br />
1<br />
3<br />
giao<br />
dịch<br />
(twu)<br />
của<br />
mỗi<br />
văn<br />
bản<br />
theo<br />
công<br />
thức<br />
(4):<br />
Bảng 1. Cơ sở dữ liệu số lần xuất hiện của 3,<br />
cáctính<br />
từ. được trọng số<br />
hữu ích giao dịch (twu) của mỗi văn bản theo công thức (4):<br />
TID<br />
<br />
4<br />
<br />
ITEM0<br />
<br />
3<br />
<br />
4<br />
<br />
A<br />
<br />
0B<br />
<br />
2<br />
<br />
C<br />
<br />
5<br />
<br />
D1<br />
<br />
0 2<br />
1<br />
03<br />
3<br />
00<br />
2<br />
20<br />
0<br />
12<br />
1 0<br />
3<br />
0<br />
4<br />
2<br />
2<br />
7<br />
2<br />
2<br />
3<br />
4<br />
3<br />
0<br />
1<br />
2<br />
8<br />
0 0<br />
5<br />
32<br />
0<br />
02<br />
6<br />
00<br />
2<br />
34<br />
9<br />
0 1<br />
7<br />
2<br />
2<br />
3<br />
0<br />
8 tập văn bản<br />
0<br />
2 = 2{d , 0d ,<br />
Ta có:<br />
D<br />
1<br />
2<br />
9 từ I = {A,<br />
0 B,<br />
0 C,4D, E},<br />
3<br />
và tập các<br />
6<br />
<br />
E<br />
<br />
4<br />
<br />
2<br />
<br />
1<br />
<br />
2<br />
<br />
2<br />
<br />
0<br />
3<br />
4<br />
Tương<br />
tự,<br />
3<br />
3<br />
0<br />
1<br />
0<br />
0<br />
2<br />
0<br />
0<br />
3<br />
0<br />
3<br />
2<br />
0<br />
d03, d4, d5, d6, d7, d8, d9},<br />
2 d = {2, 0, 3, 0, 4},<br />
với<br />
1<br />
<br />
���(�� ) = <br />
<br />
���<br />
<br />
���<br />
<br />
���<br />
<br />
�<br />
<br />
Tương<br />
tự, tanhư<br />
được<br />
quả 4như trên bảng 4.<br />
ta được<br />
kết quả<br />
trênkếtbảng<br />
<br />
= 0,064<br />
<br />
số hữu<br />
giao<br />
văn bản.<br />
Bảng 4.Bảng<br />
Trọng4.sốTrọng<br />
hữu ích<br />
giaoích<br />
dịch<br />
củadịch<br />
mỗicủa<br />
vănmỗi<br />
bản.<br />
Tids<br />
<br />
twu<br />
<br />
Tids<br />
<br />
twu<br />
<br />
1<br />
<br />
0,064<br />
<br />
1<br />
<br />
0,064<br />
<br />
2<br />
<br />
0,072<br />
<br />
2<br />
<br />
0,072<br />
<br />
3<br />
<br />
0,0535<br />
<br />
3<br />
<br />
0,0535<br />
<br />
4<br />
<br />
0,063<br />
<br />
5<br />
<br />
0,108<br />
<br />
6<br />
<br />
0,074<br />
<br />
0,0915 7<br />
<br />
0,073<br />
<br />
0,058<br />
<br />
8<br />
<br />
0,0915<br />
<br />
0,657<br />
<br />
9<br />
<br />
0,058<br />
<br />
nghĩa<br />
văn bản d có 2 từ A, 3 từ C, 4 từ E, không<br />
4 C, D,<br />
có: Tập văn bản<br />
D =là{dtrong<br />
1, d2, d3, d4, d5,1 d6, d7, d8, d9}, và tập các từ I = {A, B,<br />
có<br />
từ<br />
B,<br />
D.<br />
5 có từ<br />
= {2, 0, 3, 0, 4}, nghĩa là trong văn bản d1 có 2 từ A, 3 từ C, 4 từ E, không<br />
6<br />
Khai thác mẫu hữu ích được đánh trọng phổ biến:<br />
7<br />
ai thác mẫu hữu ích<br />
phổđểbiến:<br />
Sửđược<br />
dụng đánh<br />
công trọng<br />
thức (1)<br />
tính tần số xuất hiện TF của<br />
8 item<br />
dụng công thức<br />
tínhvăn<br />
tầnbản.<br />
số xuất<br />
hiệnA TF<br />
các<br />
từ trong<br />
bản. Vì<br />
các(1)<br />
từ để<br />
trong<br />
Vì item<br />
xuấtcủa<br />
hiện<br />
ở văn<br />
bản 1,văn<br />
4, 6,<br />
�<br />
9<br />
n ở văn bản 1,7,4,nên<br />
6, 7,TF(A)<br />
nên TF(A)<br />
được được<br />
tính tính<br />
như như<br />
sau:sau:<br />
TF TF<br />
(A,(A,d1)d1)== ; TF (A, d4)<br />
�<br />
<br />
�,����,����,����,����,����,��<br />
<br />
SUM<br />
<br />
0,063<br />
0,108<br />
0,074<br />
0,073<br />
<br />
(A, ddd6666)))== <br />
= ;;; TF<br />
TF(A,<br />
(A,ddd777)7)))== <br />
= ...Tương<br />
Tươngtự<br />
tựcho<br />
chocác<br />
các item<br />
itemcòn<br />
còn lại,<br />
lại, thu<br />
thu được<br />
được kết<br />
kết quả<br />
quả như<br />
như ởởở<br />
TF<br />
(A,<br />
= <br />
TF<br />
(A,<br />
= <br />
Tương<br />
tự<br />
tự<br />
cho<br />
cho<br />
các<br />
item<br />
lại,<br />
thu<br />
được<br />
kết<br />
quả<br />
như<br />
= <br />
TF (A, d4) = <br />
== ���;;; TF<br />
TF (A,<br />
5còn<br />
���<br />
���<br />
Tính độ hỗ trợSUM<br />
hữu ích 0,657<br />
(wus): từ dữ liệu ở bảng 2 và 4,<br />
bảng<br />
2.thu được kết quả như ở bảng 2.<br />
bảng<br />
bảng<br />
2.<br />
các item còn<br />
lại,2.<br />
ta tính độ hỗ trợ hữu ích theo công thức (5), trong đó lấy<br />
Bảng2.<br />
2.Tần<br />
Tầnsố<br />
sốxuất<br />
xuấthiện<br />
hiệncủa<br />
củacác<br />
cáctừ<br />
từđộ<br />
trong<br />
văn<br />
bản. ích (wus): Từ dữ liệu ở bảng 2 và 4, ta tính độ hỗ trợ hữu ích theo<br />
Tính<br />
hỗvăn<br />
trợbản.<br />
hữu<br />
Bảng<br />
Bảng<br />
2.<br />
Tần<br />
số<br />
xuất<br />
hiện<br />
của<br />
các<br />
từ<br />
trong<br />
trong<br />
văn<br />
bản.<br />
min_wus = 0,2. Item A xuất hiện ở văn bản 1, 4, 6, 7 nên:<br />
ITEM công thức (5), trong đó lấy min_wus = 0,2. Item A xuất hiện ở văn bản 1, 4, 6, 7 nên:<br />
ITEM<br />
ITEM<br />
Bảng 2. Tần số xuất hiện củaTID<br />
các từ trong<br />
văn bản. B<br />
6<br />
TID<br />
TID<br />
A<br />
AA<br />
B<br />
B<br />
C<br />
CC<br />
D<br />
DD<br />
EEE<br />
�,�����,�����,�����,���<br />
wus (A) =<br />
= 0,42<br />
ITEM<br />
<br />
�<br />
<br />
= ; TF<br />
�<br />
2.<br />
<br />
TID<br />
bảng<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
7<br />
8<br />
9<br />
<br />
0,222<br />
0,333<br />
0,444 �,���<br />
111<br />
0,222<br />
0,222<br />
000<br />
0,333<br />
0,333<br />
000<br />
0,444<br />
0,444<br />
2<br />
0,333<br />
0<br />
0,167<br />
0,5 (C) = 0,73, wus (D) = 0,49, wus (E) = 0,64.<br />
� 000<br />
2<br />
2<br />
0,333<br />
0,333<br />
0<br />
0<br />
0,167<br />
0,167<br />
0,5<br />
0,5<br />
tự,<br />
wus (B)thu= được<br />
0,61, wus<br />
DTương<br />
E ta đượccòn<br />
(A, dA6) = ; TFB (A,<br />
d ) C= . 00Tương<br />
tự cho<br />
quảwus<br />
như(B)<br />
ở = 0,61, wus (C) = 0,73, wus<br />
Tương<br />
được<br />
0<br />
0,444các item<br />
0,222 lại,<br />
0,222tự, ta kết<br />
0,111<br />
333 7<br />
0,444<br />
0,444<br />
0,222<br />
0,222<br />
0,222<br />
0,222<br />
0,111<br />
0,111<br />
�<br />
�Tất<br />
cả các giá<br />
trị này đều<br />
thỏa min_wus<br />
= 0,2,<br />
do đó tất cả các item đơn này sẽ được thêm<br />
0,375<br />
0,125(D) = 0,49,<br />
0,25 wus (E)<br />
0,25= 0,64. Tất cả các giá trị này đều thỏa<br />
444<br />
0,375<br />
0,375<br />
000<br />
0,125<br />
0,125<br />
0,25<br />
0,25<br />
0,25<br />
0,25<br />
vào<br />
phổ<br />
biến:000 = min_wus<br />
{A, B,000C,=D,<br />
E}.do<br />
0 cây<br />
0,5<br />
0,5<br />
55<br />
0,5<br />
0,5<br />
0,5<br />
0,5<br />
0,222<br />
0 5số<br />
0 mẫu<br />
0,444<br />
0,2,<br />
đó tất cả các item đơn này sẽ được thêm<br />
Bảng 2. Tần<br />
xuất0,333<br />
hiện00của<br />
các<br />
từ trong<br />
văn bản.<br />
0,167<br />
0<br />
0,333<br />
0,5<br />
0<br />
666<br />
0,167<br />
0,167<br />
0<br />
0<br />
0,333<br />
0,333<br />
0,5<br />
0,5<br />
0<br />
0<br />
Xét<br />
lớp<br />
tương<br />
đương<br />
A,<br />
A<br />
kết<br />
hợp<br />
với<br />
B, ta<br />
ITEM<br />
0<br />
0,333<br />
0<br />
0,167<br />
0,5<br />
vào<br />
cây<br />
mẫu<br />
phổ<br />
biến:<br />
φ =được<br />
{A, một<br />
B, C,itemset<br />
D, E}. mới AB với wus (AB)<br />
0,286<br />
0,286<br />
0,429<br />
777 A<br />
0,286<br />
0,286<br />
0,286<br />
0,286<br />
0,429<br />
0,429<br />
000 E<br />
000<br />
TID<br />
B<br />
C<br />
D<br />
=<br />
0,12<br />
<<br />
min_wus,<br />
vì<br />
vậy<br />
AB<br />
không<br />
được<br />
thêm<br />
vào<br />
A.<br />
Tương<br />
tự, wus (AC) = 0,42 ≥<br />
8<br />
0<br />
0,5<br />
0,5<br />
0<br />
0<br />
0<br />
0,444<br />
0,222 00<br />
0,222 0,5<br />
88<br />
0,5 0,111<br />
0,5<br />
0,5<br />
00<br />
00<br />
Xét<br />
lớp<br />
tương<br />
đương A, A kết hợp với B, ta được một<br />
9 0,222<br />
00<br />
0 0,333<br />
0,444<br />
0,333<br />
0,222wus (AD) = 0,21 ≥ min_wus, thêm AD vào<br />
min_wus,<br />
thêm<br />
AC<br />
vào<br />
A,<br />
ta<br />
được<br />
A<br />
=<br />
{AC};<br />
9<br />
9<br />
0<br />
0<br />
0<br />
0<br />
0,444<br />
0,444<br />
0,333<br />
0,333<br />
0,222<br />
0,222<br />
1<br />
0<br />
0,444<br />
0,375<br />
0<br />
0,125<br />
0,25<br />
0,25<br />
itemset<br />
mới<br />
wus (AB)vì= vậy<br />
0,12AE<br />
< min_wus,<br />
vì thêm<br />
vậy vào A.<br />
2<br />
0<br />
0,333<br />
0 {AC, AD};<br />
0,167<br />
0,5 =AB<br />
A, ta<br />
được A =<br />
wus (AE)<br />
0,19với<br />
< min_wus,<br />
không được<br />
0 3<br />
0,5 0<br />
0<br />
0<br />
0,5<br />
AB không<br />
được thêm vào A. Tương tự, wus (AC) = 0,42 ≥<br />
0,444<br />
0,222<br />
0,222<br />
0,111<br />
Sửdụng<br />
dụngcông<br />
công<br />
thức(2)<br />
(2)để<br />
đểSau<br />
tínhkhi<br />
trọng<br />
sốhiện<br />
của0,25<br />
các<br />
từtrong<br />
trong<br />
vănsẽ<br />
bản.<br />
Mỗi<br />
từchỉ<br />
chỉcó<br />
có<br />
giá để tiếp tục tạo ra các lớp<br />
Sử<br />
dụng<br />
công<br />
thức<br />
(2)<br />
để<br />
tính<br />
tính<br />
trọng<br />
trọng<br />
số<br />
số<br />
của<br />
của<br />
các<br />
các<br />
từ<br />
từ<br />
trong<br />
văn<br />
văn<br />
bản.<br />
bản.<br />
Mỗi<br />
từ<br />
từ<br />
chỉ<br />
có<br />
giá<br />
thực<br />
xong<br />
ở<br />
lớp<br />
A,<br />
gọiMỗi<br />
thuật<br />
toán<br />
đệ111Agiá<br />
quy<br />
4Sử<br />
0,375thức<br />
0,125<br />
0,25<br />
min_wus,<br />
thêm<br />
AC<br />
vào<br />
A,<br />
ta<br />
được<br />
= {AC}; wus (AD) =<br />
0,167<br />
0<br />
0,333 0 0,5<br />
0<br />
trị<br />
IDF<br />
duy<br />
nhất<br />
trong<br />
tập<br />
văn<br />
bản,<br />
được<br />
xem<br />
như<br />
là<br />
trọng<br />
số<br />
của<br />
mỗi<br />
từ<br />
trong<br />
tập<br />
văn<br />
bản.<br />
trị<br />
trị IDF<br />
IDF5duy<br />
duy nhất<br />
nhất trong<br />
trong<br />
tập<br />
tậptương<br />
văn<br />
văn<br />
bản,<br />
được<br />
được<br />
xem<br />
xem<br />
như<br />
là0,21<br />
trọng<br />
trọng≥tương<br />
số<br />
số<br />
của<br />
củatựmỗi<br />
mỗi<br />
từ<br />
từcác<br />
trong<br />
trong<br />
tập<br />
văn<br />
bản.<br />
bản.<br />
đương<br />
nó.như<br />
Thực<br />
hiện<br />
vớithêm<br />
lớptập<br />
B, văn<br />
C,<br />
D,<br />
E,<br />
cuốiA cùng<br />
ta có<br />
được mẫu<br />
0<br />
0,5bản,<br />
0sau<br />
0là<br />
0,5<br />
min_wus,<br />
AD<br />
vào<br />
A,<br />
ta<br />
được<br />
= {AC,<br />
AD};<br />
0,286<br />
0,286<br />
0,429<br />
0<br />
0<br />
�<br />
6IDF (A, D)0,167<br />
0 ích được<br />
0,5<br />
0<br />
đánh<br />
trọng<br />
phổ<br />
biến<br />
thỏa<br />
mãn<br />
min_wus<br />
=<br />
0,2<br />
là<br />
{A,<br />
B,<br />
C,<br />
D,<br />
E,<br />
AC,<br />
AD, BC,<br />
Tacó:<br />
có:IDF<br />
=log<br />
log��hữu<br />
;tương<br />
tương<br />
tựthu<br />
thu0,333<br />
đượckết<br />
kếtquả<br />
quả<br />
như<br />
ở<br />
bảng<br />
3.<br />
Ta<br />
Ta<br />
có:<br />
IDF<br />
(A,<br />
(A,<br />
D)<br />
D)<br />
=<br />
=<br />
log<br />
;<br />
;<br />
tương<br />
tự<br />
tự<br />
thu<br />
được<br />
được<br />
kết<br />
quả<br />
như<br />
như<br />
ở<br />
ở<br />
bảng<br />
bảng<br />
3.<br />
3.<br />
0,429<br />
0 wus (AE)<br />
0 = 0,19 < min_wus, vì vậy AE không được thêm<br />
0 7<br />
0,5 0,286 0,5��� 0,286<br />
0<br />
0<br />
BE,<br />
CD,<br />
CE,<br />
DE,<br />
ACD,<br />
CDE}<br />
trên<br />
hình<br />
3.<br />
vào<br />
A.Item.<br />
8<br />
0<br />
0,5<br />
0,5<br />
0<br />
Bảng<br />
3.Trọng<br />
Trọngsố<br />
số0của<br />
của<br />
các<br />
Item.<br />
Bảng<br />
3.<br />
3.<br />
Trọng<br />
số<br />
của<br />
các<br />
các<br />
Item.<br />
0<br />
0<br />
0,444<br />
0,333Bảng<br />
0,222<br />
9<br />
0<br />
0<br />
0,444<br />
0,222<br />
Item<br />
IDF0,333<br />
�<br />
<br />
Item<br />
Item<br />
IDF<br />
IDF<br />
Sau khi thực hiện xong ở lớp A, sẽ gọi thuật toán đệ quy<br />
Sử dụng công thức (2) để tính trọng số của A<br />
các<br />
từ<br />
trong<br />
A<br />
0,35 để tiếp tục tạo ra các lớp tương đương sau nó. Thực hiện<br />
A<br />
0,35<br />
0,35<br />
dụng<br />
công<br />
để tính trọng<br />
từ<br />
trongtương<br />
văn bản.<br />
Mỗi<br />
chỉB,<br />
cóC,1 D,<br />
giáE, cuối cùng ta có được mẫu<br />
văn bản.Sử<br />
Mỗi<br />
từ chỉ<br />
cóthức<br />
1 giá(2)<br />
trị IDF duy<br />
nhấtsốtrong<br />
tập văn<br />
B các<br />
0,25<br />
B<br />
Bcủa<br />
0,25<br />
0,25<br />
tự với<br />
cáctừlớp<br />
trị IDF<br />
nhất<br />
tập số<br />
văncủa<br />
bản,<br />
được<br />
xem Ctập<br />
như<br />
là<br />
trọng<br />
số<br />
của<br />
mỗi<br />
từ<br />
trong<br />
tập<br />
văn<br />
bản.<br />
bản,<br />
đượcduy<br />
xem<br />
nhưtrong<br />
là trọng<br />
mỗi<br />
từ trong<br />
văn<br />
bản.<br />
0,11 hữu ích được đánh trọng phổ biến thỏa mãn min_wus = 0,2<br />
CC<br />
0,11<br />
0,11<br />
�<br />
TaTacó:<br />
tương tự<br />
tự thu<br />
thuđược<br />
đượckết<br />
kết<br />
quảnhư<br />
như<br />
quả<br />
ở bảng<br />
3. B, C, D, E, AC, AD, BC, BE, CD, CE, DE, ACD,<br />
có:IDF<br />
IDF(A,<br />
(A,D)<br />
D)==log<br />
log ; tương<br />
D<br />
0,25<br />
là {A,<br />
D<br />
D<br />
0,25<br />
0,25<br />
�<br />
ở bảng 3.<br />
0,18<br />
CDE} trên hình 4.<br />
Bảng 3. Trọng<br />
Item.<br />
EEE số của các<br />
0,18<br />
0,18<br />
Item<br />
<br />
IDF<br />
<br />
Agiao<br />
0,35<br />
Tínhtrọng<br />
trọngsố<br />
sốhữu<br />
hữuích<br />
ích<br />
giaodịch<br />
dịch<br />
(twu)<br />
của<br />
mỗimẫu<br />
vănhữu<br />
bản:ích<br />
Từđược<br />
dữliệu<br />
liệu<br />
bảngphổ<br />
và<br />
bảng<br />
Tính<br />
Tính<br />
trọng<br />
số<br />
hữu<br />
ích<br />
giao<br />
dịch<br />
(twu)<br />
(twu)<br />
của<br />
của<br />
mỗi<br />
mỗi<br />
văn<br />
văn<br />
bản:<br />
bản:<br />
Từ<br />
Từ<br />
dữ<br />
dữ<br />
liệu<br />
bảng<br />
bảng<br />
222và<br />
và<br />
bảng<br />
bảng<br />
Hình<br />
3. Cây<br />
đánhởởởtrọng<br />
biến<br />
với min_wus = 0,2.<br />
B<br />
0,25<br />
3,<br />
tính<br />
được<br />
trọng<br />
số<br />
hữu<br />
ích<br />
giao<br />
dịch<br />
(twu)<br />
của<br />
mỗi<br />
văn<br />
bản<br />
theo<br />
công<br />
thức<br />
(4):<br />
3,<br />
3, tính<br />
tính được<br />
được trọng<br />
trọng số<br />
số hữu<br />
hữu ích<br />
ích giao<br />
giao dịch<br />
dịch (twu)<br />
(twu) của<br />
của mỗi<br />
mỗi văn<br />
văn bản<br />
bản theo<br />
theo công<br />
công thức<br />
thức (4):<br />
(4):<br />
Gom<br />
nhóm<br />
văn<br />
bản:<br />
�,����,����,����,����,����,��<br />
C<br />
0,11<br />
�,����,����,����,����,����,��<br />
�,����,����,����,����,����,��<br />
60(8) 8.2018<br />
4<br />
=Xây<br />
= 0,064<br />
���(((������)))=<br />
=<br />
dựng ma trận<br />
= 0,064<br />
= 0,064<br />
���<br />
���<br />
tương đương:<br />
Từ dữ liệu ở bảng 2 và hình 3, ta xây dựng được<br />
���<br />
D<br />
0,25<br />
maEtrận tương<br />
đương<br />
với<br />
a[i][j]<br />
=<br />
số<br />
mẫu<br />
phổ<br />
biến giống nhau giữa hai văn bản (bảng 5).<br />
Tươngtự,<br />
tự,ta<br />
tađược<br />
đượckết<br />
kếtquả<br />
quảnhư<br />
như0,18<br />
trênbảng<br />
bảng444<br />
Tương<br />
Tương<br />
tự,<br />
ta<br />
được<br />
kết<br />
quả<br />
như<br />
trên<br />
trên<br />
bảng<br />
<br />
Bảng 5. Ma trận tương đương.<br />
<br />
Khoa học Tự nhiên<br />
<br />
Bước 4: tìm giá trị max trong A và các cặp văn bản có<br />
cùng giá trị với max. Ta thấy max = 5; các cặp văn bản (1,<br />
4); (2, 3) có cùng giá trị với max; (1, 4); (2, 3) có văn bản 3,<br />
4 thuộc nhóm (3, 4, 6, 9), do đó ta gom 1, 2 vào nhóm này.<br />
Thu được (1, 2, 3, 4, 6, 9) là 1 nhóm và gán giá trị cho các<br />
cặp văn bản vừa tìm được bằng 0; còn lại văn bản (5, 7, 8)<br />
chưa được gom nhóm (bảng 7).<br />
Hình 4. Cây mẫu hữu ích được đánh trọng phổ biến với min_wus<br />
= 0,2.<br />
<br />
Bảng 7. Ma trận tương đương với các văn bản (1, 2, 3, 4, 6, 9)<br />
đã được gom nhóm.<br />
1<br />
<br />
Gom nhóm văn bản:<br />
<br />
1<br />
<br />
- Xây dựng ma trận tương đương: từ dữ liệu ở bảng<br />
2 và hình 4, ta xây dựng được ma trận tương đương với<br />
a[i][j] = số mẫu phổ biến giống nhau giữa hai văn bản (bảng 5).<br />
<br />
1<br />
<br />
2<br />
1<br />
<br />
2<br />
<br />
3<br />
<br />
4<br />
<br />
5<br />
<br />
6<br />
<br />
7<br />
<br />
8<br />
<br />
9<br />
<br />
6<br />
<br />
1<br />
<br />
3<br />
<br />
3<br />
<br />
1<br />
<br />
3<br />
<br />
5<br />
<br />
3<br />
<br />
3<br />
<br />
1<br />
<br />
1<br />
<br />
1<br />
<br />
3<br />
<br />
8<br />
<br />
3<br />
<br />
3<br />
<br />
3<br />
<br />
3<br />
<br />
7<br />
<br />
1<br />
<br />
7<br />
<br />
3<br />
<br />
1<br />
<br />
7<br />
<br />
0<br />
<br />
1<br />
<br />
1<br />
<br />
1<br />
<br />
3<br />
<br />
1<br />
<br />
3<br />
<br />
3<br />
<br />
1<br />
<br />
5<br />
6<br />
7<br />
8<br />
<br />
1<br />
<br />
- Thực hiện gom nhóm (5 bước):<br />
Bước 1: tìm giá trị nhỏ nhất khác 0 trong ma trận tương<br />
đương A: min = 1.<br />
Bước 2: tìm giá trị lớn nhất trong A: max = 7.<br />
Bước 3: tìm các cặp văn bản có giá trị bằng max. Ta thấy<br />
(3, 4); (3, 9); (4, 6); (4, 9) có giá trị bằng 7; gom (3, 4, 6, 9)<br />
là 1 nhóm và gán giá trị cho các cặp văn bản vừa tìm được<br />
bằng 0; còn lại các văn bản (1, 2, 5, 7, 8) chưa được gom<br />
nhóm (bảng 6).<br />
Bảng 6. Ma trận tương đương với các văn bản (3, 4, 6, 9) đã<br />
được gom nhóm.<br />
1<br />
1<br />
2<br />
3<br />
4<br />
5<br />
<br />
7<br />
<br />
8<br />
<br />
9<br />
<br />
1<br />
<br />
3<br />
<br />
0<br />
<br />
1<br />
<br />
3<br />
<br />
3<br />
<br />
1<br />
<br />
3<br />
<br />
0<br />
<br />
3<br />
<br />
3<br />
<br />
1<br />
<br />
1<br />
<br />
1<br />
<br />
3<br />
<br />
0<br />
<br />
3<br />
<br />
3<br />
<br />
3<br />
<br />
3<br />
<br />
0<br />
<br />
1<br />
<br />
0<br />
<br />
3<br />
<br />
1<br />
<br />
0<br />
<br />
0<br />
<br />
1<br />
<br />
1<br />
<br />
1<br />
<br />
3<br />
<br />
1<br />
<br />
3<br />
<br />
3<br />
<br />
1<br />
<br />
Xét tiếp (2, 5) có văn bản 2 thuộc nhóm (1, 2, 3, 4, 6, 9),<br />
do đó ta gom 5 vào nhóm đã có này và gán giá trị (2, 5) bằng<br />
0, được (1, 2, 3, 4, 5, 6, 9) là 1 nhóm; (7, 8) là 1 nhóm, gán<br />
giá trị cho các cặp văn bản vừa tìm được bằng 0.<br />
Như vậy, tất cả văn bản đã được gom nhóm; kết thúc<br />
việc gom nhóm.<br />
Từ 9 văn bản đã cho ban đầu ta gom được thành 2 nhóm:<br />
nhóm 1 gồm các văn bản (1, 2, 3, 4, 5, 6, 9) và nhóm 2 gồm<br />
các văn bản (7, 8) như trên bảng 8.<br />
Bảng 8. Ma trận tương đương với tất các văn bản đã được gom<br />
nhóm.<br />
1<br />
<br />
3<br />
<br />
4<br />
<br />
5<br />
<br />
6<br />
<br />
7<br />
<br />
8<br />
<br />
9<br />
<br />
1<br />
<br />
3<br />
<br />
5<br />
<br />
1<br />
<br />
3<br />
<br />
3<br />
<br />
1<br />
<br />
3<br />
<br />
5<br />
<br />
3<br />
<br />
3<br />
<br />
1<br />
<br />
1<br />
<br />
1<br />
<br />
3<br />
<br />
3<br />
<br />
3<br />
<br />
3<br />
<br />
3<br />
<br />
0<br />
<br />
1<br />
<br />
0<br />
<br />
3<br />
<br />
1<br />
<br />
0<br />
<br />
0<br />
<br />
1<br />
<br />
1<br />
<br />
1<br />
<br />
5<br />
<br />
3<br />
<br />
1<br />
<br />
3<br />
<br />
6<br />
<br />
1<br />
<br />
7<br />
<br />
1<br />
<br />
8<br />
<br />
6<br />
7<br />
<br />
3<br />
<br />
8<br />
<br />
60(8) 8.2018<br />
<br />
1<br />
<br />
Bước 5: tiếp tục tìm giá trị max trong A và các cặp văn<br />
bản có cùng giá trị với max. Ta thấy max = 3, các cặp văn<br />
bản (1, 3); (1, 6); (1, 7); (1, 9); (2, 4); (2, 5); (2, 9); (3, 5); (3,<br />
6); (3,7); (3, 8); (4, 7); (6, 7); (6, 9); (7, 8) có cùng giá trị với<br />
max. Trong các cặp văn bản trên, có cặp văn bản (7, 8) chưa<br />
thuộc nhóm văn bản đã được gom cụm, do đó ta gom (7, 8)<br />
thành 1 nhóm và gán giá trị cho (7, 8) bằng 0.<br />
<br />
2<br />
<br />
0<br />
<br />
6<br />
<br />
5<br />
<br />
5<br />
7<br />
<br />
5<br />
<br />
4<br />
<br />
3<br />
<br />
3<br />
<br />
4<br />
<br />
2<br />
<br />
7<br />
<br />
4<br />
<br />
3<br />
<br />
3<br />
<br />
Bảng 5. Ma trận tương đương.<br />
1<br />
<br />
2<br />
<br />
1<br />
2<br />
3<br />
4<br />
<br />
5<br />
<br />
2<br />
<br />
3<br />
<br />
4<br />
<br />
5<br />
<br />
6<br />
<br />
7<br />
<br />
8<br />
<br />
9<br />
<br />
1<br />
<br />
0<br />
<br />
0<br />
<br />
1<br />
<br />
0<br />
<br />
0<br />
<br />
1<br />
<br />
0<br />
<br />
0<br />
<br />
0<br />
<br />
0<br />
<br />
1<br />
<br />
1<br />
<br />
1<br />
<br />
0<br />
<br />
0<br />
<br />
0<br />
<br />
0<br />
<br />
0<br />
<br />
0<br />
<br />
0<br />
<br />
1<br />
<br />
0<br />
<br />
0<br />
<br />
1<br />
<br />
0<br />
<br />
0<br />
<br />
1<br />
<br />
1<br />
<br />
1<br />
<br />
0<br />
<br />
1<br />
<br />
0<br />
<br />
0<br />
<br />
1<br />
1<br />
<br />
ADSENSE
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn