B GIÁO DC VÀ ĐÀO TẠO TẬP ĐOÀN BƯU CHÍNH VIỄN THÔNG VIT NAM
HC VIN CÔNG NGH BƯU CHÍNH VIỄN THÔNG
-------------------------------------
TÓM TT LUẬN VĂN THẠC S K THUT
TIP CN KHAI PHÁ D LIU VĂN BẢN TH NGHIM
NG DỤNG PHƯƠNG PHÁP Naive Bayse TRONG BÓC LT
THƯ GIÁC TỰ ĐỘNG
NGÀNH: TRUYN D LIU VÀ MNG MÁY TÍNH
MÃ S: 60.48.15
Tên hc viên: Nguyn Th Thanh Tâm
Người hướng dn khoa hc: Đại tá, PGS.TS Nguyn Bá Tường
HÀ NI - 2010
M ĐẦU
Ngày nay s phát trin không ngng ca công ngh thông tin, đặc bit là s ra
đời của Internet đã đưa con người lên mt tm cao mi. S việc đó dẫn đến bùng
n tng tin m cho nhng nhà qun rơi vào tình trng ngp lt thông tin"
trong đó một lượng thông tin, tri thc ích b che du. Khai phá d liu trong đó
lĩnh vực khai pd liệu văn bn là mt lĩnh vực khoa hc liên ngành mi
xut hin gần đây nhằm đáp ng nhu cu này. Nhiu k thut khai pd liu n
bản đã được nghiên cu và phát trin như Naïve Bayes, Cây quyết định, phương
pháp Support vector machine,…trong đó, phương pháp Naïve Bayes thu hút nhiều
quan tam nghiên cu ng dng.
S ra đời ca các dch v trên Internet m cho nhu cu trao đổi thông tin, tìm
kiếm tng tin của con người được đáp ng mt cách tt nht và nhanh nht.
Tốc độ phát trin ca các dch v thư điện t ngày nay và nhng li ích mà nó
mang li cho chúng ta là rt ln. Tuy nhiên nó cũng có thể y ra nhng thit hi to
ln nếu không biết cách loi b phòng chng nó. Mt trong nhng vn đề
nghiêm trng cn gii quyết hiện nay trong các thư điện t đó nạn thư rác hay
còn gi spam”. Với do đó, dưới s hướng dn ca thầy giáo hướng dn, Đại
tá, PGS.TS Nguyn Tường, i nhận đ i Tiếp cn khai pd liệu n
bn th nghim ng dng phương pháp Naive Bayse trong b lọc thư rác tự
động”.
CHƯƠNG 1
TNG QUAN V KHAI PHÁ D LIU VĂN BN
1.1. Phát hin tri thc trong s d liu và khai phá d liu
Khai pd liu (Data Mining) qtrình pt hin nhng tri thc hu ích
n chứa trong s d liu hay các kho cha tng tin khác. Khai p d liu là
một bước trong quy trình phát hin tri thc trong CSDL (Knowledge Discovery in
Dabases - KDD). Theo nhiu i liu khác nhau ttiến trình KDD nói chung đều
bao gm 5 bước cơ bản sau đây:
Trích lc d liu
Tin x lý d liu
Biến đổi d liu
Khai phá d liu
Đánh giá và biểu din tri thc
1.2. Khai phá d liu văn bản
- Khai pd liu n bản vic trích ra, ly ra các thông tin ích, chưa
đưc biết đếnn tim n trong các kho d liệu văn bản ln.
- Khai phá d liệu văn bản là vic thu thp và phân tích d liu bng các ng
c t động hoc bán t động t c ngun tài liệu đã có khác nhau để được các
tri thc mới, chưa được biết đến trước đó.
1.3. Các bài toán trong lĩnh vực khai p d liun bản
1.3.1. Phát hin xu hướng văn bn
Đây i toán phát hiện các xu hướng, c luật chưa được biết đến trong c
CSDL text ln.
1.3.2. Tìm kiếm văn bản
Tìm kiếm văn bản qtrình tìm các văn bản trong mt kho d liu theo các
yêu cu của người dùng. đây, các yêu cu c truy vn thường được biu
diễn dưới dng thut ng hay biu thc logic gia các thut ng.
1.3.3. Phân loi n bản
Phân loại văn bản tức là gán n bản vào mt hoc mt s nhóm n bản đã
được biết trước. Phân loi n bản có hai dng phân loi nh phân phân loi
theo cấp đ.
1.3.4. Lập nhóm văn bản
Lập nhóm n bản i toán t động lập ra các nhóm văn bản t mt tp các
văn bản sao cho các n bản trong cùng mt nhóm thì tương tự vi nhau nhiều n
so vi các n bản các nhóm khác nhau. Người s dng th ch định s nhóm
cn lp hoc h thng t động tính s nhóm sao cho phù hp nht.
1.3.5. Tóm tắt văn bn
Tóm tắt văn bản i toán tìm ra th hin ni dung ca một văn bản thông
qua một vài đoạn văn bản, hoc thông qua cácu quan trng nht của văn bản đó.
1.3.6. Dẫn đường văn bản
Bài toán dn đường văn bản s t hp gia i toán m kiếm văn bản
phân loại văn bản. Ging như phân loại văn bản, i toán dn đường đưa c n
bn v các nhóm khác nhau. Tuy nhiên cũng giống i toán tìm kiếm, mi
nhóm văn bản được gán vi các thông tin cn thiết ca mt hay nhiu nhóm người
dùng.
1.3.7. Trích chn t khóa
Bài toán trích chn t khoá, thc hin việc trích ra được các t khoá quan
trng nht của văn bản, th hin đặc tv chuyên môn của văn bản đó.
1.4. Các khó khăn trong khai phá d liu văn bn
Tính đa chiu (high dimensonality): S thut ng trong một n bản ln dn
đến s chiu ca không gian vector s rt ln.
Tính kh c (scability): Các CSDL lớn thường cha ng trăm nghìn văn bản
Tính chính xác (accuracy): Bt k ngôn ng nào cũng đều có s nhp nhng.
Tri thc tiên nghim: Trong nhiu i toán chng hạn như i toán lập nhóm
văn bản tngười s dng phải xác định trước mt s tham s đầu o như s
nhóm văn bản cn lp.
1.5. Các bước tin x lý văn bản
Quá trình tin x đóng vai trò quan trng trong vic ảnh hưởng đến hiu
năng và độ chính xác ca các gii thut khai phá d liu. Các công vic chính trong
quá trình tin xlà tách thut ng gim s chiu thut ng.
1.5.1. Tách thut ng
Tách thut ng th được hiu qtrình phân tách chui ký t trong văn
bản thô ban đầu thành các t có nghĩa.
Các gii thut tách thut ng Tiếng Vit
Bài toán: Nhp vào mt u tiếng Vit bt k, hãy tách u đó thành những
đơn vị t vng (t), hoc ch ra nhng âm tiết nào không trong t điển (phát
hiện đơn vị t vng mi).
a) Tách thut ng theo độ dài t dài nht
Đây phương pháp tách thuật ng đơn gin d cài đặt. Phương pháp này
s dng mt t điển t vng để làm cơ s phân tách các thut ng.
b) Tách thut ng tiếng Vit bằng phương pháp đồ th
Phương pháp tách thuật ng bng đồ th quy vic phân tách câu v vic m
đường đi trên một đ th có hướng, không trng s.
Như đã nói trên, cách pn tách u đúng đắn nhất tương ng vi đường đi
qua ít cung nhất trên đồ thị. Do đó ta thể quy i toán liệt các pơng án
phân tách câu vi toán tìm tt c nhng đường đi ngắn nht t đỉnh 0 đến đnh n
của đồ th phân tách câu.
1.5.2. Gim chiu cho tp thut ng
rt nhiu k thut đ gim chiu ca tp thut ng bao gm:
Tìm gc t
S dng t điển đồng nghĩa
Loi b các t dng
Ch trích chn mt phần văn bản
Loi b nhng thut ngtrng s thp nht
Các k thut da trên lý thuyết thông tin