BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
NGUYỄN ĐÌNH ĐỊNH
PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU WEB VÀ
XÂY DỰNG ỨNG DỤNG TRONG MÁY TÌM KIẾM
Chuyên ngành: KHOA HỌC MÁY TÍNH
số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2012
Công trình
đƣc
hoàn thành t
i
ĐẠI HC ĐÀ N
NG
Ngƣời hƣớng dn
khoa hc: PGS.TS. Lê Văn Sơn
Phn bin
1: TS. Nguyễn Thanh Bình
Phn bin
2: TS. Lê Xuân Việt
Lun văn s đưc bo v ti
Hi ñng
chm Lun v
ă
n tt
nghi
p
Thc
sĩ K
thut
hp
ti Đi
hc Đà
Nng
vào ngày
19 tháng 01
năm
2013.
* Có th tìm hiu Lun văn ti:
- Trung tâm Thông tin - Hc
liu, Đại
hc Đà N
ng
- Trung tâm Hc
liu, Đại
hc Đà N
ng.
1
MỞ ĐẦU
1. nh cấp thiết của đề tài
- ph t trin nhanh chng ca cc ng dụng công nghệ
thông tin va Internet va o nhiê u linh c đơ i sô ng xa i , quản l kinh
, khoa ho c ky th t … đa ta o ra nh u cơ dư liê u khô ng . Cc
liê u na y không pha i khi no cng bất bin theo thi gian m
cng vi s pht trin trên , cc cơ s dliệu cng không ngng thay
đô i đê đa p ư ng nhu câ u sư du ng cu a con ngươ i . Qu trình tin ha
ca lĩnh vc s d liệu (CSDL) tạo nên việc khai ph d liệu
(Data Mining) được coi l giai đoạn tin ha mi ca ng nghệ
CSDL, việc thu thập v lưu tr cc kho cha dliệu khổng lồ được
liệt kêngoi mục đích khai ph d liệu, nhm pht hiện cc tri thc
mi giúp ích cho hoạt động ca con ngưi trong tập hợp d liu.
Chẳng hạn, t một giải php phân cụm trong khai ph dliệu Web
(Web Mining), c th pht trin thnh một thnh phần ca my m
kim (Search Engine) đ khi một trang Web mi được tải về, my
tìm kim sẽ t động n vo một cụm trang Web đã được xc định;
việc phân cụm sẽ tạo ra thuận lợi cho việc m kim về sau cho ngưi
dng. Chính vì l do ny mtôi nghiên cu v chọn đề ti: “Phương
pháp phân cụm dữ liệu Web xây dựng ng dụng trong máy tìm
kiếm” lđiều cấp thit hiện nay, dưi s hưng dẫn ca thầy PGS-
TS. Lê Văn Sơn.
2. Mục tiêu nghiên cứu
Mục tiêu l nắm được một số phương php phân cụm dliệu
Web t đ xây dng d liệu tìm kim nhanh thông qua cc địa chỉ t
kha cần m. Đ thc hin mục đích tưng đ ra cn nghiên cu
và tin hành trin khai các nội dung như sau:
2
- Nghiên cu cơ s lý thuyt v các khai phá d liu Web
trong vic tìm kim.
- Thu thp, phân loi các phân cm Web t thut toán c đin
đn hin ti.
- Tìm hiu các thut toán phân cm hin có.
- Xây dng được cht ng ca các kt qu tìm kim s tt
hơn trong việc phân cmn bản trên Web.
- X tng mu thông tin ngay khi ly được t Web kt
qu tc thi ng vi ti mi thi đim.
- To các liên kt vi các trang Web tìm kim qua URL.
3. Đối tƣợng và phạm vi nghiên cứu
T nhng yêu cầu ca đ ti ta xc định được đối tượng v
phạm vi nghiên cu như sau:
* Đối tượng nghiên cứu:
- Xây dng khai ph d liệu số, phân loại theo dạng văn bản.
- Cấu trúc đối tượng l CSDL quan hệ, khai ph d liệu Text
t do.
* Phạm vi nghiên cứu:
- Áp dng phương php phân cụm trong việc tìm kim nhanh
cc trang Web theo ch đề t kha cần tìm.
4. Phƣơng pháp nghiên cứu
- Thu thập v phân tích cc ti liệu v thông tin liên quan đn
đề ti.
- Xem xét, la chọn phương php đ giải quyt vấn đề.
- Trin khai xây dng chương trình ng dụng.
- Kim tra, thử nghiệm v đnh gi kt quả.
5. Bố cục của đề tài
Luận văn được trình by bao gồm cc phần chính như sau:
3
+ Phần m đầu
+ Chương 1: Tổng quan về khai ph d liệu Web.
+ Chương 2: Một số phương php phân cụm d liệu.
+ Chương 3: Xây dng phương php tìm kim v kt quả thc
nghiệm.
+ Phần kt luận.
6. Tổng quan về tài liệu nghiên cứu
My tìm kim (Search Engine) đã pht trin kh hon thiện
vo cuối th kỷ 20  cc nưc pht trin. Việt Nam, nghiên cu v
ng dụng my m kim đang trong giai đoạn pht trin ban đầu.
Trong luận văn ny ti liệu nghiên cu v tham khảo ca nhiều tc
giả thưng tìm hiu sâu vo cc công nghệ quan trọng ca my tìm
kim: phương php phân cụm d liệu, bộ lập chỉ mục (indexing), bộ
tìm kim (searching), bộ xp hạng (ranking). Đồng thi nghiên cu
kin trúc cc hệ thống URL sẵn c phục vmục đích xây dng một
hệ tìm kim cho trang Web. Áp dụng nhng thnh tu ca khoa học
my tính đ hon thiện cỗ my tìm kim l một công việc quan trọng
. Bi m kim nhng th tốt nhất phục vụ cho công việc v cuc
sống l một nhu cầu rất cần thit ca mỗi ngưi.
Mỗi ngnh cụ th lại c cc phương php v công cụ tìm kim
đặc th khc nhau, nhưng kt quả cuối cng l cho ra kt quả tìm
kim tốt nht. Trong qu trình hon thnh luận văn, tôi đã m hiu
v sử dụng cc nguồn ti liệu rất c gi trị sau đây:
Các tài liu v phương php phân cm d liu; Hong n
Dng, Khai phá d liu Web bng k thut phân cm”, luận văn
thạc sĩ, Trưng ĐHSP H Nội, 2007; Quang Thụy, Khai phá d
liu Web”, Bi giảng, Trưng Đại hc công ngh, ĐHQGHN,2008;
Ho Tu Bao, Knowledge Discovery and Data Mining, 2000.