
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
NGUYỄN ĐÌNH ĐỊNH
PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU WEB VÀ
XÂY DỰNG ỨNG DỤNG TRONG MÁY TÌM KIẾM
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2012

Công trình
đƣợc
hoàn thành t
ạ
i
ĐẠI HỌC ĐÀ N
Ẵ
NG
Ngƣời hƣớng dẫn
khoa học: PGS.TS. Lê Văn Sơn
Phản biện
1: TS. Nguyễn Thanh Bình
Phản biện
2: TS. Lê Xuân Việt
Luận văn sẽ được bảo vệ tại
Hội ñồng
chấm Luận v
ă
n tốt
nghi
ệ
p
Thạc
sĩ Kỹ
thuật
họp
tại Đại
học Đà
Nẵng
vào ngày
19 tháng 01
năm
2013.
* Có thể tìm hiểu Luận văn tại:
- Trung tâm Thông tin - Học
liệu, Đại
học Đà N
ẵ
ng
- Trung tâm Học
liệu, Đại
học Đà N
ẵ
ng.

1
MỞ ĐẦU
1. Tính cấp thiết của đề tài
- Sư ph t trin nhanh chng ca cc ng dụng công nghệ
thông tin va Internet va o nhiê u linh vư c đơ i sô ng xa hô i , quản l kinh
tê , khoa ho c ky thuâ t … đa ta o ra nhiê u cơ sơ dư liê u khô ng lô . Cc
cơ sơ dư liê u na y không pha i khi no cng bất bin theo thi gian m
cng vi s pht trin trên , cc cơ s d liệu cng không ngng thay
đô i đê đa p ư ng nhu câ u sư du ng cu a con ngươ i . Qu trình tin ha
ca lĩnh vc cơ s d liệu (CSDL) tạo nên việc khai ph d liệu
(Data Mining) được coi l giai đoạn tin ha mi ca công nghệ
CSDL, việc thu thập v lưu tr cc kho cha d liệu khổng lồ được
liệt kê ngoi mục đích khai ph d liệu, nhằm pht hiện cc tri thc
mi giúp ích cho hoạt động ca con ngưi trong tập hợp d liệu.
Chẳng hạn, t một giải php phân cụm trong khai ph d liệu Web
(Web Mining), c th pht trin thnh một thnh phần ca my tìm
kim (Search Engine) đ khi một trang Web mi được tải về, my
tìm kim sẽ t động n vo một cụm trang Web đã được xc định;
việc phân cụm sẽ tạo ra thuận lợi cho việc tìm kim về sau cho ngưi
dng. Chính vì l do ny m tôi nghiên cu v chọn đề ti: “Phương
pháp phân cụm dữ liệu Web và xây dựng ứng dụng trong máy tìm
kiếm” l điều cấp thit hiện nay, dưi s hưng dẫn ca thầy PGS-
TS. Lê Văn Sơn.
2. Mục tiêu nghiên cứu
Mục tiêu l nắm được một số phương php phân cụm d liệu
Web t đ xây dng d liệu tìm kim nhanh thông qua cc địa chỉ t
kha cần tìm. Đ thc hiện mục đích tưng đề ra cần nghiên cu
và tin hành trin khai các nội dung như sau:

2
- Nghiên cu cơ s lý thuyt về các khai phá d liệu Web
trong việc tìm kim.
- Thu thập, phân loại các phân cụm Web t thuật toán cổ đin
đn hiện tại.
- Tìm hiu các thuật toán phân cụm hiện có.
- Xây dng được chất lượng ca các kt quả tìm kim sẽ tốt
hơn trong việc phân cụm văn bản trên Web.
- Xử lý tng mẫu thông tin ngay khi lấy được t Web có kt
quả tc thi ng vi tại mỗi thi đim.
- Tạo các liên kt vi các trang Web tìm kim qua URL.
3. Đối tƣợng và phạm vi nghiên cứu
T nhng yêu cầu ca đề ti ta xc định được đối tượng v
phạm vi nghiên cu như sau:
* Đối tượng nghiên cứu:
- Xây dng khai ph d liệu số, phân loại theo dạng văn bản.
- Cấu trúc đối tượng l CSDL quan hệ, khai ph d liệu Text
t do.
* Phạm vi nghiên cứu:
- Áp dụng phương php phân cụm trong việc tìm kim nhanh
cc trang Web theo ch đề t kha cần tìm.
4. Phƣơng pháp nghiên cứu
- Thu thập v phân tích cc ti liệu v thông tin liên quan đn
đề ti.
- Xem xét, la chọn phương php đ giải quyt vấn đề.
- Trin khai xây dng chương trình ng dụng.
- Kim tra, thử nghiệm v đnh gi kt quả.
5. Bố cục của đề tài
Luận văn được trình by bao gồm cc phần chính như sau:

3
+ Phần m đầu
+ Chương 1: Tổng quan về khai ph d liệu Web.
+ Chương 2: Một số phương php phân cụm d liệu.
+ Chương 3: Xây dng phương php tìm kim v kt quả thc
nghiệm.
+ Phần kt luận.
6. Tổng quan về tài liệu nghiên cứu
My tìm kim (Search Engine) đã pht trin kh hon thiện
vo cuối th kỷ 20 cc nưc pht trin. Ở Việt Nam, nghiên cu v
ng dụng my tìm kim đang trong giai đoạn pht trin ban đầu.
Trong luận văn ny ti liệu nghiên cu v tham khảo ca nhiều tc
giả thưng tìm hiu sâu vo cc công nghệ quan trọng ca my tìm
kim: phương php phân cụm d liệu, bộ lập chỉ mục (indexing), bộ
tìm kim (searching), bộ xp hạng (ranking). Đồng thi nghiên cu
kin trúc cc hệ thống URL sẵn c phục vụ mục đích xây dng một
hệ tìm kim cho trang Web. Áp dụng nhng thnh tu ca khoa học
my tính đ hon thiện cỗ my tìm kim l một công việc quan trọng
. Bi tìm kim nhng th tốt nhất phục vụ cho công việc v cuộc
sống l một nhu cầu rất cần thit ca mỗi ngưi.
Mỗi ngnh cụ th lại c cc phương php v công cụ tìm kim
đặc th khc nhau, nhưng kt quả cuối cng l cho ra kt quả tìm
kim tốt nhất. Trong qu trình hon thnh luận văn, tôi đã tìm hiu
v sử dụng cc nguồn ti liệu rất c gi trị sau đây:
Các tài liệu về phương php phân cụm d liệu; Hong Văn
Dng, “Khai phá dữ liệu Web bằng kỹ thuật phân cụm”, luận văn
thạc sĩ, Trưng ĐHSP H Nội, 2007; Hà Quang Thụy, “Khai phá dữ
liệu Web”, Bi giảng, Trưng Đại học công nghệ, ĐHQGHN,2008;
Ho Tu Bao, Knowledge Discovery and Data Mining, 2000.

