
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Tiến Thành
BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU
BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG
TÌM KIẾM GIÁ CẢ SẢN PHẨM
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Tiến Thành
BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU
BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG
TÌM KIẾM GIÁ CẢ SẢN PHẨM
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: Th.S. Trần Thị Oanh
Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ
HÀ NỘI – 2009

Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến
sĩ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh, Cử nhân Trần Mai Vũ đã tận tình hướng dẫn
tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi
học tập và nghiên cứu tại trường Đại Học Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai
phá dữ liệu” đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu.
Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA và K50CHTTT đã ủng hộ
khuyến khích tôi trong suốt quá trình học tập tại trường.
Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những
người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt
nghiệp.
Tôi xin chân thành cảm ơn !
Sinh viên
Vũ Tiến Thành

i
Tóm tắt nội dung
Trích xuất thông tin từ dữ liệu bán cấu trúc là một bài toán được sự quan tâm tại
nhiều hội nghị lớn trên thế giới [9], [10], [12], [13]. Bài toán này là một thành phần không
thể thiếu trong các ứng dụng về thu thập và trích xuất thông tin hiện nay. Một trong
những ứng dụng đó là trích xuất thông tin của sản phẩm từ các trang thương mại điện tử
để xây dựng hệ thống tìm kiếm giá cả, nhằm cung cấp thông tin tốt nhất đến người tiêu
dùng.
Khóa luận này tập trung nghiên cứu bài toán trích xuất thông tin từ dữ liệu web và
áp dụng để xây dựng hệ thống tìm kiếm giá cả sản phẩm. Khóa luận xác định một tập luật
để giải quyết bài toán trích xuất giá khi cho biết tên sản phẩm, và trên cơ sở đó, bài toán
tự động trích xuất thông tin về tên và giá của sản phẩm được giải quyết. Khóa luận đưa ra
các bước xây dựng hệ thống tìm kiếm giá cho sản phẩm trên các trang web tiếng Việt,
tiến hành các thực nghiệm trên hệ thống và đánh giá kết quả. Kết quả thực nghiệm cho
thấy các thông tin được trích xuất từ hệ thống là có độ tin cậy.

ii
Mục lục
Tóm tắt nội dung .................................................................................................................i
Mục lục ................................................................................................................................ii
Bảng các kí hiệu và chữ viết tắt.........................................................................................v
Danh sách các hình............................................................................................................vi
Danh sách bảng biểu ...................................................................................................... viii
Giới thiệu.............................................................................................................................1
Chương 1. Khái quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc ..............3
1.1 Bài toán trích xuất thông tin .......................................................................................3
1.1.1 Giới thiệu bài toán................................................................................................3
1.1.2 Dữ liệu của bài toán .............................................................................................3
1.1.3 Các hướng tiếp cận trong bài toán trích xuất thông tin........................................4
1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc................................................6
1.2.1 Vấn đề đặt ra với bài toán ....................................................................................6
1.2.2 Một số phương pháp trích xuất thông tin cho dữ liệu bán cấu trúc .....................6
1.2.3 Phương pháp đánh giá..........................................................................................7
1.2.4 Ứng dụng của bài toán trích xuất thông tin cho dữ liệu bán cấu trúc..................8
Chương 2. Một số phương pháp sử dụng trong bài toán trích xuất thông tin cho dữ
liệu bán cấu trúc ...............................................................................................................10
2.1 Trích xuất thông tin dựa vào cây DOM....................................................................10
2.1.1 Khái nhiệm cây DOM........................................................................................10
2.1.2 Xây dựng cây DOM...........................................................................................10
2.1.3 Sử dụng cây DOM để trích xuất thông tin.........................................................12
2.2 Trích xuất thông tin dựa theo các mẫu biểu thức chính qui .....................................13

