
i
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Quách Hiếu Nghĩa
TRÍCH CHỌN THUỘC TÍNH SẢN PHẨM TRONG
HỆ THỐNG MUA BÁN TRỰC TUYẾN TIẾP CẬN
KHAI PHÁ LUẬT KẾT HỢP
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009

ii
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Quách Hiếu Nghĩa
TRÍCH CHỌN THUỘC TÍNH SẢN PHẨM TRONG
HỆ THỐNG MUA BÁN TRỰC TUYẾN TIẾP CẬN
KHAI PHÁ LUẬT KẾT HỢP
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: Ths. Nguyễn Việt Cường
Cán bộ đồng hướng dẫn: CN. Nguyễn Thị Thùy Linh
HÀ NỘI - 2009

LỜI CẢM ƠN
Đầu tiên, em xin gửi lời cảm ơn chân thành và sâu sắc tới Thạc sỹ Nguyễn Việt
Cường và Cử nhân Nguyễn Thị Thùy Linh, người đã tận tình chỉ bảo và hướng dẫn em
trong suốt quá trình thực hiện khóa luận tốt nghiệp này.
Tiếp theo, em xin chân thành cảm ơn các thầy cô đã nhiệt tình giảng dạy và giúp đỡ,
tạo điều kiện thuận lợi cho em trong suốt quá trình học tập tại trường Đại học Công nghệ.
Em cũng xin gửi lời cảm ơn tới thầy cô và các bạn sinh viên thuộc Phòng thí nghiệm
Công nghệ tri thức đã ủng hộ và giúp đỡ em rất nhiều trong quá trình nghiên cứu và thực
hiện khóa luận này.
Cuối cùng, xin gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những người luôn bên
cạnh và động viên tôi trong cuộc sống học tập cũng như làm việc.
Xin chân thành cảm ơn!
Hà Nội, ngày 23 tháng 5 năm 2009
Sinh viên
Quách Hiếu Nghĩa

i
TÓM TẮT NỘI DUNG
Ngày nay, thương mại điện tử đã trở nên phổ biến đối với mọi người. Cùng với nó là
sự ra đời của các trang web bán hàng trên mạng. Trên các trang web bán hàng trực tuyến
thường có mục dành cho khách hàng đưa ra ý kiến, đánh giá của mình về sản phẩm và các
dịch vụ liên quan. Với sự phát triển của thương mại điện tử, số lượng đánh giá mà một
sản phẩm nhận được cũng ngày càng tăng. Đối với một sản phẩm phổ biến, số lượng đánh
giá của khách hàng có thể khá lớn (có thể lên tới con số hàng trăm). Điều này gây ra khó
khăn cho những ai muốn tham khảo các đánh giá để đưa ra quyết định có mua sản phẩm
hay không. Do vậy, nảy sinh nhu cầu tóm tắt những đánh giá này lại thành một bản tóm
tắt dễ đọc.
Trong khóa luận này, chúng tôi thực hiện nghiên cứu và triển khai mô hình trích
chọn các thuộc tính sản phẩm được nhắc đến trong các đánh giá, một phần quan trọng
trong bài toán tóm tắt đánh giá sản phẩm của người dùng trên hệ thống mua bán trực
tuyến. Hiện nay trên thế giới đã có nhiều hệ thống trích chọn thuộc tính sản phẩm trong
các đánh giá đạt kết quả khả quan, tuy nhiên đó đều là các hệ thống áp dụng cho ngôn ngữ
tiếng Anh. Mục tiêu của khóa luận là xây dựng một mô hình xử lý các đánh giá viết trên
ngôn ngữ tiếng Việt bằng cách áp dụng một số kĩ thuật xử lý ngôn ngữ tự nhiên và khai
phá luật kết hợp. Tuy kết quả đạt được chưa thể đáp ứng được yêu cầu thực tế do tồn tại
nhiều khó khăn, hạn chế trong các công cụ xử lý ngôn ngữ tiếng Việt cũng như các cơ sở
để đánh giá, nhưng đã chứng minh được tính đúng đắn và hiệu quả của các kĩ thuật sử
dụng. Đây là cơ sở cho các hệ thống tương tự trong tương lai có thể sử dụng lại hoặc cải
tiến hoàn thiện hơn.

ii
MỤC LỤC
LỜI CẢM ƠN........................................................................................................................i
TÓM TẮT NỘI DUNG.........................................................................................................i
MỤC LỤC............................................................................................................................ii
DANH MỤC BẢNG SỐ LIỆU...........................................................................................iv
DANH MỤC HÌNH ẢNH....................................................................................................v
MỞ ĐẦU..............................................................................................................................1
Chương 1: GIỚI THIỆU.......................................................................................................2
1.1. Đặt vấn đề:..............................................................................................................2
1.2. Phát biểu bài toán trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực
tuyến tiếp cận khai phá luật kết hợp: ................................................................................4
1.3. Ý nghĩa và ứng dụng:..............................................................................................6
Chương 2: CƠ SỞ LÝ THUYẾT.........................................................................................8
2.1. Khai phá luật kết hợp:.............................................................................................8
2.1.1. Định nghĩa:.......................................................................................................8
2.1.2. Các bước trong khai phá luật kết hợp: .............................................................8
2.2. Các khái niệm cơ sở:...............................................................................................9
2.3. Thuật toán Apriori: ...............................................................................................12
2.4. Tổng kết chương:..................................................................................................18
Chương 3: TRÍCH CHỌN THUỘC TÍNH SẢN PHẨM TRONG HỆ THỐNG MUA
BÁN TRỰC TUYẾN TIẾP CẬN KHAI PHÁ LUẬT KẾT HỢP.....................................19
3.1. Giới thiệu: .............................................................................................................19
3.2. Bài toán trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến tiếp
cận khai phá luật kết hợp: ...............................................................................................19

