BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
NGUYỄN VŨ TÙNG DƯỠNG
XÂY DỰNG VÀ ĐÁNH GIÁ
HỆ THỐNG TÌM KIẾM THÔNG TIN
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2016
Công trình được hoàn thành ti
ĐI HC ĐÀ NNG
Người hướng dẫn khoa học: PGS.TS. Võ Trung Hùng
Phản biện 1: TS. Huỳnh Công Pháp
Phản biện 2: TS. Lê Xuân Việt
Luận văn sẽ được bảo vtại Hi đồng chấm Luận văn tt
nghiệp thạc k thuật họp ti Đi học Đà Nẵng vào ngày 25
tháng 07 năm 2016
Có thể tìm hiểu luận văn ti:
Trung tâm Thông tin-Học liệu, Đại học Đà Nng
1
M ĐẦU
1. Tính cấp thiết của đề tài
ng vi s phát trin chung ca hi đặc bit ng ngh
thông tin, nhu cu hc tp của con người càng được nâng cao do đó
nhu cu m kiếm thông tin là rt lớn ngày càng tăng. Tuy nhiên,
mt thc trng chúng ta cn phải đ cập đến đây là: Thứ nht,
quá nhiu công c tìm kiếm dẫn đến s khó khăn khi lựa chn.
Th hai, thông tin m kiếm được không hoặc chưa đưc phù hp
vi yêu cu của người dùng. Th ba, các công c tìm kiếm không
mã ngun m nên rt kcho vic ng dụngMt trong nhng
do quan trng nht dẫn đến nhng hn chế trên đó chính chất
ng và kh năng ng dng ca các phn mm m kiếm. Gii pháp
nào giúp chúng ta th gii quyết được nhng vấn đề trên đ cho
người dùng được mt s la chn phù hợp và đáng tin cy khi m
kiếm thông tin th ng dng nó cho công vic ca chính mình?
Mt trong nhng gii pháp đó chínhchúng ta cn tp trung nghiên
cu các vấn đ liên quan đến tìm kiếm thông tin, đánh giá hệ thng
tìm kiếm thông tin. Pt trin các công c nhm xây dng các ng
dng tìm kiếm và đánh giá chất lượng ca h thng tìm kiếm.
Do đó việc xây dng mt công c để tìm kiếmđánh giá chất
ng m kiếm là phù hp trong bi cnh hin nay. vậy tôi đã
quyết đnh chn đề tài "Xây dng đánh ghệ thng m kiếm
thông tin" làm đi tt nghip luận văn cao học.
2. Mc tiêu nghn cu
Mc tiêu chung: xây dựng đánh g chất lượng h
thng tìm kiếm thông tin.
Mc tu c th của đề tài
- Phân tích, chun hóa tài liu, lp ch mc tài liu tìm kiếm
2
ca phn mm mã ngun m Lucene.
- Xây dng c mô-đun tương tác kết hp với Lucene để
nhm mục đích tìm kiếm thông tin và đánh g kết qu tìm kiếm.
3. Đối ng và phm vi nghiên cu
Đối tượng nghiên cu
sở thuyết tìm kiếm thông tin, phương phương pháp lập
ch mc, ngôn ng lp trình C#, công c tìm kiếm (thư viện mã
ngun m Lucene), các phương pháp đánh giá hệ thng m kiếm
thông tin (các độ đo, cách đánh giá).
Phm vi nghn cu
- Phương pháp thu thập, chun hóa lp ch mc tp tài liu và
các phương pháp đánh giá một h thngm kiếm, ngôn ng C#.
- B tài liu tiếng Vit khong 255 tài liu.
4. Phương pháp nghiên cứu
Tôi s dụng hai phương pháp chính phương pháp nghiên
cu tài liu, phương pháp điều tra phương pháp thử nghim.
5. B cc đ tài
CHƯƠNG 1. NGHIÊN CU TNG QUAN.
CHƯƠNG 2. GII PHÁP XÂY DNG H THNG .
CHƯƠNG 3. TRIN KHAI THC NGHIM.
6. Tng quan tài liu nghn cu
Trong quá trình nghiên cu, thc hiện đ tài, tôi nhn thy
mt s ng nghiên cu chính là các kết qu công b như sau:
- Các bài báo v các lĩnh vực liên quan v x lý văn bản; tìm
kiếm và truy xut thông tin.
- Ngun tài liu t các luận văn thạc sĩ về các lĩnh vực liên
quan như hệ thng tìm kiếm thông tin; đánh giá hệ thng tìm kiếm và
truy xut thông tin; thut toán tìm kiếm và truy xut thông tin.
3
CHƯƠNG 1
NGHIÊN CU TNG QUAN
1.1. TNG QUAN V H THNG TÌM KIM THÔNG TIN
1.1.1. Giới thiu về tìm kiếm thông tin
a. Khái niệm
Tìm kiếm thông tin (Information Retrieval - IR) là tìm kiếm i
nguyên (thường là c tài liu - documents) trên mt tp các d liu
phi cu trúc (thường là văn bản dng text) đưc lưu tr trên máy tính
nhm tha mãn nhu cu v thông tin.
b. Nguyên tc hoạt động
Nguyên tc hot động bản ca h thng tìm kiếm thông tin
so khp nhu cu thông tin của người s dng vi các tài liệu đưc
lưu trữ trong cơ sở d liu ca h thng.
Hình 1.1. Mô hình hoạt động ca h thng tìm kiếm thông tin