
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ
CẤP CƠ SỞ
NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ
ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ
LIỆU TỪ KHO NGỮ LIỆU
Mã số: T2016-07-03
Chủ nhiệm đề tài: ThS. Trần Thị Kiều
Đà Nẵng, 12/2016

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ
CẤP CƠ SỞ
NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ
ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ
LIỆU TỪ KHO NGỮ LIỆU
Mã số: T2016-07-03
Chủ nhiệm đề tài: ThS. Trần Thị Kiều
Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài
Đà Nẵng, 12/2016

MỤC LỤC
MỞ ĐẦU .......................................................................................................................... 1
1. LÝ DO CHỌN ĐỀ TÀI ..............................................................................................1
2. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU ............................................................2
3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ............................................................2
3.1. Đối tượng nghiên cứu ................................................................................... 2
3.2. Phạm vi nghiên cứu ...................................................................................... 2
4. BỐ CỤC CỦA BÁO CÁO .........................................................................................2
CHƯƠNG 1 TỔNG QUAN ........................................................................................ 4
1.1. CƠ SỞ LÝ THUYẾT ...........................................................................................4
1.1.1. Tổng quan về từ điển .................................................................................... 4
1.1.2. Cơ sở dữ liệu từ điển .................................................................................... 5
1.1.3. Các chuẩn dữ liệu từ điển............................................................................. 5
1.1.4. Kho ngữ liệu ................................................................................................. 9
1.1.5. Các phương pháp tách từ tiếng Việt hiện nay ............................................ 11
1.2. CÁC CÔNG TRÌNH NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN ..........................11
1.3. TỔNG KẾT CHƯƠNG 1 ...................................................................................12
CHƯƠNG 2 ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN TỪ
KHO NGỮ LIỆU ........................................................................................................... 13
2.1. PHÁT BIỂU BÀI TOÁN ....................................................................................13
2.2. ĐỀ XUẤT GIẢI PHÁP ......................................................................................14
2.2.1. Mô hình bài toán ........................................................................................ 14
2.2.2. Đặc tả mô hình bài toán ............................................................................. 15
2.3. LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT.....................................................16
2.3.1. Phân đoạn từ trong tiếng Việt .................................................................... 16
2.3.2. Dịch máy thống kê ...................................................................................... 18
2.3.3. Định dạng dữ liệu từ điển ........................................................................... 20
2.4. TỔNG KẾT CHƯƠNG 2 ...................................................................................20

CHƯƠNG 3 TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM .......................... 21
3.1. TRIỂN KHAI ỨNG DỤNG ...............................................................................21
3.1.1. Lựa chọn công nghệ ................................................................................... 21
3.1.2. Chuẩn bị dữ liệu ......................................................................................... 21
3.1.3. Kết quả đạt được ........................................................................................ 21
3.1.4. Đánh giá kết quả ........................................................................................ 25
3.2. TỔNG KẾT CHƯƠNG 3 ...................................................................................25

DANH MỤC CÁC TỪ VIẾT TẮT
STT
T vit tt
ngha
1
HTML
HyperText Markup Language
2
CSDL
Cơ sở dữ liệu
3
KDD
Knowledge Discovery in Database
4
KPDL
Khai phá dữ liệu
5
LRMM
Left Right Maximum Matching
6
RLMM
Right Left Maximum Matching
7
MMSEG
Maximum Matching Segmentation
8
WFST
Weighted finit–state Transducer