ĐẠI HC HU
TRƢỜNG ĐẠI HC KHOA HC
LÊ VĂN TƢỜNG LÂN
PHÂN LP D LIU BNG CÂY QUYẾT ĐỊNH M
DỰA TRÊN ĐẠI S GIA T
CHUYÊN NGÀNH: KHOA HC MÁY TÍNH
MÃ S: 62.48.01.01
TÓM TT
LUN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Ngƣời hƣớng dn khoa hc
1. PGS.TS. Nguyn Mu Hân
2. TS. Nguyn Công Hào
HU NĂM 2018
1
MỞ ĐẦU
1. Lý do chọn đề tài
Trong thc tế, các khái niệm mờ luôn tồn tại nên với việc quan
niệm các đối tượng được sử dụng phải luôn ràng trong logic cổ
điển sẽ không không đủ miêu tả c vấn đề của thế giới thực. Năm
1965, L. A. Zadeh đã đề xuất hình thức hóa toán học của khái niệm
mờ, từ đó lý thuyết tập mđược hình thành ngày càng thu t sự
nghiên cứu của nhiều tác giả. Năm 1990, N.C. Ho & W. Wechsler đã
khởi xướng phương pháp tiếp cận đại s đến cu trúc t nhiên ca
min giá tr ca các biến ngôn ng. Theo cách tiếp cn này, mi giá
tr ngôn ng ca mt biến ngôn ng nm trong mt cấu trúc đại s
gọi đại s gia t (ĐSGT). Trên sở đó, đã nhiều nghiên cứu
của nhiều tác giả trong các lĩnh vực: điều khin m lp lun m,
sở d liu m, phân lp mờ,… đã cho chúng ta nhiều kết quả
rất khả quan, có khả năng ứng dụng tốt.
Hin nay, khai phá d liu là bài tn cần ưu tiên cần gii quyết
mà phân lp d liu là mt quá trình quan trng ca khai phá d liu.
Đó là quá trình chia các đối tượng d liu thành các lp da trên các
nét đặc trưng của tp d liu. Các phương pháp thường được s dng
trong quá trình hc phân lớp như: thng kê, mạng nơron, cây quyết
định,… trong đó cây quyết định mt gii pháp hu hu hiu. Đã
có nhiu nghiên cứu để xây dng nó mà ni bt là các thut toán hc
quy np như CART, ID3, C4.5, SLIQ, SPRINT, LDT, LID3,... Tuy
vy, các cách tiếp cn cho vic hc phân lp bng y quyết định
hin nay vn còn nhiu vấn đề cn gii quyết:
- Xây dng cây quyết định da trên khái nim Entropi thông tin
theo các phương pháp truyền thống như ID3, C4,5, CART, SLIQ,
SPRINT,…cho các thuật toán độ pht tp thấp nhưng khả năng
d đoán chưa cao, thể dẫn đến tình trng quá khp tn cây kết
qu. Thêm vào đó, các phương pháp này không thể s dng để hun
luyn d đoán trên các tập mu cha giá tr m, việc lưu
tr d liu m hin nay là tt yếu trên các kho d liu nghip v.
- Mt hướng tiếp cn thông qua thuyết tp m để tính li
ích thông tin ca các thuc tính m cho quá trình phân lp. Cách này
đã giải quyết được các giá tr m trong tp hun luyn thông qua vic
xác định các hàm thuc, t đó các bộ giá tr này có th tham gia vào
quá trình hun luyn nên đã giải quyết được hn chế b qua các
2
giá tr d liu m ca cách tiếp cn phân lp rõ. Tuy vy, hin vn
còn gp phi nhng hn chế xut phát t bn thân ni ti ca
thuyết tp m: hàm thuc của chúng không sánh được vi nhau, xut
hin sai s ln ti quá trình xp x, ph thuc vào s ch quan, giá tr
ngôn ng còn thiếu một cơ sở đại s làm nn tng.
- Theo cách tiếp cn xây dng cây quyết định ngôn ng, nhiu
tác gi đã xây dng cách thc xác định cho các giá tr ngôn ng trên
tp d liu m xây dng cây bằng phương pháp LID3. Vic xây
dng các nhãn ngôn ng cho các gtr m da vào xác sut ca các
nhãn liên kết trong khi vn gi được các giá tr rõ đã biết, hướng tiếp
cận này đã làm giảm sai s đáng kể cho quá trình hun luyn. Tuy
vy, hướng tiếp cn này s phát sinh cây đa phân do có sự phân chia
ln theo chiu ngang ti các nút ngôn ng.
- Phương pháp định lượng ng nghĩa theo điểm dựa trên ĐSGT,
nhm thun nht d liu v các gtr s hay giá tr ngôn ng. Bài
toán xây dng cây quyết định m lúc này th s dng các thut
toán hc theo cách tiếp cn y quyết định trong một ĐSGT đã
xây dng. Tuy vậy, hướng tiếp cn này vn còn mt s vấn đề như:
vn xut hin sai s ln khi thun nht theo điểm mờ, kđưa ra dự
đoán khi sự đan xen điểm phân chia m ca cây kết qu, ph
thuc vào min tr [
min,
max] t min giá tr rõ ca thuc tính m.
Tt c các thut toán hc phân lp bng cây quyết định hin
đều ph thuc ln vào vic chn tp mu của người hun luyn.
Trong các kho d liu nghip v, nhiu thông tin phc v tt cho
vic d đoán nhưng nhiều thông tin khác ch có ý nghĩa lưu tr thông
thường, phc v cho vic din gii thông tin. Chúng làm phc tp
mẫu nên tăng chi phí cho quá trình hun luyn, quan trng hơn
chúng gây nhiễu nên cây được xây dng không hiu qu cao.
Xut phát t vic tìm hiu, nghiên cu các đặc điểm các thách
thc v các vấn đề ca phân lp d liu bng cây quyết định, đề tài:
Phân lp d liu bng y quyết định m dựa trên đại s gia t” là
vấn đề ln cn gii quyết.
2. Đối tƣợng và phạm vi nghiên cứu
Luận án tập trung nghiên cứu hình cho quá trình học ttập
mẫu huấn luyện, nghiên cứu phương pháp xử giá trị ngôn ngữ
xây dựng các thuật toán học phân lớp bằng cây quyết định mờ đạt
hiệu quả trong dự đoán và đơn giản đối với người dùng.
3
3. Phƣơng pháp nghiên cứu
Lun án s dng phương pháp tng hp, h thng hóa
phương pháp thực nghim khoa hc.
4. Mục tiêu và nội dung của luận án
Sau khi nghiên cứu và phân tích các vấn đề vphân lớp dữ liệu
bằng cây quyết định của các nghiên cứu trong và ngoài nước, luận án
đưa ra mục tiêu nghiên cứu chính như sau:
- Xây dựng mô hình học phân lớp dữ liệu bằng cây quyết định
mờ và phương pháp trích chọn đặc trưng để chọn tập mẫu huấn luyện
cho quá trình học phân lớp. Đề xuất phương pháp xử giá trị ngôn
ngữ của các thuộc tính chưa thuần nhất dựa vào ĐSGT.
- Đề xuất các thuật toán học bằng cây quyết định mờ nhằm đạt
hiệu quả trong dự đoán và đơn giản đối với người dùng.
Để đáp ứng cho các mục tiêu nghiên cứu trên, luận án tập trung
nghiên cứu các nội dung chính sau:
- Nghiên cứu các thuật toán học cây truyền thống CART, ID3,
C4.5, C5.0, SLIQ, SPRINT trên mỗi tập mẫu huấn luyện để tìm một
phương pháp học phù hợp.
- Nghiên cứu xây dựng mô hình học phân lớp dữ liệu cây quyết,
xây dựng phương pháp trích chọn đặc trưng để chọn tập mẫu huấn
luyện cho việc học cây quyết định từ các kho dữ liệu nghiệp vụ.
- Nghiên cứu để đề xuất phương pháp xử lý giá trị ngôn ngữ của
các thuộc tính chưa thuần nhất trên tập mẫu dựa vào của ĐSGT.
- Đề xuất các thuật toán học phân lớp bằng y quyết định m
đạt hiệu quả trong dự đoán và đơn giản đối với người dùng.
5. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học
Những đóng góp chính của lun án v khoa hc:
- Xây dựng mô hình học phân lớp dữ liệu bằng cây quyết định
mờ t tập mẫu huấn luyện. Đề xuất phương pháp trích chọn đặc
trưng để chọn tập mẫu huấn luyện cho việc học phân lớp bằng y
quyết định từ các kho dữ liệu, nhằm hạn chế sự phụ thuộc ý kiến của
chuyên gia trong quá trình chọn tập mẫu huấn luyện.
- Đề xuất phương pháp xử lý giá trị ngôn ngữ của c thuộc tính
chưa thuần nhất trên tập mẫu huấn luyện dựa vào bản chất của
ĐSGT.
- Luận án đã xây dựng các hàm mục tiêu của bài tn phân lớp
bằng cây quyết định, sử dụng tính thứ tự của các giá trị ngôn ng
4
trong ĐSGT. Đưa ra các khái niệm đối sánh khoảng mờ, khoảng mờ
lớn nhất để từ đó đề xuất c thuật toán học cây quyết định mờ
MixC4.5, FMixC4.5, HAC4.5 HAC4.5* cho bài toán phân lớp,
nhằm góp phần cải thiện, nâng cao độ chính xác trong quá trình học
phân lớp dữ liệu bằng cây quyết định cho bài toán phân lớp dữ liệu .
Ý nghĩa thực tiễn
- Góp phần chứng tỏ khả năng ứng dụng phong phú của ĐSGT
trong biểu diễn và xử lý thông tin mờ, không chắc chắn.
- Luận án đã góp phần vào việc giải quyết vấn đề định lượng
cho các giá trị ngôn ngữ không phụ thuộc cố định vào miền trị
Min-Max của các giá trị kinh điển của thuộc tính mờ trong tập mẫu.
- Dựa trên các khái niệm về khoảng mvà khoảng mờ lớn nhất,
luận án đã đề xuất các thuật toán cho quá trình học cây, nhằm tăng
khả năng dự đoán cho bài toán phân lớp dữ liệu bằng cây quyết định.
Làm phong phú thêm các phương pháp học cho bài toán phân lớp nói
chung và phân lớp bằng cây quyết định nói riêng.
- Luận án thể được sử dụng làm tài liệu tham khảo cho các
sinh viên đại học, học viên cao học ngành Công nghệ thông tin
nghiên cứu về học phân lớp bằng cây quyết định.
6. Bố cục của luận án
Ngoài phần mở đầu, kết luận và tài liệu tham khảo, luận án được
chia làm 3 chương nội dung. Chương 1: Cơ sở lý thuyết về đại số gia
tử tổng quan phân lớp dữ liệu bằng cây quyết định. Tập trung
phân tích và đánh giá các công trình nghiên cứu đã ng bố gần đây,
chỉ ra các vấn đề còn tồn tại để xác định mục tiêu nội dung cần
giải quyết. Chương 2: Phân lớp dữ liệu bằng cây quyết định mờ theo
phương pháp đối sánh điểm mờ dựa trên đại số gia tử. Tập trung
phân tích sự ảnh ởng của tập mẫu huấn luyện đối với hiệu quả của
cây thu được. Trình bày phương pháp nhằm trích chọn được tập mẫu
đặc trưng cho quá trình huấn luyện. Phân ch, đưa ra các khái niệm
về tập mẫu không thuần nhất, giá trị ngoại lai và xây dựng thuật toán
để ththuần nhất cho các thuộc tính này. Đề xuất các thuật toán
MixC4.5 và FMixC4.5 phục vụ quá trình học cây quyết định trên tập
mẫu không thuần nhất. Chương 3: Phương pháp huấn luyện cây
quyết định mờ cho bài toán phân lớp dữ liệu dựa trên đối sánh
khoảng mờ. Chương này của luận án tập trung nghiên cứu quá trình
học cây quyết định mờ nhằm đạt hai mục tiêu là fh(S) → maxfn(S)
min. Trên sở nghiên cứu mối tương quan của các khoảng mờ,