1
HC VIN CÔNG NGH BƯU CHÍNH VIỄN THÔNG
---------------------------------------
TRN VŨ HI
ÁP DNG K THUT PHÂN TÍCH D LIU TRC TUYN (OLAP)
PHC V CÔNG TÁC QUN LÝ ĐIU HÀNH
Chuyên ngành: KHOA HC MÁY TÍNH
Mã s: 60.48.01
Người hưng dn KH: PGS. TS Đỗ Trung Tun
TÓM TT LUẬN VĂN THC SĨ
NI - 2011
2
MỞ ĐẦU
Hc vin Công ngh u chính viễn tng một đơn v thành viên ca Tp
đoàn Bưu chính Viễn thông Vit Nam chức năng chính đào tạo, nghiên cu
khoa hc chuyn giao công ngh trong lĩnh vực bưu chính, viễn thông, điện - điện
t ng ngh thông tin phc v s phát trin của ngành Bưu chính Viễn thông
ca hi. Chính vy vic qun , phân tích và đánh giá thông tin về công tác
qun lí, đào tạo i các c độ khác nhau là mt trong nhưng vấn đề cần đưc quan
tâm, i đã chọn đ tài tt nghip cao hc ngành công ngh thông tin ca tôi vi
hướng phc v công tác này.
Xut phát t thc tế đó, tôi đã chọn đề tài “Áp dng k thut phân tích d liu
trc tuyến (OLAP) phc v công tác qun lý và điều hành
Xây dng mt h tr giúp quyết đnh da vào d liu, s dụng pơng pháp
lun x phân tích trc tuyến (OLAP). Trong đó tập trung vào hai ng vic chính
là tp hp d liệu đ t chc d liu đa chiều, phân tích và hin th d liệu để tr giúp
ra quyết đnh.
Luận văn gồm 3 cơng:
Chương 1: Tổng quan các phương pháp khai thác dữ liu
Chương 2: H thng tr giúp quyết định s dụng phân tích đa chiều trong x
phân tích trc tuyến
Chương 3: Xây dng h thng tr giúp qun lý vi chc năng OLAP
3
Chương 1
TỔNG QUAN CÁC PHƯƠNG PHÁP
KHAI THÁC DLIỆU
1.1. GIỚI THIỆU CÁC PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU
Việc dùng c pơng tiện tin hc để t chức khai thác các CSDL đã đưc
phát trin t nhng năm 60, nhiều CSDL đã đưc t chc, phát trin khai thác
mi qui mô và khp các lĩnh vực hoạt động ca xã hi.
S phát trin nhanh chóng ca một lượng ln d liệu đưc thu thập lưu trữ
trong các CSDL lớn đã vượt ra ngoài kh năng của con người có th hiểu đưc chúng
nếu không có nhng ng c h tr tt. Tình hung y đã đt chúng ta trong hoàn
cnh nhiu d liệu nhưng thiếu thông tin, thiếu tri thc. Vi mt khi lượng ln d
liệu như vậy ràng các phương pháp thủ công truyn thng áp dụng đ phân tích
d liệu như chia bảng không còn là phù hp na Chính vì vy, có mt k thut mi ra
đời đó là “Khai phá d liu”.
Khai pd liu mt ng ơng đối mới, ra đi vào khong những năm
cui ca ca thp k 1980. Các nhà thng kê xem "khai pd liệu như mt q
trình phân tích đưc thiết kế thăm dò một ng cc ln c d liu nhm phát hin
ra c mu thích hp và/hoc các mi quan h mang tính h thng gia các biến
sau đó sẽ hp thc hoác kết qu tìm được bngch áp dng các mẫu đã phát hin
đưc cho tp con mi ca d liu".
i m li: khai pd liu là mt c trong quy trình phát hin tri thc gm
các thât toán khai thác d liệu chuyên dùng dưới mt s quy đnh v hiu qu
tính toán chp nhận được đ tìm ra các mu hoc các mô hình trong d liu. Phát hin
tri thức trong các cơ sở d liu mt qui trình nhn biết các mu hoc c hình
trong d liu với các tính năng: hp thc, mi, kh ích, và có th hiểu đưc.
1.1.1. Hình thành và định nghĩa bài toán
4
Đây c tìm hiu lĩnh vực ng dng hình thành i toán, bưc này s
quyết đnh cho vic t ra nhng tri thc hu ích, đồng thi la chn các phương
pháp khai phá d liu thích hp vi mc đích của ng dng và bn cht ca d liu.
1.1.2. Thu thập và tiền xử lý dữ liệu
Trong c này d liệu đưc thu thp dng thô (ngun d liu thu thp th
là tc kho d liu hay ngun thông tin Internet).
1.1.3. Khai phá dữ liệu và rút ra các tri thức
Đây c quan trng nht trong tiến trình khám phá tri thc. Kết qu ca
ớc này là trích ra được các mu và/hocc mô hình ẩn dưới các d liu.
1.1.4. Phân tích và kiểm định kết quả
c th hiểu các tri thc đã tìm được, đặc bit làm ng t các mô t
d đoán. Trong bước này, kết qu tìm được s được biến đổi sang dng php
vi lĩnh vực ng dng d hiểu hơn cho người dùng.
1.1.5. Sử dụng các tri thức phát hiện được
Các tri thức khám phá được s đưc cng c, kết hp li thành mt h thng,
đồng thi gii quyết các xung đt tiềm năng trong các tri thức đó. c giai đon ca
quá trình khám phá tri thc mi quan h cht ch vi nhau trong bi cnh chung
ca h thng.
1.2. QUÁ TRÌNH KHAI PHÁ D LIỆU
Khai pd liu hoạt đng trng m ca quá trình khám phá tri thc. Thut
ng khai pd liu n đưc mt s nhà khoa hc gi phát hin tri thc trong
s d liu.
Qtrình khai phá d liu bắt đầu vi kho d liu thô kết thúc vi tri thc
đưc chiết xut ra.
5
Hình. Kiến trúc hệ thống khai phá dữ liệu
Kiến trúc ca h thng khai phá d liu th chia thành các thành phần chính như
trong hình.
1.3. CÁC PHƯƠNG PHÁP KHAI KHÁ DỮ LIỆU
1.3.1. Phân lớp dữ liệu
Mc tiêu ca phân lp d liu đó dự đoán nhãn lp cho các mu d liu. Q
trình gm hai bước: y dng hình, s dng hình đ phân lp d liu (mi
mu mt lp).
1.3.2. Phân cụm dữ liệu
Mc tiêu ca phân cm d liệu nhóm các đi ợng tương t nhau trong tp
d liệu vào các cum, sao cho các đối tượng thuc cùng mt lớp là tương đồng.
1.3.3. Khai phá lut kết hợp
Mc tiêu của phương pháp này phát hiện đưa ra các mối liên h gia c
giá tr d liu trong s d liệu. Đu ra ca gii thut lut kết hp tp lut kết
hp tìm được.
1.3.4. Hi quy
Phương pháp hi quy tương tự như phân lớp d liệu. Nhưng khác ch
dùng để d đoán các giá trị liên tc n phân lp d liệu ng đ d đoán các giá trị
ri rc.