ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC KINH TẾ
KHOA THỐNG - TIN HỌC
----------
ĐỀ ÁN MÔN HỌC
Đề tài:
ỨNG DỤNG THUẬT TOÁN CÂY QUYẾT ĐỊNH CHO BÀI
TOÁN PHÂN LỚP TRONG XÁC ĐỊNH KHẢ NĂNG HUY
ĐỘNG VỐN CỦA NGÂN HÀNG THÔNG QUA TIỀN GỬI
CÓ KỲ HẠN CỦA KHÁCH HÀNG
Giáo viên hướng dẫn : TH.S NGUYỄN VĂN CHỨC
Sinh viên thực hiện : Lê Thị Tường Vi
Hà Thị Sau
Lớp : 35K14
Đà Nẵng, tháng 8 năm 2012
LỜI CAM ĐOAN
Em xin cam đoan nội dung trong đ tài này là do em thực hiện dưới sự hướng dẫn trực
tiếp của thầy Nguyễn Văn Chức.
Mọi tham khảo dùng trong đ tài này đều được trích dẫn rõ ràng tên tác gi .
Mọi sao chép không hợp lệ vi phạm quy chế đào tạo em xin chịu hoàn toàn trách nhiệm.
Sinh viên thực hiện.
Lê Thị Tường Vi
Hà Thị Sau
-Trang 1-
LỜI MỞ ĐẦU
Trong những năm gần đây, việc nắm bắt được thông tin được coi là chìa khóa của
kinh doanh. Ai thu thập, phân tích và hiểu được thông tin và hành động được nhờ vào những
thông tin đó là k thắng cuộc trong thời đại thông tin này. Chính vì vậy, việc tạo ra thông tin
và mức tiêu thụ thông tin ngày nay ngày càng gia tăng.
Cùng với chức năng khai thác có tính chất tác nghiệp, việc khai thác các cơ sở dữ liệu
(CSDL) phục vụ các yêu cầu trợ giúp quyết định ngày càng có ý nghĩa quan trọng và là nhu
cầu to lớn trong mọi lĩnh vực hoạt động kinh doanh, quản lý. D liệu được thu thập và lưu
trữ ngày càng nhiều nhưng người ra quyết định trong quản lý, kinh doanh lại cần những
thông tin bổ ích, những “tri thức” rút ra từ nguồn dữ liệu đó hơn là chính những dữ liệu đó
cho việc ra quyết định của mình.
Các nhu cầu đó đã được biết đến từ lâu nhưng mới thực sự bùng nổ từ thập niên 90
này. Do đó, những năm gần đây đã phát triển mạnh mẽ một loạt các lĩnh vực nghiên cứu về
tổ chức các kho d liệu và kho thông tin (data warehouse, information warehouse), các h tr
giúp quyết định, các phương pháp phát hiện tri thức và khai phá dữ liệu (data mining). Trong
đó, khai phá d liệu và phát hiện tri thức đã trở thành một lĩnh vực nghiên cứu sôi động, thu
hút sự quan tâm của rất nhiều người trên khắp các lĩnh vực khác nhau như các hệ cơ s dữ
liệu, thống kê, chiết xuất thông tin, nhận dạng, học máy, trí tuệ nhân tạo, v.v
Chúng ta đang sống trong thế giới thừa thông tin thiếu tri thức đó là nhận định của
nhiều người trong thời đại bùng nổ thông tin hiện nay.
Hàng ngày, chúng ta tiếp nhận nhiều thông tin từ nhiều nguồn khác nhau, kho dữ liệu
của các doanh nghiệp ngày càng lớn dần. Trong khi đó, việc khai thác tri thức từ những kho
dữ liệu đó chưa được quan tâm đúng mức. Kho dữ liệu phần lớn chỉ được sử dụng để xây
dựng các báo cáo mang tính thống kê. Trong những năm gần đây, Khai phá tri thức từ dữ liệu
(Knowledge Discovery in Database - KDD) và khai phá dữ liệu (Data Mining- DM) được
xem như một cách tiếp cận mới trong việc tìm kiếm tri thức từ dữ liệu. Sử dụng phương pháp
khai phá tri thức từ dữ liệu để dự đoán rủi khả năng gửi tiền có kỳ hạn của khách hạn là một
phương pháp mới nhằm nâng cao kh năng huy động vốn của Ngân hàng.
-Trang 2-
Với nhu cầu thiết thực đó chúng em đã chọn đề tài " Ứng dụng thuật toán cây quyết định
cho bài toán phân lớp trong xác định khả năng huy động vốn của ngân hàng thông qua
tiền gửi có kỳ hạn của khách hàng”
Nội dung nghiên cứu gồm 3 phần
Phần 1 : Tổng quan về khai phá dữ liệu
Phần 2 : Giới thiệu kỹ thuật phân lớp trong khai phá d liệu
Phần 2 : Triển khai ứng dụng phân lớp dữ liêu
Trong quá trình hoàn thành đề tài chúng em đã gặp phải một số khó khăn do việc tìm hiểu kỹ thuật
khai phá dữ liệu còn mới mẻ, khối lượng kiến thức trong lĩnh vực khai phá d liệu còn nhiều
liên tục được cập nhật nên chắc chắn không tránh khỏi những sai sót. Kính mong sự đóng góp ý
kiến của thầy giáo để chúng em cố gắng hoàn thiện tốt hơn.
-Trang 3-
CHƯƠNG 1
Tổng quan về khai phá d liệu
I. Khai phá d liệu (Data Mining)
Khai phá dữ liệu (Data mining) một khái niệm ra đời vào những năm cuối của thập kỷ
80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá tr tiềm ẩn trong các
tập dữ liệu lớn trong thực tế. V bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ
liệu và sử dụng các k thuật để tìm ra các mẫu hình có tính chính quy (regularities) t các tập dữ
liệu lớn nhằm mục đích d đoán các xu thế, các hành vi trong tương lai, hoặc tìm kiếm những
tập thông tin hữu ích bình thường không th nhận diện được. Năm 1989, Fayyad, Piatestsky-
Shapiro Smyth đã dùng khái niệm Phát hiện tri thức trong s dữ liệu (Knowledge
Discovery in Database-KDD) để ch toàn bộ qtrình phát hiện các tri thức có ích t các tập d
liệu lớn. Trong đó, khai phá d liệu một bước đặc biệt trong toàn b quá trình, sử dụng c
giải thuật đặc biệt để chiết xuất ra các mẫu (pattern) hay các mô hình t dữ liệu.
" Khai phá dữ liệu một quá trình khám phá các thông tin hữu ích từ các tập dữ liệu lớn,
sử dụng phân tích toán học để lấy được các mẫu các xu hướng tồn tại trong dữ liệu mà
thông thường những mẫu này không th được bằng khai thác dữ liệu truyền thống bởi
các mối quan h quá phức tạp và lượng dữ liệu quá lớn. "
Khai phá dữ liệu nhấn mạnh hai khía cạnh chính đó kh năng trích xuất thông tin ích
tự động (Automated) bán t động (Semi - Automated) mang tính dự đoán (Predictive). Khai
phá dữ liệu là một lĩnh vực liên ngành, liên quan chặt chẽ đến các lĩnh vực sau:
Statistics (Thống kê) : một số đo cho một thuộc tính nào đó của một tập mẫu. Mỗi giá trị
thống được tính bằng một hàm nào đó thông tin của môt thống mang tính đại diện
cho thông tin của tập mẫu mang lại.
Machine Learning (Máy học): một phương pháp để tạo ra các chương trình máy tính bằng
việc phân tích các tập dữ liệu. Máy học có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều
nghiên cứu việc phân tích d liệu, nhưng khác với thống kê, học y tập trung vào sự phức
tạp của các giải thuật trong việc thực thi tính toán.
Databases technology (Công ngh cơ sở dữ liệu): kho thông tin về một ch đề, được tổ chức hợp
lý để dễ dàng quản lý và truy tìm.
Visualization (Sự trực quan): Biểu diễn giúp dữ liệu dễ hiểu, dễ sử dụng, thuận tiện cho việc tạo
các báo cáo, tìm ra các tri thức phục vụ việc ra quyết định và d đoán của nhà quản lý.