HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
Nguyễn Thị Minh Huệ
ĐỀ TÀI : NGHIÊN CỨU KHO DỮ LIỆU CHUYÊN ĐỀ VÀ ỨNG
DỤNG TRONG VIỆC TRÍCH RÚT THÔNG TIN QUẢN LÝ ÁN
HÌNH SỰ TẠI VIỆN KIỂM SÁT NHÂN DÂN TỐI CAO
Chuyên ngành: Khoa học máy tính
MÃ Số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC
HÀ NỘI – 2012
Luậnvănđượchoànthànhtại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Ngườihướngdẫnkhoahọc: PGS.TS Đỗ Trung Tuấn
Phảnbiện 1: …………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
Phảnbiện 2: …………………………………………………………………………..
……………………………………………………………………………
……………………………………………………………………………
LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCôngnghệBưuchín
hViễnthông
Vàolúc: .......giờ ....... ngày ....... tháng ....... .. năm ...............
Cóthểtìmhiểuluậnvăntại:
- ThưviệncủaHọcviệnCôngnghệBưuchínhViễnthông
1
MỞ ĐẦU
u cầu được thông tin nhanh chóng, chính xác phục vcho công việc không dễ được bởi
dữ liệu ngày một nhiều, lưu trữ phân tán nhiều nơi (phù hợp với t chức phân cấp của c đơn vị),
nhiều dạng không tương thích với nhau, thậm ccòn những dạng phi cấu trúc. Nhiều hệ thống thông tin
đã được xây dựng không tương thích với nhau không tương thích với những hệ thông tin mới được xây
dựng.
Đến nay, phương pháp y dựng kho dữ liệu (Data Warehouse) đã phát triển cả về thuyết cũng
như thực tế. Bên cạnh đó các nhà cung cấp phần mềm cũng đưa ra các công cụ đxây dựng, duy trì phát
triển kho dữ liệu. Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới,
những nhà ra quyết định xác định cần phải một thế hệ các kỹ thuật công cụ tính toán mi nhằm hỗ
trợ htrong việc trích xuất c thông tin hữu ích được nhúng bên trong các dữ liệu thu thập và tích luỹ. Do
đó việc nghiên cứu về Kho dliệu chuyên đvà xem t kh năng ng dụng trong việc xử dliệu cần
thiết.
Hệ thống quan Viện kiểm sát hiện nay được tổ chức theo cấp hành chính do đó Viện kiểm sát
nhân dân các cấp cũng được trang bhệ thống các ứng dụng nghiệp vụ trong toàn ngành. Việc tập hợp
quản trị các dữ liệu trên phạm vi toàn ngành đcung cấp cho quá trình “phân tích, đánh giá, kiểm tra, giám
sát, hỗ trợ ra quyết định” tình hình tội phm trong từng giai đoạn là rất cần thiết. Đề tài này nghiên cứu về lý
thuyết, nắm chắc phương pháp luận đưa ra phần thử nghiệm về trích rút thông tin theo yêu cầu của i
toán cụ thể.
Luận văn bao gồm ba phần:
Chương I, giới thiệu chung về kho dữ liệu.
Chương II, cấu trúc kho dữ liệu và mô hình dữ liệu.
Chương III, ứng dụng trong việc trích rút thông tin quản lý án hình sự tại Viện kiểm sát nhân
dân tối cao.
2
CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU
Trong chương này, luận văn nêu một số khái niệm cơ bản về kho dữ liệu.
1.1. Về kho dữ liệu
Định nghĩa kho dữ liệu: Có nhiều đinh nghĩa kho dliu, nhưng phổ biến nhất định nghĩa kho dữ
liệu của Bill Inmon: "Kho dữ liệu tập hợp dữ liệu hướng chđề, mang tính tích hợp, ít thay đổi, mỗi
đơn vdữ liệu đu gắn vi một khoảng thời gian cụ thể. Kho dữ liệu được thiết kế đ hỗ trợ quản trị hệ hỗ trợ
quyết định".
1.1.1. Mục đích của kho dữ liệu
Phải có kh năng đáp ứng mọi yêu cầu về thông tin của người sử dụng. Giúp cho tổ chức, xác định,
quản lý và điều hành các dự án, các nghip vụ một cách hiệu quả và chínhc.
Hỗ trợ đ các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình như: có những quyết
định hợp lý, nhanh, hiệu quả, thu được lợi nhuận cao hơn…
1.1.2.. Các lợi ích của kho dữ liệu
Kho dliu một sở dữ liu được thiết kế đặc bit cho các nhu cầu liên quan đến việc hỗ trra
quyết định. Từ góc nhìn của người dùng, kho dữ liệu mang lại những lợi ích sau:
Dữ liệu lưu trữ tập trung tại một nơi.
Thông tin luôn được cập nhật.
Truy xuất nhanh.
Không giới hn kích thước.
Dễ hiểu
Rõ ràng và đồng nht.
Dữ liệu chuẩn hoá.
1.1.3. Sử dụng kho dữ liệu
Kho dữ liệu được sử dụng theo ba cách chính:
1. Theo cách khai thác truyền thống, kho d liệu được s dụng đ khai thác các thông tin bằng các công
cụ vn đáp và báo cáo.
2. Các kho dữ liệu được sử dụng đ hỗ trợ cho phân tích trực tuyến (OLAP). Trong khi ngôn ng truy
vấn chuẩn SQL các công cụ làm báo cáo truyền thống chỉ thể miêu tả những có trong CSDL
thì phân tích trực tuyến có kh năng phân tích d liệu, xác định xem giả thuyết đúng hay sai.
3. Người ta đã đưa ra một phương pháp mới đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động
thực tiễn, đó chính là công ngh khai phá d liệu (Data Mining). Đây chính là ứng dụng chính thứ ba của
kho dliệu.
1.2 Đặc điểm dữ liệu trong kho dữ liệu
Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gồm:
3
1.2.1. Hướng chủ thể
1.2.2. Tích hợp
1.2.3. Ít thay đổi
1.2.4. Tích thời gian cụ thể
1.2.5. Dữ liệu chi tiết và dữ liệu tổng hợp
1.3 Nguyên lý cơ bản
Kiến trúc chung của một kho dữ liệu thường gồm nhiều vùng chứa dữ liu nhỏ. Những vùng chứa dữ
liệu này được phân loại dựa trên cấu trúc bao gồm :
Vùng xử : vùng chứa dữ liệu chuẩn bcho việc biến đổi dữ liệu thu được từ nguồn trước khi
chuyển qua các vùng chứa dữ liệu khác trong kho dữ liệu. Trong các hình vẽ vùng này được viết tắt
“STG”
Vùng chứa dữ liệu dạng chuẩn h: Là vùng chứa dữ liệu trung gian sau khi đã được biến đổi và tích
hợp tnhiều nguồn khác nhau. Trong vùng này, dữ liệu được lưu trdạng chuẩn cao, thường dạng
chuẩn 3. Dữ liệu trong vùng này đã sẵn sàng được nạp vào vùng kho dữ liệu đầu cuối mà không cần nhiều
biến đổi phức tạp. Trong các hình vẽ vùng này được viết tắt là “NDS”
Vùng chứa dữ liệu hoạt động: Là vùng chứa dữ liệu dạng lai giữa vùng dữ liệu chuẩn hoá sở
dữ liệu hoạt động. Mục đích của ngoài vic hỗ trcho việc nạp dữ liệu o kho dliệu đầu cuối, còn
được dùng như là cơ sở dữ liệu hoạt động tập trung.
Kho dữ liệu đầu cuối, còn gọi vùng dữ liệu đa chiều: vùng kho dữ liệu đầu cuối, pa người
dùng. Trong vùng này, dliệu được lưu trữ dưới dạng mô hình hoá đa chiều nhằm hỗ trợ các ứng dụng hay
truy vấn dng phân tích đầu cuối.Trong các hình vẽ, vùng này được viết tắt là “DDS”, “DW” hay “DWH”.
Kho dữ liệu có rất nhiều loại kiến trúc. Từ đơn giản nhất, chỉ gồm một kho dữ liu đầu cuối, đến rất
phức tạp, bao gồm nhiều kho dữ liệu trung gian, được sử dụng trong những hệ thống lớn. Tuy nhiên, hầu hết
các kiến trúc đều dựa trên 3 kiến trúc chung phổ biến sau:
1.3.1. Kiến trúc DDS đơn
Hình 3: Kiến trúc DSS đơn
Kiến trúc DDS đơn một trong những dng kiến trúc đơn giản nhất của kho dliệu. Kiến trúc này
thành phần chính là một kho dữ liệu trungm.