
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
Nguyễn Thị Minh Huệ
ĐỀ TÀI : NGHIÊN CỨU KHO DỮ LIỆU CHUYÊN ĐỀ VÀ ỨNG
DỤNG TRONG VIỆC TRÍCH RÚT THÔNG TIN QUẢN LÝ ÁN
HÌNH SỰ TẠI VIỆN KIỂM SÁT NHÂN DÂN TỐI CAO
Chuyên ngành: Khoa học máy tính
MÃ Số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2012

Luậnvănđượchoànthànhtại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Ngườihướngdẫnkhoahọc: PGS.TS Đỗ Trung Tuấn
Phảnbiện 1: ……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
Phảnbiện 2: …………………………………………………………………………..
……………………………………………………………………………
……………………………………………………………………………
LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCôngnghệBưuchín
hViễnthông
Vàolúc: .......giờ ....... ngày ....... tháng ....... .. năm ...............
Cóthểtìmhiểuluậnvăntại:
- ThưviệncủaHọcviệnCôngnghệBưuchínhViễnthông

1
MỞ ĐẦU
Yêu cầu có được thông tin nhanh chóng, chính xác phục vụ cho công việc không dễ gì có được bởi
vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều nơi (phù hợp với tổ chức phân cấp của các đơn vị), ở
nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng phi cấu trúc. Nhiều hệ thống thông tin
đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây
dựng.
Đến nay, phương pháp xây dựng kho dữ liệu (Data Warehouse) đã phát triển cả về lý thuyết cũng
như thực tế. Bên cạnh đó các nhà cung cấp phần mềm cũng đưa ra các công cụ để xây dựng, duy trì phát
triển kho dữ liệu. Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới,
những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và công cụ tính toán mới nhằm hỗ
trợ họ trong việc trích xuất các thông tin hữu ích được nhúng bên trong các dữ liệu thu thập và tích luỹ. Do
đó việc nghiên cứu về Kho dữ liệu chuyên đề và xem xét khả năng ứng dụng trong việc xử lý dữ liệu là cần
thiết.
Hệ thống cơ quan Viện kiểm sát hiện nay được tổ chức theo cấp hành chính do đó Viện kiểm sát
nhân dân các cấp cũng được trang bị hệ thống các ứng dụng nghiệp vụ trong toàn ngành. Việc tập hợp và
quản trị các dữ liệu trên phạm vi toàn ngành để cung cấp cho quá trình “phân tích, đánh giá, kiểm tra, giám
sát, hỗ trợ ra quyết định” tình hình tội phạm trong từng giai đoạn là rất cần thiết. Đề tài này nghiên cứu về lý
thuyết, nắm chắc phương pháp luận và đưa ra phần thử nghiệm về trích rút thông tin theo yêu cầu của bài
toán cụ thể.
Luận văn bao gồm ba phần:
Chương I, giới thiệu chung về kho dữ liệu.
Chương II, cấu trúc kho dữ liệu và mô hình dữ liệu.
Chương III, ứng dụng trong việc trích rút thông tin quản lý án hình sự tại Viện kiểm sát nhân
dân tối cao.

2
CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU
Trong chương này, luận văn nêu một số khái niệm cơ bản về kho dữ liệu.
1.1. Về kho dữ liệu
Định nghĩa kho dữ liệu: Có nhiều đinh nghĩa kho dữ liệu, nhưng phổ biến nhất là định nghĩa kho dữ
liệu của Bill Inmon: "Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, mang tính tích hợp, ít thay đổi, và mỗi
đơn vị dữ liệu đều gắn với một khoảng thời gian cụ thể. Kho dữ liệu được thiết kế để hỗ trợ quản trị hệ hỗ trợ
quyết định".
1.1.1. Mục đích của kho dữ liệu
Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng. Giúp cho tổ chức, xác định,
quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác.
Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình như: có những quyết
định hợp lý, nhanh, hiệu quả, thu được lợi nhuận cao hơn…
1.1.2.. Các lợi ích của kho dữ liệu
Kho dữ liệu là một cơ sở dữ liệu được thiết kế đặc biệt cho các nhu cầu liên quan đến việc hỗ trợ ra
quyết định. Từ góc nhìn của người dùng, kho dữ liệu mang lại những lợi ích sau:
Dữ liệu lưu trữ tập trung tại một nơi.
Thông tin luôn được cập nhật.
Truy xuất nhanh.
Không giới hạn kích thước.
Dễ hiểu
Rõ ràng và đồng nhất.
Dữ liệu chuẩn hoá.
1.1.3. Sử dụng kho dữ liệu
Kho dữ liệu được sử dụng theo ba cách chính:
1. Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai thác các thông tin bằng các công
cụ vấn đáp và báo cáo.
2. Các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP). Trong khi ngôn ngữ truy
vấn chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có thể miêu tả những gì có trong CSDL
thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai.
3. Người ta đã đưa ra một phương pháp mới đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động
thực tiễn, đó chính là công nghệ khai phá dữ liệu (Data Mining). Đây chính là ứng dụng chính thứ ba của
kho dữ liệu.
1.2 Đặc điểm dữ liệu trong kho dữ liệu
Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gồm:

3
1.2.1. Hướng chủ thể
1.2.2. Tích hợp
1.2.3. Ít thay đổi
1.2.4. Tích thời gian cụ thể
1.2.5. Dữ liệu chi tiết và dữ liệu tổng hợp
1.3 Nguyên lý cơ bản
Kiến trúc chung của một kho dữ liệu thường gồm nhiều vùng chứa dữ liệu nhỏ. Những vùng chứa dữ
liệu này được phân loại dựa trên cấu trúc bao gồm :
Vùng xử lí: Là vùng chứa dữ liệu chuẩn bị cho việc biến đổi dữ liệu thu được từ nguồn trước khi
chuyển qua các vùng chứa dữ liệu khác trong kho dữ liệu. Trong các hình vẽ vùng này được viết tắt là
“STG”
Vùng chứa dữ liệu dạng chuẩn hoá: Là vùng chứa dữ liệu trung gian sau khi đã được biến đổi và tích
hợp từ nhiều nguồn khác nhau. Trong vùng này, dữ liệu được lưu trữ ở dạng chuẩn cao, thường là dạng
chuẩn 3. Dữ liệu trong vùng này đã sẵn sàng được nạp vào vùng kho dữ liệu đầu cuối mà không cần nhiều
biến đổi phức tạp. Trong các hình vẽ vùng này được viết tắt là “NDS”
Vùng chứa dữ liệu hoạt động: Là vùng chứa dữ liệu dạng lai giữa vùng dữ liệu chuẩn hoá và cơ sở
dữ liệu hoạt động. Mục đích của nó ngoài việc hỗ trợ cho việc nạp dữ liệu vào kho dữ liệu đầu cuối, còn
được dùng như là cơ sở dữ liệu hoạt động tập trung.
Kho dữ liệu đầu cuối, còn gọi là vùng dữ liệu đa chiều: Là vùng kho dữ liệu đầu cuối, phía người
dùng. Trong vùng này, dữ liệu được lưu trữ dưới dạng mô hình hoá đa chiều nhằm hỗ trợ các ứng dụng hay
truy vấn dạng phân tích đầu cuối.Trong các hình vẽ, vùng này được viết tắt là “DDS”, “DW” hay “DWH”.
Kho dữ liệu có rất nhiều loại kiến trúc. Từ đơn giản nhất, chỉ gồm một kho dữ liệu đầu cuối, đến rất
phức tạp, bao gồm nhiều kho dữ liệu trung gian, được sử dụng trong những hệ thống lớn. Tuy nhiên, hầu hết
các kiến trúc đều dựa trên 3 kiến trúc chung phổ biến sau:
1.3.1. Kiến trúc DDS đơn
Hình 3: Kiến trúc DSS đơn
Kiến trúc DDS đơn là một trong những dạng kiến trúc đơn giản nhất của kho dữ liệu. Kiến trúc này
có thành phần chính là một kho dữ liệu trung tâm.

