HC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------
TRN ANH VIT
NGHIÊN CỨU MT S PHƢƠNG PHÁP PHÂN TÍCH D
LIỆU TRÊN BẢNG QUYẾT ĐỊNH TRONG H THNG
D LIU LN
Chuyên ngành: Hệ thống Thông tin
Mã số: 8.48.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2019
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: GS.TS VŨ ĐỨC THI
Phản biện 1: TS. Nguyễn Duy Phương
Phản biện 2: PGS.TS Nguyễn Hải Châu
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc tại Học
viện Công nghệ Bưu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu luận văn tại:
- Thư viện ca Hc viện Công nghệ Bưu chính Viễn thông
1
M ĐẦU
1. Lý do chọn đ tài
Các hệ thng d liu lớn cũng như các phương pháp phân tích d liu lớn đã
đưc nhiều nhà khoa học quan tâm nghiên cứu. Hướng phân tích dữ liệu trên các
bng quyết định mà cụ th là nghiên cứu các bài toán liên quan đến tập rút gọn trên
bng quyết định phát triển rất sôi động có nhiều ng dng trong thc tin.
Trong những năm gần đây, s phát trin mnh m ca ng ngh thông
tin đã làm cho kh năng thu thập lưu tr thông tin ca h thng thông tin tăng
nhanh mt cách nhanh cng. S bùng n này đã dn ti mt u cu cp thiết
là cn có nhng k thuật và công c mi đ t động chuyển đi lượng d liu
khng l kia thành c tri thức có ích. T đó, các k thuật khai phá d liệu đã
tr thành mt lĩnh vực thi s ca nn công ngh thông tin thế gii hiện nay nói
chung và Vit Nam nói rng.
Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực
kinh doanh đi sống khác nhau: Market tinh, tài chính ngân hàng bo him,
khoa hc kinh tế…Rất nhiu t chức công ty lớn trên thế giới đã áp dụng k
thuật khai phá dữ liệu vào các hoạt động sn xut kinh doanh của mình và thu được
nhiu lợi ích to lớn.
Trong thuyết tập thô, d liệu được biu diễn thông qua một h thông tin
IS=(U,A) vi U tập các đối tượng A tập thuộc tính. Phương pháp tiếp cn
chính của lý thuyết tập thô là dựa trên quan h không phân biệt được để đưa ra các
tp xp x ới và xấp x trên của nó. Xấp x i bao gồm các đối tượng chc
chn thuc tập đó, còn xp x trên chứa tt c các đối ợng khả năng thuộc v
tập đó. Nếu tp xp x i bng tp xp x trên thì tập đối tượng cần quan sát
tập rõ. Ngược li tập thô. Các tp xp x là cơ s đ đưa ra các kết lun t tp
d liu. Bng quyết định là h thông tin IS vi tp thuc tính A được chia tnh
hai tập con kc rng ri nhau C và D, lần lưt đưc gi là tp thuc tính điu
kiện và tp thuc nh quyết định. Nói cách kc, DS=(U,C
D) vi C
D
.
Bng quyết đnh là hình thưng gp trong thc tế, Khi giá tr d liu ti
2
c thuộc tính điu kiện th cung cấp cho ta thông tin v g tr ca thuc
nh quyết đnh. Bng quyết đnh là nhất quán khi ph thuộc m CD là đúng,
trái li không nhất quán.
Rút gọn thuộc tính ng dng quan trng nhất trong lý thuyết tập thô. Mục
tiêu của rút gọn thuộc tính là loại b các thuộc tính dư thừa để tìm ra các thuộc tính
ct yếu cần thiết trong sở d liu. Vi bng quyết định, t gọn thuộc tính
tp con nh nht ca tp thuộc tính điều kin bảo toàn thông tin phân lp ca bng
quyết định. Đối vi mt bng quyết định nhiều tập rút gọn khác nhau tuy nhiên
trong thực hành thường không đòi hỏi tìm tất c các tập rút gọn chỉ cần tìm
đưc mt tập rút gn tt nht theo một tiêu chuẩn đánh giá nào đó đủ. vy,
mỗi phương pháp rút gọn thuộc tính đều trình bày một thuật toán Heuristic tìm tp
rút gọn. Các thuộc tính này gim thiểu đáng k khối lượng tính toán, nhờ đó có thể
áp dụng đối với các bài toán có khối lượng d liu ln.
Cho bng quyết định nhất quán DS=(U,C
{d}), tp thuc tính R
C đưc
gọi tập rút gọn ca thuộc tính điu kin C nếu R tập ti thiu thỏa mãn phụ
thuộc hàm R→{d}. Xét quan h r trên tập thuộc tính R
C{d} được gọi một tp
ti thiu ca thuộc tính {d} nếu R tp thuộc tính tối thiu thỏa mãn phụ thuc
hàm R→{d}. Do đó, khái nim tập rút gọn ca bng quyết định tương đương vi
tp ti thiu ca thuộc tính {d} trên quan hệ, một vài bài toán trên bng quyết
định liên quan đến tập rút gọn có thể đưc gii quyết bng mt s kết qu liên quan
đến tp ti thiu ca mt thuộc tính trong s d liu quan h; bao gồm bài toán
tìm tp tt c các thuộc tính rút gọn, bài toán tìm h tt c các tập rút gọn, bài toán
trích lọc tri thức dưới dạng các phụ thuộc hàm t bng quyết định, bài toán xây
dng bng quyết định t tp ph thuộc m cho trước. Cho đến nay, hướng tiếp
cận này chưa được nhiu tác giả quan tâm nghiên cứu.
Trên bảng quyết định nhất quán, vấn đề nhiên cứu đặt ra xây dựng các
thuật toán ý nghĩa liên quan đến tập rút gọn s dng mt s kết qu liên quan
đến tp ti thiu ca mt thuộc tính trong một cơ sở d liu quan h.
3
2. Tng quan v vấn đề nghiên cứu
Nhiều chính phủ quốc gia như Hoa Kỳ cũng đã rất quan tâm đến d liu ln.
Trong tháng 3 năm 2012, chính quyền Obama đã công b mt khoản đầu tư 200
triệu USD để khởi động "Kế hoạch Nghiên cứu Phát triển Big Data", đã
một sáng kiến phát triển khoa học công nghệ ch yếu th hai sau khi "xa l
thông tin" bắt đầu vào năm 1993. Trong tháng 7 năm 2012 , d án "Đẩy mnh
công nghệ thông tin Nhật Bản" được ban hành bởi B Ni v Truyền thông
Nht Bn ch ra rng s phát triển Big Data, nên có một chiến lược quốc gia và các
công nghệ ng dụng nên trọng tâm. Trong tháng 7 năm 2012, Liên Hip Quc
đã đưa ra báo cáo Big Data cho phát trin, trong đó tóm tắt cách các chính ph s
dụng Big Data để phc v tốt hơn và bảo v người dân của h như thế nào.
Hin nay, mặc dù tầm quan trng của Big Data đã được tha nhn rộng rãi.
Xong vấn đề then cht trong vic x lí các hệ thống Big Data là nghiên cứu phát
triển các phương pháp phân tích dữ liệu mà thực chất là khai phá các hệ thng d
liu lớn để phát hiện tri thc. Luận văn này nghiên cứu tìm hiểu mt s phương
pháp phân tích dữ liu liên quan đến các tập rút gọn trên cấu trúc bảng quyết định
s dụng lí thuyết tập thô.
3. Mục đích nghiên cứu
Nghiên cứu và tìm hiu mt s nn tng ca h thng d liu lớn. Tìm hiểu
mt s lĩnh vực phân tích tìm các giá trị ca h thng d liu ln (thc chất là khai
phá dữ liệu tìm các tri thức).
Nghiên cứu và tìm hiu mt s thuật toán liên quan đến tập rút gn (tp
thuộc tính rút gọn bảo toàn thông tin phân lớp ca bng quyết định). Trên sở
này tiến hành xây dựng phn mm th nghim.
4. Đối tƣợng và phạm vi nghiên cứu
Nghiên cứu và tìm hiểu các tài liệu liên quan đến h thng d liu ln. Phm
vi nghiên cứu tập trung vào các nn tng ca h thng d liu ln bao gm nhng
định nghĩa, các đặc trưng, sự phát triển ca Big Data những thách thức Big
Data mang lại. Các phương pháp phân tích d liệu nói chung phân tích d liu
trên các bảng quyết định liên quan đến các tập rút gọn dùng đ phân lớp d liu.