Tóm tắt Luận văn Thạc sĩ Khoa học máy tính: Khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -------------

TRẦN KHÁNH KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ SỬ DỤNG PHỦ TỐI THIỂU VÀ LỚP TƢƠNG ĐƢƠNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Thái Nguyên - 2015

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

MỤC LỤC

MỤC LỤC .................................................................................................................. i DANH MỤC VIẾT TẮT VÀ KÍ HIÊ ̣U .................................................................. iii DANH MỤC CÁC BẢNG BIỂU ............................................................................ iv

DANH MỤC CÁC HÌNH VẼ ................................................................................... v MỞ ĐẦU ........................................................................................................... 1 CHƢƠNG 1 ....................................................................................................... 4 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KHAI PHÁ PHỤ THUỘC HÀM, PHỤ THUỘC HÀM XẤP XỈ ................................................................ 4 1.1. Khai phá dữ liệu ..................................................................................... 4 1.1.1. Khám phá tri thức và khai phá dữ liệu ............................................ 4 1.1.2. Kiến trúc của hệ thống khai phá dữ liệu ......................................... 6 1.1.3. Quá trình khai phá dữ liệu ............................................................... 7 1.1.4. Một số kỹ thuật khai phá dữ liệu ..................................................... 8 1.1.5. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu ........................... 12 1.1.6. Một số ứng dụng của khai phá dữ liệu .......................................... 14 1.2. Khai phá phụ thuộc hàm và phụ thuộc hàm xấp xỉ .............................. 15 1.2.1. Khai phá phụ thuộc hàm. .............................................................. 15 1.2.2. Khai phá phụ thuộc hàm xấp xỉ .................................................... 19 1.2.2.1. Định nghĩa phụ thuộc hàm xấp xỉ .......................................... 20 1.2.2.2. Một số độ đo cơ bản ............................................................... 21

CHƢƠNG 2 THUẬT TOÁN KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ SỬ DỤNG PHỦ TỐI THIỂU VÀ LỚP TƢƠNG ĐƢƠNG ........................... 28 2.1. Lớp tƣơng đƣơng và phủ tối thiểu ....................................................... 29 2.1.1. Sự phân hoạch ............................................................................... 29 2.1.2. Phân hoạch mịn hơn ...................................................................... 31 2.1.3. Phủ tối thiểu .................................................................................. 32 2.1.4. Phụ thuộc hàm xấp xỉ và lớp tƣơng đƣơng ................................... 35 2.2. Thuật toán TANE sửa đổi ..................................................................... 38 2.2.1. Thủ tục chính của thuật toán TANE sửa đổi ................................. 38 2.2.2. Độ phức tạp của thuật toán TANE sửa đổi. .................................. 41

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

iii

2.3. Thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tƣơng đƣơng ................................................................................................ 41 2.3.1. Mô tả thuật toán ............................................................................ 41 2.3.2. Độ phức tạp của thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tƣơng đƣơng ............................................................ 44 2.3.3. Phân tích thử nghiệm, so sánh về độ phức tạp thời gian . ............ 45 2.3.3.1. Phân tích thử nghiệm. ............................................................ 45 2.3.3.2. So sánh về độ phức tạp thời gian (theo [8]) ........................... 46 CHƢƠNG 3 THỰC NGHIỆM KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ ... 48 3.1. Xây dựng chƣơng trình thực nghiệm ................................................... 48 3.1.1. Giới thiệu bài toán ......................................................................... 48 3.1.2. Dữ liệu thử nghiệm ....................................................................... 48 3.1.3. Xây dựng chƣơng trình thực nghiệm ............................................ 50 3.2. Thực nghiệm khai phá phụ thuộc hàm xấp xỉ ...................................... 50 3.3. Kết quả thực nghiệm ............................................................................ 51 KẾT LUẬN ..................................................................................................... 52 TÀI LIỆU THAM KHẢO ............................................................................... 53 PHỤ LỤC ........................................................................................................ 55

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

DANH MỤC VIẾT TẮT VÀ KÍ HIỆU SỬ DỤNG TRONG LUẬN VĂN

Ký hiệu Diễn giải

Quan hê ̣ trên tâ ̣p thuô ̣c tính U

Tâ ̣p m thuô ̣c tính.

S = (U, F) Lƣơ ̣c đồ quan hê ̣ vớ i U là tập thuộc tính , F là tập các phụ thuộc hàm trên U

LĐQH Lƣơ ̣c đồ quan hê ̣

CSDL Cơ sở dữ liệu

PTH Phụ thuộc hàm

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1: Ví dụ về quan hệ ............................................................................. 17

Bảng 1.2: Các thuật toán khai phá phụ thuộc hàm ......................................... 19

Bảng 1.3. Bảng quan hệ ví dụ về PTH xấp xỉ ................................................. 21

Bảng 1.4: Bảng dữ liệu quan hệ số ................................................................. 24

Bảng 1.5: Bảng quan hệ ví dụ ......................................................................... 25

Bảng 1.6: Bảng quan hệ ví dụ về phụ thuộc hàm điều kiện ........................... 27

Bảng 2.1: Bảng quan hệ vi dụ cho phân hoạch ............................................... 30

Bảng 2.2: Bảng quan hệ ví dụ cho phân hoạch mịn hơn ................................ 32

Bảng 2.3: Bảng quan hệ ví dụ cho phụ thuộc hàm xấp xỉ .............................. 36

Bảng 2.4: Thời gian thực hiện cho cả hai thuật toán ...................................... 45

Bảng 2.5: So sánh độ phức tạp thời gian dựa trên T(n) của hai thuật toán ..... 46

Bảng 3.1: Dữ liệu trích chọn để khai phá. ...................................................... 49

Bảng 3.2: Bảng mã hóa các thuộc tính ............................................................ 49

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

DANH MỤC CÁC HÌNH VẼ

Hình 1.1. Quá trình khám phá tri thức .............................................................. 5

Hình 1.2. Kiến trúc của hệ thống khai phá dữ liệu ........................................... 6

Hình 1.3: Quá trình khai phá dữ liệu................................................................. 7

Hình 1.4: Cây quyết định .................................................................................. 9

Hình 1.5: Mẫu kết quả của nhiệm vụ phân cụm dữ liệu ................................. 10

Hình 1.6: Mẫu kết quả của nhiệm vụ hồi quy ................................................. 11

Hình 1.7: Các loại phụ thuộc dữ liệu .............................................................. 16

Hình 1.8 : Kỹ thuật phát hiện phụ thuộc hàm ................................................. 18

Hình 2.1: Dàn cho các thuộc tính (A, B, C, D, E) .......................................... 38

Hình 3.1: Dữ liệu đã mã hóa chuẩn bị cho khai phá ....................................... 50

Hình 3.2: Giao diện kết quả đƣợc khai phá phụ thuộc hàm xấp xỉ ................. 51

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

MỞ ĐẦU

1. Đặt vấn đề

Trong những năm gần đây, Công nghệ thông tin (CNTT) phát triển mạnh

mẽ đã tác động đến mọi mặt của xã hội, những thành tựu của công nghệ lƣu trữ

đã cho phép tạo ra những nguồn dữ liệu khổng lồ. Việc khai thác các nguồn dữ

liệu này ngày càng cấp thiết, đặt ra những thách thức lớn cho ngành CNTT, đặc

biệt là lĩnh vực khai phá dữ liệu. Với nguồn dữ liệu lớn nhƣ vậy thì việc tìm

kiếm, phân tích, xử lý và đƣa ra các thông tin cần thiết, phù hợp với thời gian và

yêu cầu là điều không dễ dàng.

Các phƣơng pháp khai thác cơ sở dữ liệu truyền thống ngày càng không đáp

ứng đƣợc nhu cầu thực tế này. Vì vậy các phƣơng pháp nghiên cứu, tiếp cận với

những công cụ cho phép phân tích, tổng hợp, khai phá tri thức từ dữ liệu một

cách thông minh, hiệu quả đã đƣợc nhiều nhà khoa học quan tâm nghiên cứu.

Khái niệm phụ thuộc hàm đóng một vai trò rất quan trọng trong lý thuyết

cơ sở dữ liệu quan hệ. Các phụ thuộc hàm rất hữu ích trong việc phân tích và

thiết kế cơ sở dữ liệu quan hệ nhƣ xác định khóa, xác định các dạng chuẩn,

các vấn đề về nhất quán dữ liệu ... Tuy nhiên trong thực tế do có một số giá trị

dữ liệu không chính xác hoặc một số ngoại lệ nào đó làm cho các phụ thuộc

hàm không thỏa. Sự phụ thuộc tuyệt đối này dƣờng nhƣ quá nghiêm ngặt khi

ta hình dung tới một quan hệ có hàng nghìn bộ, trong khi đó chỉ có khoảng

vài bộ vi phạm phụ thuộc hàm. Bỏ qua các phụ thuộc hàm này sẽ làm mất tính

chất phụ thuộc vốn có giữa các thuộc tính. Vì vậy các nhà nghiên cứu đã mở

rộng khái niệm phụ thuộc hàm thành phụ thuộc hàm xấp xỉ theo một cách

thức, một nghĩa nào đó, các phụ thuộc hàm xấp xỉ (Approximate Functional

Dependencies - AFDs) này cho phép có một số lƣợng lỗi nhất định của các bộ

dữ liệu đối với phụ thuộc hàm.

Phụ thuộc hàm xấp xỉ đƣợc khai phá từ CSDL quan hệ biểu diễn các mối

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

quan hệ có ý nghĩa, có nhiều ứng dụng khác nhau nhƣ: Dự đoán giá trị thiếu

thuộc tính trong bảng quan hệ bằng cách sử dụng các giá trị của các thuộc tính

trong việc xác định tập hợp các AFDs, tối ƣu hóa truy vấn, viết lại câu truy

vấn, chuẩn hóa cơ sở dữ liệu để cho hiệu suất tốt hơn và thiết kế lƣu trữ hiệu

quả hơn,…

Luận văn sẽ tìm hiểu về phụ thuộc hàm xấp xỉ và nghiên cứu thuật toán

AFDMCEC, một thuật toán mới tìm các phụ thuộc hàm xấp xỉ trong các

CSDL lớn dựa trên độ đo xấp xỉ. Thuật toán này sử dụng một số khái niệm

trong lý thuyết thiết kế CSDL quan hệ, đặc biệt là các khái niệm phủ tối thiểu

và lớp tƣơng đƣơng.

2. Đối tƣợng và phạm vi nghiên cứu

Luận văn tìm hiểu tổng quan về khai phá dữ liệu, đi sâu tìm hiểu khái

niệm phụ thuộc hàm, phụ thuộc hàm xấp xỉ và các tính chất, độ đo lỗi của phụ

thuộc hàm xấp xỉ, từ đó nghiên cứu thuật toán TANE sửa đổi và thuật toán

AFDMCEC tìm phụ thuộc hàm xấp xỉ.

3. Hƣớng nghiên cứu của đề tài

- Tìm hiểu về phụ thuộc hàm, phụ thuộc hàm xấp xỉ và các độ đo lỗi của

chúng.

- Nghiên cứu về thuật toán khai phá phụ thuộc hàm xấp xỉ từ bảng quan

hệ.

4. Phƣơng pháp nghiên cứu

Phƣơng pháp nghiên cứu chính của luận văn là nghiên cứu lý thuyết kết

hợp với đánh giá thực nghiệm, cụ thể là: Phân tích, tổng hợp các kết quả

nghiên cứu về phụ thuộc hàm, phụ thuộc hàm xấp xỉ, … đã công bố trên các

bài báo khoa học, hội thảo chuyên ngành trong và ngoài nƣớc. Từ đó, trình

bày làm rõ vấn đề khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp

tƣơng đƣơng.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

5. Ý nghĩa khoa học và thực tiễn

Phụ thuộc hàm đóng vai trò quan trọng trong lý thuyết CSDL quan hệ.

Tuy nhiên, trong thực tế do có một số giá trị dữ liệu không chính xác hoặc

một số ngoại lệ nào đó, làm cho các phụ thuộc hàm không thỏa mãn. Sự phụ

thuộc tuyệt đối này dƣờng nhƣ quá nghiêm ngặt khi ta hình dung một quan hệ

có hàng nghìn bộ, trong khi đó chỉ có vài bộ vi phạm phụ thuộc hàm. Do vậy,

mở rộng khái niệm phụ thuộc hàm thành phụ thuộc hàm xấp xỉ, cho phép có

một số lỗi nhất định của các bộ dữ liệu, là rất cần thiết và có ý nghĩa cả về

mặt lý thuyết cũng nhƣ thực tiễn.

Các phụ thuộc hàm xấp xỉ không những giúp chúng ta thấy đƣợc mối

quan hệ tiềm ẩn giữa các thuộc tính mà còn giúp ta thuận tiện hơn trong việc

phân tích dữ liệu, đánh giá thông tin.

Phát hiện phụ thuộc hàm xấp xỉ trong CSDL là một vấn đề nghiên cứu hấp

dẫn và cũng là một trong những mục tiêu của phát hiện tri thức. Tiếp cận phụ

thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tƣơng đƣơng của khai phá dữ

liệu là một hƣớng đi thú vị, hứa hẹn nhiều kết quả và ứng dụng hiệu quả trong

thực tiễn.

6. Cấu trúc luận văn:

Luận văn đƣợc trình bày trong 3 chƣơng:

Chƣơng 1: Tổng quan về khai phá dữ liệu và khai phá phụ thuộc hàm, phụ

thuộc hàm xấp xỉ.

Chƣơng 2: Thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu

và lớp tƣơng đƣơng.

Chƣơng 3: Thực nghiệm khai phá phụ thuộc hàm xấp xỉ.

Cuối cùng là kết luận của luận văn và tài liệu tham khảo.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

CHƢƠNG 1

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KHAI PHÁ PHỤ THUỘC

HÀM, PHỤ THUỘC HÀM XẤP XỈ

1.1. Khai phá dữ liệu

1.1.1. Khám phá tri thức và khai phá dữ liệu

Khai phá dữ liệu (KPDL) là việc rút trích tri thức một cách tự động và hiệu

quả từ một khối dữ liệu lớn. Tri thức đó thƣờng ở dạng các mẫu có tính chất

không tầm thƣờng, không tƣờng minh (ẩn), chƣa đƣợc biết đến và có tiềm năng

mang lại lợi ích. Có một số nhà nghiên cứu còn gọi KPDL là phát hiện tri thức

từ cơ sở dữ liệu (Knowledge Discovery in Database – KDD). Ở đây chúng ta có

thể coi KPDL là cốt lõi của quá trình phát hiện tri thức.

Quá trình phát hiện tri thức gồm các bƣớc:

Bƣớc 1: Trích chọn dữ liệu (data selection): Là bƣớc trích chọn những tập

dữ liệu cần đƣợc khai phá từ các tập dữ liệu lớn (databases, data ware houses).

Bƣớc 2: Tiền xử lý dữ liệu (data preprocessing): Là bƣớc làm sạch dữ liệu

(xử lý dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán,…v.v), rút

gọn dữ liệu (sử dụng các phƣơng pháp thu gọn dữ liệu, histograms, lấy

mẫu…v.v), rời rạc hóa dữ liệu (dựa vào histograms, entropy, phân

khoảng,...v.v). Sau bƣớc này, dữ liệu sẽ nhất quán, đầy đủ, đƣợc rút gọn và

đƣợc rời rạc hóa.

Bƣớc 3: Biến đổi dữ liệu (data transformation): Là bƣớc chuẩn hóa và

làm mịn dữ liệu để đƣa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ

thuật khai thác ở bƣớc sau.

Bƣớc 4: Khai phá dữ liệu (data mining): Đây là bƣớc quan trọng và tốn

nhiều thời gian nhất của quá trình khám phá tri thức, áp dụng các kỹ thuật khai

phá (phần lớn là các kỹ thuật của machine learning) để khai phá, trích chọn

đƣợc các mẫu (pattern) thông tin, các mối liên hệ đặc biệt trong dữ liệu.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

Bƣớc 5: Đánh giá và biểu diễn tri thức (knowledge representation &

evaluation): Dùng các kỹ thuật hiển thị dữ liệu để trình bày các mẫu thông tin

(tri thức) và mối liên hệ đặc biệt trong dữ liệu đã đƣợc khai thác ở bƣớc trên

biểu diễn theo dạng gần gũi với ngƣời sử dụng nhƣ đồ thị, cây, bảng biểu,

luật,…v.v. Đồng thời bƣớc này cũng đánh giá những tri thức khám phá đƣợc

theo những tiêu chí nhất định.

Trong giai đoạn khai phá dữ liệu, có thể cần sự tƣơng tác của ngƣời dùng để

điều chỉnh và rút ra các tri thức cần thiết nhất. Các tri thức nhận đƣợc cũng có

thể đƣợc lƣu và sử dụng lại.

Các Tri thức

Các mẫu

Dữ liệu đã sạch

Dữ liệu đã chọn

5.Đánh giá và biểu diễn tri thức knowledge representation & evaluation

4.Khai phá dữ liệu data mining

Kho dữ liệu

3.Biến đổi dữ liệu data transformation

2. Tiền xử lý dữ liệu data preprocessing

1. Trích chọn dữ liệu data selection

Hình 1.1. Quá trình khám phá tri thức

Việc KPDL có thể đƣợc tiến hành trên một lƣợng lớn dữ liệu có trong

CSDL, các kho dữ liệu hoặc trong các loại lƣu trữ thông tin khác.

Các mẫu đáng quan tâm có thể đƣợc đƣa đến ngƣời dùng hoặc đƣợc lƣu trữ

trong một cơ sở tri thức.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

1.1.2. Kiến trúc của hệ thống khai phá dữ liệu

Kiến trúc của một hệ thống KPDL điển hình có thể có các thành phần phần

nhƣ hình 1.2.

- CSDL, kho dữ liệu hoặc các lƣu trữ thông tin khác (Databases, Data

ware house,…): Đây là một hay một tập CSDL, các kho dữ liệu, các trang tính

hay các dạng lƣu trữ thông tin khác. Các kỹ thuật làm sạch dữ liệu và tích hợp

dữ liệu có thể đƣợc thực hiện trên những dữ liệu này.

Giao diện đồ họa cho ngƣời dùng

(Graphical user interface)

(Pattern evaluation)

Đánh giá mẫu

Cơ sở dữ liệu

(Data mining engine)

Máy khai phá dữ liệu

(Knowledge-base)

(Database or Warehouse Server

Máy chủ CSDL hay ho dữ liệu

Làm sạch: Tích hợp dữ liệu, lọc

Cơ sở dữ liệu

Kho dữ liệu

Các lƣu trữ thông tin khác

Hình 1.2. Kiến trúc của hệ thống khai phá dữ liệu

- Máy chủ CSDL hay máy chủ kho dữ liệu (Database or Warehouse

Server): Máy chủ này có trách nhiệm lấy những dữ liệu tích hợp dựa trên các

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

yêu cầu khai phá của ngƣời dùng.

- Cơ sở tri thức (Knowledge-base): Đây là miền tri thức dùng để hƣớng

dẫn việc tìm kiếm hay đánh giá độ quan trọng của các hình mẫu kết quả.

- Máy KPDL (Data mining engine): Một hệ thống KPDL cần phải có một

tập các modun chức năng để thực hiện công việc nhƣ: đặc trƣng hóa, kết hợp,

phân lớp, phân cụm, phân tích sự tiến hóa.

- Modun đánh giá mẫu (Pattern evaluation): Bộ phận này tƣơng tác với

các modun KPDL để duyệt tìm các mẫu đáng đƣợc quan tâm. Nó có thể dùng

các ngƣỡng về độ quan tâm để lọc mẫu đã khám phá đƣợc. Cũng có thể modun

đánh giá mẫu đƣợc tích hợp vào modun khai phá, tùy theo cách cài đặt của

phƣơng pháp khai phá đƣợc dùng.

- Giao diện đồ họa ngƣời dùng (Graphical user interface): Bộ phận này

còn cho phép ngƣời dùng giao tiếp với hệ thống KPDL. Ngoài ra, bộ phận này

còn cho phép ngƣời dùng xem các lƣợc đồ CSDL, lƣợc đồ kho dữ liệu (hay các

cấu trúc dữ liệu), các đánh giá mẫu và hiển thị các mẫu trong các khuôn dạng

khác nhau.

1.1.3. Quá trình khai phá dữ liệu

Thống kê tóm tắt

Mẫu

Giải thuật khai phá DL

Xác định dữ liệu liên quan

Thu thập và tiền xử lý DL

Quá trình khai phá dữ liệu đƣợc thể hiện bởi mô hình sau:

Dữ liệu trực tiếp

Xác định nhiệm vụ

Hình 1.3: Quá trình khai phá dữ liệu

+ Xác định nhiệm vụ: Xác định chính xác vấn đề cần giải quyết.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

+ Xác định các dữ liệu liên quan dùng để xây dựng giải pháp.

+ Thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải

thuật khai phá dữ liệu có thể hiểu đƣợc. Ở đây có thể gặp một số vấn đề: dữ liệu

phải đƣợc sao ra nhiều bản (nếu đƣợc chiết suất vào các tệp), quản lý tập các tệp

dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay

đổi v.v.).

+ Chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ

liệu: nhằm tìm đƣợc các mẫu (pattern) có ý nghĩa dƣới dạng biểu diễn tƣơng

ứng với các ý nghĩa đó.

1.1.4. Một số kỹ thuật khai phá dữ liệu

Mục đích của khai phá dữ liệu là chiết xuất ra các tri thức có lợi cho kinh

doanh hay cho nghiên cứu khoa học… Do đó, ta có thể xem mục đích của khai

phá dữ liệu sẽ là mô tả các sự kiện và dự đoán. Các mẫu khai phá dữ liệu phát

hiện đƣợc nhằm vào mục đích này. Dự đoán liên quan đến việc sử dụng các

biến hoặc các đối tƣợng (bản ghi) trong CSDL để chiết xuất ra các mẫu, dự

đoán đƣợc những giá trị chƣa biết hoặc những giá trị tƣơng lai của các biến

đáng quan tâm. Mô tả tập trung vào việc tìm kiếm các mẫu mô tả dữ liệu mà

con ngƣời có thể hiểu đƣợc.

Một số kỹ thuật chính của khai phá dữ liệu:

Phân lớp dữ liệu

Khái niệm phân lớp dữ liệu đƣợc Han và Kamber đƣa ra năm 2000. Phân

lớp dữ liệu là xây dựng một mô hình mà có thể phân các đối tƣợng thành những

lớp để dự đoán giá trị bị mất tại một số thuộc tính của dữ liệu hay tiên đoán giá

trị của dữ liệu sẽ xuất hiện trong tƣơng lai.

Quá trình phân lớp dữ liệu đƣợc thực hiện qua hai bƣớc. Bước thứ nhất:

Dựa vào tập hợp dữ liệu huấn luyện, xây dựng một mô hình mô tả những đặc

trƣng của những lớp dữ liệu hoặc những khái niệm, đây là quá trình học có

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

giám sát, học theo mẫu đƣợc cung cấp trƣớc. Bước thứ hai: Từ những lớp dữ

liệu hoặc những khái niệm đã đƣợc xác định trƣớc, dự đoán giá trị của những

đối tƣợng quan tâm.

Một kỹ thuật phân lớp dữ liệu đƣợc Han và Kamber đƣa ra là cây quyết định.

Mỗi nút của cây đại diện một quyết định dựa vào giá trị thuộc tính tƣơng ứng.

Kỹ thuật này đã đƣợc nhiều tác giả nghiên cứu và đƣa ra nhiều thuật toán.

Một ví dụ tiêu biểu về cây quyết định:

Hình 1.4: Cây quyết định

Trong hình 1.4 là một cây quyết định cho lớp mua laptop, chỉ ra một khách

hàng sẽ mua hay không mua một laptop. Mỗi nút lá đại diện một lớp mà đánh

giá mua laptop là Yes hay No. Sau khi mô hình này đƣợc xây dựng, chúng ta có

thể dự đoán việc có thể mua một laptop hay không dựa vào những thuộc tính

khách hàng mới là tuổi và nghề nghiệp. Cây quyết định có thể ứng dụng rộng

rãi trong nhiều hoạt động của đời sống thực.

Phân nhóm dữ liệu

Phân nhóm là kỹ thuật khai phá dữ liệu tƣơng tự nhƣ phân lớp dữ liệu. Tuy

nhiên, sự phân nhóm dữ liệu là quá trình học không đƣợc giám sát, là quá trình

nhóm những đối tƣợng vào trong những lớp tƣơng đƣơng, đến những đối tƣợng

trong một nhóm là tƣơng đƣơng nhau, chúng phải khác với những đối tƣợng

trong những nhóm khác. Trong phân lớp dữ liệu, một bản ghi thuộc về lớp nào

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

là phải xác định trƣớc, trong khi phân nhóm không xác định trƣớc. Trong phân

nhóm, những đối tƣợng đƣợc nhóm lại cùng nhau dựa vào sự giống nhau của

chúng. Sự giống nhau giữa những đối tƣợng đƣợc xác định bởi những chức

năng giống nhau. Thông thƣờng những sự giống về định lƣợng nhƣ khoảng

cách hoặc độ đo khác đƣợc xác định bởi những chuyên gia trong lĩnh vực của

mình.

Hình 1.5: Mẫu kết quả của nhiệm vụ phân cụm dữ liệu

Đa số các ứng dụng phân nhóm đƣợc sử dụng trong sự phân chia thị trƣờng.

Với sự phân nhóm khách hàng vào trong từng nhóm, những doanh nghiệp có

thể cung cấp những dịch vụ khác nhau tới nhóm khách hàng một cách thuận lợi.

Ví dụ, dựa vào chi tiêu, số tiền trong tài khoản và việc rút tiền của khách hàng,

một ngân hàng có thể xếp những khách hàng vào những nhóm khác nhau. Với

mỗi nhóm, ngân hàng có thể cho vay những khoản tiền tƣơng ứng cho việc mua

nhà, mua xe,… Trong trƣờng hợp này ngân hàng có thể cung cấp những dịch vụ

tốt hơn và cũng chắc chắn rằng tất cả các khoản tiền cho vay đều có thể thu hồi

đƣợc. Ta có thể tham khảo một khảo sát toàn diện về kỹ thuật và thuật toán phân

nhóm trong.

Hồi qui (Regression): Là việc học một hàm ánh xạ từ một tập dữ liệu thành

một biến dự đoán có giá trị thực. Nhiệm vụ hồi qui tƣơng tự nhƣ phân lớp, điểm

khác nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ không rời rạc [6].

Việc dự báo các giá trị số thƣờng đƣợc làm bởi các phƣơng pháp thống kê cổ

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

điển chẳng hạn nhƣ hồi qui tuyến tính. Tuy nhiên, phƣơng pháp mô hình hóa

Nợ

đƣờng hồi quy tuyến tính

Thu nhập

cũng đƣợc sử dụng.

+ 0 0 0 + 0 0 0 + + 0 0 + + 0 Hình 1.6: Mẫu kết quả của nhiệm vụ hồi quy 0 0 + + 0 0 + 0 Ứng dụng của hồi quy là rất nhiều, ví dụ: dự đoán số lƣợng sinh vật phát

quang hiện thời trong khu rừng bằng cách dò tìm vi sóng bằng thiết bị cảm biến

từ xa; dự đoán khả năng tử vong của bệnh nhân khi biết các kết quả xét nghiệm

chẩn đoán; dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu

quảng cáo… hình 1.6 chỉ ra mẫu kết quả hồi quy tuyến tính đơn giản, ở đây

tổng số nợ đƣợc điều chỉnh cho phù hợp giống nhƣ một hàm thu nhập tuyến

tính. Việc điều chỉnh này là không đáng kể bởi vì chỉ tồn tại một tƣơng quan

yếu giữa hai biến.

Tổng hợp (summarization): Là công việc liên quan đến các phƣơng pháp

tìm kiếm một mô tả cô đọng cho tập con dữ liệu. Các kỹ thuật tổng hợp thƣờng

đƣợc áp dụng trong việc phân tích dữ liệu có tính thăm dò và báo cáo tự động.

Mô hình hóa phụ thuộc (dependency modeling): Là việc tìm kiếm mô tả

các phụ thuộc quan trọng giữa các biến. Mô hình phụ thuộc tồn tại hai mức:

Mức cấu trúc của mô hình (thƣờng dƣới dạng đồ thị) xác định các biến phụ

thuộc cục bộ vào các biến khác;

Mức định lƣợng của mô hình xác định mức độ phụ thuộc của biến. Những

phụ thuộc này thƣờng đƣợc biểu thị dƣới dạng luật.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

Quan hệ phụ thuộc cũng có thể biểu diễn dƣới dạng mạng tin cậy [6]. Đó là

đồ thị có hƣớng không có dạng chu trình, các nút biểu diễn thuộc tính và trọng

số chỉ liên kết phụ thuộc giữa các nút đó.

Phát hiện sự thay đổi và độ lệch (change and deviation dectection):

Nhiệm vụ này tập trung vào khám phá những thay đổi có ý nghĩa trong dữ liệu

dựa vào các giá trị chuẩn hay độ đo đã biết trƣớc, phát hiện độ lệch đáng kể

giữa nội dung của tập con dữ liệu và nội dung mong đợi. Hai mô hình độ lệch

thƣờng dùng là lệch theo thời gian và lệch theo nhóm. Độ lệch theo thời gian là

sự thay đổi có nghĩa của dữ liệu theo thời gian. Độ lệch theo nhóm là sự khác

nhau giữa dữ liệu trong hai tập con dữ liệu, tính cả trƣờng hợp tập con của đối

tƣợng này thuộc tập con kia, nghĩa là xác định dữ liệu trong một nhóm con của

đối tƣợng có khác nhau đáng kể so với toàn bộ đối tƣợng.

1.1.5. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu

Dựa vào những kiểu dữ liệu mà kỹ thuật khai phá áp dụng, có thể chia dữ

liệu thành các loại khác nhau.

Cơ sở dữ liệu quan hệ

Đến nay, hầu hết dữ liệu đƣợc lƣu giữ dƣới dạng cơ sở dữ liệu quan hệ. Cơ

sở dữ liệu quan hệ là một nguồn tài nguyên lớn nhất chứa những đối tƣợng mà

chúng ta cần khai phá. Cơ sở dữ liệu quan hệ có cấu trúc cao, dữ liệu đƣợc mô

tả bởi một tập những thuộc tính và lƣu trong những bảng. Khai phá dữ liệu trên

cơ sở dữ liệu quan hệ chủ yếu tập trung khai phá mẫu. Ví dụ, trong cơ sở dữ liệu

của một ngân hàng, ta có thể tìm đƣợc những khách hàng có mức chi tiêu cao, ta

có thể phân loại những khách hàng này dựa vào quá trình chi tiêu của họ. Cũng

với việc phân tích những mục tiêu của khách hàng, chúng ta có thể cung cấp

một số thông tin của khách hàng đến những doanh nghiệp khác. Giả sử rằng

một khách hàng chi mỗi tháng 500 đô la cho thời trang, nếu đƣợc phép, ngân

hàng có thể cung cấp thông tin về khách hàng này cho những cửa hàng thời

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

trang.

Cơ sở dữ liệu giao tác

Cơ sở dữ liệu giao tác là tập hợp những bản ghi giao dịch, trong đa số các

trƣờng hợp chúng là những bản ghi các dữ liệu hoạt động của doanh nghiệp, tổ

chức. Với tính phổ biến của máy tính và thƣơng mại điện tử, ngày nay có rất

nhiều cơ sở dữ liệu giao tác.

Cơ sở dữ liệu không gian

Cơ sở dữ liệu không gian bao gồm hai phần: Phần thứ nhất là dữ liệu quan

hệ hay giao tác, phần thứ hai là thông tin định vị hoặc thông tin địa lý. Ví dụ,

những luật kết hợp trên cơ sở dữ liệu không gian mô tả mối quan hệ giữa các

đặc trƣng trong cơ sở dữ liệu không gian. Dạng của luật kết hợp không gian có

dạng X Y, với X, Y là tập hợp những vị từ không gian. Những thuật toán

khai phá luật kết hợp không gian tƣơng tự nhƣ khai phá luật kết hợp nhƣng

thêm những vị từ về không gian.

Cơ sở dữ liệu có yếu tố thời gian

Giống nhƣ cơ sở dữ liệu không gian, cơ sở dữ liệu có yếu tố thời gian bao

gồm hai phần: Phần thứ nhất là dữ liệu quan hệ hay giao tác, phần thứ hai là

thông tin về thời gian xuất hiện dữ liệu ở phần thứ nhất. Những luật kết hợp có

yếu tố thời gian có nhiều thông tin hơn những luật kết hợp cơ bản. Ví dụ, từ luật

kết hợp cơ bản {Bia} {Thuốc lá}, với dữ liệu có yếu tố thời gian chúng ta có

thể có nhiều luật: Độ hỗ trợ của luật {Bia} {Thuốc lá} là 20% từ 9 giờ đến

13 giờ là 50% trong thời gian từ 19 giờ tới 22 giờ. Rõ ràng rằng, những ngƣời

bán lẻ có thể xác định chiến lƣợc để buôn bán tốt hơn.

Hầu hết nghiên cứu về lĩnh vực này ngày nay hình thành một hƣớng khai

phá dữ liệu mới gọi là khai phá mẫu lặp liên tục, khai phá tập mục dữ liệu

thƣờng xuyên trong cơ sở dữ liệu thời gian.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

Cơ sở dữ liệu đa phƣơng tiện

Số lƣợng trang web đang bùng nổ trên thế giới, web có mặt ở khắp mọi nơi,

duyệt web đã là nhu cầu của mọi tầng lớp trong xã hội. Thông tin trên web đang

phát triển với tốc độ rất cao, khai phá thông tin trên web (web mining) đã trở

thành một lĩnh vực nghiên cứu chính của khai phá dữ liệu, đƣợc các nhà nghiên

cứu đặc biệt quan tâm. Khai phá dữ liệu web thông thƣờng đƣợc chia thành ba

phạm trù chính: Khai phá cách dùng web (web usage mining), khai phá cấu trúc

web (web structure mining) và khai phá nội dung web (web content mining).

Khai phá cách dùng web tập trung vào việc khai phá thông tin của ngƣời

truy cập web. Với những thông tin này ngƣời khai phá dữ liệu có thể cung cấp

những thông tin hữu ích cho ngƣời dùng và các nhà kinh doanh.

1.1.6. Một số ứng dụng của khai phá dữ liệu

KPDL đƣợc vận dụng trong nhiều lĩnh vực khác nhau nhằm khai thác

nguồn dữ liệu phong phú đƣợc lƣu trữ trong các hệ thống thông tin. Tuỳ theo

bản chất của từng lĩnh vực, việc vận dụng KPDL có những cách tiếp cận khác

nhau.

KPDL đƣợc vận dụng có hiệu quả để giải quyết các bài toán phức tạp

trong những ngành đòi hỏi kỹ thuật cao nhƣ: tìm kiếm mỏ dầu từ ảnh viễn thám,

xác định vùng gãy trong ảnh địa chất để dự đoán thiên tai, cảnh báo hỏng hóc

trong các hệ thống sản xuất.

Phân nhóm và dự đoán là những kỹ thuật rất cần thiết cho việc quy hoạch

và phát triển hệ thống quản lý và sản xuất trong thực tế nhƣ: dự đoán tái sử dụng

điện năng cho các công ty cung cấp điện, lƣu lƣợng viễn thông cho các công ty

điện thoại, mức độ tiêu thụ sản phẩm cho các nhà sản xuất, giá trị của sản phẩm

trên thị trƣờng cho các công ty tài chính hay phân nhóm khách hàng tiềm năng.

Ngoài ra KPDL còn đƣợc áp dụng trong việc giải quyết các vấn đề xã hội

nhƣ: phát hiện tội phạm hay tăng cƣờng an ninh xã hội và mang lại những hiệu

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

quả thiết thực cho các hoạt động trong đời sống hàng ngày.

Một số ứng dụng cụ thể nhƣ sau:

- KPDL đƣợc sử dụng để phân tích dữ liệu, hỗ trợ ra quyết định.

- Trong sinh học: nó dùng để tìm kiếm, so sánh các hệ gen và thông tin di

truyền, tìm mối liên hệ giữa các hệ gen và chẩn đoán một số bệnh di truyền.

- Trong y học: KPDL giúp tìm ra mối liên hệ giữa các triệu chứng, chẩn

đoán bệnh.

- Tài chính và thị trƣờng chứng khoán: KPDL dùng để phân tích tình

hình tài chính, phân tích đầu tƣ, phân tích cổ phiếu.

- Khai thác dữ liệu web.

- Trong thông tin kỹ thuật: KPDL dùng để phân tích các sai hỏng, điều

khiển và lập lịch trình.

- Trong thông tin thƣơng mại: dùng để phân tích dữ liệu ngƣời dùng,

phân tích dữ liệu marketing, phân tích đầu tƣ, phát hiện các gian lận.

- Trong công nghiệp viễn thông: Phân tích nhu cầu và phân tích các mẫu

gian lận và xác định các mẫu khác thƣờng.

1.2. Khai phá phụ thuộc hàm và phụ thuộc hàm xấp xỉ

1.2.1. Khai phá phụ thuộc hàm

Phụ thuộc hàm biểu diễn mối quan hệ giữa các thuộc tính của một cơ sở dữ

liệu, một phụ thuộc hàm chỉ ra rằng giá trị của một thuộc tính đƣợc xác định

duy nhất bởi giá trị của một số thuộc tính khác. Phụ thuộc hàm đóng vai trò

quan trọng trong chuẩn hóa cơ sở dữ liệu, phát hiện các phụ thuộc hàm cũng có

thể giúp các nhà thiết kế cơ sở dữ liệu tách một lƣợc đồ quan hệ thành nhiều

lƣợc đồ quan hệ đạt dạng chuẩn cao hơn.

Một CSDL thiết kế không tốt trong là cơ sở dữ liệu có dƣ thừa thông tin,

gặp bất thƣờng cập nhật, bất thƣờng khi chèn, bất thƣờng khi xóa. Chuẩn hóa là

quá trình thiết kế lại lƣợc đồ cơ sở dữ liệu để đảm bảo cho nó không có các dị

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

thƣờng. Chuẩn hóa chia các quan hệ thành các quan hệ nhỏ hơn và mỗi quan hệ

nhỏ đó ở một dạng chuẩn mong muốn. Điều kiện để biến đổi từ dạng chuẩn này

sang dạng chuẩn kia là sự ràng buộc giữa các bộ thuộc tính trong quan hệ, ràng

buộc đó đƣợc biểu diễn bằng phụ thuộc hàm.

Phụ thuộc của các thuộc tính: có 3 loại phụ thuộc của các thuộc tính

thƣờng đƣợc khám phá là : phụ thuộc hàm (FD), phụ thuộc có điều kiện

(CFDs) và phụ thuộc bao gồm (INDs). Hình 1.7 biểu diễn các loại phụ thuộc

dữ liệu (theo [11]).

Khai phá dữ liệu

CFDs FD INDs

Hình 1.7: Các loại phụ thuộc dữ liệu

. Mỗi thuô ̣c Cho tâ ̣p hƣ̃u ha ̣n khác rỗng các thuô ̣c tính

tính có một miền giá trị tƣơng ứng . Mô ̣t quan hê ̣

trên U, ký hiệu R (U) hoă ̣c R nếu không sơ ̣ nhầm lẫn , là một tập con của tích

Descartes .

Mô ̣t cách hình thƣ́ c:

Các phần tử của quan hệ R đƣơ ̣c go ̣i là các bộ. Mô ̣t quan hê ̣ không chƣ́ a

bô ̣ nào đƣơ ̣c go ̣i là quan hê ̣ rỗng.

Kí hiệu: t[X] là phép chiếu của bộ t trên tập thuộc tính X, .

Định nghĩa 1.1: Mô ̣t phụ thuộc hàm (PTH) trên quan hê ̣ R (U) là một mệnh

đề có dạng X → Y (trong đó X, Y ⊆ U). Ta nói PTH X → Y đú ng trên quan hê ̣

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

R, nếu:

Khi PTH X → Y đú ng trên quan hê ̣ R. Ngƣờ i ta còn nói R thỏa PTH X →

Y và ký hiệu R (X → Y).

Ví dụ. Xét quan hệ R trên tâ ̣p thuô ̣c tính U = {T, A, B, C} cho trên bảng

1.1 nhƣ sau:

T A B C

1 a1 b1 c1 R = 2 a2 b2 c2

3 a2 b2 c3

Bảng 1.1: Ví dụ về quan hệ

Ta có : Chẳng ha ̣n R thỏa các PTH {T} → {A, B, C}, {C} → {T, A, B}, {A}

→ {B}, … và không thỏa PTH {B} → {C}, …

Nhƣ vâ ̣y, có thể thấy PTH (trên quan hê ̣) là sự phụ thuộc của một số thuộc

tính vào một số thuộc tính khác.

Mô ̣t că ̣p S = (U, F) vớ i U là tập các thuô ̣c tính và F là tập các PTH trên U

đƣơ ̣c go ̣i là mô ̣t lược đồ quan hê ̣ (LĐQH).

Quan hê ̣ R đƣơ ̣c go ̣i là thỏa tâ ̣p PTH F, ký hiệu R(F) nếu với mọi PTH

thì R (X → Y).

Cho tâ ̣p các PTH F trên U và X → Y là một PTH bất kỳ trên U. Ta nói F suy diễn logic PTH X → Y, ký hiệu F |= X → Y. Nếu vớ i mo ̣i quan hê ̣ R (U) sao cho R (F) thì R (X → Y).

Bao đó ng của tập PTH F trên U, ký hiệu F+ là tâ ̣p nhỏ nhất các PTH trên

U chƣ́ a F và thỏa các tính chất (A1) – (A3) nhƣ sau:

Với ∀ X, Y, Z ⊆ U:

(A1) Tính phản xạ Nếu Y ⊆ X thì X → Y ∈ F+

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

(A2) Tính gia tăng Nếu X → Y ∈ F+ thì X ⋃ Z → Y ⋃ Z ∈ F+

(A3) Tính bắc cầu Nếu X → Y ∈ F+ và Y → Z ∈ F+ thì X → Z ∈ F+

Rõ ràng F+ hƣ̃u ha ̣n vì U hƣ̃u ha ̣n.

Các tính chất từ (A1) – (A3) còn thƣờng đƣợc gọi là h ệ tiên đề

Armstrong hay tập quy tắ c suy diễn Armstrong.

Các kỹ thuật phát hiện phụ thuộc hàm

Phát hiện phụ thuộc hàm từ một bảng quan hệ đã đƣợc nhiều nhà nghiên

cứu quan tâm. Đã có nhiều thuật toán đƣợc đề xuất, hình 1.8 biểu diễn các

phƣơng pháp cùng một số thuật toán.

Từ trên xuống

Từ dƣới lên

Khai phá phụ thuộc hàm

Tên thuật toán

Tên thuật toán o TANE o FD_Miner o FUN o Negative Cover o Dep_Miner o FAST FD

Hình 1.8 : Kỹ thuật phát hiện phụ thuộc hàm

Bảng 1.2 trình bày một số thuật toán điển hình và các kỹ thuật sử dụng

trong thuật toán đó (theo [11]).

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn

1999

TANE

Phân hoạch (Partitions)

2000

Dep-Miner

Tập khác biệt (Difference Set)

2001

FUN

Yka, Juha, Pasi and Hannu St_ephane Lopes, Jean-Marc Petit, and Lot_ Lakhal N. Novelli and R. Cicchetti,

2002

FD_Mine

Hong Yao and Hamelton

2008

FD_Discover

Jalal Atoum, Dojanah Bader and Arafat Awajan

Phụ thuộc hàm nhúng (Embedded FD) Phân hoạch và lớp tƣơng đƣơng (Partitions and Equivalences) Các lớp tƣơng đƣơng và phủ tối thiểu (Equivalent Classes and Minimal Cover)

2010

FDs Using Rough Sets

Tập thô (Rough sets)

2011

FDs via Bayes Net Analyses

Y.V.Sreevani, Prof. T. Venkat Narayana Rao Nittaya Kerdprasop and Kittisak Kerdprasop

Sử dụng mạng Bayes Net và Heuristics (Bayes Net and Heuristics)

Tác giả Năm Tên thuật toán Kỹ thuật sử dụng

Bảng 1.2: Các thuật toán khai phá phụ thuộc hàm

1.2.2. Khai phá phụ thuộc hàm xấp xỉ