1

8.

Các vấn đề chính trong KPDL

7.

Một số ứng dụng điển hình

6.

Công nghệ KPDL điển hình

5.

Kiểu mẫu được khai phá

4.

3.

2.

1.

Kiểu dữ liệu trong KPDL KPDL và xử lý CSDL truyền thống Khái niệm KPDL và phát hiện tri thức trong CSDL Nhu cầu của khai phá dữ liệu (KPDL)

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HÀ NỘI 09-2015 PGS. TS. HÀ QUANG THỤY

PHÁ DỮ LIỆU CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ KHAI

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU

03/02/17

1

2

 Phiên bản 18 tháng: rút ngắn chu kỳ thời gian

 Chi phí sản xuất mạch bán dẫn với cùng tính năng giảm một nửa sau hai năm

năm

 Số lượng bán dẫn tích hợp trong một chíp sẽ tăng gấp đôi sau khoảng hai

 “Phương ngôn 2x

circuits, Electronics, 38 (8), April 19, 1965. Một quan sát và dự báo

 Gordon E. Moore (1965). Cramming more components onto integrated

 Xuất xứ

Bùng nổ dữ liệu: Luật Moore

 Phát hiện tri thức từ dữ liệu  Kinh tế tri thức

 Ngành kinh tế định hướng dữ liệu

 Thể hiện  Lý do xã hội  Lý do công nghệ  Sự bùng nổ dữ liệu

1. Nhu cầu về khai phá dữ liệu

03/02/17

2

3

Conference (ISSCC), February 2003.

h, accessed January 9, 2008.)

the International Solid-State Circuits

www.intel.com/technology/mooreslaw/?iid=searc

Speaking of extending Moore’s Law at

by Intel Innovation,

Chairman Emeritus

of

the Board

(Source: Intel Web site Moore’s Law: Made Real

end to creativity”. Gordon Moore, Intel

straightforward...There is certainly no

chip double about every two years.

“Another

decade

is

probably

Moore’s Law: Transistor densities on a single

Luật Moore: Bộ xử lý Intel

và công nghệ mạng (truyền dẫn dữ liệu)

 Tác động tới sự phát triển công nghệ cơ sở dữ liệu (tổ chức và quản lý dữ liệu)  Bùng nổ về năng lực xử lý tính toán và lưu trữ dữ liệu.

năm qua (trang tiếp theo).

 Định luật Moore với công nghiệp phần cứng máy tính: bộ xử lý Intel trong 40  Công nghệ bán dẫn là nền tảng của công nghiệp điện tử.

 Thúc đẩy công nghệ xử lý, lưu giữ và truyền dẫn dữ liệu

công nghệ tiên tiến, Acorn Technologies, Inc. (http://acorntech.com/) đôi vai của chuỗi các nhà phân phối sản phẩm”. Daniel Grupp, Giám đốc PT làm. Nếu bị tụt sau định luật Moore, không có gì để mua, và gánh nặng đè lên Moore, thị trường không thể hấp thụ hết các sản phẩm mới, và kỹ sư bị mất việc là có tính bền vững khi tuân theo định luật Moore… Nếu đánh bại định luật  “toàn bộ chu trình thiết kế, phát triển, sản xuất, phân phối và bán hàng được coi

Giám đốc điều hành Tập đoàn Intel Nó cũng là cách sử dụng sáng tạo mạch bán dẫn”. Paul S. Otellini, Chủ tịch và nó vẫn còn hiệu lực tốt tại Intel… Định luật Moore không chỉ là mạch bán dẫn.  “Định luật Moore vẫn tạo khả năng cơ bản cho sự phát triển của chúng tôi, và  Mô hình cơ bản cho ngành công nghiệp mạch bán dẫn

 Dẫn dắt ngành công nghệ bán dẫn

Luật Moore & công nghiệp điện tử

03/02/17

3

4

 Bắt đầu hoạt động 2016. Sau 5 ngày sẽ có 140 TB

 Large Synoptic Survey Telescope

 Kính viễn vọng kế tiếp

 Vài tuần đầu tiên: thu thập dữ liệu thiên văn học = toàn bộ

 Làm việc từ 2000

 Kính viễn vọng đầu tiên

hơn 120.000 quasar

 Đã tạo bản đồ 3-chiều có chứa hơn 930.000 thiên hà và  http://www.sdss.org/  Sloan Digital Sky Survey

 Một ví dụ điển hình: SDSS  Mọi lĩnh vực Quản lý, Thương mại, Khoa học…  Thiết bị số hóa đa dạng

 Năng lực số hóa

Thiết bị thu thập – lưu trữ dữ liệu

Giá trị, cách đọc các bội và ước điển hình

Hệ thống ước và bội đơn vị đo

trong quá khứ. Sau 10 năm: 140 TB

03/02/17

4

5

và Phân tích dữ liệu mở rộng (có KPDL)

 Tiến hóa công nghệ CSDL [HKP11]: Hệ CSDL mở rộng

Tiến hóa Công nghệ CSDL: năm 2011

KDL & KPDL, Hệ CSDL dựa trên Web

 Tiến hóa công nghệ CSDL [HK0106]: Hệ CSDL mở rộng,

Tiến hóa Công nghệ CSDL: năm 2006

03/02/17

5

6

 Nguồn: http://www.worldwidewebsize.com/

trang Web được đánh chỉ số (04/09/2013)

 13 tỷ rưỡi trang web được đánh chỉ số (ngày 23/01/2011). Ít nhất có 4,2 tỷ

 Web

 2010: 20.396 PB/tháng, 2009-2014: tăng trung bình hàng năm 34%

 Nguồn: Sách trắng CISCO 2010

 Tổng lượng giao vận IP trên mạng

Bùng nổ dữ liệu: Công nghệ mạng

 dung lượng CSDL YouTube tăng gấp đôi sau mỗi chu kỳ 5 tháng  Sau hai năm: hàng trăm triệu video

 YouTube

 http://www.nersc.gov/news/annual_reports/annrep0809/annrep0809.pdf  tháng 3/2010: khoảng 460 TB  National Energy Research Scientific Computing Center: NERSC quốc gia Mỹ

 Trung tâm tính toán khoa học nghiên cứu năng lượng

 Tốp 10 CSDL lớn nhất

Công nghệ CSDL: Một số CSDL lớn

Data Centre for Climate bản ghi viễn thông; Google: 90 triệu tìm kiếm/ngày; AT&T: 310TB; World xem hàng ngày; ChoicePoint: 75 lần Trái đất – Mặt trăng; Sprint: 70.000 sách, 55 triệu người dùng, 40TB; YouTube: hàng trăm triệu clip được 100 “hồ sơ: thống kê dân số, bản đồ…” hàng tháng; Amazon: 250 nghìn  Library of Congress: 125 triệu mục; Central Intelligence Agency (CIA):  http://top-10-list.org/2010/02/16/top-10-largest-databases-list/ (04/9/13)

03/02/17

6

7

 Đạt 35 ZB vào năm 2020

 Độ dốc tăng càng cao

 Dung lượng tổng thể tăng

 0,5 xu Mỹ/1 GB vào năm 2009 giảm tới 0,02 xu Mỹ /1 GB vào năm 2020

 Chiều hướng giá tạo mới dữ liệu giảm dần

 Giá tạo dữ liệu ngày càng rẻ hơn

 Nguồn: IDC Digital Universe Study, sponsored by EMC, May 2010

Bùng nổ dữ liệu: Giá thành và thể hiện

Universe Study, sponsored by EMC, May 2010

 2010: 900 EB do người dùng tạo (trong 1260 EB tổng thể). Nguồn: IDC Digital  Mạng xã hội Facebook chứa tới 40 tỷ ảnh  Hệ thống trực tuyến người dùng, Mạng xã hội…  Phần tạo mới dữ liệu của người dùng ngày càng tăng

 Mở rộng tác nhân tạo dữ liệu

Bùng nổ dữ liệu: Tác nhân tạo mới

03/02/17

7

8

quản lý”. http://www.economist.com/node/15557443?story_id=15557443

có giá trị kinh tế, cung cấp những hiểu biết mới vào khoa học và tạo ra lợi ích từ

Được quản lý tốt, dữ liệu như vậy có thể được sử dụng để mở khóa các nguồn mới

xu hướng kinh doanh, ngăn ngừa bệnh tật, chống tội phạm …

khả năng làm được nhiều việc mà trước đây không thể thực hiện được: nhận ra các

“Thông tin từ khan hiếm tới dư dật. Điều đó mang lại lợi ích mới to lớn… tạo nên

 Kenneth Cukier,

thập kỷ gần đây” [HK0106].

vực làm cho nó trở nên khó khăn để nắm bắt những tiến bộ phi thường trong vài hóa, trí tuệ nhân tạo, và học máy đang đóng góp cho lĩnh vực này. Bề rộng của lĩnh cứu cơ sở dữ liệu. Các nhà nghiên cứu trong lĩnh vực bao gồm thống kê, trực quan Đây là một trong những lĩnh vực năng động và thú vị nhất của cộng đồng nghiên dẫn các dị thường. động tóm tắt nó, tự động phát hiện và mô tả các xu hướng trong nó, và tự động chỉ Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó, tự xét dữ liệu như vậy. Sự chú ý của con người đã trở thành nguồn tài nguyên quý giá. dữ liệu tài chính, và các dữ liệu tiếp thị. Con người không có đủ thời gian để xem  “Chúng ta đang ngập trong dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học,

 Jim Gray, chuyên gia của Microsoft, giải thưởng Turing 1998

Nhu cầu thu nhận tri thức từ dữ liệu

 Nguồn: IDC Digital Universe Study, sponsored by EMC, May 2010.  Lực lượng nhân lực CNTT tăng 1,4 lần  Dung lượng thông tin tăng 67 lần, đối tượng dữ liệu tăng 67 lần  Bùng nổ dữ liệu với tăng trưởng nhận lực CNTT

Nhu cầu nắm bắt dữ liệu

03/02/17

8

9

Economic Growth, IBM Corporation, 2006

Jim Spohrer (2006). A Next Frontier in Education, Employment, Innovation, and

 Quản lý: tác động tới toàn bộ quy trình thi hành dịch vụ

 Kỹ nghệ: tri thức  dịch vụ

 Khoa học: dữ liệu & thông tin  tri thức

 Dịch vụ: dữ liệu & thông tin  tri thức  giá trị mới

 Đơn vị trao đổi trong kinh tế và xã hội là dịch vụ  Mọi nền kinh tế là kinh tế dịch vụ.

 Xã hội loài người chuyển dịch từ kinh tế hàng hóa sang kinh tế dịch vụ.

 Kinh tế dịch vụ

Kinh tế dịch vụ: Từ dữ liệu tới giá trị

Lao động dịch vụ vượt lao động nông nghiệp (2006).

 Sử dụng tri thức là động lực chủ chốt cho tăng trưởng kinh tế  Tri thức là tài nguyên cơ bản

 Kinh tế tri thức

Kinh tế tri thức

Productivity (The World Bank. Korea as a Knowledge Economy, 2006) Hàn Quốc gấp đôi so với đóng góp của lao động và vốn. TFP: Total Factor  Hình vẽ: Năm 2003, đóng góp của tri thức cho tăng GDP/đầu người của

03/02/17

9

10

 Data Mining là một bước trong quá trình KDD

 KDD và KPDL: tên gọi lẫn lộn? theo hai tác giả|Khai phá dữ liệu

liệu ẩn, chưa biết và hữu dụng tiiềm năng) từ một tập hợp lớn dữ

 Trích chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường,

 Knowledge discovery from databases

2. Khái niệm KDD và KPDL

v%e1%bb%81-c%c6%a1-h%e1%bb%99i-trong-nganh-th%e1%bb%91ng-ke-va-khmt/ http://www.procul.org/blog/2009/07/03/t%e1%ba%a3n-m%e1%ba%a1n- (và

của Nguyễn

KHMT)

Xuân

Long

ngày

03/7/2009.  Tham khảo bài trao đổi “Tản mạn về cơ hội trong ngành Thống kê

nhân” dữ liệu. Mỹ có chuẩn quy định chức năng

lập trình + nhà thống kê + “nghệ

 Người phân tích dữ liệu: người  CIO và chuyên gia phân tích dữ liệu có vai trò ngày càng cao

 Nhân lực khoa học dữ liệu

 Tổng hợp của Kenneth Cukier

phân tích dữ liệu

 vài năm gần đây các tập đoàn lớn chi khoảng 15 tỷ US$ mua công ty  Tăng 10% hàng năm, gần gấp đôi kinh doanh phần mềm nói chung  Đáng giá hơn 100 tỷ US$ vào năm 2010  “Chúng ta nhập trong dữ liệu mà đói khát tri thức”  Ngành công nghiệp quản lý và phân tích dữ liệu

Ngành kinh tế định hướng dữ liệu

03/02/17

10

11

 Sử dụng tri thức phát hiện được

 Trực quan hóa, chuyển dạng, loại bỏ các mẫu dư thừa, v.v.

 Đánh giá mẫu và trình diễn tri thức

 Bước KPDL: tìm mẫu hấp dẫn

 Chọn (các) thuật toán KPDL

 Tóm tắt, phân lớp, hồi quy, kết hợp, phân cụm.

 Chọn lựa chức năng (hàm) KPDL

 Tìm các đặc trưng hữu dụng, rút gọn chiều/biến, tìm các đại diện bất biến.

 Thu gọn và chuyển đổi dữ liệu  Chuẩn bị dữ liệu và tiền xử lý: (huy động tới 60% công sức!)  Khởi tạo một tập dữ liệu đích: chọn lựa dữ liệu

 Tri thức sẵn có liên quan và mục tiêu của ứng dụng

 Học từ miền ứng dụng

Các bước trong quá trình KDD

and Data Mining 1996: 1-34 Data Mining to Knowledge Discovery: An Overview, Advances in Knowledge Discovery [FPS96] Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996). From

Quá trình KDD [FPS96]

Đánh giá và

03/02/17

11

12

(1998). A Perspective on Data Mining, Technical Reporrt, Northern Arizona University.

 [CCG98] Kenneth Collier, Bernard Carey, Ellen Grusy, Curt Marjaniemi, Donald Sautter

 Lặp kiểu vòng đời phát triển phần mềm

 Kết quả thi hành được: xác định tập kết quả thi hành được dựa trên các mô

 Định hướng kinh doanh: Xác định 1-3 câu hỏi hoặc mục đích hỗ trợ đích KDD

 Một mô hình cải tiến quá trình KDD

Mô hình quá trình KDD lặp [CCG98]

 Hệ chuyên gia hoặc chương trình học máy/thống kê nhỏ  Xử lý truy vấn suy diễn.

 Phân biệt: Phải chăng mọi thứ là DM?

 …  Thông minh doanh nghiệp (business intelligence -BI)  Phân tích/xử lý mẫu/dữ liệu (data/pattern analysis/processing)  khai quật/nạo vét dữ liệu (data archaeology/ dredging),  thu hoạch thông tin (information harvesting),  phát hiện thông tin (information discovery),  chiết lọc tri thức (knowledge extraction),

 Các tên thay thế

Các khái niệm liên quan

hình được đánh giá

03/02/17

12

13

622-634. [Oha09]

process for business intelligence, Industrial Management & Data Systems, 2008. 108(5):

Wang, H. and S. Wang (2008). A knowledge management approach to data mining

Mô hình tích hợp DM-BI [WW08]

 Nguồn: http://www.crisp-dm.org/Process/index.htm (13/02/2011)  CRISP-DM 2.0 SIG WORKSHOP, LONDON, 18/01/2007  Thi hành chỉ sau khi tham chiếu kết quả với “hiểu kinh doanh” for Data Mining). “Hiểu kinh doanh”: hiểu bài toán và đánh giá

 Các pha trong mô hình quy trình CRISP-DM (Cross-Industry Standard Process

 Quy trình chuẩn tham chiếu công nghiệp KPDL

Mô hình CRISP-DM 2000

Chu trình phát triển tri thức thông qua khai phá dữ liệu

03/02/17

13

14

Khoa học dữ liệu

về lối sống của họ…? " hành vi không mong muốn? Có cách nào để cho mọi người phản hồi • "Làm thế nào chúng ta có thể sử dụng thông tin để tác động tới các

• Van der Aalst

is not welldefined as an academic subject.

• Data science is an emerging field in industry, and as yet, it

Khoa học dữ liệu

máy móc, nâng cao hiệu quả chúng, và ngăn chặn trục trặc ?“ • Làm thế nào sử dụng toàn bộ thông tin đó để cải thiện quy trình và

03/02/17

14

15

 Nếu a*THUNHẬP + b*NỢ < 0

mẫu có giá trị hơn.

không cho vay nợ. huống vay tốt lại bị đưa vào vùng xuống do bao gói thêm các tình lớn hơn) thì độ chân thực giảm

phải (biến THUNHẬP nhận giá trị mẫu "THUNHẬP < $t“ dịch sang  Chẳng hạn, đường biên xác định

hoặc toàn bộ) MC. không gian đo được (bộ phận ngữ biểu diễn mẫu L tới một ánh xạ một biểu thức thuộc ngôn giá trị (chân thực) là một hàm C  Tính "có giá trị" : một độ đo tính có

Tính có giá trị

chân thực nào đấy. trị đối với các dữ liệu mới theo độ  Mẫu được phát hiện: phải có giá

(mô hình chứa một biến THUNHẬP)  Chẳng hạn, biểu thức "THUNHẬP < $t"

 Mẫu: biểu thức E trong ngôn ngữ L 

FE. hơn so với việc liệt kê các sự kiện thuộc F. E được gọi là mẫu nếu nó đơn giản tập con FE tương ứng các sự kiện trong

 Trong KDD: ngôn ngữ L để biểu diễn

 Mẫu

 KDD:phải gồm rất nhiều trường hợp

vào tập sự kiện F, các tập con các sự kiện (dữ liệu) thuộc

 Dữ liệu (tập dữ liệu)

Dữ liệu và Mẫu

kiện). tập F gồm hữu hạn các trường hợp (sự

03/02/17

15

16

dẫn I(E,F,C,N,U,S) > i.

người sử dụng nào đó, chỉ ra được một ngưỡng i  Mi mà độ hấp

 Tri thức: Một mẫu E  L được gọi là tri thức nếu như đối với một lớp

 Hoặc xác định độ hấp dẫn trực tiếp: thứ tự của các mẫu được phát hiện.

một không gian đo được Mi.

 Hoặc dùng một hàm hấp dẫn: i = I (E, F, C, N, U, S) ánh xạ biểu thức trong L vào

giá trị, mới, hữu ích và dễ hiểu.

 Tính hấp dẫn: độ đo tổng thể về mẫu là sự kết hợp của các tiêu chí

 Tồn tại một số độ đo dễ hiểu:  Khó đo được một cách chính xác: "có thể hiểu được“  dễ hiểu.  KDD: mẫu mà con người hiểu chúng dễ dàng hơn các dữ liệu nền.

 Tính hiểu được: Mẫu phải hiểu được

Tính hiểu được, tính hấp dẫn và tri thức

bộ) MS: s = S(E,F). thức E trong L tới một không gian đo được có thứ tự (bộ phận /toàn  Giả định rằng tính hiểu được là đo được bằng một hàm S ánh xạ biểu dễ dàng để con người nhận thức được theo một tác động nào đó).  Sắp xếp từ cú pháp (tức là cỡ của mẫu theo bit) tới ngữ nghĩa (tức là

quyết định được trình bày trong Hình 1.3. sự tăng lãi của nhà băng (tính theo đơn vị tiền tệ) kết hợp với quy tắc  Ví dụ, trong tập dữ liệu vay nợ, hàm này có thể là sự tăng hy vọng theo

 Hàm U ánh xạ các biểu thức trong L tới một không gian đo có thứ tự động hữu dụng và được đo bởi một hàm tiện ích.

 Hữu dụng tiềm năng: Mẫu cần có khả năng chỉ dẫn tới các tác

(bộ phận hoặc toàn bộ) MU: u = U (E,F).

 Tổng quát, điều này có thể được đo bằng một hàm N(E,F) hoặc là

độ đo về tính mới hoặc là độ đo kỳ vọng.

 hoặc tri thức: tri thức mới quan hệ như thế nào với các tri thức đã

có.

 sự thay đổi trong dữ liệu: so sánh giá trị hiện tại với giá trị quá khứ

 Tính mới có thể đo được : ít nhất là hệ thống đang được xem xét.

 Tính mới: Mẫu phải là mới trong một miền xem xét nào đó,

Tính mới và hữu dụng tiềm năng

hoặc giá trị kỳ vọng

03/02/17

16

17

analytic processing - OLAP).

nhận dữ liệu đa chiều do xử lý phân tích trực tuyến (on-line Hiển thị mọi cổ phiếu trong CSDL với mệnh giá tăng ? ghi

định thống kê (stastical decision suppport system - DSS) tháng trước ? ghi nhận thống kê do hệ thống hỗ trợ quyết Có bao nhiêu nhà đầu tư nước ngoài mua cổ phiếu X trong

transaction processing – OLTP). ghi nhận riêng lẻ do xử lý giao dịch trực tuyến (on-line Hãy hiển thị số tiền Ông Smith trong ngày 5 tháng Giêng ?

Cần có một giả thiết “đầy đủ” về tri thức miền phức tạp!

3. Khai phá dữ liệu và quản trị CSDL

Kiến trúc điển hình hệ thống KPDL

Câu hỏi thuộc hệ quản trị CSDL (DBMS)

03/02/17

17

18

Hệ thống CSDL và Hệ thống KPDL

 Những người mua sản phẩm Y có đặc trưng gì ?

không trả được nợ của họ ?  Trong tháng tiếp theo, sẽ có bao nhiêu đoàn viên công đoàn

 Hy vọng gì về cổ phiếu X trong tuần tiếp theo ?

 Tỷ giá US$ - DMark có đặc trưng gì ?

 Các cổ phiếu tăng giá có đặc trưng gì ?

cho hệ thống  Cải tiến (nâng cấp) miền tri thức ! Giả thiết tri thức “đầy đủ” không còn có tính cốt lõi, cần bổ sung tri thức

Khái niệm KPDL: câu hỏi DMS

Câu hỏi thuộc hệ thống khai phá dữ liệu (DMS)

03/02/17

18

19

 CSDL Text & WWW

 Dữ liệu không đồng nhất và thừa kế

 Dữ liệu đa phương tiện

 Dữ liệu dòng  Dữ liệu chuỗi thời gian  Dữ liệu không gian và thời gian  CSDL quan hệ-đối tượng

 CSDL mở rộng và kho chứa thông tin  CSDL giao dịch  Kho dữ liệu  CSDL quan hệ

4. KPDL: các kiểu dữ liệu

Bài viết, Files, Nhà cung cấp thông tin, Hệ thống CSDL, OLTP Nguồn dữ liệu OLAP, MDA

(DBA) CSDL trị Quản

Kho DL(Data Warehouses) / KDL chuyên đề (Data Marts)

Phân tích thống kê, Truy vấn và Trả lời Khai thác DL (Data Exploration)

phân tích dữ liệu Chuyên gia

Information Discovery KPDL

Visualization Techniques

tích kinh doanh Chuyên gia phân

Trình diễn DL

Người dùng cuối

doanh Hỗ trợ quyết định kinh Chiều tăng bản chất để

KPDL và Thông minh kinh doanh

quyết định Tạo

03/02/17

19

20

database-data-mined.htm http://www.kdnuggets.com/polls/2009/largest-

-miner-salary.html http://www.kdnuggets.com/polls/2010/data

http://www.kdnuggets.com/polls/2010/data-types-analyzed.html Kích thước dữ liệu và lương KPDL

http://www.kdnuggets.com/polls/2010/data-types-analyzed.html Kiểu dữ liệu được phân tích/khai phá

03/02/17

20

21

Trees: Theory and Applications. World Scientific Publishing.

 L. Rokach and O. Maimon (2015). Data Mining with Decision

Phân cấp phương pháp KPDL

 Phân tích định hướng mẫu, các bài toán khác  Phát hiện biến đổi và độ lệch  Mô hình phụ thuộc  Hồi quy  Phân cụm  Phân lớp  Quan hệ kết hợp  Mô tả khái niệm

 Các bài toán điển hình

 KPDL dự đoán: phân lớp, hồi quy…  KPDL mô tả: tóm tắt, phân cụm, luật kết hợp…

 Chức năng chung

5. KPDL: Kiểu mẫu được khai phá

03/02/17

21

22

 Dự đoán giá trị số chưa biết hoặc đã mất

 Trình diễn: cây quyết định, luật phân lớp, mạng nơron

ô tô dựa theo tiêu tốn xăng

 Chẳng hạn, phân lớp quốc gia dựa theo khí hậu, hoặc phân lớp

niệm cho các lớp hoặc khái niệm để dự đoán trong tương lai  Xây dựng các mô hình (chức năng) để mô tả và phân biệt khái

 Phân lớp và Dự báo

Các bài toán KPDL: Chức năng KPDL

 Quan hệ nội dung trang web với mối quan tâm người dùng  Phát hiện quan hệ ngữ nghĩa

 Ví dụ, trong khai phá dữ liệu Web  Luật kết hợp: XY  Diaper  Beer [0.5%, 75%]  Quan hệ kết hợp giữa các biến dữ liệu: Tương quan và nhân quả)

 Quan hệ kết hợp

 Tóm tắt văn bản  Kỳ vọng, phương sai

 Bài toán mô tả điển hình: Tóm tắt (tìm mô tả cô đọng)

phản, chẳng hạn, các vùng khô so sánh với ướt

 Tổng quát hóa, tóm tắt, phát hiện đặc trưng ràng buộc, tương  Tìm các đặc trưng và tính chất của khái niệm

 Mô tả khái niệm: Đặc trưng và phân biệt

KPDL: Sơ đồ phân loại (Chức năng)

03/02/17

22

23

 Phát hiện biến đổi và độ lệch <> tiền xử lý

trị chuẩn, cung cấp tri thức về sự biến đổi và độ lệch

 Hầu như sự thay đổi có ý nghĩa dưới dạng độ đo đã biết trước/giá

 Phát hiện biến đổi và độ lệch phân tích các sự kiện hiếm

 Nhiễu hoặc ngoại lệ? Không phải! Hữu dụng để phát hiện gian lận, toàn bộ dữ liệu. Ví dụ, sử dụng kỳ vọng mẫu và phương sai mẫu  Bất thường: đối tượng dữ liệu không tuân theo hành vi chung của

 Phân tích bất thường

 Cực đại tương tự nội bộ cụm & cực tiểu tương tự giữa các cụm

các nhà để tìm mẫu phân bố

 Nhãn lớp chưa biết: Nhóm dữ liệu thành các lớp mới: phân cụm

 Phân tích cụm

KPDL: Sơ đồ phân loại chức năng (2)

 Tính tương tự

dữ liệu miền ứng dụng. hiện được mẫu phân bố "cụm" (lớp mới) để phát  nhóm dữ liệu thành các

 Phân cụm

lớp đã biết liệu vào một trong một số  học một hàm ánh xạ dữ

báo tiếp hiện lớp/khái niệm cho dự hàm dự báo để mô tả/phát  xây dựng/mô tả mô hình/

 Phân lớp

KPDL: Sơ đồ phân loại (Chức năng)

03/02/17

23

24

thống kê

 Phân tích định hướng mẫu khác hoặc phân tích

 Phân tích dựa trên tương tự  Khai phá mẫu tuần tự, phân tích chu kỳ  Xu hướng và độ lệch: phân tích hồi quy

 Phân tích xu hướng và tiến hóa

KPDL: Sơ đồ phân loại (Chức năng)

trị số

 mức định lượng: tính phụ thuộc khi sử dụng việc đo tính theo giá

 biến là phụ thuộc bộ phận vào các biến khác  dạng đồ thị  mức cấu trúc:

có ý nghĩa giữa các biến

 xây dựng mô hình phụ thuộc: tìm một mô hình mô tả sự phụ thuộc

 Mô hình phụ thuộc

tập biến độc lập.

 dự đoán giá trị của một/một số biến phụ thuộc vào giá trị của một  điển hình trong phân tích thống kê và dự báo

biến theo một số biến khác

 học một hàm ánh xạ dữ liệu nhằm xác định giá trị thực của một

 Hồi quy

KPDL: Sơ đồ phân loại (Chức năng)

03/02/17

24

25

 Bán lẻ, viễn thông, ngân hàng, phân tích gian lận, KPDL sinh học, phân

 Ứng dụng phù hợp

hóa, ….

 Định hướng CSDL, KDL (OLAP), học máy, thống kê, trực quan

 Kỹ thuật được dùng

 Các chức năng phức/tích hợp và KPDL các mức phức hợp

lệch, phân tích bất thường,…

 Đặc trưng, phân biệt, kết hợp, phân lớp, phân cụm, xu hướng/độ

 Tri thức được khai phá

đồng nahats, kế thừa, WWW cực, không gian, chuỗi thời gian, văn bản, đa phương tiện, không

 Quan hệ, KDL, giao dịch, dòng, hướng đối tượng/quan hệ, tích

 Dữ liệu được khai phá

Khung nhìn đa chiều của KPDL

 Kiểu miền ứng dụng

 Kiểu kỹ thuật được dùng

 Kiểu tri thức cần phát hiện

 Kiểu dữ liệu được KP

 Phân loại theo khung nhìn

KPDL: Sơ đồ phân loại (2)

tích thị trường chứng khoán, KP văn bản, KP Web, …

03/02/17

25

26

 Sinh ra chỉ các mẫu hấp dẫn—tối ưu hóa câu hỏi khai phá

không hấp dẫn.

 Đầu tiên tìm tổng thể tất cả các mẫu sau đó lọc bỏ các mẫu

 Tiếp cận

 Hệ thống KPDL có khả năng tìm ra đúng các mẫu hấp dẫn?

 Tìm chỉ các mẫu hấp dẫn: Về tính tối ưu

 Kết hợp <> phan lớp <> phân cụm

 Tìm kiếm mày mò (heuristic) <> tìm kiếm đầy đủ

 Hệ thống KHDL có khả năng tìm mọi mẫu hấp dẫn?  Tìm được mọi mẫu hấp dẫn: Về tính đầy đủ

Tìm được tất cả và chỉ các mẫu hấp dẫn?

chẳng hạn, sự không chờ đón, tính mới mẻ, tác động được...  Chủ quan: dựa trên sự tin tưởng của người dùng đối với dữ liệu,

 Khách quan: dựa trên thống kê và cấu trúc của mẫu, chẳng hạn,

 Độ đo hấp dẫn khách quan và chủ quan

dộ hỗ trợ, độ tin cậy, …

 Mẫu là hấp dẫn nếu dễ hiểu, có giá trị theo dữ liệu mới/kiểm tra

 Độ đo hấp dẫn

giả thiết mà người dùng tìm kiếm để xác thực. với độ chắc chắn, hữu dụng tiềm năng, mới lạ hoặc xác nhận các

 Tiếp cận gợi ý: KPDL hướng người dùng, dựa trên câu hỏi, đều hấp dẫn

 KPDL có thể sinh ra tới hàng nghìn mẫu: Không phải tất cả

Mọi mẫu khai phá được đều hấp dẫn?

hướng đích

03/02/17

26

27

Hội tụ của nhiều ngành phức [HKP11]

KPDL: Các công nghệ chính

Hội tụ của nhiều ngành phức [HK0106]

6. KPDL: Các công nghệ chính

03/02/17

27

28

 Tham khảo thêm từ Nguyễn Xuân Long

 Về thuật ngữ: KPDL: biến ra/biến mục tiêu, thuật toán khai phá

thủ tục thống kê, biến giải thích, quan sát... dữ liệu, thuộc tính/đặc trưng, bản ghi... XLDLTK: biến phụ thuộc,

dữ liệu kiểm tra) được công bố dưới dạng chuẩn. độc lập nhau. Một số trường hợp: hai tập dữ liệu này (hoặc tập

cần "đại diện" cho toàn bộ dữ liệu trong miền ứng dụng và cần Bài toán học KPDL đòi hỏi tập dữ liệu học/tập dữ liệu kiểm tra tham số mô hình không phụ thuộc vào cách chọn tập dữ liệu học. kết quả phải phù hợp với tập toàn bộ dữ liệu -> cần đảm bảo các  Bài toán học khai phá dữ liệu: mô hình chưa có trước. Mô hình

 Phân biệt giữa bài toán thống kê và bài toán khai phá dữ liệu

Thống kê toán học với KPDL

quan tâm đặc biệt.

 Các phương pháp KPDL dựa theo thống kê nhận được sự

khung cảnh phát hiện tri thức tổng thể. biệt đối với mô hình dữ liệu và nắm bắt nhiễu trong một  Hệ thống KDD thường gắn kết với các thủ tục thống kê đặc

Data Analysis) cũng như dự báo [Fied97, HD03].

 Đặc biệt như phân tích dữ liệu thăm dò (EDA: Exploratory

 Nhiều điểm chung giữa KPDL với thống kê:

Thống kê toán học với KPDL

kê có đúng trên toàn bộ dữ liệu quan sát được hay không. được có phù hợp với giả thiết thống kê hay không/ giả thiết thống tập dữ liệu quan sát được. Cần kiểm tra xem tập dữ liệu quan sát  Bài toán kiểm định giả thiết thống kê: cho trước một giả thiết +

03/02/17

28

29

 KPDL văn bản, web, phương tiện xã hội liên quan mật thiết với tìm

kiếm thông tin.

quan trọng

 Tìm kiếm thông tin với KPDL

chính trong tập tài liệu, từng tài liệu … bổ sung thuộc tính dữ liệu  Kết hợp mô hình tìm kiếm với kỹ thuật KPDL tìm thấy các chủ đề

dưới dạng từ khóa/cụm từ khóa mà không phải cấu trúc phức tạp  Hai giả thiết: (i) Dữ liệu tìm kiếm là không cấu trúc; (ii) Truy vấn

 Tìm kiếm tài liệu hoặc tìm kiếm thông tin trong tài liệu theo một truy

vấn. Tài liệu: văn bản, đa phương tiện, web…

 Tìm kiếm thông tin

Tìm kiếm thông tin với KPDL

Information Retrieval. “Truy hồi thông tin”

 Học tích cực (Active learning) có thể gọi

(interactive learning) có tương tác với người dùng. là học tương tác

 Học bán giám sát (semi-supervised learning) sử dụng cả ví dụ có

nhãn và ví dụ không có nhãn

 Học không giám sát (unsupervised learning) là đồng nghĩa với phân

cụm (clustering),

 Học giám sát (supervised learning) là đồng nghĩa với phân lớp  Nhiều nội dung đã được trình bày tại mục trước

 Một số nội dung học máy với khai phá dữ liệu

 Học máy là lĩnh vực nghiên cứu phát triển nhanh

(classification)

 Cách máy tính có thể học (nâng cao năng lực) dựa trên dữ liệu.  Machine Learning

 Học máy

Học máy với KPDL

tay trên thư thông qua một tập ví dụ”. ra quyết định thông minh dựa trên dữ liệu, ví dụ, “học được chữ viết Các chương trình máy tính tự động học được các mẫu phức tạp và

03/02/17

29

30

 Thông tin tóm tắt thống kê (xu hướng trung tâm dữ liệu và biến đổi)

 Báo cáo tóm tắt đa chiều

 Cung cấp thông tin tóm tắt

 Dự báo các nhân tố sẽ thu hút khách hàng mới

 Định danh các sản phẩm tốt nhất tới khách hàng (khác nhau)

 Phân tích yêu cầu khách hàng

 Kiểu của khách hàng mua sản phẩm gì (phân cụm và phân lớp)

 Hồ sơ khách hàng

 Quan hệ kết hợp/đồng quan hệ giữa bán hàng và sự báo dựa theo quan

 Phân tích thị trường chéo

 Xác định các mẫu mua hàng theo thời gian

hệ kết hợp

 Tìm cụm các mô hình khách hàng cùng đặc trưng: sự quan tâm, mức thu

 Tiếp thị định hướng

nhập, thói quen chi tiêu...

 Nguồn dữ liệu có từ đâu ?

Phân tích và quản lý thị trường

 Phân tích DNA và dữ liệu sinh học

 Khai phá dữ liệu dòng

 Khai phá Text (nhóm mới, email, tài liệu) và khai phá Web

 Ứng dụng khác

 Phát hiện gian lận và phát hiện mẫu bất thường (ngoại lai)

phân tích cạnh tranh

 Dự báo, duy trì khách hàng, cải thiện bảo lãnh, kiểm soát chất lượng,

 Phân tích và quản lý rủi ro

quen mua hàng, bán hàng chéo, phân đoạn thị trường

 Tiếp thị định hướng, quản lý quan hệ khách hàng (CRM), phân tích thói

 Phân tích và quản lý thị trường

 Phân tích dữ liệu và hỗ trợ quyết định

7. Ứng dụng cơ bản của KPDL

của khách hàng, các nghiên cứu phong cách sống (công cộng) bổ sung  Giao dịch thẻ tín dụng, thẻ thành viên, phiếu giảm giá, các phàn nàn

03/02/17

30

31

Enhancement of Business Processes, Springer.

WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and

Phân tích kinh doanh: Khai phá quy trình

 Khởi tạo chiến lược giá trong thị trường cạnh tranh cao  Nhóm khách hàng thành các lớp và định giá dựa theo lớp khách  Theo dõi đối thủ cạnh tranh và định hướng thị trường

 Cạnh tranh

 Tóm tắt và so sánh các nguồn lực và chi tiêu

 Lên kế hoạch tài nguyên

tích xu hướng…)

 Phân tích lát cắt ngang và chuỗi thời gian (tỷ số tài chính, phân  Phân tích yêu cầu ngẫu nhiên để đánh giá tài sản  Phân tích và dự báo dòng tiền mặt

 Lên kế hoạch tài chính và đánh giá tài sản

Phân tích doanh nghiệp & Quản lý rủi ro

03/02/17

31

32

với sự trợ giúp của KPDL

 JPL và Palomar Observatory khám phá 22 chuẩn tinh (quasar)

 Thiên văn học

và Miami Heat

hỗ trợ và lỗi) để đưa tới lợi thế cạnh trang cho New York Knicks

 IBM Advanced Scout phân tích thống kế môn NBA (chặn bóng,

 Thể thao

tiếp thị Web, cải thiệ cách tổ chức Website … đãi khách hàng và các trang hành vi, phân tích tính hiệu quả của Web đối với các trang liên quan tới thị trường để khám phá ưu  Trợ giúp IBM áp dụng các thuật toán KPDL biên bản truy nhập

 Khai phá web và khai phá phương tiện xã hội

Ứng dụng khác

 Chống khủng bố

 Các nhà phân tích ước lượng rằng 38% giảm bán lẻ là do nhân viên

 Công nghiệp bán lẻ

không trung thực

 Mô hình cuộc gọi: đích cuộc gọi, độ dài, thời điểm trong ngày hoặc

 Viến thông: cuộc gọi gian lận

 Xét nghiệm không cần thiết hoặc tương quan

 Bệnh nghề nghiệp, nhóm bác sỹ, và nhóm chỉ dẫn

 Bảo hiểm y tế  Rửa tiền: giao dịch tiền tệ đáng ngờ  Bảo hiểm tự động: vòng xung đột thông.

 Ứng dụng: Chăm sóc sức khỏe, bán lẻ, dịch vụ thẻ tín dụng, viễn

 Tiếp cận: Phân cụm & xây dựng mô hình gian lận, phân tích bất thường

Phát hiện gian lận và khai phá mẫu hiếm

tuần. Phân tích mẫu lệch một dạng chuẩn dự kiến

03/02/17

32

33

Future Directions in Computer Science

 Danh sách tài liệu tham khảo

http://www.kdnuggets.com/

 Một số tham khảo khác

Journals: IEEE Trans. visualization and computer graphics, etc.

 Conference proceedings: CHI, ACM-SIGGraph, etc.

Visualization

Journals: Annals of statistics, etc.

 Conferences: Joint Stat. Meeting, etc.

Statistics

Journals: Machine Learning, Artificial Intelligence, etc.

 Conferences: Machine learning (ML), AAAI, IJCAI, COLT (Learning Theory), etc.

AI & Machine Learning

Journals: ACM-TODS, IEEE-TKDE, JIIS, J. ACM, etc.

 Conferences: ACM-SIGMOD, ACM-PODS, VLDB, IEEE-ICDE, EDBT, ICDT, DASFAA

 Database systems (SIGMOD: CD ROM)

Journal: Data Mining and Knowledge Discovery, KDD Explorations

 Conferences: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, etc.

 Data mining and KDD (SIGKDD: CDROM)

Nguồn chỉ dẫn về KPDL

8. Vấn đề chính trong KPDL

03/02/17

33

34

 Data Analysts earn on average $86K (11% higher than $76K in 2014).

because more people entered the market).

 Data Scientists earn on average $122K (9% lower than $135K in 2014, probably

in 2014).

 Data Science Managers earn average salary around $177K (11% higher than $165K

A regional breakdown in the US/Canada shows that :

compensated.html http://www.kdnuggets.com/2015/03/salary-analytics-data-science-poll-well-

http://www.kdnuggets.com/2015/09/free-data-science-books.html

03/02/17

34

35

KPDL: tốp 20 từ khóa hàng đầu

PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc.

 More conferences on data mining

http://www.researcherid.com/

 1998 ACM SIGKDD, SIGKDD’1999-2001 conferences, and SIGKDD

Journal of Data Mining and Knowledge Discovery (1997)

Explorations

 1995-1998 International Conferences on Knowledge Discovery in Databases

and R. Uthurusamy, 1996)

Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth,

 1991-1994 Workshops on Knowledge Discovery in Databases

Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)

and Data Mining (KDD’95-98)

 1989 IJCAI Workshop on Knowledge Discovery in Databases (Piatetsky-

Sơ lược cộng đồng KPDL

Shapiro)

03/02/17

35

36

 Khai phá nhận định: Opinion Mining / Sentiment Mining

con người là một trong những nguyên nhân chính.

 Đồng thuận với Hội đồng liên chính phủ về Biến đổi khí hậu: hoạt động của

động của con người là nguyên nhân duy nhất của thay đổi khí hậu.

 Khí hậu rất phức tạp và các nhà khoa học không phải là tuyên bố rằng hoạt

hoạt động của con người, một số đáng kể số người nghi ngờ.

 Gần 50% độc giả KDnuggets tin rằng thay đổi khí hậu hiện nay phần lớn là do

Nguyên nhân gây biến đổi khí hậu:

Trang web KDD; KPDL & biến đổi khí hậu

Các chủ đề liên quan KPDL là thời sự !

03/02/17

36

37

 Một tổng hợp về các bài học KPDL thành công, thất bại

Statistical Analysis and Data Mining, Elsevier, 2009. [NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of

 Quá trình học qua nhiều chu kỳ, cần “chạy đua với thực tiễn” (mô hình

mở rộng khách hàng ban đầu chưa phải đã tối ưu).

 Nắm bắt và duy trì các dòng thông tin tích lũy (chẳng hạn, mô hình kết

quả từ một loạt chiến dịch tiếp thị)

tiền lớn). hưởng sóng ngầm mạnh (Giảm các nợ khoản khó đòi từ 10% còn 9,8% có số  Hoặc gián tiếp tạo ra đòn bẩy cao khi tác động vào quá trình sống còn có ảnh

(như Mô hình mở rộng khách hàng qua tiếp thị và bán hàng)

 Hoặc trực tiếp nhận được “trái cây treo thấp” (“low-hanging fruit”) dễ thu lượm

 Cần có kỳ vọng về một lợi ích đáng kể về kết quả KPDL  Sơ bộ về một số yêu cầu để dự án KPDL thành công

Một số yêu cầu ban đầu

 Bảo đảm bí mật dữ liệu, toàn vẹn và tính riêng tư  KPDL đặc tả miền ứng dụng và KPDL vô hình

 Áp dụng và chỉ số xã hội

 Khai thác tương tác tri thức ở các cấp độ trừu tượng

 Biểu diễn và trực quan kết quả KPDL

 Ngôn ngữ hỏi KPDL và khai phá “ngẫu hứng”

 Tương tác người dùng

 Kết hợp các tri thức được khám phá với tri thức hiện có: tổng hợp tri thức

 Tính song song, phân tán và phương pháp KP gia tăng

 Xử lý dữ liệu nhiễu và dữ liệu không đầy đủ

 Kết hợp tri thức miền: ontology

 Đánh giá mẫu: bài toán về tính hấp dẫn

 Hiệu năng: Hiệu suất, tính hiệu quả, và tính mở rộng

 Khai phá các kiểu tri thức khác nhau từ dữ liệu hỗn tạp như sinh học, dòng, web…

 Phương pháp luận khai phá

Vấn đề chính trong KPDL

hợp tốt giữ người phân tích và người kinh doanh tích hợp dữ liệu, phân tích mô hình hóa, lập và trình diễn báo cáo. Kết  Cần có một đội dự án thi hành các kỹ năng theo yêu cầu: chọn dữ liệu,

03/02/17

37

Chương 2. Bài toán phát hiện tri thức

1

 Một số nội dung liên quan

 Bài toán phát hiện tri thức từ dữ liệu

 Cơ sở của phát hiện tri thức từ dữ liệu

 Quản lý tri thức

 Công nghệ tri thức

Chapter 2: Phát hiện tri thức từ dữ liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HÀ NỘI 09-2014 PGS. TS. HÀ QUANG THỤY

CHƯƠNG 2. PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU

38

Chương 2. Bài toán phát hiện tri thức

2

 Hệ thống phát hiện tri thức

 Hệ thống tác nghiệp, điều hành

 Vai trò bản chất của CNTT trong kinh tế

 Nhận đinh về luận điểm của CARR

 “CNTT không quan trọng”: IT does not matter !

 Luận điểm của CARR

điển) và đầu tư CNTT

 Căn cứ: Thống kê hiệu quả kinh tế (theo lý thuyết kinh tế cổ

 Nghịch lý hiệu quả của CNTT

Vai trò của CNTT

 Nội dung cơ bản của công nghệ tri thức  Khái niệm công nghệ tri thức

 Cơ bản về Công nghệ tri thức đại học, phần mềm

 Các yếu tố đầu vào cốt lõi của kinh tế tri thức: R&D, giáo dục  Bốn cột trụ của nền kinh tế tri thức  Khái niệm kinh tế tri thức

 Kinh tế tri thức

 Bản chất vai trò của CNTT trong kinh tế  Luận điểm của CARR  Nghịch lý về tính hiệu quả của CNTT

 Vai trò của CNTT trong kinh tế Nhầm lẫn tai hại: “hạ tầng CNTT” với bản thân “CNTT”

nghe/tin-tuc/35_280229/cong_nghe_thong_tin_la_ha_tang_cua_ha_tang.htm “xác định CNTT giữ vai trò là hạ tầng của hạ tầng quốc gia” http://vnmedia.vn/VN/cong-  Công nghệ thông tin là hạ tầng của hạ tầng ?

Công nghệ tri thức

quả“ (1987) “chúng ta nhìn thấy máy tính ở mọi nơi ngoại trừ trong thống kê hiệu  Robert Solow, nhà kinh tế được giải thưởng Nobel, có nhận định

39

Chương 2. Bài toán phát hiện tri thức

3

1990s

3.1

2.20%

1980s

0.3

2.75%

1970s

0.05

2.95%

1960s

0.003

4.50%

Giai đoạn

tính (%GNP) Chi phí cho máy

năm Tăng GNP hàng

Sự không tương quan trong tăng GNP

Toàn nền kinh tế Mỹ: nghịch lý hiệu quả

Management Research, June, 1994 (in Japanese) Assessment , Published in Communications of the ACM, December, 1993; and Japan Erik Brynjolfsson. The Productivity Paradox of Information Technology: Review and

 Sự vỡ mộng, thâm chí làm thất vọng với công nghệ gia tăng một mạng công nghệ lớn nhất mà loài người từng có" (Snow, 1966),

 Cho một hứa hẹn khổng lồ của IT tới mở ra trong “cuộc cách

 Hiệu quả, đặc biệt trong khu vực dịch vụ có vẻ đình trệ.

không hầu hết thời gian" (Economist, 1990). cách hiển nhiên: “Không, máy tính không làm tăng hiệu quả, ít nhất

 Năng lực máy tính được đưa vào kinh tế Mỹ đã tăng hơn bậc hai

biết vẫn còn rất hạn chế.

 Mối quan hệ giữa IT và hiệu quả: nhiều tranh luận song hiểu thống kê

 “Nghịch lý hiệu quả“: Một xung đột của kỳ vọng với

Nghịch lý hiệu quả

về độ lớn từ năm 1970

40

Chương 2. Bài toán phát hiện tri thức

4

tài chính

(trục hoành) với thu hồi vốn (trục tung) tại các công ty

 Có quan hệ “tỷ lệ thuận” giữa đầu tư CNTT/nhân viên

Nghịch lý hiệu quả: mức công ty tài chính

 http://www.strassmann.com/pubs/cf/cf970603.html vốn: đầu tư CNTT lãng phí ? Thu hồi vốn chậm ?

 Phải: Có 90,6 % số công ty giá thành CNTT lớn hơn giá thu hồi

với thu hồi vốn (trục tung): tỷ lệ đầu tư nhiều cũng như ít !

 Trái: Không có quan hệ giữa đầu tư CNTT/nhân viên (trục hoành)

Nghịch lý hiệu quả: mức công ty

41

Chương 2. Bài toán phát hiện tri thức

5

 Thuộc 100 người có tên được nhắc đến nhiều nhất !

SloanManagementReview, Spring 2005: 67-73.

 Nicholas G. Carr. The end of corporate computing, MIT

chiến lược của CNTT !

đưa ra ba quy tắc hướng dẫn cho tương lai: phủ nhận vai trò

khắc đầu tư vào CNTT và quản lý các hệ thống của họ. Carr

chóng biến mất, nhiều công ty cần có một cái nhìn nghiêm

 Với các cơ hội đạt được lợi thế chiến lược từ CNTT đã nhanh

quan trọng hơn các lợi thế mà nó cung cấp. không quan trọng cho chiến lược, rủi ro nó tạo ra trở thành  Khi một tài nguyên trở thành bản chất để cạnh tranh nhưng

đổi đáng kể ! đã giảm. Cách tiếp cận đầu tư và quản lý CNTT cần phải thay  CNTT xuất hiện khắp nơi và tầm quan trọng chiến lược của nó 2003: 41-49

 Nicholas G. Carr. IT does'n matter! HBR at Large, May

Luận điểm của G. Carr: IT does'n matter !

 Công thức tính hiệu quả kinh tế

 Sai lầm trong quản lý đầu tư CNTT: Ph/pháp phân tích lỗi thời.

Cty này đầu tư – công ty khác hưởng lợi

 Tính phân phối lại tài nguyên thông tin “sản phẩm công cộng”:  Đầu tư CNTT có độ trễ phát huy hiệu quả 2-3 năm Biến đầu vào, biến đầu ra và đo lường các biến này .

 Lỗi đo lường từ công thức tính hiệu quả của kinh tế cổ điển:

 E. Brynjolfsson [Bryn93]: không là nghịch lý hiệu quả

Phân tích nghịch lý hiệu quả

42

Chương 2. Bài toán phát hiện tri thức

6

anh sẽ được giải quyết”.

thuốc bách bệnh “Mua công nghệ này đi và các vần đề của

cụ, các nhà cung cấp công nghệ lại nhằm tới nó như một

Nhẽ ra phải giúp các công ty hiểu rằng IT chỉ là một công

một đền đáp như được kỳ vọng một vụ nổ vũ trụ, là khởi đầu dựa theo IT hiếm khi tạo ra Một điều chúng ta học được từ những năm 1990, nó như

June 2003 Thomas A. Stewart (2003). Does IT Matter ? An HBR Debate, Harvard Bussiness Review,

anh sẽ được giải quyết”. thuốc bách bệnh “Mua công nghệ này đi và các vần đề của cụ, các nhà cung cấp công nghệ lại nhằm tới nó như một Nhẽ ra phải giúp các công ty hiểu rằng IT chỉ là một công

một đền đáp như được kỳ vọng một vụ nổ vũ trụ, là khởi đầu dựa theo IT hiếm khi tạo ra Một điều chúng ta học được từ những năm 1990, nó như

43

Chương 2. Bài toán phát hiện tri thức

7

chất chung.

dụng lôgíc về công nghệ mà còn bằng áp dụng lôgic về bản

IT bắt buộc hỗ trợ kinh doanh – không chỉ bằng áp

IT luôn luôn quan trọng – là vấn đề trong mọi quan niệm.

thách thức hơn so với theo đuổi lợi thế cạnh tranh ? quản lý và kiểm soát rủi ro về kinh phí ít hứa hẹn hoặc nên buồn rầu ? Phải chăng là vì các bài toán lãnh đạo như Nhưng tại sao Carr lại khuyến cáo các nhà quản lý IT sẽ trở chịu đựng được là IT đã trở thành một loại hàng hóa. cách thức các công ty nên phản ứng với thực tế không thể Tôi đồng tình nhiều với khuyến cáo của Nicholas Carr về

lại ! may, tất cả minh chứng đều ngược mọi người có thế tăng lên. Không Chúc Carr đúng vì điều bất lợi của

thông tin. chức sẽ thay đổi rất nhanh để cạnh tranh trong thời đại trong các thập niên tiếp theo. Gói kỹ năng cần trong một tổ và CIO (người đứng đầu về TT) sẽ quan trọng chưa từng có Công việc của CTO (người đứng đầu bộ phận công nghệ)

44

Chương 2. Bài toán phát hiện tri thức

8

Kinh tế CNTT và kinh tế Internet

talk.php?talk=123. Communicating I.T. Value, http://www.strassmann.com/talks/one- [Strass07] and

(2007), Measuring

Strassmann

A.

Paul thông thường.

 Hơn mức thông thường khi mà tri thức của nhân viên hơn mức

nghiệp hơn mức thông thường,

 Hơn mức thông thường khi mà hiệu quả thông tin của doanh

lường được,

 Hơn hay kém hơn so với mức thông thường khi có hiệu quả đo

doanh nghiệp đồng hạng:

Paul A. Strassmann [Strass07]: chi tiêu CNTT so với các

Định hướng quản lý đầu tư CNTT

trong nhóm 20 nền kinh tế (G-20) đạt 2300 tỷ đô la Mỹ, chiếm 4,1% GDP - Theo The Boston Consulting Group, kinh tế Internet (the Internet economy) 19, 2012. Internet Economy in the G-20: The $4.2 Trillion Growth Opportunity, March Lundmark, James O'Day, John Pineda, and Paul Zwillenberg (2012).The 1200 tỷ US$). David Dean, Sebastian DiGrande, Dominic Field, Andreas - Kinh tế CNTT 2011: trên 4200 tỷ US$ (Software + Services chiếm 29% đạt

45

Chương 2. Bài toán phát hiện tri thức

9

that – Knowing how). Ví dụ tri thức ẩn  tri thức hiện: ngành CNPM

Subjective knowledge), tri thức biết – tri thức hành động (Knowing

thức chủ quan – tri

thức khách quan (Objective knowledge –

tri thức hiện – tri thức ẩn (Explicit knowledge – Tacit knowledge), tri

Phân loại tri thức

động thực tiễn

 Hình thức thu nhân tri thức: giáo dục, kinh nghiệm qua hoạt

 Khai phá dữ liệu: mẫu có độ hấp dẫn vượt qua ngưỡng  Ở đây: Compact Oxford English Dictionary  Nội dung khái niệm còn phụ thuộc vào từng lĩnh vực:

một hiện tượng mà thu nhận được nhờ kinh nghiệm  nhận thức và hiểu biết tường minh về một sự việc hoặc  tổng hợp những gì mà con người biết rõ

người thu nhận được qua kinh nghiệm hoặc giáo dục  sự hiểu biết tinh thông cùng với các kỹ năng mà con

 Từ điển Compact Oxford English Dictionary

 Khái niệm

Tri thức

2. Tri thức và kinh tế tri thức

dẻo và động, "know where“, "know when“: tri thức quan trọng cho một nền kinh tế mềm "know how“: tri thức về kỹ năng và kinh nghiệm thực tiễn. "know who“: tri thức về ai và họ làm được gì, "know why“: tri thức về thế giới, xã hội và trí tuệ con người, "know what“: tri thức về sự vật, sự kiện, hiện tượng

46

Chương 2. Bài toán phát hiện tri thức

10

theo tương tác động, trong một xoắn ốc tri thức.

Trong công ty sáng tạo tri thức, bốn mô hình chuyển đổi tri thức làm việc

 Chủ quan hóa (Internalization) là quá trình bao chứa các tri thức rõ ràng vào

những kinh nghiệm của những người khác, gián tiếp. tri thức ẩn. Điều này tạo điều kiện thuận lợi nếu cá nhân có thể lại trải nghiệm

 Thông tin có trong CSDL

tri thức rõ mới (KDD) có thể được xử lý để tạo

 Kết

Chuyển hóa tri thức

là thoại. các cuộc họp qua điện họ bằng cách chuyển đổi và kết hợp tri thức rõ của vậy, các cá nhân thay đổi từ các nguồn khác nhau. Vì bằng cách kết hợp tri thức quá trình tạo ra tri thức rõ (Combination/mixing) hợp / trộn

khó khăn nhất. ra tri thức, nhưng cũng là nhất liên quan đến việc tạo là hoạt động quan trọng  Ngoại diên hóa tri thức ẩn

 Ngoại

là và các mô hình. phép ẩn dụ, tương tự hóa nhóm) bằng cách sử dụng truyền giữa các cá nhân và tương đối dễ dàng lây hình thức, dễ tiếp cận, thànhtri thức hiện (tri thức trình chuyển đổi tri thức ẩn (Externalization) quá hóa

Chuyển hóa tri thức

diên dụng ngôn ngữ. Bắt chước được coi là một phương tiện đào tạo xã hội. chức). Một cá nhân có thể tiếp thu tri thức ẩn của cá nhân khác mà không cần sử tri thức tiềm ẩn, cá nhân hóa sâu sắc và trình bày khuếch tán trong phạm vi tổ ẩn (tri thức của cá nhân bao gồm nhận định, sự hiểu biết, niềm tin và trực giác,  Xã hội hóa (Socialization): quá trình chia sẻ kinh nghiệm và do đó tạo ra tri thức

47

Chương 2. Bài toán phát hiện tri thức

11

doanh nghiệp

thực hiện các biện pháp điều khiển quá trình tiến hóa tri thức

bộ

tạo điều kiện thuận lợi cho trao đổi và phát triển tri thức nội

- Doanh nghiệp là một thực thể bảo vệ tri thức:

 

văn hóa và một mô hình của tinh thần san sẻ. Tạo ra tri thức: cung cấp một ý thức cộng đồng, một bản sắc Tich hợp tri thức phân tán của tập cá nhân - Doanh nghiệp là một thực thể sáng tạo tri thức: tính chất chuyên môn ngành nghề trình độ cao

  Môi trường văn hóa doanh nghiệp cộng đồng đơn nhất thu nhận & chuyển giao tri thức:

- Doanh nghiệp là một thực thể tích hợp tri thức, một

Tri thức doanh nghiệp: tiếp cận kinh tế

Chuyển đổi tri thức trong doanh nghiệp

48

Chương 2. Bài toán phát hiện tri thức

12

[WB06].

 Hai định nghĩa trên là tương tự nhau: ở đây sử dụng định nghĩa

tầng thông tin hữu hiệu và truy nhập được.

là tri thức, năng lực trí tuệ, một thiết chế xã hội cho một hạ  [UN00] nền kinh tế mà các yếu tố then chốt cho sự phát triển

dụng một cách hiệu quả cho tăng trưởng kinh tế. thức được yêu cầu, được phát sinh, được phổ biến và được vận chốt cho tăng trưởng kinh tế. Trong nền kinh tế tri thức, tri  [WB06] nềnkinhtếmà việcsửdụngtrithứclàđộnglựcchủ  Knowledge Economy/Knowledge-Based Economy

Khái niệm

Kinh tế tri thức

“Tự phát” –> “tự giác” nghiệp Thói quen: một bộ phận quan trọng trong văn hóa doanh

 trợ sự tương tác linh hoạt trong doanh nghiệp

- Các thói quen được hình thành trong doanh nghiệp hỗ

đề quá phức tạp hoặc quan trọng và bất thường. Nên và chỉ nên sử dụng các quy trình chuẩn đối với các vấn

 vào sản phẩm trình tiến hành các bưước tham gia của các chuyên gia - Chuẩn hóa hoạt động mức doanh nghiệp qua ư quá

chuyển hóa tri thức ẩn thành tri thức hiện

- Các quy tắc tưương tác giữa các cá nhân tạo điều kiện

Cơ chế tích hợp tri thức doanh nghiệp

49

Chương 2. Bài toán phát hiện tri thức

13

phổ biến và xử lý thông tin và tri thức

information infrastructure) là phương tiện hiệu quả để truyền thông,

 Một hạ tầng thông tin hiện đại và đầy đủ (a modern and adequate

học tập suốt đời. cách tân tri thức cũng như để đảm bảo xã hội học tập và hoạt động Hạ tầng thông tin hiện đại và đầy đủ đảm bảo hoạt động thu nhận,

innovation system)

 Một hệ thống cách tân hướng tri thức hiệu quả (a effective Bốn cột trụ của một nền kinh tế tri thức

Kinh tế tri thức: đặc trưng

không ngừng cách tân tri thức, phát huy sáng kiến mang tính xã hội. phát triển của nền kinh tế tri thức. Trong nền kinh tế tri thức, hoạt động liên tục được thay thế bằng tri thức mới - tiến bộ phù hợp với trình độ tổ chức khác , trong đó, tri thức khi mà đã trở nên lỗi thời - lạc hậu cần tập đoàn, trung tâm nghiên cứu, trường đại học, các chuyên gia và các Nền kinh tế tri thức cần là một nền kinh tế cách tân hiệu quả của các

 Một lực lượng lao động được giáo dục và lành nghề (An

thức của nền kinh tế. học tập suốt đời cũng là các yếu tố đảm bảo tăng cường tiềm năng tri chọn nhằm thể hiện tiềm năng nói trên. Xã hội học tập và hoạt động lực trong nền kinh tế. Các thông số về giáo dục và sáng tạo được lựa Cột trụ này bao gồm các yếu tố về năng lực tri thức của nguồn nhân educated and skilled labor force)

 Một thiết chế xã hội pháp quyền và khuyến khích kinh tế (An

Bốn cột trụ của một nền kinh tế tri thức

Kinh tế tri thức: đặc trưng

phát kiến, phổ biến và sử dụng các tri thức đang có. khích phân phối hiệu quả tài nguyên, kích thích cách tân và thúc đẩy Cột trụ này bao gồm các chính sách và thể chế kinh tế tốt, khuyến economic incentive and institutional regime)

50

Chương 2. Bài toán phát hiện tri thức

14

tri thức của Ngân hàng thế giới (KAM) được đổi mới theo thời gian

đang được nghiên cứu đề xuất, chẳng hạn hệ thống đo lường kinh tế

thống kê quốc dân truyền thống.

chưa có cách thức thống kê tri thức tương tự như cách thức

 Việc lên sơ đồ cho đầu vào của bộ tạo tri thức là rất khó khăn vì

Việc chọn các tiêu chí trong hệ thống đánh giá kinh tế tri thức vẫn

dịch các đầu vào của nguồn tạo tri thức thành đầu ra tri thức.

 Không có một công thức hoặc một cách làm ổn định để chuyển Bốn nguyên tắc [Oec96]

Kinh tế tri thức: đo lường

 Tổng hợp các tiêu chí

 Đo lường từng tiêu chí

 Hệ thống tiêu chí

 Đang trong quá trình hình thành và cải tiến:

 Thông qua hệ thống tiêu chí: Đầu ra của kinh tế tri thức

 [OEC96] xác định 4 khó khăn nguyên tắc (trang sau)

tưởng”. thức về tăng trưởng kinh tế không hoàn toàn rõ ràng như ta vẫn  [Ram08] nhận định “người ta ngày càng nhận thức rõ hơn rằng tri

dung 4 cột trụ [OEC96, RF99, CD05]

 Là một công việc khó khăn: Từ chính Khái niệm tri thức và nội

Kinh tế tri thức: đo lường

Ví dụ, đầu tư cho khoa học – công nghệ <=> kinh tế tri thức kinh tế ? công thức định lượng đúng tuyệt đối hệ thống các tiêu chí thể hiện được tiềm năng tạo ra tri thức cho nền thức hay cách làm nói trên. tính phức tạp của quá trình nhận thức cho nên không thể có một công

51

Chương 2. Bài toán phát hiện tri thức

15

- hệ thống đo lường kinh tế tri thức phổ biến: có KAM của WB

- đề xuất một mô hình đánh giá kinh tế tri thức của một quốc gia

thống đánh giá điển hình.

- phân tích nội dung, điểm mạnh và điểm hạn chế của một số hệ

kinh tế tri thức của một quốc gia.

Yogesh Malhotra [Mal03] trình bày hệ thống về mô hình đánh giá

 Đo lường tri thức thông qua học tập  Đo lường mạng tri thức  Đo lường tri thức của đầu ra  Đo lường kho tri thức và tri thức trong kho.  Đo lường tri thức của đầu vào. Các bài toán cần giải quyết [OEC96]

Kinh tế tri thức: đo lường

kho tri thức. sung mạng vào kho tri thức và sự lạc hậu của các phần tử trong  Chưa văn bản hóa được việc tạo tri thức mới mà không phải bổ

(hợp các phần tử tri thức thành thành phần bản chất duy nhất).  Thiếu tri thức về một hệ thống định giá có tính phương pháp luận Bốn nguyên tắc [OEC96]

Kinh tế tri thức: đo lường

quốc gia vẫn chưa có tính phương pháp luận hoàn toàn. hợp các giá trị đó thành giá trị “đo” mức độ kinh tế tri thức của một Chẳng hạn, hệ thống KAM, việc “đo” cho từng tiêu chí cũng như tổng “tri thức” của một nền kinh tế. Thành phần bản chất duy nhất được dùng để làm giá trị đo mức độ

52

Chương 2. Bài toán phát hiện tri thức

16

tin và tri thức

phương tiện hiệu quả để truyền thông, phổ biến và xử lý thông

 Cột trụ Hạ tầng thông tin hiện đại và đầy đủ đảm bảo hệ thống

thức mới cho nhu cầu địa phương

dòng tăng trưởng tri thức tổng thể, đồng hóa và làm phù hợp tri

chức khác nhằm đảm bảo sự tiến hóa tri thức, chuyển đổi thành

trung tâm nghiên cứu, trường đại học, các chuyên gia và các tổ  Cột trụ Hệ thống cách tân được thi hành trong các tập đoàn,

training services, in Services (%), Local availability of specialized research and tiếp tới kinh tế dịch vụ, chẳng hạn như các tiêu chí Employment  Hệ thống KAM chứa một số tiêu chí có nội dung liên quan trực

2008, KAM-2009) tiếng Anh là Institutions (KAM-2005) và Governance (KAM-  Tiêu đề Điều hành chính quyền được chuyển từ các tiêu đề

Một số giải thích

Đo lường kinh tế tri thức: KAM

 2005: 80 tiêu chí; 2008: 83 tiêu chí; 2009: 109 tiêu chí  Đang được cải tiến  Chi tiết hóa 4 cột trụ bằng hệ thống tiêu chí

 Đo lường điển hình KTTT

KAM - Knowledge Assessment Methodology [CD05]

Đo lường kinh tế tri thức: KAM

53

Chương 2. Bài toán phát hiện tri thức

17

Bài toán phát hiẹn tri thức 34

ảnh chụp.

tập tin văn bản, hình ảnh, băng hình, cảm biến, và các bức

 Chuyên gia, sách hướng dẫn, phim ảnh, sách, cơ sở dữ liệu,

 Một số nguồn tri thức

chủ quan)

thức văn bản hóa là mục tiêu (dù có thể được diễn giải một cách

phim… Tri thức không văn bản hóa có trong tâm trí con người. Tri  Tri thức văn bản hóa có trong sách vở, đĩa máy tính, báo cáo,

cơ sở tri thức.

 Biểu diễn tri thức liên quan đến việc tổ chức các tri thức trong các

toán neuron. Sử dụng 3 kỹ thuật: quy nạp, lập luận dựa trên trường hợp, tính đã văn bản hóa và chưa văn bản hóa và chuyển nó vào máy tính.  Thu nhận tri thức là việc khai thác tri thức từ nguồn (chuyên gia)

 Một số khái niệm

Cơ bản về công nghệ tri thức

Bài toán phát hiẹn tri thức 33

 Metaknowledge: YKYN, YDYK, YKYD, YDYD

file đầy đủ. So sánh với metadata (dữ liệu về dữ liệu): dữ liệu mô tả xác định những tri thức có liên quan, và khi nào tri thức là chưa để sử dụng tri thức trong các tình huống cụ thể, làm thế nào để  Metaknowledge: tri thức về tri thức. Một số ví dụ: làm thế nào

 Một số khái niệm liên quan

luận, và thiết kế các công cụ giải thích.

 thu nhận tri thức, biểu diễn tri thức, xây dựng một cơ chế suy

 Bốn bước thi hành

diễn tri thức, và xây dựng cơ chế suy luận và giải thích.

 Công nghệ tri thức là một quá trình bao gồm thu nhận và biểu

 Khái niệm công nghệ tri thức

Cơ bản về công nghệ tri thức

54

Chương 2. Bài toán phát hiện tri thức

18

 OK - Organizational Knowledge: Tri thức của tổ chức

 VKC - Validated Knowledge Claim: Yêu cầu tri thức hợp lệ

 UKC - Unvalidated Knowledge Claim: Yêu cầu tri thức không hợp lệ

 CKC - Codified Knowledge Claim: Yêu cầu tri thức hệ thống hóa

ra giá trị lớn nhất của nó. nói chung - các công ty phải sử dụng chiến lược khác nhau để nhận một tổ chức, sau đó tại nhiều tổ chức, và cuối cùng cho công chúng  Khi nó trở nên truy cập vào nhiều hơn và nhiều người - đầu tiên trong

gian: khởi tạo, huy động, phổ biến, trở thành hàng hóa

 Tri thức tiến bộ thông qua bốn giai đoạn là nó phát triển theo thời

2. Quản lý tri thức trong tổ chức

IKC - Invalidated Knowledge Claim: Yêu cầu tri thức hết hiệu lực IK - Invalidated Knowledge: Tri thức hết hiệu lực

55

Chương 2. Bài toán phát hiện tri thức

19

Bài toán phát hiẹn tri thức 38

dụng mô hình.

dựng mô hình và kiểm định giả thuyết  Đánh giá mô hình  Sử

 Từ dữ liệu  phát hiện quan hệ  phát triển giả thuyết  Xây

 Tiếp cận khai phá dữ liệu

kiểm định (chứng minh) giả thuyết. Ngô Bảo Châu: Bổ đề cơ bản

 Từ lý thuyết (hệ toán mệnh đề)  phát triển các giả thuyết 

 Tiếp cận truyền thống

Tiếp cận truyền thống và tiếp cận KPDL

được những gì HP biết, chúng tôi sẽ có ba lần lợi nhuận"

 Cựu giám đốc điều hành HP, Lew Platt đã từng nói, "Nếu HP biết  Hầu hết kỹ thuật khai phá dữ liệu chuyển hóa DKYK  YKYK.

3. Chuyển đổi meta-knowledge

56

Chương 2. Bài toán phát hiện tri thức

20

 Mô hình năm 1998

Mô hình vòng khai phá dữ liệu DN’98

Bài toán phát hiẹn tri thức 39

 Ví dụ: Chương 3 sách Data Mining: Methods and Tools, 1998.

 Khi nào nên khai phá dữ liệu

toán công nghệ. “kinh doanh”, bài toán “chiến lược” mà không phải

là bài  Khai phá dữ liệu và phát hiện tri thức trong CSDL là bài toán

 Nội dung cơ bản của KDD và DM

4. Bài toán phát hiện tri thức

57

Chương 2. Bài toán phát hiện tri thức

21

 Nguồn: http://www.crisp-dm.org/Process/index.htm (13/02/2011)

 CRISP-DM 2.0 SIG WORKSHOP, LONDON, 18/01/2007

 Thi hành chỉ sau khi tham chiếu kết quả với “hiểu kinh doanh”

toán và đánh giá

Standard Process for Data Mining). “Hiểu kinh doanh”: hiểu bài

 Các pha trong mô hình quy trình CRISP-DM (Cross-Industry

CRISP-DM Chuẩn công nghiệp khai phá dữ liệu

kinh doanh. liệu để xác định các quan hệ và mẫu thực sự liên quan tới mục tiêu • Chuyên gia miền ứng dụng làm việc với chuyên gia khai phá dữ • Trích chọn quan hệ và mẫu từ tập dữ liệu kinh doanh,

liệu xác nhận bộ công cụ là thích hợp nhất với mục tiêu kinh doanh, • Chuyên gia miền ứng dụng làm việc với chuyên gia khai phá dữ

mục tiêu kinh doanh, được khảo sát và thích hợp với công cụ phát hiện tri thức phù hợp • Khởi tạo dữ liệu sao cho năng lực tính toán làm chủ được dữ liệu

nghiệm trong hệ thống phát hiện tri thức,

• Định danh các chuyên gia miền lĩnh vực làm việc với nhóm thực • Khởi tạo tập dữ liệu mẫu chứa mọi thông tin liên quan,

mục tiêu kinh doanh đã được xác định,

• Định danh dữ liệu doanh nghiệp chứa thông tin liên quan tới các

kinh doanh để nghiên cứu có tính tập trung,

• Xác định mục tiêu kinh doanh. Bắt đầu với nhiều nhất ba mục tiêu

Mô hình vòng khai phá dữ liệu DN’98

58

Chương 2. Bài toán phát hiện tri thức

22

 thực hiện nhiều lần và không theo một thứ tự quy định.

công cụ mô hình hóa. tính cũng như chuyển đổi, và làm sạch dữ liệu cho các  gồm các hoạt động lập bảng, ghi lại và lựa chọn thuộc

cuối làm đầu vào cho công cụ mô hình hóa.

 gồm mọi các hoạt động nhằm xây dựng các tập dữ liệu

• Chuẩn bị dữ liệu (Data preparation)

CRISP-DM Chuẩn công nghiệp khai phá dữ liệu

khai phá dữ liệu, mục tiêu và kế hoạch thực hiện. hồi, phối hợp với nội dung hiểu kinh doanh  làm rõ bài toán hiểu dữ liệu  phân tích dữ liệu để hiểu dữ liệu có thể phản  Tri thức kinh doanh từ giai đoạn hiểu kinh doanh định hướng con dữ liệu thú vị nhằm hình thành giả thuyết cho thông tin ẩn.  khám phá hiểu biết ban đầu tới tập dữ liệu /phát hiện các tập

liệu, xác định các vấn đề chất lượng dữ liệu,

 Với một tập dữ liệu ban đầu: tiến hành hoạt động “làm quen” dữ

• Hiểu dữ liệu (Data understanding)

tiêu.

 một kế hoạch sơ bộ được thiết kế để đạt được các mục  một định nghĩa bài toán khai thác dữ liệu

tri thức này thành

 chuyển đổi  tập trung vào hiểu biết mục tiêu/yêu cầu từ góc độ kinh doanh

• Hiểu kinh doanh (Business understanding)

CRISP-DM Chuẩn công nghiệp khai phá dữ liệu

59

Chương 2. Bài toán phát hiện tri thức

23

 Một mô hình KDD năm 2000 [Nac00]

Một mô hình khai phá dữ liệu DN’00

đúng cách thức. rằng mô hình kết quả đạt được các mục tiêu kinh doanh theo được thực hiện để xây dựng mô hình  niềm tin chắc chắn  Đánh giá mô hình kết quả kỹ lưỡng và xem xét các bước đã

theo góc độ phân tích dữ liệu.

 Tìm ra (một số) mô hình kết quả với mục tiêu chất lượng cao

• Đánh giá (Evaluation)

nhằm đạt được mô hình có kết quả tối ưu.

 thực hiện lặp một số lần mô hình hóa và chuẩn bị dữ liệu  Một số kỹ thuật được sử dụng  Xác định tham số mô hình nhằm đạt tới giá trị tối ưu.  Các kỹ thuật mô hình khác nhau được lựa chọn và áp dụng.

• Mô hình hóa (Modeling)

CRISP-DM Chuẩn công nghiệp khai phá dữ liệu

60

Chương 2. Bài toán phát hiện tri thức

24

[HF09]

 Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009

Một mô hình KPDL hướng BI

Management & Data Systems, 2008. 108(5): 622-634. [Oha09] to data mining process

for business

intelligence,

Industrial  Wang, H. and S. Wang (2008). A knowledge management approach

Mô hình KPDL và mô hình kinh doanh’08

61

Chương 2. Bài toán phát hiện tri thức

25

 Mô hình quá trình khai phá dữ liệu hướng miền ứng dụng [CYZ10]

Mô hình KPDL hướng ứng dụng

 Mô hình quá trình C-KDD [Pan10]

Tương tác người-máy trong KPDL’10

62

Chương 2. Bài toán phát hiện tri thức

26

chuyển giao cho người kinh doanh).

(tổng hợp phát hiện cuối cùng thành báo cáo ra quyết định sẽ được

P13. Cung cấp tri thức và báo cáo tổng hợp để ra quyết định thông minh

P12. Triển khai (triển khai các kết quả vào các ngành kinh doanh);

P11. Xem xét lại các giai đoạn từ P1 có thể được đòi hỏi;

quả ban đầu);

P10. Hậu xử lý kết quả (hậu phân tích hoặc hậu khai phá dữ liệu các kết

P9. Thực hiện qua lại giữa P7 và P8;

suất bằng cách áp dụng phương pháp hiệu quả hơn). theo quan điểm cả về kỹ thuật và kinh doanh, và tăng cường hiệu P8. Đo lường và nâng cao khả năng hành động (đánh giá tính thú vị P07. Khai phá chuyên sâu về kết quả chung ban đầu khi áp dụng;

ứng dụng theo phương thức quay lui và xem xét; thông qua phân tích ràng buộc và tương tác với các chuyên gia miền P7. Là hoàn toàn hợp lý khi mỗi giai đoạn từ P1 có thể được lặp đi lặp lại

các phát hiện ban đầu);

P6. Phân tích và đánh giá kết quả chung ban đầu (phân tích /đánh giá

Mô hình KPDL hướng ứng dụng

dụng khai phá đa bước, khai phá kết hợp); cách sử dụng nhiều mô hình hiệu quả tiết lộ cốt lõi của vấn đề, hoặc P05. Mô hình hóa chuyên sâu (áp dụng mô hình hóa chuyên sâu bằng

và phương pháp thích hợp để đạt được các mục tiêu trên);

P5. Lựa chọn phương pháp và mô hình hóa (lựa chọn được các mô hình

hoặc chuẩn bị dữ liệu chẳng hạn như xử lý dữ liệu mất tích và riêng tư); P4. Tiền xử lý dữ liệu (trích chọn, chuyển đổi và tải dữ liệu, nói riêng,

hợp hoặc xây dựng để đạt được các mục tiêu); nghĩa mục tiêu khai phá dữ liệu, và các đặc trưng được lựa chọn phù P3. Định nghĩa các mục tiêu phân tích, và xây dựng đặc trưng (định

trên, từ dữ liệu, miền ứng dụng, tính thú vị và cách phân bố);

P2. Phân tích ràng buộc (định danh ràng buộc xung quanh các vấn đề ở

của nó và những thách thức ...);

P1. Hiểu vấn đề (định danh và xác định các vấn đề, bao gồm cả phạm vi

Mô hình KPDL hướng ứng dụng

63

Chương 2. Bài toán phát hiện tri thức

27

Bài toán phát hiẹn tri thức 53

 Vai trò của người sử dụng.

 Dữ liệu học, dữ liệu kiểm tra.

 Vai trò dữ liệu mẫu

 Kết hợp giải pháp

 Không có thuật toán “tốt nhất” cho mọi bài toán khai phá dữ liệu.

 Lựa chọn thuật toán

 Độ đo là nội dung nghiên cứu trong KPDL

từng phương pháp, luật kết hợp (độ hỗ trợ + độ tin cậy)… giá (chính xác + hồi tưởng, chính xác + lỗi), phân cụm: đo theo  Mỗi bài toán KPDL thường đi kèm độ đo: phân lớp có độ đo đánh

 Tri thức  “mẫu có giá trị”

 Đô đo “tri thức”

5. Một số vấn đề liên quan

64

1

 Rời rạc và sinh kiến trúc khái niệm

 Rút gọn dữ liệu

 Tích hợp và chuyển dạng dữ liệu

 Làm sạch dữ liệu

 Vai trò của tiền xử lý dữ liệu

 Tiền xử lý dữ liệu

 Đánh giá và lập hồ sơ DL  Trực quan hóa DL  Mô tả thống kê cơ bản của DL  Thu thập dữ liệu  Độ đo tương tự và không tương tự của DL  Đối tượng DL và kiểu thuộc tính  Vai trò của hiểu dữ liệu

 Hiểu dữ liệu

Chương 3: Tiền xử lý dữ liệu

VÀ TIỀN XỬ LÝ DỮ LIỆU CHƯƠNG 3. HIỂU DỮ LIỆU

KHAI PHÁ DỮ LIỆU

Bài giảng môn học

65

2

[HF09]: Hiểu dữ liệu và hiểu thương mại điện tử

 Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009

một mô hình KPDL hướng BI 3.1.1. Vai trò của hiểu dữ liệu:

 Đánh giá và lập hồ sơ DL

 Trực quan hóa DL

 Mô tả thống kê cơ bản của DL

 Thu thập dữ liệu

 Độ đo tương tự và không tương tự

 Đối tượng dữ liệu và kiểu thuộc tính

 Vai trò của hiểu dữ liệu

Hiểu dữ liệu

66

3

Phiên bản 2011 nhấn mạnh Hiểu dữ liệu !

 Thay đổi đáng kể từ phiên bản 2006 tới phiên bản 2011:

Hiểu dữ liệu qua hai phiên bản sách

Bước P3 “Hiểu dữ liệu”, Bước P4 “Tiền xử lý dữ liệu”

 Mô hình quá trình khai phá dữ liệu hướng miền ứng dụng [CYZ10]:

Một mô hình KPDL hướng ứng dụng Vai trò của hiểu dữ liệu:

67

4

 Tập trung và phân tán

 Phân bố

 Mẫu phụ thuộc quy mô

 Phân tích

 Chỉ mang tính hiện diện

 Thưa

 Tai họa của kích thước lớn

 Kích thước

Đặc trưng quan trọng của DL có cấu trúc

Dữ liệu Video

Dữ liệu ảnh, DL không gian: bản đồ

 Không gian, ảnh và đa phương tiện:

5 4

Coke, Diaper, Milk Beer, Bread, Diaper, Milk

Dữ liệu dãy gene

3 2

Beer, Coke, Diaper, Milk Beer, Bread

Dữ liệu dãy: dãy giao dịch Dữ liệu thời gian: chuỗi thời gian

1

Bread, Coke, Milk

Dữ liệu Video: dãy các ảnh

TID

Items

 Thứ tự

Cấu trúc phân tử

 Mạng xã hội và mạng thông tin

 World Wide Web

 Đồ thị và mạng

Dữ liệu giao dịch

vector tần số từ … Dữ liệu tài liệu: Tài liệu văn bản dùng

chéo…

 Ma trận DL, chẳng hạn, ma trận số, bảng

Bản ghi quan hệ

 Bản ghi

3.1.2. Kiểu tập dữ liệu

68

5

 Cỡ tỷ lệ

 Cỡ khoảng

 Số: định lượng

 Nhị phân

 Đinh danh

 Kiểu:

 Ví dụ, ChisoKH, tên, địa chỉ tượng DL. biểu diễn một thuộc tính/đặc trưng của một đối trưng_features, biến_variables): một trường DL  Thuộc tính_Attribute (hoặc chiều_dimension, đặc

Thuộc tính

 Dòng CSDL -> đối tượng DL; cột ->thuộc tính.

 Đối tượng DL được mô tả bằng các thuộc tính (attributes)

điểm DL (data points), đối tượng (objects), bộ (tuples).

 Tên khác: mẫu (samples ), ví dụ (examples), thể hiện (instances),

 CSDL đại học: sinh viên, giáo sư, môn học

 CSDL y tế: bệnh nhân, điều trị

 CSDL bán hàng: Khách hàng, mục lưu, doanh số

 Ví dụ:

thể.

 Mỗi đối tượng dữ liệu (data object) trình bày một thực

 Tập DL được tạo nên từ các đối tượng DL.

Đối tượng dữ liệu

69

6

tổng số đếm được, số lượng tiền

 Ví dụ, nhiệt độ theo Kelvin, độ dài đếm được,

đo lường (10 K˚ là hai lần cao hơn 5 K˚).

 Các giá trị là một thứ bậc của độ đo so với đơn vị

 zero-point vốn có

 Tỷ lệ

 Không làm điểm “true zero-point”

 Chẳng hạn, nhiệt độ theo C˚hoặcF˚, ngày lịch

 Các giá trị có thứ tự

thước

 Được đo theo kích thước các đơn vị cùng kích

 Khoảng  Số lượng (nguyên hay giá trị thực)

Kiểu thuộc tính số

 Size = {small, medium, large}, grades, army rankings

trị liên kết: không được biết

 Các giá trị có thứ tự mang nghĩa (xếp hạng) nhưng độ lớn các giá

 Có thứ tự

dương tính HIV)

 Quy ước: gán 1 cho kết quả quan trọng nhất (chẳng hạn,  Chẳng hạn, kiểm tra y tế (tích cực/tiêu cực)

 Nhị phân phi ĐX: kết quả không quan trọng như nhau.

 Chẳng hạn, giới tính

 Nhị phân đối xứng: Cả hai kết quả quan trọng như nhau  Thuộc tính định danh hai trạng thái (0 và 1)

 Nhị phân

số ID (ID numbers), mã zip bưu điện (zip codes)

 Tình trạng hôn nhân (marital status), nghề nghiệp (occupation),  Hair_color = {auburn, black, blond, brown, grey, red, white}

 Định danh: lớp, trạng thái, hoặc “tên đồ vật”

Kiểu thuộc tính

70

7

 Gần-Proximity chỉ dẫn tới tương tự hoặc phân biệt

 Giới hạn trên tùy

 Phân biệt tối thiểu là 0

 Càng thấp khi các đối tượng càng giống nhau

 Độ đo bằng số cho biết hai đối tượng khác nhau ra sao

 Phân biệt-Dissimilarity (như khoảng cách)

 Thường thuộc đoạn [0,1]

 Giá trí càng cao khi hai đối tượng càng giống nhau

 Độ đo bằng số cho biết hai đối tượng giống nhau ra sao

 Tương tự

3.1.4. Tương tự và phân biệt

động

 Thuộc tính liên tục được trình bày phổ biến như biến dấu phảy

hạn chữ số

 Thực tế, giá trị thực chỉ tính và trình bảng bằng sử dụng một hữu

 Như nhiệt độ, chiều cao, trong lượng

 Có rất nhiều các giá trị thuộc tính

 Thuộc tính liên tục

rạc

 Lưu ý: Thuộc tính nhị phân là trường hợp riêng của thuộc tính rời  Đôi lúc trình bày như các biến nguyên

tập tài liệu

 Chẳng hạn, mã zip, nghề nghiệp haowcj tập ácc từ trong một

 Chỉ có một tập hữu hạn hoặc hữu hạn đếm được các giá trị

 Thuộc tính rời rạc

Thuộc tính rời rạc và liên tục

71

8

thái định danh

 Tạo một TT nhị phân mới cho mỗi từ M trạng

 Phương pháp 2: Dùng lượng lớn TT nhị phân

p

id

,(

j

)

mp

 m: lượng đối sánh, p: tổng số lượng biến

 Phương pháp 1: Đối sánh đơn giản

thuộc tính nhị phân) như “red, yellow, blue, green” (tổng quát hóa  Có thể đưa ra 2 hoặc nhiều hơn các trạng thái,

Đo khảng cách thuộc tính định danh

nd (

)1,

nd (

)2,

...

...

0

: )2,3(

d

: 0

: d(3,1

)

0

 Chế độ đơn  Ma trận tam giác ghi khoảng cách

       

       

d(2,1) 0

 n điểm DL nhưng chi

 Ma trận phân biệt

...

...

...

...

...

...

...

...

 Hai chế độ  n điểm DL có p chiều

        

        

n1x ... i1x ... 11x

...

nfx ... ifx ... 1fx

npx ... ipx ... 1px

...

 Ma trân DL

Ma trận DL và ma trận phân biệt

72

9

2

1

1

d

(

jim

,

mary

)

75.0

1

2

1

1

1

d

(

jack

,

jim

)

67.0

1

1

2

0

1

d

(

jack

,

mary

)

33.0

0

1

 Cho giá trị Y và P là 1, và giá trị N là 0:

 Các thuộc tính còn lại: nhị phân phi đối xứng  Giới tính: thuộc tính nhị phân đối xứng

Y Y Y

P N N

N N N

N P N

N N N

N Jim M P Mary F P Jack M Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4

 Ví dụ

Phân biệt giữa các biến nhị phân

 Chú ý: Hệ số Jaccard giống độ “gắn kết” (coherence):

các biến nhị phân không ĐX):

 Hệ số Jaccard (đo tương tự cho

phân không đối xứng:

 Đo khoảng cách các biến nhị

phân đối xứng:

 Đo khoảng cách các biến nhị

 Bảng kề cho dữ liệu nhị phân

Object i

Đo khoảng cách các thuộc tính nhị phân

Object j

73

10

x4

4.24

1

5.39

0

x3

2.24

5.1

0

x2

3.61

0

x1

0

2

0

4

x1

x2

x3

x4

x3

(với khoảng cách Ơcơlit)

Ma trận phân biệt

x1

2

4

x2

x4

Ma trận DL

Ví dụ: Ma trận DL và ma trận phân biệt

chuẩn

 Dùng độ lệch tuyệt đố trung bình là mạnh mẽ hơn so với độ lệch

f

 Độ chuẩn hóa (z-score):

if

z

if

f

f

1

f

f

s  mx

 ...

.)

nf x

2 x

trong đó

1

f

f

f

f

f

f

2 x

m

m

s

|

|

|

 ...

|

nf x

m

|)

(xn m  1 xn (|1  Một cách khác: Tính độ lệch tuyệt đối trung bình

 Âm (-) khi DL thô nhỏ thua kỳ vọng, “+” khi lớn hơn above  Khoảng cách giữa DL thô và kỳ vọng theo đơn vị độ lệch chuẩn

tập số, σ: độ lệch chuẩn

 X: DL thô sẽ được chuẩn hóa, μ: trung bình mẫu (kỳ vọng_ của

 Z-score:

z

 

 x

Chuẩn hóa DL số

74

11

các vector

 Là sự khác biệt cực đại giữa các thành phần (thuộc tính) của

2

2

p

p

 h  . Khoảng cách “supremum” (chuẩn Lmax, chuẩn L) j 1

j

j

jid ),(

 ...

i x

i x

(|

x

x

x

|

|

|

|

)| 2

2

2

i 1 x  h = 2: Khoảng cách Ơcơlit - Euclidean (chuẩn L2)

2

2

p

j 1

j

j

jid

 |),(

i 1 x

x

|

|

i x

x

|

 ...

|

i p x

|

x

của hai vector nhị phân

 Chẳng hạn, khoảng cách Hamming: số lượng bit khác nhau

 h = 1: khoảng cách Manhattan (khối thành thị, chuẩn L1)

KC Minkowski: các trường hợp đặc biệt

 Một KC bảo đảm 3 tính chất trên là một metric

 d(i, j)  d(i, k) + d(k, j) (Bất đẳng thức tam giác)

 d(i, j) = d(j, i) (đối xứng)

 d(i, j) > 0 nếu i ≠ j, và d(i, i) = 0 (xác định dương)

 Tính chất

chuẩn L-h) tượng DL p-chiều, và h là bậc (KC này còn được gọi là

với i = (xi1, xi2, …, xip) và j = (xj1, xj2, …, xjp) là hai đối

 KC Minkowski: Một độ đo khoảng cách điển hình

Khoảng cách DL số: KC Minkowski

75

12

cỡ-khoảng

 Tính toán độ phân biệt sử dụng phương pháp với biến

f

M

1

if

z

if

r

1

thành biến f :

f

 Ánh xạ phạm vi biến vào [0, 1] khi thay thể đối tượng I  Thay xif bằng hạng của nó

if r 

,...,1{

M

}

 Có thể coi cỡ-khoảng

 Thứ tự là quan trọng, chẳng hạn như “hạng”

 Một biến có thứ tự có thể rời rạc hoặc liên tục

Biến có thứ tự

0

5 0

1 5 0

3 2 3 0

x4 x3 x2 x1 L

x1

x2

x3

x4

Supremum

0

5.39 0

1 5.1 0

4.24 2.24 3.61 0

x4 x3 x2 x1 L2

x2

x1

x3

x4

Euclidean (L2)

0

7 0

1 6 0

x4 x3 x2 x1 L

6 3 5 0 x1

x3

x4

x2 Manhattan (L1)

Ma trận phân biệt

Ví dụ: KC Minkowski

76

13

với  chỉ tích vector vô hướng, ||d||: độ dài vector d

cos(d1,d2) = (d1  d2) /||d1|| ||d2|| ,

 Độ đo Cosine: d1 và d2: hai two vector (như vector tần suất từ), thì

...

 Ứng dụng: truy hồi thông tin, phân cấp sinh học, ánh xạ đặc trưng gene,  Đối tượng vector khác: đặc trưng gene trong chuỗi phân tử, …

nhận tần số của các phần tử (như từ khóa, n-gram) hoặc cụm từ

 Một tài liệu có thể được trình bày bằng hàng nghìn thuộc tính, mỗi ghi

Độ tương tự cosine

f

1

 Cho zif như cỡ-khoảng  Tính toán hạng rif và

if

zif

1

M r

dij

 f là thứ bậc  f là số: sử dụng khoảng cách đã chuẩn hóa (f) = 1 ngược lại

(f) = 0 nếu xif = xjf , hoặc dij  f là nhị phân hay định danh:

jid ),(

f ij 1   p ( f  f 1 ij  d p (

)

f

) ij (

f

)

của chúng

 Có thể sử dụng công thức trọng số để kết hợp tác động

số, thứ tự

 Định danh, nhị phân đối xứng, nhị phân phi đối xứng,

 Một CSDL chứa mọt kiểu thuộc tính

Thuộc tính có kiểu pha trộn

77

14

xứng, không bảo đảm bất đẳng thức tam giác

 Phân kỳ KL : không là độ đo khoảng cách, không là metric: phi đối

 Dạng liên tục:

một lý thuyết, mô hình, mô tả, hoặc xấp xỉ p(x)

(phân bố “true”) khi dùng một mã dựa trên q(x), được biểu diễn như

 Phân kỳ KL đo số kỳ vọng các bit yêu cầu thêm để mã hóa ví dụ từ p(x)

 Dạng rời rạc: q(x) được dùng để xấp xỉ p(x)

 DKL(p(x), q(x)): phân kỳ của q(x) từ p(x), đo độ mất mát thông tin khi

thông tin, và thông tin để phân biệt

 Từ lý thuyết thông tin: liên quan chặt với entropy tương đối, phân kỳ trên cùng biến x

 Phân kỳ Kullback-Leibler (KD) : Do sự khách biệt hai phân bố xác suất

So sánh hai phân bố XS: Phân kỳ KL

cos(d1,d2 ) = 0.94

= 4.12

||d2||= (3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1)0.5=(17)0.5

= 6.481

||d1||= (5*5+0*0+3*3+0*0+2*2+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5 d1d2= 5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1 = 25

d2 = (3, 0, 2, 0, 1, 1, 0, 1, 0, 1) d1 = (5, 0, 3, 0, 2, 0, 0, 2, 0, 0)

 Ví dụ: Tìm độ tương tự giữa hai tài liệu 1 và 2.

ở đây  chỉ tích vô hướng, ||d|: độ dài vector d

 cos(d1, d2) = (d1  d2) /||d1|| ||d2|| ,

Ví dụ: Đô tương tự Cosine

78

15

 Tạo điều kiện quản trị dữ liệu tốt hơn để đáp ứng mối quan

 Rút gọn sự tăng không cần thiết của dữ liệu

 Hỗ trợ việc quản lý và bảo quản dữ liệu tập trung hóa

tâm đúng đắn

 Loại bỏ ràng buộc không gian/thời gian khi di chuyển khối

 Kết nối mức thấp để truy nhập trực tiếp CSDL

 Ngôn ngữ hỏi bậc cao truy nhập trực tiếp CSDL

 Trích chọn dữ liệu theo câu hỏi từ CSDL tới tập tin phẳng Data Acquisition:

 Cách thu thập dữ liệu cần thiết để mô hình hóa

3.1.4. Thu thập dữ liệu

 DKL(P’,Q’) có thể tính toán được  Q′ : (a : 5/9 − ϵ/3, b : 3/9 − ϵ/3, c : ϵ, d : 1/9 − ϵ/3).  P′ : (a : 3/5 − ϵ/3, b : 1/5 − ϵ/3, c : 1/5 − ϵ/3, d : ϵ)  Làm trơn, bổ sung ký hiệu thiếu cho mỗi phân bố với xác suất ϵ

= {a, b, c, d}

 Tập mẫu được quan sát trong P, SP = {a, b, c}, SQ = {a, b, d}, SU  Đưa vào một hằng số rất nhỏ ϵ,: chẳng hạn, ϵ = 10−3

 Ví dụ: P : (a : 3/5, b : 1/5, c : 1/5). Q : (a : 5/9, b : 3/9, d : 1/9)

năng của cái không nhìn thấy: làm trơn (smoothing ) là cần thiết

 Thực tế: P và Q được cung cấp từ phân bố tần suất, không xem xét khả

0), thì hai phân bố là khác biệt tuyệt đối e là khả năng (p(e) > 0), và dự báo q là không thể tuyệt đối (q(e) =  Khi p = 0 nhưng q != 0, DKL(p, q) được định nghĩa là ∞: một sự kiện  limq→0 q log q = 0  Xem xét p =0 hoặc q = 0  Dựa trên công thức, DKL(P,Q) ≥ 0 và DKL(P,Q) = 0  P = Q.

Cách tính PK KL

lượng lớn dữ liệu

79

16

 Cung cấp kỹ thuật đồ họa biểu diễn tần số giá trị của một biến

 Lược đồ (Histograms)

 Phân bố tần suất giá trị của các biến

 Bảng tần suất (Frequency tables)

 Min, Q1, Median, Q3, Max

interquartile range (IQR): Q3-Q1

 Q1=25%, Q2=50%, Q3=75% |yD: miny x|/|yD|=k%  [Min, Max]: giá trị k% là giá trị x sao cho

 Độ đo phân tán

 Giá trị nhỏ nhất và Giá trị lớn nhất

 Cực tiểu (Minimum) và Cực đại (Maximum)

 Phân bố dữ liệu xung quanh kỳ vọng  Độ lệch chuẩn (Standard deviation)

Một số độ đo thống kê

bimodal, trimodal, v.v.

 Mode: Tập con dữ liệu xuất hiện với tần số cao nhất. unimodal,

 Trung vị

 Xu hướng trung tâm của tập dữ liệu

 Giá trị kỳ vọng (mean)

3.1.5 . Mô tả thống kê cơ bản của dữ liệu

80

17

3.1.6. Mô tả dữ liệu: trực quan hóa

cần kiểm tra là giá trị ngoại lai Q1-1.5*IQR, Q1, Median, Q3, Q3+1.5*IQR nếu nằm ngoài Min, Q1, Median, Q3, Max

Biểu diễn giá trị dữ liệu

81

18

 Rời rạc hóa và sinh kiến trúc khái niệm

 Rút gọn dữ liệu

 Tích hợp và chuyển dạng dữ liệu

 Làm sạch dữ liệu

 Vai trò của Tiền xử lý dữ liệu

3.2. Tiền xử lý dữ liệu

 Những phát hiện nên được trình bày dưới dạng các báo cáo và liẹt kế

như các mốc quan trọng của kế hoạch

 Bất cứ dữ liệu đáng ngờ, như mã thiếu (miscodes), dữ liệu học, dữ liệu  Số lượng và phân bố các khoảng trong trong mọi trường hợp  Các ngoại lai tiềm năng bất kỳ  Tâm của dữ liệu

 Lập hồ sơ dữ liệu (cơ sở căn cứ: phân bố dữ liệu)

test, hoặc chỉ đơn giản dữ liệu rác

 Kiểm toán dữ liệu: lập hồ sơ dữ liệu và phân tích ảnh hưởng của dữ  Mô tả dữ liệu sẽ làm hiện rõ một số vấn đề

liệu chất lượng kém.

 Định vị một vấn đề trong dữ liệu cần giải quyết: Tìm ra và quyết định

 Đánh giá dữ liệu

3.1.7. Đánh giá và lập hồ sơ dữ liệu

cách nắm bắt vấn đề

82

19

IEEE Data Engineering Bulletin, 23(4): 3-13, 2000.

[RD00] Erhard Rahm, Hong Hai Do (2000). Data Cleaning: Problems and Current Approaches,

- (Dữ liệu chồng chéo, mâu thuẫn và không nhất quán) không nhất quán tích hợp và

- (Mô hình dữ liệu và thiết kế sơ đồ không đồng nhất) xung đột tên, cấu trúc

- (Lỗi nhập dữ liệu) sai chính tả, dư thừa/sao, giá trị mâu thuẫn…

- (Thiếu lược đồ toàn vẹn, thiết kế sơ đồ sơ sài) đơn trị, toàn vẹn tham chiếu…

Các vấn đề về chất lượng dữ liệu [RD00]

sử dụng trong điều hành, ra quyết định, và lập kế hoạch  Dữ liệu có chất lượng cao nếu như phù hợp với mục đích

chọn, làm sạch và chuyển đổi dữ liệu —Bill Inmon .  Phân lớn công việc xây dựng một kho dữ liệu là trích

lượng

 Kho dữ liệu cần tích hợp nhất quán của dữ liệu chất

chính xác, thậm chí gây hiểu nhầm.

 Chẳng hạn, dữ liệu bội hay thiếu là nguyên nhân thống không  Quyết định chất lượng phải dựa trên dữ liệu chất lượng

 Không có dữ liệu tốt, không thể có kết quả khai phá tốt!

3.2.1. Vai trò của tiền xử lý

thời gian

83

20

biệt với dữ liệu số

 Bộ phận của rút gọn dữ liệu nhưng có độ quan trọng riêng, đặc

 Rời rạc dữ liệu

hoặc tương tự kết quả phân tích

 Thu được trình bày thu gọn về kích thước những sản xuất cùng

 Rút gọn dữ liệu

 Chuẩn hóa và tổng hợp

 Chuyển dạng dữ liệu

 Tích hợp CSDL, khối dữ liệu hoặc tập tin phức

 Tích hợp dữ liệu

ngoại lai, và khử tính không nhất quán

 Điền giá trị thiếu, làm trơn dữ liệu nhiễu, định danh hoặc xóa

 Làm sạch dữ liệu

Các bài toán chính trong tiền XL DL

(accessibility). diễn (representational), và tiếp cận được

 Bản chất (intrinsic), ngữ cảnh (contextual), trình

 Phân loại bề rộng (Broad categories):

 Tiếp cận được (Accessibility)  Biểu diễn được (Interpretability)  Giá trị gia tăng (Value added)  Độ tin cậy (Believability)  Tính kịp thời (Timeliness)  Tính nhất quán (Consistency)  Tính đầy đủ (Completeness)  Độ chính xác (Accuracy)  Khung đa chiều cấp nhận tốt:

Độ đo đa chiều chất lượng dữ liệu

84

21

 Cách thức tạo biến mới: Data Derivation

 Giá trị: Data Discretization

 Biến: Dimensionality Reduction

 Bản ghi : Data Sampling

 Cách thức rút gọn dữ liệu để dùng: Data Reduction

 Data Abstraction

 Cách thức nắm bắt dữ liệu thời gian/chuỗi thời gian:

 Data Filtering

 Xử lý dữ liệu ngoại lai và không mong muốn khác:

 Data Weighting and Balancing  Trọng số của các trường hợp:

 Data Imputation

 Cách thức nắm bắt giá trị thiếu:

 Data Transformation  Cách thức diễn giải dữ liệu:

 Data Cleaning

 Cách thức làm sạch dữ liệu:

Một số bài toán cụ thể

Các thành phần của tiền xử lý dữ liệu (Bảng 2.1)

85

22

 Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.

 Chỉnh sửa dữ liệu không nhất quán

 Dữ liệu nhiễu: định danh ngoại lai và làm trơn.

 Xử lý giá trị thiếu

 Các bài toán thuộc làm sạch dữ liệu

 Vai trò quan trọng chữa dữ liệu (Maletic và Marcus 2000) và không thể bỏ qua việc xác nhận và sửa  Tăng cường phòng ngừa lỗi, vẫn/tồn tại sai sót trong bộ dữ liệu lớn  Phòng ngừa liên quan chặt chẽ với thu thập và nhập dữ liệu vào CSDL.  hai vấn đề cốt lõi để cải thiện chất lượng - phòng ngừa và chỉnh sửa quản lý dữ liệu (nắm giữ, số hóa, lưu trữ, phân tích, trình bày và sử dụng).  Nguyên lý chất lượng dữ liệu cần được áp dụng ở mọi giai đoạn quá trình

Làm sạch dữ liệu

“là bài toán “number one” trong kho dữ liệu”—DCI khảo sát “là một trong ba bài toán lớn nhất của kho dữ liệu”—Ralph Kimball

 Kiểm tra xác nhận có thể được tiến hành nhằm đạt tính phù hợp với

các chuẩn áp dụng, các quy luật, và quy tắc.

 Quá trình thường dẫn đến

 đánh giá dữ liệu của các chuyên gia miền chủ đề.

ngờ. loại bỏ, lập tài liệu và kiểm tra liên tiếp và hiệu chỉnh đúng bản ghi nghi

 xem xét dữ liệu để xác định ngoại lai (địa lý, thống kê, thời gian hay môi

 kiểm tra định dạng, tính đầy đủ, tính hợp lý, miền giới hạn,

 Quá trình bao gồm

 nâng cao chất lượng dữ liệu.

 chỉnh sửa các sai sót và thiếu sót được phát hiện

 xác định tính không chính xác, không đầy đủ/tính bất hợp lý của dữ liệu

 Là quá trình

3.2.2. Làm sạch dữ liệu

trường) hoặc các lỗi khác,

86

23

 Dữ liệu không nhất quán

 Dữ liệu không đầy đủ

 Bội bản ghi

 Các vấn đề dữ liệu khác yêu cầu làm sạch dữ liệu

 Thiết nhất quán khi đặt tên: cũng một tên song cách viết khác nhau

 Hạn chế của công nghệ: ví dụ, phần mềm có thể xử lý không đúng  Vấn đề truyền dữ liệu: sai từ thiết bị gửi/nhận/truyền  Vấn đề nhập dữ liệu: người dùng hoặc máy có thể sai  Lỗi do thiết bị thu thập dữ liệu

 Giá trị không chính xác

 Biến dạng của một biến đo được  Lỗi ngẫu nhiên

 Nhiễu:

Dữ liệu nhiễu

 Giá trị có khả năng nhất: dựa trên suy luận như công thức Bayes hoặc  Trung bình giá trị thuộc tính các bản ghi cùng lớp: tinh hơn  Trung bình giá trị thuộc tính các bản ghi hiện có

cây quyết định

 Hằng toàn cục: chẳng hạn như“chưa biết - unknown”, có phải một lớp

 Điền giá trị tự động:

mới

 Điền giá trị thiếu bằng tay:

 không hiểu quả khi tỷ lệ số lượng giá trị thiếu lớn (bán giám sát)  Thường làm khi thiếu nhãn phân lớp (giả sử bài toán phân lớp)

 Bỏ qua bản ghi có giá trị thiếu:

3.2.3. Xử lý thiếu giá trị

tính khả thi tẻ nhạt

87

24

 Việc quản lý các thuộc tính lớp: có thể “khôn khéo”.

 Khả cỡ dữ liệu: tốt.

lượng”, các đoạn có xấp xỉ số ví dụ mẫu.

 Chia miền xác định thành N đoạn “đều nhau về số

(frequency) partitioning:

 Phân hoạch cân bằng theo chiều sâu Equal-depth

 Không xử lý tốt khi dữ liệu không cân bằng (đều).  Đơn giản nhất song bị định hướng theo ngoại lai.

A)/N.

 Miền giá trị từ A (nhỏ nhất) tới B (lớn nhất) ->W = (B –  Chia miền giá trị: N đoạn dài như nhau: uniform grid partitioning:

 Phân hoạch cân bẳng bề rộng Equal-width (distance)

P/pháp rời rạc hóa đơn giản: Xếp thùng (Binning)

 Làm trơn: ghép dữ liệu theo các hàm hồi quy

 Hồi quy

hạn, đối phó với ngoại lai có thể)

 Phát hiện giá trị nghi ngờ để con người kiểm tra (chẳng

 Kết hợp kiểm tra máy tính và con người

 Phát hiện và loại bỏ ngoại lai (outliers)

 Phân cụm (Clustering)

biên…

 Làm trơn: theo trung bình, theo trung tuyến, theo  Sắp dữ liệu tăng và chia “đều” vào các thùng

 Phương pháp đóng thùng (Binning):

Xử lý dữ liệu nhiễu

88

25

Thuật toán phân cụm: Chương 6.

Làm trơn phần tử trong cụm theo đại diện.

Cụm: Các phần tử trong cụm là “tương tự nhau”

Phân tích cụm (Cluster Analysis)

- Bin 3: 26, 26, 26, 34 - Bin 2: 21, 21, 25, 25 - Bin 1: 4, 4, 4, 15 * Làm trơn thùng theo biên: - Bin 3: 29, 29, 29, 29 - Bin 2: 23, 23, 23, 23 - Bin 1: 9, 9, 9, 9

* Làm trơn thùng theo trung bình:

- Bin 3: 26, 28, 29, 34 - Bin 2: 21, 21, 24, 25 - Bin 1: 4, 8, 9, 15

* Chia thùng theo chiều sâu: * Dữ liệu được xếp theo giá: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34

P/pháp xếp thùng làm trơn dữ liệu (Data Smoothing)

89

26

chẳng hạn, đơn vị quốc tế khác với Anh quốc

 Nguyên nhân: trình bày khác nhau, cỡ khác nhau,

khác nhau là khác nhau

 Cùng một thực thể thực sự: giá trị thuộc tính các nguồn

 Phát hiện và giải quyết vấn đề thiết nhất quá dữ liệu

nguồn dữ liệu phức, chẳng hạn, A.cust-id  B.cust-#

 Vấn đề định danh thực thế: xác định thực thể thực tế từ  Tích hợp sieu dữ liệu từ các nguồn khác nhau

 Tích hợp sơ đồ

trữ chung

 Kết hợp dữ liệu từ nhiều nguồn thành một nguồn lưu

 Tích hợp dữ liệu (Data integration):

3.3.4. Tích hợp dữ liệu

X1

x

Y1’

y = x + 1

Y1

y

Hồi quy (Regression)

90

27

Nguồn dữ liệu đơn: mức thể hiện (Ví dụ)

Nguồn dữ liệu đơn: mức sơ đồ (Ví dụ)

91

28

lượng

dư thừa, thiếu nhất quán và tăng hiệu quả tốc độ và chất

 Tích hợp cẩn trọng dữ liệu nguồn phức giúp giảm/tránh

tương quan

 Dữ liệu dư thừa có thể được phát hiện khi phân tích

khác, chẳng hạn, doanh thu hàng năm

 Một thuộc tính: thuộc tính “nguồn gốc” trong CSDL

khác nhau

 Một thuộc tính có nhiều tên khác nhau ở các CSDL

khác nhau

 Dư thừa dữ liệu: thường có khi tích hợp từ nhiều nguồn

Nắm bắt dư thừa trong tích hợp dữ liệu

Nguồn dữ liệu phức: sơ đồ/thể hiện (Ví dụ)

92

29

10

j

j : số nguyên nhỏ nhất mà Max(| |)<1

'v

v

'

v

 Chuẩn hóa tỷ lệ thập phân

A

dev

v

'

A

stand  v

_ mean

A

A

A

A

A

v

'

(

new

_

max

new

_

min

)

new

_

min

A

 Chuẩn hóa z-score max min  v

 min

 Chuẩn hóa min-max

Chuyển đổi dữ liệu: Chuẩn hóa

 Thuộc tính mới được xây dựng từ các thuộc tính đã có

 Xây dựng thuộc tính/đặc trưng

 Chuẩn hóa tỷ lệ thập phân

 Chuẩn hóa z-score

 Chuẩn hóa min-max

 Chuẩn hóa (Normalization): thu nhỏ vào miền nhỏ, riêng

 Tổng quát hóa (Generalization): leo kiến trúc khái niệm

 Tổng hợp (Aggregation): tóm tắt, xây dựng khối dữ liệu

 Làm trơn (Smoothing): loại bỏ nhiễu từ dữ liệu

Chuyển dạng dữ liệu

93

30

tổng hợp thông tin

 Nên sử dụng dữ liệu khối lập phương khi trả lời câu hỏi

 Sử dụng trình diễn nhỏ nhất đủ để giải bài toán

 Tham khảo mức thích hợp

 Giảm thêm kích thước dữ liệu

 Các mức phức hợp của tích hợp thành khối dữ liệu

điện thoại.

 Chẳng hạn, một khách hàng trong kho dữ liệu cuộc gọi

 Tổng hợp dữ liệu thành một cá thể quan tâm

 Mức thấp nhất của khối dữ liệu

Kết hợp khối dữ liệu: DataCube Aggregation

 Rời rạc hóa và sinh cây khái niệm  Giảm tính số hóa – dữ liệu thành mô hình  Nén dữ liệu  Giảm đa chiều – loại bỏ thuộc tính không quan trọng  Tập hợp khối dữ liệu

 Chiến lược rút gọn dữ liệu

lượng mà sinh ra cùng (hoặc hầu như cùng) kết quả.

 Có được trình bày gọn của tập dữ liệu mà nhỏ hơn nhiều về khối

 Rút gọn dữ liệu

tập toàn bộ dữ liệu

 Phân tích/khai phá dữ liệu phức mất thời gian rất dài khi chạy trên

 Kho dữ liệu chứa tới hàng TB

Chiến lược rút gọn dữ liệu

94

31

Class 1

Class 1

Class 2

Class 2

A1?

A6?

A4 ?

{A1, A2, A3, A4, A5, A6} Tập thuộc tính khởi tạo:

Ví dụ rút gọn cây quyết định

 Rút gọn câu qyuyết định  Kết hợp chon chuyển tiếp và loại bỏ lạc hậu.  Khôn ngoan chọn chuyển tiếp từ phía trước

 Phương pháp Heuristic (có lực lượng mũ # phép chọn):

hiểu dữ liệu

 Rút gọn # của các mẫu trong tập mẫu dễ dàng hơn để

các đặc trưng các lớp này gần như phân bổ vốn có đã cho giá trị của suất của các lớp khác nhau cho giá trị khi cho giá trị của

 Lựa chọn tập nhỏ nhất các đặc trưng mà phân bố xác

 Rút gọn đặc trưng (như., lựa chọn tập con thuộc tính):

Rút gọn chiều

> Tập thuộc tinh rút gọn: {A1, A4, A6}

95

32

Phân lớp cây quyết định

 Xem Chương 5  Các lá là các nhãn, hoặc các lớp.

đỉnh trong

 Các nhánh tương ứng với kết quả kiểm tra tại  Đỉnh trong là một hàm test  Đồ thị dạng cây

Phân lớp cây quyết định

96

33

 Sử dụng loại bỏ đặc trưng và tùy chọn

 Nhánh cận và phạm vi tối ưu:

 Kết hợp lựa chọn và loại bỏ tốt nhất

 Loại bỏ lặp các đặc trưng tồi nhất

 Loại bỏ đặc trưng khôn ngoan từng bước:

chọn tốt nhất trước đó, ...

 Tiếp đó, chọn tốt nhất tiếp theo theo điều kiện đã  Các thuộc tính đơn tốt nhất được chọn đầu tiên  Lựa chọn đặc trưng khôn ngoan từng bước tốt nhất:

trưng: chọn từ kiểm thử điển hình.

 Các đặc trưng tốt nhất theo giả thiết độc lập đặc

 Một vài phương pháp chọn đặc trưng heuristic:  Có 2d tập con đặc trưng từ d đặc trưng

Phương pháp chọn đặc trưng Heuristic

chưa được gán nhãn

 Sử dụng cây quyết định: phân lớp các đối tượng

những đối tượng mới nhánh rườm rà tăng độ chính xác khi phân lớp

 Phương pháp bottom-up: xác định và loại bỏ những

 Cắt tỉa cây (pruning)

 Phương pháp top-down  Xây dựng cây quyết định  Xây dựng cây quyết định:

Phân lớp cây quyết định

97

34

Approximated

Original Data

lossless

Original Data

Data Compressed

Nén dữ liệu (Data Compression)

 Ngắn điển hình và thay đổi chậm theo thời gian

 Chuỗi thời gian mà không là audio

cần dựng toàn bộ

 Vài trường hợp mảnh tín hiệu nhỏ được tái hợp không  Nén tổn thất điển hình, với tinh lọc cải tiến

 Nén Audio/video

 Yếu: chỉ các thao tác hạn hẹp mà không mở rộng  Mạnh: Không tốn thất điển hình  Tồn tại lý thuyết phong phú và thuật toán điển hình

 Nén xâu văn bản

Nén dữ liệu (Data Compression)

98

35

Low Pass High Pass

Low Pass High Pass

Low Pass High Pass

 Image

DWT cho nén ảnh

Haar2

Daubechie4

 Áp dụng đệ quy hai chức năng đến độ dài mong muốn

 Áp dụng cho các cặp DL, kết quả theo 2 tập DL độ dài L/2

 Mỗi phép biến đổi có 2 chức năng: làm mịn, tách biệt

khi cần)

 Độ dài, L, buộc là số nguyên lũy thừa 2 (đệm thêm các chữ số 0,

 Phương pháp:

tổn thất tốt hơn, bản địa hóa trong không gian

 Tương tự như biến đổi rời rạc Fourier (DFT), nhưng nén

 Xấp xỉ nén: chỉ lưu một mảnh nhỏ các hệ số sóng lớn nhất

XL tín hiệu tuyến tính, phân tích đa giải pháp

 Biến dạng sóng rời rạc (Discrete wavelet transform:DWT):

Chuyển dạng sóng (Wavelet Transformation)

99

36

X1

Y2

Y1

X2

Phân tích thành phần chính (PCA)

 Dùng khi số chiều vector lớn.

 Chỉ áp dụng cho dữ liệu số.

thành phần chính.

 Mỗi vector dữ liệu là tổ hợp tuyến tính của các vector

chiều: c thành phần chính (chiều được rút gọn).

 Tập dữ liệu gốc được rút gọn thành N vector dữ liệu c

giao tốt nhất để trình diễn dữ liệu.

 Cho N vector dữ liệu k-chiều, tìm c (<= k) vector trực

Phân tích PCA (Principal Component Analysis )

100

37

xác suất đa chiều

 Mô hình tuyến tính loga: rời rạc hóa xấp xỉ các phân bố

như ột hàm tuyến tính của vector đặc trưng đa chiều

 Hồ quy đa chiều: Cho một biến đích Y được mô hình hóa

khớp với đường

 Thường dùng phương pháp bình phương tối thiểu để

đường thẳng

 Hồ quy tuyến tính: DL được mô hình hóa phù hợp với 1

Mô hình hồi quy tuyến tính và logarit

(clustering), lấy mẫu (sampling)

 Tập hợp chính: biểu đồ (histograms), phân cụm

 Không giả thiết mô hình

 Phương pháp không tham số

các không gian con thích hợp tại một điểm trong không gian M-chiều như là tích của  Mô hình tuyến tính loga (Log-linear models): lấy giá trị

liệu (ngoại trừ các ngoại lai có thể có) tham số mô hình, lưu chỉ các tham số, và không lưu dữ  Giả sử dữ liệu phù hợp với mô hình nào đó, ước lượng

 Phương pháp tham số

Rút gọn kích thước số

101

38

10000

30000

50000

70000

90000

0

5

lượng tử hóa.

 Có quan hệ tới bài toán

10

dùng quy hoạch động

15

ưu hóa theo 1 chiều khi

20

25

 Có thể được dựng tối (tổng) của mỗi thùng thùng và giữ trunh bình

30

 Phân dữ liệu vào các

35

phổ biến

 Kỹ thuật rút gọn dữ liệu

40

Lược đồ (Histograms)

 Xác suất: p(a, b, c, d) = ab acad bcd

tích của các bảng bậc thấp hơn

 Bảng đa chiều của xác suất tích nối được xấp xỉ bởi

 Mô hình tuyến tính loga:

trên.

 Nhiều hàm không tuyến tính được chuyển dạng như

 Hồi quy đa chiều: Y = b0 + b1 X1 + b2 X2.

Y1, Y2, …, X1, X2, ….

 Sử dụng chiến lược BP tối thiếu tới các giá trị đã biết

xỉ qua dữ liệu đã nắm bắt được.

 Hai tham số,  và  đặc trưng cho đường và được xấp

 Hồi quy tuyến tính: Y =  +  X

Phân tích mô hình hồi quy tuyến tính và logarit

102

39

 Lẫy mẫu có thể không rút gọn được CSDL.

 Sử dụng kết hợp với dữ liệu lệch

nhận diện được theo quan tâm) trong CSDL tổng thể

 Xấp xỉ theo phần trăm của mỗi lớp (hoặc bộ phận

 Lấy mẫu phân tầng:

 Phát triển các phương pháp lấy mẫu thích nghi

DL lệch

 Lấy mẫu ngẫu nhiên đơn giản có hiệu quả rất tồi nếu có

 Lựa chọn một tập con trình diễn dữ liệu

tựa tuyến tính theo cỡ của DL

 Cho phép một thuật toán khai phá chạy theo độ phức tạp

Rút gọn mẫu (Sampling)

toán phân cụm

 Tồn tài nhiều lựa chọn cho xác định phân cụm và thuật

trúc cây chỉ số đa chiều

 Có thể phân cụm phân cấp và được lưu trữ trong cấu

không chứa dữ liệu “bẩn”

 Có thể rất hiệu quả nếu DL là được phân cụm mà

của cụm

 Phân tập DL thành các cụm, và chỉ cần lưu trữ đại diện

Phân cụm

103

40

Raw Data

Mẫu cụm/phân tầng

Rút gọn mẫu (Sampling)

 Ví dụ: Chọn mẫu 2 (n) phần tử từ tập 4 dữ liệu

 Chọn một phần tử và không bị loại bỏ. Các mẫu DL phân biệt

 SRS without replacement (SRSWOR)

 Các phần tử dữ liệu giống nhau có thể được chọn nhiều lần

 Lặp tiếp cho đến khi có n phần tử dữ liệu

 Loại bỏ phần tử dữ liệu đó ra khỏi tập dữ liệu

 Chọn một phần tử dữ liệu đưa vào mẫu  SRS with replacement (SRSWR)

 Simple Random Sampling (SRS)

Rút gọn mẫu (Sampling)

104

41

 Chuẩn bị cho phân tích tiếp theo

 Rút gọn cỡ DL bằng rời rạc hóa

phân loại.

 Một vài thuật toán phân lớp chỉ chấp nhận thuộc tính  Chia miền thuộc tính liên tục thành các đoạn

 Rời rạc hóa:

 Liên tục — số thực  Thứ tự — giá trị từ một tập được sắp  Định danh — giá trị từ một tập không có thứ tự

 Ba kiểu thuộc tính:

Rời rạc hóa

đồ phân cấp

 Như vậy, cây chỉ số với tích hợp lưu trữ mỗi nút là một sơ  Mỗi vùng được coi như một thùng

vùng bởi miền giá trị của một vài thuộc tính

 Một cây chỉ số được chia phân cấp một tập DL thành các

 Tích hợp phân cấp

phân cấp

 Phương pháp tham số thường không tuân theo trình bày

hướng xác định phân vùng DL hớn là “phân cụm”

 Phân cụm phân cấp thường được thi hành song có khuynh

rút gọn

 Dùng cấu trúc đa phân giải với các mức độ khác nhau của

Rút gọn phân cấp

105

42

 Phân đoạn bằng phân chia tự nhiên

 Rời rạc hóa dựa theo Entropy

 Phân tích cụm (đã giới thiệu)

 Phân tích sơ đồ (đã giới thiệu)

 Phân thùng (xem làm trơn khử nhiễu)

Rời rạc hóa & kiến trúc khái niệm DL số

già) khái niệm ở mức cao hơn (như trẻ, trung niên, hoặc mức thấp (như giá trị số của thuộc tính tuổi) bằng  Rút gọn DL bằng tập hợp và thay thế các khái niệm

 Phân cấp khái niệm

Nhãn đoạn sau đó được dùng để thay thế giá trị thực. cách chia miền giá trị của thuộc tính thành các đoạn.  Rút gọn số lượng giá trị của thuộc tính liên tục bằng

 Rời rạc hóa

Rời rạc hóa và kiến trúc khái niệm

106

43

 Nếu phủ 1, 5, hoặc 10 giá trị phân biệt thì chia thành 5.

 Nếu phủ 2, 4, hoặc 8 giá trị phân biệt thì chia thành 4.

3 đoạn tương đương.

 Nếu 3, 6, 7 hoặc 9 giá trị khác biệt thì chia miền thành

 Hướng tới số giá trị khác biệt ở vùng quan trọng nhất

thành các đoạn tương đối thống nhất, “tự nhiên”.

 Quy tắc đơn giản 3-4-5 được dùng để phân đoạn dữ liệu số

Phân đoạn bằng phân hoạch tự nhiên

độ chính xác phân lớp

 Thực nghiệm chỉ ra rằng cho phép rút gọn cỡ DL và tăng



( ) Ent S

( , ) E T S

dừng nào đó, như

 Quá trình đệ quy tới các vùng cho tới khi đạt điều kiện

chọn như một rời rạc hóa nhị phân.

 Biên làm cực tiểu hàm entropy trên tất cả các biên được

2

S

S

( , E S T

Ent

Ent

1 )

)

(

(

)

S | | S 2

|

|

S | | S 1 | | dùng biên T, thì entropy sau khi phân đoạn là

 Cho tập ví dụ S, nếu S được chia thành 2 đoạn S1 và S2

Rời rạc hóa dựa trên Entropy

107

44

 Như, chỉ street < city mà không có cái khác

 Đặc tả một phần thứ tự bộ phận

 Như, street < city

lượng các giá trị khác biệt

 Tự động sắp xếp một phần bằng cách phân tích số

 Đặc tả theo tập các thuộc tính.

 {Urbana, Champaign, Chicago}

 Đặc tả thành cấu trúc phân cấp nhờ nhóm dữ liệu

 street

 Đặc tả một thứ tự bộ phận giá trị thuộc tính theo mức

Sinh kiến trúc khái niệm cho dữ liẹu phân loại

0) (-$100 -

$1,000) ($800 -

$2,000) ($1,800 -

$1,800) ($1,600 -

$800) ($600 -

$5,000) ($4,000 -

-$100) (-$200 -

$600) ($400 -

$1,600) ($1,400 -

$4,000) ($3,000 -

-$200) (-$300 -

$1,400) ($1,200 -

$400) ($200 -

$3,000) ($2,000 -

-$300) (-$400 -

$1,200) ($1,000 -

$200) (0 -

(-$400 - 0)

(0 - $1,000)

($1,000 - $2, 000)

($2,000 - $5, 000)

Step 4:

(-$4000 -$5,000)

(0 -$ 1,000)

($1,000 - $2,000)

(-$1,000 - 0)

Step 3:

(-$1,000 - $2,000)

msd=1,000

Low=-$1,000

High=$2,000

Step 2:

Min Low (i.e, 5%-tile)

High(i.e, 95%-0 tile) Max

Step 1:

-$351

-$159

profit

$1,838

$4,700

count

Ví dụ luật 3-4-5

108

45

street

674,339 giá trị phân biệt

city

3567 giá trị phân biệt

province_or_ state

65 giá trị phân biệt

country

15 giá trị phân biệt

 Lưu ý: Ngoài trừ, các ngày trong tuần, tháng, quý, năm

phân cấp thấp nhất

 Thuộc tính có giá trị phân biệt nhất được đặt ở cấp độ tính của tập DL đã cho trên phân tích số lượng các giá trị phân biệt theo thuộc  Một vài kiến trúc khái niệm có thể được sinh tự động dựa

Sinh kiến trúc khái niệm tự động

109

Chương 4: Khai phá luật kết hợp

Dựa theo “Data Mining: Concepts and Techniques”

Chapter 6. Mining Association Rules in Large Databases

©Jiawei Han and Micheline Kamber

Chương 4: Khai phá luật kết hợp

 Khai phá luật kết hợp (Association rule)

 Các thuật toán khai phá vô hướng luật kết hợp (giá trị

www.cs.uiuc.edu/~hanj

 Khai phá kiểu đa dạng luật kết hợp/tương quan

 Khai phá kết hợp dựa theo ràng buộc

 Khai phá mẫu dãy

1

110

lôgic đơn chiều) trong CSDL giao dịch

Khái niệm cơ sở: Tập phổ biến và luật kết hợp

Một số ví dụ về “luật kết hợp” (associate rule) • “98% khách hàng mà mua tạp chí thể thao thì đều mua các tạp chí về ôtô” sự kết hợp giữa “tạp chí thể thao” với “tạp chí về ôtô”

Khái niệm cơ sở: Tập phổ biến và luật kết hợp

Renáta Iváncsy, István Vajk (2006). Frequent Pattern Mining in Web Log Data,

[IV06] Acta Polytechnica Hungarica, 3(1):77-90, 2006

2

111

• “60% khách hàng mà mua bia tại siêu thị thì đều mua bỉm trẻ em” sự kết hợp giữa “bia” với “bỉm trẻ em” • “Có tới 70% người truy nhập Web vào địa chỉ Url 1 thì cũng vào địa chỉ Url 2 trong một phiên truy nhập web”  sự kết hợp giữa “Url 1” với “Url 2”. Khai phá dữ liệu sử dụng Web (Dữ liệu từ file log của các site, chẳng hạn được MS cung cấp). • Các Url có gắn với nhãn “lớp” là các đặc trưng thì có luật kết hợp liên quan giữa các lớp Url này.

Khái niệm cơ sở: Tập phổ biến và luật kết hợp

Cơ sở dữ liệu giao dịch (transaction database)

• Giao dịch: danh sách các mục (mục: item, mặt hàng) trong một phiếu mua

hàng. Giao dịch T là một tập mục.

• Tập toàn bộ các mục I = {i1, i2, …, ik} “tất cả các mặt hàng”. Một giao dịch T

là một tập con của I: T  I. Mỗi giao dịch T có một định danh là TID. • A là một tập mục A  I và T là một giao dịch: Gọi T chứa A nếu A  T.

• Gọi A  B là một “luật kết hợp” nếu A  I, B  I và AB=. • Luật kết hợp A  B có độ hỗ trợ (support) s trong CSDL giao dịch D nếu trong D có s% các giao dịch T chứa AB: chính là xác suất P(AB). Tập mục A có P(A)  s>0 (với s cho trước) được gọi là tập phổ biến (frequent set). Luật kết hợp A  B có độ tin cậy (confidence) c trong CSDL D nếu như trong D có c% các giao dịch T chứa A thì cũng chứa B: chính là xác suất P(B|A).

= P(AB)

: 1  s (A  B)  0 : 1  c (A  B)  0

• Support (A  B) • Confidence (A  B) = P(B|A) • Luật A  B được gọi là đảm bảo độ hỗ trợ s trong D nếu s(A  B)  s. Luật AB được gọi là đảm bảo độ tin cậy c trong D nếu c(A  B)  c. Tập mạnh.

Khái niệm cơ bản: Mẫu phổ biến và luật kết hợp

 Tập mục I={i1, …, ik}. CSDL giao dịch

D = {d  I}

Transaction-id

Items bought

10

A, B, C

 A, B  I, AB=: AB là luật kết hợp  Bài toán tìm luật kết hợp.

20

A, C

30

A, D

Cho trước độ hỗ trợ tối thiểu s>0, độ tin cậy tối thiếu c>0. Hãy tìm mọi luật kết hợp mạnh XY.

40

B, E, F

Customer buys both

• Luật kết hợp

Customer buys diaper

Giả sử min_support = 50%, min_conf = 50%:

niệm luật kết hợp với khái niệm phụ thuộc hàm.

Customer buys beer

 Các tính chất Armstrong ở đây.

3

112

A  C (50%, 66.7%) C  A (50%, 100%)  Hãy trình bày các nhận xét về khái

Một ví dụ tìm luật kết hợp

Transaction-id

Items bought

10

A, B, C

20

A, C

Frequent pattern

Support

30

A, D

{A}

75%

40

B, E, F

{B}

50%

{C}

50%

{A, C}

50%

For rule A  C:

support = support({A}{C}) = 50% confidence = support({A}{C})/support({A}) =

66.6%

Khai niệm khai phá kết hợp

4

113

Min. support 50% Min. confidence 50%

Khái niệm khai phá luật kết hợp

 Khai phá luật kết hợp:

 Tìm tất cả mẫu phổ biến, kết hợp, tương quan, hoặc cấu trú nhan-quả trong tập các mục hoặc đối tượng trong CSDL quan hệ hoặc các kho chứa thông tin khác.

 Mẫu phổ biến (Frequent pattern): là mẫu (tập mục, dãy mục…) mà xuất hiện phổ biến trong 1 CSDL [AIS93]  Động lực: tìm mẫu chính quy (regularities pattern) trong DL  Các mặt hàng nào được mua cùng nhau? — Bia và bỉm

 Mặt hàng nào sẽ được mua sau khi mua một PC ?  Kiểu DNA nào nhạy cảm với thuộc mới này?  Có khả năng tự động phân lớp Web hay không ?

Mẫu phổ biến và khai phá luật kết hợp là một bài toán bản chất của khai phá DL

 Nền tảng của nhiều bài toán KPDL bản chất

 Kết hợp, tương quan, nhân quả

 Mẫu tuần tự, kết hợp thời gian hoặc vòng, chu kỳ bộ

(diapers)?!

 Phân lớp kết hợp, phân tích cụm, khối tảng băng, tích

phận, kết hợp không gian và đa phương tiện

 Ứng dụng rộng rãi

 Ví dụ: Phân tích DL bóng rổ, tiếp thị chéo (cross-

tụ (nén dữ liệu ngữ nghĩa)

 Phân tích Web log (click stream), Phân tích chuỗi DNA v.v.

5

114

marketing), thiết kế catalog, phân tích chiến dịch bán hàng

Chương 4: Khai phá luật kết hợp

 Khai phá luật kết hợp (Association rule)

 Các thuật toán khai phá vô hướng luật kết hợp (giá trị

 Khai phá kiểu đa dạng luật kết hợp/tương quan

 Khai phá kết hợp dựa theo ràng buộc

 Khai phá mẫu dãy

Apriori: Một tiếp cận sinh ứng viên và kiểm tra

 Khái quát: Khai phá luật kết hợp gồm hai bước:  Tìm mọi tập mục phổ biến: theo min-sup  Sinh luật mạnh từ tập mục phổ biến

 Mọi tập con của tập mục phổ biến cũng là tập mục phổ biến

 Nếu {bia, bỉm, hạnh nhân} là phổ biến thì {bia, bỉm} cũng vậy: Mọi

giao dịch chứa {bia, bỉm, hạnh nhân} cũng chứa {bia, bỉm}.  Nguyên lý tỉa Apriori: Với tập mục không phổ biến thì không cần phải

sinh ra/kiểm tra mọi tập bao nó!

 Phương pháp:

 Sinh các tập mục ứng viên dài (k+1) từ các tập mục phổ biến có độ

dài k (Độ dài tập mục là số phần tử của nó),

 Kiểm tra các tập ứng viên theo CSDL

 Các nghiên cứu hiệu năng chứng tỏ tính hiệu quả và khả năng mở rộng

của thuật toán

 Agrawal & Srikant 1994, Mannila, và cộng sự 1994

6

115

lôgic đơn chiều) trong CSDL giao dịch

Thuật toán Apriori

Trên cơ sở tính chất (nguyên lý tỉa) Apriori, thuật toán hoạt động theo quy tắc quy hoạch động

• Từ các tập Fi = {ci| ci tập phổ biến, |ci| = i} gồm mọi tập mục phổ biến có độ dài i với 1  i  k,

• đi tìm tập Fk+1 gồm mọi tập mục phổ biến có độ dài k+1.

Thuật toán Apriori

7

116

Trong thuật toán, các tên mục i1, i2, … in (n = |I|) được sắp xếp theo một thứ tự cố định (thường được đánh chỉ số 1, 2, ..., n).

Thuật toán Apriori: Thủ tục con Apriori-gen

Trong mỗi bước k, thuật toán Apriori đều phải duyệt CSDL D. Khởi động, duyệt D để có được F1. Các bước k sau đó, duyệt D để tính số lượng giao dịch t thoả từng ứng viên c của Ck+1: mỗi giao dịch t chỉ xem xét một lần cho mọi ứng viên c thuộc Ck+1.

Thủ tục con Apriori-gen sinh tập phổ biến: tư tưởng

Thủ tục con Apriori-gen

8

117

Một ví dụ thuật toán Apriori (s=0.5)

Itemset

sup

Itemset

sup

{A}

2

{A}

2

Tid

Items

{B}

3

{B}

3

10

A, C, D

{C}

3

{C}

3

Database TDB L1 C1

20

B, C, E

{D}

1

{E}

3

30

A, B, C, E

{E}

3

40

B, E

1st scan

Itemset

{A, B}

{A, C}

{A, E}

{B, C}

Itemset {A, C} {B, C} {B, E} {C, E}

sup 2 2 3 2

Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E}

sup 1 2 1 2 3 2

{B, E}

{C, E}

Itemset

C2 C2 2nd scan L2

{B, C, E}

Itemset {B, C, E}

sup 2

Chi tiết quan trọng của Apriori

 Cách thức sinh các ứng viên:

 Bước 1: Tự kết nối Lk  Step 2: Cắt tỉa

 Cách thức đếm hỗ trợ cho mỗi ứng viên.

 Ví dụ thủ tục con sinh ứng viên

 L3={abc, abd, acd, ace, bcd}  Tự kết nối: L3*L3

 abcd từ abc và abd

 acde từ acd và ace

 Tỉa:

 acde là bỏ đi vì ade không thuộc L3

 C4={abcd}

9

118

L3 C3 3rd scan

Ví dụ: D, min_sup*|D| = 2 (C4 = )

Sinh luật kết hợp

Việc sinh luật kết hợp gồm hai bước

 Với mỗi tập phổ biến W tìm được hãy sinh ra mọi tập

con thực sự X khác rỗng của nó.

 Với mỗi tập phố biến W và tập con X khác rỗng thực sự của nó: sinh luật X  (W – X) nếu P(W-X|X)  c.

Như ví dụ đã nêu có L3 = {{I1, I2, I3}, {I1, I2, I5}}

Với độ tin cậy tối thiểu 70%, xét tập mục phổ biến {I1,

I2, I5} có 3 luật như dưới đây:

10

119

Cách thức tính độ hỗ trợ của ứng viên

 Tính độ hỗ trợ ứng viên (lệnh 4-8) vấn đề cần quan tâm

 Số lượng ứng viên là rất lớn

 Một giao dịch chứa nhiều ứng viên

 Phương pháp:

 Tập mục ứng viên được chứa trong một cây-băm

 Lá của cây băm chứa một danh sách ứng viên và bộ

(hash-tree)

 Nút trong chứa bảng băm

 Hàm tập con: tìm ứng viên trong tập ứng viên

Tính độ hỗ trợ của ứng viên

 Tập các ứng viên Ck được lưu trữ trong một cây-băm.

 Gốc của cây băm ở độ sâu 1. Lá chứa một danh sách tập mục thuộc Ck.  Nút trong chứa một bảng băm (chắng hạn mod N): mỗi ô trỏ tới một nút khác

(Nút ở độ sâu d trỏ tới các nút ở độ sâu d+1).  Khi khởi tạo: gôc là nút lá với danh sách rỗng.  Xây dựng cây băm - thêm một tập mục c:

 bắt đầu từ gốc đi xuống theo cây cho đến khi gặp một lá.  Tại một nút trong độ sâu d:

 quyết định theo nhánh nào: áp dụng hàm băm tới mục thứ d của tập mục này.  Khi số lượng tập mục tại một lá vượt quá ngưỡng quy định, lá được chuyển thành

một nút trong và phân chia danh sách các tập mục như hàm băm.

 Tính độ hỗ trợ: tìm tất cả các ứng viên thuộc giao dịch t:

 Nếu ở nút gốc: băm vào mỗi mục trong t.  Nếu ở một lá: tìm các tập mục ở lá này thuộc t và bổ sung chỉ dẫn các tập mục

này tới tập trả lời.

 Nếu ở nút trong và đã đạt được nó bằng cách băm mục i, trên từng mục đứng sau

i trong t và áp dụng đệ quy thủ tục này sang nút trong thùng tương ứng.

11

120

đếm (độ hỗ trợ hiện thời)

Ví dụ: Tính hỗ trợ các ứng viên

Hàm tập con

3,6,9

1,4,7

Có tập các ứng viên độ dài 3 là 124, 125, 136, 145, 159, 234, 345, 356, 357, 367, 368, 457, 458, 567, 689

2,5,8

1, 4, 7 đi sang trái; 2, 5, 8 dừng ở giữa; 3, 6, 9 đi sang phải

124 125 136

Thêm 145 vượt qua ngưỡng, đưa 4 tập này sang nút con trái. Vì 4 tập này đều vượt qua ngưỡng nên tách thành 145; 124, 125; 136

Thêm 159 bổ sung vào nút giữa cây con trái

Thêm 234 bổ sung vào nút giữa cây mẹ

2 3 4 5 6 7

1 4 5

3 4 5

1 3 6

3 6 7 3 6 8

3 5 6 3 5 7 6 8 9

1 5 9

Thêm 345 bổ sung vào nút phải cây mẹ; sau đó tách cây con phải 345; 356, 357; 367, 368

1 2 4 4 5 7

1 2 5 4 5 8

Ví dụ: Tính hỗ trợ các ứng viên

Hàm tập con

3,6,9

1,4,7

Giao dịch t=1 2 3 5 6

2,5,8

1, 4, 7 đi sang trái; 2, 5, 8 dừng ở giữa; 3, 6, 9 đi sang phải

1 + 2 3 5 6

1 3 + 5 6

2 3 4 5 6 7

1 4 5

3 4 5

1 3 6

3 6 7 3 6 8

1 2 + 3 5 6

3 5 6 3 5 7 6 8 9

1 5 9

1 2 4 4 5 7

1 2 5 4 5 8

12356 sang trái; 2356 ở giữa; 356 sang phải Trái: 12356 trái; 2356 ở giữa; 356 sang phải; … Bộ đếm của ba ứng viên 125, 136, 356 được tăng thêm 1 với giao dịch t-12356

12

121

Thi hành hiệu quả thuật toán Apriori trong SQL

 Khó có thể có một hiệu quả tốt nếu chỉ tiếp cận thuần

 Sử dụng các mở rộng quan hệ - đối tượng như UDFs,

SQL (SQL-92)

 Nhận được các thứ tự tăng quan trọng  Xem bài: S. Sarawagi, S. Thomas, and R. Agrawal. Integrating

association rule mining with relational database systems: Alternatives and implications. In SIGMOD’98

Thách thức khai phá mẫu phổ biến

 Thách thức

 Duyệt nhiều lần CSDL giao dịch

 Lượng các ứng viên rất lớn

 Tẻ nhạt việc tính toán độ hỗ trợ

 Cải tiến Apriori: tư tưởng chung  Giảm số lần duyệt CSDL giao dịch

 Rút gọn số lượng các ứng viên

 Giảm nhẹ tính độ hỗ trợ của các ứng viên

13

122

BLOBs, hàm bảng v.v.

DIC (Đếm tập mục động): Rút số lượng duyệt CSDL

ABCD

ABC ABD ACD BCD

 Xây dựng dàn tập mục  Khi mà A và D được xác định là phổ biến thì việc tính toán cho AD được bắt đầu  Khi mọi tập con độ dài 2 của BCD được xác định là phổ biến: việc tính toán cho BCD được bắt đầu.

AB AC BC AD BD CD

Transactions

B

C D

A

Apriori

1-itemsets 2-itemsets …

{} Itemset lattice

1-itemsets 2-items

DIC

3-items

S. Brin R. Motwani, J. Ullman, and S. Tsur. Dynamic itemset counting and implication rules for market basket data. In SIGMOD’97

Giải pháp Phân hoạch (Partition): Duyệt CSDL chỉ hai lần

 Mọi tập mục là phổ biến tiềm năng trong CSDL bắt buộc phải phổ biến ít nhất một vùng của DB  Scan 1: Phân chia CSDL và tìm các mẫu cục bộ  Scan 2: Hợp nhất các mẫu phổ biến tổng thể  A. Savasere, E. Omiecinski, and S. Navathe. An

efficient algorithm for mining association in large databases. In VLDB’95

14

123

Ví dụ về mẫu phổ biến

 Chọn một mẫu của CSDL gốc, khai phá mẫu phổ biến nội

 Duyệt CSDL một lần để kiểm tra các tập mục phổ biến tìm thấy trong ví dụ, chỉ có các bao (borders) đóng của các mẫu phổ biến được kiểm tra  Ví dụ: kiểm tra abcd thay cho ab, ac, …, v.v.

 Duyệt CSDL một lần nữa để tìm các mẫu phổ biến bị mất

bộ mẫu khi dùng Apriori

H. Toivonen. Sampling large databases for association rules. In VLDB’96

DHP: Rút gọn số lượng các ứng viên

 Một k-tập mục mà bộ đếm trong lô băm tương ứng dưới

(bỏ qua)

J. Park, M. Chen, and P. Yu. An effective hash-based algorithm for mining

association rules. In SIGMOD’95

15

124

ngưỡng (=3) thì không thể là tập mục phổ biến  Ứng viên: a, b, c, d, e  Điểm vào băm: {ab, ad, ae} {bd, be, de} …  1-tập mục phổ biến: a, b, d, e  ab không là một ứng viên 2-tập mục nếu tống bộ đếm trong lô băm {ab, ad, ae} là dưới ngưỡng hỗ trợ. Mọi giao dịch có chứa a đều ở lô băm {ab, ad, ae}.

Eclat/MaxEclat và VIPER: Thăm dò dạng dữ liệu theo chiều ngang

 Dùng danh sách tid của giáo dịch trong một tập mục

 Nén danh sách tid

 Tập mục A: t1, t2, t3, sup(A)=3

 Tập mục B: t2, t3, t4, sup(B)=3

 Tập mục AB: t2, t3, sup(AB)=2

 Thao tác chính: lấy giao của các danh sách tid  M. Zaki et al. New algorithms for fast discovery of association rules. In KDD’97

 P. Shenoy et al. Turbo-charging vertical mining of large databases. In

SIGMOD’00

Thắt cổ chai của khai phá mẫu phổ biến

 Duyệt CSDL nhiều là tốn kém  KP mẫu dài cần nhiều bước để duyệt và sinh

nhiều ứng viên  Để tìm các tập mục phổ biến i1i2…i100

1

0

0) = 2100-1 =

 # duyệt: 100  # ứng viên: (100

1) + (100

2) + … + (1

0

0

 Thắt cổ chai: sinh ứng viên và kiểm tra  Tránh sinh ứng viên?

16

125

1.27*1030 !

KP mẫu phổ biến không cần sinh ƯV

 Dùng các mục phổ biến để tăng độ dài mẫu từ các

mẫu ngắn hơn

 “abc” là một mẫu phổ biến

 Nhận mọi giao dịch có “abc”: DB|abc (DB đã

luôn có abc: “có điều kiện”)

 “d” là một mục phổ biến trong DB|abc  abcd

là một mẫu phổ biến

Xây dựng cây FP từ một CSDL giao dịch

(ordered) frequent items

min_support = 3

TID 100 200 300 400 500

Items bought {f, a, c, d, g, i, m, p} {a, b, c, f, l, m, o} {b, f, h, j, o, w} {b, c, k, s, p} {a, f, c, e, l, p, m, n}

{f, c, a, m, p} {f, c, a, b, m} {f, b} {c, b, p} {f, c, a, m, p}

1. Duyệt CSDL một lần, tìm các

{}

Header Table

f:4

c:1

1-tập mục phổ biến (mẫu mục đơn). Loại các mục có độ hỗ trợ < minsup. Xếp các mục phổ biến theo thứ tự giảm dần về độ hỗ trợ (bậc): Tạo f-list. Tạo cây FP với gốc nhãn {}

c:3

b:1

b:1

a:3

p:1

Item frequency head f c a b m p

4 4 3 3 3 3

2. Duyệt CSDL lần nữa: Với mỗi giao dịch t: xâu các mục phổ biến theo thứ tự như 2 và biểu diễn dưới dạng [p|P] với p là mục đầu, còn P là xâu mục còn lại; Gọi insert_tree ([p|P]), T)

m:2

b:1

3. Tìm tập phổ biến trên cây FP

p:2 m:1

17

126

F-list=f-c-a-b-m-p

Xây dựng cây FP

Xây dựng cây FP: chèn một xâu vào cây

18

127

Lợi ích của cấu trúc FP-tree

 Tính đầy đủ

 Duy trì tính đầy đủ thông tin để khai phá mẫu phổ biến  Không phá vỡ mẫu dài bới bất kỳ giao dich

 Tính cô đọng

 Giảm các thông tin không liên quan: mục không phổ

 Sắp mục theo tần số giảm: xuất hiện càng nhiều thì

biến bỏ đi

 Không lớn hơn so với CSDL thông thường

Tìm tập phổ biến từ cấu trúc FP-tree

19

128

cành hiệu quả

Mẫu cực đại (Max-patterns)

2) + …

 Mẫu phổ biến {a1, …, a100}  (100

1) + (100

1

0

0) = 2100-1 = 1.27*1030 frequent sub-

0

+ (1 0 patterns!

 Mẫu cực đại: Mẫu phổ biến mà không là tập con

thực sự của mẫu phổ biến khác  BCDE, ACD là mẫu cực đại  BCD không là mẫu cực đại

Tid Items

10 A,B,C,D,E 20 B,C,D,E,

Min_sup=2

Tập mục phổ biến cực đại

Một tập mục cực đại (Maximal Intemset) là tập mục phổ biến không là tập con thực sự của một tập mục phổ biến khác

Maximal Itemsets

Infrequent Itemsets

Border

20

129

30 A,C,D,F

Tập mục đóng

 Tập mục đóng là tập mục mà không là tập con thực sự

 X đóng: Y  X  s(Y) < s(X)

Itemset Support

TID 1 2 3 4 5

Items {A,B} {B,C,D} {A,B,C,D} {A,B,D} {A,B,C,D}

Itemset Support {A,B,C} {A,B,D} {A,C,D} {B,C,D} {A,B,C,D}

2 3 2 3 2

{A} {B} {C} {D} {A,B} {A,C} {A,D} {B,C} {B,D} {C,D}

4 5 3 4 4 2 3 3 4 3

Phân biệt tập mục cực đại với tập mục đóng

Transaction Ids

null

TID

Items

124

123

245

345

1

ABC

A

B

1234 C

D

E

2

ABCD

3

BCE

12

124

24

123

4

2

3

24

34

45

AB

AC

AD

AE

BC

BD

BE

CD

CE

DE

4

ACDE

5

DE

12

24

2

2

4

4

3

4

ABC

ABD

ABE

ACD

ACE

ADE

BCD

BCE

BDE

CDE

4

2

ABCD

ABCE

ABDE

ACDE

BCDE

Not supported by any transactions

ABCDE

21

130

của một tập mục có cùng độ hỗ trợ

Tập mục cực đại với tập phổ biến đóng

null

Minimum support = 2

Closed but not maximal

124

123

245

345

A

B

1234 C

D

E

Closed and maximal

12

124

24

123

4

2

3

24

34

45

AB

AC

AD

AE

BC

BD

BE

CD

CE

DE

12

24

2

2

4

4

3

4

ABC

ABD

ABE

ACD

ACE

ADE

BCD

BCE

BDE

CDE

4

2

ABCD

ABCE

ABDE

ACDE

BCDE

# Closed = 9 # Maximal = 4

ABCDE

Tập mục cực đại với tập mục đóng

22

131

Tập mục cực đại với tập mục đóng

Tập mục cực đại với tập mục đóng

R. Bayardo. Efficiently mining long patterns from databases. SIGMOD’98 J. Pei, J. Han & R. Mao. CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets", DMKD'00

23

132

Mohammed Javeed Zaki, Ching-Jiu Hsiao: CHARM: An Efficient Algorithm for Closed Itemset Mining. SDM 2002

Chương 4: Khai phá luật kết hợp

 Khai phá luật kết hợp (Association rule)

 Các thuật toán khai phá vô hướng luật kết hợp (giá trị

 Khai phá kiểu đa dạng luật kết hợp/tương quan

 Khai phá kết hợp dựa theo ràng buộc

 Khai phá mẫu dãy

Luật kết hợp đa mức

 Các mục có thể phân cấp  Đặt hỗ trợ linh hoạt: Mục cấp thấp hơn là kỳ vọng có độ

lôgic đơn chiều) trong CSDL giao dịch

 CSDL giao dịch có thể được mã hóa theo chiều và mức  Thăm dò KP đa mức chia sẻ

uniform support

hỗ trợ thấp hơn.

Level 1 min_sup = 5%

Level 1 min_sup = 5%

Milk [support = 10%]

Level 2 min_sup = 3%

Skim Milk [support = 4%]

2% Milk [support = 6%]

Level 2 min_sup = 5%

24

133

reduced support

Kết hợp đa chiều

Luật đơn chiều (viết theo dạng quan hệ (đối tượng, giá trị)):

buys(X, “milk”)  buys(X, “bread”)

Luật đa chiều:  2 chiều / thuộc tính

 Luật kết hợp liên chiều (không có thuộc tính lặp)

age(X,”19-25”)  occupation(X,“student”)  buys(X,“coke”)

 Luật KH chiều-kết hợp (lai/hybrid) (lặp thuộc tính)

age(X,”19-25”)  buys(X, “popcorn”)  buys(X, “coke”)

 Thuộc tính phân lớp

 Tìm số lượng các giá trị khả năng không được sắp

 Thuộc tính định lượng

 Số, thứ tự ngầm định trong miền giá trị

Kết hợp đa mức: Rút gọn lọc

 Trong luật phân cấp, một luật có thể dư thừa do đã có

 Ví dụ

 milk  wheat bread [support = 8%, confidence = 70%]  2% milk  wheat bread [support = 2%, confidence = 72%]

 Nói rằng: luật đầu tiên là tổ tiên luật thứ hai.

 Một luật là dư thừa nếu độ hỗ trợ của nó là khít với giá trị

quan hệ giữa “tổ tiên” của các mục.

25

134

“mong muốn”, dựa theo tổ tiên của luật.

Luật kết hợp định lượng

 Thuộc tính số là sự rời rạc hóa động d

 Độ tin cậy hoặc độ cô đọng của luật là cực đại

 Luật kết hợp định lượng 2-D: Aquan1  Aquan2  Acat  Phân cụm các luật kết hợp Liền kề nhau từ các luật Tổng quát dựa trên Lưới 2-D

 Ví dụ age(X,”30-34”)  income(X,”24K - 48K”)

 buys(X,”high resolution TV”)

Khai phá luật KH dựa theo khoảng cách

 Phương pháp đóng thùng không nắm bắt được ngữ nghĩa

Equi-depth (depth 2) [7,20] [22,50] [51,53]

Distance- based [7,7] [20,22] [50,53]

Price($) 7 20 22 50 51 53

Equi-width (width $10) [0,10] [11,20] [21,30] [31,40] [41,50] [51,60]

 Phân vùng dựa trên khoảng cách, rời rạc có ý nghĩa hơn

của dữ liệu khoảng

26

135

khi xem xét :  Mật độ/ số điểm trong một khoảng  Tính “gần gũi” của các điểm trong một khoảng

Độ đo hấp dẫn: Tương quan (nâng cao)

 play basketball  eat cereal [40%, 66.7%] là lạc

 Phần trăm chung của sinh viên ăn ngũ cốc là 75% cao hơn so với

66.7%.

 play basketball  not eat cereal [20%, 33.3%] là chính xác hơn, do

độ hỗ trợ và tin cậy thấp hơn

 Độ đo sự kiện phụ thuộc/tương quan: lift (nâng cao)

Basketball

Not basketball

Sum (row)

Cereal

2000

1750

3750

Not cereal

1000

250

1250

corr BA ,

 BAP ( ) BPAP )()(

Sum(col.)

3000

2000

5000

Chương 4: Khai phá luật kết hợp

 Khai phá luật kết hợp (Association rule)

 Các thuật toán khai phá vô hướng luật kết hợp (giá trị

 Khai phá kiểu đa dạng luật kết hợp/tương quan

 Khai phá kết hợp dựa theo ràng buộc

 Khai phá mẫu dãy

27

136

lôgic đơn chiều) trong CSDL giao dịch

KPDL dựa trên ràng buộc

 Tìm tất cả các mẫu trong CSDL tự động? — phi hiện thực!

 Mẫu có thể quá nhiều mà không mục đích!

 KPDL nên là quá trình tương tác

 Người dùng trực tiếp xác định KPDL gì khi dùng ngôn

 KP dựa theo ràng buộc

 Linh hoạt người dùng: cung cấp ràng buộc trên cái mà

ngữ hỏi KPDL (hoặc giao diện đồ họa)

 Tối ưu hệ thống: thăm dò các ràng buộc để hiệu quả

KP

Ràng buộc trong KPDL

 Ràng buộc kiểu tri thức:

 classification, association, etc.  Ràng buộc dữ liệu — dùng câu hỏi kiếu SQL

 Tìm các cặp sản phẩn mua cùng nhau trong Vancouver

KP: KP dựa theo ràng buộc

 Ràng buộc chiều/cấp

 Liên quan tới vùng, giá, loại hàng, lớp khách hàng

 Ràng buộc luật (mẫu)

 Mua hàng nhỏ (price < $10) nhanh hơn mua hàng lớn

vào Dec.’00

 Luật mạng: min_support  3%, min_confidence 

(sum > $200)  Ràng buộc hấp dẫn

28

137

60%

KP ràng buộc <> tìm kiếm dựa theo ràng buộc

 KP ràng buộc <> tìm/lập luận dựa theo ràng buộc

 Cả hai hướng tới rút gọn không gian tìm kiếm  Tìm mọi mẫu bảm đảm ràng buộc <> tìm một vài (một_ câu trả lời của tìm dựa theo ràng buộc trong AI (TTNT)

 Cố tìm theo ràng buộc <> tìm kiếm heuristic  Tích hợp hai cái cho một bài toán tìm kiếm thú vị

 KP ràng buộc <> quá trình hỏi trong hệ CSDL quan hệ

 Quá trình hỏi trong CSDL quan hệ đòi hỏi tìm tất cả  KP mẫu ràng buộc chung một triết lý tương tựng như cố

gắng chọn về chiều sâu của câu hỏi

 Cho một câu hỏi KP Mấu phổ biến với một tập ràng buộc C, thì thuật

toán nên là  Mạnh mẽ: chỉ tìm các tập phố biến bảo đảm ràng buộc C  đầy đủ: Tìm tất cả tập phổ biến bảo đảm ràng buộc C

 Giải pháp “thơ ngây/hồn nhiên” (naïve)

 Tìm tất cát tập PB sau đó kiểm tra ràng buộc

 Tiếp cận hiệu quả hơn

 Phân tích tính chất các ràng buộc một cách toàn diện  Khai thác chúng sâu sắc có thể nhất trong tính toán mẫu

KP mấu phổ biến ràng buộc: vấn đề tố ưu hóa câu hỏi

29

138

PB.

Không đơn điêu trong KP theo ràng buộc

TDB (min_sup=2)

TID

Transaction

 Chống đơn điệu (Anti-monotonicity)

10

a, b, c, d, f

20

b, c, d, f, g, h

30

a, c, d, e, f

40

c, e, f, g

 Một tập mục S vi phạmràng buộc, mọi tập lớn hơn nó cũng vi phạm  sum(S.Price)  v là chống đơn điệu  sum(S.Price)  v là không chống đơn

Item Profit

a

40

b

0

 Ví dụ. C: range(S.profit)  15 là chống

c

-20

điệu

d

10

 Tập mục ab vi phạm C

e

-30

f

30

 Cũng vậy mọi tập chứa ab

g

20

h

-10

Ràng buộc nào là chống đơn điệu

Ràng buộc

Chống đơn điệu

No

v  S S  V

no

yes

no

S  V min(S)  v

yes

min(S)  v max(S)  v

yes

no

max(S)  v count(S)  v

yes

count(S)  v

no

yes

no

sum(S)  v ( a  S, a  0 ) sum(S)  v ( a  S, a  0 )

yes

no

range(S)  v range(S)  v

convertible

avg(S)  v,   { , ,  } support(S)  

yes

support(S)  

no

30

139

đơn điệu

Tính đơn điệu trong KP luật dựa theo ràng buộc

TDB (min_sup=2)

 Tính đơn điệu

TID

Transaction

10

a, b, c, d, f

20

b, c, d, f, g, h

30

a, c, d, e, f

 Khi một tập mục S thỏa mãnràng buộc, thì mọi tập lớn hơn của nó cũng thỏa mãn

40

c, e, f, g

Item Profit

a

40

 sum(S.Price)  v là đơn điệu  min(S.Price)  v là đơn điệu

b

0

c

-20

 Ví dụ. C: range(S.profit)  15

d

10

 Tập mục ab đảm bảo C

e

-30

f

30

 Cũng vậy mọi tập chứa ab

g

20

h

-10

Ràng buộc đơn điệu

Đơn điệu

yes

Ràng buộc v  S S  V

yes

no

S  V min(S)  v

yes

no

min(S)  v max(S)  v

no

yes

max(S)  v count(S)  v

no

count(S)  v

yes

no

sum(S)  v ( a  S, a  0 ) sum(S)  v ( a  S, a  0 )

yes

no

range(S)  v range(S)  v

yes

convertible

avg(S)  v,   { , ,  } support(S)  

no

support(S)  

yes

31

140

Tính cô đọng

 Tính cô đọng:

 Cho A1, là tập mục bảo đảm một ràng buộc cô đọng C, thì mọi S bảm đảm C là dựa trên A1, chằng hạn., S chứa một tập con thuộc A1

 Tư tưởng: Bỏ qua xem xét CSDL giao dịch, có chăng một tập mục S bảo đảm ràng buộc C có thể được xác định dựa theo việc chọn các mục

 min(S.Price)  v là cô đọng  sum(S.Price)  v không cô đọng

 Tối ưu hóa: Nếu C là cô đọng có thể đẩy đếm trước

Ràng buộc cô đọng

Cô đọng

yes

Ràng buộc v  S S  V

yes

yes

S  V min(S)  v

yes

yes

min(S)  v max(S)  v

yes

yes

max(S)  v count(S)  v

weakly

count(S)  v

weakly

no

sum(S)  v ( a  S, a  0 ) sum(S)  v ( a  S, a  0 )

no

no

range(S)  v range(S)  v

no

no

avg(S)  v,   { , ,  } support(S)  

no

support(S)  

no

32

141

Thuật toán Apriori— Ví dụ

itemset sup.

itemset sup.

L1 C1

{1} {2} {3} {5}

2 3 3 3

{1} {2} {3} {4} {5}

2 3 3 1 3

Scan D

Database D TID Items 100 1 3 4 200 2 3 5 300 1 2 3 5 400 2 5

itemset sup

itemset sup

{1 3} {2 3} {2 5} {3 5}

2 2 3 2

itemset {1 2} {1 3} {1 5} {2 3} {2 5} {3 5}

{1 2} {1 3} {1 5} {2 3} {2 5} {3 5}

1 2 1 2 3 2

C2 C2 Scan D L2

itemset {2 3 5}

itemset sup {2 3 5}

2

Thuật toán Naïve: Apriori +ràng buộc

itemset sup.

itemset sup.

L3 C3 Scan D

L1 C1

{1} {2} {3} {5}

2 3 3 3

{1} {2} {3} {4} {5}

2 3 3 1 3

Scan D

Database D TID Items 100 1 3 4 200 2 3 5 300 1 2 3 5 400 2 5

itemset sup

itemset sup

{1 3} {2 3} {2 5} {3 5}

2 2 3 2

itemset {1 2} {1 3} {1 5} {2 3} {2 5} {3 5}

{1 2} {1 3} {1 5} {2 3} {2 5} {3 5}

1 2 1 2 3 2

Constraint:

C2 C2 Scan D L2

itemset {2 3 5}

Sum{S.price < 5}

itemset sup {2 3 5}

2

33

142

L3 C3 Scan D

Thuật toán Apriori ràng buộc: Đẩy ràng buộc chống đơn điệu xuống sâu

itemset sup.

itemset sup.

L1 C1

{1} {2} {3} {5}

2 3 3 3

{1} {2} {3} {4} {5}

2 3 3 1 3

Scan D

Database D TID Items 100 1 3 4 200 2 3 5 300 1 2 3 5 400 2 5

itemset sup

itemset sup

{1 3} {2 3} {2 5} {3 5}

2 2 3 2

itemset {1 2} {1 3} {1 5} {2 3} {2 5} {3 5}

{1 2} {1 3} {1 5} {2 3} {2 5} {3 5}

1 2 1 2 3 2

Constraint:

C2 C2 Scan D L2

itemset {2 3 5}

Sum{S.price < 5}

itemset sup {2 3 5}

2

Thuật toán Apriori ràng buộc: Đẩy ràng buộc chống đơn điệu xuống sâu

itemset sup.

itemset sup.

L3 C3 Scan D

L1 C1

{1} {2} {3} {5}

2 3 3 3

{1} {2} {3} {4} {5}

2 3 3 1 3

Scan D

Database D TID Items 100 1 3 4 200 2 3 5 300 1 2 3 5 400 2 5

itemset sup

itemset sup

{1 3} {2 3} {2 5} {3 5}

2 2 3 2

itemset {1 2} {1 3} {1 5} {2 3} {2 5} {3 5}

{1 2} {1 3} {1 5} {2 3} {2 5} {3 5}

1 2 1 2 3 2

Constraint:

C2 C2 Scan D L2

itemset {2 3 5}

min{S.price <= 1 }

itemset sup {2 3 5}

2

34

143

L3 C3 Scan D

Chương 4: Khai phá luật kết hợp

 Khai phá luật kết hợp (Association rule)

 Các thuật toán khai phá vô hướng luật kết hợp (giá trị

 Khai phá kiểu đa dạng luật kết hợp/tương quan

 Khai phá kết hợp dựa theo ràng buộc

 Khai phá mẫu dãy

CSDL tuần tự và Phân tích mẫu tuần tự

Phần mềm phân tích chuỗi thời gian EidoSearch: Trợ giúp đánh dấu mẫu dữ liệu hấp dẫn và EidoSearch đi tìm mọi mẫu tương tự từ quá khứ và hiện tại, phân tích kết quả tìm kiếm này, và chỉ ra xu hướng gì sẽ xảy ra. Gait-CAD Matlab toolbox: trực quan hóa và phân tích chuỗi thời gian, bao gồm phân lớp, hồi quy, và phân cụm. Giấy phép GNU-GPL. Miningco: chương trình mã nguồn mở tự động tìm ra mẫu và quan hệ trong weblogs và các bộ dữ liệu khác. SAS Enterprise Miner XAffinity (TM): xác định mối quan hệ thân hoặc mẫu trong giao dịch và dòng dữ liệu nháy phím http://www.kdnuggets.com/software/sequence.html

35

144

lôgic đơn chiều) trong CSDL giao dịch

CSDL TT và PT MTT (2)

 CSDL giao dịch, CSDL chuỗi thời gian <> CSDL tuần tự

 Mấu PB <> mấu TT (PB)

 Ứng dụng của KP Mấu TT

 Tuần tự mua của khách hàng:

 Đầu tiên mua máy tính, sau đó CD-ROM, và sau đó là máy

ảnh số, trong vòng 3 tháng.

 Phẫu thuật y tế, thảm họa tự nhiên (động đất…), quá trình KH

và kỹ nghệ, chứng khoán và thị trường….

 Mẫu gọi điện thoại, dòng click tại Weblogs

 Dãy DNA và cấu trúc gene

Khái niệm KP mấu TT

 Cho một tập các dãy, tìm tập đầy đủ các dãy con

phổ biến

dãy TT : < (ef) (ab) (df) c b >

SID

sequence

10

Một phần tử chứa một tập mục. Tập mục trong một phần tử là không thứ tự , và viết chúng theo ABC.

20

<(ad)c(bc)(ae)>

30

<(ef)(ab)(df)cb>

40

CSDL dãy TT

là dãy con của

36

145

Cho độ hỗ trợ min_sup =2, <(ab)c> là mẫu tuần tự sequential pattern

Một số chủ đề khai phá dữ liệu nóng

37

146

1

Phân lớp học bán giám sát Phân lớp học giám sát Giới thiệu phân lớp

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HÀ NỘI 9-2015 PGS. TS. HÀ QUANG THỤY

CHƯƠNG 5. PHÂN LỚP

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU

03/02/17

147

2

 d  D \ Dexam : xác định lớp của d.

 Pha 2: Sử dụng bộ phân lớp

 Chọn mô hình có chất lượng nhất

 Dtest : đánh giá mô hình phân lớp (các độ đo hiệu quả)

 Dtrain : xây dựng mô hình phân lớp (xác định tham số mô hình)

diện” cho miền ứng dụng

 Tách Dexam thành Dtrain (2/3) + Dtest (1/3). Dtrain và Dtest “tính đại

 Pha 1: Dạy bộ phân lớp

 Mô hình: Luật phân lớp, cây quyết định, công thức toán học…  Xây dựng ánh xạ (mô hình) phân lớp trên: Dạy bộ phân lớp.

Dexam được gọi là tập ví dụ mẫu.

 Có tập ví dụ Dexam=D1+D2+ …+ Dk với Di={dDexam: dCi}  Cho ánh xạ (chưa biết) từ miền D sang tập lớp C  Cho trước tập lớp C = {C1, C2, …, Ck}

 Xây dựng mô hình: Tìm mô tả cho tập lớp đã có

Phân lớp: Quá trình hai pha

 d  D \ Dexam : xác định lớp của đối tượng d

 Sử dụng mô hình

 Mô hình phân lớp: ánh xạ từ D sang C

 Đầu ra

 Tập ví dụ Dexam đại diện cho tập D  Tập ví dụ Dexam = D1+D2+ …+ Dk với Di={dDexam: d thuộc Ci}  Tập các lớp C1, C2, …, Ck mỗi dữ liệu d thuộc một lớp Ci  Tập dữ liệu D = {di}

 Đầu vào

Bài toán phân lớp

03/02/17

148

3

Phân lớp: Quá trình hai pha

Married

80K

Yes

15

No

Single

40K

No

14

No

Married

80K

Yes

13

No

Married

150K

Yes

12

No

Single

40K

No

11

No

Married

150K

Yes

10

No

Married

50K

No

9

Yes

Married

50K

No

8

Yes

Single

75K

No

7

No

Married

80K

Yes

6

No

Single

40K

No

5

No

Married

150K

Yes

4

No

Single

75K

No

3

No

Married

50K

No

2

Yes

Single

75K

No

1

No

Ví dụ phân lớp: Bài toán cho vay

Tid Refund Marital Status Taxable Income Cheat

03/02/17

149

4

– Phân cấp: Lớp này là con của lớp kia

– Đa nhãn: Một đối tượng thuộc một hoặc nhiều lớp

lớp Đơn nhãn: Một đối tượng chỉ thuộc duy nhất một

– Phân lớp đơn nhãn/đa nhãn/phân cấp

Đa lớp: số lượng lớp > 2 Nhị phân: hai lớp

(|C| > 2) (|C| = 2)

– Phân lớp nhị phân/đa lớp

Các loại phân lớp

10

15 No

Large

67K

?

14 No

Small

95K

?

13 Yes

Large

110K

?

12 Yes

Medium

80K

?

11 No

Small

55K

?

Tid Attrib1

Attrib2

Attrib3 Class

Model Apply

10

10 No

Small

90K

Yes

Medium

75K

No

9

No

Small

85K

No

8

Yes

Yes

Large

220K

7

No

Model Learn

No

6

Medium

60K

No

No

5

Large

95K

Yes

4

Yes

Medium

120K

No

No

3

Small

70K

No

No

2

Medium

100K

No

1

Yes

Large

125K

No

Tid Attrib1

Attrib2

Attrib3 Class

Phân lớp: Quá trình hai pha

03/02/17

150

5

TP

FP

TP

FN

π



TP

TP

- Độ hồi tưởng , độ chính xác , các độ đo F1 và F

- FN: số ví dụ âm N mà thuật toán (F) phân lớp cho dương P

• FP: số ví dụ dương P mà thuật toán (F) phân lớp cho giá trị N • TN: số ví dụ âm N mà thuật toán phân đúng (T) giá trị âm N P • TP: số ví dụ dương P mà thuật toán phân đúng (T) giá trị negatives), FP (false positives), FN (false negatives) – Sử dụng các ký hiệu TP (true positives), TN (true

đúng/F sai. : còn gọi là ma trận nhầm lẫn

– Giá trị thực: P dương / N âm; Giá trị qua phân lớp: T – Theo dữ liệu test

Đánh giá phân lớp nhị phân

đối giữa các mô hình có tính cạnh tranh? Câu hỏi: Làm thế nào để so sánh hiệu quả tương

– Phương pháp so sánh mô hình

tin cậy? Câu hỏi: Làm thế nào để có được ước tính đáng

– Độ đo để đánh giá hiệu quả

của một mô hình? Câu hỏi: Làm thế nào để đánh giá được hiệu quả

– Các phương pháp đánh giá hiệu quả

Các vấn đề đánh giá mô hình

03/02/17

151

6

liệu

f1 thể hiện việc đánh giá nhạy cảm với giá dữ

Được coi là rất chính xác ! accurary=0.9991; error rate = 9/10000 = 0.0009

– Theo phương án (accurary, error rate) có

= 1/10=0.1; =1/1=1; f1 = 2*0.1/(0.1+1.0)= 0.18

– Theo phương án (precision, recall) có dụ lớp 1 (chính xác: TP) thử: mô hình dự đoán cả 9999 ví dụ là lớp 0 và 1 ví – Tập test có 9990 ví dụ lớp 0 và 10 ví dụ lớp 1. Kiểm

So sánh hai phương án

Lớp = 0

Lớp thực sự

Lớp = 1

f01 f11 Lớp = 1

f00 f10 Lớp = 0

Lớp dự báo

– Ma trận nhầm lẫn

độ chính xác (accuracy) và hệ số lỗi (Error rate) – Phương án khác đánh giá mô hình nhị phân theo

Đánh giá phân lớp nhị phân

03/02/17

152

7

i

i

TP

FP

i

Re

i

TP

thuộc lớp Ci:

toán phân lớp cho giá trị đúng trên tổng số ví dụ dương thực sự

 Độ hồi tưởng Rei của lớp Ci là tỷ lệ số ví dụ dương được thuật

i

i

TP

i

Pr

FN i

 TP

phân lớp vào lớp Ci : toán phân lớp cho giá trị đúng trên tổng số ví dụ được thuật toán  Độ chính xác Pri của lớp Ci là tỷ lệ số ví dụ dương được thuật

 Tương tự bộ phân lớp hai lớp (nhị phân)

Đánh giá phân lớp đa lớp

FPi

TNi

lớp Ci Không thuộc

lớp phân lớp đa Giá trị qua bộ

TPi

FNi

Thuộc lớp Ci

Thuộc lớp Ci

lớp Ci Không thuộc

Lớp Ci

Giá trị thực

(như bảng dưới đây) liệu thuộc Dtest nhận được các đại lượng TPi, TFi, FPi, FNi – Đối với mỗi lớp Ci , cho thực hiện thuật toán với các dữ - Bài toán ban đầu: C gồm có k lớp

Đánh giá phân lớp đa lớp

03/02/17

153

8

 Một số phương pháp khác

Neural Networks

 Các phương pháp mạng nơron

Memory based reasoning

 Lập luận dưa trên ghi nhớ

Support Vector Machines  Các phương pháp máy vector hỗ trợ

Naïve Bayes and Bayesian Belief Networks

 Các phương pháp Bayes «ngây thơ» và mạng tin cậy Bayes

Rule-based Methods  Các phương pháp dựa trên luật

Decision Tree based Methods  Các phương pháp cây quyết định

Các kỹ thuật phân lớp

c

c

c

)

c TN

TP

FP

)

K

  c  K

c

1





c

TP

(1 

 1 c c TP

K

K

c 

 M

 M

(1 c TP  K 1  c  c  1

K

K 1  c  1

K

-

-

trung bình lớn-macroaveraging M và M vi trung bình-microaveraging (được ưa chuộng)  và 

- Đánh giá theo các độ đo

với lớp Ci.

- Các giá trị i và i : độ hồi phục và độ chính xác đối

Đánh giá phân lớp đa lớp

03/02/17

154

9

cho bản ghi

Kết luận: Gán giá trị NO (không gian lận) vào trường Cheat

Ví dụ cây quyết định và sử dụng

 Kiểm tra từ gốc theo các điều kiện

 Sử dụng cây quyết định

 Một số thuật toán phổ biến: Hunt, họ ID3+C4.5+C5.x

tương ứng với một tập các ví dụ học. Gốc: toàn bộ dữ liệu học  Phương châm: “chia để trị”, “chia nhỏ và chế ngự”. Mỗi nút

 Xây dựng cây quyết định  Ví dụ: xem trang tiếp theo

không có cung ra.

 Lá hoặc nút kết thúc: giá trị lớp; có chính xác một cung vào + cung ra (gắn với điều kiện kiểm tra giá trị thuộc tính của nút)  Nút trong: tên thuộc tính; có chính xác một cung vào và một số  Gốc: tên thuộc tính; không có cung vào + không/một số cung ra

 Cây quyết định  Mô hình phân lớp là cây quyết định

Phân lớp cây quyết định

03/02/17

155

10

xem xét vơi u tiếp theo. Thực hiện thuật toán với từng nút con u của t.

cung nối t tới u là miền giá trị A theo phân hoạch, tập con nói trên được

2.3. Mỗi tập con theo phân hoạch của Dt tương ứng với một nút con u của t:

2.2. Tạo phân hoạch Dt theo tập giá trị của A thành các tập con

2.1. Chọn 1 thuộc tính A để phân hoạch Dt và gán nhãn nút t là A

2: Nếu Dt chứa các ví dụ thuộc nhiều lớp thì

và được gán nhãn y.

1: Nếu mọi ví dụ trong Dt đều thuộc vào một lớp y thì nút t là một lá

 Nội dung

 Xác định nhãn nút t và các cung ra (nếu có) của t

 Output

 Cho tập nhãn lớp (giá trị lớp) y1, y1, … yk. (k lớp)  Cho tập các ví dụ học Dt.  Cho nút t trên cây quyết định đang được xem xét

 Input

bắt đầu từ gốc

 Thuật toán dựng cây quyết định sớm nhất, đệ quy theo nút của cây,

Dựng cây quyết định: thuật toán Hunt

Yes

No

No

Yes 1

then Class AI = No. If System=1 and Timetable=0

4.

0

1

0

then Class AI = Yes. If System=1 and Timetable=1

3.

Process

Timetable

then Class AI = No. If System=0 and Process=1

2.

0

1

then Class AI = Yes. If System=0 and Process=0

1.

System

Timetable (Phân tích miền ứng dụng)

 Dựa vào các từ khóa có trong văn bản: System, Process,  Phân lớp văn bản vào lớp AI : trí tuệ nhân tạo

Ví dụ cây quyết định phân lớp văn bản

03/02/17

156

11

Thuật toán cây quyết định ID3

Giải thích

Ví dụ: thuật toán Hunt

Status với phân hoạch Married và hai giá trị kia… và Yes nên áp dụng bước 2. Chọn thuộc tính Marital gán No (Don’t cheat). Nút phải có 7 bản ghi có cả No 3 bản ghi cùng thuộc lớp Cheat=No (Bước 1) nên là lá - Xét hai nút con của gốc từ trái sang phải. Nút trái có Refund = Yes và 7 bản ghi có Refund = No trị Yes, No. Chia thành hai tập gồm 3 bản ghi có -Thực hiện bước 2: chọn thuộc tính Refund có hai giá - Xuất phát từ gốc với 10 bản ghi

03/02/17

157

12

Gini=0.000

Gini=0.278

Gini=0.444

Gini=0.500

C2

6

C2

5

C2

4

C2

3

C1

0

C1

1

C1

2

C1

3

 Ví dụ: Bốn trường hợp

 Gini (t) nhỏ nhất = 0 khi tất cả các bản ghi thuộc một lớp duy nhất.

phân biệt giữa các lớp

ghi tại t phân bố đều cho nc lớp; tính hỗn tạp cao nhất, không có  Gini (t) lớn nhất = 1-1/nc (với nc là số các lớp tại nút t): khi các bản

Trong đó p(j|t) là tần suất liên quan của lớp j tại nút t

j

 1



Gini

t 1)(

jp (

 t 2)|

 Công thức tính độ đo Gini cho nút t:  Đo tính hỗn tạp của một tập ví dụ mẫu

 Độ đo Gini  Tồn tại một số độ đo: Gini, Information gain…  Bước 4.1. chọn thuộc tính A tốt nhất gán cho nút t.

Chọn thuộc tính: Độ đo Gini

cải thiện chất lượng không phụ thuộc các thuộc tính hiện có; (iii) nếu phân chia không ngưỡng cho trước, (ii) test khi-bình phương cho thấy phân bố lớp  Ràng buộc dừng phân chia khác: (i) số lượng dữ liệu nhỏ thua  Tất cả các dữ liệu có giá trị “tương tự nhau”  Tất cả các dữ liệu thuộc về cùng một lớp

 Khi nào thì dừng phân chia (bước 2)

 Theo một số độ đo  Cách xác định cách chia tốt nhất  Cách xác định điều kiện kiểm tra thuộc tính

 Xác định cách phân chia tập dữ liệu

 Vấn đề cần giải quyết

tối ưu hóa chiến lược xác định

 Phân chia tập dữ liệu dựa trên việc kiểm tra các thuộc tính làm

 Chiến lược tham lam Rút gọn cây

03/02/17

158

13

Don’t Cheat

Cheat / Don’t Cheat

Status cho gốc cây quyết định !

Divorced

Married

Single,

của Marital Status (3/10) nên chọn Marital

Status

Income bằng nhau (24/70) và lớn hơn Gini

Marital

j

1

Như vậy, Gini của Refund và Taxable



Gini

)(

t

1

jp

(

t

2)|

7/10*(24/49) = 24/70

i

1

n

3/10 * (0) + 7/10 * (1-(3/7)2 – (4/7)2) =

split

GINI

GINI

)(

i

i

n

k

theo Gini, kết quả 2 thùng và 80K là mốc) chia khoảng (tồn tại một số phương pháp  Taxable Income: thuộc tính liên tục cần

– (3/6) 2) = 6/10 * ½ = 3/10

 Marital Status: 4/10 * 0 + 6/10 * (1- (3/6) 2

(4/7)2) = 7/10*(24/49) = 24/70

 Refund: 3/10 * (0) + 7/10 * (1-(3/7)2 –

và Taxable Income (<80K,  80K). Marital Status (Single&Divorced, Married)  Tính toán GINI cho Refund (Yes, No), Chia tập theo độ đo Gini: Ví dụ

 .ni là số lượng bản ghi tại nút con I (của nút t).  n là số bản ghi của tập bản ghi tại nút t, trong đó

i

 1

split

GINI

GINI

)( i

n i n

k

lượng của việc chia tính bằng

 Khi một nút t được phân hoạch thành k phần (k nút con của t) thì chất  Dùng trong các thuật toán CART, SLIQ, SPRINT

Chia tập theo độ đo Gini

03/02/17

159

14

 Áp dụng: Tự tiến hành

tập con

 Dùng GainRatio để khắc phục xu hướng chọn phân hoạch nhiều

i

1

n

n

SplitINFO



SplitINFO

log

GainRATIO

i

i

chia

n

n

Gain

k

 Cải tiến

 Hạn chế: Xu hướng chọn phân hoạch chia thành nhiều tập con C4.5 là một trong 10 thuật toán KPDL phố biến nhất. Gain đạt lớn nhất. Độ đo giảm entropy sau khi phân hoạch: chọn thuộc tính làm cho hoạch, ni là số lượng bản ghi trong tập con thứ i. Trong đó, n là số lượng bản ghi tại nút t, k là số tập con trong phân

i

 1

chia

Gain

entropy

)( t

entropy

)( i

n i n

k

 Độ đo Information Gain Chọn thuộc tính: Information Gain

 Tính toán entropy (t) cho một nút tương tự như Gini (t)

 Lấy loga cơ số 2 thay cho loga tự nhiên

nhất.

 Entropy (t) nhỏ nhất = 0 khi tất cả các bản ghi thuộc một lớp duy

có phân biệt giữa các lớp bản ghi tại t phân bố đều cho nc lớp; tính hỗn tạp cao nhất, không  Entropy (t) lớn nhất = log (nc) (với nc là số các lớp tại nút t): khi các

độ không đồng nhất tại nút t. Trong đó p(j|t) là tần suất liên quan của lớp j tại nút t

j

 Công thức tính entropy nút t:



Entropy

)( t

( jp

log)| t

( jp

)| t

 Entropy

 Dùng cho các thuật toán ID3, họ C4.5  Thông tin thu được sau khi phân hoạch tập ví dụ

 Độ đo Information Gain Chọn thuộc tính: Information Gain

03/02/17

160

15

 Ví dụ:C4.5Rule

hình cây quyết định, mô hình mạng nơ ron, …

 Trích xuất luật từ mô hình phân lớp dữ liệu khác, chẳng hạn, mô

 Gián tiếp

4. Lặp các bước 2-3 cho đến khi gặp điều kiện dừng 3. Xóa mọi bản ghi “bảo đảm” bởi luật vừa được học 2. Mở rộng luật bằng hàm Học_một_luật 1. Bắt đầu từ một tập rỗng

 Trích xuất luật trực tiếp từ dữ liệu  Ví dụ: RIPPER, CN2, Holte’s 1R  Trích xuất luật trực tiếp từ dữ liệu

 Trực tiếp

 Trực tiếp và gián tiếp

 Giới thiệu Xây dựng luật phân lớp

 Khi đó, vế phải của luật cũng được áp dụng cho thể hiện. tính của r đáp ứng điều kiện của luật.  Một luật được gọi là “bảo đảm” thể hiện r (bản ghi) nếu các thuộc

 Sử dụng luật

(Refund = “No”)  (Marital Status = “Married”)  Cheat = “No” Refund = ‘Yes”  Cheat = “No”

 Ví dụ

y là nhãn lớp (còn gọi là kết quả của luật: RHS bên phải). kiện của luật: LHS bên trái) <điều kiện> là sự kết nối các thuộc tính (còn gọi là tiên đề/điều Trong đó:

 Luật: <điều kiện>  y

 Luật

 Phân lớp các bản ghi dựa vào tập các luật “kiểu” if … then

 Giới thiệu Phân lớp dựa trên luật

03/02/17

161

16

 n 1: số trường hợp sai được đảm

bảo bởi R1

 P1: số thể hiện đúng được bảo

đảm bởi R1

 n0: số thể hiện sai được đảm bảo

bởi R0

hai R0 và R1

với t: số thể hiện đúng đảm bảo cả n1)) - log (p0 / (p0 + n0))]

 Gain (R0, R1) = t [log (p1 / (p1 +

thêm liên kết)

 R1: {A} => lớp (quy tắc sau khi  R0: {} => lớp (luật khởi động)

lợi ích thông tin FAIL

 Bổ sung các liên kết làm cực đại  Bắt đầu từ một luật rỗng: {}  lớp  Thuật toán RIPPER Mở rộng luật: một số phương án

 Xác định kết quả luật theo đa số của các bản ghi đảm bảo luật  Bổ sung các liên kết làm cực tiểu entropy: {A}, {A, B}…  Khởi đầu bằng liên kết rỗng: {}

 Thuật toán CN2

 Tìm đặc trưng điển hình cho từng lớp  Thống kê các đặc trưng cho ví dụ

 Sử dụng thống kê

Mở rộng luật: một số phương án

đảm bởi R0 p0: số thể hiện đúng được bảo

03/02/17

162

17

một tập luật (giá trị chuẩn, g=0.5)

 g : tham số đếm sự hiện diện của các thuộc tính dư thừa trong

 Độ dài mô tả = L(lỗi) + g* L(mô hình)

 Tính toán độ dài mô tả của mỗi tập con

 Mỗi tập con là một tập các luật với cùng một kết quả (lớp)

luật (thứ tự lớp)

 Thay thế sắp xếp theo luật bằng sắp xếp theo tập con của

 Lặp lại cho đến khi không cải thiện được lỗi tổng thể  Loại bỏ các r’ có lỗi thấp hơn r  So sánh tỷ lệ lỗi r so với các r’

cách bỏ đi một liên kết

 Xem xét luật thay thế r’: A’ → y, trong đó A’ nhận được từ A bằng

 Với mỗi luật, r: A → y  Trích xuất luật từ cây quyết định chưa cắt tỉa

Sinh luật gián tiếp: C4.5rules

Liệt kê các đường đi từ gốc Tập luật

Luật phân lớp: từ cây quyết định

03/02/17

163

18

Birds

Reptiles

Yes

No

()  Mammals

(Can Fly=Yes,Give Birth=No)  Birds

Fly?

 Reptiles

Fishes

Amphibians

Can

(Give Birth=No, Can Fly=No, Live In Water=No)

Sometimes

(Have Legs=No)  Reptiles

(Live in Water=Yes)  Fishes

Yes

No

RIPPER:

( )  Amphibians

Mammals

Water? Live In

(Give Birth=No, Can Fly=No, Live in Water=No)  Reptiles

(Give Birth=Yes)  Mammals

Yes

No

(Give Birth=No, Live in Water=Yes)  Fishes

(Give Birth=No, Can Fly=Yes)  Birds

Birth? Give

C4.5rules:

C4.5rules: Ví dụ

no yes no no no no no yes no no

eagle dolphin owl platypus gila monster salamander eel porcupine penguin turtle leopard shark yes cat yes no pigeon yes bat no komodo no frog yes whale no salmon no python yes human

yes no yes yes yes yes yes no yes yes no no yes no yes yes no yes yes no

yes no yes no no no no no no no no no yes yes no no no no no no

no no no yes

Name

Give Birth

Lay Eggs

Can Fly

yes no no yes yes no yes no yes no sometimes yes yes no yes no sometimes yes sometimes yes yes no yes no yes no yes no yes no sometimes yes yes yes no no Live in Water Have Legs

birds mammals birds mammals reptiles amphibians fishes mammals birds reptiles fishes mammals birds mammals reptiles amphibians mammals fishes reptiles mammals Class

C4.5rules: Ví dụ

03/02/17

164

19

http://www.cs.uu.nl/docs/vakken/dm/dmhc13.pdf

(Chapter

5: Classification: Alternative

Techniques),

Addison Wesley,

2005,

Pang-Ning Tan, Michael Steinbach, Vipin Kumar.

Introduction to Data Mining

SP

)(

20/1

SMP

(

|

)

.0

0002

MPMSP

)

(

(

|

)

/15.0

50000

viêm màng não ?

 Một bệnh nhân bị cứng cổ hỏi xác suất anh/cô ta bị

 Xác suất một bệnh nhân bị cứng cổ S là 1/20  Xác suất một bệnh nhân bị viêm màng não M là 1/50.000

50%

 Bệnh nhân viêm màng não có triệu chứng cứng cổ S|M:

 Một bác sỹ biết

Định lý Bayes: Ví dụ

 Vấn đề: làm thế nào để tính P(x|c)?  P(c): tần suất xuất hiện của các tài liệu thuộc lớp c

P(x|c).P(c) lớn nhất

 Tìm c sao cho P(c|x) lớn nhất Tìm c sao cho  P(x) bằng nhau cho tất cả các lớp

P(c|x) = P(x|c).P(c)/P(x)

 Định lý Bayes:

CAP

(

|

)

)

ACP

)

(

|

)

) CP ( CAP ( , AP ( ) CAP , (

Hai biến cố A và C  Xác suất có điều kiện  Khung xác suất để xây dựng bộ phân lớp

 Giới thiệu

Phân lớp Bayes

03/02/17

165

20

inT



(

 ),

(

(

,

|

|

)

| xcp

) xTpTxcp

trí của nó trong đối tượng: tính trong đối tượng độc lập với ngữ cảnh và vị  giả thiết độc lập: xác suất xuất hiện của thuộc

 Giả thiết Naïve Bayes:

Phân lớp Naïve Bayes

5: Classification: Alternative

Techniques),

Addison Wesley,

http://www.cs.uu.nl/docs/vakken/dm/dmhc13.pdf (Chapter Pang-Ning Tan, Michael Steinbach, Vipin Kumar.

2005, Introduction to Data Mining

học?

 Có thể tính xác suất P(C|A1, A2, …, An) từ dữ liệu  Tìm lớp c để cực đại xác suất P(C|A1, A2, …, An)  Cần dự báo nhãn c …, An)

 Cho một bản ghi với các giá trị thuộc tính (A1, A2,

ngẫu nhiên.

 Các thuộc tính (bao gồm nhãn lớp) là các biến

Phân lớp Bayes

03/02/17

166

21

của X: nhãn nhiều nhất trong k-láng giềng gần nhất

- Dùng nhãn lớp của k-láng giềng gần nhất để xác định nhãn lớp

- Tìm k dữ liệu thuộc D gần X nhất

- Tính khoảng cách (độ tương tự) từ X tới tất cả dữ liệu thuộc D

 Phân lớp đối tượng mới Xc được biểu diễn

- Một số k > 0 (láng giềng gần nhất - Một đo đo khoảng cách (Ơcơlit) hoặc tương tự (như trên) - Một tập D các đối tượng dữ liệu biểu diễn bản ghi các đặc trưng

 Cho trước

l

l

l Y

  X

l 2

2

)Y,X(Sm

)Y,X(Cos

l

l l Y*X

Phân lớp k-NN

TF (fj| X): số lần đặc trưng fj xuất hiện trong X

thì X  C!

i

 1

j  VF

j

i *)C(p

f(p(

i )C|

j

f(TF

)X,

  n

)X|C(P

 Nếu P(C|X) > C  Tính xác suất hậu nghiệm

j  VF

j

*)C(p

f(p(

)C|

j

 Cho dữ liệu X mới

f(TF

)X,

i

 1

i

|

V

|

TF

(

l , Cj

)

j CfP

(

|

)

1

(

j , Cf

)

n TF

 Xác suất một đặc trưng fj thuộc lớp C:  p(Ci) = Mi/M, M= ||Dlearn||, Mi = ||Y  Dlearn / Y Ci||  Trên tập ví dụ học Dlearn  Tính xác suất tiên nghiệm

 Tập lớp C= {C1, C2, …, Cn} với mỗi Ci một ngưỡng i > 0  Tập từ vựng V = {f1, f2, …, f||V||}  Tập ví dụ Dexam = Dlearn + Dtest

 Cho Phân lớp Naïve Bayes

03/02/17

167

22

số chiều lớn (như các vector biểu diễn văn bản).

 SVM rất hiệu quả để giải quyết các bài toán với dữ liệu có

SVM): được Corters và Vapnik giới thiệu vào năm 1995.  Thuật toán máy vector hỗ trợ (Support Vector Machine –

Thuật toán SVM

-

-

-

3-NN: Chọn lớp “+”: láng giềng có nhãn “+” là nhiều nhất có tổng khoảng cách gần nhất 2-NN: Chọn lớp “-”: hai nhãn có số lượng như nhau, chọn nhãn 1-NN: Chọn lớp “-”: láng giềng có nhãn “-” là nhiều nhất

 Ba trường hợp như hình vẽ

(a ) 1 -nea rest ne igh bo r

(b ) 2 -ne arest ne igh bo r

(c) 3-ne are st ne ig hbo r

X

X

X

Phân lớp k-NN: Ví dụ

03/02/17

168

23

Thuật toán SVM

 Thuộc lớp âm nếu f(d) < 0

 Thuộc lớp dương nếu f(d) > 0

 f(d) = αSVM .d + b

 Phân lớp một tài liệu mới: xác định dấu của

liệu thành hai miền.

 Tìm một siêu phẳng: αSVM .d + b phân chia dữ

 Ci Є {-1,1} xác định dữ liệu dương hay âm

 Tập dữ liệu học: D= {(Xi, Ci), i=1,…n}

Thuật toán SVM

03/02/17

169

24

 Phân lớp bán giám sát trong NLP

 Các phương án học bán giám sát phân lớp

 Một số cách tiếp cận cơ bản

 Nội dung phân lớp bán giám sát

 Tại sao học bán giám sát

 Khái niệm sơ bộ

 Giới thiệu phân lớp bán giám sát

Phân lớp bán giám sát

i

i

1,...., i    1

n

(4)   i

1,....,

n

i b

=1

i

 Thỏa mãn:

i

C

+

.

(3)

    0   i  c d . 2  1

n

 Cực tiểu:

i

i

 Nếu dữ liệu học không tách rời tuyến tính: thêm biến {ξ1… ξn}:  ( 2 )

1,....,

  i

1

b

n

d

c

.

  

  

 Thỏa mãn:

(1)

2  . 1

2 1

 Cực tiểu:

2

   =  

    

 Nếu dữ liệu học là tách rời tuyến tính:

Thuật toán SVM

03/02/17

170

25

liệu tuân theo. mô hình đã có theo tự nhiên hoặc giả thiết dữ (mô hình / đặc trưng/ nhân / hàm tương tự)   Ánh xạ gán nhãn có liên quan mô hình dữ liệu  chẳng hạn, nghịch lý “hiệu quả như nhau” trong biểu diễn văn bản nhãn trên dữ liệu

 Biểu diễn dữ liệu chưa mô tả hết ánh xạ gán

Cơ sở của học bán giám sát

 Tạo ra bộ phân lớp tốt hơn so với chỉ dùng học giám sát: học nhãn

 Học bán giám sát: dùng cả ví dụ có nhãn và ví dụ chưa gắn

 Có sẵn  có điều kiện tiến hành tự động gắn nhãn

xử lý văn bản: trang web vô cùng lớn, ngày càng được mở rộng xử lý tiếng nói: bài nói nhiều, xây dựng tài nguyên đòi hỏi công phu

 Dễ thu thập  nhiều

 ví dụ chưa gắn nhãn

 Tự động: như tự động sinh corpus song hiệu quả chưa cao  Thủ công: khó khăn  chuyên gia  tốn thời gian, tiền

 ví dụ gắn nhãn

nhãn) là tập các cặp (tập thuộc tính, nhãn)

 Học giám sát: tập ví dụ học đã được gán nhãn (ví dụ gắn  Học bán giám sát là gì ? Xiaojin Zhu [1] FQA

Sơ bộ về học bán giám sát

bán giám sát đòi hỏi điều kiện về dung lượng khối lượng

03/02/17

171

26

 …

 Khó nâng cấp học giám sát đã có: dùng self-traning

 Đã sử dụng SVM thì mở rộng TSVM

 Nếu hai điểm tương tự hướng tới một lớp: dựa trên đồ thị

 Đặc trưng phân thành hai phần riêng rẽ: co-training

 Lớp  phân cụm tốt: dùng EM với mô hình sinh trộn.

 Một số định hướng lựa chọn

hình phù hợp cấu trúc dữ liệu: khó kiểm nghiệm

 Đòi hỏi các giả thiết mô hình mạnh. Giả thiết mô

 So sánh các phương pháp

 ...  Dựa trên đồ thị  TSVM  Co-training  Self-training  EM với mô hình trộn sinh điển hình

 Các phương pháp học bán giám sát Phương pháp học bán giám sát

dùng phương pháp khác

 “Tồi” khi dùng phương pháp này song lại “tốt” khi

cách

 phương pháp dựa theo đồ thị với trọng số cạnh là khoảng  mô hình quá trinh Gauxơ với nhiễu phân lớp bằng không  Information Regularization (quy tắc hóa thông tin)  Transductive SVM (máy hỗ trợ vector lan truyền) định: tránh miền có mật độ cao:

 Một số phương pháp cần điều kiện về miền quyết

quả

 Nếu giả thiết mô hình không phù hợp  giảm hiệu

 Dữ liệu chưa nhãn không luôn luôn hiệu quả

Hiệu lực của học bán giám sát

03/02/17

172

27

của phân bố tới các thành phần

cho tới một hoán đối vị trí các thành phần  tính khả tách

 Cho họ phân bố {p} là đồng nhất nếu 1  2 thì p1 p2

 Là tính chất cần có của mô hình

 Tính đồng nhất

nhãn cho mỗi thành phần

 Lý tưởng hóa tính "Đồng nhất": chỉ cần một đối tượng có

phần, trộn đồng nhất. Miền tài liệu được phân thành các thành  Với số lượng nhiều dữ liệu chưa nhãn cho P(x|y) mô hình  Mô hình có dạng p(x,y) = p(y)*p(x|y)  Mô hình sớm nhất, phát triển lâu nhất

 Sơ bộ

Mô hình sinh: Thuật toán EM

Quy nạp: có thể liên quan tới dữ liệu chưa có.

 Lan truyền để thu hẹp lại cho quy nạp: học chỉ dữ liệu sẵn.

 Có cả lan truyền hoặc quy nạp.  “học dữ liệu phân lớp/có nhãn bộ phận”.  “học dữ liệu nhãn/không nhãn,  dùng ví dụ có / không có nhãn,

 “Bán giám sát”  Đa dạng về cách gọi. Hạn chế bài toán phân lớp.

 Phân biệt “học lan truyền” với “học bán giám sát”

 Có dữ liệu không nhãn: nhận được xác suất p(x)

 Nhiều phương pháp là phân biệt: TSVM, quy tắc hóa thông tin,  Mô hình trộn với EM mở rộng thêm self-training  Mô hình sinh có tham số chung phân bố kết nối p(x, y)  Giả thiết dưới dạng p(y|x) còn dữ liệu chưa có nhãn p(x)

 Mô tả chung liệu có nhãn

 Hoặc biến dạng hoặc thay đổi thứ tự giả thiết thu nhờ chỉ dữ

 Dùng dữ liệu chưa gán nhãn Phương pháp học bán giám sát

quá trình Gauxơ, dựa theo đồ thị

03/02/17

173

28

10: end for

9: end for

i+1

8: M-bước: xác định c,t dùng công thức (*) để xây dựng mô hình 7: for mỗi lớp c và từ khóa t do 6: end for 5: E-bước: dùng phân lớp Bayes thứ nhất xác định P(c|d,i) 4: for mỗi tài liệu d  DU do 3: for i = 0, 1, 2, . . . cho đến khi kết quả đảm bảo do 2: dùng DK xây dựng mô hình ban đầu 0

và M-bước

1: Cố định tập tài liệu không nhãn DU  D \ DK dùng trong E-bước

 Nội dung thuật toán

Mô hình sinh: Thuật toán EM

 DK: tập ví dụ có nhãn trong D (|DK| << |D|)  D: tập ví dụ đã có (có nhẵn /chưa có nhãn)

 Ký hiệu

 Khi mô hình trộn chính xác

 Miền áp dụng

 Cực đại EM địa phương

thành đa chiều thay cho đơn chiều chia thành các tiêu đề con thì nên mô hình hóa  Chú ý cấu trúc tốt mô hình trộn: nếu tiêu đề được không nhãn sẽ làm tăng độ chính xác phân lớp

 Giả thiết mô hình trộn là chính xác  dữ liệu

 Tính xác thực của mô hình Mô hình sinh: Thuật toán EM

03/02/17

174

29

Fisher để phân lớp

 Các ví dụ có nhãn được chuyển đổi thành vector

 Nhân là gốc của mô hình sinh

 Phương pháp nhân là một phương pháp điển hình

 Phương pháp nhân Fisher cho học phân biệt  Nhãn cụm (nhãn dữ liệu có nhãn) làm nhãn dữ liẹu khác  Mô hình phân cụm phù hợp dữ liệu

 Độ chính xác phân cụm cao

 dành tập Dtest để đánh giá  cả dữ liệu có nhãn và không có nhãn  Sử dụng phân cụm cho toàn bộ ví dụ

 Phân cụm - và - Nhãn

Mô hình sinh: Thuật toán khác

 Chọn điểm bắt đầu bằng học tích cực

cơ bản khác

 Thuật toán nhân là Bayes naive: có thể chọn thuật toán

 Một số vấn đề khác cần lưu ý: đo hồi tưởng, chính xác, F1...

 "Kết quả đảm bảo yêu cầu": đánh giá theo các độ thì khai thác dữ liệu không nhãn không hiệu quả  Nếu cực trị địa phương khác xa cực trị toàn cục  Phạm vi áp dụng: mô hình trộn chính xác

 Một số vấn đề với EM

Mô hình sinh: Thuật toán EM

03/02/17

175

30

 Tiêu đề văn bản  Nội dung văn bản

 Ví dụ, các trang web  Một dữ liệu có hai khung nhìn

 Tư tưởng Co-Training

 Thường được áp dụng cho các bài toán NLP  Thủ tục "bootstrapping"

Vấn đề tập U' có "độ tin cậy cao nhất"

U – U’U L + U’ L

Tìm tập con U’  U có độ tin cậy cao nhất: Sử dụng h để phân lớp dữ liệu trong tập U Huấn luyện bộ phân lớp giám sát h trên tập L

Lặp (cho đến khi U = )

U : Tập các dữ liệu chưa gán nhãn L : Tập các dữ liệu gán nhãn.

Gọi

 Nội dung

 EM địa phương là dạng đặc biệt của seft-training

 Là kỹ thuật phổ biến trong SSL

 Giới thiệu

Self-Training

03/02/17

176

31

 Bộ phân lớp thành phần rất quan trọng

 Số các mẫu thêm vào sau mỗi vòng lặp

 Kích cỡ tập dữ liệu chưa gán nhãn

 Kích cỡ tập dữ liệu gán nhãn

 Cơ sở tăng hiệu quả co-training: thiết lập tham số

 Quá nhiều: không thu lợi từ co-training  Quá ít: không hỗ trợ co-training training

 Tập dữ liệu gán nhãn có ảnh hưởng lớn đến co-

 Một số lưu ý

 hoặc số vòng lặp đạt tới ngưỡng được xác định trước  hoặc tập dữ liệu chưa gán nhãn là rỗng

 Điều kiện dừng

Co-Training

 Mô hình thuật toán

Co-Training

03/02/17

177

32

thiết dữ liệu tuân theo. tự)  mô hình đã có theo tự nhiên hoặc giả liệu (mô hình / đặc trưng/ nhân / hàm tương

 Ánh xạ gán nhãn có liên quan mô hình dữ

như nhau” trong biểu diễn văn bản) nhãn trên dữ liệu (chẳng hạn, nghịch lý “hiệu quả  Biểu diễn dữ liệu chưa mô tả hết ánh xạ gán

Mô hình đồ thị

 Quá trình Gauxơ)

p(x) ra khỏi miền dầy đặc

 Khi p(x) và p(y|x) không tương thích  đưa

trực tiếp

 Phương pháp phân biệt làm việc trên p(y|x)

 Transductive SVMs (S3VMs)

Chặn thay đổi miền dày đặc

03/02/17

178

33

Hai tiết từ 9h00-10h50 KSE 11h50, PH 212 nhà E3  Các phương pháp dựa trên luật

GĐ 103 nhà G2 9h00 ngày Thứ Hai 13/10/2014 Japan DataSection: Social Media Ming

 Buổi trình bày DataSection

Ngày 10/10/2014

03/02/17

179

1

Đánh giá phân cụm

Gán nhãn cụm

Phân cụm dựa trên mô hình

Phân cụm dựa trên mật độ

Phân cụm phân cấp Phân cụm phẳng Một số độ đo cơ bản cho phân cụm Giới thiệu bài toán phân cụm

and Applications. CRC Press 2014. Charu C. Aggarwal, Chandan K. Reddy (Eds., 2014). Data Clustering: Algorithms

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HÀ NỘI 9-2014 PGS. TS. HÀ QUANG THỤY

CHƯƠNG 6. PHÂN CỤM DỮ LiỆU

BÀI GIẢNG KHAI PHÁ DỮ LIỆU

03/02/17

180

2

 Tăng: Dữ liệu tiếp tục được bổ sung trong quá trình phân cụm

 Lô: Tại thời điểm phân cụm, toàn bộ dữ liệu đã có

 Phân cụm theo lô và phân cụm tăng

 Phân cấp: Các cụm dữ liệu có quan hệ phân cấp cha- con

 Phẳng: Các cụm dữ liệu không giao nhau

 Phân cụm phẳng và phân cụm phân cấp

cụm

 Xác suất: Danh sách cụm và xác suất một dữ liệu thuộc vào các  Đơn định: Mỗi dữ liệu thuộc duy nhất một cụm

 Phân cụm đơn định và phân cụm xác suất

 Vùng: Danh sách cụm và vùng dữ liệu thuộc cụm  Mô hình: Kết quả là mô hình biểu diễn các cụm dữ liệu  Phân cụm mô hình và phân cụm phân vùng

Sơ bộ tiếp cận phân cụm

 Số lượng cụm cho trước, số lượng cụm không cho trước  Khai thác thông tin bổ sung  Xây dựng độ đo tương tự

 Một số nội dung liên quan

 Đưa ra một số độ đo “tương tự” theo biểu diễn dữ liệu  Khai thác “cách chọn lựa” của người dùng

 Tiên đề phân cụm: Nếu người dùng lựa chọn một đối tượng d thì họ

 Đo “tương tự” (gần) nhau ?

 Dữ liệu hai cụm: “không tương tự” nhau (xa nhau)  Các dữ liệu trong một cụm: “tương tự” nhau (gần nhau)

 Phân các dữ liệu thuộc D thành các cụm  Tập dữ liệu D = {di}

 Bài toán 1. Giới thiệu bài toán phân cụm

cũng lựa chọn các đối tượng cùng cụm với d

03/02/17

181

3

 FCM (Fuzzy CMEANS),…

 Sử dụng hàm mờ từ các đối tượng tới các cụm

 Giả thiết: không có phân cụm “cứng” cho dữ liệu và đối tượng có thể

 Phân cụm mờ

 MCLUST…

 Xác định mô hình tốt nhất phù hợp với dữ liệu

 Giải thiết: Tồn tại một số mô hình dữ liệu cho phân cụm

 Phân cụm dựa theo mô hình

 STING, CLIQUE, WaweCluster…  Tạo phân cấp ô lưới theo một số tiêu chí: số lượng đối tượng trong ô  Sử dụng lưới các ô cùng cỡ: tuy nhiên cụm là các “ô” phân cấp

 Phân cụm dựa theo lưới

 DBSCAN, OPTICS…  Hàm liên kết: Xác định cụm là lân cận phần tử chính  Hàm mật độ: Tìm các phần tử chính tại nơi có mật độ cao

 Phân cụm dựa theo mật độ Các phương pháp phân cụm

 CHAMELEON, BIRRCH và CURE, …  HAC: Hierarchical agglomerative clustering  Độ đo tương tự / khoảng cách theo các tiêu chí tương ứng

 Xây dựng hợp (tách) dần các cụm tạo cấu trúc phân cấp và đánh giá

 Phân cụm phân cấp

 Hạn chế: Không điều chỉnh được lỗi  K-mean, k-mediod, CLARANS, …  Độ đo tương tự / khoảng cách  Tiếp cận: từ dưới lên (gộp dần), từ trên xuống (chia dần)

thuộc một số cụm

 Xây dựng từng bước phân hoạch các cụm và đánh giá chúng theo các

 Phân cụm phân vùng (phân cụm phẳng)

tiêu chí tương ứng

 Phân vùng, phân cấp, dựa theo mật độ, dựa theo lưới, dựa theo mô

 Các phương pháp phổ biến

Các phương pháp phân cụm

hình, và phân cụm mờ

03/02/17

182

4

=(1+1)/(2+1+1)=0.5 D(Nam, Vân)

 Lập ma trận khác biệt cho

a=2, b=1, c=1, d=3  Ví dụ, cặp (Nam, Vân): từng cặp đối tượng.

 Quy về giá trị nhị phân:

M/F, Y/N, N/P

 CSDL xét nghiệm bệnh  Ví dụ về độ khác biệt

Một số độ đo cơ bản

nhân

 Tính xác định dương, tính đối

xứng, tính bất đẳng thức tam giác

 Giá trị thực: Khoảng cách

Manhattan, Euclide, Mincowski

 Thuộc tính nhị phân: đối cứng,  Đối ngẫu độ đo tương đồng

 Độ đo khác biệt

giống nhau) hoặc dạng đơn giản (q thuộc tính  Giá trị rời rạc: hoặc tương tự trên không đối xứng

 Giá trị thực : độ đo cosin hai

vector

 Giá trị nhị phân: Ma trận kề, độ đo  Biểu diễn: vector n chiều

 Độ đo tương đồng 2. Một số độ đo cơ bản

trị thành nhị phân, độ đo Jaccard  Giá trị rời rạc [0,m]: Chuyển m giá Jaccard

03/02/17

183

5

Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Spinger, 2007.

 Tính lại ci mới: bước 2.1 khởi động (tổng, bộ đếm); bước 2.2

 Tính được độ tương tự của d với các ci.

 Với mỗi vòng lặp: duyệt CSDL trên đĩa 1 lần

 Toàn bộ dữ liệu quá lớn: không thể ở bộ nhớ trong

 Thi hành k-mean với dữ liệu trên đĩa

 Thực tế: số lần lặp  50

 Trong bước 2: các trọng tâm có thể không thuộc S

 Một số lưu ý (tiếp) và ví dụ

a. Thuât toán K-mean gán cứng

 Có thể dùng độ đo khoảng cách thay cho độ đo tương tự  Vấn đề chọn tập đại diện ban đầu ở bước Khởi động

 Giá trị mục tiêu đủ nhỏ  Khống chế số lần lặp  Điều kiện dừng cưỡng bức  Sau bước 2 không có sự thay đổi cụm

 Điều kiện dừng  Một số lưu ý

3. Thuât toán K-mean gán cứng

cộng và tăng bộ đếm; bước 2.3 chỉ thực hiện k phép chia.

03/02/17

184

6

Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Spinger, 2007.

cầu (các thành phần con không ellip/cầu hóa)

 Không thích hợp với các tập dữ liệu không siêu-ellip hoặc siêu

 Nhạy cảm với mẫu ban đầu: cần phương pháp chọn mẫu thô tốt

ngoại lệ thực tế, ngoại lệ do quan sát sai (làm sạch dữ liệu)

 Nhạy cảm với ngoại lệ (cách xa so với đại đa số dữ liệu còn lại):

 Cần cho trước k : số cụm  Phải “tính trung bình được”: dữ liệu phân lớp thì dựa theo tần số

 Nhược điểm

 Thường cho tối ưu cục bộ. Tối ưu toàn cục rất khó tìm  Một thuật toán phân cụm phổ biến nhất

là số phần tử

 Hiệu quả về thời gian: tuyến tính O(tkn), t số lần lặp, k số cụm, n  Đơn giản, dễ sử dụng

 Ưu điểm

Thuât toán K-mean

 Tinh chỉnh C dần với tỷ lệ học  (learning rate)

 Định hướng

 Tập k “đại diện cụm” C làm cực tiểu lỗi “lượng tử”

 Output

 Tập dữ liệu D (cho trước)  Số nguyên k > 0: số cụm biết trước

 Input Thuât toán K-mean mềm

03/02/17

185

7

 PAM: Partition Around Mediods  Hàm mục tiêu  Biến thể của K-mean: thay trọng tâm bằng một phần tử của D

 K-mediod

b. Thuât toán PAM (K-mediod)

Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Spinger, 2007.

Phải: Không thích hợp với bộ dữ liệu không siêu ellip/cầu hóa Trái: Nhạy cảm với chọn mẫu ban đầu

Thuât toán K-mean

03/02/17

186

8

 Điều kiện |G| < k có thể thay thế bằng |G|=1

 G là tập các cụm trong phân cụm

 Giải thích

a. Phân cụm phân cấp từ dưới lên

 Tinh chỉnh: Từ cụ thể tới khái quát  Lưu ý: k là một tham số  “tìm k tốt nhất”

phương án phân cụm theo các giá trị k khác nhau

 Đặc điểm: Không cho trước số lượng cụm k, cho phép đưa ra các

 Sơ bộ về thuật toán

 Độ tương tự trung bình giữa hai dữ liệu thuộc hai cum  Độ tương tự cực tiểu giữa hai dữ liệu thuộc hai cum: complete-link  Độ tương tự cực đại giữa hai dữ liệu thuộc hai cụm: single-link  Độ tương tự giữa hai đại diện

 Độ tương tư giữa hai cụm  Độ tương tự hai tài liệu

 Một số độ đo phân biệt cụm  HAC: Hierarchical agglomerative clustering

4. Phân cụm phân cấp

03/02/17

187

9

 Dưới: Độ tương tự cực đại (Single-link) tạo cụm chuỗi dòng

độ tương tự cực tiểu (complete-link) có tính cầu hơn so với cực đại

 Trên: Hoạt động thuật toán khác nhau theo các độ đo khác nhau:

 Ảnh hưởng của các độ đo

HAC với các độ đo khác nhau

 Chọn phân cụm theo “ngưỡng” về độ tương tự  Cho phép với mọi k  Hoạt động HAC

Phân cụm phân cấp từ dưới lên

03/02/17

188

10

BIRCH: Năm độ đo khoảng cách

 Thuật toán xây dựng cây  Hai tham số: bề rộng b và ngưỡng t  Một cây cân bằng

 Cây đặc trưng phân cụm CF Tree

 <3, (9,10), (29,38)>. Khi ghép cụm không tính lại các tổng liêu; SS : vector tổng bình phương các thành phần các đối tượng  CF = , n: số phần tử, LS: vector tổng các thành phần dữ

 Đặc trưng phân cụm CF: tóm tắt của cụm

 Khái niệm liên quan

 Tính bất động: Gán không đổi đối tượng –> cụm  Tính khả cỡ: Làm việc với tập dữ liệu lớn Hierarchies

 Balanced Iterative Reducing Clustering Using

b. Phân cụm phân cấp BIRCH

03/02/17

189

11

Clustering Method for Very Large Databases, SIGMOD Conference 1996: 103-114

Tian Zhang, Raghu Ramakrishnan, Miron Livny (1996). BIRCH: An Efficient Data

 Tinh chỉnh việc trộn:  Biến đổi đường đi tới lá khi bổ sung phần tử mới

 Xác định lá thích hợp: Duyệt từ gốc xuống một cách đệ quy để tới nút

 Chèn một “cụm” a vào cây  Cây ban đầu rỗng Chèn vào CF Tree và BIRCH

trang bộ nhớ tham số P kích thước không gian dữ liệu và định bằng số chiều  Cỡ của nút được xác

ngưỡng T cụm mà đảm bảo nhất L đặc trưng phân lá có nhiều

 Mỗi nút

nhiều nhất là B cành  Mỗi nút không là lá có

Cây đặc trưng phân cụm CF Tree

chia lá cũ Nếu không, tạo nút mới cho a; nếu không đủ bộ nhớ cho lá mới thì cần không (chưa vượt ngưỡng); nếu có thì đặc trưng CF của L1 bổ sung;  Biến đổi lá: Nếu gặp lá L1 gần a nhất, kiểm tra xem L1 có “hấp thụ“ a con gần a nhất theo 1 trong 5 khoảng cách nói trên

03/02/17

190

12

 Cụm hình dạng bất thường rất khó biểu diễn

 Dữ liệu phân cụm ellip/cầu hóa: đại diện cụm cho biểu diễn tốt

 Lưu ý

 Tần số xuất hiện các giá trị đặc trưng cho từng cụm

 Dùng cho dữ liệu phân loại

 Theo mô hình tần số

 Chạy thuật toán phân lớp để tìm ra biểu diễn cụm  Chỉ số cụm như nhãn lớp

 Theo mô hình phân lớp

 Cụm không ellip/cầu hóa: không tốt  Tính bán kính và độ lệch chuẩn để xác định phạm vi của cụm  Đại diện cụm làm tâm

 Theo đại diện cụm

 Các phương pháp biểu diễn điển dình 7. Biểu diễn cụm và gán nhãn

 Phân cụm cực đại kỳ vọng: khởi tạo, tính giá trị kỳ vọng, cực đại hóa kỳ vọng  Phân cụm cực đại kỳ vọng, phân cụm khái niệm, học máy mạng nơron  Làm phù hợp phân bố cụm với mô hình toán học

 Phân cụm phân cấp dựa trên mô hình

 Đạt được nếu có dãy mà mỗi cái sau là đạt được trực tiếp từ cái trước

neighborhood của q.

 P đạt được trực tiếp theo mật độ từ q nếu q là đối tượng lõi và p thuộc #-  | #-neighborhood| > MinPts gọi đối tượng lõi  #-neighborhood: vùng lân cận bán kính #  Density-Based Spatial Clustering of Application with Noise

 Phân cụm dựa trên mật độ DBSCAN

 RObust Clustering using linKs: xử lý dữ liệu rời rạc, quyết định “gần” theo

 Phân cụm phân cấp ROCK

 Thêm vào S các phần tử có d > 0  Đối ngẫu phân cụm phân cấp từ trên xuống: phần tử khác biệt -> cụm khác biệt S,

 Phân cụm phân cấp từ trên xuống DIANA

 Nghiên cứu giáo trình Các thuật toán phân cụm khác

tập phần tử láng giềng sim (p, q) > >0.

03/02/17

191

13

Retrieval, Cambridge University Press. 2008.

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze,

Introduction to Information

 centroid: các từ khóa có tần số cao nhất

 Ba phương pháp chọn nhãn cụm đối với 3 cụm là cụm 4 (622 tài liệu),

 Ví dụ

Ví dụ: Gán nhãn cụm văn bản

 Chon đặc trưng của dữ liệu trong cụm gần trọng tâm nhất

 Tiêu đề

 Dùng các đặc trưng tần số cao tại trọng tâm cụm

 Hướng “trọng tâm” cụm

 N: Tổng số dữ liệu  N00 : số dữ liệu không chứa t không thuộc cụm C  N01 : số dữ liệu không chứa t thuộc cụm C  N10 : số dữ liệu chứa t không thuộc cụm C  N11 : số dữ liệu chứa t thuộc cụm C  Nxy (x có đặc trưng t, y dữ liệu thuộc C)  Chọn đặc trưng tương quan cụm

 Phân biệt các cụm (MU) Gán nhãn cụm

liệu gần trọng tâm nhất. information (MU): thông tin liên quan phân biệt các cụm; title: tiêu đề tài trong trọng tâm; mutual đầu tiên của bộ Reuters-RCV1 cụm 9 (1017 tài liệu), cụm 10 (1259 tài liệu) khi phân cụm 10000 tài liệu

03/02/17

192

14

 Phân ly theo trọng tâm

 Một số phương pháp điển hình

 Lấy độ tương tự cực tiểu (complete link), cực đại (single link)  Cực tiểu hóa tổng độ tương tự các cặp cụm khác nhau  Cực đại hóa tổng độ tương tự nội tại của các cụm

 Độ phân biệt các cụm Đánh giá theo độ đo tương tự

đo F và đánh giá theo các độ đo này

 Tính các độ đo: entropy, tinh khiết, chính xác, hồi tưởng, độ  Xây dựng ma trận nhầm lẫn khi phân lớp  Học bộ phân lớp đa lớp (cụm)  Coi mỗi cụm là một lớp

 Dùng thuật toán phân lớp

 Phân ly theo trọng tâm  Độ phân biệt giữa các cụm

 Đánh giá theo các độ đo tương tự/khoảng cách

 Đọc các dữ liệu trong cụm  Luật từ cây quyết định  Nghiên cứu trọng tâm và miền phủ

 Người dùng kiểm tra

 Một số phương pháp điển hình

 Chưa biết các cụm thực sự

 Đánh giá chất lượng phân cụm là khó khăn 8. Đánh giá phân cụm

03/02/17

193

15

Ví dụ

 Ngoại tuyến  Trực tuyến

 Một lớp quan trọng: phân cụm liên quan tới câu hỏi tìm kiếm

 Quan tâm tới phương pháp gia tăng  Web số lượng lớn, tăng nhanh và biến động lớn

 Chế độ trực tuyến: tốc độ phân cụm

 Đặc điểm

 Ngoại tuyến: phân cụm tập văn bản cho trước  Trực tuyến: phân cụm kết quả tìm kiếm người dùng

 Hai chế độ

cụm web Ví dụ: Chế độ và đặc điểm phân

clustering engines, ACM Comput. Surv. , 41(3), Article 17, 38 pages. Carpineto C., Osinski S., Romano G., Weiss D. (2009). A survey of web

03/02/17

194

16

Phân cụm kết quả tìm kiếm

03/02/17

195