
1
Tìm hi u v DW 2.0ể ề
Ch ng 19, 20, 21ươ
Thành viên trình bày:
1041117 H a Ch n Qu cứ ấ ố
1041357 Nguy n Thành Khangễ
1041311 Lê Hoàng Minh Châu

2
Ch ng 19 : DW 2.0 & unstructured ươ
data
N i dung chính:ộ
1) Khái ni m unstructured dataệ
2) X lý ửvăn b n phi c u trúcả ấ
•Ph ng pháp th c hi nươ ự ệ
•Tích h p văn b nợ ả
3) Cách s d ngử ụ

3
1/ Khái ni m unstructured dataệ
•Là 1 d ng d li u trong data warehouse có ạ ữ ệ
ngu n g c t unstructured text (txt, xls, pdf, ồ ố ừ
csv,…).
•Dùng unstructured text s cho k t qu phân ẽ ế ả
tích sai.
•Đ chuy n t unstructured text thành ể ể ừ
unstructured data thì qua các b c:ướ
1) Đ c văn b nọ ả
2) Tích h p văn b nợ ả

4
2/ X lý ửvăn b n phi c u trúc –ả ấ
Ph ng pháp th c hi nươ ự ệ
Con ng i t làmườ ự
X lý b ng công c có s n : textual ETLử ằ ụ ẵ
=> cho k t qu t t nh tế ả ố ấ

5
2/ X lý ửvăn b n phi c u trúc – ả ấ
Tích h p văn b nợ ả
Simple editing : chuy n m i ký t hoa thành ể ọ ự
th ng và b m i d u câu.ườ ỏ ọ ấ
Lincoln stood and said - “Four score and seven
years ago, our forefathers”
lincoln stood and said four score and seven
years ago our forefathers

