1
Tìm hi u v DW 2.0
Ch ng 19, 20, 21ươ
Thành viên trình bày:
1041117 H a Ch n Qu c
1041357 Nguy n Thành Khang
1041311 Lê Hoàng Minh Châu
2
Ch ng 19 : DW 2.0 & unstructured ươ
data
N i dung chính:
1) Khái ni m unstructured data
2) X văn b n phi c u trúc
Ph ng pháp th c hi nươ
Tích h p văn b n
3) Cách s d ng
3
1/ Khái ni m unstructured data
Là 1 d ng d li u trong data warehouse có
ngu n g c t unstructured text (txt, xls, pdf,
csv,…).
Dùng unstructured text s cho k t qu phân ế
tích sai.
Đ chuy n t unstructured text thành
unstructured data thì qua các b c:ướ
1) Đ c văn b n
2) Tích h p văn b n
4
2/ X văn b n phi c u trúc –
Ph ng pháp th c hi nươ
Con ng i t làmườ
X lý b ng công c có s n : textual ETL
=> cho k t qu t t nh tế
5
2/ X văn b n phi c u trúc –
Tích h p văn b n
Simple editing : chuy n m i ký t hoa thành
th ng và b m i d u câu.ườ
Lincoln stood and said - “Four score and seven
years ago, our forefathers
lincoln stood and said four score and seven
years ago our forefathers