YOMEDIA
ADSENSE
Tìm hiểu về Data Mining
320
lượt xem 115
download
lượt xem 115
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Tìm hiểu về Data Mining
- Thành viên nhóm: 1. Lâm long h u DTH082043 2. Dương văn phim DTH082056 3. H hoài h n DTH0820 4. Nguy n chí tính DTH082060 5. Nguy n quang sơn DTH072222 BÀI BÁO CÁO NHÓM NGHIÊN C U KHOA H C Tìm hi u v Data Mining I.TÓM T T: Khai phá d li u (Data mining) là m t khái ni m ra ñ i vào nh ng năm cu i c a th p k 80. Nó bao hàm m t lo t các k thu t nh m phát hi n ra các thông tin có giá tr ti m n trong các t p d li u l n . Th t ra, khai phá d li u liên quan ñ n vi c phân tích các d li u và s d ng các k thu t ñ tìm ra các m u hình có tính chính quy trong t p d li u. Hay nó còn là m t quá trình trích xu t thông tin có m i quan h ho c có m i tương quan nh t ñ nh t m t kho d li u l n (c c l n) nh m m c ñích d ñoán các xu th , các hành vi trong tương lai, ho c tìm ki m nh ng t p thông tin h u ích mà bình thư ng không th nh n di n ñư c. ng d ng c a nó r t ña d ng và r ng t i, t marketing, ch ng gian l n, gi m giá thành s n xu t, tăng doanh thu, phân tích hành vi s dung ngư i dùng internet ñ ph c v ñúng nhu c u, ñúng ñ i tư ng hay ng d ng h tr ra quy t ñ nh, nghiên c u khoa h c ñ n vi c ch ng kh ng b v.v.. Các công c , k thu t data mining có th tr l i các câu h i mà các công c truy n th ng ñòi h i r t nhi u th i gian c n thi t ñ có th gi i ñáp ñư c (th m chí các cách truy n th ng không th gi i ñư c). Nó có th tìm th y ñư c nh ng thông tin c c kỳ h u ích mà r t d b b qua ho c không xem xét ñ n ñ có th d ñoán nh ng xu th /hành ñ ng x y ra trong tương lai. Quá trình khai phá d li u là quá trình phát hi n m u trong ñó gi i thu t khai phá d li u tìm ki m các m u ñáng quan tâm theo d ng xác ñ nh như các lu t, cây phân l p, h i quy, phân nhóm, v.v… II.GI I THI U: S phát tri n c a công ngh thông tin và vi c ng d ng công ngh thông tin trong nhi u lĩnh v c c a ñ i s ng, kinh t xã h i trong nhi u năm qua cũng ñ ng nghĩa v i lư ng d li u ñã ñư c các cơ quan thu th p và lưu tr ngày m t tích lu nhi u lên. H lưu tr các d li u này vì cho r ng trong nó n ch a nh ng giá tr nh t ñ nh nào ñó. Tuy nhiên, theo th ng kê thì ch có
- m t lư ng nh c a nh ng d li u này (kho ng t 5% ñ n 10%) là luôn ñư c phân tích, s còn l i h không bi t s ph i làm gì ho c có th làm gì v i chúng nhưng h v n ti p t c thu th p r t t n kém v i ý nghĩ lo s r ng s có cái gì ñó quan tr ng ñã b b qua sau này có lúc c n ñ n nó. M t khác, trong môi trư ng c nh tranh, ngư i ta ngày càng c n có nhi u thông tin v i t c ñ nhanh ñ tr giúp vi c ra quy t ñ nh và ngày càng có nhi u câu h i mang tính ch t ñ nh tính c n ph i tr l i d a trên m t kh i lư ng d li u kh ng l ñã có. V i nh ng lý do như v y, các phương pháp qu n tr và khai thác cơ s d li u truy n th ng ngày càng không ñáp ng ñư c th c t ñã làm phát tri n m t khuynh hư ng k thu t m i ñó là K thu t phát hi n tri th c và khai phá d li u .V i nh ng ưu ñi m ñó, khai phá d li u ñang ñư c áp d ng m t cách r ng rãi trong nhi u lĩnh v c kinh doanh và ñ i s ng khác nhau: marketing, tài chính, ngân hàng và b o hi m, khoa h c, y t , an ninh, internet… K thu t phát hi n tri th c và khai phá d li u ñã và ñang ñư c nghiên c u, ng d ng trong nhi u lĩnh v c khác nhau các nư c trên th gi i, t i Vi t Nam k thu t này tương ñ i còn m i m tuy nhiên cũng ñang ñư c nghiên c u và d n ñưa vào ng d ng. III. PHƯƠNG PHÁP NGHIÊN C U : Quá trình x lý khai phá d li u b t ñ u b ng cách xác ñ nh chính xác v n ñ c n gi i quy t. Sau ñó s xác ñ nh các d li u liên quan dùng ñ xây d ng gi i pháp. Bư c ti p theo là thu th p các d li u có liên quan và x lý chúng thành d ng sao cho gi i thu t khai phá d li u có th hi u ñư c. V lý thuy t thì có v r t ñơn gi n nhưng khi th c hi n thì ñây th c s là m t quá trình r t khó khăn, g p ph i nhi u vư ng m c như: các d li u ph i ñư c sao ra nhi u b n, qu n lý các t p d li u, ph i l p ñi l p l i nhi u l n toàn b quá trình (n u mô hình d li u thay ñ i),… S là quá c ng k nh v i m t gi i thu t khai phá d li u n u ph i truy c p vào toàn b n i dung c a cơ s d li u và làm nh ng vi c như trên. M t khác ñi u này cũng không c n thi t. Có r t nhi u các gi i thu t khai phá d li u th c hi n d a trên nh ng th ng kê tóm t t khá ñơn gi n c a cơ s d li u, khi mà toàn b thông tin trong cơ s d li u là quá dư th a ñ i v i m c ñích c a vi c khai phá d li u. cũng gi ng như các b n hãy hình dung th quá trình tìm ki m c a Google, nó tìm ki m r t thông minh và nhanh chóng ñó là ưu ñi m c a quá trình x lý này. Bư c ti p theo là ch n thu t toán khai phá d li u thích h p và th c hi n vi c khai phá d li u ñ tìm ñư c các m u có ý nghĩa dư i d ng bi u di n tương ng v i các ý nghĩa ñó (thư ng thì ñư c bi u di n dư i d ng các lu t x p lo i, cây quy t ñ nh, phát sinh lu t, bi u th c h i quy,…). Ta hãy hình dung nó ñư c th c hi n tu n t như sơ ñ sau ñây :
- ð u tiên nói ñ n các phương pháp ta ph i k ñ n nh ng phương pháp sau : 1. Phương pháp quy n p : Phương pháp quy n p suy ra các thông tin ñư c sinh ra t cơ s d li u. Có nghĩa là nó t tìm ki m, t o m u và sinh ra tri th c ch không ph i b t ñ u v i các tri th c ñã bi t trư c. Các thông tin mà phương pháp này ñem l i là các thông tin hay các tri th c c p cao di n t v các ñ i tư ng trong cơ s d li u. Phương pháp này liên quan ñ n vi c tìm ki m các m u trong cơ s d li u. Ngoài ra khi nói quy n p thì ph i nói ñ n s d ng cây quy t ñ nh và t o lu t. 2. Cây quy t ñ nh và lu t : Cây quy t ñ nh: Cây quy t ñ nh là m t mô t tri th c d ng ñơn gi n nh m phân các ñ i tư ng d li u thành m t s l p nh t ñ nh. Các nút c a cây ñư c gán nhãn là tên các thu c tính, các c nh ñư c gán các giá tr có th c a các thu c tính, các lá miêu t các l p khác nhau. Các ñ i tư ng ñư c phân l p theo các ñư ng ñi trên cây, qua các c nh tương ng v i giá tr c a thu c tính c a ñ i tư ng t i lá. T o lu t: Các lu t ñư c t o ra nh m suy di n m t s m u d li u có ý nghĩa v m t th ng kê. Các lu t có d ng N u P thì Q v i P là m nh ñ ñúng v i ph n d li u trong cơ s d li u, Q là m nh ñ d ñoán. Ví d ta có m t m u phát hi n ñư c b ng phương pháp t o lu t: N u giá 1 cân táo th p hơn 5000 ñ ng thì s lư ng táo bán ra s tăng 5%. Nh ng lu t như th này ñư c s d ng r t r ng rãi trong vi c miêu t tri th c trong h chuyên gia. Chúng có thu n l i là d hi u ñ i v i ngư i s d ng. Cho ñ n nay, ñã có r t nhi u gi i thu t suy di n s d ng các lu t và cây quy t ñ nh ñư c áp d ng trong máy h c và trong th ng kê. 3. Các phương pháp phân l p và h i quy phi tuy n:
- phương pháp này bao g m m t h các k thu t d ñoán ñ làm cho các k t h p tuy n tính và phi tuy n c a các hàm cơ b n (hàm sygmoid, hàm spine, hàm mành, hàm ña th c) phù h p v i các k t h p c a các giá tr bi n vào. Các phương pháp thu c lo i này như m ng neuron truy n th ng, phương pháp mành thích nghi,… do các nhà khoa h c (Freidman 1989, Cheng & Titterington 1994, Elder & Pregibon). 4. M ng neuron: M ng neuron là m t ti p c n tính toán m i liên quan ñ n vi c phát tri n các c u trúc toán h c v i kh năng l c. Các phương pháp là k t qu c a vi c nghiên c u mô hình h c c a h th ng th n kinh con ngư i. M ng neuron có th ñưa ra ý nghĩa t các d li u ph c t p ho c không chính xác và có th ñư c s d ng ñ chi t xu t các m u và phát hi n ra các xu hư ng quá ph c t p mà con ngư i cũng như các k thu t máy tính khác không th phát hi n ñư c.Khi ñ c p ñ n khai thác d li u, ngư i ta thư ng ñ c p nhi u ñ n m ng neuron. Tuy m ng neuron có m t s h n ch gây khó khăn trong vi c áp d ng và tri n khai nhưng nó cũng có nh ng ưu ñi m ñáng k . M t trong s nh ng ưu ñi m ph i k ñ n c a m ng neuron là kh năng t o ra các mô hình d ñoán có ñ chính xác cao, có th áp d ng ñư c cho r t nhi u lo i bài toán khác nhau ñáp ng ñư c các nhi m v ñ t ra c a khai phá d li u như phân l p, phân nhóm, mô hình hoá, d báo các s ki n ph thu c vào th i gian,… Các y u t c n ph i xác ñ nh khi thi t k m ng neuron : - Mô hình m ng. - M ng c n có bao nhiêu nút. Khi nào thì vi c h c d ng ñ tránh b quá t i. - Ngoài ra còn các y u t quan tr ng khác khi xây d ng m ng nueron. 5. Thu t gi i di truy n: Gi i thu t di truy n, nói theo nghĩa r ng là mô ph ng l i h th ng ti n hoá trong t nhiên, chính xác hơn ñó là các gi i thu t ch ra t p các cá th ñư c hình thành, ñư c ư c lư ng và bi n ñ i như th nào. Nó ñư c s d ng r t r ng rãi trong vi c t i ưu hoá các k thu t khai phá d li u. Trên ñây ch là m t s k thu t ph bi n ñư c s d ng trong DataMining. Ngoài ra còn m t s k thu t n a. mà nhóm chưa ñ c p t i. IV. K T QU D KI N : Nh s ra ñ i c a DataMining mà ñã có nhi u mô hình thông minh ñã ra ñ i như robot thông minh có kh năng t ñ ng dò tìm. Trong tương lai lĩnh v c Data Mining s không còn m i m ñ i v i vi t nam, ñ ng th i s ra ñ i hàng lo t các c máy siêu nhiên vi t nam cũng như trên th gi i, nó có kh năng làm nh ng ñi u mà ch có trong mơ con ngư i m i làm ñư c.
- V. K T LU N : Bài vi t này m i ch là bư c ñ u ñ chúng ta hi u thêm v DataMining, th t ra thì nó v n còn khá sơ xài, còn khá chung chung chưa chi ti t l m. Nhưng nó cũng ñ ñ các b n hi u ñư c m t ph n nào ñó v Data Mining và nh ng ng d ng t m quan tr ng c a nó. Bên c nh ñó, như ñã trình bày như trên chúng ta th y có r t nhi u các phương pháp khai phá d li u. M i phương pháp có nh ng ñ c ñi m riêng phù h p v i m t l p các bài toán v i các d ng d li u và mi n d li u. v i xu hư ng phát tri n không ng ng c a th i ñ i, ñ có m t s n ph m như mong mu n không ph i là khó. Tuy nhiên ñ t n t i ñư c thì chúng ta c n có nh ng s n ph m có nh ng tính năng thông minh làm thõa mãn nhu c u c a ngư i dùng. T t c ñi u này chúng ta ph i k ñ n công lao to l n c a Data Mining. Ngoài ra còn nói thêm, Vi t nam chúng ta h u như lĩnh v c này chưa ñư c ng d ng r ng rãi l m. m t lý do ñơn gi n ñó là s n ph m c a chúng ta chưa có quy mô chưa l n, lưu tr còn nh h p. Trong tương lai không xa Data Mining s tr nên ph bi n Vi t nam, và s có nh ng s n ph m x ng t m v i các s n ph m trên th gi i. VI. TÀI LI U THAM KH O : 1. http://en.wikipedia.org/wiki/Data_mining. 2. Ebook.edu.vn 3. Ddth.com 4. ng d ng và khai thác d li u c a (ths Nguy n hoàng Tú Anh). 5. M t s ngu n khác…
ADSENSE
CÓ THỂ BẠN MUỐN DOWNLOAD
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn