Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng
lượt xem 26
download
Data mining là quá trình tìm kiếm các mẫu mới, những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu lớn. Những công cụ data mining có thể phát hiện những xu hướng trong tương lai, các tri thức mà data mining mang lại cho các doanh nghiệp có thể ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để xử lý. Với ưu điểm trên, Data mining đã chứng tỏ được tính hữu dụng của nó trong môi trường...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng
- -1- B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG TRƯƠNG TI N DƯ NG NGHIÊN C U NG D NG PHÂN L P D LI U TRONG QU N LÝ KHÁCH HÀNG TRÊN M NG Chuyên ngành : KHOA H C MÁY TÍNH Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2012
- -2- Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS. PHAN HUY KHÁNH Ph n bi n 1: TS. NGUY N TR N QU C VINH Ph n bi n 1: PGS.TS. LÊ M NH TH NH Lu n văn ñư c b o v t i H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 03 tháng 03 năm 2012 Có th tìm hi u lu n văn t i: • Trung tâm Thông tin - H c li u, Đ i h c Đà N ng • Trung tâm H c li u, Đ i h c Đà N ng
- -3- M Đ U 1. Lý do ch n ñ tài Trong kinh doanh y u t khách hàng quy t ñ nh ñ n s thành b i c a doanh nghi p, khi thông tin ñang tr thành y u t quy t ñ nh trong kinh doanh thì v n ñ tìm ra các thông tin h u ích trong các CSDL kh ng l ngày càng tr thành m c tiêu quan tr ng c a các doanh nghi p. Vì v y m t trong nh ng gi i pháp h u hi u nh t nh m kh c ph c các v n ñ nêu trên là ti n hành tri n khai xây d ng m t h th ng khai phá d li u (KPDL), khai thác qu n lý ngu n khách hàng nói trên. Đó là m t h th ng ñư c thi t k giúp cho lãnh ñ o doanh nghi p n m b t ñư c ngu n thông tin khách hàng h u ích và các tri th c chi t xu t ñư c t CSDL trên s là m t ngu n tài li u h tr cho lãnh ñ o xây d ng chi n lư c kinh doanh. Chính vì nh ng lý do nêu trên, tôi quy t ñ nh ch n ñ tài “Nghiên c u ng d ng k thu t phân l p d li u trong qu n lý khách hàng trên m ng”. 2. M c ñích nghiên c u Nghiên c u phương pháp phân l p d li u trong KPDL, các thu t toán liên quan ñ n quy n p cây quy t ñ nh, tìm hi u các ngôn ng mã l nh siêu tìm ki m Regurlation Expressions,... 3. Đ i tư ng và ph m vi nghiên c u Đ i tư ng nghiên c u Tìm hi u các website TMĐT bán hàng tr c tuy n v i s lư ng truy c p và giao d ch l n phong phú, ña d ng có th gây khó khăn trong công tác qu n lý ngu n khách hàng.
- -4- Ph m vi nghiên c u ng d ng các thu t toán c a k thu t phân l p d li u ñ xây d ng ph c v công vi c khai thác ngu n khách hàng. 4. Phương pháp nghiên c u D a trên th c tr ng các website TMĐT hi n có ñ xây d ng ng d ng qu n lý khách hàng. 5. Ý nghĩa khoa h c và th c ti n Ý nghĩa khoa h c Đ xu t gi i pháp ng d ng k thu t phân l p d li u vào trong khai thác qu n lý ngu n khách hàng trên m ng. Ý nghĩa th c ti n S n ph m là h th ng h tr ñ c l c, k p th i và có ñ hi u qu cao cho các doanh nghi p thu th p ñư c thông tin và ñưa ra các chính sách phù h p trong ho t ñ ng kinh doanh c a ñơn v . 6. C u trúc c a lu n văn N i d ng chính c a lu n văn này ñư c chia thành ba chương v i n i dung như sau: Chương 1. T ng quan v khai phá d li u Chương 2. Gi i pháp phân l p d li u b ng k thu t quy n p cây quy t ñ nh. Chương 3. Xây d ng h th ng và th nghi m.
- -5- CHƯƠNG 1. T NG QUAN V KHAI PHÁ D LI U 1.1. Gi i thi u v khai phá d li u 1.1.1. Khái ni m v khai phá d li u Khai phá d li u (Data Mining) là quá trình kh o sát và phân tích m t kh i lư ng l n các d li u ñư c lưu tr trong các CSDL, kho d li u,…ñ t ñó trích xu t ra các thông tin quan tr ng, có giá tr ti m n bên trong [6][10]. 1.1.2. Nh ng l i th và thách th c c a khai phá d li u 1.1.2.1. L i th KPDL là m t lĩnh v c liên quan t i nhi u ngành h c khác như: h cơ s d li u, th ng kê xác su t, tr c quan hoá… Thêm vào ñó KPDL còn có th áp d ng các k thu t như m ng nơron, lý thuy t t p thô, t p m , bi u di n tri th c… 1.1.2.2. Thách th c Nh ng h n ch c a các thu t toán: H u h t các thu t toán ñ u khá là t ng quát, nó sinh ra nhi u lu t. M c dù các lu t sinh ra ña s ñ u h u ích nhưng ta v n ph i ño ñ ñáng quan tâm c a các m u nên v n c n s can thi p c a các chuyên gia nghi p v . 1.1.3. Nh ng nhu c u v khai phá d li u trong kinh doanh Phân lo i khách hàng ñ t ñó phân ñ nh th trư ng, th ph n. Tăng s c c nh tranh, làm th nào ñ gi ñư c khách hàng cũ và thu hút ñư c thêm nhi u khách hàng m i. Phân tích r i ro trư c khi ra các quy t ñ nh quan tr ng trong chi n lư c ho t ñ ng s n xu t kinh doanh. Ra các báo cáo giàu thông tin … T t c các nhu c u xã h i trên ñòi h i c n ph i có m t phương th c, công c nào ñó h tr bên c nh các chuyên gia kinh t . Và KPDL là m t chìa khoá h tr gi i quy t v n ñ nêu trên.
- -6- 1.1.4. Khai phá d li u trong m t s lĩnh v c quan tr ng khác 1.2. Các phương pháp chính trong khai phá d li u 1.2.1. Phân lo i Phân lo i là t ch c d li u trong các l p cho trư c, còn ñư c g i là h c có quan sát. Phân lo i s d ng các nhãn l p cho trư c ñ s p x p các ñ i tư ng. Trong ñó có m t t p hu n luy n g m các ñ i tư ng ñã ñư c k t h p v i các nhãn ñã bi t. M t s thu t toán dùng trong bài toán phân lo i như: cây quy t ñ nh, m ng nơron, Naive Bayes. 1.2.2. Phân c m Phân c m là k thu t KPDL tương t như phân lo i d li u. Tuy nhiên, s phân nhóm d li u là quá trình h c không ñư c giám sát. 1.2.3. Lu t k t h p 1.2.4. H i quy 1.2.5. Phân tích chu i 1.3. Các bư c xây d ng m t gi i pháp v khai phá d li u 1.3.1. Mô hình lu ng d li u Khai phá d li u ng d ng OLTP DW OLAP X lý giao d ch Kho d li u X lý phân tích tr c tuy n tr c tuy n Hình 1.1 Mô hình lu ng d li u
- -7- 1.3.2. Vòng ñ i c a m t h th ng khai phá d li u Bư c 1: Xác ñ nh m c tiêu bài toán. Bư c 2: Thu th p d li u. Bư c 3: Làm s ch d li u và chuy n ñ i d li u. Bư c 4: Xây d ng mô hình. Bư c 5: Đánh giá mô hình hay ñánh giá m u. Bư c 6: Báo cáo. Bư c 7: D ñoán. Bư c 8: Tích h p vào ng d ng. Bư c 9: Qu n lý mô hình. 1.3.3. Ki n trúc c a m t h th ng khai phá d li u ñi n hình Giao di n ñ h a ngư i dùng Đánh giá m u tri th c Cơ s Máy khai phá d li u Máy ch CSDL / Kho d li u Làm s ch d li u L c d li u d li u Kho Cơ s Hình 1.2 Ki n trúc c a m t h th ng khai phá d li u ñi n hình
- -8- 1.3.3.1. Phương pháp ñánh giá ñ chính xác c a mô hình phân l p Trong phương pháp holdout, d li u dưa ra ñư c phân chia ng u nhiên thành 2 ph n là: t p d li u ñào t o và t p d li u ki m tra. Thông thư ng 2/3 d li u c p cho t p d li u ñào t o, ph n còn l i cho t p d li u ki m tra. Trong phương pháp k-fold cross validation t p d li u ban ñ u ñư c chia ng u nhiên thành k t p con (fold) có kích thư c x p x nhau S1, S2, …, Sk. Quá trình h c và test ñư c th c hi n k l n. T i l n l p th i, Si là t p d li u ki m tra, các t p còn l i h p thành t p d li u ñào t o. 1.3.3.2. V n ñ qu n lý KH trên m ng và s liên quan ñ n DM KPDL giúp lãnh ñ o các doanh nghi p xác ñ nh ñư c các KH m c tiêu, phân lo i ñ t ñó h tr các doanh nghi p có m t chi n lư c qu ng cáo, ti p th t t. T ng h p các tri th c này lãnh ñ o có th lên k ho ch ho t ñ ng, s n xu t, kinh doanh m t cách thu n ti n hơn nh m gi m b t th i gian th ng kê, tìm hi u th hi u KH. Ch ng h n chi n lư c qu ng cáo cho các ñ i tư ng KH khác nhau… 1.3.4. So sánh gi a các k thu t khai phá d li u 1.3.4.1. K thu t khai phá d li u mô t M c tiêu chính c a phương pháp phân c m d li u là nhóm các ñ i tư ng tương t nhau trong t p d li u vào các c m sao cho các ñ i tư ng thu c cùng m t l p là tương ñ ng còn các ñ i tư ng thu c các c m khác nhau s không tương ñ ng. 1.3.4.2. K thu t khai phá d li u d ñoán M c tiêu c a phương pháp phân l p d li u là d ñoán nhãn l p cho các m u d li u. Không gi ng như phân c m d li u, phân l p d li u là h c b ng ví d , trong khi phân c m d li u có th coi là m t cách h c b ng quan sát.
- -9- CHƯƠNG 2. GI I PHÁP PHÂN L P D LI U TRONG QU N LÝ KHÁCH HÀNG TRÊN M NG 2.1. Bài toán phân l p d li u 2.1.1. Gi i thi u Phân l p là m t ti n trình x lý nh m x p các m u d li u hay các ñ i tư ng vào m t trong các l p ñã ñư c ñ nh nghĩa trư c. 2.1.2. Các bư c chính ñ gi i quy t bài toán phân l p Phân l p d li u g m hai bư c x lý chính: Bư c 1: H c, m c ñích c a bư c này là xây d ng m t mô hình xác ñ nh m t t p các l p d li u. Bư c 2 : Ki m tra và ñánh giá, bư c này s d ng mô hình phân l p ñã ñư c xây d ng bư c 1 vào vi c phân l p. 2.1.3. Các cơ s d li u ph c v cho phân l p d li u 2.1.3.1. Cơ s d li u giao tác CSDL giao tác là t p h p nh ng b n ghi giao d ch, trong ña s các trư ng h p chúng là nh ng b n ghi các d li u ho t ñ ng c a doanh nghi p, t ch c. 2.1.3.2. Cơ s d li u ña phương ti n KPDL web thông thư ng ñư c chia thành ba ph m trù chính: Khai phá cách dùng web, khai phá c u trúc web và khai phá n i dung web. 2.1.3.3. Cơ s d li u Hypertext HyperText là lo i d li u ph bi n hi n nay, và cũng là lo i d li u có nhu c u tìm ki m và phân l p r t l n.
- -10- 2.2. Phân l p b ng phương pháp quy n p cây quy t ñ nh 2.2.1. Khái ni m cây quy t ñ nh Cây quy t ñ nh là m t flow-chart gi ng c u trúc cây, nút bên trong bi u th m t ki m tra trên m t thu c tính, nhánh bi u di n ñ u ra c a ki m tra, nút lá bi u di n nhãn l p. 2.2.2. Đánh giá cây quy t ñ nh trong lĩnh v c khai phá d li u 2.2.2.1. S c m nh c a cây quy t ñ nh Kh năng sinh ra các quy t c hi u ñư c, kh năng th c thi trong nh ng lĩnh v c hư ng quy t c, d dàng tính toán trong khi phân l p,… 2.2.2.2. Đi m y u c a cây quy t ñ nh D xãy ra l i khi có quá nhi u l p, Chi phí tính toán ñ t ñ ñào t o 2.2.3. Xây d ng cây quy t ñ nh Quá trình xây d ng cây quy t ñ nh g m hai giai ño n: Giai ño n th nh t phát tri n cây quy t ñ nh b t ñ u t g c, ñ n t ng nhánh và phát tri n quy n p theo cách th c chia ñ tr cho t i khi ñ t ñư c cây quy t ñ nh v i t t c các lá ñư c gán nhãn l p. Giai ño n th hai c t, t a b t các cành nhánh trên cây quy t ñ nh. 2.2.4. Thu t toán quy n p cây quy t ñ nh Input : nh ng m u h c ñư c bi u th b ng nh ng thu c tính riêng bi t, m t t p các thu c tính ñ c trưng và danh sách các thu c tính. Output : m t cây quy t ñ nh. 1) Kh i t o m t node N; 2) if t t c các m u ñ u thu c vào cùng m t l p C then 3) return node N, ñư c xem là 1 node lá và ñ t tên là l p C;
- -11- 4) if danh sách thu c tính là r ng then 5) return node N, là m t node lá ñư c ñ t tên l p là l p chung nh t trong các m u ; 6) Ch n thu c tính th , là m t thu c tính trong danh sách thu c tính mà có ñ ño cao nh t; 7) Đ t tên node N v i tên c a thu c tính th ; 8) V i m i giá tr ai ñã bi t c a thu c tính th 9) T o ra 1 nhánh t node N cho ñi u ki n thu c tính th = ai; 10) Đ t Si là m t t p các m u l y trong các m u ban ñ u v i thu c tính th = ai; 11) if Si là r ng then 12) T o ra m t node lá trên cây quy t ñ nh, ñư c ñ t tên l p là l p chung nh t c a h u h t các m u ; 13) else thêm vào m t node là cây k t qu c a thu t toán t o cây v i tham s ñ u vào 2.2.5. Rút trích lu t phân l p t cây quy t ñ nh Tri th c trên cây quy t ñ nh có th ñư c rút trích và bi u di n thành m t d ng lu t phân l p IF - THEN. Khi ñã xây d ng ñư c cây quy t ñ nh, ta có th d dàng chuy n cây quy t ñ nh này thành m t t p các lu t phân l p tương ñương, m t lu t tương ñương v i m t ñư ng ñi t g c ñ n node lá. 2.3. Tìm hi u các công ngh ng d ng 2.3.1. Gi i thi u thu t toán cây quy t ñ nh Microsoft Cây quy t ñ nh c a Microsoft là thu t toán cây quy t ñ nh lai ghép ñư c phát tri n b i nhóm nghiên c u c a Microsoft. Nó h tr c hai nhi m v phân lo i và h i quy.
- -12- 2.3.2. Data Mining eXtensions DMX - Data Mining eXtensions là m t ngôn ng truy v n khai phá d li u ñư c ñ nh nghĩa trong OLE DB dành cho khai phá d li u, ñư c k th a h u h t các khái ni m quan h và c u trúc c a nó d a trên ngôn ng truy v n SQL. 2.3.3. Gi i thi u v Regular Expressions Regular Expression (regex) là m t chu i miêu t m t b các chu i khác, t p h p các phép x lý văn b n tìm ki m, so kh p, c t ghép,… theo nh ng quy t c cú pháp nh t ñ nh. Regex làm vi c d a trên nh ng m u văn b n theo các quy t c quy ñ nh s n trư c. 2.3.4. Gi i thi u v l p trình tương tác Windows services Windows services [12] cung c p phương ti n cho application logic ch y liên t c trên máy tính, thông thư ng là vi c cung c p ñi u khi n thi t b ho c các d ch v h ñi u hành. Windows services là m t ng d ng ch y trên máy ch ho c máy tr m và cung c p nh ng ch c năng mà s di n ti n c a nó không c n s tương tác tr c ti p c a ngư i dùng. 2.4. Kh o sát hi n tr ng 2.4.1. Phân tích quy trình, ho t ñ ng khách hàng TMĐT Đ th c hi n ñăng ký thành viên ho c ñăng tin, giao d ch mua bán trên website TMĐT, khách hàng ph i ñăng ký xác nh n các thông tin c a KH mà dư ng như các website thương m i ñi n t ñ u yêu c u ñó là: email, tên khách hàng, ñi n tho i, ñ a ch ,… Các hình th c giao d ch trong thương m i ñi n t . TMĐT ñư c phân chia thành m t s lo i như B2B, B2C, C2C d a trên thành ph n tham gia ho t ñ ng thương m i. Đ c ñi m c a thương m i ñi n t
- -13- Tính cá nhân hoá, ñáp ng t c th i, giá c linh ho t, các “ñi p viên thông minh” 2.4.2. Th c tr ng khách hàng thương m i ñi n t K t qu kh o sát th ng kê khách hàng giao d ch t website TMĐT http://www.raovat30s.com B ng 2.1 B ng th ng kê KH giao d ch TMĐT t i m t th i ñi m Nhu Ngày Tên KH Đ a ch Đi n tho i Email Mô t cu c p nh t H i Nam TPHCM 0972105943 tinh.hn@gmail.com mua máy tính 14/09/2011 Ngân Hà N i 0974386284 thaong@yahoo.com mua máy tính 14/09/2011 Ti n Hà N i 09761383 53 tien@gmail.com bán Laptop 14/09/2011 Ti n Bình Đà N ng 0983552518 tnbinh@gmail.com mua Desktop 14/09/2011 Hà Đà N ng 0982734515 hant@yahoo.com mua Laptop 14/09/2011 …. …. …. …. …. …. …. B ng th ng kê k t qu kh o sát s lư ng KH quan tâm ñ n nh ng s n ph m, d ch v trong m t th i ñi m nh t ñ nh. B ng 2.2 B ng th ng kê lư ng KH quan tâm ñ n s n ph m Nhu Ngày SL Tên KH Đ a ch Đi n tho i Email c u Mô t th ng kê xem H i Nam TPHCM 0972105943 tinh.hn@gmail.com mua máy tính14/09/2011 10534 Th o Ngân Hà N i 0974386284 thaong@yahoo.com mua máy tính14/09/2011 11534 Ti n Hà N i 097613 3 53 tien@gmail.com bán laptop 14/09/2011 9534 Ti n Bình Đà N ng 0983552518 tienbinh@gmail.commua desktop 14/09/2011 7534 Hà Đà N ng 0982734515 hant@yahoo.com mua laptop 14/09/2011 12500 … … … … … … … … Hàng ngày có r t nhi u thông tin ñư c c p nh t trên các website TMĐT này bao g m c thư t , các t p văn b n, các cơ s d li u, các b n tính, các hình nh, các bi u m u,... Nên r t khó khăn
- -14- cho doanh nghi p khi mu n tìm ki m, x lý khai thác ngu n thông tin c a khách hàng, m t r t nhi u th i gian và d b sót. 2.4.3. Nhu c u qu n lý khách hàng Trên th c t hi n có r t nhi u website TMĐT ñang ho t ñ ng v i s lư ng giao d ch c a KH r t l n. Tuy nhiên doanh nghi p chưa có gi i pháp ñ qu n lý ngu n khách hàng này sao cho có hi u qu . Vi c ng d ng các k thu t KPDL nh m tìm ki m, khai thác t ñ ng s giúp cho các doanh nghi p luôn có ngu n KH mua bán d i dào mà không c n ph i b nhi u công s c và ngu n nhân l c. 2.4.4. Gi i pháp xây d ng và k ch b n h th ng Gi i pháp xây d ng h th ng Xây d ng chương trình có b l p l ch ñ t ñ ng ch y trên máy tính như m t services c a h ñi u hành windows. K ch b n s d ng h th ng Ti n hành tri n khai cho máy h c v i t p d li u hu n luy n ñư c xây d ng b ng các mã l nh và trích l c t ngu n d li u web. Sau quá trình h c, so kh p ñư c h th ng s tr v k t qu dư i d ng b ng v i các trư ng tương ng. Ph n th nh t liên quan ñ n vi c th c hi n gi i thu t h c m u. Ph n th hai ch ñơn gi n là ph n áp d ng c a các d li u ñã tìm ra. 2.4.5. Tri n khai ng d ng h c quy n p cây quy t ñ nh 2.4.5.1. Xây d ng các m u h c ng d ng các mã l nh siêu tìm ki m ñ xây d ng các m u trong ñ tài, như xây d ng m t s m u sau: 2.4.5.2. Thu t toán quy n p cây quy t ñ nh d a vào d li u h c Input : nh ng m u h c ñư c bi u th b ng nh ng thu c tính riêng bi t, m t t p các thu c tính ñ c trưng. Output : m t cây quy t ñ nh.
- -15- CHƯƠNG 3 XÂY D NG H TH NG VÀ TH NGHI M 3.1. Gi i thi u bài toán 3.1.1. Tính ch t Thông qua website TMĐT http://www.raovat30s.com/, Phân tích các Weblog ñ khám phá ra các m u truy c p c a ngư i dùng trong trang Web. 3.1.2. M c tiêu D a vào d li u giao d ch thu th p ñư c, h th ng s khai thác, trích rút ñư c các thông tin c n thi t c a KH. 3.1.3. Yêu c u Đ u vào: C p nh t danh sách các website TMĐT, ñ c n i dung html c a các URL. Đ u ra: B d li u phân l p, ch a ñ ng thông tin email, ñi n tho i, tên, ñ a ch và nhu c u c a khách hàng,… 3.2. Gi i pháp k thu t 3.2.1. T ng quan Các trang TMĐT khi di n ra các ho t ñ ng giao d ch rao v t, mua, bán hàng, ñăng ký thành viên,…thư ng th hi n các thông tin có tính c u trúc như: email, ñi n tho i, tên KH, nhu c u, ñ a ch ,… Regular expressions c a microsoft cung c p gi i pháp tìm ki m theo c u trúc r t m nh và hi u qu . K thu t này h tr m nh m cho vi c x lý chu i như tìm ki m, so kh p c t ghép…
- -16- 3.2.2. Mô hình gi i pháp 3.2.2.1. Mô hình gi i pháp t ng th Data base 1 Robot 3 Server Internet Khai phá (WWW) d li u 2 4 5 Ph n m m ng d ng User Hình 3.1 Mô hình gi i pháp t ng th 3.2.2.2. Mô hình gi i pháp Robot khai phá d li u 2 T p h p url chưa khai 8 phá Data base Internet Server (WWW D li u: ) 3 Chương HTML, 1 văn b n, trình Đi u khi n hình nh,.. M u khai phá d li u 5 Ki m tra TT 7 6 Hình 3.2 Mô hình gi i pháp Robot khai phá d li u
- -17- Trong ñó: (1): H c m u KPDL. Các m u này ñư c xây d ng theo yêu. (2): Danh sách các url s KPDL. DS thư ng xuyên ñư c c p nh t. (3): D li u tr v sau khi khai phá m t url có c u trúc. (4): N u d li u khai phá ñư c t m t url không phù h p v i các m u thì quay l i bư c (2) (5): Url khai phá phù h p v i m t trong s các m u. (6): N u URL này ñã t n ho c các thông tin khai phá ñư c t url này ñã t n t i trong CSDL thì quay l i bư c (2). (7): N u k t qu khai phá t URL phù h p v i các m u và chưa có trong CSDL thì ñưa vào CSDL. (8): CT Đi u khi n k t thúc phiên làm vi c khi t t c các website ñ u ñư c duy t qua. Ngư c l i thì ti p t c bư c (2). 3.2.2.3. Mô hình gi i pháp ph n m m ng d ng Tìm ki m KH Data base Server Phân lo i KH Đánh giá KH ti m năng G i qu ng bá KH Hình 3.3 Mô hình gi i pháp ph n m m ng d ng 3.2.3. Các ch c năng chính c a h th ng Robot khai phá d li u: Xây d ng m u: Xây d ng và h c m u các nhóm url c n khai phá.
- -18- Download m t word v máy tính: Ch c năng dư i d ng mã l nh cho phép download d li u c a m t url v máy tính ñ phân tích m u. Chuy n d li u sang UTF-8 Ch c năng này dư i d ng mã l nh dùng ñ chuy n các d li u dư i d ng mã ký t sang Unicode UTF-8. L p danh sách url t nhóm url: Ch c năng này dư i d ng mã l nh dùng ñ phân tích chi ti t các url t nhóm url và ñưa vào danh sách ñ khai phá d li u. Ki m tra s t n t i CSDL: Ch c năng này dư i d ng mã l nh dùng ñ ki m tra url ñã ñư c khai phá chưa. Khai phá: Ch c năng này dư i d ng mã l nh dùng ñ KPDL theo m u ñã l p. Đưa d li u ñã khai phá vào CSDL Ch c năng này dư i d ng mã l nh dùng ñ chèn các d li u ñã khai phá ñư c vào CSDL. Đ t l ch khai phá d li u: Ch c năng dùng ñ t l ch ñ t ñ ng KPDL theo th i gian l p trư c. Thư ng trú Robot khai phá như Windows service: Ch c năng cho phép cài ñ t Robot KPDL ch y thư ng trú như m t Windows service. Ph n m m ng d ng khai thác d li u Phân lo i thông tin: Ch c năng này cho phép phân lo i các thông tin khai phá ñư c theo các tiêu chí:
- -19- Tìm ki m thông tin: Tìm ki m thông tin khai phá ñư c qua các trư ng d li u Đánh giá khách hàng ti m năng: Đánh giá ti m năng KH d a vào thông tin khai phá ñư c qua các trư ng d li u 3.3. Xây d ng mô hình phân l p d li u tr c quan 3.3.1. Thi t k CSDL v t lý v i MSSQL Server Các b ng d li u s d ng trong chương trình 1) Thongtinkhaipha M c ñích: Lưu các thông tin khai phá ñư c t website TMĐT B ng 3.1 B ng d li u thông tin khai phá Trư ng Ki u d li u NULL Mô t Matin int Không Trư ng khóa Tieude nvarchar(100) Có Tiêu ñ c a url khai phá Email varchar(50) Có Email ngư i ñăng tin Dienthoai nvarchar(50) Có Đi n tho i ngư i ñăng tin Hoten nvarchar(50) Có H tên ngư i ñăng tin Diachi nvarchar(50) Có Đ a ch ngư i ñăng tin Tinhthanh nvarchar(20) Có T nh thành c n mua bán,…. Nhucau nvarchar(20) Có Nhu c u mua, bán,… Gia nvarchar(50) Có Giá c Url varchar(160) Có Url g c khai phá v Mota nvarchar(160) Có Mô t n i dung c a url Ngay datetime Có Ngày khai phá url Ngaylammoi datetime Có Ngày c p nh t, làm m i url do ngư i ñăng tin t c p nh t Cophi int Có =1 n u ñây là tin VIP (có phí) và =0 thì ngư c l i
- -20- 2) Urltuchoi M c ñích: Lưu tr các url ñã duy t qua nhưng không th a mãn B ng 3.2 B ng d li u URL t ch i Trư ng Ki u d li u NULL Mô t Matin int Không Trư ng khóa Link nvarchar(160) Có Link url g c không th a mãn 3) URLdaduyet M c ñích: lưu các url ñã duy t qua và th a mãn các t p m u. B ng 3.3 B ng d li u URL ñã duy t Trư ng Ki u d li u NULL Mô t Matin int Không Trư ng khóa Link nvarchar(160) Có Link url g c không th a mãn Tieude nvarchar(100) Có Tiêu ñ c a url 4) Taphopmau M c ñích: Lưu các tên và giá tr các m u B ng 3.4 B ng d li u t p h p m u Tên c t Ki u d li u NULL Ghi chú Khoa Int(4) Không Trư ng khóa c a b ng Tenmau NVarchar(50) Có Tên m u Hammau Nvarchar(2000) Có Hàm c a m u 4) Lichkhaipha M c ñích: Lưu th i gian các l ch ñ t ñ ng khai phá thông tin
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn:Nghiên cứu kỹ thuật phân loại ảnh viễn thám ứng dụng trong giám sát hiện trạng sử dụng đất đai
26 p | 388 | 107
-
NGHIÊN CỨU ỨNG DỤNG EXCEL TRONG TỔ CHỨC HẠCH TOÁN LƯU CHUYỂN HÀNG HOÁ NỘI THƯƠNG
5 p | 185 | 82
-
NGHIÊN CỨU ỨNG DỤNG PHẦN MỀM MIKE 11 TRONG TÍNH TOÁN MÔ PHỎNG CHẤT LƯỢNG NƯỚC
6 p | 165 | 33
-
Luận văn:Nghiên cứu ứng dụng phần mềm mã nguồn mở xây dựng hệ thống hổ trợ đào tạo trực tuyến tại trung tâm phát triển phần mềm
26 p | 158 | 31
-
Luận văn:Nghiên cứu ứng dụng phần mềm LabVIEW trong thí nghiệm động cơ đốt trong
13 p | 148 | 29
-
Luận văn Thạc sỹ Kỹ thuật công trình xây dựng: Nghiên cứu ứng dụng cọc đất xi măng gia cố nền cho bể chứa xăng dầu xây dựng trên nền đất yếu
105 p | 152 | 25
-
Luận án thạc sỹ: Ứng dụng phần mềm MATLAB trong nghiên cứu và giảng dạy hoá phân tích ở Việt Nam
76 p | 138 | 21
-
Luận văn:Nghiên cứu ứng dụng mã nguồn mở microsoft SDK speech 5.1 để xây dựng phần mềm luyện phát âm tiếng Anh
13 p | 148 | 16
-
Luận văn Thạc sĩ Khoa học Thư viện: Khảo sát ứng dụng phần mềm Libol 6.0 tại Trung tâm Thông tin - Thư viện trường Đại học Kinh tế Quốc dân
121 p | 14 | 9
-
Tóm tắt Luận văn Thạc sĩ Khoa học: Nghiên cứu ứng dụng công nghệ thông tin trong chỉnh lý tài liệu tại lưu trữ hiện hành
13 p | 93 | 8
-
Tóm tắt Luận án Tiến sĩ: Nghiên cứu ứng dụng trò chơi vận động để phát triển thể lực và kỹ năng sống cho học sinh lứa tuổi (6 -7) tại một số trường tiểu học nội thành, Thành phố Hồ Chí Minh
48 p | 21 | 7
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Góp phần nghiên cứu ứng dụng LpG trên động cơ nén cháy
27 p | 72 | 6
-
Luận văn Thạc sĩ Thiết bị, mạng và nhà máy điện: Nghiên cứu ứng dụng bộ lọc tích cực cho cơ sở sản xuất công nghiệp cụ thể ở khu công nghiệp Trà Đa - Gia Lai
133 p | 18 | 4
-
Luận văn Thạc sĩ Khoa học: Nghiên cứu ứng dụng bobot hàn để hàn một số đường công phức tạp
70 p | 29 | 4
-
Tóm tắt luận văn Thạc sĩ Khoa học: Nghiên cứu và ứng dụng phần mềm toán học trong dạy và học thống kê
13 p | 59 | 3
-
Luận văn Thạc sĩ Kỹ thuật điện tử: Nghiên cứu ứng dụng thiết bị Statcom trên hệ thống truyền tải cao cấp
90 p | 6 | 3
-
Tóm tắt Luận văn Thạc sỹ ứng dụng: Nghiên cứu giải pháp xây dựng kè bảo vệ bờ sông Lại Giang đoạn Khánh Trạch, tỉnh Bình Định
39 p | 3 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn