intTypePromotion=1
ADSENSE

Luận văn thạc sĩ: Ứng dụng kỹ thuật thu thập thông tin trên web để xây dựng hệ thống tổng hợp thông tin kinh tế xã hội

Chia sẻ: Sdfas Vfdtg | Ngày: | Loại File: PDF | Số trang:25

173
lượt xem
27
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Ứng dụng kỹ thuật thu thập thông tin trên web để xây dựng hệ thống tổng hợp thông tin kinh tế xã hội phục vụ cho công tác theo dõi, quản lý, chỉ đạo của lãnh đạo bằng cách sử dụng kỹ thuật khai phá dữ liệu web.

Chủ đề:
Lưu

Nội dung Text: Luận văn thạc sĩ: Ứng dụng kỹ thuật thu thập thông tin trên web để xây dựng hệ thống tổng hợp thông tin kinh tế xã hội

  1. -a- B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG NGUY N H HI U NG D NG K THU T THU TH P THÔNG TIN TRÊN WEB Đ XÂY D NG H TH NG T NG H P THÔNG TIN KINH T XÃ H I Chuyên ngành: KHOA H C MÁY TÍNH Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T Ngư i hư ng d n khoa h c PGS.TS. VÕ TRUNG HÙNG ĐÀ N NG 2011
  2. -1- Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS. Võ Trung Hùng Ph n bi n 1: PGS. TSKH. Tr n Qu c Chi n Ph n bi n 2: TS. Trương Công Tu n Lu n văn s ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t ngành Khoa h c máy tính h p t i Đ i h c Đà N ng vào ngày 15 tháng 10 năm 2011 Có th tìm hi u lu n văn t i: - Trung tâm Thông tin-H c li u, Đ i h c Đà N ng - Thư vi n Trư ng Đ i h c Bách khoa, Đ i h c Đà N ng
  3. -1- M Đ U 1. Lý do ch n ñ tài Công tác ñi u hành, qu n lý nhà nư c trên lĩnh v c kinh t - văn hóa – xã h i ñòi h i ngư i lãnh ñ o ph i thư ng xuyên n m b t, t ng h p thông tin tình hình th c ti n trên các báo, internet, các báo cáo c a c p dư i, ... ñ t ñó có cơ s cho vi c ra các quy t ñ nh phù h p. H ng ngày, t i Văn phòng UBND ñ u có cán b t ng h p thông tin ph c v lãnh ñ o. Các thông tin ñư c trích l c t các báo, website, t thông tin trong nư c, qu c t , ñ c bi t là thông tin trong t nh. Vi c t ng h p th công v a t n th i gian công s c, v a không ñ y ñ thông tin. Đ c bi t, thông tin trên interrnet hi n nay r t ña d ng, phong phú, n u không có s ki m soát thông tin ch t ch s xu t hi n nh ng thông tin không ñúng s th t, gây nh hư ng x u ñ n hình nh c a t nh. Chính vì v y, vi c xây d ng h th ng website thông tin kinh t chính tr xã h i ph c v ñi u hành lãnh ñ o là h t s c c n thi t, trên cơ s t ñ ng t ng h p thông tin t các website trên internet theo tiêu chí ch n trư c. Hi n nay, có nhi u phương pháp t ñ ng tìm ki m thông tin khác nhau, nhưng nhìn chung là các cách ti p c n ñ u d a vào các tr ng s trang Web (Ch s quan tr ng c a trang trong t p k t qu ), như: Page Bank, HITS và ng d ng k thu t khai phá d li u. Trong ñó Khai phá d li u (Data Mining) là m t lĩnh v c khoa h c liên ngành m i xu t hi n g n ñây nh m ñáp ng nhu c u này. Các k t qu nghiên c u cùng v i nh ng ng d ng thành công trong khai phá d li u, khám phá tri th c cho th y khai phá d li u là m t lĩnh v c khoa h c ti m năng, mang l i nhi u l i ích, ñ ng th i có ưu th hơn h n so v i các công c phân tích d li u truy n th ng. Chính vì v y, sau khi nghiên c u các tài li u và ñư c s ñ ng ý, hư ng d n, ñ ng viên t n tình c a TS. Võ Trung Hùng tôi ñã ch n ñ tài: “ ng d ng k thu t thu th p thông tin trên web xây d ng h th ng t ng h p thông tin kinh t xã h i” làm ñ tài nghiên c u cho lu n văn cao h c c a mình.
  4. -2- 2. M c tiêu và nhi m v Đ tài này nh m m c ñích xây d ng h th ng t ñ ng t ng h p thông tin tr c tuy n t các website ph c v cho công tác theo dõi, qu n lý, ch ñ o c a lãnh ñ o b ng cách s d ng k thu t khai phá d li u web. H th ng cho phép: - T ñ ng trích xu t các tin t c t các website theo các ch ñ ñư c ch n. - Cho phép qu n lý các chuyên m c tin. - Qu n lý các kênh tin t c. - Qu n lý thông tin lưu tr . - Tìm ki m thông tin ñã lưu tr . 3. Đ i tư ng và ph m vi nghiên c u Đ i tư ng nghiên c u: Đ tài này nh m m c ñích tìm hi u v khai phá d li u web, các thu t toán phân c m (cluster) tài li u và ng d ng trong truy xu t thông tin t ñ ng (information retrieval). Trên cơ s ñó, xây d ng h th ng t ñ ng t ng h p, phân lo i thông tin t các website trên internet nh m xây d ng h th ng thông tin t ng h p kinh t - chính tr - xã h i. Ph m vi nghiên c u - Khai phá d li u web. - Các gi i thu t phân c m tài li u. - Các k thu t và công ngh h tr trích xu t thông tin t ñ ng. - K t h p các y u t trên ñ xây d ng h th ng t ñ ng t ng h p tin t c tr c tuy n. 4. Phương pháp nghiên c u Nghiên c u lý thuy t o Tìm hi u lý thuy t v khai phá d li u và khai phá d li u web. o Tìm hi u các thu t toán phân c m tài li u. o Tìm hi u cơ ch ho t ñ ng c a các h th ng tìm ki m thu th p thông tin.
  5. -3- o ng d ng các công c ñ xây d ng h th ng thu th p thông tin: RSS, Xpath, dotnetnuke, … Nghiên c u th c nghi m o D a trên lý thuy t ñã nghiên c u, ti n hành xây d ng h th ng thu th p thông tin t các kênh tin c u hình trư c. o Th nghi m trên máy ñơn qua localhost có k t n i internet. 5. Ý nghĩa khoa h c và th c ti n c a ñ tài V m t lý thuy t: Gi i thi u t ng quan, và ng d ng c a khai phá d li u web, các thu t toán phân c m tài li u và cơ ch c a h th ng thu th p tin. V m c th c ti n: Xây d ng h th ng t ng h p thông tin kinh t chính tr xã h i ph c v công tác qu n lý ch ñ o ñi u hành c a lãnh ñ o các c p. Website cho phép ngư i s d ng c p nh t các thông tin m i nh t t các website tin t c, lưu tr , tìm ki m thông tin theo các chuyên m c. 6. B c c c a lu n văn Báo cáo c a lu n văn ñư c ñư c t ch c thành ba chương chính. Chương 1, dành ñ trình bày nh ng nghiên c u t ng quan v khai phá d li u, thu th p thông tin t internet. Chương 2, dành ñ trình bày quá trình phân tích và thi t k h th ng thu th p thông tin; Chương 3, dành ñ trình bày gi i pháp xây d ng th nghi m h th ng. CHƯƠNG 1. T NG QUAN Trong chương này chúng tôi trình bày m t s khái ni m, ñ nh nghĩa liên quan ñ n Khai phá d li u; các mô hình, các giai ño n c a quá trình khai phá d li u, các d ng d li u liên quan, các bài toán thông d ng và ph m vi ng d ng c a khai phá d li u. Ti p theo là gi i thi u v K thu t phân c m tài li u, các bi u di n tài li u trong mô hình không gian vector, các thu t toán ng d ng trong phân c m tài li u. Sau ñó gi i thi u v các quá trình thu th p thông tin, các k thu t thu th p thông tin trên web. Cu i cùng là gi i thi u m t s ph n m m t ng h p thông tin t ñ ng.
  6. -4- 1.1. T NG QUAN V KHAI PHÁ D LI U 1.1.1. Gi i thi u Trong th i ñ i ngày nay, v i s phát tri n vư t b c c a công ngh thông tin, các h th ng thông tin có th lưu tr m t kh i lư ng l n d li u v ho t ñ ng hàng ngày. T kh i d li u này, các k thu t trong Khai phá d li u và Máy h c có th dùng ñ trích xu t nh ng thông tin h u ích mà chúng ta chưa bi t. Các tri th c v a h c ñư c có th v n d ng ñ c i thi n hi u qu ho t ñ ng c a h th ng thông tin ban ñ u. Giáo sư Tom Mitchell ñã ñưa ra ñ nh nghĩa c a Khai phá d li u như sau: “Khai phá d li u là vi c s d ng d li u l ch s ñ khám phá nh ng qui t c và c i thi n nh ng quy t ñ nh trong tương lai.” V i m t cách ti p c n ng d ng hơn, Ti n sĩ Fayyad ñã phát bi u: “Khai phá d li u, thư ng ñư c xem là vi c khám phá tri th c trong các cơ s d li u, là m t quá trình trích xu t nh ng thông tin n, trư c ñây chưa bi t và có kh năng h u ích, dư i d ng các qui lu t, ràng bu c, qui t c trong cơ s d li u”. Nói tóm l i, Khai phá d li u là m t quá trình h c tri th c m i t nh ng d li u ñã thu th p ñư c. Quá trình này có th ñư c l p l i nhi u l n m t hay nhi u giai ño n d a trên ph n h i t k t qu c a các giai ño n. M i quan h ch t ch gi a các giai ño n trong quá trình Khai phá d li u là r t quan tr ng cho vi c nghiên c u trong Khai phá d li u. M t gi i thu t trong Khai phá d li u không th ñư c phát tri n ñ c l p, không quan tâm ñ n b i c nh áp d ng mà thư ng ñư c xây d ng ñ gi i quy t m t m c tiêu c th . Do ñó, s hi u bi t b i c nh v n d ng là r t c n thi t. Thêm vào ñó, các k thu t ñư c s d ng trong các giai ño n trư c có th nh hư ng ñ n hi u qu c a các gi i thu t s d ng trong các giai ño n ti p theo. 1.1.2. Các d ng d li u Full text D li u d ng Full text là m t d ng d li u phi c u trúc v i thông tin ch g m các tài li u d ng text. M i tài li u ch a thông tin v m t v n ñ nào ñó th hi n qua n i dung c a t t c các t c u thành tài li u ñó. Trong các d li u hi n nay thì văn b n là m t trong nh ng d li u ph bi n nh t, nó có m t kh p m i nơi và chúng ta thư ng xuyên b t g p do ñó các bài toán v x lý văn b n ñã ñư c ñ t ra khá lâu và hi n nay v n là m t trong nh ng v n ñ trong khai phá d li u Text,
  7. -5- trong ñó có nh ng bài toán ñáng chú ý như tìm ki m văn b n, phân lo i văn b n, phân c m văn b n ho c d n ñư ng văn b n. Hypertext Theo t ñi n c a Đ i H c Oxford (Oxford English Dictionary Additions Series) thì Hypertext ñư c ñ nh nghĩa như sau: Đó là lo i Text không ph i ñ c theo d ng liên t c ñơn, nó có th ñư c ñ c theo các th t khác nhau, ñ c bi t là Text và nh ñ h a (Graphic) là các d ng có m i liên k t v i nhau theo cách mà ngư i ñ c có th không c n ñ c m t cách liên t c. Có hai khái ni m v Hypertext c n quan tâm: Hypertext Document (Tài li u siêu văn b n) và Hypertext Link (Liên k t siêu văn b n) 1.1.3. Các bài toán thông d ng trong khai phá d li u 1.1.3.1. Phân l p (Classification). V i m t t p các d li u hu n luy n cho trư c và s hu n luy n c a con ngư i, các gi i thu t phân lo i s h c ra b phân lo i (classifier) dùng ñ phân các d li u m i vào m t trong nh ng l p (còn g i là lo i) ñã ñư c xác ñ nh trư c. Nh n d ng cũng là m t bài toán thu c ki u phân lo i. 1.1.3.2. D ñoán (Prediction). V i mô hình h c tương t như bài toán Phân lo i, l p bài toán D ñoán (Prediction) s h c ra các b d ñoán. Khi có d li u m i ñ n, b d ñoán s d a trên thông tin ñang có ñ ñưa ra m t giá tr s h c cho hàm c n d ñoán. Bài toán tiêu bi u trong nhóm này là d ñoán giá s n ph m ñ l p k ho ch trong kinh doanh. 1.1.3.3. Tìm lu t liên k t (Association Rule) Các gi i thu t Tìm lu t liên k t (Association Rule) tìm ki m các m i liên k t gi a các ph n t d li u, ví d như nhóm các món hàng thư ng ñư c mua kèm v i nhau trong siêu th . 1.1.3.4. Phân c m (Clustering) Các k thu t Phân c m (Clustering) s nhóm các ñ i tư ng d li u có tính ch t gi ng nhau vào cùng m t nhóm. Có nhi u cách ti p c n v i nh ng m c tiêu khác nhau trong phân lo i. Các k thu t trong bài toán này thư ng ñư c v n d ng trong v n ñ phân ho ch d li u ti p th hay kh o sát sơ b các d li u.
  8. -6- 1.1.4. ng d ng c a khai phá d li u Khai phá d li u ñư c v n d ng trong nhi u lĩnh v c khác nhau nh m khai thác ngu n d li u phong phú ñư c lưu tr trong các h th ng thông tin. Tùy theo b n ch t c a t ng lĩnh v c, vi c v n d ng Khai phá d li u có nh ng cách ti p c n khác nhau. Khai phá d li u cũng ñư c v n d ng hi u qu ñ gi i quy t các bài toán ph c t p trong các ngành ñòi h ik thu t cao như tìm ki m m d u t nh vi n thám, xác ñ nh các vùng gãy trong nh ñ a ch t ñ d ñoán thiên tai, c nh báo h ng hóc trong các h th ng s n xu t,… Các bài toán này ñã ñư c gi i quy t t khá lâu b ng các k thu t nh n d ng hay xác su t nhưng ñư c gi i quy t v i yêu c u cao hơn b i các k thu t c a Khai phá d li u. Phân nhóm và d ñoán là nh ng công c r t c n thi t cho vi c qui ho ch và phát tri n các h th ng qu n lý và s n xu t trong th c t . 1.2. PHÂN C M TÀI LI U 1.2.1. Phân c m tài li u Phân c m (Clustering) là quá trình nhóm m t t p các ñ i tư ng v t lý ho c tr u tư ng thành các nhóm hay các l p ñ i tư ng tương t nhau. M t c m (cluster) là m t t p các ñ i tư ng gi ng nhau hay là tương t nhau, chúng khác ho c ít tương t so v i các ñ i tư ng thu c l p khác. Không gi ng như quá trình phân lo i, ta thư ng bi t trư c tính ch t hay ñ c ñi m c a các ñ i tư ng trong cùng m t l p và d a vào ñó ñ n ñ nh m t ñ i tư ng vào l p c a nó, trong quá trình chia l p ta không h bi t trư c tính ch t c a các l p và thư ng d a vào m i quan h c a các ñ i tư ng ñ tìm ra s gi ng nhau gi a các ñ i tư ng d a vào m t ñ ño nào ñó ñ c trưng cho m i l p. Trong lĩnh v c khai phá d li u Web, phân c m có th khám phá ra các nhóm tài li u quan tr ng, có nhi u ý nghĩa trong môi trư ng Web. Các l p tài li u này tr giúp cho vi c khám phá tri th c t d li u...
  9. -7- 1.2.2. Bi u di n tài li u trong mô hình không gian vector 1.2.2.1. Khái ni m Mô hình không gian vector (Vector space model- VSM) là m t cách bi u di n m t tài li u như m t vector. Đây là khái ni m quan tr ng trong Information Retrieval-IR, ñư c s d ng ñ lư ng hóa nh ng ñ i tư ng khó qu n lý như tài li u, khái ni m, câu truy v n ,…. T p h p toàn b các tài li u mà ta xem xét tương ng v i m t không gian vector. Tài li u ñư c xem là m t vector v i các thành ph n là tr ng s tính trên các khái ni m xu t hi n trong nó (term), thông thư ng ngư i ta xem các term này chính là các t v ng xu t hi n trong tài li u. D li u web v b n ch t chính là văn b n, do ñó có th áp d ng các k thu t phân c m văn b n cho vi c xây d ng h th ng tìm ki m và phân lo i thông tin trên web. 1.2.2.2. Hàm tương t gi a hai vector tài li u trong không gian Đ ti n hành các thao tác x lý tài li u như tìm ki m, so sánh, phân l p, phân c m, … c n thi t ph i có công c ñ so sánh các tài li u v i nhau. Khi ñã xây d ng ñư c không gian vector, m t cách t nhiên ngư i ta mu n xây d ng hàm tương t gi a hai vector. Đi u này ph c v vi c tính toán ñ tương t gi a hai tài li u trong vi c phân c m tài li u ,hay ñ phù h p c a m t tài li u v i m t câu truy v n khi tìm ki m. B n ch t c a quá trình này là chúng ta xem xét xem th nào là hai vector gi ng nhau, hay tương t nhau. 1.2.3. Các thu t toán ng d ng trong phân c m tài li u 1.2.3.1. Phân c m d li u không gian và các ti p c n Các k thu t áp d ng ñ gi i quy t v n ñ phân c m d li u ñ u hư ng t i hai m c tiêu chung: Ch t lư ng c a các c m khám phá ñư c và t c ñ th c hi n c a thu t toán. Hi n nay, các k phân c m d li u có th phân lo i theo các cách ti p c n chính như: Phân c m phân ho ch, Phân c m d li u phân c p, Phân c m d li u d a trên m t ñ , Phân c m d li u d a trên lư i, Phân c m d li u d a trên mô hình, Phân c m d li u có ràng bu c, 1.2.3.2. Phân c m d li u d a vào thu t toán K-means Tư tư ng thu t toán K-means là m t trong s nh ng phương pháp h c không có giám sát cơb n nh t thư ng ñư c áp d ng trong vi c gi i các bài toán v phân c m d li u. M c ñích c a thu t toán k-
  10. -8- means là sinh ra k c m d li u {C1, C2, …,Ck} t m t t p d li u ch a n ñ i tư ng trong không gian d chi u Xi = sao cho hàm tiêu chu n: ñ t giá tr t i thi u. Trong ñó: mi là tr ng tâm c a c m Ci, là kho ng cách gi a hai ñ i tư ng. Tr ng tâm c a m t c m là m t véc tơ, trong ñó giá tr c a m i ph n t c a nó là trung bình c ng c a các thành ph n tương ng c a các ñ i tư ng véc tơ d li u trong c m ñang xét. Tham s ñ u vào c a thu t toán là s c m k, và tham s ñ u ra c a thu t toán là các tr ng tâm c a các c m d li u. Đ ño kho ng cách d gi a các ñ i tư ng d li u thư ng ñư c s d ng là kho ng cách Euclide, b i vì ñây là mô hình kho ng cách d ñ l y ñ o hàm và xác ñ nh các c c tr t i thi u. Hàm tiêu chu n và ñ ño kho ng cách có th ñư c xác ñ nh c th hơn tuỳ vào ng d ng ho c các quan ñi m c a ngư i dùng. 1.3. THU TH P THÔNG TIN TRÊN WEB 1.3.1. Gi i thi u t ng quan v thu th p thông tin trên web Thu th p thông tin (Information Retrieval - IR) trên web t p trung vào vi c khám phá m t cách t ñ ng ngu n thông tin có giá tr tr c tuy n. N i dung web có th ñư c ti p c n theo 2 cách khác nhau: Tìm ki m thông tin và khai phá d li u trong cơ s d li u l n. Khai phá d li u ña phương ti n là m t ph n c a khai phá n i dung Web, nó h a h n vi c khai thác ñư c các thông tin và tri th c m c cao t ngu n ña phương ti n tr c tuy n r ng l n. Khai phá văn b n Web là vi c s d ng k thu t khai phá d li u ñ i v i các t p văn b n ñ tìm ra tri th c có ý nghĩa ti m m trong nó. D li u c a nó có là d li u có c u trúc ho c không c u trúc. K t qu khai phá không ch là tr ng thái chung c a m i tài li u văn b n mà còn là s phân lo i, phân c m các t p văn b n ph c v cho m c ñích nào ñó.
  11. -9- 1.3.2. Quá trình thu th p thông tin trên web N m b t nh ng ñ c tính c a ngư i dùng Web là vi c r t quan tr ng ñ i v i ngư i thi t k Website. Thông qua vi c khai phá l ch s các m u truy xu t c a ngư i dùng Web, không ch thông tin v Web ñư c s d ng như th nào mà còn nhi u ñ c tính khác như các hành vi c a ngư i dùng có th ñư c xác ñ nh. S ñi u hư ng ñư ng d n ngư i dùng Web mang l i giá tr thông tin v m c ñ quan tâm c a ngư i dùng ñ n các Website ñó. Khai phá Web theo s d ng Web là khai phá truy c p Web ñ khám phá các m u ngư i dùng truy c p vào Website. 1.3.3. Các k thu t crawling và indexing M t Web thu th p thông tin (Web Crawler) là m t chương trình máy tính có th “duy t web” m t cách t ñ ng và theo m t phương th c nào ñó ñư c xác ñ nh trư c. Vì là m t chương trình nên quá trình “duy t web” c a các web crawler không hoàn toàn gi ng v i quá trình duy t web c a con ngư i (web crawler ph i s d ng các phương th c d a trên HTTP tr c ti p ch không thông qua web browser như con ngư i). Các web crawler thư ng b t ñ u v i m t danh sách URL c a các web page ñ ghé thăm ñ u tiên. Khi ghé thăm m t URL, crawler s ñ c n i dung web page, tìm t t c các hyperlink có trong web page ñó và ñưa các URL ñư c tr t i b i các hyperlink ñó vào danh sách URL. D a vào danh sách URL này, Crawler l i ti p t c quá trình duy t ñ quy ñ ghé thăm t t c các URL chưa ñư c duy t ñ n. Quá trình này ñư c g i là web crawling ho c là web spidering, các web crawler còn ñư c g i là các robot (bot) ho c nh n web (web spider). V b n ch t, web crawling chính là quá trình duy t ñ quy m t ñ th cây có các node là các web page.
  12. -10- 1.4. KH O SÁT M T S PH N M M T NG H P TIN 1.4.1. Google Reader Google Reader là công c t ng h p tin h u ích c a Google. Vi c dùng Google Reader khá ñơn gi n, ch c n thêm ñ a ch URL c a feed/rss c a ngu n tin mu n theo dõi, m i khi ngu n tin có thay ñ i, Google Reader s l y tin v t ñ ng. Google Reader còn có nhi u ti n ích như: - Chia s tr c ti p các tin ñ c trong Google Reader cho b n bè (b m vào nút Share), thông tin này s ñư c hi n th trên Google Buzz ho c dùng nút Send To ñ g i ñ n các d ch v khác như Twitter, Facebook, Blogger. Chia s các danh sách ngu n tin mà b n th y h u ích cho b n bè. - Ki m tra s c p nh t c a các trang web, không nh t thi t dư i ñ nh d ng feed b ng cách thêm URL c a trang web c n l y vào Google Reader. 1.4.2. iGoogle iGoogle là d ch v trang ch tìm ki m cá nhân hoá (Personalized Homepage) v i các tính năng m i như "Gadget Maker" và kh năng hi n th k t qu tìm ki m d a trên t ng vùng. iGoogle cho phép ngư i dùng có th t o l p m t trang ch tìm ki m hoàn toàn theo ý thích. T i trang ch này, ngư i dùng có th ñ t các "gadget" (ti n ích nh ) ch a các thông tin quan tâm như th i ti t, ch ng khoán, tin t c, và th m chí là c ngày tháng hi n t i. Ngoài ra iGoogle cung c p nhi u ti n ích khác như: xem RSS tin t c t các site khác, To do list, ñ m ngư c th i gian, khung tìm ki m c a Wikipedia … 1.4.3. Yahoo Yahoo hi n ñang th nghi m d ch v t ng h p thông tin t ñ ng t i ñ a ch . Yahoo!Pipes (http://pipes.yahoo.com/). Đây là công c tương tác qua web h tr x lý và t ng h p các ngu n tin t internet cho phép ngư i dùng thu th p thông tin t các ngu n khác nhau, l c và xem tin tùy theo lĩnh v c quan tâm. Yahoo Pipe h tr nhi u ngu n tin khác nhau như Data, Page, Url, Rss, yahoo Search, … và nhi u công c cho phép ngư i dùng xác ñ nh t khóa tin c n l y.
  13. -11- CHƯƠNG 2. THI T K GI I PHÁP XÂY D NG H TH NG THU TH P THÔNG TIN KINH T XÃ H I Chương này t p trung vào phân tích và xác ñ nh các yêu c u xây d ng H th ng thu th p thông tin kinh t xã h i. Ti p theo là gi i thi u mô hình ki n trúc, các thành ph n c a h th ng thu th p thông tin. Sau ñó là trình bày các gi i pháp, các công c s d ng và cu i cùng là phân tích và thi t k h th ng. 2.1. PHÂN TÍCH VÀ XÁC Đ NH YÊU C U 2.1.1. Đ t v n ñ Trong th i ñ i bùng n thông tin như hi n nay thì vi c khai thác, thu th p và chia s thông tin ñóng m t vai trò quan tr ng. V i m t d li u kh ng l trên m ng, làm sao ta có th n m b t ñư c thông tin m i nh t, nhanh chóng nh t mà không ph i t n th i gian xem t ng website ñ ñ c và tìm ki m thông tin. Trên cơ s này, h th ng bóc tách thông tin ñư c xây d ng nh m ph c v cho vi c trích xu t thông tin t các website, r i t t c thông tin ñư c hi n th trên m t website, giúp cho ngư i ñ c có th n m b t ñư c thông tin m t cách xúc tích, nhanh chóng và ti t ki m th i gian. Đ i tư ng s d ng h th ng là t t c c ng ñ ng ngư i s d ng m ng. Qu n tr viên có th qu n lý tài kho n ngư i dùng, qu n lý các ñư ng d n (link). Kh o sát, phân tích và ñánh giá yêu c u Kh o sát m t s chương trình h tr ñ c tin t c RSS 2.1.2. Xác ñ nh yêu c u c a H th ng M c tiêu c a ñ tài là xây d ng nên m t h th ng h tr ngư i dùng ch n kênh tin t c, thu th p tin t c, qu n lý các kênh tin, t o ra m t website tin t c cho chính ngư i dùng mà không ph i lư t t ng website ñ ñ c tin t c. Thông qua vi c kh o sát m t s ph n m m ñ c tin t c trong và ngoài nư c, và yêu c u t phía ngư i dùng, có th tóm t t yêu c u c a ngư i dùng ñ i v i h th ng bóc tách thông tin.
  14. -12- 2.2. MÔ HÌNH H TH NG 2.2.1. Ki n trúc chung H th ng khai thác và t ng h p n i dung có nhi m v khai thác, t ng h p, lưu tr r i phát hành l i t i ngư i dùng. Crawler nh n c u hình ñ u vào c a m t website (tin t c) ti n hành bóc tách, t ng h p ch ñ liên quan, lưu tr trong database và phát hành l i trên trang tin t ng h p. Gi i pháp ñ xu t d a trên mô hình trích xu t d li u ñ c t c a n i dung (còn g i là meta data - cung c p các thông tin cơ b n bao g m : tên tin bài, ngày phát hành, sơ lư c n i dung, ngư i vi t,...). N i dung ñư c bóc tách toàn v n, s ch s và ñư c t ng h p t nhi u ngu n khác nhau giúp ngư i ñ c có th theo dõi, ki m soát, tìm ki m, biên so n, lưu tr m t cách hi u qu . Sau ñó nh ng ñ c t d li u (meta data) ñư c xây d ng t ñ ng trên n n n i dung ñã bóc tách. Sau quy trình khai thác, n i dung s tr thành ñ c l p v i website ngu n, ñư c lưu tr và tái s d ng cho nh ng m c ñích khác nhau. 2.2.2. Thành ph n web Crawler Crawler là thành ph n quan tr ng c a h th ng có nhi m v dò tìm c a Url và t i n i dung t các Url. Ki n trúc và ho t ñ ng c a m t Crawler ñơn gi n như sau:
  15. -13- Hình 2-1: Mô hình h th ng crawler. Ho t ñ ng c a h th ng có th ñư c mô t như sau: Bư c 1: URL-Queue s ch n ra m t t p các URLs c n download,g i cho Multi- threaded downloader Bư c 2: Downloader ti n hành download các tài li u này, phân tích chúng, trích ra các ñư ng link xu t hi n bên trong các tài li u, r i g i cho URL-Queue. L p l i bư c 1. Quá trình này d ng l i khi th a mãn m t s ñi u ki n d ng nào ñó. 2.2.3. Thành ph n web Extractor Tài li u trên Web là nh ng văn b n ñư c lưu tr trong các máy tính k t n i v i Internet. Đ xem các tài li u này, ngư i dùng dùng m t trình duy t Web (Web Browser) m và hi n th chúng. 2.2.4. X lý tài li u Thông thư ng m t tài li u, trư c khi ñư c lưu tr và l p ch m c trong các h th ng tìm ki m bao gi cũng ph i tr i qua nh ng bư c ti n x lý .M c ñích c a nó là ñưa tài li u v m t d ng mang nhi u thông tin hơn, ñơn gi n hơn, ti n cho các quá trình x lý sau này. Tài li u ñây là các tin t c ñư c t i t ñ ng t các trang web. Vì n i dung tin t c có th r t dài, ch a hàng ngàn t , do ñó ñ gi m kích thư c x lý, chúng ta ch x lý ñ i v i ph n tóm t t c a tin t c. Ph n này thư ng ch g m 1-5 câu, khái quát ñư c ch ñ c a tin t c, do ñó có th ñ i di n cho tin t c.
  16. -14- 2.2.5. Gom c m tài li u Vi c gom c m tài li u s ñư c th c hi n d a vào mô hình không gian vector (ph n I.2.2) d a vào tr ng s c a các t ñ c trưng trong tài li u. 2.3. GI I PHÁP CÔNG NGH S D NG 2.3.1. Công c phân tích d li u XPath Xpath – XML Path – là m t ngôn ng truy v n ñư c ñ nh nghĩa b i W3C, s d ng ñ truy v n các node ho c tính toán các giá tr l y trong m t tài li u XML [1]. M t bi u th c XPath (Xpath expression) có th ch n m t node ho c m t t p h p các node, ho c nó có th tr l i m t giá tr d li u d a trên m t ho c nhi u node trong tài li u. XPath hi n có 2 phiên b n là XPath 1.0 và XPath 2.0. 2.3.2. Công ngh Portal Dotnetnuke Ki n trúc mà DotNetNuke xây d ng là ki n trúc ña c ng (multi portal). Khái ni m c ng ñư c g i là portal trong DotNetNuke. DotNetNuke h tr nhi u portal cùng ch y trên m t cơ s d li u và m t mã ngu n duy nh t. DotNetNuke ñư c thi t k theo mô hình ba l p hoàn ch nh. Vì v y, nó t o ra r t nhi u ti n l i cho ngư i l p trình. Không nh ng th , kh năng h tr r t t t và d dùng l i trong vi c truy xu t d li u chính là m t trong nh ng th m nh c a DotNetNuke. Mô hình ba l p c a DotNetNuke ñư c mô t trong mô hình sau :
  17. -15- Hình 2-2: Mô hình ki n trúc công ngh dotnetnuke portal DotNetNuke s d ng ñ i tư ng DataReader ñ chuy n nh ng d li u có ñư c t L p Truy xu t D li u lên L p X lý. L p hi n th (Giao di n) L p hi n th s d ng nh ng d ch v c a L p x lý cung c p. L p giao di n chính là nh ng UserControl L p X lý Nh ng hàm x lý c a cùng m t ñ i tư ng x lý ñư c lưu chung vào m t t p tin có ph n m r ng (*.vb). L p này s d ng nh ng hàm do l p truy xu t d li u cung c p. L p Truy xu t d li u L p này là l p cu i cùng, th c hi n nhi m v truy xu t d li u. M t hàm quan tr ng c a l p này là hàm SQLGenerator..
  18. -16- 2.4. PHÂN TÍCH THI T K H TH NG 2.4.1. Mô t ch c năng h th ng 2.4.1.1. Phân h thu th p và x lý tin t c Đây là phân h quan tr ng c a h th ng có ch c năng t ñ ng l y tin t c t các báo ñi n t trên m ng và lưu vào CSDL. G m các phân h con: crawler, extractor và x lý d li u. Tin t c do phân h này s cung c p cho C ng thông tin ñi n t ñ ngư i qu n tr tin có th duy t/xu t b n tin. 2.4.1.2. Phân h C ng thông tin ñi n t kinh t xã h i t ng h p Phân h tin t c ñư c chia thành 2 m ng ch c năng tương ng 2 ñ i tư ng s d ng: m ng ch c năng ñ i v i ngư i dùng (user) và m ng ch c năng qu n tr (admin) Ch c năng ngư i dùng: - Xem tin: Cho phép ngư i dùng xem chi ti t m t tin. Gi ng v i m t trang báo thông thư ng. - Tìm ki m: Cho phép ngư i dùng tìm ki m tin bài m t cách nhanh chóng, thu n ti n. Ch c năng qu n tr (admin) - Qu n tr các chuyên m c tin t c: Ch c năng này cho phép ngư i qu n tr t ch c các tin thành các chuyên m c. - Qu n tr tin t c theo chuyên m c: Các tin t c ñư c li t kê theo t ng chuyên m c, ch nh ng ngư i ñư c phân quy n qu n tr ñ i v i ch ñ này m i ñư c phép xem danh sách này. - C p nh t tin t c: Ngư i ñư c c p quy n ñ i v i m t ch ñ có th thêm m i, s a, hay xóa m t tin. - Phân quy n qu n tr tin t c: Đây là ch c năng qu n tr quy n trong phân h qu n tr tin t c. Các quy n ñư c phân cho t ng ñ i tư ng ngư i dùng theo t ng ch ñ .
  19. -17- 2.4.2. Phân tích thi t k h th ng 2.4.2.1. Danh sách User case và Actor 2.4.2.2. Bi u ñ tu n t Bi u ñ tu n t c a thao tác qu n lý ngư i dùng: AdminForm UserManager IR::Qu n tr Xem thông tin Hi n th Thêm xóa s a thông tin C p nh t CSDL C p nh t Hi n th thông tin c p nh t Hình 2-3: Bi u ñ tu n t - qu n lý ngư i dùng Bi u ñ tu n t c a quá trình qu n lý c u hình kênh tin:
  20. -18- NewsChannelForm ChannelManager IR::Qu n tr Xem danh sách kênh tin Load Các kênh tin Hi n th Thêm xóa s a c u hình kênh tin C p nh t c u hình C p nh t CSDL Hi n th thông tin c p nh t Hình 2-4: Bi u ñ tu n t - qu n lý kênh tin Bi u ñ tu n t c a quá trình qu n lý tin: NewsForm ArticleManager IR::Ngư i s d ng danh sách các tin Xem Load Danh sách tin Hi n th Thêm, xóa, s a Thêm, xóa, s a Message1 Success Hi n th k t qu Hình 2-5: Bi u ñ tu n t - qu n lý tin
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2