intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn thạc sĩ: Xây dựng hệ thống quảng cáo trực tuyến dựa trên từ khóa tiếng Việt

Chia sẻ: Sdfas Vfdtg | Ngày: | Loại File: PDF | Số trang:13

83
lượt xem
22
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Xây dựng hệ thống quảng cáo trực tuyến dựa trên từ khóa tiếng Việt nhằm tìm hiểu kỹ thuật khai phá dữ liệu web để định phần nội dung của trang web thuộc mạng quảng cáo.

Chủ đề:
Lưu

Nội dung Text: Luận văn thạc sĩ: Xây dựng hệ thống quảng cáo trực tuyến dựa trên từ khóa tiếng Việt

  1. 1 2 Công trình ñư c hoàn thành t i B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG Đ I H C ĐÀ N NG PH M XUÂN THÀNH Ngư i hư ng d n khoa h c: TS. Nguy n Thanh Bình XÂY D NG H TH NG Ph n bi n 1: TS. Huỳnh H u Hưng QU NG CÁO TR C TUY N D A TRÊN T KHÓA TI NG VI T Ph n bi n 2: PGS.TS. Đoàn Văn Ban Chuyên ngành : Khoa h c máy tính Lu n văn ñư c b o v t i H i ñ ng ch m Lu n văn t t Mã s : 60.48.01 nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 15 tháng 12 năm 2012 TÓM T T LU N VĂN TH C SĨ K THU T Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng; Đà N ng - Năm 2012 - Trung tâm H c li u, Đ i h c Đà N ng;
  2. 3 4 M Đ U 2. M c ñích nghiên c u Nghiên c u, tìm hi u k thu t khai phá d li u web nh m xác 1. Lý do ch n ñ tài ñ nh ph n n i dung chính c a trang web thu c m ng qu ng cáo; ti n Ngày nay Word Wide Web ñã tr thành m t kho tài nguyên d hành nghiên c u tách t khóa n i dung ñó nh m xây d ng máy x li u kh ng l v m i lĩnh v c. Lư ng truy c p và trao ñ i thông tin lý t khóa ti ng Vi t t ñ ng, nâng cao m c tiêu hi u qu c a h qua Word Wide Web di n ra liên t c t o ra m ng lư i truy n thông th ng qu ng cáo tr c tuy n s xây d ng. bao ph kh p toàn c u khi n kênh truy n thông này tr thành m t 3. Đ i tư ng và ph m vi nghiên c u m nh ñ t màu m cho ho t ñ ng qu ng cáo tr c tuy n. - Nghiên c u tìm hi u lĩnh v c qu ng cáo tr c tuy n và mô Vi t Nam hi n nay, t c ñ tăng trư ng ngư i dùng Internet tăng hình d ch v qu ng cáo tr c tuy n. cao nhưng t ng doanh thu qu ng cáo tr c tuy n Vi t Nam v n - Th c hi n khai phá d li u web ñ xác ñ nh bóc tách n i m c khá khiêm t n - 480 t ñ ng năm 2010, chi m 0,4% t ng chi dung chính c a trang web. cho qu ng cáo. - X lý tách t ti ng Vi t và xác ñ nh t khóa c a văn b n. Ch s ngân sách qu ng cáo tr c tuy n hàng năm trên m i ngư i - Thi t k , xây d ng h th ng qu ng cáo tr c tuy n. s d ng c a Vi t Nam hi n ch có 0,5 USD, kém xa so v i ch s này 4. Phương pháp nghiên c u các nư c phát tri n như M là 171,5 USD ho c Trung Qu c 10 5. Ý nghĩa khoa h c và th c ti n c a ñ tài USD. D ki n ñ n năm 2015 th trư ng qu ng cáo tr c tuy n Vi t Đ tài v n d ng các nghiên c u, ñ xu t phương pháp xây d ng Nam m i phát tri n n ñ nh. h th ng qu ng cáo tr c tuy n nh m khai thác qu ng cáo khía c nh Hình th c qu ng cáo tr c tuy n ph bi n Vi t Nam thư ng dành các t khóa c a n i dung văn b n trang web, là m t trong nh ng m t ph n l n di n tích trang web ñ hi n th qu ng cáo gây tr ng i hư ng ñi m i c a công ngh qu ng cáo tr c tuy n hi n nay. ñ n vi c khai thác thông tin c a b n ñ c. Hình th c qu ng cáo này 6. C u trúc c a lu n văn cũng không phù h p v i các thi t b duy t web, có kích thư c màn N i dung lu n văn bao g m ph n m ñ u, ba chương và ph n k t hình h n ch như Smart Phone, máy tính b ng hay thi t b gi i trí lu n. Cu i m i chương có ph n k t chương, c th : truy nh p Internet khác. Chương 1: QU NG CÁO TR C TUY N. Lu n văn trình bày Lu n văn ñ xu t hư ng khai thác qu ng cáo tr c tuy n b ng cách t ng quan v lĩnh v c qu ng cáo tr c tuy n, các s li u th ng kê liên s d ng các t khóa ti ng Vi t ph n văn b n c a n i dung chính quan, nh ng ñ c ñi m và mô hình ho t ñ ng c a h th ng qu ng cáo trang web chuy n t i qu ng cáo. Hình th c là xu hư ng m i, c i tr c tuy n. Cũng trong chương này lu n văn ñ xu t mô hình xây thi n nh ng h n ch qu ng cáo tr c tuy n hi n nay nư c ta. d ng h th ng qu ng cáo tr c tuy n d a trên n n t ng là các t khóa
  3. 5 6 n i dung chính c a trang web, trình bày nh ng ưu ñi m h th ng CHƯƠNG 1 - QU NG CÁO TR C TUY N này mang l i. 1.1. Gi i thi u chung v qu ng cáo Chương 2: TÁCH N I DUNG CHÍNH VÀ T KHÓA Qu ng cáo là hình th c tuyên truy n ñư c tr ti n ñ th c hi n TI NG VI T TRÊN WEB. Lu n văn t p trung nghiên c u k thu t vi c gi i thi u thông tin v s n ph m, d ch v , công ty hay ý tư ng. khai phá d li u web lĩnh v c khai thác n i dung thông tin. Chương Qu ng cáo là ho t ñ ng truy n thông phi tr c ti p gi a ngư i v i này th c hi n ba nhi m v chính: nghiên c u và ñ xu t phương pháp ngư i mà trong ñó ngư i mu n truy n thông ph i tr ti n cho các bóc tách n i dung chính c a trang web, th c hi n tách t ti ng Vi t phương ti n truy n thông ñ i chúng ñ ñưa thông tin ñ n thuy t ph c và xác ñ nh t khóa trên n i dung chính này. Nhóm các t khóa tách hay tác ñ ng ñ n ngư i nh n thông tin. ñư c s ph c v cho phân h Engine tách t khóa thu c h th ng 1.2. Qu ng cáo tr c tuy n qu ng cáo tr c tuy n. Engine này cung c p cho ngư i ñăng qu ng Qu ng cáo tr c tuy n khác h n qu ng cáo trên các phương ti n cáo d dàng ch n t khóa liên quan ñ n trang web mà h qu ng cáo cũng như h th ng qu ng cáo phát m u qu ng cáo chính xác vào thông tin ñ i chúng khác, nó giúp ngư i tiêu dùng có th tương tác ph n n i dung chính trên trang web có t khóa ñã ñư c thi t l p. v i qu ng cáo. Nó không b gi i h n b i v trí ñ a lý hay th i gian; Chương 3: XÂY D NG H TH NG QU NG CÁO TR C truy n ñ t thông tin qu ng cáo m c ñ toàn c u t i m t lư ng l n TUY N. Lu n văn ti n hành xây d ng h th ng qu ng cáo tr c ngư i dùng v i m t chi phí r t th p. tuy n v i t khóa ti ng Vi t. H th ng bao g m hai thành ph n 1.2.1. Internet, m ng truy n thông cho qu ng cáo tr c tuy n chính: xây d ng Engine x lý tách t khóa ti ng Vi t v i các phương Vi t Nam là qu c gia có t l tăng trư ng Internet nhanh nh t pháp ñã ñ xu t chương 2, h th ng qu n lý (Portal AdServer) và trong khu v c. Có 26.8 tri u ngư i s d ng vào th i ñi m cu i năm chuy n phát qu ng cáo (Ad Script) lên m ng qu ng cáo. Lu n văn ñ 2010, ñ i di n cho 31% dân s và thái ñ ñ i v i qu ng cáo tr c xu t mô hình h th ng xây d ng, trình bày các thi t k ch c năng, sơ tuy n ñư c mô t như sau: ñ ho t ñ ng, cơ s d li u và mô hình tri n khai h th ng qu ng cáo tr c tuy n. Cu i chương là ph n th nghi m và ñánh giá k t qu quá trình th c hi n ch c năng các thành ph n c a h th ng qu ng cáo tr c tuy n. Ph n k t lu n nêu nh ng k t qu ñ t ñư c, hư ng nghiên c u trong ñ xu t t khóa ti ng Vi t và phát tri n hoàn thi n h th ng qu ng cáo tr c tuy n ñã xây d ng Hình 1.6. Thái ñ ngư i ñ c tin v i qu ng cáo tr c tuy n
  4. 7 8 1.2.2. S phát tri n c a qu ng cáo tr c tuy n - Tính tương tác 1.3.2. Mô hình ho t ñ ng kinh doanh qu ng cáo tr c tuy n Qua nghiên c u và kh o sát, mô hình ho t ñ ng kinh doanh qu ng cáo tr c tuy n bao g m ba thành ph n chính, ñó là Advertiser, Publisher và Ad Manager. Hình 1.7. Doanh thu qu ng cáo tr c tuy n M qua 10 năm 1.2.3. Qu ng cáo tr c tuy n Vi t Nam 1.2.3.1. S li u th ng kê 1.2.3.2. Các hình th c qu ng cáo tr c tuy n Vi t Nam Hình th c qu ng cáo tr c tuy n ph bi n Vi t Nam thư ng dành Hình 1.10. Mô hình tham gia qu ng cáo tr c tuy n m t ph n l n di n tích trang web ñ hi n th qu ng cáo gây tr ng i 1.3.3. Các ñ ño hi u qu qu ng cáo tr c tuy n ñ n vi c khai thác thông tin c a b n ñ c. Phương pháp ño lư ng hi u qu qu ng cáo chính là các tiêu chí 1.2.3.3. Phát tri n qu ng cáo tr c tuy n Vi t Nam là c n thi t ñánh giá c a ngành qu ng cáo tr c tuy n. Th trư ng qu ng cáo trưc tuy n Vi t Nam tuy v n còn giai 1.3.3.1. CPD ño n m i phát tri n. C n có nghiên c u, xây d ng các h th ng 1.3.3.2. CPM qu ng cáo có hàm lư ng công ngh m i ñáp ng ñư c xu th như 1.3.3.3. CPC qu ng cáo trên máy tìm ki m hay qu ng cáo theo hành vi, ng c nh, 1.3.3.4. CPA qu ng cáo t khóa ti ng Vi t … 1.3.3.5. CTR 1.3. H th ng chuy n phát qu ng cáo tr c tuy n 1.3.4. Mô hình qu ng cáo tr c tuy n ñ xu t c a lu n văn 1.3.1. Đ c ñi m qu ng cáo tr c tuy n Lu n văn ñ xu t hư ng khai thác qu ng cáo tr c tuy n b ng cách - Kh năng nh m ch n s d ng các t khóa ti ng Vi t ph n văn b n c a n i dung chính - Kh năng theo dõi trang web chuy n t i qu ng cáo. - Tính linh ho t và kh năng phân ph i
  5. 9 10 - Vi c tính chi phí qu ng cáo theo CPC hay CPA giúp cho ñ t qu ng cáo c a bên mua qu ng cáo hi u qu hơn r t nhi u so v i cách tính chi phí c ñ nh. khi rê chu t và t khóa ñư c n ñ nh, qu ng cáo s xu t hi n - Ch ñ ng trong vi c qu n lý ñ t qu ng cáo cho bên mua qu ng cáo. - H th ng Engine tách t ti ng s h tr ngư i ñăng qu ng cáo quy t ñ nh ñ t t khóa qu ng cáo nh m nâng cao hi u qu qu ng cáo. Engine này t ñ ng t o ra cơ s d li u t khóa tương ng v i các trang web trên m ng qu ng cáo c a Hình 1.11. Ví d v qu ng cáo t khóa trên văn b n web [42] nhà cung c p d ch v . Có kho ng 0,1 ñ n 0,2% ngư i lư t web nh p chu t vào các m u 1.4. K t chương qu ng cáo trên trang web. Trong khi ñó t l ngư i ñ c rê chu t và Chương 1 trình bày t ng quan v lĩnh v c qu ng cáo tr c tuy n, nh p vào các thông tin qu ng cáo trên văn b n web lên ñ n 10%. Đây các s li u th ng kê cũng như t c ñ phát tri n c a lĩnh v c này là con s r t n tư ng, ph n ánh m c ñ quan tâm c a ngư i ñ c v i Vi t nam và th gi i. Cũng trong chương này, lu n văn trình bày mô thông tin qu ng cáo nh vào kh năng nh m t i khách hàng ti m t h th ng qu ng cáo tr c tuy n g m nh ng ñ c ñi m, mô hình ho t năng t t hơn do qu ng cáo trên văn b n web mang l i. ñ ng kinh doanh qu ng cáo tr c tuy n, các ñ ño xác ñ nh hi u qu M c tiêu xây d ng h th ng cung c p d ch v qu ng cáo tr c th c hi n qu ng cáo. tuy n trên văn b n web d a trên t khóa ti ng Vi t c a lu n văn này Cu i cùng là mô hình lu n văn ñ xu t xây d ng. H th ng qu ng vì nh ng ưu ñi m n i b t: cáo tr c tuy n d a trên t khóa ti ng Vi t ñư c xây d ng d a trên - Vi c qu ng cáo trên văn b n web g m có ba bên tham gia n n t ng là ph n văn b n trong kh i n i dung chính c a trang web, vào m t quá trình qu ng cáo, g m có: bên cung c p d ch v , thông qua t khóa này, n i dung qu ng cáo s ñư c chuy n t i khi bên bán qu ng cáo và bên mua qu ng cáo. ngư i ñ c nh m vào nó. - Thông tin qu ng cáo ñư c hi n th trên n i dung văn b n chương ti p theo, lu n văn trình bày các nghiên c u, ñ xu t (text) c a trang web, ti p c n v i ngư i ñ c m t cách t phương pháp ñ xây d ng m t Engine (máy x lý t ñ ng) c a h nhiên. Qu ng cáo ch hi n ra khi ngư i ñ c di chu t qua, h th ng qu ng cáo tr c tuy n có kh năng: xác ñ nh n i dung chính c a s không có c m giác b “b t” xem qu ng cáo. trang web, tách t ti ng Vi t và xác ñ nh t khóa.
  6. 11 12 CHƯƠNG 2 - TÁCH N I DUNG CHÍNH VÀ 2.2.2. Các phương pháp x lý T KHÓA TI NG VI T TRÊN WEB 2.2.2.1. Lo i b các tag HTML 2.1. T ng quan chung v khai phá d li u web 2.2.2.2. Phương pháp d a trên t l văn v n và th HTML 2.1.1. Khái ni m 2.2.2.3. Phân ño n trang web VIPS 2.1.2. Đ c ñi m c a khai phá web 2.2.3. Đ xu t phương pháp tách n i dung chính c a lu n văn 2.1.2.1. Nh ng khó khăn trong khai phá web Lu n văn s d ng phương pháp phân tích cây DOM k t h p x lý 2.1.2.2. Thu n l i văn b n ti ng Vi t t i các node v i thu c tính m t ñ câu, t ti ng 2.1.3. Phân lo i khai phá web Vi t, và các liên k t như sau: 2.1.3.1. Khai phá n i dung web (web content mining) - Phân tích các tag HTML, ti n hành xây d ng cây DOM trong 2.1.3.2. Khai phá c u trúc web (web structure mining) ñó các Node ñư c lưu gi nh ng thông tin ñ c trưng c a tag 2.1.3.3. Khai phá s d ng web (web usage mining) HTML mà nó ch a ñ ng. 2.1.4. Hư ng khai phá web c a lu n văn - N i dung chính c a trang web b ng n i dung chính c a Nodei Lu n văn nghiên c u và tri n khai ng d ng th nghi m x lý th a mãn: bóc tách thành ph n chính n i dung c a trang web, x lý tách t khóa Max {(S lư ng t Nodei – S lư ng t có liên k tNodei)xĐ sâuNodei, i=1..n} ti ng Vi t ph c v cho h th ng chuy n phát qu ng cáo tr c tuy n - Ti n hành lo i b m t s tag HTML bên trong Node, lưu d theo thi t k c a tác gi . li u ñư c bóc tách. 2.2. Bóc tách n i dung web Gi i thu t cài ñ t tách n i dung chính c a lu n văn Tác gi l p trình th nghi m th c hi n trích xu t n i dung trên 2.2.1. T ng quan x lý trích xu t n i dung trang web báo m t trang web báo Tu i tr Online, phân tích k t qu thu ñư c: Ph n n i dung chính c a trang Web Hình 2.3. Kh i d li u c n ñư c x lý ph c v m c ñích bài toán Hình 2.10. Phân tích cây DOM v i trang tin báo Tu i tr Online
  7. 13 14 K t qu phương pháp ñ xu t kê trên Internet. K ti p, ñ xác ñ nh t khóa, lu n văn ti p c n d a B ng 2.1. K t qu th nghi m trích xu t n i dung chính c a trang web vào th ng kê phân b các t ti ng Vi t trên các câu v i ñ ño TF-IDF Đ chính xác Đ bao ph Các trang web Đ ño F1 ñ xác ñ nh t khóa. Mô hình th c hi n như sau: trung bình trung bình 10 trang tin vnexpress.net 0.9871 0.9784 0.9827 10 trang tin dantri.vn 0.9717 0.9242 0.9474 10 trang tin báo 0.9736 0.9836 0.9786 vnmedia.vn 10 trang tin NewYork 0.9867 0.9748 0.9790 Times 10 trang tin báo tuoitre.vn 0.9826 0.9716 0.9771 Sau khi có k t qu trích xu t n i dung chính, lu n văn ti n hành nghiên c u x lý tách t ti ng Vi t t n i dung ñó. 2.3. X lý tách t khóa ti ng Vi t M c tiêu x lý tách t khóa ti ng Vi t c a lu n văn nh m th c hi n tìm ki m t p h p các t khóa có th có trong t p d li u các n i dung chính ñư c trích xu t t t p h p t t c các trang web c a m ng 2.3.3.1. Tách t ti ng Vi t qu ng cáo. Lu n văn cài ñ t gi i thu t tách t ti ng Vi t d a vào phương 2.3.1. Tách t ti ng Vi t pháp kh p t i ña ñ so sánh t p các t t o ra và d li u các t ti ng 2.3.1.1. Phương pháp tách t ti ng Vi t d a trên th ng kê Internet Vi t có s lư ng ti ng tương ng trong t ñi n Vi t-Vi t [41]. S 2.3.1.2. Phương pháp kh p t i ña (Maximum Matching) token các ti ng c a văn b n còn l i sau khi tách ñư c (ho c không có 2.3.1.3. Phương pháp h c d a trên s c i bi n trong t ñi n) ñư c chuy n sang xác ñ nh d a trên ñ ño s liên quan 2.3.2. Tách t khóa ti ng Vi t t v ng thông qua Internet v i tr ng s NGD theo công th c: 2.3.2.1. Hư ng ti p c n d a vào th ng kê max{log f ( x), log f ( y )} − log f ( x, y) NGD = Phương pháp t n s t log M − min{log f ( x), log f ( y )} Phương pháp l y tr ng s t d a vào các thông tin khác Tr ng s NGD ñư c lu n văn áp d ng vào th nghi m theo 2.3.2.2. Phương pháp d a trên máy h c nghiên c u c a Alberto J.Evangelista [26]: 2.3.3. Đ xu t phương pháp c a lu n văn NGD ( x, y ) NGD # ( x, y ) = Phương pháp tách t ti ng Vi t c a lu n văn theo hư ng k t h p 0,7 t ñi n ti ng Vi t và ñ ño s liên quan t c a t v ng d a vào th ng K t qu th nghi m phương pháp trên:
  8. 15 16 B ng 2.3. K t qu áp d ng ñ ño NGD khi tách t ti ng Vi t - G i dfi là s lư ng tài li u có ch a t khóa ti trong t p m tài li u T /c m t x y NGD# K t qu nhà hàng h i s n “nhà hàng” “h i s n” 0,673 Ch p nh n ñang xét, ñ ño IDF ñư c tính: h p tác xã “h p” “tác xã” 0,775 Ch p nh n m  bi t ñ ng sài gòn “bi t ñ ng” “sài gòn” 0.670 Ch p nh n idf ij = log  df  = log(m ) − log(df i )  bi t ñ ng Hà N i “bi t ñ ng” “Hà N i” 1.323 Ch p nh n  i  chi n h m tàng hình “chi n h m” “tàng hình” 0.523 Ch p nh n Lu n văn tính tr ng s t khóa ti qua ñ ño wij: ñi n tho i di ñ ng “ñi n tho i” “di ñ ng” 0.393 Ch p nh n ñi n tho i di chuy n “ñi n tho i” “di chuy n” 1.233 Ch p nh n wij = freq (cf ij ) × freq(tf ij ) × idf ij ñi n toán di ñ ng “ñi n toán” “di ñ ng” 0.995 Ch p nh n Gi i thu t xác ñ nh t khóa c a lu n văn Gi i thu t cài ñ t tách t ti ng Vi t c a lu n văn Cài ñ t gi i thu t tính ñ ño wij và ti n hành th nghi m tách t S k t h p tách t thông qua t ñi n và th ng kê t Internet th t ti ng Vi t t i m t trang tin Báo Tu i Tr Online. K t qu thu ñư c: s mang l i hi u qu v t c ñ x lý và kh năng phát hi n nh ng B ng 2.5. Các ñ ño t khóa ñư c ch n theo phương pháp ñ xu t t /c m t ti ng Vi t không có trong t ñi n. Phương pháp này có th T tách ñư c S ph bi n TF×IDF Wij ñ xu t t làm phong phú thêm danh sách t ti ng Vi t và gi m thi u s ph sinh viên 11 3.04445 0.15815 thu c vào Internet sau m t th i gian th c thi. cà phê 13 2.51629 0.14161 ñá bóng 4 2.38925 0.04137 2.3.3.2. Xác ñ nh t khóa thông tin 6 1.2682 0.03294 Phương pháp ñ xu t xác ñ nh t khóa c a lu n văn d a trên ñ t pn p 3 1.75826 0.02283 ño s t n su t xu t hi n c a t trên các câu, ñ ño t n s t TF t ch c 4 1.14261 0.01979 (Tearm Frequency) và ñ ño ngh ch ñ o t n s tài li u IDF (Inverse ho t ñ ng 5 0.91255 0.01975 Document Frequency) như sau: tài kho n 3 2.20292 0.01907 - G i cfij là s lư ng câu có ch a t khóa ti trong t p kj câu c a tài K t qu th nghi m: li u dj ñang xét, thì giá tr t n s t khóa ti xu t hi n trong tài li u Các t khóa có ñ ño TFxIDF cao chưa ph i là ñư c ch n là t ñư c tính: khóa. K t qu tính theo Wij ñ xu t mang l i r t kh quan và h p lý. cf ij freq ( cf ij ) = 2.4. K t chương kj Chương 2 lu n văn ñã trình bày t ng quan v khai phá d li u - G i tfij là s l n xu t hi n c a t khóa ti, ñ ño TF ñư c tính: web, m t ngành m i m ra nhi u hư ng nghiên c u ph c v khai phá freq ( tf ij ) = 1 + log (tf ij ) text thông qua Internet.
  9. 17 18 Trong chương 2, lu n văn ñã l p trình ki m th ñ xu t phương CHƯƠNG 3 - XÂY D NG H TH NG pháp xác ñ nh n i dung trang web thông qua k thu t s d ng ñ sâu QU NG CÁO TR C TUY N cây DOM c a trang web k t h p ñ ño m t ñ liên k t trong các 3.1. T ng quan h th ng Node cho k t qu bóc tách t t. 3.1.1. Các thành ph n N i dung ñư c bóc tách ñư c chuy n sang tách t ti ng Vi t. Lu n văn ñã nghiên c u k t h p tách t s d ng t ñi n có s n k t h p v i x lý tách t nh thông kê qua Internet, c th là xác ñ nh ñ ño NGD nh m tìm ra nh ng t ti ng Vi t chưa có trong t ñi n. Đ xác ñ nh t khóa ti ng Vi t theo danh sách t tách ñư c, lu n văn ñã ti n hành th nghi m và ñưa ra ñ ño tr ng s t d a trên 3 ñ ño chính: ñ ño m t ñ câu có ch a t trong tài li u, ñ ño t n s t và ñ ño ngh ch ñ o t n s . Nh ng t có wij cao nh t là nh ng t khóa tài li u. Quá trình nghiên c u ñ t th nghi m ñư c th c hi n chương hai theo sơ ñ sau: 3.1.2. Mô hình nghi p v h th ng xây d ng chương ti p theo, lu n văn trình bày xây d ng h th ng qu ng cáo tr c tuy n, s d ng các t khóa ñư c lưu tr làm cơ s ñ ch n t cũng như phát qu ng cáo trên t khóa này. Hình 3.2. Mô hình ho t ñ ng c a h th ng qu ng cáo ñ xu t
  10. 19 20 3.2. Phân tích và thi t k 3.2.3. Tác nhân tham gia h th ng 3.2.1. Thành ph n m ng qu ng cáo (Ad Network) 3.2.3.1. Ch c năng c a Advertiser 3.2.2. Thành ph n Engine tách t khóa Bi u ñ ca s d ng c a Advertiser Engine tách t khóa cung c p danh sách nh ng t khóa tương ng Bi u ñ ho t ñ ng mô-ñun ñăng m u qu ng cáo v i trang web mà nó x chuy n ñư c nh p vào cơ s d li u máy ch 3.2.3.2. Ch c năng c a Publisher qu ng cáo tr c tuy n. Bi u ñ ca s d ng c a Publisher 3.2.3.3. Ch c năng c a AdManager Bi u ñ ca s d ng c a Ad Manager Bi u ñ ca s d ng Ad Manager 3.2.4. Portal AdServer Portal AdServer là website bao g m hai thành ph n chính: thành ph n giao di n ti n ích ngư i dùng và thành ph n chuy n phát qu ng cáo AdScript. Hình 3.4. Mô hình ch c năng c a Engine tách t khóa 3.2.2.1. Mô-ñun tách n i dung chính c a trang web Mô-ñun tách n i dung chính c a trang web ñư c th c hi n d a trên phương pháp ñ xu t c a lu n văn ph n 2.3.3, chương 2. Bi u ñ ho t ñ ng tách n i dung chính c a trang web 3.2.2.2. Mô-ñun tách t khóa ti ng Vi t Mô-ñun tách t khóa ti ng Vi t bao g m hai thành ph n chính: tách t ti ng Vi t và tính toán l a ch n t khóa c a n i dung c n tách. Bi u ñ ho t ñ ng mô-ñun tách t khóa ti ng Vi t Hình 3.12. Bi u ñ ca s d ng Portal AdServer
  11. 21 22 Sơ ñ ho t ñ ng ch c năng n p t khóa lên trang web 3.3.2. Công c và môi trư ng l p trình Sơ ñ ho t ñ ng chuy n phát m u qu ng cáo 3.3.3. Sơ ñ tri n khai h th ng 3.3. Xây d ng và tri n khai 3.3.1. Thi t k cơ s d li u Hình 3.16. Sơ ñ tri n khai h th ng qu ng cáo tr c tuy n 3.4. Th nghi m và ñánh giá k t qu 3.4.1. Th nghi m Môi trư ng và d li u th nghi m ng d ng 3.4.1.1. Th nghi m Engine tách t khóa ti ng Vi t Hình 3.15. Bi u ñ quan h th c th h th ng qu ng cáo tr c tuy n Hình 3.17. Th nghi m Engine tách t khóa ti ng Vi t
  12. 23 24 3.4.1.2. Th nghi m tri n khai qu ng cáo trên Portal AdServer 3.4.1.4. Đo lư ng hi u qu qu ng cáo ñã th c hi n C ng truy nh p h th ng Công c ño lư ng hi u qu qu ng cáo tr c tuy n Ad Manager, Ad Manager qu n lý các Publisher Publisher và Advertiser. Publisher thiêt l p m ng qu ng cáo Publisher cài ñ t Ad Script qu ng cáo vào website Advertiser qu n lý ñ t qu ng cáo Advertiser thi t l p phát qu ng cáo lên m ng qu ng cáo 3.4.1.3. Th nghi m phát qu ng cáo tr c tuy n qua Ad Script Các t khóa ñư c thi t l p qu ng cáo ñư c phát chính xác vào Đo ñư c ph n văn b n (text) n i dung chính c a trang web. Khi di chu t qua 16 CPM và 19 CPC t khóa có ñánh d u, m u qu ng cáo s xu t hi n. Hình 3.27. Th nghi m th ng kê ño lư ng hi u qu qu ng cáo 3.4.2. Phân tích s li u th ng kê th nghi m h th ng B ng 3.1. K t qu th nghi m h th ng STT N i dung K t qu 1 Th i gian x lý tách n i dung chính trang web 0.2 giây /1 trang Th i gian tách t khóa ti ng Vi t v i t ñi n ti ng 2 6 giây / 1 trang Vi t 30.000 t Th i gian x lý tách t khóa ti ng Vi t s d ng 3 phương pháp k t h p t ñi n và th ng kê qua 58 giây /1 trang Interrnet v i ñ ño NGD Kh năng m r ng d ch v cung c p qu ng cáo tr c 5 tuy n ña ngư i dùng (nhi u Ad Manager, Không h n ch Advertiser, Publisher) Kh năng m r ng m ng qu ng cáo và kho d li u Tùy thu c vào kh 6 trang web c a m ng qu ng cáo năng lưu tr Hình 3.25. Qu ng cáo t khóa ti ng Vi t xu t hi n trên báo ñi n t 7 S lư ng m u qu ng cáo Advertiser có th t o Không h n ch Th nghi m qu ng cáo trên các thi t b có màn hình truy c p h n 8 Kh năng mô t n i dung m u qu ng cáo trên Còn h n ch Portal AdServer ch như Tablet PC, SmartPhone v i các t khóa “ñông ñ o”, “thông T c ñ chuy n phát trung bình t khóa qu ng cáo 0,9 giây / toàn trang 9 minh”. v i s lư ng t khóa ti ng trung bình 5 t khóa web Th i gian trung bình ph n h i và ghi các ñ ño hi u 1,7 giây/m i l n 10 qu qu ng cáo nh p chu t t khóa nh hư ng t c ñ , mã ngu n trình bày trang web 11 Không nh hư ng c a m ng qu ng cáo
  13. 25 26 3.4.3. Đánh giá k t qu K T LU N - K t qu th nghi m phát qu ng cáo và hi n th qu ng cáo 1. K t qu ñ t ñư c ñúng vào n i dung văn b n chính trên trang web các trình Đ tài lu n văn ñã ñ t ñư c nh ng yêu c u ñã ñ t ra v m t lý duy t web trên máy tính và thi t b c m tay: ñi n tho i thuy t cũng như ng d ng trong th c ti n. smartphone, máy tính b ng, Internet TV. V m t lý thuy t, ñ tài ñã nghiên c u và th nghi m v lĩnh v c - Phân h Engine tách t khóa ti ng Vi t tách chính xác ph n khai phá n i dung web. Th c hi n x lý ngôn ng , tách t và xác n i dung chính và t khóa cho h th ng qu ng cáo tr c tuy n. ñ nh t khóa ti ng Vi t. Đ tài ñã ñ xu t các phương pháp m i d a - Xây d ng c ng thông tin qu n lý nghi p v qu ng cáo tr c trên nh ng nghiên c u trư c ñây nh m v n d ng gi i quy t bài toán tuy n Portal AdServer tr c quan và thu n l i như vi c thi t ñ t ra. l p m ng qu ng cáo, ñăng qu ng cáo và th ng kê. V m t th c ti n, ñ tài ñã xây h th ng qu n lý qu ng cáo tr c - H th ng xây d ng là s k t h p quy trình x lý thông tin tuy n v i t khóa ti ng Vi t, t o ra m t s n ph m cung c p d ch v nhu n nhuy n t m ng qu ng cáo, Engine tách t khóa ti ng qu ng cáo trên Internet v i k thu t m i, ñáp ng xu th phát tri n Vi t, qu n lý và th c hi n chuy n phát, ño lư ng qu ng cáo. c a th trư ng qu ng cáo tr c tuy n Vi t nam còn nhi u ti m năng. - Có ti m năng phát tri n trong tương lai cũng như m r ng áp 2. H n ch d ng sang m t s lĩnh v c liên quan ñ n d ch v t khóa tr c Đ chính xác tách t ti ng Vi t phân h Engine tách t khóa v n tuy n. còn ph thu c vào s phong phú c a d li u t ñi n và t c ñ truy n 3.5. K t chương t i trên Internet. Các Ad Script chuy n phát qu ng cáo chưa ho t Trong chương này, lu n văn ti n hành phân tích và thi t k m t s ñ ng t t v i t t c các trình duy t web t t c các thi t b . ch c năng chính c a h th ng qu ng cáo tr c tuy n v i t khóa ti ng 3. Hư ng phát tri n Vi t. Phân tích các ca s d ng, các bi u ñ mô t ho t ñ ng t ñăng C n ñư c c p nh t công ngh kh c ph c nh ng h n ch nêu trên. m u qu ng cáo ñ n n p t khóa lên các trang web, phát m u qu ng Phát tri n Engine có phân tích, t ng h p các ch ñ thông tin theo cáo ñ n ngư i ñ c. Cu i chương là l p trình, xây d ng và tri n khai c u trúc website trên m ng qu ng cáo giúp h th ng phát n i dung h th ng v i ph n th nghi m và ñánh giá k t qu th c hi n. qu ng cáo t ñ ng theo suy di n, tăng hi u qu qu ng cáo. Phát tri n kh năng phân ph i qu ng cáo trên n i dung chính c a trang web m t cách h p lý, phù h p ñ a phương, th i gian, nhu c u khai thác thông tin c a ngư i ñ c.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2