Luận văn thạc sĩ: Xây dựng hệ thống quảng cáo trực tuyến dựa trên từ khóa tiếng Việt
lượt xem 22
download
Xây dựng hệ thống quảng cáo trực tuyến dựa trên từ khóa tiếng Việt nhằm tìm hiểu kỹ thuật khai phá dữ liệu web để định phần nội dung của trang web thuộc mạng quảng cáo.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn thạc sĩ: Xây dựng hệ thống quảng cáo trực tuyến dựa trên từ khóa tiếng Việt
- 1 2 Công trình ñư c hoàn thành t i B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG Đ I H C ĐÀ N NG PH M XUÂN THÀNH Ngư i hư ng d n khoa h c: TS. Nguy n Thanh Bình XÂY D NG H TH NG Ph n bi n 1: TS. Huỳnh H u Hưng QU NG CÁO TR C TUY N D A TRÊN T KHÓA TI NG VI T Ph n bi n 2: PGS.TS. Đoàn Văn Ban Chuyên ngành : Khoa h c máy tính Lu n văn ñư c b o v t i H i ñ ng ch m Lu n văn t t Mã s : 60.48.01 nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 15 tháng 12 năm 2012 TÓM T T LU N VĂN TH C SĨ K THU T Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng; Đà N ng - Năm 2012 - Trung tâm H c li u, Đ i h c Đà N ng;
- 3 4 M Đ U 2. M c ñích nghiên c u Nghiên c u, tìm hi u k thu t khai phá d li u web nh m xác 1. Lý do ch n ñ tài ñ nh ph n n i dung chính c a trang web thu c m ng qu ng cáo; ti n Ngày nay Word Wide Web ñã tr thành m t kho tài nguyên d hành nghiên c u tách t khóa n i dung ñó nh m xây d ng máy x li u kh ng l v m i lĩnh v c. Lư ng truy c p và trao ñ i thông tin lý t khóa ti ng Vi t t ñ ng, nâng cao m c tiêu hi u qu c a h qua Word Wide Web di n ra liên t c t o ra m ng lư i truy n thông th ng qu ng cáo tr c tuy n s xây d ng. bao ph kh p toàn c u khi n kênh truy n thông này tr thành m t 3. Đ i tư ng và ph m vi nghiên c u m nh ñ t màu m cho ho t ñ ng qu ng cáo tr c tuy n. - Nghiên c u tìm hi u lĩnh v c qu ng cáo tr c tuy n và mô Vi t Nam hi n nay, t c ñ tăng trư ng ngư i dùng Internet tăng hình d ch v qu ng cáo tr c tuy n. cao nhưng t ng doanh thu qu ng cáo tr c tuy n Vi t Nam v n - Th c hi n khai phá d li u web ñ xác ñ nh bóc tách n i m c khá khiêm t n - 480 t ñ ng năm 2010, chi m 0,4% t ng chi dung chính c a trang web. cho qu ng cáo. - X lý tách t ti ng Vi t và xác ñ nh t khóa c a văn b n. Ch s ngân sách qu ng cáo tr c tuy n hàng năm trên m i ngư i - Thi t k , xây d ng h th ng qu ng cáo tr c tuy n. s d ng c a Vi t Nam hi n ch có 0,5 USD, kém xa so v i ch s này 4. Phương pháp nghiên c u các nư c phát tri n như M là 171,5 USD ho c Trung Qu c 10 5. Ý nghĩa khoa h c và th c ti n c a ñ tài USD. D ki n ñ n năm 2015 th trư ng qu ng cáo tr c tuy n Vi t Đ tài v n d ng các nghiên c u, ñ xu t phương pháp xây d ng Nam m i phát tri n n ñ nh. h th ng qu ng cáo tr c tuy n nh m khai thác qu ng cáo khía c nh Hình th c qu ng cáo tr c tuy n ph bi n Vi t Nam thư ng dành các t khóa c a n i dung văn b n trang web, là m t trong nh ng m t ph n l n di n tích trang web ñ hi n th qu ng cáo gây tr ng i hư ng ñi m i c a công ngh qu ng cáo tr c tuy n hi n nay. ñ n vi c khai thác thông tin c a b n ñ c. Hình th c qu ng cáo này 6. C u trúc c a lu n văn cũng không phù h p v i các thi t b duy t web, có kích thư c màn N i dung lu n văn bao g m ph n m ñ u, ba chương và ph n k t hình h n ch như Smart Phone, máy tính b ng hay thi t b gi i trí lu n. Cu i m i chương có ph n k t chương, c th : truy nh p Internet khác. Chương 1: QU NG CÁO TR C TUY N. Lu n văn trình bày Lu n văn ñ xu t hư ng khai thác qu ng cáo tr c tuy n b ng cách t ng quan v lĩnh v c qu ng cáo tr c tuy n, các s li u th ng kê liên s d ng các t khóa ti ng Vi t ph n văn b n c a n i dung chính quan, nh ng ñ c ñi m và mô hình ho t ñ ng c a h th ng qu ng cáo trang web chuy n t i qu ng cáo. Hình th c là xu hư ng m i, c i tr c tuy n. Cũng trong chương này lu n văn ñ xu t mô hình xây thi n nh ng h n ch qu ng cáo tr c tuy n hi n nay nư c ta. d ng h th ng qu ng cáo tr c tuy n d a trên n n t ng là các t khóa
- 5 6 n i dung chính c a trang web, trình bày nh ng ưu ñi m h th ng CHƯƠNG 1 - QU NG CÁO TR C TUY N này mang l i. 1.1. Gi i thi u chung v qu ng cáo Chương 2: TÁCH N I DUNG CHÍNH VÀ T KHÓA Qu ng cáo là hình th c tuyên truy n ñư c tr ti n ñ th c hi n TI NG VI T TRÊN WEB. Lu n văn t p trung nghiên c u k thu t vi c gi i thi u thông tin v s n ph m, d ch v , công ty hay ý tư ng. khai phá d li u web lĩnh v c khai thác n i dung thông tin. Chương Qu ng cáo là ho t ñ ng truy n thông phi tr c ti p gi a ngư i v i này th c hi n ba nhi m v chính: nghiên c u và ñ xu t phương pháp ngư i mà trong ñó ngư i mu n truy n thông ph i tr ti n cho các bóc tách n i dung chính c a trang web, th c hi n tách t ti ng Vi t phương ti n truy n thông ñ i chúng ñ ñưa thông tin ñ n thuy t ph c và xác ñ nh t khóa trên n i dung chính này. Nhóm các t khóa tách hay tác ñ ng ñ n ngư i nh n thông tin. ñư c s ph c v cho phân h Engine tách t khóa thu c h th ng 1.2. Qu ng cáo tr c tuy n qu ng cáo tr c tuy n. Engine này cung c p cho ngư i ñăng qu ng Qu ng cáo tr c tuy n khác h n qu ng cáo trên các phương ti n cáo d dàng ch n t khóa liên quan ñ n trang web mà h qu ng cáo cũng như h th ng qu ng cáo phát m u qu ng cáo chính xác vào thông tin ñ i chúng khác, nó giúp ngư i tiêu dùng có th tương tác ph n n i dung chính trên trang web có t khóa ñã ñư c thi t l p. v i qu ng cáo. Nó không b gi i h n b i v trí ñ a lý hay th i gian; Chương 3: XÂY D NG H TH NG QU NG CÁO TR C truy n ñ t thông tin qu ng cáo m c ñ toàn c u t i m t lư ng l n TUY N. Lu n văn ti n hành xây d ng h th ng qu ng cáo tr c ngư i dùng v i m t chi phí r t th p. tuy n v i t khóa ti ng Vi t. H th ng bao g m hai thành ph n 1.2.1. Internet, m ng truy n thông cho qu ng cáo tr c tuy n chính: xây d ng Engine x lý tách t khóa ti ng Vi t v i các phương Vi t Nam là qu c gia có t l tăng trư ng Internet nhanh nh t pháp ñã ñ xu t chương 2, h th ng qu n lý (Portal AdServer) và trong khu v c. Có 26.8 tri u ngư i s d ng vào th i ñi m cu i năm chuy n phát qu ng cáo (Ad Script) lên m ng qu ng cáo. Lu n văn ñ 2010, ñ i di n cho 31% dân s và thái ñ ñ i v i qu ng cáo tr c xu t mô hình h th ng xây d ng, trình bày các thi t k ch c năng, sơ tuy n ñư c mô t như sau: ñ ho t ñ ng, cơ s d li u và mô hình tri n khai h th ng qu ng cáo tr c tuy n. Cu i chương là ph n th nghi m và ñánh giá k t qu quá trình th c hi n ch c năng các thành ph n c a h th ng qu ng cáo tr c tuy n. Ph n k t lu n nêu nh ng k t qu ñ t ñư c, hư ng nghiên c u trong ñ xu t t khóa ti ng Vi t và phát tri n hoàn thi n h th ng qu ng cáo tr c tuy n ñã xây d ng Hình 1.6. Thái ñ ngư i ñ c tin v i qu ng cáo tr c tuy n
- 7 8 1.2.2. S phát tri n c a qu ng cáo tr c tuy n - Tính tương tác 1.3.2. Mô hình ho t ñ ng kinh doanh qu ng cáo tr c tuy n Qua nghiên c u và kh o sát, mô hình ho t ñ ng kinh doanh qu ng cáo tr c tuy n bao g m ba thành ph n chính, ñó là Advertiser, Publisher và Ad Manager. Hình 1.7. Doanh thu qu ng cáo tr c tuy n M qua 10 năm 1.2.3. Qu ng cáo tr c tuy n Vi t Nam 1.2.3.1. S li u th ng kê 1.2.3.2. Các hình th c qu ng cáo tr c tuy n Vi t Nam Hình th c qu ng cáo tr c tuy n ph bi n Vi t Nam thư ng dành Hình 1.10. Mô hình tham gia qu ng cáo tr c tuy n m t ph n l n di n tích trang web ñ hi n th qu ng cáo gây tr ng i 1.3.3. Các ñ ño hi u qu qu ng cáo tr c tuy n ñ n vi c khai thác thông tin c a b n ñ c. Phương pháp ño lư ng hi u qu qu ng cáo chính là các tiêu chí 1.2.3.3. Phát tri n qu ng cáo tr c tuy n Vi t Nam là c n thi t ñánh giá c a ngành qu ng cáo tr c tuy n. Th trư ng qu ng cáo trưc tuy n Vi t Nam tuy v n còn giai 1.3.3.1. CPD ño n m i phát tri n. C n có nghiên c u, xây d ng các h th ng 1.3.3.2. CPM qu ng cáo có hàm lư ng công ngh m i ñáp ng ñư c xu th như 1.3.3.3. CPC qu ng cáo trên máy tìm ki m hay qu ng cáo theo hành vi, ng c nh, 1.3.3.4. CPA qu ng cáo t khóa ti ng Vi t … 1.3.3.5. CTR 1.3. H th ng chuy n phát qu ng cáo tr c tuy n 1.3.4. Mô hình qu ng cáo tr c tuy n ñ xu t c a lu n văn 1.3.1. Đ c ñi m qu ng cáo tr c tuy n Lu n văn ñ xu t hư ng khai thác qu ng cáo tr c tuy n b ng cách - Kh năng nh m ch n s d ng các t khóa ti ng Vi t ph n văn b n c a n i dung chính - Kh năng theo dõi trang web chuy n t i qu ng cáo. - Tính linh ho t và kh năng phân ph i
- 9 10 - Vi c tính chi phí qu ng cáo theo CPC hay CPA giúp cho ñ t qu ng cáo c a bên mua qu ng cáo hi u qu hơn r t nhi u so v i cách tính chi phí c ñ nh. khi rê chu t và t khóa ñư c n ñ nh, qu ng cáo s xu t hi n - Ch ñ ng trong vi c qu n lý ñ t qu ng cáo cho bên mua qu ng cáo. - H th ng Engine tách t ti ng s h tr ngư i ñăng qu ng cáo quy t ñ nh ñ t t khóa qu ng cáo nh m nâng cao hi u qu qu ng cáo. Engine này t ñ ng t o ra cơ s d li u t khóa tương ng v i các trang web trên m ng qu ng cáo c a Hình 1.11. Ví d v qu ng cáo t khóa trên văn b n web [42] nhà cung c p d ch v . Có kho ng 0,1 ñ n 0,2% ngư i lư t web nh p chu t vào các m u 1.4. K t chương qu ng cáo trên trang web. Trong khi ñó t l ngư i ñ c rê chu t và Chương 1 trình bày t ng quan v lĩnh v c qu ng cáo tr c tuy n, nh p vào các thông tin qu ng cáo trên văn b n web lên ñ n 10%. Đây các s li u th ng kê cũng như t c ñ phát tri n c a lĩnh v c này là con s r t n tư ng, ph n ánh m c ñ quan tâm c a ngư i ñ c v i Vi t nam và th gi i. Cũng trong chương này, lu n văn trình bày mô thông tin qu ng cáo nh vào kh năng nh m t i khách hàng ti m t h th ng qu ng cáo tr c tuy n g m nh ng ñ c ñi m, mô hình ho t năng t t hơn do qu ng cáo trên văn b n web mang l i. ñ ng kinh doanh qu ng cáo tr c tuy n, các ñ ño xác ñ nh hi u qu M c tiêu xây d ng h th ng cung c p d ch v qu ng cáo tr c th c hi n qu ng cáo. tuy n trên văn b n web d a trên t khóa ti ng Vi t c a lu n văn này Cu i cùng là mô hình lu n văn ñ xu t xây d ng. H th ng qu ng vì nh ng ưu ñi m n i b t: cáo tr c tuy n d a trên t khóa ti ng Vi t ñư c xây d ng d a trên - Vi c qu ng cáo trên văn b n web g m có ba bên tham gia n n t ng là ph n văn b n trong kh i n i dung chính c a trang web, vào m t quá trình qu ng cáo, g m có: bên cung c p d ch v , thông qua t khóa này, n i dung qu ng cáo s ñư c chuy n t i khi bên bán qu ng cáo và bên mua qu ng cáo. ngư i ñ c nh m vào nó. - Thông tin qu ng cáo ñư c hi n th trên n i dung văn b n chương ti p theo, lu n văn trình bày các nghiên c u, ñ xu t (text) c a trang web, ti p c n v i ngư i ñ c m t cách t phương pháp ñ xây d ng m t Engine (máy x lý t ñ ng) c a h nhiên. Qu ng cáo ch hi n ra khi ngư i ñ c di chu t qua, h th ng qu ng cáo tr c tuy n có kh năng: xác ñ nh n i dung chính c a s không có c m giác b “b t” xem qu ng cáo. trang web, tách t ti ng Vi t và xác ñ nh t khóa.
- 11 12 CHƯƠNG 2 - TÁCH N I DUNG CHÍNH VÀ 2.2.2. Các phương pháp x lý T KHÓA TI NG VI T TRÊN WEB 2.2.2.1. Lo i b các tag HTML 2.1. T ng quan chung v khai phá d li u web 2.2.2.2. Phương pháp d a trên t l văn v n và th HTML 2.1.1. Khái ni m 2.2.2.3. Phân ño n trang web VIPS 2.1.2. Đ c ñi m c a khai phá web 2.2.3. Đ xu t phương pháp tách n i dung chính c a lu n văn 2.1.2.1. Nh ng khó khăn trong khai phá web Lu n văn s d ng phương pháp phân tích cây DOM k t h p x lý 2.1.2.2. Thu n l i văn b n ti ng Vi t t i các node v i thu c tính m t ñ câu, t ti ng 2.1.3. Phân lo i khai phá web Vi t, và các liên k t như sau: 2.1.3.1. Khai phá n i dung web (web content mining) - Phân tích các tag HTML, ti n hành xây d ng cây DOM trong 2.1.3.2. Khai phá c u trúc web (web structure mining) ñó các Node ñư c lưu gi nh ng thông tin ñ c trưng c a tag 2.1.3.3. Khai phá s d ng web (web usage mining) HTML mà nó ch a ñ ng. 2.1.4. Hư ng khai phá web c a lu n văn - N i dung chính c a trang web b ng n i dung chính c a Nodei Lu n văn nghiên c u và tri n khai ng d ng th nghi m x lý th a mãn: bóc tách thành ph n chính n i dung c a trang web, x lý tách t khóa Max {(S lư ng t Nodei – S lư ng t có liên k tNodei)xĐ sâuNodei, i=1..n} ti ng Vi t ph c v cho h th ng chuy n phát qu ng cáo tr c tuy n - Ti n hành lo i b m t s tag HTML bên trong Node, lưu d theo thi t k c a tác gi . li u ñư c bóc tách. 2.2. Bóc tách n i dung web Gi i thu t cài ñ t tách n i dung chính c a lu n văn Tác gi l p trình th nghi m th c hi n trích xu t n i dung trên 2.2.1. T ng quan x lý trích xu t n i dung trang web báo m t trang web báo Tu i tr Online, phân tích k t qu thu ñư c: Ph n n i dung chính c a trang Web Hình 2.3. Kh i d li u c n ñư c x lý ph c v m c ñích bài toán Hình 2.10. Phân tích cây DOM v i trang tin báo Tu i tr Online
- 13 14 K t qu phương pháp ñ xu t kê trên Internet. K ti p, ñ xác ñ nh t khóa, lu n văn ti p c n d a B ng 2.1. K t qu th nghi m trích xu t n i dung chính c a trang web vào th ng kê phân b các t ti ng Vi t trên các câu v i ñ ño TF-IDF Đ chính xác Đ bao ph Các trang web Đ ño F1 ñ xác ñ nh t khóa. Mô hình th c hi n như sau: trung bình trung bình 10 trang tin vnexpress.net 0.9871 0.9784 0.9827 10 trang tin dantri.vn 0.9717 0.9242 0.9474 10 trang tin báo 0.9736 0.9836 0.9786 vnmedia.vn 10 trang tin NewYork 0.9867 0.9748 0.9790 Times 10 trang tin báo tuoitre.vn 0.9826 0.9716 0.9771 Sau khi có k t qu trích xu t n i dung chính, lu n văn ti n hành nghiên c u x lý tách t ti ng Vi t t n i dung ñó. 2.3. X lý tách t khóa ti ng Vi t M c tiêu x lý tách t khóa ti ng Vi t c a lu n văn nh m th c hi n tìm ki m t p h p các t khóa có th có trong t p d li u các n i dung chính ñư c trích xu t t t p h p t t c các trang web c a m ng 2.3.3.1. Tách t ti ng Vi t qu ng cáo. Lu n văn cài ñ t gi i thu t tách t ti ng Vi t d a vào phương 2.3.1. Tách t ti ng Vi t pháp kh p t i ña ñ so sánh t p các t t o ra và d li u các t ti ng 2.3.1.1. Phương pháp tách t ti ng Vi t d a trên th ng kê Internet Vi t có s lư ng ti ng tương ng trong t ñi n Vi t-Vi t [41]. S 2.3.1.2. Phương pháp kh p t i ña (Maximum Matching) token các ti ng c a văn b n còn l i sau khi tách ñư c (ho c không có 2.3.1.3. Phương pháp h c d a trên s c i bi n trong t ñi n) ñư c chuy n sang xác ñ nh d a trên ñ ño s liên quan 2.3.2. Tách t khóa ti ng Vi t t v ng thông qua Internet v i tr ng s NGD theo công th c: 2.3.2.1. Hư ng ti p c n d a vào th ng kê max{log f ( x), log f ( y )} − log f ( x, y) NGD = Phương pháp t n s t log M − min{log f ( x), log f ( y )} Phương pháp l y tr ng s t d a vào các thông tin khác Tr ng s NGD ñư c lu n văn áp d ng vào th nghi m theo 2.3.2.2. Phương pháp d a trên máy h c nghiên c u c a Alberto J.Evangelista [26]: 2.3.3. Đ xu t phương pháp c a lu n văn NGD ( x, y ) NGD # ( x, y ) = Phương pháp tách t ti ng Vi t c a lu n văn theo hư ng k t h p 0,7 t ñi n ti ng Vi t và ñ ño s liên quan t c a t v ng d a vào th ng K t qu th nghi m phương pháp trên:
- 15 16 B ng 2.3. K t qu áp d ng ñ ño NGD khi tách t ti ng Vi t - G i dfi là s lư ng tài li u có ch a t khóa ti trong t p m tài li u T /c m t x y NGD# K t qu nhà hàng h i s n “nhà hàng” “h i s n” 0,673 Ch p nh n ñang xét, ñ ño IDF ñư c tính: h p tác xã “h p” “tác xã” 0,775 Ch p nh n m bi t ñ ng sài gòn “bi t ñ ng” “sài gòn” 0.670 Ch p nh n idf ij = log df = log(m ) − log(df i ) bi t ñ ng Hà N i “bi t ñ ng” “Hà N i” 1.323 Ch p nh n i chi n h m tàng hình “chi n h m” “tàng hình” 0.523 Ch p nh n Lu n văn tính tr ng s t khóa ti qua ñ ño wij: ñi n tho i di ñ ng “ñi n tho i” “di ñ ng” 0.393 Ch p nh n ñi n tho i di chuy n “ñi n tho i” “di chuy n” 1.233 Ch p nh n wij = freq (cf ij ) × freq(tf ij ) × idf ij ñi n toán di ñ ng “ñi n toán” “di ñ ng” 0.995 Ch p nh n Gi i thu t xác ñ nh t khóa c a lu n văn Gi i thu t cài ñ t tách t ti ng Vi t c a lu n văn Cài ñ t gi i thu t tính ñ ño wij và ti n hành th nghi m tách t S k t h p tách t thông qua t ñi n và th ng kê t Internet th t ti ng Vi t t i m t trang tin Báo Tu i Tr Online. K t qu thu ñư c: s mang l i hi u qu v t c ñ x lý và kh năng phát hi n nh ng B ng 2.5. Các ñ ño t khóa ñư c ch n theo phương pháp ñ xu t t /c m t ti ng Vi t không có trong t ñi n. Phương pháp này có th T tách ñư c S ph bi n TF×IDF Wij ñ xu t t làm phong phú thêm danh sách t ti ng Vi t và gi m thi u s ph sinh viên 11 3.04445 0.15815 thu c vào Internet sau m t th i gian th c thi. cà phê 13 2.51629 0.14161 ñá bóng 4 2.38925 0.04137 2.3.3.2. Xác ñ nh t khóa thông tin 6 1.2682 0.03294 Phương pháp ñ xu t xác ñ nh t khóa c a lu n văn d a trên ñ t pn p 3 1.75826 0.02283 ño s t n su t xu t hi n c a t trên các câu, ñ ño t n s t TF t ch c 4 1.14261 0.01979 (Tearm Frequency) và ñ ño ngh ch ñ o t n s tài li u IDF (Inverse ho t ñ ng 5 0.91255 0.01975 Document Frequency) như sau: tài kho n 3 2.20292 0.01907 - G i cfij là s lư ng câu có ch a t khóa ti trong t p kj câu c a tài K t qu th nghi m: li u dj ñang xét, thì giá tr t n s t khóa ti xu t hi n trong tài li u Các t khóa có ñ ño TFxIDF cao chưa ph i là ñư c ch n là t ñư c tính: khóa. K t qu tính theo Wij ñ xu t mang l i r t kh quan và h p lý. cf ij freq ( cf ij ) = 2.4. K t chương kj Chương 2 lu n văn ñã trình bày t ng quan v khai phá d li u - G i tfij là s l n xu t hi n c a t khóa ti, ñ ño TF ñư c tính: web, m t ngành m i m ra nhi u hư ng nghiên c u ph c v khai phá freq ( tf ij ) = 1 + log (tf ij ) text thông qua Internet.
- 17 18 Trong chương 2, lu n văn ñã l p trình ki m th ñ xu t phương CHƯƠNG 3 - XÂY D NG H TH NG pháp xác ñ nh n i dung trang web thông qua k thu t s d ng ñ sâu QU NG CÁO TR C TUY N cây DOM c a trang web k t h p ñ ño m t ñ liên k t trong các 3.1. T ng quan h th ng Node cho k t qu bóc tách t t. 3.1.1. Các thành ph n N i dung ñư c bóc tách ñư c chuy n sang tách t ti ng Vi t. Lu n văn ñã nghiên c u k t h p tách t s d ng t ñi n có s n k t h p v i x lý tách t nh thông kê qua Internet, c th là xác ñ nh ñ ño NGD nh m tìm ra nh ng t ti ng Vi t chưa có trong t ñi n. Đ xác ñ nh t khóa ti ng Vi t theo danh sách t tách ñư c, lu n văn ñã ti n hành th nghi m và ñưa ra ñ ño tr ng s t d a trên 3 ñ ño chính: ñ ño m t ñ câu có ch a t trong tài li u, ñ ño t n s t và ñ ño ngh ch ñ o t n s . Nh ng t có wij cao nh t là nh ng t khóa tài li u. Quá trình nghiên c u ñ t th nghi m ñư c th c hi n chương hai theo sơ ñ sau: 3.1.2. Mô hình nghi p v h th ng xây d ng chương ti p theo, lu n văn trình bày xây d ng h th ng qu ng cáo tr c tuy n, s d ng các t khóa ñư c lưu tr làm cơ s ñ ch n t cũng như phát qu ng cáo trên t khóa này. Hình 3.2. Mô hình ho t ñ ng c a h th ng qu ng cáo ñ xu t
- 19 20 3.2. Phân tích và thi t k 3.2.3. Tác nhân tham gia h th ng 3.2.1. Thành ph n m ng qu ng cáo (Ad Network) 3.2.3.1. Ch c năng c a Advertiser 3.2.2. Thành ph n Engine tách t khóa Bi u ñ ca s d ng c a Advertiser Engine tách t khóa cung c p danh sách nh ng t khóa tương ng Bi u ñ ho t ñ ng mô-ñun ñăng m u qu ng cáo v i trang web mà nó x chuy n ñư c nh p vào cơ s d li u máy ch 3.2.3.2. Ch c năng c a Publisher qu ng cáo tr c tuy n. Bi u ñ ca s d ng c a Publisher 3.2.3.3. Ch c năng c a AdManager Bi u ñ ca s d ng c a Ad Manager Bi u ñ ca s d ng Ad Manager 3.2.4. Portal AdServer Portal AdServer là website bao g m hai thành ph n chính: thành ph n giao di n ti n ích ngư i dùng và thành ph n chuy n phát qu ng cáo AdScript. Hình 3.4. Mô hình ch c năng c a Engine tách t khóa 3.2.2.1. Mô-ñun tách n i dung chính c a trang web Mô-ñun tách n i dung chính c a trang web ñư c th c hi n d a trên phương pháp ñ xu t c a lu n văn ph n 2.3.3, chương 2. Bi u ñ ho t ñ ng tách n i dung chính c a trang web 3.2.2.2. Mô-ñun tách t khóa ti ng Vi t Mô-ñun tách t khóa ti ng Vi t bao g m hai thành ph n chính: tách t ti ng Vi t và tính toán l a ch n t khóa c a n i dung c n tách. Bi u ñ ho t ñ ng mô-ñun tách t khóa ti ng Vi t Hình 3.12. Bi u ñ ca s d ng Portal AdServer
- 21 22 Sơ ñ ho t ñ ng ch c năng n p t khóa lên trang web 3.3.2. Công c và môi trư ng l p trình Sơ ñ ho t ñ ng chuy n phát m u qu ng cáo 3.3.3. Sơ ñ tri n khai h th ng 3.3. Xây d ng và tri n khai 3.3.1. Thi t k cơ s d li u Hình 3.16. Sơ ñ tri n khai h th ng qu ng cáo tr c tuy n 3.4. Th nghi m và ñánh giá k t qu 3.4.1. Th nghi m Môi trư ng và d li u th nghi m ng d ng 3.4.1.1. Th nghi m Engine tách t khóa ti ng Vi t Hình 3.15. Bi u ñ quan h th c th h th ng qu ng cáo tr c tuy n Hình 3.17. Th nghi m Engine tách t khóa ti ng Vi t
- 23 24 3.4.1.2. Th nghi m tri n khai qu ng cáo trên Portal AdServer 3.4.1.4. Đo lư ng hi u qu qu ng cáo ñã th c hi n C ng truy nh p h th ng Công c ño lư ng hi u qu qu ng cáo tr c tuy n Ad Manager, Ad Manager qu n lý các Publisher Publisher và Advertiser. Publisher thiêt l p m ng qu ng cáo Publisher cài ñ t Ad Script qu ng cáo vào website Advertiser qu n lý ñ t qu ng cáo Advertiser thi t l p phát qu ng cáo lên m ng qu ng cáo 3.4.1.3. Th nghi m phát qu ng cáo tr c tuy n qua Ad Script Các t khóa ñư c thi t l p qu ng cáo ñư c phát chính xác vào Đo ñư c ph n văn b n (text) n i dung chính c a trang web. Khi di chu t qua 16 CPM và 19 CPC t khóa có ñánh d u, m u qu ng cáo s xu t hi n. Hình 3.27. Th nghi m th ng kê ño lư ng hi u qu qu ng cáo 3.4.2. Phân tích s li u th ng kê th nghi m h th ng B ng 3.1. K t qu th nghi m h th ng STT N i dung K t qu 1 Th i gian x lý tách n i dung chính trang web 0.2 giây /1 trang Th i gian tách t khóa ti ng Vi t v i t ñi n ti ng 2 6 giây / 1 trang Vi t 30.000 t Th i gian x lý tách t khóa ti ng Vi t s d ng 3 phương pháp k t h p t ñi n và th ng kê qua 58 giây /1 trang Interrnet v i ñ ño NGD Kh năng m r ng d ch v cung c p qu ng cáo tr c 5 tuy n ña ngư i dùng (nhi u Ad Manager, Không h n ch Advertiser, Publisher) Kh năng m r ng m ng qu ng cáo và kho d li u Tùy thu c vào kh 6 trang web c a m ng qu ng cáo năng lưu tr Hình 3.25. Qu ng cáo t khóa ti ng Vi t xu t hi n trên báo ñi n t 7 S lư ng m u qu ng cáo Advertiser có th t o Không h n ch Th nghi m qu ng cáo trên các thi t b có màn hình truy c p h n 8 Kh năng mô t n i dung m u qu ng cáo trên Còn h n ch Portal AdServer ch như Tablet PC, SmartPhone v i các t khóa “ñông ñ o”, “thông T c ñ chuy n phát trung bình t khóa qu ng cáo 0,9 giây / toàn trang 9 minh”. v i s lư ng t khóa ti ng trung bình 5 t khóa web Th i gian trung bình ph n h i và ghi các ñ ño hi u 1,7 giây/m i l n 10 qu qu ng cáo nh p chu t t khóa nh hư ng t c ñ , mã ngu n trình bày trang web 11 Không nh hư ng c a m ng qu ng cáo
- 25 26 3.4.3. Đánh giá k t qu K T LU N - K t qu th nghi m phát qu ng cáo và hi n th qu ng cáo 1. K t qu ñ t ñư c ñúng vào n i dung văn b n chính trên trang web các trình Đ tài lu n văn ñã ñ t ñư c nh ng yêu c u ñã ñ t ra v m t lý duy t web trên máy tính và thi t b c m tay: ñi n tho i thuy t cũng như ng d ng trong th c ti n. smartphone, máy tính b ng, Internet TV. V m t lý thuy t, ñ tài ñã nghiên c u và th nghi m v lĩnh v c - Phân h Engine tách t khóa ti ng Vi t tách chính xác ph n khai phá n i dung web. Th c hi n x lý ngôn ng , tách t và xác n i dung chính và t khóa cho h th ng qu ng cáo tr c tuy n. ñ nh t khóa ti ng Vi t. Đ tài ñã ñ xu t các phương pháp m i d a - Xây d ng c ng thông tin qu n lý nghi p v qu ng cáo tr c trên nh ng nghiên c u trư c ñây nh m v n d ng gi i quy t bài toán tuy n Portal AdServer tr c quan và thu n l i như vi c thi t ñ t ra. l p m ng qu ng cáo, ñăng qu ng cáo và th ng kê. V m t th c ti n, ñ tài ñã xây h th ng qu n lý qu ng cáo tr c - H th ng xây d ng là s k t h p quy trình x lý thông tin tuy n v i t khóa ti ng Vi t, t o ra m t s n ph m cung c p d ch v nhu n nhuy n t m ng qu ng cáo, Engine tách t khóa ti ng qu ng cáo trên Internet v i k thu t m i, ñáp ng xu th phát tri n Vi t, qu n lý và th c hi n chuy n phát, ño lư ng qu ng cáo. c a th trư ng qu ng cáo tr c tuy n Vi t nam còn nhi u ti m năng. - Có ti m năng phát tri n trong tương lai cũng như m r ng áp 2. H n ch d ng sang m t s lĩnh v c liên quan ñ n d ch v t khóa tr c Đ chính xác tách t ti ng Vi t phân h Engine tách t khóa v n tuy n. còn ph thu c vào s phong phú c a d li u t ñi n và t c ñ truy n 3.5. K t chương t i trên Internet. Các Ad Script chuy n phát qu ng cáo chưa ho t Trong chương này, lu n văn ti n hành phân tích và thi t k m t s ñ ng t t v i t t c các trình duy t web t t c các thi t b . ch c năng chính c a h th ng qu ng cáo tr c tuy n v i t khóa ti ng 3. Hư ng phát tri n Vi t. Phân tích các ca s d ng, các bi u ñ mô t ho t ñ ng t ñăng C n ñư c c p nh t công ngh kh c ph c nh ng h n ch nêu trên. m u qu ng cáo ñ n n p t khóa lên các trang web, phát m u qu ng Phát tri n Engine có phân tích, t ng h p các ch ñ thông tin theo cáo ñ n ngư i ñ c. Cu i chương là l p trình, xây d ng và tri n khai c u trúc website trên m ng qu ng cáo giúp h th ng phát n i dung h th ng v i ph n th nghi m và ñánh giá k t qu th c hi n. qu ng cáo t ñ ng theo suy di n, tăng hi u qu qu ng cáo. Phát tri n kh năng phân ph i qu ng cáo trên n i dung chính c a trang web m t cách h p lý, phù h p ñ a phương, th i gian, nhu c u khai thác thông tin c a ngư i ñ c.
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn thạc sĩ quản trị kinh doanh: Xây dựng chiến lược marketing cho cụm khách sạn cổ của Saigontourist giai đoạn 2012 - 2015
0 p | 775 | 215
-
Tóm tắt Luận văn Thạc sĩ: Xây dựng chiến lược marketing cho sản phẩm cà phê bột của công ty xuất nhập khẩu cà phê Đăk Hà
27 p | 707 | 154
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Hoàn thiện quy trình quản lý dự án đầu tư xây dựng các công trình hạ tầng kỹ thuật khu dân cư sử dụng vốn ngân sách tại Công ty trách nhiệm hữu hạn một thành viên Vật liệu xây dựng - Xây lắp và Kinh doanh nhà Đà Nẵng
26 p | 162 | 46
-
Luận văn Thạc sĩ Quản trị kinh doanh: Xây dựng chiến lược kinh doanh của công ty TNHH Novaglory giai đoạn 2016-2020
124 p | 149 | 42
-
Luận văn Thạc sĩ : Xây dựng chiến lược phát triển kinh tế - xã hội giảm nghèo tại huyện Tân Sơn tỉnh Phú Thọ đến năm 2020
106 p | 184 | 34
-
Tóm tắt luận văn Thạc sĩ: Xây dựng phần mềm trắc nghiệm loại hình thông minh cho trẻ 11 – 12 tuổi
30 p | 165 | 30
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Nghiên cứu dao động của nhà cao tầng dưới tác động của tải trọng động đất
26 p | 143 | 23
-
Tóm tắt luận văn Thạc sĩ Quản trị kinh doanh: Xây dựng chiến lược Công ty cổ phần Lilama7
26 p | 120 | 19
-
Luận văn Thạc sĩ: Xây dựng chương trình hiệu chỉnh trùng phùng cho hệ phổ kế gamma
77 p | 80 | 15
-
Tóm tắt luận văn Thạc sĩ: Xây dựng mô hình hệ thống “một cửa liên thông điện tử” cấp tỉnh
26 p | 127 | 12
-
Tóm tắt Luận văn Thạc sĩ: Xây dựng mô hình Tòa án khu vực trong tiến trình cải cách tư pháp ở Việt Nam hiện nay
9 p | 162 | 12
-
Tóm tắt Luận văn Thạc sĩ: Xây dựng chính sách công nghệ thân môi trường trên cơ sở nhận diện xung đột môi trường (Nghiên cứu trường hợp khu công nghiệp Thượng Đình)
10 p | 111 | 6
-
Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng công cụ hỗ trợ lập dự án ứng dụng công nghệ thông tin theo nghị định 102/2009/NĐ-CP
21 p | 85 | 3
-
Luận văn Thạc sĩ Marketing thương mại: Xây dựng kế hoạch truyền thông marketing thương hiệu khách sạn Mercure Hanoi La Gare
112 p | 28 | 3
-
Luận văn Thạc sĩ Quản trị kinh doanh: Giải pháp hoàn thiện công tác quản lý dự án đầu tư xây dựng tại Ban quản lý Dự án đầu tư xây dựng công trình huyện Duy Xuyên, tỉnh Quảng Nam
111 p | 8 | 3
-
Luận văn Thạc sĩ Khoa học giáo dục: Xây dựng học liệu điện tử về phản ứng oxi hoá - khử nhằm nâng cao năng lực tự học cho học sinh trung học phổ thông
129 p | 4 | 1
-
Luận văn Thạc sĩ Quản trị kinh doanh: Hoàn thiện công tác quản lý các dự án đầu tư xây dựng tại Tập đoàn TH
130 p | 4 | 1
-
Luận văn Thạc sĩ: Xây dựng phần mềm dự báo các chỉ tiêu kinh tế vĩ mô
95 p | 86 | 0
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn