intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

LUẬN VĂN:BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB

Chia sẻ: Lan Lan | Ngày: | Loại File: PDF | Số trang:59

126
lượt xem
25
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích xuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống trích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã được đề cập, quan tâm nhiều ở các hội nghị quốc tế và các công ty lớn. Bài toán trích xuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nội dung trang web và việc khai phá, đánh giá từ...

Chủ đề:
Lưu

Nội dung Text: LUẬN VĂN:BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009
  2. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Th.S Nguyễn Thị Hậu Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ HÀ NỘI - 2009
  3. Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu và CN. Trần Mai Vũ, người đã tận tình chỉ bảo hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn năm học qua, đã cho tôi nhiều kiến thức quý báu để tôi vững bước trên con đường học tập của mình. Tôi xin gửi lời cảm ơn chân thành tới các anh chị, các bạn trong nhóm seminar về khai phá dữ liệu đã nhiệt tình giúp đỡ tôi trong quá trình tham gia nghiên cứu khoa học và làm khoá luận tốt nghiệp. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA, và K50CHTTT đã ủng hộ khuyến khích tôi trong suốt quá trình học tập tại trường. Và cuối cùng, tôi xin bày tỏ niềm biết ơn vô hạn tới bố mẹ, chị tôi, và những người bạn thân luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Hà Nội, ngày 12 tháng 05 năm 2009 Sinh Viên Chu Anh Minh
  4. TÓM TẮT NỘI DUNG Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích xuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống trích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã được đề cập, quan tâm nhiều ở các hội nghị quốc tế và các công ty lớn. Bài toán trích xuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nội dung trang web và việc khai phá, đánh giá từ khoá dựa trên các đặc trưng, cấu trúc của Web. Đây cũng là vấn đề khá mới mẻ và được áp dụng trong rất nhiều lĩnh vực khác nhau như: quảng cáo trên máy tìm kiếm, phân cụm các trang web, hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng.... Trong khoá luận tốt nghiệp này, tác giả đã đề xuất mô hình giải quyết bài toán trên dựa vào các phương pháp: độ quan trọng các thẻ HTML, đồ thị web. Ngoài ra, các phương pháp hỗ trợ là khai phá log và từ điển hỗ trợ cũng được trình bày nhằm nâng cao chất lượng từ khóa. Khóa luận đã áp dụng trên một số miền dữ liệu cụ thể của các trang web tiếng Việt, tiếng Anh và cho kết quả khả quan. i
  5. MỤC LỤC TÓM TẮT NỘI DUNG................................................................................................... i MỤC LỤC ...................................................................................................................... ii Bảng các kí hiệu và chữ viết tắt..................................................................................... iv Danh mục hình vẽ ............................................................................................................v Danh mục các bảng biểu................................................................................................ vi MỞ ĐẦU .........................................................................................................................1 Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web.............................3 1.1. Đặt vấn đề .............................................................................................................3 1.2. Khái niệm và các đặc trưng của từ khóa...............................................................4 1.3. Đánh giá các từ khóa.............................................................................................5 1.4. Thách thức của bài toán sinh từ khóa cho trang web............................................5 1.4.1. Đối với các trang có nội dung tập trung.........................................................6 1.4.2. Đối với các trang có nội dung tổng hợp.........................................................6 1.4.3. Các vấn đề khác .............................................................................................6 1.5. Ứng dụng của từ khóa trong các lĩnh vực.............................................................7 1.5.1. Vai trò từ khóa trong máy tìm kiếm...............................................................7 1.5.1.1. Quảng cáo trên máy tìm kiếm .................................................................7 1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm ........................................9 1.5.3. Vai trò từ khóa trong các trang web tổng hợp thông tin ..............................10 1.6. Tổng kết chương .................................................................................................12 Chương 2. Các công trình liên quan..........................................................................13 2.1. Các phương pháp trích xuất từ khóa cho văn bản ..............................................13 2.1.1. Phương pháp tần số từ ..................................................................................13 2.1.2. Phương pháp sử dụng các thông tin khác trong văn bản .............................14 2.1.3. Phương pháp sử dụng học máy ....................................................................15 2.1.3.1. Trích xuất từ khóa sử dụng phân lớp Naïve Bayes ...............................16 2.1.3.2. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) và phân lớp 16 2.2. Các phương pháp trích xuất từ khóa cho trang web ...........................................17 2.2.1. Tần số từ .......................................................................................................17 2.2.2. Kĩ thuật khai phá log ....................................................................................17 2.2.3. Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ ..................................18 2.3. Gán từ khóa trong văn bản, web (keyword assignment) ....................................19 2.4 Tổng kết chương ..................................................................................................19 Chương 3. Hướng giải quyết và đề xuất mô hình bài toán......................................20 3.1. Hướng giải quyết ................................................................................................20 3.1.1. Sử dụng độ quan trọng của các thẻ trong HTML ........................................20 3.1.2. Sử dụng đồ thị web ......................................................................................23 3.1.2.1. Định nghĩa đồ thị Web ..........................................................................23 3.1.2.2 Nội dung của phương pháp ....................................................................24 3.1.3. Sử dụng query log ........................................................................................26 3.1.4. Sử dụng từ điển hỗ trợ..................................................................................27 3.2. Đề xuất mô hình bài toán....................................................................................27 3.2.1. Mô hình toàn hệ thống .................................................................................27 3.2.2. Mô đun Crawler ...........................................................................................28 ii
  6. 3.2.3. Mô đun sinh từ khóa ....................................................................................29 3.2.3.1. Mô đun sử dụng trọng số thẻ HTML ....................................................30 3.2.3.2. Mô đun sử dụng đồ thị web...................................................................32 3.2.3.3. Các phương pháp hỗ trợ ........................................................................33 3.2.3.4. Mô đun tổng hợp ...................................................................................35 3.3. Tổng kết chương .................................................................................................35 Chương 4. Thực nghiệm và đánh giá.........................................................................36 4.1. Giới thiệu bài toán thực nghiệm .........................................................................36 4.2. Môi trường, dữ liệu.............................................................................................36 4.1.1. Môi trường phần cứng..................................................................................36 4.1.2. Mô tả chương trình.......................................................................................36 4.1.3. Công cụ phần mềm.......................................................................................37 4.1.4. Dữ liệu thử nghiệm ......................................................................................38 4.3. Kết quả thực nghiệm...........................................................................................40 4.4. Đánh giá kết quả thực nghiệm ............................................................................45 Kết luận ........................................................................................................................46 Hướng phát triển tiếp theo.............................................................................................47 Tài liệu tham khảo.......................................................................................................48 iii
  7. Bảng các kí hiệu và chữ viết tắt Kí hiệu Diễn giải HTML HyperText Markup Language IR Information Retrieval SE Search Engine SEM Search Engine Marketing SEO Search Engine Optimization TF Term Frequency IDF Inverse Document Frequency URL Uniform Resource Locator W3C World Wide Web Consortium WWW World Wide Web iv
  8. Danh mục hình vẽ Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm .........................9 Hình 2. Top từ khóa của baomoi.com ...........................................................................10 Hình 3. Top từ khóa của flickr.com ...............................................................................10 Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com 11 Hình 5. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com ......................................................................................17 Hình 6. Mô tả đồ thị web .......................................................................................................25 Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa ...............25 Hình 8. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress ..25 Hình 9. Mô hình đề xuất cho toàn hệ thống........................................................................28 Hình 10. Mô hình mô đun sinh từ khóa ...............................................................................30 Hình 11. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML ...................32 Hình 12. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web ....................33 Hình 13. Mô hình mô đun sinh từ khóa dựa trên log ........................................................34 Hình 14. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ ......................................35 Hình 15. Mô hình mô đun tổng hợp từ khóa .......................................................................36 Hình 16. Thư mục Tiếng_Việt của dmoz .......................................................................38 Hình 17. Các liên kết cần lấy về trong các thư mục......................................................39 v
  9. Danh mục các bảng biểu Bảng 1. Bảng trọng số các thẻ HTML trongTextNet .....................................................21 Bảng 2. Bảng các thẻ HTML quan trọng khác ..............................................................22 Bảng 3. Ví dụ về các trường trong querylog của MSN .................................................26 Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán .....................................36 Bảng 5. Các gói của chương trình ................................................................................36 Bảng 6. Các lớp của gói general ...................................................................................37 Bảng 7. Các lớp của gói methods ..................................................................................37 Bảng 8. Các lớp của gói SELink....................................................................................37 Bảng 9. Danh sách các phần mềm, mã nguồn sử dụng................................................38 Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh.................40 Bảng 11. So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử ...............44 vi
  10. MỞ ĐẦU Trong những năm gần đây, sự bùng nổ của Internet mà đặc biệt là World Wide Web - còn gọi tắt là Web - làm thông tin ngày càng tràn ngập, đa dạng, có sự trùng lặp nhiều. Cùng với sự tăng trưởng và phổ cập của Internet thì việc quảng cáo trên mạng của các doanh nghiệp cũng tăng cao. Sự ra đời của máy tìm kiếm đã phần nào giải quyết được vấn đề tràn ngập thông tin của các trang web. Các máy tìm kiếm chủ yếu vẫn sử dụng những từ khoá và tìm những trang có chứa từ khoá và cho ra kết quả phù hợp. Việc sử dụng máy tìm kiếm làm công cụ quảng cáo đã nở rộ trong những năm gần đây. Nhưng các trang web có nội dung được nhiều người quan tâm lại trùng lặp về từ khoá nhiều, cho nên các doanh nghiệp muốn quảng cáo trên máy tìm kiếm phải cạnh tranh với các doanh nghiệp khác có từ khóa trùng với nó. Đó chính là một trong các động lực để phát triển bài toán trích xuất từ khoá cho trang web. Nhiệm vụ bài toán đặt ra là cần tìm được một tập các từ khoá sao cho các từ khoá này phải sát với nội dung của trang web. Một động lực khác làm cho bài toán trích xuất từ khóa cho các trang web được sự quan tâm của nhiều người, doanh nghiệp, đó chính là việc phân loại các tài liệu web vào các thư mục phân cấp, việc tìm kiếm trong các thư mục nhờ đó cũng dễ dàng hơn. Rất nhiều các trang web báo khác nhau, các blog như: vietbao.vn, baomoi.com, flickr.com, ebay.com ... đã áp dụng việc sinh từ khóa cho các trang này để người đọc, người xem có thể liên hệ, theo dõi dễ dàng đối với các trang báo, hay các sản phẩm khác có liên quan. Các từ khóa giúp nâng cao sự gợi ý cho người dùng. Không những thế, những từ khóa được tìm kiếm nhiều nhất trong một thời điểm phản ánh được phần nào xu hướng của người dùng, giúp người dùng có cái nhìn tổng quan về các vấn đề đang được quan tâm. Một vấn đề quan trọng không kém, đó là với sự phát triển của web thì những chuẩn web càng được chú trọng. Trong đó các trang web cần có những phần giới thiệu tổng quan, các từ khoá để các máy tìm kiếm, các công cụ khác có thể xác nhận dễ dàng. Nó được thể hiện trong các trang web là các thẻ trong mã HTML. Nó sẽ giúp cho máy tìm kiếm làm việc tốt hơn, các chương trình khác có thể tiếp cận trang web tốt hơn. Đa số các trang web hiện nay đều sinh từ khoá một cách thủ công. Nó sẽ khá là hiệu quả đối với những doanh nghiệp có số lượng trang web nhỏ. Còn đối các máy tìm kiếm, các trang có nhiều văn bản web, thì việc sinh tự động là rất quan trọng. 1
  11. Nó vừa đảm bảo thời gian, công sức vừa có thể tìm ra được những từ khoá mà ngay cả chủ trang web có thể thiếu xót. Với thực tế nêu trên, khoá luận đã đề xuất một phương pháp giải quyết bài toán trích xuất từ khoá cho trang web tiếng Việt và tiếng Anh qua đề tài “Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web”. Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai phương pháp chính là: phân tích nội dung trang dựa trên thẻ HTML và đồ thị web. Ngoài ra, khóa luận cũng nêu thêm hai phương pháp khác hỗ trợ để nâng cao chất lượng từ khóa đó là : khai phá log và dùng từ điển hỗ trợ. Với từng loại trang web sẽ có từng loại phương pháp khác nhau. Trong đó phương pháp khai phá nội dung trang dựa trên thẻ HTML là chủ đạo với nhiều trang. Qua thực nghiệm cho thấy các hướng tiếp cận này là khả quan và có triển vọng với độ chính xác khá cao, nếu kết hợp với các từ khoá của chính người quản trị thì tập từ khoá sinh ra là khá đầy đủ và chính xác. Ngoài phần MỞ ĐẦU và KẾT LUẬN, kết cấu của khoá luận bao gồm các chương sau: - Chương 1: Giới thiệu về bài toán. Nêu các khái niệm cơ bản về bài toán. Các ứng dụng của bài toán. Những thách thức đặt ra cho bài toán. - Chương 2: Các công trình liên quan. Giới thiệu sơ lược về các phương pháp đã được áp dụng với các bài toán sinh cho văn bản, cho trang web. - Chương 3: Hướng giải quyết và đề xuất mô hình bài toán. Miêu tả hướng giải quyết của tác giả, đề xuất mô hình có thể thực thi. -Chương 4 “Kết quả thực nghiệm và đánh giá”. Đưa ra những kết quả đã làm, và đánh giá kết quả. 2
  12. Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web 1.1. Đặt vấn đề Sự phát triển nhanh chóng của Internet và đặc biệt là sự bùng nổ World Wide Web (WWW) - còn gọi tắt là web - làm cho thông tin ngày càng lớn, khó kiểm soát, và trùng lặp nhiều. Tìm kiếm thông tin hiện nay càng là nhu cầu thiết yếu của nhiều người trên nhiều lĩnh vực khác nhau. Sự đột phá về công nghệ đã cho ra những máy tìm kiếm phần nào đã giải quyết được sự ngập lụt thông tin này. Vì nhu cầu sử dụng máy tìm kiếm hiện nay là rất lớn, nên nó cũng được sự quan tâm của các doanh nghiệp nhằm dựa vào máy tìm kiếm để quảng cáo sản phẩm của mình qua các từ khóa[26][2][36]. Đó cũng là động lực chính để phát triển bài toán sinh từ khóa cho trang web. Việc sinh từ khóa cho trang web không những chỉ có ý nghĩa trong các máy tìm kiếm, mà hiện nay nó còn có nhiều ứng dụng hơn trong các trang web tổng hợp thông tin khác như các blog, báo điện tử, tìm ảnh, tìm phim, thư viện sách.... Với mỗi trang web, các từ khóa của trang đó sẽ là những sự gợi ý rất tốt cho người dùng để tìm thấy những thông tin khác liên quan mà họ có thể đang quan tâm. Trong nhiều năm qua, bài toán trích xuất từ khóa đã được quan tâm, chú ý nhiều trong các hội nghị khoa học [26] [30] [28] [27] [11][25], và các doanh nghiệp kinh doanh, cũng như những người quản trị web với chiến dịch quảng bá web của mình (SEO: Search Engine Optimization) [4]. Những bài báo, luận văn trước chủ yếu làm trên miền văn bản. Còn đối với miền trang web thì khá phức tạp, tốn nhiều thời gian; nhiều phương pháp phải cần đến tập huấn luyện. Các từ khóa là các từ, cụm từ nhằm miêu tả nội dung của trang web, văn bản một cách ngắn gọn nhất, chính xác nhất. Các từ khóa phải không quá chung chung hay không quá xa lạ đối với người sử dụng. Bài toán trích xuất từ khóa cho trang web là việc áp dụng các phương pháp khác nhau xử lý nội tại trang web, hay các thông tin liên quan đến trang web để tìm ra được tập từ khóa đại diện cho chúng [24][29]. Chính những sự áp dụng rộng rãi và nhu cầu thực tiễn của bài toán đã là động lực để khóa luận tập trung nghiên cứu về bài toán sinh từ khóa cho trang web. Khóa luận cũng đề xuất mô hình bài toán sinh từ khóa dựa trên hai phương pháp chính là: độ quan trọng của các thẻ HTML, đồ thị web. Bên cạnh đó, tôi cũng bổ sung hai phương 3
  13. pháp hỗ trợ việc tìm từ khóa đó là: khai phá query log của máy tìm kiếm, tập từ điển hỗ trợ. 1.2. Khái niệm và các đặc trưng của từ khóa Từ khóa là một từ hay một cụm từ dùng để mô tả một cách chính xác, ngắn gọn nhất nội dung chính của một tài liệu (văn bản, hay các trang web) [20][5][8][18]. Trong tiếng Anh, từ khóa được thể hiện dưới nhiều thuật ngữ khác nhau như: keywords, term, query term, hay tags; nhưng ý nghĩa của chúng là giống nhau [25]. Trong các tài liệu thì cách viết keywords và tags được sử dụng nhiều nhất. Hiện nay, các trang web chuẩn theo W3C1 (World Wide Web Consortium) đều có chứa những từ khóa của trang trong thẻ với thuộc tính “keywords”. Các từ khóa của các trang web đa số được sinh thủ công bởi người quản trị web. Bài toán trích xuất từ khóa của tài liệu tiếng Việt và tiếng Anh là một trong những bài toán cấp thiết trong nghiên cứu xử lý ngôn ngữ tự nhiên cũng như trong cuộc sống hàng ngày. Tập các từ khóa có thể coi như là một bản tóm tắt đơn giản nhất của văn bản[25]. Tập các từ khóa sẽ nói lên rõ hơn ý nghĩa của văn bản hay trang web đó. Bài toán trích xuất từ khóa cho trang web là một quá trình tìm kiếm, nhận dạng, tập các từ, hay cụm từ có ý nghĩa và các từ này có thể đại diện cho trang web đó[24][29]. Giải quyết bài toán này là đưa ra các phương pháp để áp dụng trên các trang web hay các thông tin liên quan đến trang web để tìm ra các từ khóa đại diện cho trang web này một cách tự động. Một số đặc điểm, tiêu chí ảnh hưởng [37] đến quá trình rút trích từ khóa: Từ dừng: Các từ dừng(stopword) không nằm trong danh sách các từ khóa được sinh ra. Các từ dừng là các từ không bao hàm ý nghĩa như là các từ: a , an , the, about, with, on ... trong tiếng Anh và các từ : là , sẽ , cùng, tới... trong tiếng Việt. Loại từ: Các từ trong danh sách từ khóa thường là các động từ, hoặc danh từ. Tuy nhiên, có thể các từ có thể được viết tắt cũng cần xem xét. Các danh từ riêng được coi trọng hơn các danh từ thường. Liên quan đến tiêu đề :Những từ khóa trong văn bản phải liên quan đến đầu đề văn bản. Số lượng: Tập từ khóa của một trang web, văn bản là một danh sách các từ khóa khác nhau, nó phù hợp với từng loại văn bản, trang web khác nhau. Thông thường là 5-10 từ khóa cho trang web, và 15-20 cho các bài báo... 1 http://w3c.com 4
  14. 1.3. Đánh giá các từ khóa Thường thì các công ty, người quản trị trang web đều chắc chắn rằng họ đã biết từ khoá lý tưởng nhất. Nhưng thường thì họ sai. Nguyên nhân là do không dễ dàng tách một cá nhân ra khỏi một công ty và nhìn nhận với tư cách là một khách hàng tiềm năng. Soạn ra một danh sách các từ khoá thì không nên bắt buộc phải là một quá trình nội bộ. Mọi người thường rất ngạc nhiên về những từ khoá được gợi ý, đôi khi còn không tưởng tượng được hầu hết các khách không nói cùng một ngôn ngữ với họ. Một khi đã có được một danh sách từ khóa hoàn hảo, lúc này là lúc đánh giá từng cụm từ để chọn ra trong danh sách đến những từ khoá mà sẽ mang lại cho trang web lượng người vào trang web cao. Mặc dù rất nhiều cá nhân đều đánh giá các cụm từ khoá dựa trên số đông, nhưng một số khía cạnh cần phải có cho các từ khóa[2]: a. Tính phổ biến Cho đến nay cách dễ nhất để đánh giá đó là tính phổ biến. Các phần mềm như WordTracker đưa ra các con số phổ biến của cụm từ được tìm kiếm dựa vào hoạt động thực tế của SE [2]. Rõ ràng là con số nào cao hơn thì dự kiến sẽ có người vào cao hơn. b. Tính đặc trưng Khái niệm này trừu tượng hơn là con số thể hiện tính phổ biến nhưng lại quan trọng không kém. Ví dụ, giả dụ rằng có thể đạt được thứ hạng cao trên SE nhờ cụm từ khoá “insurance companies”. Nhưng nếu doanh nghiệp chỉ kinh doanh trong lĩnh vực bảo hiểm ô tô ( auto insurance). Mặc dù từ khoá “insurance companies” có tính phổ biến cao hơn từ khoá “auto insurance”, nhưng cụm từ khoá “insurance companies” sẽ dành cho những người tìm kiếm dịch vụ bảo hiểm nhân thọ, bảo hiểm sức khoẻ và bảo hiểm nhà cửa chứ kết quả cho tìm kiếm bảo hiểm ô tô thì lại không xuất hiện. c. Hướng người sử dụng Nhân tố này dựa vào cách nghĩ của số đông người dùng. Ví dụ, giả dụ một đại lý bất động sản ở Atlanta đang cân nhắc hai từ khóa đó là "Atlanta real estate listings" và “Atlanta real estate agents”. Hai từ khoá này có tính phổ biến tương tự nhau. Chúng cũng có tính đặc trưng riêng, vì nó liên hệ mật thiết đến công ty. Vậy thì từ nào thì tốt hơn. Nếu nhìn vào động cơ của người sử dụng trong log thì sẽ thấy từ thứ hai sẽ tối ưu hơn. Từ khoá thứ hai cho rằng người sử dụng muốn tìm kiếm một đại lý nhiều hơn. 1.4. Thách thức của bài toán sinh từ khóa cho trang web Các nghiên cứu trước đây chủ yếu tập trung trên miền trích xuất từ khóa cho các văn bản hay các bài toán kiểu tóm tắt văn bản. Một lợi điểm trong các văn bản là 5
  15. do văn bản chỉ thuần nói về một đề tài hay một chủ đề xác định, ít nhiễu. Trong khi đó đối với các trang web nó là tổng hợp của nhiều thông tin trên một trang web, có nhiều thông tin không liên quan như: quảng cáo, thực đơn, thông tin liên quan. Vì vậy, những thách thức của bài toán trích xuất từ khóa cho trang web đó là nhiễu trên các trang là lớn, nội dung của nhiều trang là không tập trung. 1.4.1. Đối với các trang có nội dung tập trung Các trang có nội dung tập trung là các trang mà trong nó chứa những nội dung cụ thể về một vấn đề. Nói khác đi, khi loại bỏ các phần thông tin ngoài thì phần còn lại như một văn bản. Và các kĩ thuật trích xuất từ khóa đối với văn bản sẽ được áp dụng như tần số từ, vị trí từ trong các đoạn văn, độ tương đồng từ....Các trang có nội dung tập trung như bài báo điện tử, bài viết hướng dẫn, một bài văn...Nói chung, việc lọc nhiễu cho các trang này là một điều quan trọng giúp tăng chất lượng của việc trích xuất từ khóa. Với những bài viết quá dài thì thời gian chạy cũng khá lâu. 1.4.2. Đối với các trang có nội dung tổng hợp Hiện nay, thông tin ngày càng được cập nhật thường xuyên trong mỗi trang web. Nhu cầu tổng hợp tin tức là rất cần thiết. Các trang web luôn muốn những thông tin cập nhật sẽ được hiển thị trên trang đầu khi mà người dùng tới trang của họ. Những trang đầu này còn gọi là các trang chủ. Các trang web portal cũng tương tự [35]. Một trang web portal là một trang đưa ra những thông tin ở nhiều nguồn khác nhau theo một cách thống nhất. Ngoài thỏa mãn là một công cụ tìm kiếm, web portal cung cấp các thông tin dịch vụ khác như báo tin tức, chứng khoán, giải trí. Ví dụ về các web portal như: AOL, MSN, yahoo, iGoogle. Nếu áp dụng việc trích xuất từ khóa áp dụng đối với nội dung trong các trang web này sẽ dẫn đến kết quả không chính xác. Cần có những phương pháp khác để có thể sinh từ khóa cho loại trang này, và trong khóa luận này tôi áp dụng phương pháp dùng đồ thị Web và log hỗ trợ. 1.4.3. Các vấn đề khác Ngày nay, số lượng các trang web trên Internet là rất nhiều. Vì vậy việc kiểm soát nội dung cũng đã khó, chưa kể đến những lỗi trong việc mã hóa HTML trên trang web. Ngôn ngữ HTML là một ngôn ngữ có cấu trúc chặt chẽ theo chuẩn của W3C, với các luật như thẻ mở, đóng, hay thẻ đơn. Để có thể phân tích, lấy được những thông tin trong trang web thì chúng ta cần các trang có mã HTML theo chuẩn. Tuy các trình duyệt có thể bỏ qua các lỗi HTML để thể hiện thị, nhưng những lỗi như vậy làm cho các chương trình xử lý của chúng ta gặp vấn đề về việc phân tích cú pháp, xác định sai 6
  16. các đoạn văn trong trang web. Do tiếng Việt và Tiếng Anh có những cụm từ, nên một số từ khi xuất hiện một mình sẽ không có ý nghĩa. Vì vậy, cần phải có một bộ tách từ tốt, nhất là đối với tiếng Việt. Ngoài các lỗi về cấu trúc của HTML, ngay trong nội dung văn bản của các trang web cũng có những lỗi như: viết tiếng Việt không dấu, viết sai.... Một số trang web có sử dụng các tên miền miễn phí như : www.dot.tk , www.co.cc ...., cho nên khi trỏ đến các trang của họ thì mã HTML hiển thị lại không là mã HTML của trang web thực mà lại là mã HTML của các trang cung cấp tên miền. 1.5. Ứng dụng của từ khóa trong các lĩnh vực 1.5.1. Vai trò từ khóa trong máy tìm kiếm 1.5.1.1. Quảng cáo trên máy tìm kiếm Việc ra đời máy tìm kiếm đã giải quyết phần nào nhu cầu về tím kiếm thông tin trên mạng. Do đó, máy tìm kiếm là một công cụ không thể thiếu cho những người dùng web hiện nay. Chính vì sự phổ biến, và lượng lớn người dùng sử dụng nó cho nên quảng cáo trên máy tìm kiếm là một trong những hình thức quảng cáo khá hiệu quả, và có phần nở rộ hơn trong những năm gần đây. Các nhà doanh nghiệp, quản trị của các trang web (webmaster) cần có những chiến lược khác nhau khi quảng cáo trên máy tìm kiếm một cách hiệu quả nhất. Do việc tìm kiếm trên máy tìm kiếm chủ yếu dựa trên từ khoá cho nên việc tìm ra những từ khoá đại diện cho các trang web để quảng cáo là một trong những nhiệm vụ hàng đầu của các doanh nghiệp, các người quản trị web muốn quảng bá trang web của mình. Các doanh nghiệp này cần đăng kí các từ khoá này với các máy tìm kiếm để có thể quảng cáo trang web của mình. Tuy nhiên, có rất nhiều doanh nghiệp khác cũng muốn quảng cáo sản phẩm, và nảy sinh ra trường hợp cạnh tranh những từ khoá chung. Trong quá khứ, những nhà quảng cáo thích đặt giá cho những từ khoá mà nó có xu hướng sinh ra số lượng lớn kết quả trả về, cho nên những từ khoá này thường rất đắt. Có một chiến lược khác bằng cách trả giá cho những từ khoá khác liên quan cho ít kết quả hơn khi máy tìm kiếm trả về, nhưng nó vẫn có tầm quan trọng và nói lên được cái ẩn, nội dung mà người quảng cáo muốn hướng tới. Do đó, nó vừa có hiệu quả, lại vừa có giá đầu tư cho từ khóa là rẻ, ít cạnh tranh nhưng vẫn đảm bảo tính chất phổ biến, nhưng nổi trội của doanh nghiệp quảng cáo. 7
  17. Tìm kiếm có tài trợ hay Marketing trên máy tìm kiếm(SEM)[33] là một cách thức quảng cáo khá phổ biến trên web hiện nay, nó cũng chính là thu nhập chính của các máy tìm kiếm. Các cỗ máy tìm kiếm thường thu thập một lượng thông tin khổng lồ về các sở thích và hành vi của người sử dụng trong quá trình vận hành của chúng. Những thông tin này, bên cạnh việc hỗ trợ cho việc nâng cấp các máy tìm kiếm để trả về kết quả phù hợp hơn, còn có thể được bán cho các công ty khác. Những công ty mua các thông tin này có thể sử dụng chúng để biết được những sản phẩm người tiêu dùng đang quan tâm hoặc tiên đoán nhu cầu của người tiêu dùng trong tương lai. Các từ khoá sẽ làm nhiệm vụ quan trọng là gợi ý ra những tài liệu liên quan và những tài liệu liên quan này cũng có từ khoá đó. Nguồn thu từ quảng cáo trực tuyến của các máy tìm kiếm rất lớn. Ví dụ năm 2004, Google thu về 3 tỉ Đô la Mỹ từ quảng cáo [2]. Có hai cách quảng cáo trực tiếp trên máy tìm kiếm: - Cách thứ 1 là khách hàng trả tiền cho những từ khoá để đảm bảo rằng trang web của họ nằm ở thứ hạng cao trong danh sách trả về của máy tìm kiếm (pay for placement.). Cách làm này thường bị nói là không công bằng khi máy tìm kiểm cố tình cho các kết quả có tài trợ được thứ hạng cao. Cách này cũng ít được áp dụng do các máy tìm kiếm cần đảm bảo được sự công bằng của chính thuật toán của máy tìm kiếm trả về. - Cách thứ 2 được áp dụng phổ biến hơn. Các máy tìm kiểm chia trang tìm kiếm trả về làm 2 phần như hình Hình 1, một phần là kết quả trả về chính xác mà máy tìm kiếm tìm thấy trong hệ thống các trang web đã crawl về, một phần là phần dành cho các trang web có tài trợ. Với các trang web hiển thị ở phần này, các máy tìm kiếm áp dụng chiến lược trả tiền khi người dùng click. Có nghĩa là các quảng cáo sẽ phải trả tiền cho máy tìm kiếm khi người dùng search trong máy tìm kiếm và click vào quảng cáo. Một trường hợp tự nhiên đó là hiện nay có nhiều doanh nghiệp với nhiều mặt hàng là giống nhau, và đều muốn cạnh tranh với nhau. Khi quảng cáo trên máy tìm kiếm, các từ khoá có thể sẽ trùng nhau, và các doanh nghiệp đều muốn sở hữu từ khoá đó vì những từ khoá đó là phổ biến và quan trọng. Do đó, máy tìm kiếm sẽ có quá trình đấu giá cho từ khoá. Đối với mỗi từ khoá, doanh nghiệp nào trả giá cho từ khoá cao hơn sẽ được đứng ở vị trí đầu. 8
  18. Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm 1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm Tối ưu hóa công cụ tìm kiếm, hay SEO (viết tắt của search engine optimization), là một tập hợp các phương pháp nhằm nâng cao thứ hạng của một website trong các trang kết quả của các công cụ tìm kiếm và có thể được coi là một tiểu lĩnh vực của tiếp thị qua công cụ tìm kiếm[4]. Một trong những các phương pháp trong quá trình SEO là việc tìm từ khóa cho các trang web. Từ khóa là những từ, cụm từ mà những người truy cập nhập vào trong những cỗ máy tìm kiếm để tìm thấy thông tin từ những trang web. Điều quan trọng hàng đầu của các người quản trị web là các trang web của họ có được những cỗ máy tìm kiếm tốt xếp hạng những từ khóa phổ biến liên quan đến đề tài của trang web của họ không. Những từ khóa đúng quan trọng với thành công của những hoạt động SEO của những người quản trị web. Sẽ không phải là giải pháp tốt khi tối ưu hóa những trang Web cho những từ khóa mà không ai sử dụng trong những cỗ máy tìm kiếm. Hơn nữa, để có thêm những người dùng quan tâm đến trang web, những từ khóa không được rộng quá hoặc chung quá[2]. Những từ khóa nào là những từ khóa đúng cho một trang web? Chìa khóa ở đây là phải chọn ra những từ khóa phổ thông, nhưng không được quá chung chung để tránh nhận phải hàng triệu kết quả tìm kiếm. Tìm ra được những từ khóa đặc biệt đáp ứng được đòi hỏi trên sẽ giúp cho trang web đạt được thứ hạng cao trong danh sách tìm kiếm và có thêm nhiều người dùng truy cập vào. Bước đầu tiên trong việc chọn đúng những từ khóa là phải làm cho chúng trở nên đặc biệt [2][36]. Sử dụng những mệnh đề từ khóa gồm có hai tới bốn từ. • Tránh những từ khóa quá cạnh tranh với các trang web nổi tiếng khác. • Đặc biệt (càng đặc biệt càng tốt nhưng không nên quá xa lạ đối với người • dùng). 9
  19. Để một chiến dịch tiếp thị trực tuyến thành công, cần phải chọn được những từ khóa đúng, phù hợp. Những từ khóa sử dụng cần phải thích hợp với trang web đó và những người truy cập cần phải đang tìm kiếm những từ khóa đó. Tuy nhiên, những từ khóa của người dùng nhiều lúc lại không giống như những từ khóa mà người quản trị web nghĩ. Đa số mọi người sử dụng hai tới bốn từ hoặc mệnh đề trong một sự tìm kiếm, vì vậy những mệnh đề rất có hiệu quả. Những từ đơn không thể được quảng bá có hiệu quả. Chẳng hạn, ít có người tìm kiếm “free download software” mà chỉ nhập vào có mỗi từ “soft”. Tránh những mệnh đề từ khóa đại chúng nhất bởi vì rất dễ phải đua tranh với hàng triệu trang web khác cho một sự chú ý của cỗ máy tìm kiếm. Thật là không thực tế để tin rằng một trang web mới có thể xếp hạng số một trên một mệnh đề đại chúng, ví dụ “Mp3” hay “báo điện tử”. Rõ ràng, các công ty được thành lập và tham gia vào internet vài năm sẽ có lợi thế lớn nhờ tính phổ biến. 1.5.3. Vai trò từ khóa trong các trang web tổng hợp thông tin Một động lực khác để phát triển bài toán trích xuất từ khoá cho trang web đó là từ khoá giúp phân loại các văn bản theo định nghĩa của người dùng dưới dạng chủ đề cho phép dễ dàng truy câp và tìm thông tin trên đó. Nó còn giúp việc liên kết mỗi tài liệu liên quan đến nhau (cross-link) một cách linh động, và giảm thời gian để tìm kiếm cho thông tin giống với nội dung trang đang xem. Ví dụ như trong Hình 2, Hình 3 là những từ khoá hàng đầu của 2 trang baomoi.com (tiếng Việt) và Flickr(tiếng Anh). Hình 3. Top từ khóa của flickr.com Hình 2. Top từ khóa của baomoi.com Tại một thời điểm nào đó, nếu người dùng truy cập, xem nhiều những trang mà có chung những từ khoá, vì vậy top từ khoá sẽ nói lên được xu thế của người dùng. Những từ khóa hay được người dùng sử dụng chính là những chủ đề mà người dùng hiện tại đang quan tâm. Và khi người khác truy cập vào trang web, họ có thể khám phá, đọc, xem những trang được coi là mới nhất hiện nay. Những từ khóa này giúp cho người dùng nắm bắt thông tin mới theo cách khái quát, theo chủ đề xác định. 10
  20. Trong khi người dùng đọc, xem các trang web, “những điều gì họ sẽ quan tâm tiếp theo ?” là một câu hỏi được nhiều nhà quản trị các trang web tổng hợp thông tin hướng tới nhằm thoả mãn nhu cầu tối đa của người dùng. Và từ khoá là một trong những giải pháp khá hiệu quả và thành công. Mỗi một trang web người dùng khi đọc sẽ hiện ra những từ khoá liên quan đến bài viết đó. Những từ khoá này nói lên phần nào được nội dung trang web mà người dùng đang đọc. Với những từ khoá này, người dùng có thể tìm những bài liên quan đến trang họ đang đọc qua các từ khoá. Ví dụ như trong Hình 4, người đọc quan tâm đến buổi duyệt binh của nước Nga vào ngày 9/5, những từ khoá liên quan sẽ được gợi ý cho người dùng qua nội dung bài viết hiện tại, như người dùng có thể xem các bài viết liên quan đến phát xít, duyệt binh, hồng quân, thủ tướng Nga, tổng thống Nga, Nga.... Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com Ngoài các ứng dụng hướng đến sự quan tâm người dùng, các từ khoá còn có một ứng dụng khác trong việc phân cụm các trang web theo chính các từ khóa. Mỗi trang web có một tập các từ khóa riêng, các từ khóa này có thể trùng với các từ khóa của các trang web khác. Do đó, một từ khóa như là một thư mục chứa các trang web liên quan, có từ khóa chính là tên của thư mục đó. Một trang web có nhiều từ khóa, cho nên một trang web có thể thuộc nhiều thư mục khác nhau. Chính sự tự nhiên này của các từ khóa, nên nó có tác dụng làm cho việc tìm kiếm nhanh hơn, hiệu quả hơn, làm cho việc lưu trữ trở nên có cấu trúc hơn. Mạng xã hội cũng đang phát triển rất nhanh, thu hút được nhiều sự quan tâm của giới trẻ. Một trong các hình thức của mạng xã hội là blog. Blog là nơi để mọi người viết nhật kí, hay những bài viết chia sẻ kiến thức, hoặc những bài viết về các 11
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1