intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Đề tài: Tìm hiểu và ứng dụng SEO vào trang web toancaumobile.vn

Chia sẻ: Tran Hoa | Ngày: | Loại File: DOCX | Số trang:62

112
lượt xem
23
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Chuyên đề đề tài “Tìm hiểu và ứng dụng SEO vào trang web toancaumobile.vn” là một minh chứng cụ thể nhất cho việc áp dụng phương pháp SEO vào một website phi lợi nhuận, một website bán hàng điện tử điện thoại.

Chủ đề:
Lưu

Nội dung Text: Đề tài: Tìm hiểu và ứng dụng SEO vào trang web toancaumobile.vn

  1. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của tôi. Những kết quả  và các số  liệu  trong chuyên đề  chưa được ai công bố  dưới bất cứ  hình thức nào. Tôi hoàn toàn chịu   trách nhiệm trước nhà trường về sự cam đoan này. Huế, ngày 01 tháng 05 năm 2016 Sinh viên thực hiện Nguyễn Tuấn Vũ
  2. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa MỤC LỤC SVTH: Nguyễn Tuấn Vũ 2 Lớp: K46 TMĐT
  3. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa DANH MỤC HÌNH SVTH: Nguyễn Tuấn Vũ 3 Lớp: K46 TMĐT
  4. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa CHƯƠNG 1. TỔNG QUAN 1.1. ĐẶT VẤN ĐỀ Website  –  ngôi  nhà  của  Doanh  nghiệp  trên  Internet,  nếu  nói  tên  miền  là  bảng  hiệu  của một  Công  ty  thì  website  chính  là  văn  phòng  của  Công  ty  đó,  là  nơi  khách  hàng  tìm  kiếm  các thông tin về doanh nghiệp trước khi kí hợp đồng,  là nơi  khách  hàng  và  các  đối  tác  liên  hệ  doanh  nghiệp,  là  bộ  mặt  của  doanh  nghiệp… Ngoài ra website còn tạo ra không ít lợi thế khác như : Hướng hoạt động của doanh nghiệp từ nội địa hoặc cục bộ ra toàn cầu. Website  là  nơi  trưng  bày,  giới  thiệu  sản  phẩm,  hàng  hóa  dịch  vụ  của  Doanh  nghiệp. Hoạt động lên tục 24x7, không giới hạn thời gian và không gian. Website  là  kênh  thông  tin  giới  thiệu  sản  phẩm,  dịch  vụ  hoàn  hảo  nhất  và  hữu  dụng nhất với hình ảnh, các giới thiệu, các media… Website còn là một kho hàng khổng lồ, không giới hạn về sức chứa. Hơn cả, website là một kênh bán hàng tốn ít chi phí nhất. Thông  qua  website,  doanh  nghiệp  có  thể  tiếp  thị  hình  ảnh,  thương  hiệu,  dịch  vụ,  sản phẩm  của  mình  ra  ngoài  phạm  vi,  khu  vực  của  quốc  gia.  Chính  vì những  lợi ích  ấy, việc không có website đã là một thiệt thòi so với các  đối thủ cạnh tranh. Theo  Tổng  cục  Thống  kê,  tổng  số  người  sử  dụng  Internet  tại Việt  Nam  tính đến 2013 là hơn39  triệu  người,  (  chiếm  hơn  43.9%  dân  số  Việt  Nam)  và  hơn  8,5  triệu  người  dùng  Internet băng thông rộng (08/2014). Trong  giai  đoạn  2000  ­  2010,  tỉ  lệ  tăng  trưởng  người  sử  dụng  Internet  tại  Việt  Nam  đạt  mức  12%,  tốc  độ  tăng  trưởng  nhanh  nhất  trong  khu  vực.  Như  vậy  sau  gần  14  năm  kể  từ  ngày Việt Nam gia nhập  cộng  đồng  Internet  toàn  cầu  (1/12/1997),  lượng  người  sử  dụng  Internet  trong  nước  đã  tăng  nhanh  một cách đáng kể. SVTH: Nguyễn Tuấn Vũ 4 Lớp: K46 TMĐT
  5. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa Nhìn  chung,  Internet  là  một  món  ăn  không  thể  thiếu  với  cuộc  sống  của  mọi  người,  với  thói  quen  sử  dụng  các  bộ  máy  tìm  kiếm  (Google,  Bing,  Yahoo…)  để  tìm  kiếm  thông  tin  về  doanh nghiệp,  tài liệu học tập, mua sắm  trực tuyến, nạp thẻ điện thoại, thanh toán hóa đơn… Theo thống kê, có đến hơn 86% lượng truy cập của một website đều đến  từ  các  Search  Engine  lớn  như  Google,  Yahoo,  MSN…  Mỗi  ngày  có hàng  triệu  người dùng lướt web sử  dụng Search  Engine để  tìm những sản phẩm,  dịch vụ  và thông tin họ đang cần.Nhưng liệu với hàng tỉ  website  hiện  đang  tồn  tại,  làm  sao khách  hàng  có thể tìm thấy  website  của bạn  trước  mà không phải  của  các  đối  thủ  cạnh  tranh?  Hầu  hết  người  sử  dụng  các  bộ  máy  tìm  kiếm  đều  không  kiên  nhẫn,  họ  chỉ  tập  trung  vào  các  kết  quả  tìm  kiếm  ở  “Trang  nhất”  trong  hàng trăm, hàng triệu kết quả trả về khi truy vấn tìm kiếm. 1.2. LỊCH SỬ GIẢI QUYẾT VẤN ĐỀ Webmaster  và  các  nhà  cung  cấp  dịch  vụ  SEO  đã  bắt  đầu  tối  ưu  hóa  các  trang  web  cho  công  cụ  tìm  kiếm  vào  giữa  những  năm  1990.  Ban  đầu,  các  webmaster  bắt  đầu  gửi  link  liên  kết hay url của trang web đến các công cụ tìm  kiếm, các công cụ này sẽ gửi một spider đến trang website  đó, website  sẽ được  thu  thập  dữ  liệu,  sau  đó  được  index  lên  máy  chủ  tìm kiếm,  nơi  đây các  thông  tin  về  website  sẽ  được  lưu  trữ  lại,  các  từ  khóa  của  website,  các  link  liên  kết  trong website  đó,  các  spider  này  sẽ  làm  việc  index  lên  máy  chủ  theo  lịch  trình  mà  các  công  cụ  tìm kiếm  quy  ước.  Người  sở hữu  trang  web  bắt  đầu  để  nhận  ra  những  giá  trị  của  việc  có  các  trang web  của  họ  và  có  thể  nhìn  thấy  được xếp hạng cao trong kết quả công cụ tìm kiếm.  SEO chia ra làm hai dạng  đó là : SEO truyền thống (White Hat SEO) và SEO gian lận (Black Hat SEO). Theo nhà phân tích Danny Sullivan, cụm từ “Tối ưu hóa công cụ tìm kiếm”  sử dụng rất nhiều trên mạng vào năm 1997. SVTH: Nguyễn Tuấn Vũ 5 Lớp: K46 TMĐT
  6. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa Đầu  phiên  bản  của thuật  toán  tìm kiếm  dựa vào quản  trị  trang  web  cung  cấp  thông  tin  như  các  thẻ  meta  từ  khoá,  hoặc  tập  tin  chỉ  mục  như  ALIWEB.  Thẻ meta cung cấp một hướng dẫn đến nội dung của mỗi trang. Sử  dụng  dữ  liệu  meta  vào  các  trang  chỉ  mục  được  tìm  thấy  sẽ  được  ít  hơn  đáng  tin  cậy, tuy  nhiên,  vì  những  sự  lựa  chọn  của  webmastermà  các  thẻ  meta  có  sự  chính  xác  trong  khả  năng  đưa  thông  tin website  lên  máy  chủ  tìm  kiếm. Những dữ liệu không chính xác, không đầy đủ, và không  nhất  quán  trong  thẻ  meta  có thể  gây  ra sự xếp  hạng  không  đúng  vị trí cho  các  tìm kiếm không  liên quan. Việc cung cấp nội dung được tối  ưu hóa và một số thuộc tính trong  mã  nguồn  HTML  đối  với  một  trang  web  cần  phải  chính  xác  để  có  được  kết  quả tốt trên công cụ tìm kiếm. Bằng  cách  dựa  quá  nhiều  vào  các  yếu  tố  như  mật  độ  từ  khóa  đó  được  độc  quyền  trong vòng  kiểm  soát  của  một  webmaster,  công  cụ  tìm  kiếm  sớm  bị  lạm  dụng  vào  thao  tác  xếp  hạng. Để  cung  cấp  kết  quả  tốt  hơn  cho  người  dùng của họ, công cụ tìm kiếm đã phải thích  ứng để đảm bảo kết quả của các  trang  đã  cho  thấy  các  kết quả  tìm kiếm  có liên  quan  nhất,  thay  vì các  trang  không  liên  quan  nhồi  với  từ  khoá  nhiều  bởi  Black  Hat  SEO  –  nhóm  Webmaster  không  bao  giờ tuân  theo  các qui định  của các  bộ máy  tìm kiếm,  họ  luôn  lạm  dụng  quá  mức  các  thủ  thuật.  Các công cụ tìm kiếm đã phản  ứng lại  bằng cách phát triển phức tạp hơn thuật toán xếp hạng, có tính đến các yếu tố  bổ sung mà gây nhiều khó khăn cho quản trị web để thao tác. SEO  tại Việt  Nam  bắt đầu  những  nền  móng  phát  triển  đầu  tiên  khoảng  vào thời điểm giữa năm  2006.  Sau  5  năm,  đến  nay  SEO  đã  là  một  khái  niệm  mà  hầu  như  bất  kì  một  nhà  quản  trị  website nào cũng biết đến và tìm hiểu nó  dù ít hay nhiều. Thậm chí, SEO còn được đưa vào hoạt động  của  công  ty  như  một  hướng  đi  chiến  lược  với  những  kế  hoạch  dài  hơi.  Điển  hình,  bạn  có thể  SVTH: Nguyễn Tuấn Vũ 6 Lớp: K46 TMĐT
  7. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa dễ  dàng  nhận  ra  FPT  có  bộ  phận  SEO  riêng,  Zing  có  bộ  phận  SEO  riêng,  VCCORP  cũng có bộ phận traffic riêng, Báo điện tử 24h… Như đã trình bày  ở trên, hầu hết người làm SEO chỉ chú ý đến việc là sao  để một website Thương  mại  được  lên  trang  nhất  của  bộ  máy  tìm  kiếm.  Vấn  đề đặt  ra:  có  thể  áp dụng  SEO  cho một  website  phi  lợi nhuận,  mang  tính  giáo  dục  và  Cộng  đồng  không  ?  Liệu  SEO  cho  một  trang  web  phi  thương  mại  có  khả năng thành công không… Chuyên đề  đề  tài  “TÌM HIỂU VÀ ỨNG DỤNG SEO VÀO TRANG WEB   TOANCAUMOBILE.VN”  là  một  minh  chứng  cụ  thể  nhất  cho  việc  áp dụng  phương pháp SEO vào một website phi lợi nhuận, một website bán hàng điện tử  điện thoại. 1.3. MỤC TIÊU CẦN ĐẠT ĐƯỢC 1.3.1. Về lý thuyết Sau khi hoàn thành chuyên đề, sinh viên có các kĩ năng sau: Tìm hiểu bộ máy tìm kiếm. Hiểu thế nào là SEO, các biện pháp để tiến hành SEO một trang web. 1.3.2. Về ứng dụng Sau khi áp dụng lý thuyết đạt được vào thực tiễn, sinh viên có được cách  để: Đưa website vào top 3 của bộ máy tìm kiếm với từ khóa “điện thoại toàn cầu” Phương pháp duy trì top 10 khi seo đã thành công SVTH: Nguyễn Tuấn Vũ 7 Lớp: K46 TMĐT
  8. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa CHƯƠNG 2. KHẢO SÁT HIỆN TRẠNG 2.1. Phương pháp nghiên cứu và giải quyết vấn đề  Việc  đầu  tiên  trước  khi  SEO  một  website  đã  được  định  hướng  đúng  đắn  bằng  những  ý  tưởng  độc  đáo  và  mã  nguồn  tốt  thì  chúng  ta  phải  biết  được  SEO  là  gì?Và  các  phương  pháp  lựa  chọn những thành phần hỗ  trợ  cho  website đó.Một website được SEO tốt khi và chỉ  khi w ebmaster  có  được  hiểu  biết đúng đắn, tránh rơi vào tình trạng Black Hat SEO. Nhìn  chung,  quá  trình  nghiên  cứu  được  phân  thành  04  giai  đoạn,  các  giai  đoạn này được thực hiện liên tục cho đến khi SEO thành công. Hình 2. : Tổng quan quá trình nghiên cứu và giải quyết vấn đề Bước 1: Xây dựng ý tưởng,  lựa chọn mã nguồn,  xây dựng website  có nội dung  riêng biệt, hỗ trợ người dùng tối đa. Bước  2:  Bắt  đầu  phát  triển  website,  song  song  với  việc  phát  triển  cả  về  nội  dung  lẫn  mã  nguồn,  tác  giả  bắt  đầu  áp  dụng  các  biện  pháp  để  tối  ưu  hóa  website. Bước 3: Thống kê, theo dõi các từ  khóa, lượng người truy cập. SVTH: Nguyễn Tuấn Vũ 8 Lớp: K46 TMĐT
  9. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa  Bước 4: Theo dõi các báo cáo cụ thể, duy trì công việc hiện tại nếu SEO thành  công hoặc sữa chữa khi SEO chưa thành công 2.1.2. Kế hoạch làm việc Tuần Công việc 1 ­ 2 Nghiên  cứu  về  Search  Engines,  cách  thức  hoạt  động,  cách  thức  thu  3 ­ 4 Nghiên cứu về SEO, các cách giải quyết vấn đề về SEO. thập thông tin. 5 ­ 7 Tối ưu hóa website. 8 Theo dõi, điều chỉnh từ khóa, các nội dung không phù hợp 9 Viết báo cáo. 10 Hoàn thành. 2.2. Bố cục Chương 1: Tổng quan. Tại  chương  này,  tác  giả  sẽ  đề  cập  đến  các  khái  niệm  cơ  bản  về  SEO,  các  hiểu  biết  ban đầu về SEO. Cũng trong chương  này, tác giả giới thiệu đề tài chuyên đề là: “Tìm hiểu  và  ứng  dụng  SEO   ­  Search  Engine  Optimization  vào  website  ToanCauMobile.vn”  –  Một  website  bán  hàng  điện  tử:điện  thoại,phụ   kiện,âm  thanh. Đây là một hướng đi mới khi làm SEO. Qua  chương  1,  tác  giả  giới  thiệu  toàn  cảnh  về  đề  tài.Cách  thức  nghiên  cứu, tiếp cận đề tài và các mục tiêu đạt được khi hoàn thành tốt chuyên đề. Chương 2: Cơ sở lý thuyết. Về  cơ  sở  lý  thuyết,  tác  giả  tìm  hiểu  cách  thức  làm  việc  chung  của  các  bộ  máy  tìm  kiếm, các  cách  thức  thu  thập  thông  tin,  cách  thức  để  một  bộ  máy  tìm kiếm có thể thấy được trang web. SVTH: Nguyễn Tuấn Vũ 9 Lớp: K46 TMĐT
  10. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa Trong  chương  này,  tác  giả  cũng  giới  thiệu  về  hai  phương  thức  đánh  giá  thứ  hạng  của website  là Alexa  và GoogleRank,  hai phương  thức  này  đã và  đang là thước đo quan trọng trong việc phát triển trang web. Cũng  trong  chương  này,  tác  giả  giới  thiệu  SEO,  giúp  cho  người  đọc  có  cái nhìn rõ ràng hơn về SEO. Chương 3: Ứng dụng. Sau  khi  đã  tìm  hiểu  và  nắm  rõ  các  phương  thức  tìm  kiếm,  các  tiêu  chí  đánh giá xếp hạng tại Chương 2, tác giả áp dụng những hiểu biết trên cơ sở lý  thuyết đó để bắt đầu SEO trang web ToanCauMobile.vn. Vì  vậy,  ở  chương  này,  chúng  ta  sẽ  nghiên  cứu  các  phương  pháp  cơ  bản  nhất,  chính  qui nhất  để  có  thể  tối  ưu  hóa  một  website,  nhằm  đưa  website  lên  các thứ hạng  cao khi người  dùng truy vấn. Sau  khi  đã  áp  dụng  các  phương  pháp  cơ  bản  và  chính  qui,  tác  giả  sẽ  thống kê các số liệu và so sánh lúc chưa áp dụng SEO và sau khi áp dụng SEO. Một  số phương  pháp,  kĩ năng  mềm  mà  tác giả đã áp dụng  để SEO  thành  công trang web Chương 4: Kết luận – hướng phát triển. Nội  dung  của  chương  4  sẽ  là  tổng  hợp  kết  quả  các  công  việc  đã  làm  ở  các chương trước. Các kết quả đã đạt được sau khi hoàn thành luận văn. Những nhược điểm của SEO. Hướng  phát  triển,  đề  xuất  các  phương  pháp  đễ  giữ  các  vị  trí  cao  khi  SEO  thành  công, cũng như cách thức quảng bá website để có thể thu lợi nhuận,  tự nuôi sống website. SVTH: Nguyễn Tuấn Vũ 10 Lớp: K46 TMĐT
  11. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa CHƯƠNG 3. CỞ SỞ LÝ THUYẾT 3.1. TỔNG QUAN BỘ MÁY TÌM KIẾM  3.1.1. Bộ máy tìm kiếm hoạt động như thế nào? Search  Engine  hay  còn  gọi  là  công  cụ  tìm  kiếm,  bộ  máy  tìm  kiếm  giúp  người  xem  tìm  thấy  những  thông  tin  một  cách  liên  quan  nhất.  Người  dùng  có  thể  tìm  kiếm  thông  tin  theo  từ  khoá,  hình  ảnh,  địa   điểm…  trên  search  engine.  Khi nhận được câu lệnh yêu cầu tìm kiếm, search engine  sẽ  phân  tích  yêu  cầu  đó,  đánh  giá,  xếp  hạng  và  trả  về  kết  quả  liên  quan  nhất.  Search  engine hoạt động theo quy trình như sau : Ban  đầu,  SE  sẽ  gửi  các  Spider  (hay  còn  gọi  là  con  bọ,  Crawler)  để  tiến  hành  khảo  sát  một  website  khi  nó  được  upload  lên.  Các  Spider  này  được  lập  trình  để có thể tự động  lần theo  liên  kết để  đi đến các website  khác nhau, sau  khi dừng lại ở một website  nào đó, Spider  này sẽ  thu thập, đánh  giá  các  thông  tin  trên  website  đó  trước  khi  tự  động  lần  theo  các  liên  kết  đến  các  website  khác… Sau  khi  nhận  được  các  thông  tin  từ  Spider,  SE  có nhiệm  vụ  lưu  trữ  lại  trước khi phân tích chúng bằng các thuật toán riêng biệt để trả  về  các kết quả  khi người dùng truy vấn đúng vào nội dung. Ta có thể tham khảo cách thức làm  việc chung của SE tại hình dưới đây: SVTH: Nguyễn Tuấn Vũ 11 Lớp: K46 TMĐT
  12. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa Hình 3. : Tổng quan cách thức là, việc của bộ máy tìm kiếm Trong đó: Khảo sát – Crawl: là một giai đoạn rất quan trọng để search engine tham  quan, thu thập thông  tin  trên  website  của  bạn.  Search  engine  có  những  con  bọ  (spider  hay  crawler)  được  lập trình  để  có  thể  tự  động  theo  các  liên  kết  (link)  để  mò  đến  các  website  khác  nhau,  thu  thập  và  đánh  giá  các  thông  tin  trên  website đó. Lưu  trữ  ­ Index:  là giai  đoạn  search  engine  lưu  lại  thông  tin  sau  khi  đã  crawl.  Với  khối lượng  lưu  trữ  vô  hạn,  các  search  engine  có  thể  chứa  hàng  tỉ  kết  quả  liên  quan.  Một  trang  web  có  thể  được  index  nhanhn  hoặc  chậm  tuỳ  thuộc vào tốc độ crawl, độ trust của website và nhiều yếu tố  khác. Phân tích – Analysis:  giai đoạn này search engine sẽ làm việc trên các dữ  liệu mà nó thu thập được. Sau đó tính toán độ  liên quan của dữ  liệu so với yêu  cầu  của  người  dùng.  Các  search  engine  khác  nhau  có  những  thuật  toán  phân  tích  khác  nhau  từ  đây  tạo  ra  sự  khác  biệt  giữa  các  search  engine.  Giai  đoạn  phân tích sẽ tạo tiền đề cho giai đoạn phía sau – Trả về kết quả. Kết quả ­ Results: Các kết quả liên quan sẽ được hiển thị trong giai đoạn  này.  Những  kết quả  liên  quan  thường  được  sắp  ở  phía  trên,  cao  hơn  những  SVTH: Nguyễn Tuấn Vũ 12 Lớp: K46 TMĐT
  13. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa kết  quả  ít  liên  quan.Mặc  dù  không phải  lúc  nào  các  kết  quả  cũng  thoả  mãn  được  yêu  cầu  của  người  tìm  kiếm.Nhưng  cho  đến  hiện nay, người  dùng  khá  hài lòng với những gì mà search engine trả về. Tuy  bức  tranh  hoạt  động  của  search  engine  bên  ngoài  nhìn  chung  khá  đơn  giản  nhưng bên  trong  là  tập  hợp  rất  nhiều  thuật  toán  phức  tạp.  Search  engine  nào  thoả  mãn  nhiều  nhất  nhu cầu tìm kiếm người sử dụng sẽ được sử  dụng rộng rãi và phát triển mạnh mẽ trong tương lai. Ai là vua trong thị trường  tìm kiếm trực tuyến đầy tiềm năng này? SVTH: Nguyễn Tuấn Vũ 13 Lớp: K46 TMĐT
  14. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa 3.1.2. Giới thiệu về các search engine thông dụng Hiện  nay  trên  thế  giới  có  rất  nhiều  search  engine  đang  hoạt  động.  Trong  đó,  phải  kể  đến  ba  chàng  khổng  lồ  đang  chi  phối  98%  thị  phần  tìm  kiếmtheo  thông  kê  của  SEO  MOD  tháng 01/2014. Hình 3. : Biểu đồ thị phần search engine từ seomoz.org Google là search engine được nhiều người sử dụng nhất với 80% số người  sử dụng. Tiếp theo là Yahoo 9.5% và Bing 8.5%, còn lại số phần trăm ít ỏi dành  cho các search engine khác. Hiện  nay,  ở  Việt  Nam  đa  số  mọi  người  cũng  sử  dụng  Google  để  tìm  kiếm  thông  tin.Nên  việc  SEO  trên  Google  là  ưu  tiên  hàng  đầu  đối  với  các  website. 3.2. CẤU TẠO CHUNG CÁC BỘ MÁY TÌM KIẾM Bộ  máy  tìm  kiếm  thường  cấu  tạo  bởi  3  bộ  phận  đó  là:  Bộ  thu  thập  thông  tin,  Bộ  lập  chỉ mục  và bộ tìm  kiếm  thông  tin, được  hoạt  động  theo  mô  hình sau: SVTH: Nguyễn Tuấn Vũ 14 Lớp: K46 TMĐT
  15. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa Hình 3. : Cấu tạo Search Engine Robot  –  bộ  thu  thập  thông  tin:  Robot  được  biết  đến  dưới  nhiều  tên  gọi  khác  nhau: spider,  bot,  crawler,  hoặc  web  worm…Về  bản  chất  robot  chỉ  là  một  chương  trình  duyệt  và  thu thập  thông  tin  từ  các  website  trên  mạng,  nó  tự  động  duyệt  qua  các  cấu  trúc  siêu  liên  kết  và  trả  về  các danh  mục kết quả  của  công  cụ  tìm kiếm.  Những  trình  duyệt  thông  thường  không  được  xem  là  robot  do thiếu  tính chủ động,  chúng  chỉ duyệt  web khi có sự tác động  của con  người. Index – bộ lập chỉ mục: Các trang web sau khi thu thập về sẽ được phân  tích, trích chọn những  thông  tin  cần  thiết  (thường  là các  từ đơn,  từ ghép,  cụm  từ  quan  trọng)  để  lưu  trữ  trong  cơ  sở dữ liệu nhằm phục vụ cho nhu cầu tìm  kiếm sau này. Search  Engine  –  Bộ  tìm  kiếm  thông  tin:  Tưởng  tượng  ta  muốn  tìm  vài  quyển  sách trong  một  thư  viện  rất  lớn.  Với  sức  lực  cá  nhân  ta  không  thể  xem  qua  hết  tất  cả  sách,  vì  vậy  ta cần một danh  mục sách. Tương  tự, tồn tại  hàng  triệu  trang  web  trên  thế giới  và mỗi  phút  trôi qua số  lượng được đẩy lên  càng nhiều hơn, cho dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu  cũng  không  thể  duyệt  hết.  Tuy  nhiên,  với  sự  trợ  giúp  của  SE,  ta  có  thể  thậm  chí  xác  định được vị trí của những từ cần tìm trong các trang web khắp nơi trên  thế giới. SVTH: Nguyễn Tuấn Vũ 15 Lớp: K46 TMĐT
  16. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa 3.2.1. Robot Robot được chia làm 2 loại đó là: Robot thu thập thông tin, và robot chỉ  mục. 3.2.1.1. Robot thu thập thông tin có nhiệm vụ Phân tích – thống kê ­ Statistical Analysis:  Robot đầu tiên được dùng để  đếm số lượng web server,  số tài liệu  trung  bình  của một server,  tỉ lệ các dạng  file khác nhau, kích thước trung bình của một trang web,độ kết dính… Duy  trì  siêu  liên  kết  –  Maintenance:  Một  trong  những  khó  khăn  của  việc  duy  trì  một  siêu  liên  kết  là  nó  liên  kết  với  những  trang  bị  hỏng  (dead  links)  khi  những  trang  này  bị  thay  đổi hoặc  thậm  chí  bị xóa.  Thật  không  may  vẫn chưa có cơ chế nào cảnh báo các bộ duy trì về sự thay đổi  này.  Trên  thực  tế  khi  các  tác  giả  nhận  ra  tài  liệu  của  mình  chứa  những  liên  kết  hỏng,  họ  sẽ  thông  báo  cho  nhau,  hoặc  thỉnh  thoảng  độc  giả  thông  báo  cho  họ  bằng  email.  Một số robot có thể trợ giúp  tác  giả phát  hiện  các liên  kết hỏng  cũng  như  duy  trì các  cấu  trúc  siêu  liên  kết  cùng  nội dung  của một trang  web. Chức năng  này  lặp lại liên tục mỗi khi một tài liệu được cập nhật, nhờ đó mọi vấn đề xảy ra  sẽ được giải quyết nhanh chóng. Ánh  xạ  địa  chỉ  web  – Mirroring:  Mirroring:  là  một  kỹ  thuật  phổ  biến  trong việc duy trì các kho dữ liệu. Một ánh xạ (mirror) sẽ sao chép toàn bộ cấu  trúc  cây  thư  mục  và thường  xuyên cập  nhật  những  file  bị  thay  đổi.  Điều  này  cho  phép  nhiều  người  cùng  truy  xuất  một  nguồn  dữ liệu,  giảm  số  liên  kết  bị  thất  bại,  nhanh  hơn  và  ít  chi  phí  hơn  so  với  truy  cập  trực  tiếp  vào  site thực  sự chứa các dữ liệu này. Phát hiện tài nguyên: Có lẽ ứng dụng thú vị nhất của robot là dùng nó để  phát hiện tài nguyên. Con người không thể kiểm soát nổi một khối lượng thông  tin khổng  lồ  trong  môi  trường  mạng.  Robot  sẽ  giúp  thu  thập  tài  liệu,  tạo  và  SVTH: Nguyễn Tuấn Vũ 16 Lớp: K46 TMĐT
  17. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa duy  trì  cơ  sở  dữ  liệu,  phát  hiện  và  xoá  bỏ  các  liên kết hỏng  nếu có, kết hợp  với công cụ tìm kiếm cung cấp thông tin cần thiết cho con người. Kết  hợp  các  công  dụng  trên  ­ Combined  uses:  Một  robot  có  thể  đảm  nhận nhiều chức năng như: vừa thống kê số lượng tài liệu thu được vừa tạo cơ  sở dữ liệu…. Tuy nhiên những  ứng dụng như thế còn khá ít ỏi. 3.2.1.2. Robot chỉ mục – Robot Indexing Trong quá trình thu thập thông tin phục vụ  cho việc lập chỉ mục , ta cần   giải quyết vấn đề sau: Trong môi trường mạng,robot lấy thông tin từ  các site.Vậy robot sẽ  bắt   đầu từ  site nào? Điều  này  hoàn  toàn  phụ   thuộc  vào  robot.Mỗi   robot  khác  nhau   có  những   chiến   lược    khác nhau.Thường  thì  robot  sẽ  viếng  thăm  các  site phổ biến hoặc những site có nhiều liên kết dẫn đến    nó. Ai  sẽ  cung  cấp  địa  chỉ  của  các  site  này  cho  robot  ?Có  2  nguồn;  Một  là  Robot  nhận  các URL  ban  đầu  từ  user.Hai  là  Robot  phân  tích  các  trang  web  để  lấy  các  URL  mới,  đến  lượt  các  URL  này  trở  thành  địa  chỉ  đầu  vào  cho  robot.Quá trình này được lặp lại liên tục. Chọn dữ  liệu nào trong tài liệu để  lập chỉ mục? Quyết định chọn dữ  liệu  nào trong tài liệu cũng hoàn toàn phụ thuộc vào robot, thường thì những từ được  liệt kê như sau được xem là quan trọng : Ở góc cao của tài liệu. Trong các đề mục. Được in đậm. Trong URLTrong tiêu đề (quan trọng). Trong phần miêu tả trang web (Description) . Trong các thẻ dành cho hình ảnh (ALT). SVTH: Nguyễn Tuấn Vũ 17 Lớp: K46 TMĐT
  18. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa Trong các thẻ chứa từ khóa. Trong các text liên kết. Một  số  robot  lập  chỉ  mục  trên  tiêu  đề,  hoặc  một  số  đoạn  văn  bản  đầu  tiên  hoặc   toàn  bộ tài liệu (full text). Một số khác lại lập chỉ mục trên các thẻ  META(META  tags)  hoặc  các  thẻ  ẩn,  nhờ  vậy  tác  giả  của  trang  web  được  quyền ấn định từ  khoá cho tài liệu của mình. Tuy nhiên chức năng  này  bị  lạm  dụng  quá  nhiều  do  đó các  thẻ  META  không  còn  giữ  được  giá  trị  ban  đầu  của  chúng nữa (Black Hat SEO). SVTH: Nguyễn Tuấn Vũ 18 Lớp: K46 TMĐT
  19. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa 3.2.2. Index – bộ lập chỉ mục 3.2.2.1. Mô hình xử lý tổng quát của một hệ thống lập chỉ mục Hình 3. : Mô hình xử lý tổng quát hệ thống lập chỉ mục Lập  chỉ  mục  là  quá  trình  phân  tích  và  xác  định  các  từ,  cụm  từ  thích  hợp  cốt  lõi  có  khả  năng đại diện cho nội dung của tài liệu.Như vậy, vấn đề đặt ra  là phải  rút  trích  ra những  thông  tin  chính,  có  khả  năng  đại  diện  cho  nội  dung  của tài liệu. Thông  tin này  phải “vừa  đủ”, nghĩa  là không  thiếu  để  trả  ra kết quả đầy  đủ  so với nhu cầu tìm  kiếm,  nhưng  cũng  phải  không  dư  để  giảm  chi  phí  lưu  trữ và chi phí tìm kiếm và để loại bỏ kết quả dư thừa không phù hợp. Việc  rút  trích  này  chính  là việc  lập  chỉ  mục  trên  tài liệu.  Trước  đây,  quá  trình này thường được các chuyên viên đã qua đào tạo thực hiện một cách “thủ  công  “ nên  có  độ  chính  xác  cao. Nhưng  trong  môi  trường  hiện  đại  ngày  nay,  với  lượng  thông  tin  khổng  lồ  thì  việc  lập  chỉ  mục  bằng  tay  không  còn  phù  hợp, phương pháp lập chỉ mục tự động mang lại hiệu quả cao hơn. SVTH: Nguyễn Tuấn Vũ 19 Lớp: K46 TMĐT
  20. Chuyên đề tốt nghiệp Đại học GVHD: Th.S Lê Văn Hòa Một thủ tục lập chỉ mục tự động cơ bản:  Step  of  tokenization:  Tách  văn  bản  ra  thành  các  chuỗi  nhờ  vào  khoảng  trắng,  mỗi chuỗi xem như là một từ.  Step of removal  of stop words: bỏ những từ thường  xuyên xuất hiện trong hầu  hết các tài liệu nhưng lại không quan trọng trong các tài liệu như tính từ, đại  từ. Step of stemming: loại bỏ các hậu tố (Suffixes) để đưa về các từ gốc. Các từ thu được  sẽ được  lập chỉ mục. Tuy  nhiên  hai bước  đầu cũng  cần  cho quá trình lập chỉ  mục  cho  các  tài  liệu  tiếng  Việt,  bước  thứ  ba  không  cần  vì tiếng  Việt  thuộc  dòng  ngôn  ngữ đơn thể 3.2.2.2. Phương  pháp lập chỉ mục Phương pháp lập chỉ mục gồm hai phần chính yếu sau: Đầu tiên là xác định  các mục  từ, khái niệm mà có khả năng  đại diện cho  văn  bản  sẽ  được  lưu  trữ  (bao  gồm  cả  việc  tách  từ,  loại  bỏ  stop­word,  xử  lý  hậu tố…) Thứ  hai  là  xác  định  trọng  số  cho  từng  mục  từ,  trọng  số  này  là  giá  trị  phản ánh tầm quan trọng của mục từ đó trong văn bản. 3.2.2.2.1. Xác định mục từ quan trọng cần lập chỉ mục Mục từ hay còn gọi là mục từ chỉ mục,  là đơn vị cơ sở cho quá trình lập  chỉ  mục.  Mục  từ  có  thể  là  từ  đơn,  từ  phức  hay  một  tổ  hợp  từ  có  nghĩa  trong  một  ngữ  cảnh  cụ  thể.  Ta  xác  định  mục  từ  của  1  văn  bản  dựa  vào  chính  nội  dung của văn bản đó, hoặc dựa vào tiêu đề hoặc tóm tắt nội dung của văn bản  đó. Hầu hết việc lập chỉ mục tự động bắt đầu với việc khảo sát tần số xuất  hiện  của  từng  loại  từ  riêng  rẽ  trong  văn  bản.  Nếu  tất  cả  các  từ  xuất  hiên  trong  tập  tài  liêu  với  những  tần  số  băng  nhau,  thì  không  thể  phân  biệt  các  SVTH: Nguyễn Tuấn Vũ 20 Lớp: K46 TMĐT
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2