Cách Google tìm kiếm, sp xếp th hng website
Google là cy tìm kiếm ln nhất thế giới hiện nay, thuật toán và quy trình tìm
kiếm dliệu website của nó đã được phát triển rất tối ưu. Trong bài viết này tôi s
mô tả quy trình tìm kiếm tng tin của Google. Bạn hiểu được quy trình này nó s
hỗ trợ rất nhiều cho bạn trong q hình học và làm SEO.
Matt Cutt mô t quá trình tìm kiếm ca Google
Mattcutt đã có 1 video mô tả quá trình tìm kiếm ca Google,c bạn có thể bật CC
để xem bản dịch tiếng việt.
Những điều nên biết
1. Khi bn tìm kiếm không phi tìm trc tiếp trên Internet mà đang tìm d liu
trong Sever ca Google.
2. Google s dng phn mm tìm kiếm tng tin tn Internet gi là Spider.
3. Spider di chuyn gia các trang web thông qua Link.
4. Google s dng thuật toán để sp xếp và đưa những kết qu tt nht có th
và cho hin thn trên top 10.
Các giai đoạn tìm kiếm thông tin ca Google
Giai đoạn 1: Tìm thông tin – Web Crawling
Google bot tìm kiếm thông tin mới + website mi theo các nguồn:
1. Khám phá qua link – Discovery Craw
Tưởng tượng Internet như 1 hệ thống xe buýt trong thành phố, mỗi điểm dừng là 1
tài liệu (bài viết, hình ảnh, file pdf,…). Nhiệm vụ của SE bot là phi đi qua hết các
điểm này để thu thập thông tin. Giống như tuyến đường xe buýt, sẽ dẫn ta từ điểm
A -> điểm B. Các Link liên kết giúp SE Bot đi từ webpage y sang webpage
khác.
2. Khám phá qua Sitemaps – Sitemap Crawl
Làm sao website của bạn được Google crawl nếu như nó không có backlink nào
cả? Để giải quyết vấn đề này Google phát hin url mi thông qua việc submit
sitemaps trên Google webmaster tool, hoặc HTTP request >>
www.google.com/addurl.html.
Lọc link với Spam Filter
Quá trình tìm nội dung mi được Google thực hiện thường xuyên. Tuy nhiên
spider không chy theo các liên kết 1 cách ngẫu nhiên mà đi theo 1 thứ tự ưu
tiên. SE bot squét dữ liu trong các Danh bạ website lớn (dmoz, yahoo,…) i
có nhiu website, thường được update website mới -> Nhóm 1.
SE Bot tiếp tục tìm các link trong Nhóm 1 để tìm liên kết ngoài và đưa các link này
-> nhóm 2. Toàn bcác url này sẽ được quăng sang quá trình tiếp theo là Spam
Filter để lọc các liên kết trùng lặp, hỏng. Trong quá trình y, nếu như những link
đến bị lỗi (không truy cập được) nó sẽ được đưa lại quá trình Discovery Crawl.
Giai đoạn 2: Lp ch mc – Indexing.
Các URL sạch có được sau quá trình Spam Filter s được Google tung web cralwer
vào để thu thập nội dung và y dựng chỉ mục.