Eric Enge phỏng vấn Matt Cutts (Googler)

Matt Cutts là kỹ sư phần mềm của Google từ năm tháng 1/2000. Trước

khi làm việc cho Google, anh đã hoàn thành đề tài nghiên cứu của mình

về đồ họa máy tính tại trường Đại học North Carolina ở Chapel Hill.

Ngoài ra anh cũng đã tốt nghiệp thạc sỹ tại trường UNC – Chapel Hill

và cử nhân toán học và canh nghệ tại trường Đại học Kentucky.

Matt là tác giả của phần mềm Safe Search là bộ lọc hữu hiệu phục vụ cho

Google. Ngoài kinh nghiệm làm việc ở Google, Matt còn nắm giữ những

thanh tin tối mật khi làm việc cho Bộ Quốc Phòng Mỹ và anh cũng làm việc

cho một công ty game. Anh chia se rằng Google là một trong những công

việc thú vị nhất của anh cho tới nay.

Hiện nay Matt đang quản lý đội Webspam cho Google. Matt nói về những

vấn đề liên quan tới Webspam trên blog của mình.

Nội dung cuộc phỏng vấn

Enric Enge: Chúng ta hãy cùng tìm hiểu khái niệm “crawl budget”. Theo

tôi được biết thì Googlebot sẽ đi tới các website và tính toán số lượng trang

nó sẽ phải Index trong một ngày và nó sẽ rời đi khi đã hoàn thành công việc.

Matt Cutts: Tôi sẽ cố gắng nói trình bày theo một cách khác cho dễ hiểu.

Điều đầu tiên chúng ta nên nhớ rằng sẽ không có bất cứ một điều nào giống

như “indexation cap”. Rất nhiều người nghĩ rằng một domain chỉ được

Index một lượng trang nhất định. Nhưng googlebot không hoàn toàn làm

việc như thế.

“…số lượng trang mà chúng tôi Crawl tương ứng với Pagerank của trang

đó”

Cũng không có một giới hạn nào cho việc crawl. Cách tốt nhất để nắm được

vấn đề này là chúng ta nên hiểu số lượng trang được Index tương ứng với

Pagerank. Chính vì thế nếu bạn có nhiều liên kết tới trang chủ của bạn,

chúng tôi sẽ crawl trang đó. Sau đó trang chủ của bạn có thể liên kết tới rất

nhiều những trang khác và những trang đó sẽ có được Pagerank. Chúng tôi

cũng sẽ crawl luôn những trang đó. Tuy nhiên, khi trang của bạn càng sâu

thì đồng nghĩa với việc Pagerank của bạn sẽ có xu hướng giảm xuống.

Một cách lý giải khác là những trang có Pagerank thấp trong website của

bạn sẽ phải cạnh tranh với rất nhiều những trang khác có cùng Pagerank

hoặc có Pagerank cao hơn. Có rất nhiều trang trong website của bạn có

Pagerank rất thấp hoặc bằng 0. Những trang có nhiều liên kết thường được

nhận ra và crawl khá nhanh. Những trang có Pagerank thấp có xu hướng

được crawl không thường xuyên.

Một điều cũng vô cùng thú vị khi nghiên cứu thuật ngữ “crawl budget” là

mặc dù không có bất cứ một giới hạn nào trong crawl nhưng vẫn có khái

niệm “host load”. Host load là số lượng kết nối đồng thời mà server có thể

xử lý được. Tưởng tượng rằng website của bạn chỉ có thể xử lý 1 kết nối

cùng 1 lúc. Điều này chỉ cho phép googlebot lấy 1 trang tại 1 thời điểm và

dẫn tới việc “host load” sẽ rất thấp. Trong khi đó có một số trang như

Facebook hoặc Twitter có thể có “host load” rất cao vì cùng một lúc các

website này cho phép thực hiện nhiều kết nối.

Trang của bạn có thể ở trong một host ảo với rất nhiều website khác cùng

một địa chỉ IP. Về mặt lý thuyết, website của bạn sẽ bị hạn chế về số lượng

trang googlebot crawl. Nếu chúng ta chỉ có thể lấy ra 2 trang từ 1 website

vào một thời điểm và chúng ta chỉ có thể crawl chúng vào một thời điểm cụ

thể, sẽ đặt ra một câu hỏi liệu chúng ta có thể lấy được bao nhiêu trang từ

host đó.

Eric Enge: Chính vì vậy ở đây anh sẽ có hai nhân tố. Một là Pagerank, từ

đây chúng ta có thể tính được số lượng trang có thể crawl được trên

website. Nhưng “host load” cũng có thể ảnh hưởng tới kết quả của kết quả

này.

Matt Cutts: Đúng như vậy. Cho tới nay, có một lượng lớn các website đứng

ở vị trí hàng đầu mà Pagerank và những nhân tố khác có thể quyết định việc

chúng ta sẽ đi sâu vào nghiên cứu website này như thế nào.Tuy nhiên “host

load” cũng có thể có những ảnh hưởng nhất định với một website. Điều này

dẫn tới vấn đề những nội dung trùng lặp. Tưởng tượng rằng chúng ta kiểm

tra 3 trang từ 1 website và phát hiện ra rằng hai trang kia lại là bản sao của

trang thứ 3. Chúng ta sẽ loại hai trang kia và chỉ giữ lại một trang. Đó là lý

do tại sao nội dung của các trang có vẻ ít. Chính vì thế chúng ta có thể sẽ

kiểm tra nhiều tới mức có thể từ 1 trang.

Nếu mà “host load” của bạn bị giới hạn, bạn chỉ có một lượng hữu hạn các

trang đượng Crawl do giới hạn của webserver, khi bạn có những trang trùng

lặp chúng tôi sẽ loại bỏ những trang đó điều này đồng nghĩa với việc bạn bỏ

lỡ cơ hội có những trang có nội dung đặc biệt, chất lượng tốt được Index.

Eric Enge: Chính vì chi phí cho những trang có nội dung giống nhau sẽ

lãng phí “crawl budget”.

Matt Cutts: Đúng như vậy. Có một ý kiến cho rằng nếu nếu bạn có một

lượng Pagerank cụ thể, chúng tôi sẽ kiểm tra nhiều website đó. Nhưng một

số trang có thể bị loại và đó là một kiểu lãng phí. Điều này cũng có thể xảy

ra ở host load khi chúng ta không thể truy cập rất nhiều trang.

Eric Enge: Một khái niệm nữa mà chúng ta cần đề cập tới đó là khái niệm

“link juice”. Tôi sẽ sử dụng thuật ngữ Pagerank nhưng tổng quát hơn sẽ

được hiểu là “link juice”. Thuật ngữ “link juice” ở đây có thể được hiểu là

có những mối liên hệ với những khái niệm như sự tin cậy và uy tín của thuật

ngữ Pagerank. Khi bạn liên kết từ một trang tới trang bản sao, bạn đang

lãng phí Pagerank của mình. Điều đó có đúng không?

Matt Cutts: Cũng có thể hiểu theo cách đó. Điển hình, nội dung trùng lặp

không phải là một nhân tố quan trọng quyết định việc bao nhiêu trang sẽ

được crawl, nhưng đó cũng là một nhân tố. Lời khuyên của tôi ở đây là nó sẽ

trở nên hữu hiệu hơn nếu bạn có thể sắp xếp được cấu trúc của website. Vì

sau đó bạn sẽ không phải lo lắng nhiều về vấn đề những trang có nội dung

trùng lặp và những vấn đề khác đi kèm với chúng. Bạn có thể sử dụng 301

Redirects cho những URLs trùng lặp sao để gộp chúng lại vào cùng một

URL. Nếu bạn không thể dùng 301 Redirect, bạn có thể dùng

rel=canonincal.

Một vài người không thể kết nối được với web server để thực hiện một 301

redirect. Nguyên nhân của việc này có thể là do họ đang truy cập vào mạng

của trường học, free host hoặc là một host nào đó tương tự. Nhưng nếu họ có

thể xử lý nó trong cấu trúc của site, thì sau này họ có thể giải quyết nó với

301 Redirect hoặc rel=canonical.

Eric Enge: Đúng vậy, đó chắc chắn là một tiêu chuẩn vàng. Có thể hiểu là

bạn có 1 trang và có 10 liên kết tới trang đó. Nếu 3 trong số những trang đó

là những trang trùng lặp và bị loại bỏ thì bạn đã bỏ mất 3 cơ hội để được

chúng tôi crawl.

(đối với những nội dung trùng lặp):” Chúng ta cố gắng gộp những trang đó

lại hơn là loại chúng hoàn toàn”

Matt Cutts: Không cần thiết phải như vậy. Đó là một trường hợp mà chúng

ta có thể thử nghiệm. Chúng ta cố gắng gộp những trang đó lại hơn là loại

chúng hoàn toàn. Nếu bạn liên kết tới 3 trang có nội dung giống nhau, công

cụ tìm kiếm sẽ có thể nhận ra đó là 3 trang giống nhau và chuyển link juice

tới những trang đã được gộp lại này.

Đó không phải là trường hợp mà Pagerank bị lãng phí hoàn toàn. Nó phụ

thuộc vào công cụ tìm kiếm và cách triển khai. Giả sử rằng các công cụ tìm

kiếm đều triển khai khác nhau, nếu bạn có thể làm được việc đó trên website

của bạn nơi mà các liên kết đều đi tới 1 trang duy nhất. Đó làm một điều

thích hợp hơn.

Eric Enge: Anh có thể nói them về Session IDs?

Matt Cutts: Đừng sử dụng nó. Ngày nay, hầu hết mọi người sẽ có một ý

tưởng hay để tạo một website mà không sử dụng Session IDs. Về điểm này,

hầu hết những người sáng tạo phần mềm đều nghĩ tới, không chỉ đứng ở góc

độ công cụ tìm kiếm mà còn ở góc độ của người sử dụng. Người sử dụng

thường có xu hướng click vào những link đẹp và họ cũng thường có xu

hướng nhớ những liên kết trông đẹp mắt hơn. Tuy nhiên Nếu bạn không thể

tránh khỏi điều đó, Google sẽ cung cấp cho bạn một công cụ để giải quyết

vấn đề Session IDs. Người ta vẫn có thể làm như ở trong Yahoo!, nói một

cách dễ hiểu là nếu một thông số URL không có giá trị hoặc không có thông

số có thể sẽ bị bỏ qua, họ sẽ viết lại chúng với một URL đẹp hơn. Google

cung cấp lựa chọn này cho người dùng và sẽ rất tốt nếu chúng ta sử dụng nó.

Một vài công cụ tìm kiếm khác cũng làm như thế, nhưng sẽ tốt nhất nếu bạn

không phải sử dụng Session IDs.

Eric Enge: Cuối cùng, điều đó có thể dẫn tới tình trạng các nội dung trùng

lặp

Matt Cutts: Đúng, chính xác là như vậy và công cụ tìm kiếm gần như có

thể xử lý vấn đề này khá tốt. Những trường hợp điển hình nhất cũng không

phải là vấn đề hóc búa nhưng tôi đã từng gặp một trường hợp mà ở đó rất

nhiều trang với những phiên bản khác nhau được index với những Session

IDs khác nhau. Với những site riêng của bạn thì bạn nên xem xét kỹ vấn đề

này và bạn sẽ không phải lo ngại về việc công cụ tìm kiếm xử lý vấn đề này

như thế nào.

Eric Enge: Hãy thử xem xét những chương trình liên minh (Affiliate

programs). Người khác gửi cho bạn những truy cập, họ đặt cho các URL đó

một tham số. Bạn giữ những tham số đó trong suốt quá trình người khác vào

thăm website, đó là một điều hoàn toàn bình thường. Liệu có phải công cụ

tìm kiếm sử lý vấn đề này rất tốt hoặc là sẽ xảy ra nguy cơ có những nội

dung trùng lập ở đây.

Matt Cutts: Nội dung trùng lập hoàn toàn có thể xảy ra. Nếu bạn tham gia

các chương trình co-brand (Sử dụng chung một thương hiệu) mà sự khác

nhau giữa các trang chỉ là biểu tượng và đó là cách mà những người sử dụng

dùng chúng như những trang giống nhau. Công cụ tìm kiếm tỏ ra rất hữu

hiệu trong việc cố gắng gộp những trang này vào với nhau, nhưng trong một

vài trường hợp vẫn xảy ra tình trạng những nội dung trùng lặp.

Eric Enge: Với những trường hợp như thế này vẫn có những giải pháp SEO

kinh điển. Theo phương cách này, điều bạn thật sự cần làm là để họ đặt một

tham số vào trong URL, nhưng khi người sử dụng click vào liên kết này để

tới site của bạn, bạn sẽ 301 redirect họ về trang đó mà không cần tham số

và để tham số đó trong cookie.

Matt Cutts: Cũng có thể làm như vậy. Điều này cũng giống như việc thuê

trang để quảng cáo. Bạn có thể nghĩ tới việc tạo một trang con cho thuê

quảng cáo trong một thư mục URL riêng biệt mà bạn có thể block vào

robots.txt như một ví dụ. Quảng cáo hay những liên kết con chủ yếu là nhắm

tới những người sử dụng thực sự chứ không phải là các công cụ tìm kiếm.

Đó chính là điểm rất dễ nhận ra và bạn không phải lo lắng về việc những mã

liên kết này sẽ bị rò rỉ hoặc tạo ra những nội dung trùng lặp nếu những trang

này không được crawl ở phần đầu.

Eric Enge: nếu Googlebot nhận ra một chương trình chương trình liên minh

(Affiliate) liệu nó có đối xử với liên kết này như quảng cáo hay một

Endorsement?

(với những link Affiliate) “..Chúng tôi sẽ không đếm chúng như

Endorsement

Matt Cutts: Chúng tôi muốn xử lý những kiên kết này một cách thích hợp.

Nhiều thời gian đồng nghĩa với việc những liên kết này về bản chất sẽ tiêu

tốn rất nhiều tiền của. Chính vì vậy, chúng tôi sẽ không đếm chúng như một

endorsement.