Thường thì tệp tin robots.txt đặt tại thư mục gốc của tên miền là công cụ lý tưởng để giao tiếp với các máy tìm kiếm (Robots với Google, Yahoo và Microsofts) trong việc đánh chỉ số trang web. Tuy nhiên trong một số trường hợp, tệp tin /robots.txt trở nên hạn chế và việc sử dụng nó rất rườm rà, nặng nề.
Thẻ META “robots” lúc này, lại rất hữu ích ngay cả khi cách sử dụng của nó khá khác so với tệp tin robots.txt
Khái niệm chung
Trước khi đi vào tìm hiểu cách hoạt động của Robots META Tag thì chúng ta hãy xem xét một vài khái niệm liên quan tới việc đánh chỉ số và theo đường dẫn.
Đánh chỉ số (index page)
“Đánh chỉ số” hay “Chỉ số hóa” trang Web rất tiếc không được định nghĩa trong Robots Exclusion Standard.
Một số người cho rằng việc ngăn không cho đánh chỉ số tương ứng với việc trang đó, trong bất kể trường hợp nào đều không thể xuất hiện trong các kết quả tìm kiếm và nội dung của nó, đặt biệt là các đường liên kết URL, không được khai thác bởi các bọ tìm kiếm đến từ các máy tìm kiếm.
Tuy nhiên cũng có một số cách dịch khác bớt nghiêm khắc hơn. Họ cho rằng việc cấm đánh chỉ số trang Web là việc mà các máy tìm kiếm không sử dụng nội dung của trang để xác định thứ hạng trong kết quả tìm kiếm trong khi đường dẫn URL của trang vẫn xuất hiện bởi các yếu tố khác thu thập được độc lập với việc cấm trên trang này.
Truy vấn liên kết (follow link URL)
Khái niệm “truy vấn liên kết” thì dễ hiểu hơn. Theo đường dẫn được hiểu là các máy tìm kiếm phải bỏ qua đường dẫn mà chúng tìm thấy trong trang. Nó phải xử sự như chưa thấy đường dẫn đó trong trang. Và những đường dẫn này không góp phần nào vào mức độ “phổ biến” của các trang mà liên kết của nó trỏ đến (link URL).
Tuy nhiên rõ ràng là các đường dẫn này có thể được phát hiện trên các trang web khác và bọ tìm kiếm sẽ truy vấn.
Giới thiệu thẻ Metadata Robots
Thẻ META Tag này luôn nằm tại ví trí đầu tiên của mã nguồn HTML tương ứng của trang. Có nghĩa là giữa thẻ HEAD và /HEADE.
Qui ước chuẩn của META “robots” liên quan tới việc đánh chỉ số của trang và truy vấn liên kết mà chúng ta sẽ xem xét kỹ phần tiếp theo.
Với thẻ META robots bạn có thể chỉ định cách bọ tìm kiếm quét trang web của bạn. Thẻ META này gồm một số giá trị sau :
all
Googlebot đánh chỉ số tất cả (ngầm định).
none
Googlebot không đánh chỉ số gì hết.
index
Đánh chỉ số trang Web.
noindex
Không đánh chỉ số trang, nhưng vẫn truy vấn đường dẫn URL.
follow
Googlebot sẽ đọc liên kết siêu văn bản trong trang và truy vấn, xử lý sau đó.
nofollow
Googlebot không phân tích liên kết trong trang.
noarchive
Không cho máy tìm kiếm lưu vào bộ nhớ bản sao trang Web.
nocache
Chức năng như thẻ noarchive nhưng chỉ áp dụng cho MSN/Live.
nosnippet
Không cho bọ tìm kiếm hiển thị miêu tả sinppet của trang trong kết quả tìm kiếm và không cho phép chúng hiển thị trong bộ nhớ (cache hay caching).
noodp
Ngăn máy tìm kiếm khỏi việc tạo các miêu tả description từ các thư mục danh bạ Web DMOZ như là một phần của snippet trong trang kết quả tìm kiếm.
noydir
Ngăn Yahoo khỏi việc trích miêu tả trong danh bạ Web Yahoo! diectory để tạo các phần miêu tả trong kết quả tìm kiếm. Giá trị noydir chỉ áp dụng với Yahoo và không có công cụ tìm kiếm nào khác sử dụng danh bạn Web của Yahoo bởi thế giá trị này không được hỗ trợ cho máy tìm kiếm khác..
Ví dụ :
<meta name="robots" content="index, follow">
Trong ví dụ này như các bạn thấy trên hình; máy tìm kiếm sẽ đánh chỉ số trang và tất cả các trang khác nó tìm thấy đường dẫn trong trang chỉ định.
Hình 1 : Ví dụ sử dụng thẻ Meta robots cho phép đánh chỉ số tất cả.
Máy tìm kiếm sử dụng Robots Meta Tags như thế nào ?
Như chúng ta vừa nghiên cứu các giá trị của thẻ Meta Tag Robots, sau đây là bảng tóm tắt các giá trị được hỗ trợ và sử dụng bởi các máy tìm kiếm phổ biến nhất :
Giá trị thẻ Robots
|
Google
|
Yahoo!
|
MSN / Live
|
Ask
|
index
|
Có
|
Không
|
Có
|
Có
|
noindex
|
Có
|
Có
|
Có
|
Có
|
none
|
Có
|
Có thể
|
Có thể
|
Có
|
follow
|
Có
|
Có thể
|
Có thể
|
Có
|
nofollow
|
Có
|
Có
|
Có
|
Có
|
noarchive
|
Có
|
Có
|
Có
|
Có
|
nosnippet
|
Có
|
Không
|
Không
|
Không
|
noodp
|
Có
|
Có
|
Có
|
Không
|
noydir
|
Không dùng
|
Có
|
Không dùng
|
Không dùng
|
Với các thông tin trong bảng tóm tắt trên thì các bạn có thể điều chỉnh quyền và giới hạn cho bọ tìm kiếm đến từ các máy tìm kiếm với chú ý tên của các bọ tìm kiếm phổ biến tương ứng như sau :
Google
GOOGLEBOT
Yahoo!
SLURP
MSN / Live
MSNBOT
Ask
TEOMA
Qui ước chuẩn sử dụng META Robots
Qui ước chung
Cú pháp : <meta name=”robots” content=”value“>
Ký tự tối đa : Không qui định
Tương thích : Với tất cả máy tìm kiếm
Phiên bản : HTML 2.0
Vị trí : Nằm giữa thẻ <head> và </head>
Chức năng : Cho phép chỉ định cách thức máy tìm kiếm đánh chỉ số của trang hoặc cấm một số máy tìm kiếm nếu được chỉ định.
Lỗi cần tránh : Không có, thẻ Meta này không nhất thiết bắt buộc.
Giải thích
Phần content=”value” được ngăn cách bởi một dấu phẩy nếu thẻ Robots META Tag gồm nhiều hơn một giá trị bất kể là : none, noindex, nofollow, all, index hay follow.
– none : Bọ tìm kiếm (Robots) bỏ qua trang này. Tương đương với noindex, nofollow.
– noindex : Trang này không được đánh chỉ số.
– nofollow : Robots sẽ không truy vấn đường dẫn tìm thấy trong trang.
– all : Không hạn chế việc đánh chỉ số trang hay truy vấn đường dẫn tìm thấy trong trang nhằm xác định ra các trang cần đánh chỉ số tiếp.
– index : Robots có thể thêm trang này vào trong các kết quả tìm kiếm.
– follow : Robots có thể truy vấn địa chỉ đường dẫn URL để tìm ra các trang khác.
Ghi chú :
Qui ước index, follow hay all không cần phải chỉ định bởi nó được qui định ngầm định.
<meta name="robots" content="index, follow">
<meta name="robots" content="all">
Nếu như không có thể meta tag, hoặc phần nội dung content của thể này trống hoặc robots không được chỉ định thì robots terms sẽ được hiểu ngầm định là index, follow (tương đương với all). Nếu từ khóa all được tìm thấy trong phần khai báo thì nó sẽ bỏ qua tất cả các giá trị khác. Bởi thế tất cả các giá trị “nofollow, all, noindex, nofollow” sẽ trở thành “all”.
Còn trong trường hợp các giá trị đối ngược (ví dụ “follow, nofollow, follow”) thì bọ tìm kiếm sẽ được tự ý quyết định việc quét trang của mình.
Một số cách dùng thông dụng Robots METATag
Thẻ Robots META Tag được dùng để loại trừ nội dung. Chúng ta hãy cùng xem xét 3 ví dụ sau sử dụng Robots META Tag chính xác để loại trừ thông tin khỏi việc đánh chỉ số và các dịch vụ của máy tìm kiếm.
1 Sử dụng giá trị noindex để cho phép liên kết được truy vấn dù cho trang không được đánh chỉ số.
<meta name=”robots” content=”noindex“>
2 Sử dụng nofollow cho phép trang được đánh chỉ số nhưng đường dẫn trong trang không được truy vấn.
<meta name=”robots” content=”nofollow“>
3 Sử dụng none tương đương với noindex, nofollow để cấm cả việc đánh chỉ số và truy vấn đường dẫn.
<meta name=”robots” content=”none“>
Nếu các bạn muốn các thông tin chỉ tiết hơn về Robots META Tag có hãy tham khảo trên trang chính thức robotstxt.org .
Cuối cùng, như đã nói ở trên, các bạn kết hợp cách sử dụng tệp tin robots.txt và các sử dụng NOFOLLOW với rel=”nofollow” (do Google khởi xướng và được chấp nhận bởi các máy tìm kiếm khác). Ngoài ra, các bạn cũng nên lưu ý việc sử dụng Robots.txt cho Google cũng có nhiều lựa chọn và điểm riêng biệt hơn so với các máy tìm kiếm khác.