1

Blokowanie indeksowania: jak unikać konfliktów technik

[message type=”info”]Autorem poniższego tekstu jest Lindsay. Oryginalny, angielski tekst ukazał się na blogu SEOmoz.[/message]

Jak prawdopodobnie wiesz, nie zawsze możesz liczyć na to, że roboty wyszukiwarek efektywnie wykonają swoją pracę, kiedy odwiedzą i zindeksują Twoją witrynę. Pozostawione samym sobie generują zduplikowaną treść, lekceważą ważne strony, indeksują treść, która nie powinna służyć jako punkt wejścia użytkowników itd. Masz jednak do dyspozycji kilka narzędzi, które pozwalają zoptymalizować aktywność robota w witrynie, w tym metaznacznik robots, plik robots.txt, dyrektywę X-Robots-Tag oraz znacznik canonical.

Dziś napiszę kilka słów o konfliktach technik kontroli robotów. Żeby nie pozostawiać ŻADNYCH wątpliwości i trzymać roboty z dala od wybranych stron, webmasterzy czasem stosują więcej niż jedną technikę. Niestety, techniki te bywają sprzeczne: jedna ukrywa instrukcje drugiej albo blokuje dostęp do łączy.

Co się dzieje, gdy strona jest zablokowana w pliku robots.txt i ma metaznacznik noindex? A co ze znacznikami noindex i canonical?

Krótka powtórka

Zanim przejdziemy do konfliktów, przyjrzyjmy się głównym technikom ograniczania dostępu robotów.

Metaznacznik robots

Metaznacznik robots zawiera odnoszące się do danej strony instrukcje dla robotów wyszukiwarek. Powinien znajdować się w sekcji head dokumentu HTML i może wyglądać tak:

Poniżej znajduje się tabela powszechnie obsługiwanych poleceń wraz z opisem ich przeznaczenia.

[custom_table]
Polecenie Opis
NOINDEX Zapobiega dołączaniu strony do indeksu
NOFOLLOW Zabrania robotom podążania za łączami na stronie
NOARCHIVE Zapobiega dostępności buforowanej kopii strony w wynikach wyszukiwania
NOSNIPPET Zapobiega wyświetlaniu opisu pod łączem do strony w wynikach wyszukiwania ORAZ buforowaniu strony
NOODP Zapobiega wyświetlaniu opisu strony z katalogu Open Directory Project (DMOZ.org) w wynikach wyszukiwania
NODIR Zapobiega wyświetlaniu tytułów i opisów strony z katalogu Yahoo! w wynikach wyszukiwania[/custom_table]

Znacznik canonical

Metaznacznik canonical odnosi się do danej strony i jest umieszczany w nagłówku HTML strony internetowej. Informuje on wyszukiwarki, jaki adres URL jest kanoniczną wersją wyświetlanej strony. Służy do eliminowania duplikatów z indeksu przeglądarek przy jednoczesnym konsolidowaniu siły łączy w jedną stronę ?kanoniczną?.

Kod wygląda tak:

X-Robots-Tag

Od 2007 r. Google i inne wyszukiwarki obsługują dyrektywę X-Robots-Tag jako sposób na informowanie robotów o preferencjach w zakresie dostępu i indeksowania za pośrednictwem nagłówka HTTP używanego do dostarczenia dokumentu. Dyrektywa X-Robots-Tag przydaje się do kontroli indeksowania typów treści innych niż HTML, takich jak dokumenty PDF. Jeśli na przykład strona ma zostać wyłączona z indeksu wyszukiwarki, należy użyć dyrektywy:

Plik robots.txt

Plik robots.txt zapewnia pewną kontrolę nad dostępem robotów do witryny, ale nie gwarantuje, że strona nie zostanie przeszukana i zindeksowana. Należy stosować go tylko wtedy, gdy jest to konieczne, i nie blokować robotom dostępu do części witryny bez ważnych przyczyn biznesowych lub związanych z pozycjonowaniem stron. Niemal zawsze zalecam, żeby zamiast pliku robots.txt używać metaznacznika noindex w celu wyłączenia stron z indeksu.

Unikanie konfliktów

Nie należy jednocześnie używać którychkolwiek dwóch spośród poniższych metod kontroli dostępu:

  • metaznacznik robots „noindex”,
  • znacznik canonical (kiedy wskazuje inny adres URL),
  • dyrektywa Disallow w pliku robots.txt,
  • dyrektywa X-Robots-Tag.

Choćbyś naprawdę chciał wykluczyć stronę z wyników wyszukiwania, jedno rozwiązanie jest zawsze lepsze niż dwa. Zobaczmy, co się dzieje, gdy jeden adres URL podlega różnym kombinacjom kontroli dostępu.

Metaznacznik robots „noindex” i znacznik canonical

Jeśli Twoim celem jest skonsolidowanie siły łączy jednego adresu URL z innym adresem URL i nie dysponujesz lepszym rozwiązaniem, użyj samego znacznika canonical. Nie strzelaj sobie w stopę, jednocześnie używając metaznacznika robots „noindex”. Jeśli użyjesz obu technik kontroli robotów, wyszukiwarki prawdopodobnie w ogóle nie znajdą Twojego znacznika canonical. Konsolidacja siły łączy nie powiedzie się, ponieważ z powodu metaznacznika robots „noindex” znacznik canonical będzie niewidoczny! Ups.

Metaznacznik robots „noindex” i dyrektywa X-Robots-Tag „noindex”

Te znaczniki są redundantne. Opatrzenie jednej strony oboma znacznikami nie powinno mieć negatywnych skutków z perspektywy SEO, ale jeśli możesz zmodyfikować nagłówek dokumentu i dodać metaznacznik robots „noindex”, nie ma powodu, żebyś używał dyrektywy X-Robots-Tag.

Dyrektywa Disallow w pliku robots.txt i metaznacznik robots „noindex”

To najczęstszy konflikt, z którym się spotykam.

Metaznacznik robots „noindex” cenię za to, że skutecznie wyłącza stronę z indeksu, ale zapewnia dostęp z nieindeksowanych stron do położonej głębiej treści. Jest to korzystne pod każdym względem i nie blokuje wartościowych łączy.

Dyrektywa Disallow w pliku robots.txt blokuje robotom dostęp do treści strony (w tym do potencjalnie cennych wewnętrznych łączy), ale nie wyłącza jej adresu URL z indeksu. Jaki w tym sens? Kiedyś napisałam post poświęcony wyłącznie temu tematowi.

Jeśli używane są obie techniki, plik robots.txt gwarantuje, że robot nigdy nie zobaczy metaznacznika robots „noindex”. Dyrektywa Disallow w pliku robots.txt eliminuje wszystkie korzyści, jakie mógłby przynieść ten znacznik.

Poniżej omawiam prosty przykład tego, co się dzieje w przypadku zastosowania obu technik.

Oto zrzut ekranowy wyników wyszukiwania Google ze stroną, która jest zablokowana w pliku robots.txt i zawiera metaznacznik robots „noindex”. Pierwszym symptomem problemu jest to, że w ogóle znalazła się ona w indeksie Google.

robots-and-meta-noindex-SERP

Źródło: wyniki wyszukiwania Google

Oto nagłówek strony z metaznacznikiem robots „noindex”. Szkoda, że wyszukiwarki go nie widzą.

robots-and-meta-noindex-SOURCE

Źródło: zobacz kod źródłowy tej strony

Jak widać, cała poddomena jest zablokowana w pliku robots.txt, co sprawia, że użyteczne metaznaczniki robots „noindex” pozostają niewidoczne.

robots-and-meta-noindex-ROBOTSTXT

Źródło: plik robots.txt

Jeśli administratorzy witryny mail2web.com rzeczywiście chcą ukryć całą jej zawartość przed wyszukiwarkami, byłoby lepiej, gdyby używali wyłącznie metaznaczników robots „noindex”.

Znacznik canonical i dyrektywa X-Robots-Tag ‚noindex’

Jeśli możesz zmodyfikować znacznikdokumentu, dyrektywa X-Robots-Tag prawdopodobnie nie jest najlepszym sposobem ograniczania dostępu. Lepiej zarezerwować ją na użytek plików innych niż HTML, takich jak PDF i JPEG. Jeśli użyjesz zarówno znacznika canonical, jak i dyrektywy X-Robots-Tag , wyszukiwarki prawdopodobnie zignorują znacznik canonical i nie zreinterpretują wartości łączy zgodnie z oczekiwaniami.

Jeśli możesz dodać do strony znacznik canonical, nie powinieneś używać dyrektywy X-Robots-Tag.

Znacznik canonical i dyrektywa Disallow w pliku robots.txt

Jeśli strona jest objęta dyrektywą Disallow w plik robots.txt, znacznik canonical nie będzie widoczny. Wartość łączy przepada. Nie przechodzisz przez pole Start, nie otrzymujesz dwustu dolarów. Przykro mi.

Dyrektywa X-Robots-Tag „noindex” i dyrektywa Disallow w pliku robots.txt

Ponieważ dyrektywa X-Robots-Tag znajduje się w nagłówku odpowiedzi HTTP, obie techniki teoretycznie mogłyby się mieszać i być widoczne dla wyszukiwarek. Jednakże instrukcje byłyby redundantne, a dyrektywa w pliku robots.txt zagwarantowałaby, że żadne łącza na stronie nie zostałyby odkryte. Jak poprzednio, nie jest to dobry pomysł.

———————————
Bonusowe punkty!

Długo szukałam rzeczywistego przykładu, żeby się nim tu podzielić. Chciałam znaleźć dokument PDF, który byłby zarówno blokowany w pliku robots.txt, jak i nieindeksowany ze względu na dyrektywę X-Robots-Tag. Niestety, skończyłam z pustymi rękami. Szukałabym dalej, ale w końcu musiałam opublikować ten post. Proszę, pobijcie mnie w mojej własnej grze.

Używałam następującego procesu:

  1. Skorzystaj z tego przydatnego zapytania, aby zidentyfikować pliki robots.txt, w których wymienione są katalogi albo pliki PDF.
  2. Uruchom czytnik HTTP. Ja używam HTTPfox.
  3. Pobierz dokument PDF zablokowany w pliku robots.txt i sprawdź, czy w nagłówku odpowiedzi znajduje się wpis X-Robots-Tag noindex.

Powodzenia! Jeśli znajdziecie jakiś przykład, dajcie mi znać!
———————————-

Koncepcja, do której tu zmierzam, jest dość prosta. Nie przesadzaj z technikami kontroli robotów. Wybierz najlepszą metodę w danej sytuacji i odejdź od komputera. Lepiej na tym wyjdziesz.

Miłego optymalizowania!

Lindsay jest dyrektorem generalnym Keyphraseology, firmy specjalizującej się w konsultingu SEO z siedzibą na słonecznej Florydzie. Przedtem była szefem zespołu ds. konsultingu SEO w SEOmoz.

[message type=”info”]Niniejszy artykuł został przedrukowany za zgodą. SEOmoz nie jest w żaden sposób powiązane z niniejszym serwisem.[/message]
Marcin Lejman
 

Jestem współwłaścicielem Critical.pl. Prowadzę przede wszystkim projekty związane z analityką internetową, optymalizacją konwersji i budową strategii online, a nadzoruję działania SEO i PPC prowadzone przez naszą firmę. Jeśli czujesz, że Twój biznes ma niewykorzystany potencjał i chcesz go rozwinąć, skontaktuj się ze mną - chętnie porozmawiam o możliwościach.

Click Here to Leave a Comment Below 1 comments
Aleksiejs - 14/02/2015

Dzięki za ten wpis. Bardzo długo szukałem powodu dla którego pewna strona nie jest indeksowana (nie ban, nie robots.txt) i okazało się, że rozwiązaniem jest X-robots-tag, a tu znalazłem szersze wyjaśnienie tematu.

Pozdrawiam :)

Reply

Leave a Reply:

+15
Tweetnij1
Udostępnij4
Udostępnij
Przypnij
10 Udostępnień