Jedan od alata za upravljanje indeksiranjem web lokacija putem pretraživača je datoteka robots.txt. Uglavnom se koristi za sprečavanje svih ili samo određenih robota da preuzmu sadržaj određenih grupa stranica. To vam omogućuje da se riješite "smeća" u rezultatima pretraživača i, u nekim slučajevima, značajno poboljšate rangiranje resursa. Važno je imati ispravnu datoteku robots.txt za uspješnu prijavu.
Potrebno
uređivač teksta
Instrukcije
Korak 1
Napravite popis robota za koje će se postaviti posebna pravila izuzimanja ili će se koristiti direktive proširenog standarda robots.txt, kao i nestandardne i specifične direktive (proširenja određene tražilice). Unesite na ovu listu vrijednosti polja User-Agent zaglavlja HTTP zahtjeva koje odabrani roboti šalju poslužitelju stranice. Imena robota mogu se naći i u referentnim odjeljcima web lokacija pretraživača.
Korak 2
Odaberite grupe URL-ova resursa web lokacija kojima treba odbiti pristup svakom od robota sa liste sastavljene u prvom koraku. Izvršite istu operaciju za sve ostale robote (neodređeni skup botova za indeksiranje). Drugim riječima, rezultat bi trebao biti nekoliko popisa koji sadrže veze do odjeljaka web mjesta, grupa stranica ili izvora medijskog sadržaja kojima je zabranjeno indeksiranje. Svaka lista mora odgovarati drugom robotu. Trebala bi postojati i lista zabranjenih URL-ova za sve ostale botove. Sastavite liste na osnovu usporedbe logičke strukture stranice s fizičkim položajem podataka na serveru, kao i grupiranjem URL-ova stranica prema njihove funkcionalne karakteristike. Na primjer, možete uključiti u liste zabranjenih sadržaja bilo koji katalog usluga (grupiran prema lokaciji) ili sve stranice korisničkog profila (grupirane prema namjeni).
Korak 3
Odaberite znakove URL-a za svaki od resursa sadržanih na listama sastavljenim u drugom koraku. Prilikom obrade popisa izuzeća za robote koji koriste samo standardne direktive robots.txt i nedefinirane robote, istaknite jedinstvene dijelove URL-a maksimalne duljine. Za preostale skupove adresa možete kreirati predloške u skladu sa specifikacijama određenih pretraživača.
Korak 4
Stvorite datoteku robots.txt. Dodajte mu grupe direktiva, od kojih svaka odgovara skupu pravila zabrane za određenog robota, čija je lista sastavljena u prvom koraku. Potonje bi trebala slijediti grupa smjernica za sve ostale robote. Odvojite grupe pravila s jednim praznim redom. Svaki skup pravila mora započeti direktivom User-agent koja identificira robota, nakon čega slijedi Disallow direktiva koja zabranjuje indeksiranje URL grupa. Izradite linije dobivene u trećem koraku sa vrijednostima Disallow direktiva. Odvojite direktive i njihova značenja dvotačkom. Razmotrite sljedeći primjer: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Ovaj skup direktiva daje instrukcije glavnom robotu Yandex pretraživač ne indeksira URL koji sadrži podniz / temp / data / images /. Također sprečava sve ostale robote da indeksiraju URL-ove koji sadrže / temp / data /.
Korak 5
Dopunite robots.txt proširenim standardnim direktivama ili određenim direktivama pretraživača. Primjeri takvih direktiva su: Host, Sitemap, stopa zahtjeva, vrijeme posjeta, odgađanje indeksiranja.