Većina iskusnih blogera sigurno zna što je robots.txt i zašto vam je potrebna ova datoteka. Ali malo autora odmah požuri sa stvaranjem datoteke robots.txt nakon instalacije bloga na WordPressu.
Robots.txt je tekstualna datoteka koja se otprema u korijenski direktorij vaše web stranice i sadrži upute za indeksiranje. Glavna svrha njegove upotrebe je zabraniti indeksiranje pojedinih stranica i odjeljaka na web mjestu. Međutim, pomoću datoteke robots.txt možete odrediti ispravno zrcalo domene, propisati put do karte web stranice i slično.
Većina modernih pretraživača naučila je dobro se kretati popularnim CMS-om i obično ne pokušava indeksirati sadržaj koji za to nije namijenjen. Na primjer, Google neće indeksirati vaše administratorsko područje WordPress bloga čak i ako ga ne navedete direktno u robots.txt. Međutim, u nekim slučajevima upotreba izravnih zabrana i dalje može biti korisna. A mi prvenstveno govorimo o zabrani dupliciranog sadržaja.
Neki webmasteri idu toliko daleko da zabranjuju indeksiranje stranica s kategorijama i oznakama, jer njihov sadržaj djelomično duplicira sadržaj glavne stranice. Ali većina je ograničena na zabranu trackback i feed stranica, koje u potpunosti dupliciraju sadržaj članaka i uopće nisu namijenjene pretraživačima. Takva mjera predostrožnosti učinit će ne samo da su rezultati web stranice „čišći“, već će vas i spasiti od mogućih filtara za pretraživanje, posebno nakon uvođenja novog algoritma Google Panda.
Evo preporučenih smjernica za datoteku robots.txt (to će raditi za gotovo sve WordPress blogove):
Korisnički agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: / wp-admin Disallow: / wp-uključuje Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / trackback / Disallow: / feed / Disallow: * / trackback / Disallow: * / feed /
Imajte na umu da su u robots.txt administrativne mape wp-admin i wp-includes potpuno zatvorene za indeksiranje. Mapa wp-content samo je djelomično zatvorena, jer sadrži direktorij za prijenos, koji sadrži sve slike s vašeg bloga koje bi trebalo indeksirati.
Sve što trebate je kopirati direktive iz gornjeg koda (imajte na umu da svaka direktiva mora biti napisana u novom retku), spremiti ih u tekstualnu datoteku koja se zove robots.txt i prenijeti u korijenski direktorij vaše web lokacije.
Uvijek možete provjeriti radi li robots.txt ispravno putem sučelja Google Webmaster Tools i Yandex Webmaster.