A robots.txt használata röviden

Létrehozás dátuma:2022-10-07 08:43:00
Utolsó módosítás dátuma:2022-10-07 10:43:00
Bár alapvetőnek és elég egyszerűnek tűnhet, gyakran rosszul alkalmazzák a robotok engedélyezésére és tiltására szolgáló dokumentumot, a robots.txt-t.
A robots.txt használata röviden

Egyáltalán mi is az a robots.txt?

Ez egy szabványos txt kiterjesztésű fájl, amelyet a weboldalunk gyökerében lehet elérni. Tehát ezt kell az alap URL után írnunk: /robots.txt
Arra tudjuk használni, hogy az oldalunkra érkező keresőrobotok számára megmondjuk, hogy mik azok az aloldalak amelyeket megtekinthetnek. Ezek értelemszerűen indexelve lesznek, az adott kereső találatai között meg fognak jelenni.

Miért tiltanék le bármit a robotok számára?

Ez attól függ, hogy milyen tartalom van az aloldalainkon. Természetesen minden olyan oldalt, amin jó minőségű szöveges tartalom van, nem szokás letiltani.
A gond a keresők rangsorolásában van: Amikor a Google vagy a Bing feltérképez egy oldalt, nem csak egy adott aloldal minősége alapján teszi be a saját listájában egy helyre, hanem a többi aloldalunk minőségét (bár kisebb súlyozással) is alapul veszi. Ez az egyik olyan eszköz, amivel kizárhatóak a gépiesen túloptimalizált aloldalak, illetve előrehozhatóak a ténylegesen jó tartalmak.

Logikus tehát, hogy mi is igyekezzünk arra törekedni, hogy a robotok még véletlenül se tévedjenek olyan aloldalra, amelyen nem található számukra értékelhető tartalom.
Ez persze nem jelenti azt, hogy elhanyagolhatjuk az oldalunkat vagy tehetünk rá gépies tartalmat, amit később letiltunk a robots.txt-ben! Egy darabig ez lehet, hogy megoldást nyújt, de a Google előbb-utóbb rájön, mivel hajlamos megnézni a letiltott aloldalainkat is és ha túl sok, felhasználónak szánt, de rossz minőségű tartalmat talál rajta, akkor büntetni fog, hiszen egyértelműen átverni akartuk az algoritmust.

Ha megfelelően akarjuk használni, akkor általában azokat az oldalakat tiltjuk le, amelyek bejelentkezés után érhetőek csak el (dashboard oldalak például), illetve végpontként működnek, tehát a felhasználó által olvasható tartalmat nem írnak ki, nincsenek rajtuk kinézeti elemek és futtatandó scriptek.
Ezek jó esetben egyébként is jogosultsági hibát dobnak, így értelmetlen indexeltetni őket.

Ezen kívül érdemes tisztában lenni a crawl-budget fogalommal: Ha egy keresőrobot (crawler) megtalálja az oldalunkat, nem feltétlen fogja az egészet egyszerre feltérképezni, csak annyit, amennyit a crawl-budget enged. Így hát érdemes nem vesztegetni az “energiájukat” arra, hogy irreleváns, nem felhasználóknak szánt tartalmak között ugráljanak. Ide tartoznak a query paraméteres (URL-ben a kérdőjel után megjelenő string) keresők is, melyek rengeteg linket generálnak, de nagyjából hasonló tartalommal.

Figyeljünk arra, hogy ha egy aloldalunkra rengeteg (nem spam!) link mutat, akkor az bizony indexelve lesz, csak a meta leírás helyett egy “Nincs rendelkezésre álló információ ehhez az oldalhoz.” szöveg fog megjelenni, mivel a keresőrobot nem tudta feltérképezni a rajta található szöveget.

Hogyan épül fel egy ilyen fájl?

Ez szerencsére pofonegyszerű:

Először meghatározunk egy User-agentet. Ez az a string, amely az adott robotot azonosítja. A Google-nek több is van, például az általános a googlebot, a képekhez fejlesztett a googlebot-image. Jónéhány ilyen string van, felesleges az összeset felsorolni, hiszen ezek publikus adatok. Ha minden robotra szeretnénk egyszerre szabályokat meghatározni, akkor simán csillagot (*) írjunk ide.

A második feladat kiválasztani azokat a linkeket amiket tiltani vagy engedni szeretnénk. Erre az allow és disallow szavakat használhatjuk. Általában Allow: / paranccsal kezdünk, ami azt jelenti, hogy mindent engedünk feltérképezni. Ezután egyenként tiltogatjuk le a mappákat, illetve konkrét oldalakat. Például ha a dashboardunk /dashboard/{útvonal} formában működik, akkor a Disallow: /dashboard/ minden ilyet letilt. Wildcardokat is támogat, így például letilthatunk kiterjesztés alapján fájlokat. PDF-nél például így: /*.pdf$ .

Ugyan nem szabványos, de említésre érdemes lehet a Sitemap, amivel az oldaltérképünk útvonalát adhatjuk meg, illetve a crawl-delay, amellyel egy napot időszeletekre bonthatunk. A Google saját bevallása szerint nem támogatja, de például a Bing igen. Ha megadunk egy 10-es értéket, az azt jelenti, hogy a napokat 10 másodperces szeletekre bontja (egész pontosan 8640-re), amelyekben a keresőrobot új oldalt térképez fel. Így ha sokezer aloldalunk van, akkor sem terheli meg szignifikánsan a feltérképezés a szerverünket.

Ha ezeken túl vagyunk, akkor kész a robots.txt fájlunk, feltölthetjük a webszerverünk gyökérkönyvtárába.

    Segítségre van szüksége?

    Vegye fel velünk a kapcsolatot! Szívesen segítünk bármilyen keresőoptimalizálási probléma megoldásában!