Súgó - ok.hu kereső

Hogyan lehet az Ok.hu kereső robotot utasítani, hogy bizonyos fájlokat, könyvtárakat hagyjon figyelmen kívül?

Slurp, az Ok.hu kereső crawlere

Az Ok.hu kereső robotjának partnerünk, a Google (TM) a Googlebot nevet adta. Ha a robot meglátogatta a site-ot, megjelenik a webszerver logban egy adat, mely rögzíti ezt.

A nemzetközi szabványoknak megfelelően a Googlebot is, mint minden robot, mely a szabvány szerint dolgozik, liitált időközönként kér le egy oldalt, hogy ne terhelje a site-ok forgalmát.

A Googlebot a Robots Exclusion Protocol szabványban (robots.txt) rögzítettek szerint működik, az alábbiak szerint.

Robots.txt
A crawler először megnézi, hogy a szerveren a gyökérkönyvtárban létezik-e robots.txt nevű fájl. Ez a fájl közli a robottal, hogy mely fájlokat szabad letöltenie.

A robots.txt fájl meghatározott formátumú, azaz rekordokból áll, és mindegyik rekord két mezőt tartalmaz: a User-Agent sort, továbbá egy vagy több Disallow sort, az alábbi formátumban:

<mező> : <érték>

A robots.txt fájl unixos sorvég-kódot kell tartalmazzon, a legtöbbb editornak van ilyen opciója, vagy az ftp klienssel lehet elvégeztetni a konverziót. Robots.txt fájlt ne próbáljunk HTML-szerkesztővel létrehozni!

User-Agent
A User-Agent sorban kell megadni a robotot. Például:
User-Agent: Googlebot

* karakterrel lehet megadni minden robot
User-Agent: *

A log fájlokban lehet megnézni, hogy mely user agentek próbálták lekérni a robots.txt fájlt a szerverünkön. A user agent vagy IP-címmel, a nagyobbak saját nevükkel jelentkeznek be.

Disallow:
A rekord második része a Disallow utasítás sorai. Itt adhatjuk meg, hogy mely fájlokat vagy könyvtárakat akarunk kizárni az indexelésből: ezeket a robot nem tölti le, és így nem is indexeli

Disallow: email.htm
Ez a sor azt közli a robottal, hogy az email.html fájlt ne töltse le.

Könyvtárakat is megadhatunk:
Disallow: /cgi-bin/
Ez a sor például azt eredményezi, hogy a robot kihagyja a szerveren a cgi-bin könyvtárat.

A Disallow utasítás úgy működik, mintha a megadott fájl vagy könyvtár végéhez a * karaktert illeszténk, vagyis péládul az /abc bejegyzés eredményeképpen se az /abc.html se a /abc/index.html stb. fájlokat nem tölti le a robot, vagyis sem az abc fájlt, sem az abc könyvtárat, annak teljes tartalmával együtt.

Ha üresen hagyjuk a Disallow sort, az azt jelenti, hogy minden fájlt le lehet tölteni. Minden egyes User-Agent utasításhoz meg kell adni legalább egy Disallow sort is. Üres robots.txt fájl ugyannyit ér, mintha nem is létezne a fájl a szerveren.

Példák
Az alábbi robots.txt jelentése: minden robot letölthet minden fájlt ( a * karakter azt jelenti,hogy "bármelyik robot")
User-agent: *
Disallow:

Az alábbi robots.txt az összes robotot kitiltja a domainről:
User-agent: *
Disallow: /
Az alábbi robots.txt távol tartja a robotokat a cgi-bin és az images könyvtáraktól:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Az alábbi csak a nagykutya nevű robotot tiltja el a szerver összes fájljától:
User-agent: nagykutya
Disallow: /

Az alábbi a kiskutya nevű robotnak nem engedi, hogy letöltse a csirkecsont.htm fájlt
User-agent: kiskutya
Disallow: csirkecsont.htm

Általában a nagy site-okról lehet letölteni szép példákat összetettebb, bonyolultabb robots.txt fájlokra

Részletesebb információ a robots.txt-ről, további linkekkel:
Robots Exclusion
A Standard for Robot Exclusion
Robots.txt Tutorial

Vissza a súgó tartalomjegyzékéhez