Az egyik eszköz a webhelyek keresők által történő indexelésének kezelésére a robots.txt fájl. Főként annak megakadályozására használják, hogy az összes vagy csak bizonyos robotok letöltsék bizonyos oldalcsoportok tartalmát. Ez lehetővé teszi, hogy megszabaduljon a "szeméttől" a keresőmotor eredményei között, és egyes esetekben jelentősen javítsa az erőforrás rangsorolását. Fontos, hogy a sikeres robots.txt fájl legyen a sikeres alkalmazáshoz.
Szükséges
szöveg szerkesztő
Utasítás
1. lépés
Készítsen listát azokról a robotokról, amelyekre speciális kizárási szabályokat fognak meghatározni, vagy a kibővített robots.txt szabvány direktíváit, valamint nem szabványos és specifikus irányelveket (egy adott keresőmotor kiterjesztéseit) kell használni. Írja be ebbe a listába a kiválasztott robotok által a helykiszolgálónak elküldött HTTP-kérelem fejlécek User-Agent mezőinek értékeit. A robotok neve megtalálható a keresőmotorok webhelyeinek referencia szakaszaiban is.
2. lépés
Válassza ki az első lépésben összeállított listában szereplő azon webhely-erőforrások URL-csoportjait, amelyekhez meg kell tagadni a hozzáférést az egyes robotokhoz. Hajtsa végre ugyanazt a műveletet az összes többi robot esetében (az indexelő robotok határozatlan halmaza). Más szavakkal, az eredménynek több olyan listának kell lennie, amely linkeket tartalmaz a webhely olyan szakaszaira, oldalcsoportjaira vagy médiatartalom-forrásokra, amelyeket tilos indexelni. Minden listának egy másik robotnak kell megfelelnie. Ezenkívül tartalmaznia kell az összes többi bot tiltott URL-jeinek listáját. Készítsen listákat a webhely logikai felépítésének és a kiszolgálón lévő adatok fizikai helyének összehasonlítása, valamint az oldalak URL-jeinek csoportosítása alapján. funkcionális jellemzőik. Például felveheti az elutasítási listákba bármely szolgáltatás katalógus tartalmát (hely szerint csoportosítva) vagy az összes felhasználói profil oldalt (cél szerint csoportosítva).
3. lépés
Válassza ki az URL-jeleket minden egyes erőforráshoz, amelyet a második lépésben összeállított listák tartalmaznak. Ha a robotok kizárási listáit csak normál robots.txt irányelvek és meghatározatlan robotok segítségével dolgozza fel, jelölje ki a maximális hosszúságú egyedi URL-részeket. A többi címkészlethez sablonokat hozhat létre az adott keresőmotorok specifikációinak megfelelően.
4. lépés
Hozzon létre egy robots.txt fájlt. Adjon hozzá irányelvcsoportokat, amelyek mindegyike megfelel egy adott robot tiltási szabályainak, amelyek listáját az első lépésben állították össze. Ez utóbbit követnie kell az összes többi robotra vonatkozó irányelvcsoportnak. Különítsen el szabálycsoportokat egyetlen üres sorral. Minden szabálykészletnek a robotot azonosító User-agent irányelvvel kell kezdődnie, amelyet egy Disallow irányelv követ, amely tiltja az URL-csoportok indexelését. Készítse el a harmadik lépésben kapott sorokat a Disallow irányelvek értékeivel. Válassza szét az irányelveket és jelentésüket kettősponttal. Vegye figyelembe a következő példát: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Ez az irányelvkészlet utasítja a A Yandex kereső nem indexeli az URL-t. Amely tartalmazza a / temp / data / images / sztringet. Azt is megakadályozza, hogy az összes többi robot indexelje a / temp / data / tartalmú URL-eket.
5. lépés
Kiegészítse a robots.txt fájlt kiterjesztett szabványos irányelvekkel vagy speciális keresőmotor-irányelvekkel. Ilyen irányelvek például: Gazdagép, Webhelytérkép, Kérési arány, Látogatási idő, Feltérképezés késleltetése.