Indexelés
A Google, a Bing és a Yahoo, azaz a vezető keresőszolgáltatások úgynevezett keresőrobotokat használnak az algoritmikus keresőtalálatok megtalálásához. Az olyan oldalakat, melyeket átlinkel egy másik, már a találati listákban szereplő oldalra, nem kell manuálisan ajánlani, ugyanis automatikusan megtalálják a kereső robotok. Némely keresők, így például a Yahoo! fizetett beküldőrendszereket üzemeltetnek, amely garantálja az indexbe kerülést vagy egy előre meghatározott áron vagy pedig kattintásonkénti áron.[41] Ezen programok garantálják ugyan az adatbázisba kerülést, ám nem garantálják a megadott hely elérését.[42] Két fő linkgyűjtemény, a Yahoo Directory és az Open Directory Project személyes beküldést és emberi elbírálást kívánnak meg.[43] A Google a Google Webmaster Tools nevű eszközzel lehetővé teszi egy XML oldaltérkép létrehozását és ingyenes beküldését, amely biztosítja az összes aloldal megtalálását, így legfőképp azokét, amelyeket az automatikus feltérképezés nem fedezne fel.[44]
A keresőrobotok egy weblap feltérképezésekor sok különböző faktort vehetnek figyelembe. Nem minden lapot indexelnek a keresőmotorok. Az oldalak távolsága a főlaptól meghatározó szerepet játszhat abban, hogy bekerül-e a lap az indexbe.[45]
A feltérképezés megakadályozása
A nem kívánt tartalom keresőkben való elrejtése érdekében a webmesterek a keresőrobotokat a robots.txt fájl segítségével egyes lapok vagy könyvtárak kihagyására utasíthatják. Mindemellett egy kifejezetten robotok számára szóló meta taggal expliciten kihagyhatók az oldalak. Amikor egy kereső meglátogat egy oldalt, a gyökérkönyvtárban található robots.txt az első általa letöltött lap. A robots.txt-t értelmezi és az abban található lapokat kihagyja az indexelésből. Mivel a kereső tárolhat egy helyi fájlt, így lehetséges, hogy az elrejteni kívánt lapok is megjelennek ha nem ad meg tiltást a weblap készítő. Az elrejteni kívánt tartalmak között általánosságban a, személyes könyvtárak, login-oldalak, login-specifikus oldalak, például bevásárlókosár és felhasználó által generált oldalak, például a saját belső keresési találatokat adó oldalak szerepelnek. 2007-ben a Google figyelmeztette a webmestereket, hogy a saját weblapjuk belső keresőlapja által adott keresési eredmény indexelését meg kell akadályozniuk, mert spamnek minősülnek.[46]
A robots.txt azonban nem csak teljes oldal korlátozásokat, hanem részletes korlátozásokat tartalmazhat. A kereső robotok annál gyakrabban látogatnak egy oldalt minél fontosabb a saját ranglistájuk szerint. Népszerű oldalak esetén előfordulhat az a probléma, hogy már a túl gyakori kereső motorok általi feltérképezés is feleslegesen terheli az oldalt, így meghatározható egy időkorlát, ami megadja a két feltérképezés közti minimális időt. Így járnak el például a Fehér ház hivatalos weboldalánál is.