De robots.txt is een bestandje met daarin de crawl-instructie voor zoekmachines.
De robots.txt is te bekijken door url.nl/robots.txt te openen. De robots.txt bestaat uit een aantal onderdelen
De xml sitemap geeft aan uit welke pagina's de webshop/website bestaat. Hierbinnen kan een onderscheid worden gemaakt tussen type pagina's / entiteiteiten als een category, product of tekstpagina.
Het is mogelijk om in de robots.txt de gewenste crawl snelheid aan te geven. Voorbeeld:
# Crawlers Setup
User-agent: *
Crawl-delay: 25
Het is mogelijk om in de robots.txt aan te geven welke urls niet gecrawld moeten worden. Dat gaat om bijvoorbeeld de admin-url of de “My Account” pagina’s. De pagina's die niet gecrawld moeten worden zijn te herkennen aan een "Disallow" tag. Voorbeeld:
# Paths used by Magento's sorting or layered navigation
Disallow: /*limit=*
Disallow: /*order=*
Disallow: /*dir=*
Wanneer één WordPress of Magento installatie uit meerdere domeinnamen en url's bestaat, dan kan het gewenst zijn om per domeinnaam een eigen robots.txt aan te maken.