Vad skriver man i Robots.txt?

Du har säkert stött på Robots.txt innan. Det är en fil som ligger i roten på webbplatsen och ger instruktioner vad sökspindlar inte ska indexera.

Grundtanken med sökspindlar är enkel: Allt som går att indexeras, kommer att indexeras om du inte särskilt säger nej till vad den får indexera. Du kanske har ett gäng med sidor som du inte vill att någon ska hitta vi en sökmotor? Det kan vara saker som saknar värde för andra, till exempel en inloggningssida eller dubbelt innehåll (en utskriftsvänlig version av en nyhet bör ju inte dyka upp i sökresultatet).

Så här fungerar syntaxen:

# Kommentar skrivs med en inledande brädgård.
User-agent: Namn på sökspindel
Disallow: /katalog/ # Ytterligare kommentar

User-agent anger namnet på sökspindeln. Google har exempelvis namnet googlebot. Disallow anger en fil eller katalog som inte ska indexeras.

Här kommer en lista över de vanligaste sökspindlarnas user-agent:

  • googlebot = Google
  • msnbot = MSN Search
  • yahoo = Yahoo!
  • scooter = AltaVista

Några exempel på Robots.txt:

  • Säg åt alla sökspindlar att inte indexera en fil och en katalog:
    User-agent: *
    Disallow: /filnamn.html
    Disallow: /katalog/
  • Säg åt Google att inte indexera katalogen /hidden/:
    User-agent: googlebot
    Disallow: /hidden/
  • Säg åt Google och Yahoo! att inte indexera bilder som finns i katalogen /bilder/, men däremot alla andra bilder:
    User-agent: Googlebot-Image
    User-agent: Yahoo-MMCrawler
    Disallow: /bilder/
  • Säg åt alla sökspindlar att inte indexera någonting på hela webbplatsen:
    User-agent: *
    Disallow: /
  • Ta också en titt på Backend Medias Robots.txt så ser du att jag inte tillåter sökspindlarna att indexera några bilder, samt några kataloger som tillhör publiceringssystemet WordPress (de tillför ju inget värde i sökresultatet hos en sökmotor).

Kom ihåg att Robots.txt är endast till för att exkludera, alltså hindra, en sökspindel att indexera innehåll på din webbplats. Robots.txt används inte för att säga till vad den ska hitta. Det måste du göra med länkar och sökmotoroptimering.

Det finns ett annat sätt du kan hindra sökmotorer från att spindla din webbplats. Om du bara vill hindra specifika sidor kan du lägga en meta-tagg i sidhuvudet av html-dokumentet (alltså mellan <head>-taggarna):

<meta name="robots" content="noindex, nofollow" />

noindex säger till sökmotorn att inte indexera webbsidan, och nofollow hindrar sökmotorn från att följa länkarna på sidan.

Men fördelen med att använda Robots.txt är att du kan exkludera flera kataloger, och dessutom centralt på ett enda ställe.

(Tack till Richard för tipset om att skriva om Robots.txt!)