Vad skriver man i Robots.txt?

Du har säkert stött på Robots.txt innan. Det är en fil som ligger i roten på webbplatsen och ger instruktioner vad sökspindlar inte ska indexera.

Grundtanken med sökspindlar är enkel: Allt som går att indexeras, kommer att indexeras om du inte särskilt säger nej till vad den får indexera. Du kanske har ett gäng med sidor som du inte vill att någon ska hitta vi en sökmotor? Det kan vara saker som saknar värde för andra, till exempel en inloggningssida eller dubbelt innehåll (en utskriftsvänlig version av en nyhet bör ju inte dyka upp i sökresultatet).

Så här fungerar syntaxen:

# Kommentar skrivs med en inledande brädgård.
User-agent: Namn på sökspindel
Disallow: /katalog/ # Ytterligare kommentar

User-agent anger namnet på sökspindeln. Google har exempelvis namnet googlebot. Disallow anger en fil eller katalog som inte ska indexeras.

Här kommer en lista över de vanligaste sökspindlarnas user-agent:

  • googlebot = Google
  • msnbot = MSN Search
  • yahoo = Yahoo!
  • scooter = AltaVista

Några exempel på Robots.txt:

  • Säg åt alla sökspindlar att inte indexera en fil och en katalog:
    User-agent: *
    Disallow: /filnamn.html
    Disallow: /katalog/
  • Säg åt Google att inte indexera katalogen /hidden/:
    User-agent: googlebot
    Disallow: /hidden/
  • Säg åt Google och Yahoo! att inte indexera bilder som finns i katalogen /bilder/, men däremot alla andra bilder:
    User-agent: Googlebot-Image
    User-agent: Yahoo-MMCrawler
    Disallow: /bilder/
  • Säg åt alla sökspindlar att inte indexera någonting på hela webbplatsen:
    User-agent: *
    Disallow: /
  • Ta också en titt på Backend Medias Robots.txt så ser du att jag inte tillåter sökspindlarna att indexera några bilder, samt några kataloger som tillhör publiceringssystemet WordPress (de tillför ju inget värde i sökresultatet hos en sökmotor).

Kom ihåg att Robots.txt är endast till för att exkludera, alltså hindra, en sökspindel att indexera innehåll på din webbplats. Robots.txt används inte för att säga till vad den ska hitta. Det måste du göra med länkar och sökmotoroptimering.

Det finns ett annat sätt du kan hindra sökmotorer från att spindla din webbplats. Om du bara vill hindra specifika sidor kan du lägga en meta-tagg i sidhuvudet av html-dokumentet (alltså mellan <head>-taggarna):

<meta name="robots" content="noindex, nofollow" />

noindex säger till sökmotorn att inte indexera webbsidan, och nofollow hindrar sökmotorn från att följa länkarna på sidan.

Men fördelen med att använda Robots.txt är att du kan exkludera flera kataloger, och dessutom centralt på ett enda ställe.

Fler resurser

(Tack till Richard för tipset om att skriva om Robots.txt!)

Gillade du artikeln?
Få senaste artiklarna direkt i din inkorg. Max en gång per månad. Jag skickar aldrig spam.
  • Richard

    Mycket bra skrivet!

    Kan bara tillägga att man alltid ska redigera robots.txt i UNIX-läge (enligt Search Engine World). Det står även att många FTP-program ställer om filen till UNIX-läge när den laddas upp, men inte alla!

  • Något väldigt praktiskt: En robot.txt-generator

  • Taget från W3C HTML 4.0:

    Disallow: /help disallows both /help.html and /help/index.html, whereas
    Disallow: /help/ would disallow /help/index.html but allow /help.html.

  • Pingback: Göm utskriftsvänliga sidor för sökmotorerna - Backend Media()

  • Pingback: Thorguns Blogg()

  • Patrik

    Hej, jag har en blogg på blogger.com där det helt har slutat att komma in trafik från sök och nu tittade jag efter robots.txt som du sa och då står det så här:

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search

    Vad betyder de då? Kan google ha lagt in den åt mig tro?

    Tack på förhand.

  • Patrik

    nu ser jag att mitt rss flöde länk ligger under det jag skrev också… varför?

  • @Patrik

    Det är väl mest troligt att Google lagt in det åt dig. Det betyder att Google Adsense (med partners) inte ska indexera din sida. Inte heller sidan /search ska indexeras.

    Rss-flödet du pratar om förstår jag inte vad du menar.