Webudvikling | Kim Andersen

Jeg vil ikke bruge robots.txt, hvad gør jeg? Robots META-tags

Kim Andersen | 1. marts 2008 | 20:35

Jeg skrev om robots.txt for et par dage siden. Men det er ikke den eneste måde at styre søgemaskinerobotterne på. Hvis man af en eller anden grund ikke har lyst til at bruge en robots.txt-fil. Eller hvis man ikke har adgang/lov til at lave en, så er der en anden løsning. Nemlig robots META-tags. Vi kender META-tags fra eksempelvis description, keywords osv.

Hvad er forskellen på robots.txt og et robot META-tag?
En robots.txt-fil gælder fra når en robot kommer ind på forsiden, og her kan man lave regler for alle sider og mapper. Et robots META-tag gælder for den pågældende side, hvor META-taget er placeret. Det vil sige at har man 20 forskellige html-dokumenter, skal der laves en for hver side, hvorpå man vil have nogle regler.

Hvor skal et robots META-tag indsættes?
Man indsætter sit robots META-tag samme sted som med andre META-tags. Inde i <head>-taget. Det kan se således ud:

<html>
<head>
<title>Min hjemmeside</title>
<meta name=”robots” content=”all” />
</head>
<body>
….
….

Hvad skal et robots META-tag indeholde?
Som man kan se i ovenstående tilfælde, er der to parametre man skal tage stilling til. Nemlig ‘name’ og ‘content’.
I name beskriver man at det er et robots META-tag. Man kan også skrive navnet på en bestemt robot, så gælder reglerne kun for denne.
I content beskriver man så hvilke regler der skal gælde. Der kan indsættes flere forskellige værdier i content, men i denne artikel nævner jeg kun standarderne, som alle robotter kan forstå. Det er følgende:

index: Robotten har lov til at indeksere hele det pågældende dokument. Det vil sige hele den side hvori taget er placeret.
noindex: Giver lidt sig selv, og er det modsatte af index. Derfor må robotten ikke indeksere dokumentet.
follow: Denne regel siger til robotten at den må følge alle de links som er på siden, som fører videre til andre sider.
nofollow: Ligesom med index og noindex, så er der en “modsat” af follow. Nofollow siger til robotten at den ikke må indeksere de sider som links med “nofollow” henviser til.
none: Hvis man skriver none i content, betyder det, at robotten ikke har lov til hverken at indeksere siden, eller følge de links den møder. Den må intet. Samme værdi som hvis man skrev “noindex, nofollow”.
all: Hvis man ikke skriver noget i content eller ikke har en robots.txt-fil og ikke har et robots META-tag, har robotterne lov til at gøre alt. De må både indeksere og følge de links de møder. Det samme som hvis man skrev “index, follow”.

Vi kan se på et par eksempler på hvordan man kan skrive sine robots META-tags:

Alle robotter må gøre alt:

<meta name=”robots” content=”all” />

Da name er robots gælder det for alle robotter, og content er all, så de må både indeksere og følge links.

Ingen robotter må indeksere, men alle robotter må følge links:

<meta name=”robots” content=”noindex, follow” />

Googlebot må indeksere selve siden, men ikke indeksere de sider som der bliver linket til:

<meta name=”googlebot” content=”index, nofollow” />

Man kan lave et par andre kombinationer, men følg “opskriften” her, så er det temmelig nemt. Eller spørg 🙂
Der findes nogle andre værdier som man kan bruge, men disse er ikke standardværdier. Dog kan eksempelvis googlebot forstå dem, men dem vil jeg vende tilbage til i en anden artikel.

Til sidst vil jeg sige, at jeg ikke selv bruger robots META-tags, men en robots.txt-fil, da jeg finder det mere overskueligt og lettere. Men det er op til personen selv at bestemme hvordan man vil styre robotterne.
En fordel ved at bruge robots META-tags er dog, at har man en mappe som man ikke vil have indekseret, og har skrevet dette i sin robots.txt-fil, så gør robotterne det ikke. Med mindre en anden hjemmeside linker til den mappe som man ikke vil have indekseret. For så går robotterne jo direkte ind i den pågældende mappe, og derved også uden om din robots.txt-fil.

kommentarer: 4 Kommentarer »
Kategorier: Webudvikling
RSS Kommentarer

Robots.txt – Hvad, hvorfor og hvordan?

Kim Andersen | 27. februar 2008 | 21:21

Denne fil er en fil, som jeg ikke selv har brugt ret meget før i tiden. Simpelthen fordi jeg ikke vidste at der fandtes en. Det er heller ikke et krav at den findes for at en hjememside kan fungere, men den er alligevel temmelig brugbar.

Måden hvorpå jeg fandt ud af at der fandtes en fil kaldet robots.txt, var da jeg havde købt mit domæne, kunne jeg se at der var mange tilfælde af, at nogle filer ikke kunne findes på mit domæne. Det undrede jeg mig selvfølgelig over, og så, at 76 ud af 81 tilfælde var det robots.txt der ikke kunne findes. Derfor satte jeg mig for at finde ud af hvad det var, og det er der kommet denne lille artikel ud af.

Hvad er en robots.txt-fil?
En robots.txt-fil er en lille fil, som styrer hvor søgemaskinernes robotter bevæger sig hen på dit website. Hvis man ikke har en robots.txt-fil så kan robotterne bevæge sig rundt overalt på websitet, og det er ikke sikkert man er interesseret i det. Det kan eksempelvis være nogle feriebilleder, gamle arkiv-artikler, sider som er beskyttet med password eller andre ting, som man egentlig gerne vil beholde for sig selv, og ikke skal offentliggøres til hele verden.

Det korte af det lange er, at når eksempelvis Googles robot (googlebot) kommer ind på dit website, søger den som det første efter robots.txt, for at se hvad den må og ikke må. Derfor skal robots.txt ligge i roden af dit website. I samme mappe som index-filen som regel. Min ligger eks. her www.designcreative.dk/robots.txt.

Hvad skal robots.txt indeholde?
Der er to parametre man skal beskrive når man laver sin robots.txt-fil. Hvilke robotter gælder reglerne for, og hvilke regler er det som gælder. Det skrives som:

– Hvilke robotter gælder reglerne for:
Skrives som “User-agent:” og her beskriver man om det skal gælde for alle robotter vha. * eller man kan skrive navnet på en specifik robot.

– Hvilke regler gælder:
Her skriver man “Disallow:” efterfulgt af hvilke mapper eller filer som en robot ikke må indeksere.

Da det kun er to parametre er det faktisk simpelt at skrive en robots.txt-fil. Her er nogle eksempler på hvordan de kan se ud:

Alle robotter må se alt:

User-agent: *
Disallow:

* beskriver som sagt alle robotter, og hvis der ikke står noget ud for Disallow er der ikke noget som robotterne ikke må indeksere.

Ingen robotter må se noget:

User-agent: *
Disallow: /

Når der står / gælder det for hele den mappe som robots.txt ligger i, svarende til hele websitet, da filen jo ligger i roden.

Ingen robotter må se en bestemt mappe:

User-agent: *
Disallow: /gamle_artikler/

Gælder igen for alle robotter da User agent er * og det gælder for mappen “gamle_artikler”, så denne mappe og hele indholdet i mappen må ikke indekseres.
Man kan også skrive /gamle_artikler/september/ så er det kun mappen “september” robotterne ikke må indeksere, men alle andre filer og mapper i “gamle_artikler”, må gerne indekseres.

En bestemt robot (i dette tilfælde googlebot) må se alt, mens alle andre robotter ikke må se noget:

User-agent: googlebot
Disallow:

User-agent: *
Disallow: /

Første linie giver googlebot adgang til alt, imens anden linie forbyder alle andre robotter at indeksere noget.

Bestemte filer må ikke læses:
Hvis man har nogle filer som man ikke vil have indekseret kan man lægge dem i en samlet mappe, eller referere til dem enkeltvis.

User-agent: *
Disallow: /gamle_artikler/1986.html
Disallow: /gamle_artikler/1987.html
Disallow: /gamle_artikler/1988.html

Nu er der ikke adgang til de tre ovenstående filer, og reglen gælder for alle robotter.

Man siger hele tiden hvad robotterne ikke må se. Kan man fortælle dem hvad de gerne må se?
Ja. nogle robotter kan godt forstå parametren “Allow:”. En af disse robotter er googlebot. Så ligesom man kan fortælle en robot at den ikke må indeksere bestemte dele, kan man altså også sige hvad visse robotter gerne må se:

User-agent: googlebot
Disallow: /
Allow: /nye_artikler/

Her siger vi til googlebot at den må se mappen “nye_artikler”, men så heller ikke mere.
NB! Det skal siges at det ikke er alle robotter der kan forstå Allow-parametren, så tjek den enkelte robot før de bruger den. Se en liste med over 300 robotter og en beskrivelse af hver bl.a. deres “User-agent”-navn.

Husk så til sidst at det ikke kun er robotterne som kan læse dine robots.txt-filer, men også alle almindelige mennesker. Hvis man skriver en URL såsom www.eb.dk, og så tilføjer /robots.txt så kommer man i langt de fleste tilfælde ind på den pågældende sides robots.txt-fil. (Det gælder også de store sites som eks. Microsoft og Google. Du kan jo prøve og se hvordan deres ser ud, da de er lidt længere end dem jeg har omtalt…)
Derfor er det en dum ide at lave en robots.txt som indeholder:

User-agent: *
Disallow: /mine_meget_private_billeder/

For hvor tror du så folk prøver at komme hen? Man kan så lave noget password og sådan noget, men der er folk som er gode til at knække koder, så tænk dig om inden du gør noget dumt.

kommentarer: 2 Kommentarer »
Kategorier: Webudvikling
RSS Kommentarer

Side 2 af 2
<
1
2

Kim Andersen

Jeg vil ikke bruge robots.txt, hvad gør jeg? Robots META-tags

Robots.txt – Hvad, hvorfor og hvordan?

Seneste Kommentarer

Kategorier

Meta