En robots.txt-fil som er lagret i roten til nettstedet ditt, vil fortelle webroboter som søkemotorer, hvilke kataloger og filer de får lov til å krype. Det er enkelt å bruke en robots.txt-fil, men det er noen ting du bør huske:
- Blackhat-webroboter vil ignorere robots.txt-filen din. De vanligste typene er malware-bots og roboter som ser etter e-postadresser for å høste.
- Noen nye programmerere vil skrive roboter som ignorerer robots.txt-filen. Dette gjøres vanligvis ved en feil.
- Alle kan se robots.txt-filen din. De kalles alltid robots.txt og lagres alltid i roten til nettstedet.
- Til slutt, hvis noen kobler til en fil eller katalog som er ekskludert av robots.txt-filen din fra en side som ikke utelukkes av robots.txt-filen, kan søkemotorene likevel finne den.
Ikke bruk robots.txt-filer for å skjule noe viktig. I stedet bør du legge viktig informasjon bak sikre passord eller la det være helt over nettet.
Slik bruker du disse prøvefiler
Kopier teksten fra prøven som er nærmest det du vil gjøre, og lim den inn i robots.txt-filen din. Endre roboten, katalogen og filnavnene for å matche din foretrukne konfigurasjon.
To grunnleggende Robots.txt-filer
Bruker agent: *Tillat: / Denne filen sier at enhver robot ( Bruker agent: *) som får tilgang til det, bør ignorere hver side på nettstedet ( Tillat: /). Bruker agent: *forby: Denne filen sier at enhver robot ( Bruker agent: *) som får tilgang til det, har lov til å se hver side på nettstedet ( forby:). Du kan også gjøre dette ved å forlate robots.txt-filen din tom eller ikke ha en på nettstedet ditt i det hele tatt. Bruker agent: *Tillat: / cgi-bin /Tillat: / temp / Denne filen sier at enhver robot ( Bruker agent: *) som får tilgang til det, bør ignorere katalogene / cgi-bin / og / temp / ( Tillat: / cgi-bin / Disallow: / temp /). Bruker agent: *Tillat: /jenns-stuff.htmTillat: /private.php Denne filen sier at enhver robot ( Bruker agent: *) som får tilgang til det, bør ignorere filene /jenns-stuff.htm og /private.php ( Tillat: /jenns-stuff.htm Tillat: /private.php). Brukeragent: Lycos / x.xTillat: / Denne filen sier at Lycos-botten ( Brukeragent: Lycos / x.x) er ikke tillatt tilgang hvor som helst på nettstedet ( Bruker agent: *Tillat: /Brukeragent: Googlebotforby: Denne filen først forkaster alle roboter som vi gjorde over, og lar eksplisitt Googlebot ( Brukeragent: Googlebot) har tilgang til alt ( Mens det er bedre å bruke en meget inkluderende brukeragentlinje, som brukeragent: *, kan du være så spesifikk som du vil. Husk at roboter leser filen i rekkefølge. Så hvis de første linjene sier at alle roboter er blokkert fra alt, og senere i filen står det at alle roboter får tilgang til alt, vil robotene ha tilgang til alt. Hvis du ikke er sikker på om du har skrevet robots.txt-filen din riktig, kan du bruke Googles verktøy for nettredaktører til å sjekke robots.txt-filen eller skrive en ny. Beskytt spesifikke kataloger fra roboter
Beskytt spesifikke sider fra roboter
Forhindre at en bestemt robot får tilgang til nettstedet ditt
Tillat bare én bestemt robottilgang
Kombiner flere linjer for å få akkurat de ekskluderingene du vil ha