Hjemmeside » unplugged » Hva er Robots.txt-filen i et domene?

    Hva er Robots.txt-filen i et domene?

    Hvis du eier et nettsted og bryr seg om SEOs helse på nettstedet ditt, bør du gjøre deg kjent med robots.txt-filen på domenet ditt. Tro det eller ei, det er et forstyrrende høyt antall mennesker som raskt starter et domene, installerer et raskt WordPress-nettsted, og bryter aldri med å gjøre noe med deres robots.txt-fil.

    Dette er farlig. En dårlig konfigurert robots.txt-fil kan faktisk ødelegge SEOs helse på nettstedet ditt og skade eventuelle sjanser du kan ha for å øke trafikken din.

    Hva er Robots.txt-filen?

    De robots.txt filen er passende navngitt fordi det er egentlig en fil som lister direktiver for webrobotene (som søkemotorroboter) om hvordan og hva de kan krype på nettstedet ditt. Dette har vært en webstandard etterfulgt av nettsteder siden 1994, og alle de store nettbrukerne holder seg til standarden.

    Filen lagres i tekstformat (med en .txt-utvidelse) på rotmappen på nettstedet ditt. Faktisk kan du se hvilken som helst nettside's robot.txt-fil bare ved å skrive domenet etterfulgt av /robots.txt. Hvis du prøver dette med groovyPost, ser du et eksempel på en godt strukturert robot.txt-fil.

    Filen er enkel, men effektiv. Denne eksemplarfilen skiller ikke mellom roboter. Kommandoene utstedes til alle roboter ved å bruke Bruker agent: * direktiv. Dette betyr at alle kommandoer som følger den gjelder for alle roboter som besøker nettstedet for å gjennomsøke det.

    Angi webbrowwlere

    Du kan også spesifisere spesifikke regler for spesifikke webcrawlere. For eksempel kan du tillate Googlebot (Googles webkrypter) å gjennomsøke alle artikler på nettstedet ditt, men det kan hende du vil motbykke den russiske webkrypteren Yandex Bot fra å gjennomsøke artikler på nettstedet ditt som har ujevn informasjon om Russland.

    Det er hundrevis av webkryptere som skyr internett for informasjon om nettsteder, men de 10 vanligste du bør være bekymret for er oppført her.

    • Googlebot: Google søkemotor
    • Bingbot: Microsofts Bing-søkemotor
    • slurp: Yahoo søkemotor
    • DuckDuckBot: DuckDuckGo søkemotor
    • Baiduspider: Kinesisk Baidu søkemotor
    • YandexBot: Russisk Yandex søkemotor
    • Exabot: Fransk Exalead søkemotor
    • Facebot: Facebooks krypende bot
    • ia_archiver: Alexa's webrangeringskrysser
    • MJ12bot: Stor koblingsindekseringsdatabase

    Ta eksempeleksemplet ovenfor, hvis du vil tillate Googlebot å indeksere alt på nettstedet ditt, men ønsket å blokkere Yandex fra indeksering av innholdet i russisk basert artikkel, legger du til følgende linjer i robots.txt-filen din.


    Brukeragent: googlebot
    Tillat: Tillat: / wp-admin /
    Tillat: /wp-login.php

    Brukeragent: yandexbot
    Tillat: Tillat: / wp-admin /
    Tillat: /wp-login.php
    Disallow: / russia /

    Som du ser, blokkerer den første delen bare Google fra å gjennomsøke WordPress-innloggingssiden og administrative sider. Den andre delen blokkerer Yandex fra det samme, men også fra hele området på nettstedet ditt, der du har publisert artikler med anti-russisk innhold.

    Dette er et enkelt eksempel på hvordan du kan bruke forby kommandoen for å kontrollere spesifikke webcrawlere som besøker nettstedet ditt.

    Andre Robots.txt kommandoer

    Disallow er ikke den eneste kommandoen du har tilgang til i robots.txt-filen din. Du kan også bruke noen av de andre kommandoene som vil lede hvordan en robot kan gjennomsøke nettstedet ditt.

    • forby: Forteller brukeragenten for å unngå å gjennomsøke bestemte nettadresser eller hele deler av nettstedet ditt.
    • Tillate: Gjør det mulig å finjustere bestemte sider eller undermapper på nettstedet ditt, selv om du kanskje har tillagt en foreldremappe. For eksempel kan du avvise: / om /, men la deretter tillate: / about / ryan /.
    • Crawl-forsinkelse: Dette forteller at robotsøkeprogrammet venter xx antall sekunder før du begynner å gjennomsøke innholdet på nettstedet.
    • Sitemap: Gi søkemotorer (Google, Ask, Bing og Yahoo) plasseringen av XML-sitemaps.

    Husk at bots vil bare lytt til kommandoene du har gitt når du angir navnet på boten.

    En vanlig feil som folk gjør, er å forkaste områder som / wp-admin / fra alle bots, men angi deretter en googlebot-seksjon og bare unnlate andre områder (som / om /).

    Siden bots bare følger kommandoene du angir i deres seksjon, må du omarbeide alle de andre kommandoene du har angitt for alle bots (bruker * brukeragenten).

    • forby: Kommandoen pleide å fortelle en brukeragent om ikke å krype bestemt URL. Bare én "Tillat:" -linje er tillatt for hver nettadresse.
    • Tillat (gjelder bare for Googlebot): Kommandoen for å fortelle Googlebot, den kan få tilgang til en side eller en undermappe, selv om overordnet eller undermappen ikke kan tillates.
    • Crawl-forsinkelse: Hvor mange sekunder en crawler skal vente før du laster inn og gjennomsøker sidens innhold. Vær oppmerksom på at Googlebot ikke anerkjenner denne kommandoen, men gjennomsøkingshastigheten kan settes i Google Search Console.
    • Sitemap: Brukes til å ringe ut plasseringen av et XML-sitemap (er) tilknyttet denne nettadressen. Merk at denne kommandoen bare støttes av Google, Ask, Bing og Yahoo.

    Husk at robots.txt er ment å hjelpe legitime bots (som søkemotorbots) gjennomgå nettstedet ditt mer effektivt.

    Det er mange falske crawlere der ute som gjennomsøker nettstedet ditt for å gjøre ting som skrap e-postadresser eller stjele innholdet ditt. Hvis du vil prøve og bruke robots.txt-filen din til å blokkere disse crawlerne fra å gjennomsøke noe på nettstedet ditt, må du ikke bry deg. Skaperne av disse robotsøkeprogrammene ignorerer vanligvis alt du har lagt inn i robots.txt-filen din.

    Hvorfor ikke tillate noe?

    Å få Googles søkemotor til å gjennomsøke så mye kvalitetsinnhold på nettstedet ditt som mulig, er en primær bekymring for de fleste nettstedseiere.

    Google bruker imidlertid bare en begrenset gjennomsøkingsbudsjett og gjennomsøkingsrate på enkelte nettsteder. Gjennomsøkingsgraden er hvor mange forespørsler per sekund Googlebot vil gjøre til nettstedet ditt under gjennomsøkingshendelsen.

    Mer viktig er gjennomsøkingsbudsjettet, som er hvor mange totale forespørsler Googlebot vil gjøre for å gjennomsøke nettstedet ditt i én økt. Google "bruker" sitt gjennomsøkingsbudsjett ved å fokusere på områder på nettstedet ditt som er svært populære eller har endret seg nylig.

    Du er ikke blind for denne informasjonen. Hvis du besøker Googles verktøy for nettredaktører, kan du se hvordan robotsøkeprogrammet håndterer nettstedet ditt.

    Som du kan se, holder robotsøkeprogrammet sin aktivitet på nettstedet ditt ganske konstant hver dag. Det gjennomsøker ikke alle nettsteder, men bare de som anses å være de viktigste.

    Hvorfor la det opp til Googlebot å bestemme hva som er viktig på nettstedet ditt, når du kan bruke robots.txt-filen din til å fortelle den hva de viktigste sidene er? Dette forhindrer Googlebot i å kaste bort tid på lavverdige sider på nettstedet ditt.

    Optimaliseringsbudsjettet ditt

    Googles verktøy for nettredaktører lar deg også sjekke om Googlebot leser robots.txt-filen din, og om det er noen feil.

    Dette hjelper deg å verifisere at du har strukturert robots.txt-filen din riktig.

    Hvilke sider skal du avvise fra Googlebot? Det er bra for nettstedet ditt SEO å forkaste følgende kategorier av sider.

    • Dupliser sider (som utskriftsvennlige sider)
    • Takk sidene følger skjemabaserte bestillinger
    • Bestillingsskjemaer eller informasjonssøk
    • Kontakt sider
    • Innloggingssider
    • Lead magnet "salg" sider

    Ikke ignorér Robots.txt-filen din

    Den største feilen nye nettsideeierne gjør, er aldri engang å se på robots.txt-filen. Den verste situasjonen kan være at robots.txt-filen faktisk blokkerer nettstedet ditt eller områder av nettstedet ditt, fra å bli gjennomsøkt i det hele tatt.

    Pass på at du gjennomgår robots.txt-filen din og sørg for at den er optimalisert. På den måten ser Google og andre viktige søkemotorer "se" alle de fantastiske tingene du tilbyr verden med nettstedet ditt.