Hur man blockerar en webbplats från att indexera i robots.txt: instruktioner och rekommendationer

Innehållsförteckning:

Hur man blockerar en webbplats från att indexera i robots.txt: instruktioner och rekommendationer
Hur man blockerar en webbplats från att indexera i robots.txt: instruktioner och rekommendationer
Anonim

Arbetet med en SEO-optimerare är mycket storskaligt. Nybörjare rekommenderas att skriva ner optimeringsalgoritmen för att inte missa några steg. Annars kommer kampanjen knappast att kallas framgångsrik, eftersom webbplatsen ständigt kommer att uppleva misslyckanden och fel som kommer att behöva korrigeras under lång tid.

Ett av optimeringsstegen är att arbeta med filen robots.txt. Varje resurs bör ha detta dokument, för utan det blir det svårare att klara av optimering. Den utför många funktioner som du måste förstå.

Robot Assistant

Robots.txt-filen är ett vanligt textdokument som kan visas i systemets standardanteckningar. När du skapar den måste du ställa in kodningen till UTF-8 så att den kan läsas korrekt. Filen fungerar med http, https och FTP-protokoll.

Det här dokumentet är en assistent för att söka efter robotar. Om du inte vet, använder alla system "spindlar" som snabbt genomsöker World Wide Web för att returnera relevanta webbplatser för frågor.användare. Dessa robotar måste ha tillgång till resursdata, robots.txt fungerar för detta.

För att spindlarna ska hitta sin väg måste du skicka robots.txt-dokumentet till rotkatalogen. För att kontrollera om webbplatsen har den här filen, skriv in "https://site.com.ua/robots.txt" i webbläsarens adressfält. Istället för "site.com.ua" måste du ange den resurs du behöver.

Arbeta med robots.txt
Arbeta med robots.txt

Dokumentfunktioner

robots.txt-filen förser sökrobotar med flera typer av information. Det kan ge partiell åtkomst så att "spindeln" skannar specifika delar av resursen. Full åtkomst låter dig kontrollera alla tillgängliga sidor. Ett fullständigt förbud hindrar robotar från att ens börja kontrollera och de lämnar webbplatsen.

Efter att ha besökt resursen får "spindlar" ett lämpligt svar på förfrågan. Det kan finnas flera av dem, allt beror på informationen i robots.txt. Till exempel, om skanningen lyckades, kommer roboten att få koden 2xx.

Kanske har webbplatsen omdirigerats från en sida till en annan. I det här fallet får roboten koden 3xx. Om den här koden förekommer flera gånger kommer spindeln att följa den tills den får ett nytt svar. Även om han som regel bara använder 5 försök. Annars visas det populära 404-felet.

Om svaret är 4xx får roboten genomsöka hela innehållet på webbplatsen. Men i fallet med 5xx-koden kan kontrollen stoppas helt, eftersom detta ofta indikerar tillfälliga serverfel.

Sök efter robotar
Sök efter robotar

Vad förbehöver du robots.txt?

Som du kanske har gissat är den här filen robotens guide till webbplatsens rot. Nu används den för att delvis begränsa åtkomsten till olämpligt innehåll:

  • sidor med personlig information om användare;
  • spegelwebbplatser;
  • sökresultat;
  • formulär för datainlämning, etc.

Om det inte finns någon robots.txt-fil i webbplatsroten kommer roboten att genomsöka absolut allt innehåll. Följaktligen kan oönskad data dyka upp i sökresultaten, vilket innebär att både du och webbplatsen kommer att drabbas. Om det finns särskilda instruktioner i robots.txt-dokumentet kommer "spindeln" att följa dem och ge den information som resursägaren önskar.

Arbeta med en fil

För att använda robots.txt för att blockera webbplatsen från indexering måste du ta reda på hur du skapar den här filen. För att göra detta, följ instruktionerna:

  1. Skapa ett dokument i Notepad eller Notepad++.
  2. Ställ in filtillägget ".txt".
  3. Ange nödvändiga data och kommandon.
  4. Spara dokumentet och ladda upp det till webbplatsens rot.

Som du kan se är det i ett av stegen nödvändigt att ställa in kommandon för robotar. De är av två typer: tillåta (tillåta) och förbjuda (inte tillåta). Vissa optimerare kan också ange genomsökningshastighet, värd och länk till resursens sidkarta.

Hur man stänger en webbplats från indexering
Hur man stänger en webbplats från indexering

För att börja arbeta med robots.txt och helt blockera webbplatsen från indexering måste du också förstå symbolerna som används. Till exempel i ett dokumentanvänd "/", vilket indikerar att hela webbplatsen är vald. Om "" används krävs en sekvens av tecken. På så sätt kommer det att vara möjligt att ange en specifik mapp som antingen kan skannas eller inte.

Funktion av bots

"Spindlar" för sökmotorer är olika, så om du arbetar för flera sökmotorer samtidigt, måste du ta hänsyn till detta ögonblick. Deras namn är olika, vilket innebär att om du vill kontakta en specifik robot måste du ange dess namn: "Användaragent: Yandex" (utan citattecken).

Om du vill ställa in direktiv för alla sökmotorer, måste du använda kommandot: "User Agent: " (utan citattecken). För att korrekt blockera webbplatsen från att indexera med robots.txt måste du känna till detaljerna för populära sökmotorer.

Faktum är att de mest populära sökmotorerna Yandex och Google har flera bots. Var och en av dem har sina egna uppgifter. Till exempel är Yandex Bot och Googlebot de huvudsakliga "spindlarna" som genomsöker webbplatsen. Genom att känna till alla bots blir det lättare att finjustera indexeringen av din resurs.

Hur robots.txt-filen fungerar
Hur robots.txt-filen fungerar

Exempel

Så, med hjälp av robots.txt kan du stänga webbplatsen från indexering med enkla kommandon, det viktigaste är att förstå vad du behöver specifikt. Om du till exempel vill att Googlebot inte ska närma sig din resurs måste du ge den rätt kommando. Det kommer att se ut så här: "User-agent: Googlebot Disallow: /" (utan citattecken).

Nu måste vi förstå vad det här kommandot innehåller och hur det fungerar. Så "User-agent"används för att använda ett direktanrop till en av botarna. Därefter anger vi vilken, i vårt fall är det Google. Kommandot "Disallow" måste starta på en ny rad och förbjuda roboten att komma in på platsen. Snedstrecksymbolen i det här fallet indikerar att alla sidor i resursen är valda för kommandokörning.

Vad är robots.txt för?
Vad är robots.txt för?

I robots.txt kan du inaktivera indexering för alla sökmotorer med ett enkelt kommando: "User-agent:Disallow: /" (utan citattecken). Asterisktecknet i detta fall betecknar alla sökrobotar. Vanligtvis behövs ett sådant kommando för att pausa indexeringen av webbplatsen och starta kardinalarbete på den, vilket annars skulle kunna påverka optimeringen.

Om resursen är stor och har många sidor, innehåller den ofta proprietär information som antingen är oönskad att avslöja, eller så kan den påverka marknadsföringen negativt. I det här fallet måste du förstå hur du stänger sidan från indexering i robots.txt.

Du kan dölja antingen en mapp eller en fil. I det första fallet måste du börja om genom att kontakta en specifik bot eller alla, så vi använder kommandot "User-agent", och nedan anger vi kommandot "Disallow" för en specifik mapp. Det kommer att se ut så här: "Disallow: / folder /" (utan citattecken). På så sätt döljer du hela mappen. Om den innehåller någon viktig fil som du vill visa, måste du skriva kommandot nedan: "Tillåt: /folder/file.php" (utan citattecken).

Kontrollera filen

Om du använder robots.txt för att stänga webbplatsen frånDu lyckades indexera, men du vet inte om alla dina direktiv fungerade korrekt, du kan kontrollera att arbetet är korrekt.

Först måste du kontrollera placeringen av dokumentet igen. Kom ihåg att det endast måste finnas i rotmappen. Om det finns i rotmappen kommer det inte att fungera. Öppna sedan webbläsaren och skriv in följande adress där: "https://din webbplats. com/robots.txt" (utan citattecken). Om du får ett felmeddelande i din webbläsare finns inte filen där den ska vara.

Hur man stänger en mapp från indexering
Hur man stänger en mapp från indexering

Direktiv kan kontrolleras i specialverktyg som används av nästan alla webbansvariga. Vi pratar om produkter från Google och Yandex. Till exempel i Google Search Console finns ett verktygsfält där du måste öppna "Crawl", och sedan köra "Robots.txt File Inspection Tool". Du måste kopiera all data från dokumentet till fönstret och börja skanna. Exakt samma kontroll kan göras i Yandex. Webmaster.

Rekommenderad: