Hur ställer jag in Robots.txt på rätt sätt?

Innehållsförteckning:

Hur ställer jag in Robots.txt på rätt sätt?
Hur ställer jag in Robots.txt på rätt sätt?
Anonim

Rätt Robots txt för html-webbplatsen skapar actionmockups för sökmotorrobotar som talar om för dem vad de kan kontrollera. Denna fil kallas ofta Robot Exclusion Protocol. Det första bots letar efter innan de genomsöker en webbplats är robots.txt. Den kan peka på eller tala om för webbplatskartan att inte kontrollera vissa underdomäner. När du vill att sökmotorer ska söka efter det som oftast hittas krävs inte robots.txt. Det är mycket viktigt i denna process att filen är korrekt formaterad och inte indexerar användarsidan med användarens personuppgifter.

Robotskanningsprincip

Principen för robotskanning
Principen för robotskanning

När en sökmotor stöter på en fil och ser en förbjuden URL, genomsöker den inte den, men den kan indexera den. Detta beror på att även om robotarna inte får se innehållet kan de komma ihåg bakåtlänkar som pekar på den förbjudna webbadressen. På grund av blockerad åtkomst till länken kommer URL:en att visas i sökmotorer, men utan fragment. Om enför den inkommande marknadsföringsstrategin krävs rätt Robots txt för bitrix (Bitrix), de tillhandahåller webbplatsverifiering på begäran av användaren av skannrar.

Å andra sidan, om filen inte är korrekt formaterad kan detta leda till att webbplatsen inte visas i sökresultaten och inte hittas. Sökmotorer kan inte kringgå den här filen. En programmerare kan se robots.txt för vilken webbplats som helst genom att gå till dess domän och följa den med robots.txt, till exempel www.domain.com/robots.txt. Med hjälp av ett verktyg som Unamos SEO-optimeringssektion, där du kan ange vilken domän som helst, och tjänsten kommer att visa information om filens existens.

Restriktioner för skanning:

  1. Användaren har föråldrat eller känsligt innehåll.
  2. Bilder på webbplatsen kommer inte att inkluderas i bildsökningsresultat.
  3. Sajten är ännu inte redo för demo som ska indexeras av roboten.

Tänk på att informationen som en användare vill få från en sökmotor är tillgänglig för alla som anger webbadressen. Använd inte den här textfilen för att dölja känsliga data. Om domänen har ett 404 (hittades inte) eller 410 (godkänt) fel, kontrollerar sökmotorn webbplatsen trots förekomsten av robots.txt, i vilket fall den anser att filen saknas. Andra fel som 500 (internt serverfel), 403 (förbjudet), timeout eller "inte tillgänglig" respekterar robots.txt-instruktionerna, men förbikoppling kan fördröjas tills filen är tillgänglig.

Skapa en sökfil

Skapar en sökfil
Skapar en sökfil

MångaCMS-program som WordPress har redan en robots.txt-fil. Innan användaren konfigurerar Robots txt WordPress korrekt måste användaren bekanta sig med dess möjligheter för att ta reda på hur man kommer åt det. Om programmeraren skapar filen själv måste den uppfylla följande villkor:

  1. Måste skrivas med små bokstäver.
  2. Använd UTF-8-kodning.
  3. Spara i en textredigerare som en fil (.txt).

När en användare inte vet var den ska placera den kontaktar de webbserverns mjukvaruleverantör för att ta reda på hur man kommer åt roten på en domän eller går till Google-konsolen och laddar ner den. Med den här funktionen kan Google även kontrollera om boten fungerar korrekt och listan över webbplatser som har blockerats med hjälp av filen.

Huvudformatet för rätt Robots txt för bitrix (Bitrix):

  1. Legend robots.txt.
  2. , lägger till kommentarer som endast används som anteckningar.
  3. Dessa kommentarer kommer att ignoreras av skannrar tillsammans med användarens stavfel.
  4. User-agent - indikerar vilken sökmotor instruktionerna för filen finns på.
  5. Att lägga till en asterisk () talar om för skannrar att instruktionerna är för alla.

Indikerar en specifik bot, till exempel Googlebot, Baiduspider, Applebot. Disallow talar om för sökrobotar vilka delar av webbplatsen som inte ska genomsökas. Det ser ut så här: User-agent:. Asterisken betyder "alla bots". Du kan dock ange sidor för specifikabots. För att göra detta måste du känna till namnet på boten som rekommendationer är inställda för.

Rätt robots-txt för Yandex kan se ut så här:

Rätt robots txt för Yandex
Rätt robots txt för Yandex

Om boten inte ska genomsöka webbplatsen kan du ange det, och för att hitta namnen på användaragenter rekommenderas det att du bekantar dig med onlinefunktionerna på useragentstring.com.

Sidoptimering

Sidoptimering
Sidoptimering

Följande två rader anses vara en komplett robots.txt-fil, och en enskild robotsfil kan innehålla flera rader med användaragenter och direktiv som inaktiverar eller aktiverar genomsökning. Huvudformatet för rätt Robots txt:

  1. Användaragent: [agentens användarnamn].
  2. Disallow: .

I filen visas varje block av direktiv som diskret, separerat med en linje. I filen bredvid agentens användarkatalog tillämpas varje regel på en specifik uppsättning avsnittsseparerade rader. Om en fil har en regel för flera agenter kommer roboten bara att överväga den mest specifika gruppen av instruktioner.

Teknisk syntax

Teknisk syntax
Teknisk syntax

Det kan ses som "språket" för robots.txt-filer. Det finns fem termer som kan finnas i detta format, de viktigaste inkluderar:

  1. User-agent - Webbsökrobot med genomsökningsinstruktioner, vanligtvis en sökmotor.
  2. Disallow är ett kommando som används för att säga åt användaragenten att kringgå(utelämnande) av en specifik URL. Det finns bara ett förbjudet villkor för varje.
  3. Tillåt. För Googlebot som får åtkomst nekas till och med användarsidan.
  4. Crawl-delay - anger hur många sekunder sökroboten behöver innan den genomsöks. När boten inte bekräftar det ställs hastigheten in i Google-konsolen.
  5. Webbplatskarta – Används för att hitta alla XML-kartor som är kopplade till en URL.

Mönstermatchningar

När det kommer till att faktiskt blockera webbadresser eller tillåta giltig Robots txt, kan operationerna vara ganska knepiga eftersom de tillåter dig att använda mönstermatchning för att täcka ett antal möjliga URL-parametrar. Google och Bing använder båda två tecken som identifierar sidor eller undermappar som SEO vill utesluta. De två tecknen är asterisken () och dollartecknet ($), där:är ett jokertecken som representerar vilken sekvens av tecken som helst. $ - matchar slutet av webbadressen.

Google erbjuder en stor lista över möjliga mallsyntaxer som förklarar för användaren hur man korrekt ställer in en Robots txt-fil. Några vanliga användningsfall inkluderar:

  1. Förhindra duplicerat innehåll från att visas i sökresultaten.
  2. Håll alla delar av webbplatsen privata.
  3. Spara interna sidor med sökresultat baserat på öppet uttalande.
  4. Ange plats.
  5. Förhindra sökmotorer från att indexera vissafiler.
  6. Ange en genomsökningsfördröjning för att stoppa omladdningen vid skanning av flera innehållsområden samtidigt.

Kontrollerar om det finns en robotfil

Om det inte finns några områden på webbplatsen som behöver genomsökas, behövs inte robots.txt alls. Om användaren inte är säker på att den här filen finns måste han ange rotdomänen och skriva in den i slutet av URL:en, ungefär så här: moz.com/robots.txt. Ett antal sökrobotar ignorerar dessa filer. Men som regel hör dessa sökrobotar inte till välrenommerade sökmotorer. De är den typen av spammare, e-postsamlare och andra typer av automatiserade bots som finns i överflöd på Internet.

Det är mycket viktigt att komma ihåg att användningen av robotexkluderingsstandarden inte är en effektiv säkerhetsåtgärd. Faktum är att vissa bots kan börja med sidor där användaren ställer in dem på skanningsläge. Det finns flera delar som ingår i standardundantagsfilen. Innan du berättar för roboten vilka sidor den inte ska fungera på måste du ange vilken robot du ska prata med. I de flesta fall kommer användaren att använda en enkel deklaration som betyder "alla bots".

SEO-optimering

SEO-optimering
SEO-optimering

Innan du optimerar måste användaren se till att han inte blockerar något innehåll eller delar av webbplatsen som behöver kringgås. Länkar till sidor som blockeras av rätt Robots txt kommer inte att respekteras. Detta betyder:

  1. Om de inte är länkade till andra sidor som är tillgängliga för sökmotorer, dvs. sidor,inte blockeras av robots.txt eller en metarobot, och relaterade resurser kommer inte att genomsökas och kan därför inte indexeras.
  2. Ingen länk kan skickas från en blockerad sida till länkdestinationen. Om det finns en sådan sida är det bättre att använda en annan blockeringsmekanism än robots.txt.

Eftersom andra sidor kan länka direkt till en sida som innehåller personlig information och du vill blockera den här sidan från sökresultat, använd en annan metod, som lösenordsskydd eller noindex-metadata. Vissa sökmotorer har flera användaragenter. Google använder till exempel Googlebot för organiska sökningar och Googlebot-Image för bildsökningar.

De flesta användaragenter från samma sökmotor följer samma regler, så det finns inget behov av att ange direktiv för var och en av flera sökrobotar, men att kunna göra det kan finjustera genomsökningen av webbplatsinnehåll. Sökmotorn cachar innehållet i filen och uppdaterar vanligtvis det cachade innehållet minst en gång om dagen. Om användaren ändrar filen och vill uppdatera den snabbare än vanligt kan de skicka robots.txt-webbadressen till Google.

Sökmotorer

Kontrollerar om det finns en robotfil
Kontrollerar om det finns en robotfil

För att förstå hur Robots txt fungerar korrekt måste du känna till sökmotorernas möjligheter. Kort sagt, deras förmåga ligger i att de skickar "scanners", vilket är program somsurfar på Internet efter information. De lagrar sedan en del av denna information för att senare vidarebefordra den till användaren.

För många människor är Google redan internet. Faktum är att de har rätt, eftersom detta kanske är hans viktigaste uppfinning. Och även om sökmotorer har förändrats mycket sedan starten, är de underliggande principerna fortfarande desamma. Sökrobotar, även kända som "bots" eller "spindlar", hittar sidor från miljarder webbplatser. Sökmotorer ger dem anvisningar om vart de ska gå, medan enskilda webbplatser också kan kommunicera med bots och tala om för dem vilka specifika sidor de ska titta på.

I allmänhet vill webbplatsägare inte synas i sökmotorer: administratörssidor, backend-portaler, kategorier och taggar och andra informationssidor. Filen robots.txt kan också användas för att hindra sökmotorer från att kontrollera sidor. Kort sagt, robots.txt talar om för sökrobotar vad de ska göra.

Banna sidor

Detta är huvuddelen av robotexkluderingsfilen. Med en enkel deklaration säger användaren till en bot eller en grupp av botar att inte genomsöka vissa sidor. Syntaxen är enkel, till exempel att neka åtkomst till allt i sajtens "admin"-katalog, skriv: Disallow: /admin. Den här raden förhindrar bots från att genomsöka yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html och allt annat under admin-katalogen.

För att inte tillåta en sida, specificera helt enkelt den på disallow-raden: Disallow: /public/exception.html. Nu är sidan "undantag".kommer inte att migrera, men allt annat i mappen "public" kommer att göra det.

För att inkludera flera sidor, lista dem helt enkelt:

Kataloger och sidor
Kataloger och sidor

Dessa fyra rader i den korrekta Robots-txt-filen för symfoni kommer att gälla för alla användaragenter som anges överst irobots.txt-sektionen för

Förbjud sidor
Förbjud sidor

Webbplatskarta:

Andra kommandon:live - tillåt inte sökrobotar att indexera cpresources/ eller provider/.

Användaragent:Disallow: /cpresources/.

Neka: / leverantör / Disallow: /.env.

Sätta standarder

Användaren kan specificera specifika sidor för olika bots genom att kombinera de två föregående elementen, så här ser det ut. Ett exempel på rätt Robots txt för alla sökmotorer presenteras nedan.

Sätta standarder
Sätta standarder

Sektionerna "admin" och "privata" kommer att vara osynliga för Google och Bing, men Google kommer fortfarande att se den "hemliga" katalogen, medan Bing inte kommer att göra det. Du kan ange allmänna regler för alla botar som använder asterisk-användaragenten och sedan ge specifika instruktioner till botarna i följande avsnitt. Med kunskapen ovan kan användaren skriva ett exempel på rätt Robots txt för alla sökmotorer. Starta bara din favorittextredigerare och berätta för botarna att de inte är välkomna på vissa delar av webbplatsen.

Tips för att förbättra serverprestanda

SublimeText ären mångsidig textredigerare och guldstandarden för många programmerare. Hans programmeringstips bygger dessutom på effektiv kodning. användare uppskattar närvaron av genvägar i programmet. Om användaren vill se ett exempel på en robots.txt-fil bör de gå till valfri webbplats och lägga till "/robots.txt" i slutet. Här är en del av robots.txt-filen GiantBicycles.

Programmet tillhandahåller skapandet av sidor som användare inte vill visa i sökmotorer. Och har även några exklusiva saker som få människor känner till. Till exempel, medan robots.txt-filen talar om för bots vart de inte ska gå, gör webbplatskartfilen motsatsen och hjälper dem att hitta det de letar efter, och även om sökmotorer förmodligen redan vet var webbplatskartan finns, får den inte i vägen.

Det finns två typer av filer: HTML-sida eller XML-fil. En HTML-sida är en sida som visar besökarna alla tillgängliga sidor på en webbplats. I sin egen robots.txt ser det ut så här: Sitemap://www.makeuseof.com/sitemap_index.xml. Om webbplatsen inte är indexerad av sökmotorer, även om den har genomsökts flera gånger av webbrobotar, måste du se till att filen finns och att dess behörigheter är korrekt inställda.

Som standard kommer detta att hända med alla SeoToaster-installationer, men vid behov kan du återställa det så här: Fil robots.txt - 644. Beroende på PHP-servern, om detta inte fungerar för användaren, kan det rekommenderas att prova följande: File robots.txt - 666.

Ställa in skanningsfördröjningen

Direktivet för förbikopplingsfördröjning informerar vissasökmotorer hur ofta de kan indexera en sida på webbplatsen. Det mäts i sekunder, även om vissa sökmotorer tolkar det lite annorlunda. Vissa människor ser genomsökningsfördröjning 5 när de uppmanas att vänta fem sekunder efter varje skanning för att starta nästa.

Andra tolkar detta som en instruktion att bara skanna en sida var femte sekund. Roboten kan inte skanna snabbare för att spara serverbandbredd. Om servern behöver matcha trafiken kan den ställa in en bypass-fördröjning. I allmänhet behöver användare i de flesta fall inte oroa sig för detta. Så här ställs in genomsökningsfördröjningen på åtta sekunder - Genomsökningsfördröjning: 8.

Men inte alla sökmotorer kommer att följa detta direktiv, så när du inte tillåter sidor kan du ställa in olika genomsökningsfördröjningar för vissa sökmotorer. Efter att alla instruktioner i filen är konfigurerade kan du ladda upp den till webbplatsen, se först till att det är en enkel textfil och har namnet robots.txt och kan hittas på yoursite.com/robots.txt.

Bästa WordPress-bot

Bästa WordPress Bot
Bästa WordPress Bot

Det finns några filer och kataloger på en WordPress-webbplats som måste låsas varje gång. Katalogerna som användare bör inte tillåta är cgi-bin-katalogen och standard WP-katalogerna. Vissa servrar tillåter inte åtkomst till cgi-bin-katalogen, men användare måste inkludera den i disallow-direktivet innan de konfigurerar Robots txt WordPress

Standard WordPress-kataloger,som bör blockera är wp-admin, wp-content, wp-includes. Dessa kataloger innehåller inte data som initi alt är användbar för sökmotorer, men det finns ett undantag, det vill säga det finns en underkatalog som heter uppladdningar i wp-innehållskatalogen. Denna underkatalog måste tillåtas i filen robot.txt eftersom den innehåller allt som laddas med hjälp av WP-medieuppladdningsfunktionen. WordPress använder taggar eller kategorier för att strukturera innehåll.

Om kategorier används, är det nödvändigt att blockera taggarkivet från sökningen för att göra rätt Robots txt för Wordpress, som specificerats av programtillverkaren. Först kontrollerar de databasen genom att gå till panelen "Administration"> "Inställningar"> "Permalänk".

Som standard är basen taggen, om fältet är tomt: Disallow: / tag /. Om en kategori används måste du inaktivera kategorin i robot.txt-filen: Disallow: /category/. Som standard är basen taggen, om fältet är tomt: Disallow: / tag /. Om en kategori används måste du inaktivera kategorin i robot.txt-filen: Disallow: / kategori /.

Filer som främst används för att visa innehåll, de kommer att blockeras av rätt Robots txt-fil för Wordpress:

Robots txt för wordpress
Robots txt för wordpress

Joomla basic setup

När användaren har installerat Joomla måste du se den korrekta Joomla Robots txt-inställningen i den globala konfigurationen, som finns i kontrollpanelen. Vissa inställningar här är mycket viktiga för SEO. Hitta först namnet på webbplatsen och se till attwebbplatsens korta namn används. Sedan hittar de en grupp inställningar till höger om samma skärm, som kallas SEO-inställningar. Den som definitivt kommer att behöva ändras är den andra: använd en omskrivnings-URL.

Det här låter komplicerat, men det hjälper i princip Joomla att skapa renare webbadresser. Mest märkbart om du tar bort raden index.php från webbadresserna. Om du ändrar det senare kommer webbadresserna att ändras och Google kommer inte att gilla det. Men när du ändrar den här inställningen måste flera steg vidtas samtidigt för att skapa rätt robotstxt för Joomla:

  1. Hitta filen htaccess.txt i Joomla rotmapp.
  2. Markera det som.htaccess (ingen förlängning).
  3. Inkludera webbplatsens namn i sidrubriker.
  4. Hitta metadatainställningar längst ned på den globala konfigurationsskärmen.

Robot i molnet MODX

Robot i MODX-molnet
Robot i MODX-molnet

Tidigare försåg MODX Cloud användare med möjligheten att kontrollera beteendet för att låta robots.txt-filen visas baserat på en växling i instrumentpanelen. Även om detta var användbart var det möjligt att av misstag tillåta indexering på iscensättnings-/dev-webbplatser genom att växla ett alternativ i instrumentpanelen. På samma sätt var det lätt att inaktivera indexering på produktionsplatsen.

Idag antar tjänsten närvaron av robots.txt-filer i filsystemet med följande undantag: alla domäner som slutar med modxcloud.com kommer att fungera som ett Disallow: /direktiv för alla användaragenter, oavsett närvaron eller frånvaro av filen. Produktionswebbplatser som får verklig besökstrafik måste använda sin egen domän om användaren vill indexera sin webbplats.

Vissa organisationer använder rätt Robots txt för modx för att köra flera webbplatser från en enda installation med hjälp av Contexts. Ett fall där detta skulle kunna tillämpas skulle vara en offentlig marknadsföringswebbplats i kombination med mikrosajter för målsidor och möjligen ett icke-offentligt intranät.

Traditionellt har detta varit svårt att göra för fleranvändarinstallationer eftersom de delar samma nätverksrot. Med MODX Cloud är detta enkelt. Ladda bara upp en extra fil till en webbplats som heter robots-intranet.example.com.txt med följande innehåll så blockerar den indexering med väl fungerande robotar och alla andra värdnamn faller tillbaka till standardfiler om det inte finns andra specifika namnnoder.

Robots.txt är en viktig fil som hjälper användaren att länka till webbplatsen på Google, stora sökmotorer och andra webbplatser. Filen ligger i roten på en webbserver och instruerar webbrobotar att genomsöka en webbplats, ställa in vilka mappar den ska eller inte ska indexera, med hjälp av en uppsättning instruktioner som kallas Bot Exclusion Protocol. Ett exempel på rätt Robots txt för alla sökmotorer obots.txt är särskilt lätt att göra med SeoToaster. En speciell meny har skapats för den i kontrollpanelen, så boten kommer aldrig att behöva överanstränga sig för att få åtkomst.

Rekommenderad: