Semalt giver tip til, hvordan man håndterer bots, edderkopper og crawlere

Bortset fra at oprette søgemaskinevenlige URL'er, lader .htaccess-filen webmastere blokere for bestemte bots fra at få adgang til deres websted. En måde at blokere disse robotter på er gennem robots.txt-filen. Ross Barber, Semalt Customer Success Manager, siger imidlertid, at han har set nogle crawlere ignorere denne anmodning. En af de bedste måder er at bruge .htaccess-filen til at forhindre dem i at indeksere dit indhold.

Hvad er disse bots?

De er en type software, der bruges af søgemaskiner til at slette nyt indhold fra internettet til indekseringsformål.

De udfører følgende opgaver:

  • Besøg websider, som du har linket til
  • Kontroller din HTML-kode for fejl
  • De gemmer hvilke websider, du linker til, og ser, hvilke websider der linker til dit indhold
  • De indekserer dit indhold

Nogle bots er dog ondsindede og søger på dit websted efter e-mail-adresser og formularer, der normalt bruges til at sende dig uønskede beskeder eller spam. Andre kigger endda efter sikkerhedsløjfer i din kode.

Hvad er nødvendigt for at blokere webcrawlere?

Inden du bruger .htaccess-filen, skal du kontrollere følgende ting:

1. Dit websted skal køre på en Apache-server. I dag giver selv disse webhostingfirmaer, der er halvt anstændige i deres job, dig adgang til den krævede fil.

2. Du skal have adgang til, at du er rå serverlogfiler på dit websted, så du kan finde de bots, der har besøgt dine websider.

Bemærk, at der ikke er nogen måde, du vil være i stand til at blokere for alle skadelige bots medmindre du blokerer for dem alle, selv ikke dem, du anser for at være nyttige. Nye bots dukker op hver dag, og ældre ændres. Den mest effektive måde er at sikre din kode og gøre det svært for bots at spam dig.

Identificering af bots

Bots kan enten identificeres ved hjælp af IP-adressen eller fra deres "User Agent String", som de sender HTTP-headere. For eksempel bruger Google "Googlebot."

Du har muligvis brug for denne liste med 302 bots, hvis du allerede har navnet på den bot, som du gerne vil holde væk med .htaccess

En anden måde er at downloade alle logfiler fra serveren og åbne dem ved hjælp af en teksteditor. Deres placering på serveren kan ændre sig afhængigt af din servers konfiguration. Hvis du ikke kan finde dem, skal du søge hjælp fra din webhost.

Hvis du ved, hvilken side der blev besøgt, eller tidspunktet for besøget, er det lettere at komme med en uønsket bot. Du kan søge i logfilen med disse parametre.

En gang har du bemærket, hvilke bots du har brug for at blokere; du kan derefter inkludere dem i .htaccess-filen. Bemærk, at det ikke er nok at blokere for at stoppe det. Det kommer muligvis tilbage med en ny IP eller navn.

Sådan blokerer du dem

Download en kopi af .htaccess-filen. Lav sikkerhedskopier om nødvendigt.

Metode 1: blokering af IP

Dette kodestykker blokerer for bot ved hjælp af IP-adressen 197.0.0.1

Bestil Afvis, tillad

Afvis fra 197.0.0.1

Den første linje betyder, at serveren blokerer for alle anmodninger, der matcher de mønstre, du har angivet, og tillader alle andre.

Den anden linje fortæller serveren at udstede en 403: forbudt side

Metode 2: Blokering af brugeragenter

Den nemmeste måde er at bruge Apaches omskrivningsmotor

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

Omskrivningsregel. - [F, L]

Den første linje sikrer, at omskrivningsmodulet er aktiveret. Linie to er den betingelse, som reglen gælder for. "F" i linje 4 fortæller serveren at returnere en 403: forbudt, mens "L" betyder, at dette er den sidste regel.

Du vil derefter uploade .htaccess-filen til din server og overskrive den eksisterende. Med tiden bliver du nødt til at opdatere botens IP. I tilfælde af at du laver en fejl, skal du bare uploade den sikkerhedskopi, du har oprettet.

mass gmail