Webbanalys

Hemsidan
 
Dammsugning av webbinnehåll
 
Tämligen dolt pågår dammsugning av hela webbplatsers innehåll, i vissa fall har sedan innehållet som samlats in använts för att bygga upp innehåll på helt andra webbplats. Tekniken med skärmskrapning (eng. screen scraping) är ingalunda ny, men går att upptäcka. Det finns ett dolt problem, och det är den belastning och extrakostnad som en stor mängd robotar kan orsaka.

Innehållsstöld inget nytt
Stöld av innehåll på webbplatser är inget nytt fenomen, det finns olika exempel som under åren vädrats ut i pressen. Med stöld i detta fall avses att innehållet ordagrant kopieras och publiceras på en annan webbplats utan tillstånd, inte att delar av innehållet som används som citat eller dylikt.
 
Följetongen som handlade om Blocket.se och allaannonser.se ligger lite närmare i tiden, däremot handlade det inte om ren och skär stöld utan ett selektivt urval av innehåll från Blocket som visades på Allaannonser. Rätt eller fel får andra avgöra, det som är intressant är att titta närmare på vad en större mängd anrop från robotar kan orsaka.
 
Mer anrop ger mer belastning
För den webbplats som är välbesökt med ett efterfrågat innehåll så kräver volymen av anrop att en tillräcklig mängd av olika resurser finns tillgängliga för att kunna leverera innehållet. Det ställer krav på att hårdvara, bandbredd, och andra ingående komponenter räcker för att med så liten fördröjning leverera innehåll. Enkelt uttryckt medför det per automatik kostnader för webbplatsägaren, och med en skara dåligt programmerade robotar som i tid och otid anropar webbplatsen kommer kostnaderna att öka.
 
Ökade kostnader
Antalet webbplatsägare som vill betala för att andra webbplatser skall ta deras innehåll med robotar lär nog vara riktigt få, och vill man inte betala för kostnader orsakade av konkurrenter så får man vidta åtgärder. Om det är stämningar eller aktiv filtrering i brandväggar m.m. som skall till beror helt på omfattningen och kostnaden hos den som är utsatt för dammsugningen.
 
Försämrad upplevelse
För besökarna till webbplatsen så kan en ökad belastning på grund av dammsugning av robotar medföra att webbplatsen upplevs som långsam, det snabba botemedlet är att antingen sätta mer resurser på plats till en ökad kostnad eller minska ned den trafik som inte är önskvärd. Att skiljas från pengar är svårare än att blockera giriga robotar, dessutom löser det inget att kasta hårdvara på ett problem.
 
Identifiera giriga sökrobotar
Ett mycket enkelt sätt att identifiera giriga sökrobotar är att i loggfilen hitta följande beteende som giriga robotar har, man letar efter:
 
- anrop efter enbart sidor och det med ett större antal per sekund
 
Många av dessa robotar försöker dessutom dölja sig bakom agentsträngar som om de vore en webbläsare, men de avslöjas ofta av att de:
 
- inte anropar bilder eller andra i sidorna ingående objekt
- kör inte JavaScript
- tar inte emot cookies
 
Med giriga avses robotar som sänder så många samtidiga anrop som de är kapabla till mot en webbplats, och det skapar en belastning som kan resultera i att webbservern blir långsam i leveranser av innehåll eller uppvisar ett beteende som avviker från det normala.
 
I vissa fall kan volymen av anrop likna överbelastnings-attacker, och har man en modern brandvägg framför webbservern kan den förhindra att något sådant sker.
 
Exemplet till höger orsakades av att någon drog igång en applikation i syfte att göra en besiktning av denna webbplats hos en leverantör av sådana tjänster som har systemet öppet på sin webbplats.
Misstänkta robotanrop

Eftersom den uppvisar giriga tendenser så är den leverantören blockerad och kommer således inte besvära denna webbplats mer, men framför allt så respekterar deras robot inte anvisningarna i robots.txt vilket varje professionell robot gör.
 
Det kan vara på sin plats att påminna om s.k. email insamlare, speciella robotar som söker av en webbplats i syfte att samla in samtliga email adresser som de kan finna. Undvik att ha mailto: länkar med epostadresser i. Använd de olika tekniker som finns för att försvåra för dessa robotar, ännu bättre är att använda sig av formulär där mottagarens epost inte syns utåt.
 
Summering
Med en aktiv kontroll av loggdata kan giriga sökrobotar upptäckas, speciellt viktigt är det att blockera de sökrobotar som inte följer de anvisningar som finns i robots.txt filen, vilket varje professionell robot som gör anrop till en webbplats innehåll skall följa.
 
Med en ökad kontroll kan onödiga kostnader och besvär förhindras, speciellt om du betalar för bandbredden kan det vara viktigt att hålla ett öga på vilka besökare som belastar mycket. Analyserar du dessutom din besökstrafik baserat på loggfiler så tar det längre tid ju mer skräp som hamnar där.
 

 
Länkar till mer information:
Dealing with website content theft
Sökmotorhotet - nätets söktjänster kan stjäla dina intäkter (2005)
Bandwidth Stealing?
Yahoo crawler hammers website, ignores robots.txt

«««