Bijgewerkt op 9 november 2023
Scraping is het geautomatiseerd overnemen van de content van een andere website.
Vergelijkingssites doen dat bijvoorbeeld. Ze importeren de prijzen van de originele website, zetten ze in een tabel en hup, je hebt een vergelijkingssite. Maar dit kan ook met andere content. Gewoon de content van een andere website overnemen op je blog en je hebt in een mum van tijd een groot en interessant blog zonder dat je ook maar iets hoeft te doen. Zet er een paar advertenties bij en het geldschip komt binnen.
Of haal relevante goede content binnen op je site waar je klanten mee aantrekt. En dan kun jij je lekker bezig houden met je klanten en je laat een ander het werk doen om die klanten aan te trekken. Niet leuk voor de auteurs van de originele content natuurlijk. En ook niet netjes.
Wat verstaat Google onder scraping?
- Inhoud van andere sites kopiëren en opnieuw publiceren zonder originele inhoud of waarde toe te voegen.
- Inhoud van andere sites kopiëren en het een klein beetje wijzigen (bijvoorbeeld door synoniemen te vervangen).
- D.m.v. de RSS-feed de content van andere sites overnemen.
- Het insluiten van video’s, afbeeldingen of andere media van andere sites zonder waarde voor je lezers toe te voegen.
Wat verstaat Google onder scraping?
- Inhoud van andere sites kopiëren en opnieuw publiceren zonder originele inhoud of waarde toe te voegen.
- Inhoud van andere sites kopiëren en het een klein beetje wijzigen (bijvoorbeeld door synoniemen te vervangen).
- D.m.v. de RSS-feed de content van andere sites overnemen.
- Het insluiten van video’s, afbeeldingen of andere media van andere sites zonder waarde voor je lezers toe te voegen.
Hoe weet je of je site gescrapet wordt?
Je zou denken dat je in de zoekresultaten kunt zien of je site gescrapet wordt, want dan zou je blogpost meerdere malen in de zoekresultaten moeten staan op verschillende websites. Vroeger was dat ook zo. Maar nu heeft Google het dunne content filter Panda. En omdat Google weet dat de tekst voor het eerst op jouw website gepubliceerd is, vindt hij dat dezelfde tekst op die andere website dunne content is.
Content die al eerder gepubliceerd is, voegt niets toe aan het web dus die content heeft feitelijk geen waarde. En het toevoegen van waarde aan het web is nou juist het nut van publiceren. Lees hier wat Google zegt over content scrapen. Daarom: omdat Google dit filter heeft om dunne content niet in de zoekresultaten aan te bieden is het tegenwoordig niet waarschijnlijk dat je een gescrapte blogpost via de zoekresultaten kunt herkennen.
Google Search Console: meeste links
In Google Search Console kun je zien hoeveel links er naar jouw site zijn. En je kunt daar ook zien waar die links vandaan komen.
Zien hoeveel inkomende links je hebt
In Google Search Console kun je zien hoeveel links er naar jouw site zijn. En je kunt daar ook zien waar die links vandaan komen. Als je dat wilt zien doe dan dit:
- Ga in de zijbalk van Search Console naar Links
- En kijk daarna naar Externe links
En dan zie je vanaf welke andere websites er gelinkt is naar jouw website.
Sites met de meeste links naar jouw site
Als je in Search Console een klein stukje scrolt, dan zie je een lijstje met “sites met de meeste links naar jouw site”. Daar moet je af en toe eens kijken, want daar kunnen sites staan die jouw site aan het scrapen zijn.
Dat hoeft natuurlijk helemaal niet zo te zijn. Er zijn ook gewoon aardige webmasters die veel links naar jouw website plaatsen. Ook dat kan. Maar als je ineens heel veel links ziet die vanaf 1 enkele website komen en die naar jouw website toe gaan, ga dan even naar die website en kijk eens of daar iets ziet dat van jou is.
Ik heb zo’n situatie gehad. Ineens kwamen er onwaarschijnlijk veel links vanaf een enkele andere website. En toen ik daar keek, zag ik een kopie van mijn eigen website met een iets andere lay-out. Telkens als ik een artikel publiceerde, werd het direct naadloos en volautomatisch overgenomen op die andere website. Inclusief categorieën, tags, afbeeldingen, gewoon alles.
Wat betekent scraping voor SEO?
Die links naar jouw website krijg je dankzij de plugin van Yoast. Deze plugin geeft aan iedere blogpost een tekstje mee: “Dit artikel verscheen voor het eerst op xxx”. Door deze link naar jouw site kun je in Search Console heel gemakkelijk zien of er een site is die onwaarschijnlijk veel links naar jouw site plaatst doordat hij je site aan het scrapen is. Google weet dus (als het goed is) waar het origineel van het artikel geplaatst is. Maar dit betekent niet dat je van scrapen helemaal geen schade zult hebben.
Diefstal van links: ze gaan naar de verkeerde site
Stel dat iemand jouw content vindt op de site die jouw content gestolen heeft. En stel dat die persoon jouw content interessant vindt en er een link naar plaatst. Dan krijgt de scraper een inkomende link die jij eigenlijk verdiend hebt. En daar kun je niets tegen doen.
Wat doen bezoekers?
En waarom zou een bezoeker van die andere site eerst je hele artikel uitlezen en daarna naar jouw site gaan om verder te lezen? Terwijl hij ook gewoon kan blijven waar hij is, want daar staan al je artikelen ook. Je bent dus geïnteresseerde bezoekers kwijt, je mist hierdoor ook inschrijvingen voor je nieuwsbrief. Kortom: je hebt er schade van.
Wat kun je doen tegen scraping?
Mijn site is een keer gescrapet en ik heb toen overwogen om helemaal niets te doen. Gewoon omdat het heel veel tijd kost om er tegen te vechten. En die tijd had ik eigenlijk niet. Maar niets doen pakt sowieso in je nadeel uit, want zoals ik hierboven al zei: scraping kost altijd bezoekers en inschrijvingen voor je nieuwsbrief. Bovendien was ik veel te nijdig om het erbij te laten zitten.
En het was ook echt hemeltergend. Er stond op een ander domein een kopie van een deel van mijn site. En telkens als ik een artikel publiceerde werd, het een-op-een overgenomen op die andere site. Inclusief categorieën en tags, gewoon alles. Geleidelijk aan zou die site dus mijn hele site kopiëren of ik zou niets nieuws meer kunnen publiceren.
Plugin van Yoast
Maar de plugin van Yoast zorgt voor een beveiliging tegen scraping. Deze plugin plaats een link terug naar je eigen site met de mededeling dat het origineel op jouw site staat.
Helaas: die link was nergens te zien. Ik heb er contact over gehad met de mensen van Yoast en zij hebben gekeken hoe dat zat. Voor Google stond die link er wel dus Google wist wel dat mijn site het origineel was, maar de scraper had die link voor mensen onzichtbaar gemaakt. De plugin deed dus gewoon zijn werk, maar de scraper was listig en mensen zagen die link naar mijn site niet.
Doe iets tegen scraping
Begin eens met te kijken wie de scraper is. Dat kun je doen door naar een “Whois” site te gaan en daar de domeinnaam in te tikken. Maar vaak heb je daar niet zoveel aan, want vaak zul je zien dat de eigenaar ergens in een vaag land heel ver weg zit. Maar soms ook niet. Soms kun je een e-mailadres achterhalen.
Contactformulier
Heel soms staat er ook een contactformulier op de website die aan het scrapen is. Als je een e-mailadres of een contactformulier hebt, dan kun je vragen om jouw content onmiddellijk te verwijderen. Of dat ook gebeurt is natuurlijk een andere zaak, maar vraag er in elk geval wel om. In mijn situatie zat de scraper in een ver weg land, maar er was een contactformulier. En dat heb ik ook gebruikt en mijn content is verwijderd.
Als je dit doet, realiseer je dan dat niet iedere scraper weet dat hij dit aan het doen is. Er zijn obscure SEO bureautjes die anderen “helpen” om beter te ranken door het blog van die ander te vullen met goede gescrapete content (die niets toevoegt aan het web). Mensen die met zo’n SEO bureau in zee gaan weten vaak niet precies hoe het werkt en wat er gebeurt. Ze betalen gewoon een maandelijks bedrag voor een betere ranking.
Preventie tegen scraping: interne links
Als je website gescrapet wordt dan heb je er alle belang bij om bezoekers zo snel mogelijk terug te leiden naar jouw originele website. Dat moet je voorbereiden.
Zorg er in ieder geval voor dat je in iedere blogpost interne links plaatst naar andere blogposts en pagina’s die op je eigen website staan. Als je site dan ooit gescrapet wordt, dan gaan deze links mee en heb je in ieder geval een mogelijkheid gecreëerd dat een geïnteresseerde lezer zo’n link volgt en dan netjes op jouw website komt. Plaats die interne link hoog in je artikel.
En als je site niet gescrapet wordt dan heb je ook heel veel voordeel van interne links. Plaats dus gewoon interne links in je artikelen en laat het verder lezen niet alleen afhangen van gerelateerde artikelen onder je blogposts.