Artikel 8 juli 2021

Is data scraping goed, slecht of iets ertussenin?

Er is veel gezegd en geschreven over data scraping. In deze blog een overzicht van wat het is, waarom het problematisch kan zijn en hoe we er in de toekomst mee om kunnen gaan.

Data scraping is in wezen een manier om gegevens van het ene systeem naar het andere over te dragen. Maar het verschilt van meer conventionele methoden voor gegevensoverdracht. Het belangrijkste verschil zit in de output. De ‘scraped data’ dienen niet als invoer voor een ander computerprogramma, maar zijn bedoeld voor weergave aan de eindgebruiker. Data scraping is daarom een ruwe techniek die alleen zal worden gebruikt als er geen andere manier is om gegevens uit een systeem te extraheren, zoals een besturingssysteem dat niet langer compatibel is met moderne hardware. De uitvoer is vaak erg ongestructureerd, omdat zaken als opmaak, binaire gegevens en andere aanvullende informatie niet kan worden overgedragen. Dit kan er zelfs voor zorgen dat programma’s crashen tijdens het data scraping.

Onderzoekers ontdekten recentelijk een database die circuleerde op hackerforums. In de database stonden de persoonlijke gegevens van meer liefst vijfhonderd miljoen Facebook-gebruikers. Niet veel later doken soortgelijke nieuwsberichten op over een datalek in de database van LinkedIn. Uit analyse van beide incidenten bleek dat hackers niet eens de servers van de sociale-mediaplatforms hoefden aan te vallen om de gegevens te bemachtigen. Ze maakten gebruik van een handige truc genaamd ‘data scraping’. Hoe werkt deze techniek en hoe groot is het gevaar van data scraping voor internetgebruikers?

Lees het volledige artikel op computable.nl

Ook interessant