본문 바로가기
Security & IT terms

[Day 284] Web Scraping

by minimalist_2022 2021. 5. 20.

Web Scraping

  • 봇을 사용하여 웹 사이트에서 콘텐츠와 데이터를 추출하는 프로세스
  • 기본 HTML 코드와 함께 데이터베이스에 저장된 데이터를 추출

 

웹 스크래핑과 웹 크롤링

  • 웹 스크래핑과 웹 크롤링 모두 데이터를 활용하는 분야에서 데이터 수집을 할 때 사용하는 도구
  • 웹 크롤러는 웹 페이지 내부 링크를 따라가며 인터넷을 체계적으로 검색하는 봇으로 자동화된 방법으로 웹 정보를 탐색
  • 웹 스크래핑은 탐색보다는 수집에 가까우며, 특정 목적을 가지고 원하는 정보를 말 그대로 긁어오는 것을 뜻함
합법적인 봇 악성 봇
1. 합법적인 봇은 스크랩하는 조직으로 식별됨
예를 들어 Googlebot은 HTTP 헤더에서 자신을 Google에 속한 것으로 식별

2. 사이트의 robot.txt  파일을 준수
1. 거짓 HTTP 사용자 에이전트를 만들어 합법적인 트래픽을 가장함

2. 악성 스크래퍼는 사이트 운영자가 허용 한 내용에 관계없이 웹 사이트를 크롤링합니다.

 

악성 웹 스크래핑 예

가격 스크래핑

  • 스크레이퍼 봇을 사용해 경쟁사의 웹 사이트를 지속적으로 긁어내어 경쟁사 제품 가격을 알아내고, 이에 따라 자사 제품의 가격을 더 낮춰서 조정할 수 있음

컨텐츠 스크래핑

  • 대규모의 컨텐츠를 탈취하여 스팸 및 이메일 사기에 이용

 

* 참고 : https://www.imperva.com/learn/application-security/web-scraping-attack/

 

What Is Scraping | About Price & Web Scraping Tools | Imperva

Malicious web scraping is the extraction of data without permission of the website owner. Learn how to protect your content & revenue against web scraping tools

www.imperva.com