Web Scraping
- 봇을 사용하여 웹 사이트에서 콘텐츠와 데이터를 추출하는 프로세스
- 기본 HTML 코드와 함께 데이터베이스에 저장된 데이터를 추출
웹 스크래핑과 웹 크롤링
- 웹 스크래핑과 웹 크롤링 모두 데이터를 활용하는 분야에서 데이터 수집을 할 때 사용하는 도구
- 웹 크롤러는 웹 페이지 내부 링크를 따라가며 인터넷을 체계적으로 검색하는 봇으로 자동화된 방법으로 웹 정보를 탐색
- 웹 스크래핑은 탐색보다는 수집에 가까우며, 특정 목적을 가지고 원하는 정보를 말 그대로 긁어오는 것을 뜻함
합법적인 봇 | 악성 봇 |
1. 합법적인 봇은 스크랩하는 조직으로 식별됨 예를 들어 Googlebot은 HTTP 헤더에서 자신을 Google에 속한 것으로 식별 2. 사이트의 robot.txt 파일을 준수 |
1. 거짓 HTTP 사용자 에이전트를 만들어 합법적인 트래픽을 가장함 2. 악성 스크래퍼는 사이트 운영자가 허용 한 내용에 관계없이 웹 사이트를 크롤링합니다. |
악성 웹 스크래핑 예
가격 스크래핑
- 스크레이퍼 봇을 사용해 경쟁사의 웹 사이트를 지속적으로 긁어내어 경쟁사 제품 가격을 알아내고, 이에 따라 자사 제품의 가격을 더 낮춰서 조정할 수 있음
컨텐츠 스크래핑
- 대규모의 컨텐츠를 탈취하여 스팸 및 이메일 사기에 이용
* 참고 : https://www.imperva.com/learn/application-security/web-scraping-attack/
'Security & IT terms' 카테고리의 다른 글
[Day 292] Framework, Library (0) | 2021.05.28 |
---|---|
[Day 289] Runtime (0) | 2021.05.25 |
[Day 263] Cyber Espionage(에스피오나지) (0) | 2021.04.29 |
[Day 260] Agile 개발 방식 (0) | 2021.04.26 |
[Day 258] NFT(Non Fungible Token, 대체 불가능 토큰) (0) | 2021.04.24 |