스크래핑의 뜻, 웹 스크래핑이란?

오동통통너구리

·

2020. 11. 16. 07:44

반응형
728x170

스크래핑의 뜻, 스크래핑이란?

스크래핑(Scraping)이라는 단어를 들어보셨나요? 컴퓨터 업계에서 일하는 사람들에게는 '크롤링', '크롤러', '스크래핑'이라는 용어는 굉장히 익숙할 수 있지만, 일반적으로 많은 사람들은 이러한 용어를 들었을 때 머릿속에는 물음표로 가득 찹니다. 아마 스크래핑이라는 단어는 '뉴스 기사를 스크랩하다', '게시글들을 스크랩하다'처럼 사용될 때 한 번씩 보곤 했을 겁니다.

이번 포스팅에서는 데이터 작업에 익숙한 사람들이 많이 사용하는 용어인 '스크래핑'에 대해서 알아보는 시간을 갖도록 하겠습니다.

스크래핑이란?

스크래핑(Scraping)의 의미를 알아보기 전에 스크랩(Scrap)의 의미부터 알아보도록 할게요.

Scrap?
신문, 잡지 따위에서 필요한 글이나 사진을 오림. 또는 그런 것. '오려 모으기, '자료 모음'으로 순화 
(IT) 블로그, 게시판 등의 자료를 그대로 다른 곳에 게시하는 행위.

이처럼 스크랩(Scrap)이란 우리가 원하는 자료를 모으는 행위라고 이해하시면 됩니다. 그럼 스크래핑은 무엇일까요? 일반적으로 웹에서 사용되는 스크래핑은 웹 스크래핑이라고도 불리며 크롤링(Crawling)이라고도 불립니다. 스크래핑이란 웹사이트의 페이지를 그대로 가져와서 그 안에서 데이터를 추출하는 행위입니다. 우리가 원하는 정보를 가지고 있는 웹사이트에서 필요한 정보들을 쏙쏙 빼서 가져오는 것이죠.

예를 들어, 아래와 같은 Node.js에서 활용할 수 있는 크롤러인 Puppeteer라는 라이브러리를 통해 우리가 필요한 데이터의 원천인 웹 사이트로 접근해서 필요한 데이터를 쓱 긁어서 가져오는 프로그램을 만드는 것입니다.

우리가 필요한 데이터를 긁기 위해 사용할 수 있는 크롤링 라이브러리 Puppeteer

 

Google Cloud Functions와 Puppeteer 그리고 Cloud Scheduler를 활용해서 자동화 크롤러 개발하는 방법 (Node.js)

Google Cloud Functions와 Puppeteer을 활용해서 크롤링하는 방법을 익혀보고 더 나아가 Google Cloud Scheduler를 활용해서 크롤링 자동화까지 구현해보도록 하겠습니다. 해당 포스팅에서는 Google Cloud Functio..

webruden.tistory.com

프로그램을 통해 가져온 데이터를 우리가 필요한 곳에 활용하거나 하겠죠. 이렇게 '스크래핑' 기술을 활용해서 원하는 데이터를 추출한 뒤 자기 회사 서비스에 분석해서 사용한다던가, 통계를 내는데 사용하곤 할 것입니다. 

하지만 신문기사를 스크랩한 후 상업적인 용도로 사용했을 때 합법과 불법의 경계가 있는 만큼, 웹 스크래핑을 했을 때에도 합법과 불법의 경계는 존재합니다. 웹 스크래핑의 경우에도 무작정 긁어다가 재가공해서 자사 서비스에 사용할 수는 없습니다.

무작정 필요한 데이터를 긁어다가 재사용했다간 큰일나는수가 있다.

콘텐츠가 저작권으로 보호되는 데 스크래핑이 해당 서비스 약관을 위반한 경우에 제재가 있을 것이고, 그에 대한 IP벤 또는 법적 조치도 있을 것입니다.

마무리

이번 포스팅에서는 '웹 스크래핑'에 대해 알아봤는데요. '웹 스크래핑'의 개념은 우리가 익히 알고 있는 '신문기사를 스크랩하는 행위'와 굉장히 유사했던 것을 알 수 있었습니다. 우리가 필요한 정보를 '스크랩'하는 행위가 바로 '웹 스크래핑'이라고 기억하시면 쉽게 기억할 수 있을 것 같습니다.

하지만 뉴스기사를 스크랩하고 사용할 때 해당 뉴스기사에도 저작권과 보호받을 권리가 존재하는 것처럼, 우리가 필요한 데이터를 웹 스크래핑을 할 경우에도 해당 콘텐츠에 대한 저작권을 잘 살펴보고 스크래핑한 데이터를 어떻게 사용할지에 대해서 결정하는 것이 굉장히 중요한 포인트일 것 같습니다.

반응형
그리드형

💖 저자에게 암호화폐로 후원하기 💖

아이콘을 클릭하면 지갑 주소가자동으로 복사됩니다