스크래핑(Scraping)이라는 단어를 들어보셨나요? 컴퓨터 업계에서 일하는 사람들에게는 '크롤링', '크롤러', '스크래핑'이라는 용어는 굉장히 익숙할 수 있지만, 일반적으로 많은 사람들은 이러한 용어를 들었을 때 머릿속에는 물음표로 가득 찹니다. 아마 스크래핑이라는 단어는 '뉴스 기사를 스크랩하다', '게시글들을 스크랩하다'처럼 사용될 때 한 번씩 보곤 했을 겁니다.
이번 포스팅에서는 데이터 작업에 익숙한 사람들이 많이 사용하는 용어인 '스크래핑'에 대해서 알아보는 시간을 갖도록 하겠습니다.
스크래핑이란?
스크래핑(Scraping)의 의미를 알아보기 전에 스크랩(Scrap)의 의미부터 알아보도록 할게요.
Scrap?
신문, 잡지 따위에서 필요한 글이나 사진을 오림. 또는 그런 것. '오려 모으기, '자료 모음'으로 순화
(IT) 블로그, 게시판 등의 자료를 그대로 다른 곳에 게시하는 행위.
이처럼 스크랩(Scrap)이란 우리가 원하는 자료를 모으는 행위라고 이해하시면 됩니다. 그럼 스크래핑은 무엇일까요? 일반적으로 웹에서 사용되는 스크래핑은 웹 스크래핑이라고도 불리며 크롤링(Crawling)이라고도 불립니다. 스크래핑이란 웹사이트의 페이지를 그대로 가져와서 그 안에서 데이터를 추출하는 행위입니다. 우리가 원하는 정보를 가지고 있는 웹사이트에서 필요한 정보들을 쏙쏙 빼서 가져오는 것이죠.
예를 들어, 아래와 같은 Node.js에서 활용할 수 있는 크롤러인 Puppeteer라는 라이브러리를 통해 우리가 필요한 데이터의 원천인 웹 사이트로 접근해서 필요한 데이터를 쓱 긁어서 가져오는 프로그램을 만드는 것입니다.
프로그램을 통해 가져온 데이터를 우리가 필요한 곳에 활용하거나 하겠죠. 이렇게 '스크래핑' 기술을 활용해서 원하는 데이터를 추출한 뒤 자기 회사 서비스에 분석해서 사용한다던가, 통계를 내는데 사용하곤 할 것입니다.
하지만 신문기사를 스크랩한 후 상업적인 용도로 사용했을 때 합법과 불법의 경계가 있는 만큼, 웹 스크래핑을 했을 때에도 합법과 불법의 경계는 존재합니다. 웹 스크래핑의 경우에도 무작정 긁어다가 재가공해서 자사 서비스에 사용할 수는 없습니다.
콘텐츠가 저작권으로 보호되는 데 스크래핑이 해당 서비스 약관을 위반한 경우에 제재가 있을 것이고, 그에 대한 IP벤 또는 법적 조치도 있을 것입니다.
마무리
이번 포스팅에서는 '웹 스크래핑'에 대해 알아봤는데요. '웹 스크래핑'의 개념은 우리가 익히 알고 있는 '신문기사를 스크랩하는 행위'와 굉장히 유사했던 것을 알 수 있었습니다. 우리가 필요한 정보를 '스크랩'하는 행위가 바로 '웹 스크래핑'이라고 기억하시면 쉽게 기억할 수 있을 것 같습니다.
하지만 뉴스기사를 스크랩하고 사용할 때 해당 뉴스기사에도 저작권과 보호받을 권리가 존재하는 것처럼, 우리가 필요한 데이터를 웹 스크래핑을 할 경우에도 해당 콘텐츠에 대한 저작권을 잘 살펴보고 스크래핑한 데이터를 어떻게 사용할지에 대해서 결정하는 것이 굉장히 중요한 포인트일 것 같습니다.
'용어사전' 카테고리의 다른 글
아픈 손가락의 뜻, 의미, 아픈 손가락이란? (0) | 2020.11.20 |
---|---|
언더라이팅의 뜻, 언더라이팅이란? 자동차보험 언더라이팅 (0) | 2020.11.18 |
단통법의 뜻, 단통법이란? 단통법 폐지 시기 (1) | 2020.11.17 |
스노우볼(스노볼) 뜻, 스노우볼 효과, 스노우볼이란? (0) | 2020.11.17 |
특활비란?, 특활비(특수활동비) 뜻, 의미, 특수활동비란? (0) | 2020.11.16 |
이 포스팅은 쿠팡파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.