0개의 서비스
크롤링·스크래핑
크롤링 자체가 불법은 아니지만, '어떤 데이터를', '어떻게', '무슨 목적으로' 수집하느냐에 따라 법적 문제가 발생할 수 있습니다. 예를 들어, 사이트의 이용약관에서 금지하고 있거나, 'robots.txt' 파일에서 수집을 거부한 정보를 무시하고 수집하는 행위, 그리고 개인정보를 무단으로 수집하거나, 수집한 데이터를 저작권자의 허락 없이 상업적으로 재판매하는 행위는 명백한 불법입니다. 합법적인 테두리 안에서만 작업을 진행해야 합니다.
기술적으로는 가능합니다. 제공해주신 아이디와 비밀번호를 이용하여 프로그램이 자동으로 로그인한 후, 로그인한 사용자에게만 보이는 정보를 수집할 수 있습니다. 다만, 이는 해당 사이트의 이용약관을 위반할 소지가 매우 높으므로, 반드시 사전에 사이트 정책을 확인하고 법적인 검토를 거친 후에 진행해야 합니다.
비용은 '수집할 사이트의 구조 복잡도'와'데이터의 양', '수집 주기'에 따라 결정됩니다. 구조가 단순한 하나의 사이트에서 특정 정보만 수집하는 것은 비교적 저렴합니다. 하지만 여러 사이트를 동시에 수집해야 하거나, 사이트의 보안(캡챠 등)이 복잡하여 이를 우회하는 기술이 필요하거나, 수집해야 할 데이터의 양이 수백만 건에 이르는 경우 비용과 기간이 크게 증가합니다.
차단을 막는 것은 크롤링 개발의 핵심적인 기술 과제입니다. 특정 사이트에 과도한 부하를 주지 않도록 깔끔하게 요청(Request) 속도를 조절하고, 프록시 서버를 활용하여 여러 IP 주소를 순환 사용하는 등 사이트의 차단을 회피하기 위한 다양한 기술적 노하우를 적용합니다. 그럼에도 불구하고 차단될 경우, 차단 원인을 분석하고 이를 우회하는 로직을 신속하게 업데이트합니다.
이럴 때는 '유지보수'가 필요합니다. 웹사이트가 업데이트되면, 기존에 데이터를 찾아가던 '경로'가 바뀌어 크롤러가 오류를 일으키기 때문입니다. 유지보수 계약을 통해, 이러한 사이트 구조 변경을 주기적으로 모니터링하고, 변경 발생 시 신속하게 크롤러 코드를 수정하여 데이터 수집이 중단되지 않도록 관리해야 합니다.