알쓸개잡 3탄 (Scrapy)
Scrapy란? Python으로 작성된 오픈 소스 웹 크롤링 프레임워크 입니다. 이 프레임워크는 웹 스크래핑을 위해 디자인 되어 있으며, Spider를 작성해서 크롤링을 합니다. Scrapy 설치 아래 명령어를 통해서 Scrapy를 설치합니다. 1 pip install scrapy Scrapy 프로젝트 생성 아래 명령어를 통해서 Scrapy 프로젝트를 생성할 수 있습니다. 1 scrapy startproject {project-name} 프로젝트를 생성하고 나면 Scrapy에서 자동으로 프로젝트 디렉토리가 생성이 되며, 기본 구조는 아래와 같습니다. 1 2 3 4 5 6 7 8 9 {project-name}/ ├── scrapy.cfg └── scraper ├── items.py ├── middlewares.py ├── pipelines.py ├── settings.py └── spiders └── __init__.py Spider Spider는 크롤링을 하는 방법, 페이지에서 구조화된 데이터를 추출하는 방법을 정의하는 클래스입니다. ...