공세 파이썬 100 % 기록되고 페이지 모니터링, 웹 검색 엔진에, 심지어 코드 테스트, 간단한 데이터 마이닝을 위해 이용 될 수있다.
Scrapy 단어의 진정한 의미에서의 검색 엔진은 아니지만 (인덱싱 부없이)처럼 작용한다. 그럼에도 불구하고 Scrapy는 당신의 검색 엔진 로직을 구축 할 수있는 좋은 도구가 될 수 있습니다.
이 프레임 워크의 진정한 힘은 Scrapy가 일반 또는 전용 검색 스파이더 (크롤러)을 구축 할 수있는 시스템 인, 핵심의 다양성에 의존하고있다.
이 문서 가능한 튜토리얼을 통해 빠른 표정으로, 비 기술적 인 사용자에게 매우 복잡한 들릴 수도 있지만, 그것은 Scrapy이에서 모든 하드 작업을 수행하고 전체 프로세스를 줄일 수있게되었다 방식을 볼 수 아주 간단합니다 그냥 (쉽게, 작은 크롤러) 몇 줄의 코드
이 릴리스의 새로운 기능 : 있습니다.
맺다 요청 경로 FTPClient에 전달하기 전에, 이미 경로를 탈출.
MANIFEST.in의 분포를 소싱하는 테스트를 포함 /.
버전 1.0.1의 새로운 기능 :
맺다 요청 경로 FTPClient에 전달하기 전에, 이미 경로를 탈출.
MANIFEST.in의 분포를 소싱하는 테스트를 포함 /.
버전 0.24.6의 새로운 기능 :
템플릿 UTF8 인코딩 헤더를 추가
텔넷 콘솔은 기본으로 127.0.0.1에 바인딩
업데이트 데비안 / 우분투는 설치 지시
lxml이 XPath를 평가 스마트 문자열을 사용하지 않도록 설정
HTTP 캐시 미들웨어에 대한 기본값으로 파일 시스템을 기반으로 캐시를 복원
Scrapy 쉘에서 현재 대형 노출
CSV 및 XML 수출을 비교의 테스트 툴을 향상
새로운 필터링 된 오프 사이트 / 오프 사이트 / 도메인 통계
CrawlSpider 발전기 등의 지원 process_links
버전 0.24.5의 새로운 기능 :
템플릿 UTF8 인코딩 헤더를 추가
텔넷 콘솔은 기본으로 127.0.0.1에 바인딩
업데이트 데비안 / 우분투는 설치 지시
lxml이 XPath를 평가 스마트 문자열을 사용하지 않도록 설정
HTTP 캐시 미들웨어에 대한 기본값으로 파일 시스템을 기반으로 캐시를 복원
Scrapy 쉘에서 현재 대형 노출
CSV 및 XML 수출을 비교의 테스트 툴을 향상
새로운 필터링 된 오프 사이트 / 오프 사이트 / 도메인 통계
CrawlSpider 발전기 등의 지원 process_links
버전 0.22.0의 새로운 기능 :
scrapy.spider.Spider에 scrapy.spider.BaseSpider 이름 바꾸기
정보 수준 설정 및 미들웨어에 시동 정보를 홍보
get_func_args의 백분율에 지원 파셜
독극물을 통해 indiviual 테스트를 실행 허용
링크 추출기에 의해 무시 확장 프로그램 업데이트
선택기는 기본적으로 EXSLT 네임 스페이스를 등록
이름 바꾸기 선택기 유사한 항목 로더로 통합
RFPDupeFilter 클래스는 쉽게 subclassable 확인
시험 범위 및 향후 파이썬 3 지원 개선
버전 0.20.1의 새로운 기능 :
include_package_data 게시 소스의 바퀴를 구축 할 필요가있다.
버전 0.18.4의 새로운 기능 :
쉘 명령 요청을 교체 AlreadyCalledError가 수정되었습니다.
고정 start_requests의 lazyness 조기 중단됩니다.
버전 0.18.1의 새로운 기능 : 체리 추가
이 제거 된 여분의 수입은 변화를 들었다.
트위스트 사전 11.0.0에서 테스트를 크롤링가 수정되었습니다.
py26 제로 길이 필드를 포맷 할 수 없습니다 {}.
언 바운드 응답에 시험 PotentiaDataLoss 오류.
좋은 반응과 같은 내용 길이 또는 전송 인코딩없이 응답을 취급합니다.
핸들러는 사용할 수 없습니다 http11 경우에는이 ResponseFailed 포함하지 않습니다.
요구 사항 :
파이썬 2.7 이상
2.5.0 이상 트위스트
libxml2를 2.6.28 이상
pyOpenSSL
댓글을 찾을 수 없습니다