검색 크롤러 (거미) 다양한 정보를 그 내 웹 페이지를 서면으로 사용할 수 있습니다.
PHPCrawl 그것이 가져 오기 위해 구성된 정보를 획득하고 추가 처리를 위해 더 강력한 응용 프로그램에 전달
이 특징 : 있습니다.
URL 및 콘텐츠 형식 데이터에 대한 필터
쿠키를 처리하는 방법을 정의
robots.txt에 파일을 처리하는 방법을 정의
다양한 방법으로 활동을 제한
멀티 프로세싱 모드
이 릴리스의 새로운 기능입니다 무엇 :
이 수정 된 버그 :
부분적으로 URL 부분적으로 재 구축하지 아르 링크 / 올바르게 인코딩.
PHPCrawlerRobotsTxtParser.class.php에서 불필요한 디버그 위해서 var_dump ()를 제거
TLS / SSL에서 서버 이름 표시가 올바르게 작동합니다.
& quot;베이스 HREF 및 용어는 웹 사이트를 다시 올바르게 해석 얻을에 -tags.
이 버전 0.80 베타 버전의 새로운 기능 :
이 코드가 완전히 리팩토링하였습니다, PHP5-OO-코드를 포팅하고 많은 코드를 다시 작성했다.
웹 사이트를 거미하기 위해 사용하는 여러 프로세스를 사용하는 기능을 추가했습니다. 방법 & quot; goMultiProcessed () & quot; 추가.
새로운 재정의 방법 & quot; initChildProcess () & quot; 멀티 - 모드 프로세스에 크롤러를 사용할 때 자식 프로세스를 개시하기위한 추가.
가능 매우 큰 웹 사이트 거미 할 수있게 URL에 대한 대안, 내부 SQLite는 캐싱 메커니즘을 Implementet.
방법 & quot; setUrlCacheType () & quot; 추가.
새로운 방법 setWorkingDirectory ()는 임시 작업 디렉토리를 수동으로 크롤러의 위치를 정의하기위한 추가. 그 때문에 방법 & quot; setTmpFile () & quot; 되지 않는 것으로 표시됩니다 (더 이상 작동하지 않습니다).
새로운 방법 & quot; addContentTypeReceiveRule () & quot; 이전 방법 & quot을 대체합니다 addReceiveContentType () & quot ;.
기능 & quot; addReceiveContentType () & quot; 여전히 존재하지만되지 않는 것으로 표시했다.
이 요구 사항 :
이 PHP 5 이상
OpenSSL을 지원하는 PHP
댓글을 찾을 수 없습니다