아름다운 수프 프로젝트는 스크린 스크래핑 같은 빠른 처리 프로젝트를 위해 설계된 파이썬 HTML / XML 파서입니다. 세 가지 기능은 강력합니다
당신이 그것을 나쁜 마크 업을 주면 아름다운 수프가 질식하지 않습니다. 그것은 원래 문서로 약 많은 의미가 파스 트리를 얻을 수 있습니다. 이것은 당신이 필요로하는 데이터를 수집하고 도망 할 정도로 일반적으로 좋은입니다.
문서를 해부하고 당신이 필요 추출하기위한 툴킷 : 아름다운 수프, 탐색, 검색 및 구문 분석 트리를 수정하기위한 몇 가지 간단한 방법과 파이썬 관용구를 제공합니다. 각 응용 프로그램에 대한 사용자 정의 파서를 만들 필요가 없습니다.
아름다운 수프가 자동으로 UTF-8 유니 코드 및 발신 문서에 들어오는 문서를 변환합니다. 당신은 문서 인코딩을 지정하지 않는 한, 인코딩에 대해 생각하지 않고 아름다운 수프 하나를 자동으로 감지 할 수 없습니다. 그럼 그냥 원래의 인코딩을 지정해야합니다.
아름다운 수프는 당신이 그것을 줄 것을 분석하고, 당신을위한 트리 탐색 물건을 수행합니다. 당신은 "모든 링크를 찾아"에게, 또는 "클래스 외부 링크의 모든 링크를 찾아"또는 "URL이 일치하는 모든 링크를 찾기"수 foo.com "또는"표가있어 굵은 텍스트를 제목 찾기, 다음주는 나 텍스트. "
한 번 제대로 디자인 된 웹 사이트에 잠겨 가치있는 데이터는 범위 내에서 지금이다. 시간이 걸렸을 것이다 프로젝트는 아름다운 수프 만 분 정도 걸릴
이 요구 사항 : 있습니다.
파이썬
댓글을 찾을 수 없습니다