PDFMiner 먼저 PDF 파일의 내용을 복용 HTML과 같은 더 연성 형식으로 변환하여 작동한다.
거기에서, 텍스트 및 데이터를 추출하여 분석하고, 미리 정의 된 규칙을 분리하고, 사용자에게 제시하거나 다른보다 강력한 데이터 분석 도구로 전송에 기초한다.
텍스트 분석은 당신이 할 원하지 않으면, 당신은 쉽게 PDFMiner 단순히 추출 구성하거나 단지뿐만 아니라 PDF 파일로 데이터를 변환 할 수 있습니다.
그것의 기능은 여기에 넓은 사용 스펙트럼 덕분에 서로 개별적으로 작동하고 허용 할 수 있습니다
특징 : 있습니다.
100 % 파이썬 코드, 아니 C 또는 C ++
구문 분석 PDF 파일
PDF 파일을 분석
다른 형식으로 PDF 파일을 변환
목차 추출기
만 태그 콘텐츠를
텍스트 PDF 기능을 다수 지원
PDF 파일 내부 글꼴 종류의 많은 지원
기본 암호화 (RC4) 지원
이 릴리스의 새로운 기능입니다 :
PDFDocument.initialize () 메소드가 제거되고 더 이상 필요합니다. 암호는 PDFDocument 생성자의 인수로 제공됩니다.
버전 20110515 새로운 기능 :
API 변경.
LTPolygon 클래스는 LTCurve로 이름이 바뀌 었습니다.
버전 20110227의 새로운 기능 :
버그 수정 및 레이아웃 분석 개선.
버전 20101226 새로운 기능 :
버그 수정 및 사소한 개선의 커플.
버전 20101017 새로운 기능 :
버그 수정의 부부와 마이너 개선.
버전 20100424 새로운 기능 :
버그 수정 및 목차 추출에 작은 개선.
요구 사항 :
파이썬 2.4 최대 3
제한 사항 :
PDFMiner는 C / C ++보다 20 배 속도가 느려질 수 있습니다 - 기반 소프트웨어.
댓글을 찾을 수 없습니다