PDFTextStream 프로젝트는 자바, 파이썬, 그리고 .NET에 사용할 수있는 PDF 텍스트 및 메타 데이터 추출 라이브러리입니다.
그것은 (아크로뱃 7에서 사용 V1.6 포함) PDF 문서 규격의 모든 버전을 지원, 40 비트 및 128의 암호 해독 (중국어, 일본어, 한국어 포함)에서 더블 바이트 문자 집합을 사용하여 인코딩 된 텍스트의 추출 비트 암호화 문서, (양식 데이터, 북마크, 주석 포함) PDF 문서에서 제공하는 모든 문서 메타 데이터의 추출.
자카르타 루씬과 쉽게 통합이 포함되어
이 릴리스의 새로운 것은 :.
이 버전은 PDFTextStream는 PDF 문서에서 텍스트를 추출 할 수 있도록 만든 수정의 다양한 포함 PDF 사양에 부적합.
또한 성능 향상의 다양한 포함되어 있습니다.
이 버전 2.3.0의 새로운 기능 :
이 캐릭터가 그려지는 취소 선이 있는지 여부를 나타내는, com.snowtide.pdf.TextUnit에 .isStruckThrough () 메소드를 추가했습니다.
포함 된 문자 매핑에 대한 PDFTextStream의 지원을 개선.
단어 사이에 공백의 계산은 제대로 명시 적으로 소스 PDF 문서로 인코딩 공백을 고려하여 수정되었습니다.
이전에 추출하는 동안 '무시'하고 PDF 내용의 일부 범위의 결과로 실패 할 수 있습니다 복합 콘텐츠 인코딩의 PDFTextStream의 처리 개선.
한 줄의 텍스트는 여러 줄에 걸쳐 분할 될 수 VisualOutputTarget의 버그를 수정
텍스트의 향상된 수직 정렬은 VisualOutputTarget를 사용하여 추출
향상된 밀접하게 인접 단어 사이에 가짜 추가 공백을 제거하기 위해 추출물을 VisualOutputTarget는 생산
2.2.5 버전의 새로운 기능 :
이 릴리스는 XML로 XFA 양식 데이터를 추출하기위한 지원을 추가합니다.
그것은 현저 VisualOutputTarget를 사용하여 텍스트의 추출 성능을 개선한다. 2GB보다 큰 PDF 문서를 지원합니다.
임베디드 타입 1 글꼴의 인코딩이 이전에 어떤 상황에서 제대로 적용되지 않은 버그에 대한 수정.
업데이트 된 PDF 문서에 새로운 내용이 종종 무시 된 문제에 대한 수정.
PDFDocEncoding 인코딩 북마크 및 메타 데이터가 제대로 디코딩되지 않은 문제에 대한 수정.
com.snowtide.pdf.Bookmark에 .getDestinationName () 메소드.
이 요구 사항 :
이 아파치 루씬
댓글을 찾을 수 없습니다