Apache Tika

소프트웨어 스크린 샷:
Apache Tika
소프트웨어 정보:
버전: 1.9 업데이트
업로드 날짜: 20 Jul 15
라이센스: 무료
인기: 89

Rating: 5.0/5 (Total Votes: 1)

아파치 티카는 다른 파일 내부의 컨텐츠를 검색하기위한 낮은 수준의 툴킷으로 개발되었다.
티카는 자체가 간단 라이브러리 인에 많이하지 않지만, 이는 완전한 기능의 파일의 검색 시스템을 제공하는 검색 엔진에 디지털 자산 관리 시스템 또는 CMS가 같은 더 강력한 도구에 통합 될 수있다.
라이브러리는 빠른 전체 파일 정보 단지 파일의 헤더를 액세스 할 수 있거나, 정말로 깊은 이동 텍스트 또는 바이너리 형식으로, 다양한 유형의 데이터에 대한 파일의 신체에도 검색 할 수있다.
다양한 유형의 파일을 지원하고 티카는 타사 바인딩과 래퍼의 일련의 다른 프로그래밍 언어 덕분에 사용할 수 있습니다

이 릴리스의 새로운 기능 :.

이 릴리스는 버그 수정과 새로운 Tesseract OCR 파서 등의 새로운 기능이 포함되어 있습니다; 새로운 GDAL 파서; 더 형식 및 티카 안정성 전반적인 개선을 지원했다.

버전 1.8의 새로운 기능 :

이 릴리스는 버그 수정과 새로운 Tesseract OCR 파서 등의 새로운 기능이 포함되어 있습니다; 새로운 GDAL 파서; 더 형식 및 티카 안정성 전반적인 개선을 지원했다.

1.7 버전의 새로운 기능 :

이 릴리스는 버그 수정과 새로운 Tesseract OCR 파서 등의 새로운 기능이 포함되어 있습니다; 새로운 GDAL 파서; 더 형식 및 티카 안정성 전반적인 개선을 지원했다.

이 릴리스는 버그 수정과 새로운 번역 API, 더 많은 지원되는 형식 및 티카 안정성 전반적인 개선 등의 새로운 기능이 포함되어 있습니다 :

버전 1.6의 새로운 기능입니다.
PDF 파일에 포함 된 파일 처리의 처리에

버그 수정 :

버전 1.5의 새로운 기능입니다.
자바, 그루비, C ++ 파일을 지원하기 위해 SourceCodeParser을 추가했습니다.
다중 / 폼 데이터 페이로드를 지원하기 위해 티카 서버 업데이트.
CXF 2.7.8로 업데이트 티카 서버.
티카 서버를 업데이트하는 와일드 카드 주소를 통해 요청을 수락합니다.
대체 NonSequentialPDFParser를 사용하는 옵션을 추가했습니다.
PDF로 AcroForms의 내용은 이제 추출된다.
PPT에서 마스터 슬라이드에서 고정 잘못된 별표.
PPT 및 PPTX에서 자동으로 날짜의 처리를 확인하기 위해 테스트 케이스를 추가했습니다.

버전 1.4의 새로운 기능 :

거기에 잘못 선택 GPL 텍스트 테스트 HTML 파일을 제거.
티카 서버 개선은 텍스트 / HTML과 텍스트 / XML 컨텐츠를 생성 할 수 있도록합니다.
개선 true로 설정 decompressConcatenated 옵션이 필요 g'zipped 파일을 처리하는 압축기 파서에 만들어졌다.
AWK 파일의 탐지에서 방지 된 인쇄상의 오류가 해결 된.

버전 1.2의 새로운 기능 :

는 아파치 티카 1.2 개선 및 버그 수정이 포함되어 있습니다.

버전 1.0의 새로운 기능 :

는 아파치 티카 1.0 개선 및 버그 수정이 포함되어 있습니다.

버전 0.9의 새로운 기능 :

이 릴리스는 몇 가지 중요한 버그 수정 및 새로운 기능이 포함되어 있습니다.

버전 0.8의 새로운 기능 :

언어 식별이 클래스 경로에서로드 설정 파일을 통해 관리, 동적으로 구성 할 수 있습니다.
티카는 이제 구문 분석은 기본 로마 라이브러리를 래핑하여 피드를 지원합니다.
티카 구문 분석에 대한 빠른 시작 가이드는 기여했다.
XHTML 특성 통해 배관에 대한 접근을 첨가 하였다.
주어진 입력 문서 파서 최상의 선택시 미디어 타입 계층 정보는 현재 고려된다.
netCDF의 및 HDF4 / 5를 포함한 공통 과학적인 데이터 형식을 구문 분석에 대한 지원이 추가되었습니다.
Windows 용 단위 테스트는 TestParsers 완료 할 수 있도록 수정되었습니다.

버전 0.7의 새로운 기능 :

MP3 파일을 구문 분석이 채널 및 SampleRate 추출 및 ID3v2는 지원을 포함하여, 개선되었다. 또한, 오디오 파싱 MIME 검출는 MIDI 포맷을 향상시켰다.
티카는 더 이상 RTF 구문 분석 기능을 X11에 의존하지 않습니다.
AutoDetectParser에서 스레드 안전 버그를 발견하고 해결했다.
PDFBox 1.0.0로 업그레이드합니다. 새로운 버전은 PDFBox PDF 파싱 성능을 개선하고, 텍스트 추출 문제들을 해결.

요구 사항 :

자바 6 이상

유사한 소프트웨어

Ya2YAML
Ya2YAML

12 May 15

SharpZipLib
SharpZipLib

28 Feb 15

Augment.js
Augment.js

5 Jun 15

Andro.js
Andro.js

14 May 15

개발자의 기타 소프트웨어 Apache Software Foundation

Apache JMeter
Apache JMeter

12 Apr 15

Apache Roller
Apache Roller

12 Apr 15

Apache ODF Toolkit
Apache ODF Toolkit

12 May 15

코멘트 Apache Tika

댓글을 찾을 수 없습니다
코멘트를 추가
이미지를 켜십시오!