Apache Tika

소프트웨어 스크린 샷:
Apache Tika
소프트웨어 정보:
버전: 1.4
업로드 날짜: 20 Feb 15
라이센스: 무료
인기: 6

Rating: nan/5 (Total Votes: 0)

아파치 티카 감지하고 파서 라이브러리를 전혀 사용하지 않지만 기존의 여러 문서에서 메타 데이터뿐만 아니라 구조화 된 텍스트 내용을 추출하기위한 오픈 소스 툴킷이다.
아파치 티카는 다음과 같은 문서 형식을 지원합니다 : 하이퍼 텍스트 마크 업 언어 (HTTP), XML 및 파생 형식, Microsoft Office 문서 형식, 오픈 도큐먼트 포맷 (ODF), PDF (Portable Document Format)로, 전자 출판 형식 (EPF), 서식있는 텍스트 (RTF를 ), 압축 및 포장 형식, 텍스트 / 오디오 / 이미지 / 비디오 포맷, mbox 형식 및 Java 클래스 파일 및 아카이브.
이전에는 아파치 티카는 아파치 루씬 소프트웨어 라이브러리의 하위 프로젝트였다. 지금은 아파치 소프트웨어 재단 (Apache Software Foundation)에 의해 독립형 패키지로 배포됩니다

이 릴리스의 새로운 기능입니다 무엇 : 있습니다.

거기에 잘못 선택 GPL 텍스트 테스트 HTML 파일을 제거 (티카 -1129).
티카 서버 개선은 텍스트 / HTML과 텍스트 / XML 컨텐츠 (티카-1126, 티카-1127)을 생성 할 수 있도록합니다.
개선 사실 (티카 - 1096)으로 설정 decompressConcatenated 옵션이 필요 g'zipped 파일을 처리하는 압축기 파서로 하였다.
AWK 파일 (티카-1081)의 탐지에서 방지 된 인쇄상의 오류가 해결 된.
제출 된 문서 (티카-1047)의 작은 부분을 기준으로 매체 유형을 감지 티카의 JAX-RS REST 서버에 새로운 엔드 포인트를 추가했습니다.
RTF는 : 정렬 및 정렬되지 않은 목록은 지금 (티카-1062)를 추출한다.
MP3 오디오 기간은 이제 추출 (티카-991)
자바 class 파일 : 자바 바이트 코드 (티카-1053) 구문 분석 ASM 4.1로 ASM 3.1에서 업그레이드.
MIME 형식 : 정의는 선택적으로 확장 몇 가지 일반적인 형식 (티카-1012 / 티카-1083)에 대한 세부 사항과 함께 링크 (URL)와 요로 감염을 포함
예외 때 Office 문서에서 요약 정보를 분석, OLE10 포함 된 문서를 구문 분석하고, TikaCLI에 포함 된 documennts을 저장할 때 지금 대신 추출을 중단의 로그인 (티카 - 1074)
MS 워드 : 라인 표 형식의 문자가 지금 줄 바꿈으로 대체 (티카 - 1128)
XML : ElementMetadataHandlers 지금 선택적으로 중복 및 빈 값 (티카-1133)를 받아 들일 수 있습니다.

이 요구 사항 :

이 J2SE (Java 2 Standard Edition)의 런타임 환경

개발자의 기타 소프트웨어 The Apache Software Foundation

Apache OFBiz
Apache OFBiz

2 Jun 15

Apache Hive
Apache Hive

19 Feb 15

Apache OpenNLP
Apache OpenNLP

20 Feb 15

코멘트 Apache Tika

댓글을 찾을 수 없습니다
코멘트를 추가
이미지를 켜십시오!