Apache Tika 1.4

아파치 티카 감지하고 파서 라이브러리를 전혀 사용하지 않지만 기존의 여러 문서에서 메타 데이터뿐만 아니라 구조화 된 텍스트 내용을 추출하기위한 오픈 소스 툴킷이다.아파치 티카는 다음과 같은 문서 형식을 지원합니다 : 하이퍼 텍스트 마크 업 언어 (HTTP), XML 및 파생 형식, Microsoft Office 문서 형식, 오픈 도큐먼트 포맷 (ODF), PDF (Portable Document Format)로, 전자 출판 형식 (EPF), 서식있는...