구조화되지 않은 데이터를 처리
많은 응용 프로그램 포맷 또는 마크 업 문서의 텍스트 내용에 대한 액세스를 필요로합니다. 문서를 보관하는 조직은 종종 문서를 검색 할 수 있도록하고 문서 아카이브의 콘텐츠 집계,보고 및 채광을 사용하려면 텍스트 콘텐츠에 대한 액세스를 필요로합니다. 검색 및 검색 응용 프로그램은 또한 추출하고 다양한 파일 형식에서 텍스트를 토큰 화 할 필요가있다.
액세스 및 문서에서 텍스트를 추출하는 한 표준기구는 마이크로 소프트의 검색 엔진에 사용되는 IFilter를 플러그인 인터페이스에 의해 제공됩니다. 다양한 파일 포맷을 다루 MS와 다른 벤더에 의해 개발 된 몇 IFilter를 구현이있다. 표준 또는 신뢰성 및 텍스트 추출 품질 여러 IFilter를 개발자에 걸쳐 변화한다.
Opait 텍스트 필터는 이미 호스트 컴퓨터뿐만 아니라 기본 IFilter를 구현에 파일 형식으로 직접 작업 개선 몇 가지 사용자 정의 텍스트 추출 필터에 설치되어있는 IFilter에 대한 간단한 인터페이스와 작은 유틸리티 프로그램입니다.
텍스트를 추출하는 인터페이스를 포함하고 .NET 애플리케이션에 텍스트 필터를 통합 할 수있는 작은 클래스 라이브러리 호출 Opait.Filters 의해 제공된다
요구 :.
.NET 프레임 워크 4.5
댓글을 찾을 수 없습니다