Apache Lucene

소프트웨어 스크린 샷:
Apache Lucene
소프트웨어 정보:
버전: 5.3.1 / 4.10.4 / 3.6.2 업데이트
업로드 날짜: 10 Dec 15
라이센스: 무료
인기: 241

Rating: nan/5 (Total Votes: 0)

을 아파치 루씬도 아래로 서버 자원의 소비를 유지하고 고속 및 고정밀도 결과를 생산하면서 을, 전체 텍스트 검색에 대한 지원을 필요로하는 애플리케이션에 적합하다.

루씬 널리 다른 많은 검색 도구의 핵심 인, 주위에 최고의 검색 엔진 중 하나로 간주됩니다, 가장 유명한 존재의 아파치 SOLR .

루씬 자바와 아파치 재단에 의해 발표 된 이후로 작성, 그것은 많은 다른 언어로 포팅 및 타사 소프트웨어를 개발 등 다양한 바인딩과 래퍼가 존재하고있다.

<강한>이 릴리스의 를 새로운 기능 :

  • 모든 파일 액세스가 지금 사용하는 더 나은 오류 처리의 관점에서 루씬에게 강한 색인 안전을 제공 자바의 NIO.2 API와 안전 커밋.
    <리> 모든 루씬 세그먼트는 이제 고유 한 ID 세그먼트 별 및 인덱스 파일의 정확한 복제에 도움을 당 위탁 저장합니다.
    <리> 병합하는 동안, IndexWriter 이제 항상 병합하기 전에 부패에 대한 들어오는 세그먼트를 확인합니다. 이 5.0.0로 업그레이드에, 그 병합이 오랜 이전 4.x의 인덱스에 잠재적 인 손상을 발견 할 수있다, 의미 할 수있다.

버전의 새로운 무엇 5.2.1 / 4.10.4 / 3.6.2 :

  • 모든 파일 액세스는 이제 더 나은 오류 처리 및 안전 커밋의 관점에서 루씬에게 강한 색인 안전을 제공 자바의 NIO.2 API를 사용합니다.
    <리> 모든 루씬 세그먼트는 이제 고유 한 ID 세그먼트 별 및 인덱스 파일의 정확한 복제에 도움을 당 위탁 저장합니다.
    <리> 병합하는 동안, IndexWriter 이제 항상 병합하기 전에 부패에 대한 들어오는 세그먼트를 확인합니다. 이 5.0.0로 업그레이드에, 그 병합이 오랜 이전 4.x의 인덱스에 잠재적 인 손상을 발견 할 수있다, 의미 할 수있다.

버전의 새로운 무엇 5.1.0 / 4.10.4 / 3.6.2 :

  • 모든 파일 액세스는 이제 더 나은 오류 처리 및 안전 커밋의 관점에서 루씬에게 강한 색인 안전을 제공 자바의 NIO.2 API를 사용합니다.
    <리> 모든 루씬 세그먼트는 이제 고유 한 ID 세그먼트 별 및 인덱스 파일의 정확한 복제에 도움을 당 위탁 저장합니다.
    <리> 병합하는 동안, IndexWriter 이제 항상 병합하기 전에 부패에 대한 들어오는 세그먼트를 확인합니다. 이 5.0.0로 업그레이드에, 그 병합이 오랜 이전 4.x의 인덱스에 잠재적 인 손상을 발견 할 수있다, 의미 할 수있다.

을 5.0.0 / 4.10.3 / 3.6.2 버전의 새로운 무엇 :

  • 새로운 용어 .getMin / 최대 방법은 필드 당 최저 및 최고 용어를 검색합니다.
    ID 당 일정하게 증가하는 버전을 연결 ID 조회에 최적화 된
  • 새 IDVersionPostingsFormat.
  • 문서의 집합의 원자 업데이트는 필드 값.
  • DOC 값 검색시 성능을 위해 다양한 최적화.
  • 새 (기본값) Lucene49NormsFormat 더 같은 매우 짧은 필드로 특정 경우를 압축합니다.
  • 다중 값 숫자 필드의 효율적인 처리를위한 새로운 SORTED_NUMERIC docvalues​​ 유형입니다.
    <리> 인덱서 쉽게 재사용을 위해 이전 토큰 스트림을 전달합니다.
    <리> MoreLikeThis 필드에 여러 값을 받아들입니다.
    <리> 자신의 RAM 사용량을 추정 모든 클래스는 이제 새로운 책임있는 인터페이스를 구현합니다.
  • 가 루씬 파일이 이제 완전히 단순화 된 IO API를 추구하는 것을 허용하지 않는, 모든 플랫폼에서 (파일)의 OutputStream으로 기록됩니다.
  • MMapDirectory 새로운 맵을 생성 할 수 없을 때 혼란 오류 메시지를 향상시킬 수 있습니다.

을 버전 4.8.0의 새로운 무엇 :

  • 루씬 새로운 Rescorer / QueryRescorer API를 가지고하는 수행 제 통과 히트 컬렉션 후 고가 스코어링 함수를 사용하여 초 - 패스 rescoring 또는 검색 결과의 순위 매김.
    <리> AnalyzingInfixSuggester 이제 거의 실시간 자동으로 권장을 지원한다.
  • 단순화 충격 분류 게시물 정렬 순서를 표현하는 루씬의 정렬 클래스를 사용하는 (SortingMergePolicy과 EarlyTerminatingCollector 사용).
  • 대량 득점 정상 반복자 기반 득점을 분리하고, 그래서 일부 쿼리는보다 효율적으로 대량 득점을 할 수 있습니다.
    <리> 색인시에 조건을 해시 MurmurHash3로 전환.
    <리> IndexWriter 지금 바이너리 문서 값 필드의 업데이트를 지원합니다.
    <리> HunspellStemFilter 이제 적은 RAM을 100 배 (10)를 사용합니다. 또한 오류가없이 모든 알려진 오픈 오피스 사전을로드합니다.
    운영 체제 및 파일 시스템을 (리눅스,에서라도이 작동하는 것으로 알려진) 수 있다면 <리> 루씬 해주기 또한, 커밋에 메타 데이터를 디렉토리 fsyncs.
    인덱스 파일을 Windows에서 삭제 될 수 있습니다 <리> 루씬 지금 독자가 열려있는 경우에도, 후드 자바 7 파일 시스템 기능을 사용합니다.
    <리> NativeFSLockFactory에 심각한 버그가 여러 IndexWriters이 같은 락의 취득을 허용 할 수있는 수정되었습니다. 로크 파일 잠금이 유지되지 않은 경우에도 디렉토리 색인에서 삭제 더이상.

을 버전 4.7.0의 새로운 무엇 :

  • 문자열 (SortField.STRING)에 의해 정렬 할 때, 당신이 지금없는 값이 첫 번째 (기본), 또는 마지막 정렬할지 여부를 지정할 수 있습니다.
    마지막 가까이에 삭제가 없거나 참조 의미 동안 삭제할 수 없습니다
  • 파일 시스템에 대한 NRT를 지원합니다.
  • 추가 LongBitSet 이상 2.1B 비트를 관리하기위한 (그렇지 않으면 사용 FixedBitSet).
  • 쿠르드어에 대한 추가 분석.
  • 추가 된 페이로드 FileDictionary (제안)에 대한 지원이 더 구성합니다.
    <리> AnalyzingInfixSuggester 비슷하지만 낮은 위치에 토큰을 일치하는 제안을 향상 새로운 BlendedInfixSuggester을, 추가되었습니다.
  • 추가 SimpleQueryParser :. 사람이 입력 한 쿼리 파서
  • PostingsHighlighter에 추가 된 multitermquery (와일드 카드, 접두사, 등).

<강한>는 어떤 버전 4.6.0에서 새로운

  • 없이 NumericDocValues​​ 필드 업데이트에 대한 지원이 추가 (재 IndexWriter.updateNumericDocValue을 통해 문서를) 색인 (기간, 문자열, 긴).
    긴 꼬리 & quot;
  • 새 FreeTextSuggester는 quot 및 유용 간단 Ngram의 언어 모델을 사용하여 다음 단어를 예측할 수있다; 제안.
    <리> 새로운 표현 모듈은 스크립트와 같은 구문을 사용하여 순위 커스터마이즈 된 수 있습니다.
  • 압축 자바 네이티브 배열로 힙에있는 모든 문서 값을 저장할 수있는 새로운 DirectDocValues​​Format.
    주어진 필드가 당 문서 색인 경우
  • Term.hasFreqs 지금 확인할 수 있습니다
  • 용어 주파수.

<강한>는 어떤 버전 4.5.0에서 새로운

  • 새 메모리 DocIdSet 구현이있는 특히 더 작은 세트에 FixedBitSet 이상 :. WAH8DocIdSet, PFORDeltaDocIdSet 및 EliasFanoDocIdSet
  • CachingWrapperFilter 이제 최악의 경우 FixedBitSet와 같은 메모리 사용량을 가지고 있지만 작은 세트에 작고 빠른 기본적으로 WAH8DocIdSet와 필터를 캐시합니다.
  • TokenStreams 이제 끝 ()에서의 위치 증분을 설정, 그래서 우리는 구멍을 후행 처리 할 수​​ 있습니다.
    <리> IndexWriter가 더 이상 주어진 IndexWriterConfig 클론하지 않습니다.
    4.4 릴리스 이후
  • 각종 버그 수정 및 최적화.

    <강한>는 어떤 버전 4.4.0에서 새로운

    • 새 플리 모듈 : 서버 사이에 인덱스 개정을 복제하고 클라이언트.
    • 새 AnalyzingInfixSuggester이 :. 제안의 모든 토큰 일치를 기반으로 제안을 발견, 그냥 순수 접두사 일치를 기반으로하지
    • 새 PatternCaptureGroupTokenFilter :. 여러 토큰 하나 이상의 자바 정규 표현식에 각 캡처 그룹을 방출
    • 새 루씬 패싯 모듈.

    <강한>는 어떤 버전 4.3.0에서 새로운

    • 새 SearcherTaxonomyManager가 관리하는 거의 실시간으로 다시 태어난다 IndexSearcher 및 (패 시팅을위한) TaxonomyReader. 모두
    • 은 별도의 분류 색인없이 계산 SortedSetDocValues​​Field를 사용하여면을 계산하기 위해면 모듈에 새로운면 방법을 추가했습니다.
      때문에 최대 4000 % 더 빠른 쿼리의 결과로 건너 뛰는에 minShouldMatch BooleanQuery에 대한
    • 상당한 성능 향상.
      4.2.1 릴리스 이후
    • 각종 버그 수정 및 최적화.

    <강한>는 어떤 버전 4.1.0에서 새로운

    • 모든 필드 (파일을 작성할 때 루씬은 더 이상 추구 ) 추가 전용 방식으로 기록됩니다. 이것은 APPEND 전용 스트림 기본적, HDFS, 등 에 의해 작동을 의미합니다
    • 새로운 구현을 제안한다 제안에 사용 (루씬 분석기로부터 계산) 기본 양식을 추가로 입력에 부정확 한 일치를 허용 반환 된 텍스트와 FuzzySuggester, 별도로 AnalyzingSuggester을, .
    • 근 실시간 지원 패싯 모듈에 첨가 하였다.
      <리> 새 형광펜 (postingshighlighter)는 하이 라이터 모듈에 추가됩니다.
    • 필터링 된 쿼리 실행에 더 많은 유연성을 FilteredQuery에 추가 FilterStrategy.
    • 추가 CommonTermsQuery 매우 매우 자주 조건에 쿼리를 가속화한다. 용어 주파수를 효율적으로 쿼리시에 발견되지 -. 준비가 필요한 인덱스 시간을
      4.0 릴리스 이후
    • 여러 버그 수정 및 최적화.

    <강한> 버전 4.0 알파의 새로운 무엇 :

    • 용어 색인 형식, 게시물 목록 저장 필드, 용어
    • 벡터 등은 코덱 API를 통해 플러그 가능합니다. 당신은 제공된 구현에서 선택하거나 사용자의 요구를 충족하기 위해 자신의 코덱으로 인덱스 형식을 사용자 정의 할 수 있습니다.
      검색하는 동안 필터를 사용하여
    • 실질적으로 더 빠른 성능을 제공합니다.
    • 파일 시스템 기반의 디렉토리가 병합 및 스레드를 검색 사이의 입출력 경합을 줄이기 위해 병합 스레드의 IO (MB / 초) 제한을 평가할 수 있습니다.
      <리> FuzzyQuery 과거 버전보다 100 ~ 200 배 빠른 속도입니다.
    • 새로운 맞춤법 검사기, DirectSpellChecker이 가능 정정을 발견
    • 직접 별도의 인덱스를 필요로하지 않고 주요 검색 색인에 대한.

    을 버전 3.6.0의 새로운 무엇 :

    • 자바 5와 자바 6,이 외에도 릴리스는 현재 전체 자바 7 지원 (최소의 JDK 7u1 필요)하고있다.
    • TypeTokenFilter 필터 토큰 그들의 TypeAttribute을 기반으로.
    • 강조하는 동안 예외로 이어질 수 CharFilters, Tokenizers 및 TokenFilters의 수가 고정 된 오프셋 버그.
    • 추가 된 음성 인코더 : 등 메타 폰, 사운 덱스 Caverphone, Beider - 모스, .
    • CJKBigramFilter과 CJKWidthFilter는 CJKTokenizer를 교체합니다.
      <리> Kuromoji 형태 분석기는 화합물 단어와 자신의 분할을 모두 생산, 일본어 텍스트를 토큰 화.
    • 정적 색인 치기 (카멜 치기가) 낮은 내-문서 용어 주파수 게시물을 제거합니다.
      범위 쿼리 개방 단으로
    • QueryParser 지금 해석 '*'.
      <리> FieldValueFilter 지정된 필드 누락 문서를 제외한다.
    • CheckIndex 및 IndexUpgrader는 새 -dir-IMPL 명령 줄 옵션과 함께 사용할 수있는 특정 FSDirectory 구현을 지정할 수 있습니다.
    • FSTs 지금은 어떤 경우에 (산출) 역방향 조회를 할 수 있으며, 자신의 크기를 줄이기 위해 포장 할 수 있습니다. FST에서 시작 노드로부터 상위 N 최단 경로를 검색하는 방법이 현재 존재한다.
      <리> 새 WFSTCompletionLookup의 SUGGESTER가 지원하는 세분화 된 제안 순위.
      제안을 미리 정렬 할 때
    • FST 기반 suggesters 이제 오프라인 (디스크 기반) 종류, 대신 메모리 종류를 사용합니다.
      <리> ToChildBlockJoinQuery는 (하위 문서에 아래로 부모를) 반대 방향으로 결합한다.
    • 새 쿼리 시간에 합류 색인 시간 조인보다 더 유연 (미만 확대됨)입니다.
      <리> 추가 HTMLStripCharFilter는 HTML 태그를 제거합니다.

    을 버전 3.5.0의 새로운 무엇 :

    • 추가 매우 실질적인 (3 ~ 5 배) RAM 감소 IndexReader 열기에 대한 용어 색인을 유지하는 데 필요한.
      깊은 페이징 사용 사례를 지원하기 위해 지정된 ScoreDoc (이전 페이지에서 예를 들어, 마지막 문서) 후 결과를 반환
    • 추가 IndexSearcher.searchAfter.
    • 추가 SearcherManager은 여러 검색 스레드에서 공유 및 재개 IndexSearchers을 관리 할 수​​ 있습니다. 더 이상 참조하지 않을 경우 기본 IndexReader 인스턴스가 안전하게 닫혀있다.
      안전하게 여러 개의 요청 전반 인덱스 (예를 들어, 페이징 / 드릴 다운)의 일관된보기를 제공
    • 추가 SearcherLifetimeManager.
      이 끔찍하게 비용이 많이 드는 거의 더 이상 정당화하지 않기 때문에 IndexWriter.optimize 상호 변경
    • 이 방법의 사용을 억제하는 forceMerge합니다.

    <강한>는 어떤 버전 3.3.0에서 새로운

    • 맞춤법 검사기 모듈은 지금 / 자동 완성 제안 포함 세 가지 구현과 기능 :. Jaspell, 삼항 트리는 및 유한 상태
    • 모두 & quot를 들어, 여러 파편의 결과를 병합에 대한 지원 정상 & quot; 검색 결과 (TopDocs.merge)뿐만 아니라 그룹화 모듈 (SearchGroup.merge, TopGroups.merge 참조).하여 그룹화 결과
    • KStem, 영어 덜 공격적 형태소 분석기의 최적화 된 구현입니다.
      구현을 그룹화
    • 싱글 패스 블록 문서 색인을 기반으로.
    • MMapDirectory 개선 (현재 64 비트 리눅스에서 FSDirectory.open에 의해 반환 기본 구현).
    • NRTManager 간단하게 처리 실시간에 가까운 여러 검색 스레드 검색, 수 있도록 표시해야하는 색인​​ 변경 제어 할 수있는 응용 프로그램이있는 검색 요청.
    • TwoPhaseCommitTool 다중 자원 IndexWriter 포함, 커밋 두-단계적으로 수행하기 용이하게한다.
    • 기본 병합 정책, TieredMergePolicy, 그것은 삭제와 세그먼트를 대상으로하는 방법을 적극적으로 제어 할 수있는 새로운 방법 (세트 / getReclaimDeletesWeight)을 가지고 있으며, 기본적으로 지금은 이전보다 더 공격적이다.
      <리> PKIndexSplitter 도구는 중간 지점 용어로 색인을 분할합니다.

    을 버전 3.2.0의 새로운 무엇 :

    • 새로운 그룹 모듈, 루씬 아래에 /있는 contrib / 그룹, 수 검색 결과는 단일 값 인덱스 필드로 그룹화합니다.
      <리> 새로운 IndexUpgrader 도구를 완벽하게 현재의 형식으로 이전 인덱스로 변환합니다.
    • 새로운 디렉토리 구현, NRTCachingDirectory는, NRT 요금을 다시 빨리와 응용 프로그램에 대한 I / O 부하를 줄이기 위해, RAM에 작은 세그먼트를 캐시합니다.
    • 새 수집기 구현, CachingCollector은 (선택적으로 문서 ID 및 점수) 검색 안타를 수집 한 다음를 재생 할 수 있습니다. 이 결과를 생성하기 위해 두 개 이상의 패스를 필요 수집기에 유용하다.
    • 색인 IndexWriter의 새로운 addDocuments 또는 updateDocuments 방법을 사용하여 문서 블록. 이 실험 API는 문서의 블록 영원히 흥미로운 미래를 활성화하면 그룹화 같은 기능과 조인, 색인에 연속 남아 있는지 확인하십시오.
      때문에 비 연속 세그먼트를 병합 할 수있는 것이 더 효율적이다
    • 새로운 기본 병합 정책, TieredMergePolicy.
      <리> NumericField 지금 당신이 저장된 문서를로드 할 때 제대로 반환됩니다 (이전에는 숫자 값으로 변환 문자열로, 다시 정상이 필드를 받았다).

    을 버전 3.1.0의 새로운 무엇 :.

    • ConstantScoreQuery 이제 직접 쿼리를 <포장 허용 / 리>
    • IndexWriter는 이제 새로운 별도의 빌더 API, IndexWriterConfig로 구성되어 있습니다. 이제 setMaxThreadStates를 호출하여 IndexWriter의 이전에 고정 된 내부 스레드 제한을 제어 할 수 있습니다.
    • IndexWriter.getReader은 IndexReader.open (IndexWriter)로 대체됩니다. 또한 당신은 지금 당신이 NRT 리더를 열 때 삭제가 해결해야하는지 여부를 지정할 수 있습니다.
    • 는 MultiSearcher는 사용되지 않습니다; ParallelMultiSearcher가 IndexSearcher에 직접 흡수되고있다.
      64 비트 윈도우와 솔라리스의 JVM에서 <리>, MMapDirectory은 (FSDirectory.open에 의해 반환) 기본 구현 지금이다. JVM이 지원하는 경우 MMapDirectory 또한 매핑 해제 할 수 있습니다.
      <리> 새 TotalHitCountCollector는 히트의 총 수를 계산합니다.
      세그먼트가 완료되면 <리> ReaderFinishedListener API는 항목을 축출하기 위해 외부 캐시를 할 수 있습니다.

    을 버전 3.0.1의 새로운 무엇 :.

      FuzzyTermEnum에서 불필요한 동기화를 제거
      삭제 된 용어를 해석 할 때 <리>, 성능 향상을 위해 장기 정렬 순서에 이렇게.
      <리> 잘못 IndexWriter.infoStream이 켜져 같은 엄청난 용어에 대해 경고 보관하지 마십시오.
    • 하나의 페이로드가있는 경우 최소 / MaxPayloadFunction는 0을 돌려 고정합니다.
    • 쿼리 모두 0 부스트 조항으로 구성 (예를 들어, 텍스트 : foo는 ^ 0) 잘못 분류 무효의 DocID 생산 .
    • FuzzyQuery에서 보호 된 내부 클래스 ScoreTerm 제거. 이 클래스의 비교기는 호환되지 않는 방식으로 변경했기 때문에 변화가 필요했다. 클래스가 공개하도록 구성되지 않았습니다.

    <강한> 버전 2.9.2에서 를 새로운 기능 :

    • BooleanQuery는 그 해시 코드에 disableCoord 무시 된 방법과 동일 BooleanQueries를 캐싱 할 때, 나쁜 일이 발생하는 원인이된다.
      <리> 잘못 IndexWriter.infoStream이 켜져 같은 엄청난 용어에 대해 경고 보관하지 마십시오.
      높은 인덱싱 속도로 <리>, NRT 리더가 일시적으로 삭제를 잃을 수 있습니다.

    을 버전 3.0.0의 새로운 무엇 :

    • SegmentReader 클래스 구현을 설정할 수있는 시스템 속성을 제거.
    • IndexCommit에 IndexCommitPoint에서 SnapshotDeletionPolicy 번호 스냅 샷 ()의 변경 반환 형식. 이 방법을 사용하는 코드가 작동하기 위해 루씬 3.0에 대해 다시 컴파일 할 필요가있다. 이전에 사용되지 IndexCommitPoint도 제거된다.
    • 모든 기본 속성에 대한 토큰의 인스턴스를 생성하는 편리한 AttributeFactory을 제공한다.
      <리> NumericRangeTermEnum에서 재귀를 제거합니다.
    • FuzzyQuery에 최적화 Levenshtein 거리 계산.

  • 유사한 소프트웨어

    anysearch.js
    anysearch.js

    13 May 15

    solrpy
    solrpy

    12 May 15

    Zoie
    Zoie

    13 May 15

    Structured Filter
    Structured Filter

    10 Dec 15

    개발자의 기타 소프트웨어 Apache Software Foundation

    Apache Wave
    Apache Wave

    13 Apr 15

    Apache log4php
    Apache log4php

    6 Jun 15

    Apache POI
    Apache POI

    6 Mar 16

    Apache CXF
    Apache CXF

    9 Feb 16

    코멘트 Apache Lucene

    댓글을 찾을 수 없습니다
    코멘트를 추가
    이미지를 켜십시오!
    카테고리별로 검색