Apache Lucene

소프트웨어 스크린 샷:
Apache Lucene
소프트웨어 정보:
버전: 5.3.1 / 4.10.4 / 3.6.2 업데이트
업로드 날짜: 10 Dec 15
라이센스: 무료
인기: 241

Rating: nan/5 (Total Votes: 0)

을 아파치 루씬도 아래로 서버 자원의 소비를 유지하고 고속 및 고정밀도 결과를 생산하면서 을, 전체 텍스트 검색에 대한 지원을 필요로하는 애플리케이션에 적합하다.

루씬 널리 다른 많은 검색 도구의 핵심 인, 주위에 최고의 검색 엔진 중 하나로 간주됩니다, 가장 유명한 존재의 아파치 SOLR .

루씬 자바와 아파치 재단에 의해 발표 된 이후로 작성, 그것은 많은 다른 언어로 포팅 및 타사 소프트웨어를 개발 등 다양한 바인딩과 래퍼가 존재하고있다.

<강한>이 릴리스의 를 새로운 기능 :

  • 모든 파일 액세스가 지금 사용하는 더 나은 오류 처리의 관점에서 루씬에게 강한 색인 안전을 제공 자바의 NIO.2 API와 안전 커밋.
    <리> 모든 루씬 세그먼트는 이제 고유 한 ID 세그먼트 별 및 인덱스 파일의 정확한 복제에 도움을 당 위탁 저장합니다.
    <리> 병합하는 동안, IndexWriter 이제 항상 병합하기 전에 부패에 대한 들어오는 세그먼트를 확인합니다. 이 5.0.0로 업그레이드에, 그 병합이 오랜 이전 4.x의 인덱스에 잠재적 인 손상을 발견 할 수있다, 의미 할 수있다.

버전의 새로운 무엇 5.2.1 / 4.10.4 / 3.6.2 :

  • 모든 파일 액세스는 이제 더 나은 오류 처리 및 안전 커밋의 관점에서 루씬에게 강한 색인 안전을 제공 자바의 NIO.2 API를 사용합니다.
    <리> 모든 루씬 세그먼트는 이제 고유 한 ID 세그먼트 별 및 인덱스 파일의 정확한 복제에 도움을 당 위탁 저장합니다.
    <리> 병합하는 동안, IndexWriter 이제 항상 병합하기 전에 부패에 대한 들어오는 세그먼트를 확인합니다. 이 5.0.0로 업그레이드에, 그 병합이 오랜 이전 4.x의 인덱스에 잠재적 인 손상을 발견 할 수있다, 의미 할 수있다.

버전의 새로운 무엇 5.1.0 / 4.10.4 / 3.6.2 :

  • 모든 파일 액세스는 이제 더 나은 오류 처리 및 안전 커밋의 관점에서 루씬에게 강한 색인 안전을 제공 자바의 NIO.2 API를 사용합니다.
    <리> 모든 루씬 세그먼트는 이제 고유 한 ID 세그먼트 별 및 인덱스 파일의 정확한 복제에 도움을 당 위탁 저장합니다.
    <리> 병합하는 동안, IndexWriter 이제 항상 병합하기 전에 부패에 대한 들어오는 세그먼트를 확인합니다. 이 5.0.0로 업그레이드에, 그 병합이 오랜 이전 4.x의 인덱스에 잠재적 인 손상을 발견 할 수있다, 의미 할 수있다.

을 5.0.0 / 4.10.3 / 3.6.2 버전의 새로운 무엇 :

  • 새로운 용어 .getMin / 최대 방법은 필드 당 최저 및 최고 용어를 검색합니다.
    ID 당 일정하게 증가하는 버전을 연결 ID 조회에 최적화 된
  • 새 IDVersionPostingsFormat.
  • 문서의 집합의 원자 업데이트는 필드 값.
  • DOC 값 검색시 성능을 위해 다양한 최적화.
  • 새 (기본값) Lucene49NormsFormat 더 같은 매우 짧은 필드로 특정 경우를 압축합니다.
  • 다중 값 숫자 필드의 효율적인 처리를위한 새로운 SORTED_NUMERIC docvalues​​ 유형입니다.
    <리> 인덱서 쉽게 재사용을 위해 이전 토큰 스트림을 전달합니다.
    <리> MoreLikeThis 필드에 여러 값을 받아들입니다.
    <리> 자신의 RAM 사용량을 추정 모든 클래스는 이제 새로운 책임있는 인터페이스를 구현합니다.
  • 가 루씬 파일이 이제 완전히 단순화 된 IO API를 추구하는 것을 허용하지 않는, 모든 플랫폼에서 (파일)의 OutputStream으로 기록됩니다.
  • MMapDirectory 새로운 맵을 생성 할 수 없을 때 혼란 오류 메시지를 향상시킬 수 있습니다.

을 버전 4.8.0의 새로운 무엇 :

  • 루씬 새로운 Rescorer / QueryRescorer API를 가지고하는 수행 제 통과 히트 컬렉션 후 고가 스코어링 함수를 사용하여 초 - 패스 rescoring 또는 검색 결과의 순위 매김.
    <리> AnalyzingInfixSuggester 이제 거의 실시간 자동으로 권장을 지원한다.
  • 단순화 충격 분류 게시물 정렬 순서를 표현하는 루씬의 정렬 클래스를 사용하는 (SortingMergePolicy과 EarlyTerminatingCollector 사용).
  • 대량 득점 정상 반복자 기반 득점을 분리하고, 그래서 일부 쿼리는보다 효율적으로 대량 득점을 할 수 있습니다.
    <리> 색인시에 조건을 해시 MurmurHash3로 전환.
    <리> IndexWriter 지금 바이너리 문서 값 필드의 업데이트를 지원합니다.
    <리> HunspellStemFilter 이제 적은 RAM을 100 배 (10)를 사용합니다. 또한 오류가없이 모든 알려진 오픈 오피스 사전을로드합니다.
    운영 체제 및 파일 시스템을 (리눅스,에서라도이 작동하는 것으로 알려진) 수 있다면 <리> 루씬 해주기 또한, 커밋에 메타 데이터를 디렉토리 fsyncs.
    인덱스 파일을 Windows에서 삭제 될 수 있습니다 <리> 루씬 지금 독자가 열려있는 경우에도, 후드 자바 7 파일 시스템 기능을 사용합니다.
    <리> NativeFSLockFactory에 심각한 버그가 여러 IndexWriters이 같은 락의 취득을 허용 할 수있는 수정되었습니다. 로크 파일 잠금이 유지되지 않은 경우에도 디렉토리 색인에서 삭제 더이상.

을 버전 4.7.0의 새로운 무엇 :

  • 문자열 (SortField.STRING)에 의해 정렬 할 때, 당신이 지금없는 값이 첫 번째 (기본), 또는 마지막 정렬할지 여부를 지정할 수 있습니다.
    마지막 가까이에 삭제가 없거나 참조 의미 동안 삭제할 수 없습니다
  • 파일 시스템에 대한 NRT를 지원합니다.
  • 추가 LongBitSet 이상 2.1B 비트를 관리하기위한 (그렇지 않으면 사용 FixedBitSet).
  • 쿠르드어에 대한 추가 분석.
  • 추가 된 페이로드 FileDictionary (제안)에 대한 지원이 더 구성합니다.
    <리> AnalyzingInfixSuggester 비슷하지만 낮은 위치에 토큰을 일치하는 제안을 향상 새로운 BlendedInfixSuggester을, 추가되었습니다.
  • 추가 SimpleQueryParser :. 사람이 입력 한 쿼리 파서
  • PostingsHighlighter에 추가 된 multitermquery (와일드 카드, 접두사, 등).

<강한>는 어떤 버전 4.6.0에서 새로운

  • 없이 NumericDocValues​​ 필드 업데이트에 대한 지원이 추가 (재 IndexWriter.updateNumericDocValue을 통해 문서를) 색인 (기간, 문자열, 긴).
    긴 꼬리 & quot;
  • 새 FreeTextSuggester는 quot 및 유용 간단 Ngram의 언어 모델을 사용하여 다음 단어를 예측할 수있다; 제안.
    <리> 새로운 표현 모듈은 스크립트와 같은 구문을 사용하여 순위 커스터마이즈 된 수 있습니다.
  • 압축 자바 네이티브 배열로 힙에있는 모든 문서 값을 저장할 수있는 새로운 DirectDocValues​​Format.
    주어진 필드가 당 문서 색인 경우
  • Term.hasFreqs 지금 확인할 수 있습니다
  • 용어 주파수.

<강한>는 어떤 버전 4.5.0에서 새로운

  • 새 메모리 DocIdSet 구현이있는 특히 더 작은 세트에 FixedBitSet 이상 :. WAH8DocIdSet, PFORDeltaDocIdSet 및 EliasFanoDocIdSet
  • CachingWrapperFilter 이제 최악의 경우 FixedBitSet와 같은 메모리 사용량을 가지고 있지만 작은 세트에 작고 빠른 기본적으로 WAH8DocIdSet와 필터를 캐시합니다.
  • TokenStreams 이제 끝 ()에서의 위치 증분을 설정, 그래서 우리는 구멍을 후행 처리 할 수​​ 있습니다.
    <리> IndexWriter가 더 이상 주어진 IndexWriterConfig 클론하지 않습니다.
    4.4 릴리스 이후
  • 각종 버그 수정 및 최적화.

    <강한>는 어떤 버전 4.4.0에서 새로운

    • 새 플리 모듈 : 서버 사이에 인덱스 개정을 복제하고 클라이언트.
    • 새 AnalyzingInfixSuggester이 :. 제안의 모든 토큰 일치를 기반으로 제안을 발견, 그냥 순수 접두사 일치를 기반으로하지
    • 새 PatternCaptureGroupTokenFilter :. 여러 토큰 하나 이상의 자바 정규 표현식에 각 캡처 그룹을 방출
    • 새 루씬 패싯 모듈.

    <강한>는 어떤 버전 4.3.0에서 새로운

    • 새 SearcherTaxonomyManager가 관리하는 거의 실시간으로 다시 태어난다 IndexSearcher 및 (패 시팅을위한) TaxonomyReader. 모두
    • 은 별도의 분류 색인없이 계산 SortedSetDocValues​​Field를 사용하여면을 계산하기 위해면 모듈에 새로운면 방법을 추가했습니다.
      때문에 최대 4000 % 더 빠른 쿼리의 결과로 건너 뛰는에 minShouldMatch BooleanQuery에 대한
    • 상당한 성능 향상.
      4.2.1 릴리스 이후
    • 각종 버그 수정 및 최적화.

    <강한>는 어떤 버전 4.1.0에서 새로운

    • 모든 필드 (파일을 작성할 때 루씬은 더 이상 추구 ) 추가 전용 방식으로 기록됩니다. 이것은 APPEND 전용 스트림 기본적, HDFS, 등 에 의해 작동을 의미합니다
    • 새로운 구현을 제안한다 제안에 사용 (루씬 분석기로부터 계산) 기본 양식을 추가로 입력에 부정확 한 일치를 허용 반환 된 텍스트와 FuzzySuggester, 별도로 AnalyzingSuggester을, .
    • 근 실시간 지원 패싯 모듈에 첨가 하였다.
      <리> 새 형광펜 (postingshighlighter)는 하이 라이터 모듈에 추가됩니다.
    • 필터링 된 쿼리 실행에 더 많은 유연성을 FilteredQuery에 추가 FilterStrategy.
    • 추가 CommonTermsQuery 매우 매우 자주 조건에 쿼리를 가속화한다. 용어 주파수를 효율적으로 쿼리시에 발견되지 -. 준비가 필요한 인덱스 시간을
      4.0 릴리스 이후
    • 여러 버그 수정 및 최적화.

    <강한> 버전 4.0 알파의 새로운 무엇 :

    • 용어 색인 형식, 게시물 목록 저장 필드, 용어
    • 벡터 등은 코덱 API를 통해 플러그 가능합니다. 당신은 제공된 구현에서 선택하거나 사용자의 요구를 충족하기 위해 자신의 코덱으로 인덱스 형식을 사용자 정의 할 수 있습니다.
      검색하는 동안 필터를 사용하여
    • 실질적으로 더 빠른 성능을 제공합니다.
    • 파일 시스템 기반의 디렉토리가 병합 및 스레드를 검색 사이의 입출력 경합을 줄이기 위해 병합 스레드의 IO (MB / 초) 제한을 평가할 수 있습니다.
      <리> FuzzyQuery 과거 버전보다 100 ~ 200 배 빠른 속도입니다.
    • 새로운 맞춤법 검사기, DirectSpellChecker이 가능 정정을 발견
    • 직접 별도의 인덱스를 필요로하지 않고 주요 검색 색인에 대한.

    을 버전 3.6.0의 새로운 무엇 :

    • 자바 5와 자바 6,이 외에도 릴리스는 현재 전체 자바 7 지원 (최소의 JDK 7u1 필요)하고있다.
    • TypeTokenFilter 필터 토큰 그들의 TypeAttribute을 기반으로.
    • 강조하는 동안 예외로 이어질 수 CharFilters, Tokenizers 및 TokenFilters의 수가 고정 된 오프셋 버그.
    • 추가 된 음성 인코더 : 등 메타 폰, 사운 덱스 Caverphone, Beider - 모스, .
    • CJKBigramFilter과 CJKWidthFilter는 CJKTokenizer를 교체합니다.
      <리> Kuromoji 형태 분석기는 화합물 단어와 자신의 분할을 모두 생산, 일본어 텍스트를 토큰 화.
    • 정적 색인 치기 (카멜 치기가) 낮은 내-문서 용어 주파수 게시물을 제거합니다.
      범위 쿼리 개방 단으로
    • QueryParser 지금 해석 '*'.
      <리> FieldValueFilter 지정된 필드 누락 문서를 제외한다.
    • CheckIndex 및 IndexUpgrader는 새 -dir-IMPL 명령 줄 옵션과 함께 사용할 수있는 특정 FSDirectory 구현을 지정할 수 있습니다.
    • FSTs 지금은 어떤 경우에 (산출) 역방향 조회를 할 수 있으며, 자신의 크기를 줄이기 위해 포장 할 수 있습니다. FST에서 시작 노드로부터 상위 N 최단 경로를 검색하는 방법이 현재 존재한다.
      <리> 새 WFSTCompletionLookup의 SUGGESTER가 지원하는 세분화 된 제안 순위.
      제안을 미리 정렬 할 때
    • FST 기반 suggesters 이제 오프라인 (디스크 기반) 종류, 대신 메모리 종류를 사용합니다.
      <리> ToChildBlockJoinQuery는 (하위 문서에 아래로 부모를) 반대 방향으로 결합한다.
    • 새 쿼리 시간에 합류 색인 시간 조인보다 더 유연 (미만 확대됨)입니다.
      <리> 추가 HTMLStripCharFilter는 HTML 태그를 제거합니다.

    을 버전 3.5.0의 새로운 무엇 :

    • 추가 매우 실질적인 (3 ~ 5 배) RAM 감소 IndexReader 열기에 대한 용어 색인을 유지하는 데 필요한.
      깊은 페이징 사용 사례를 지원하기 위해 지정된 ScoreDoc (이전 페이지에서 예를 들어, 마지막 문서) 후 결과를 반환
    • 추가 IndexSearcher.searchAfter.
    • 추가 SearcherManager은 여러 검색 스레드에서 공유 및 재개 IndexSearchers을 관리 할 수​​ 있습니다. 더 이상 참조하지 않을 경우 기본 IndexReader 인스턴스가 안전하게 닫혀있다.
      안전하게 여러 개의 요청 전반 인덱스 (예를 들어, 페이징 / 드릴 다운)의 일관된보기를 제공
    • 추가 SearcherLifetimeManager.
      이 끔찍하게 비용이 많이 드는 거의 더 이상 정당화하지 않기 때문에 IndexWriter.optimize 상호 변경
    • 이 방법의 사용을 억제하는 forceMerge합니다.

    <강한>는 어떤 버전 3.3.0에서 새로운

    • 맞춤법 검사기 모듈은 지금 / 자동 완성 제안 포함 세 가지 구현과 기능 :. Jaspell, 삼항 트리는 및 유한 상태
    • 모두 & quot를 들어, 여러 파편의 결과를 병합에 대한 지원 정상 & quot; 검색 결과 (TopDocs.merge)뿐만 아니라 그룹화 모듈 (SearchGroup.merge, TopGroups.merge 참조).하여 그룹화 결과
    • KStem, 영어 덜 공격적 형태소 분석기의 최적화 된 구현입니다.
      구현을 그룹화
    • 싱글 패스 블록 문서 색인을 기반으로.
    • MMapDirectory 개선 (현재 64 비트 리눅스에서 FSDirectory.open에 의해 반환 기본 구현).
    • NRTManager 간단하게 처리 실시간에 가까운 여러 검색 스레드 검색, 수 있도록 표시해야하는 색인​​ 변경 제어 할 수있는 응용 프로그램이있는 검색 요청.
    • TwoPhaseCommitTool 다중 자원 IndexWriter 포함, 커밋 두-단계적으로 수행하기 용이하게한다.
    • 기본 병합 정책, TieredMergePolicy, 그것은 삭제와 세그먼트를 대상으로하는 방법을 적극적으로 제어 할 수있는 새로운 방법 (세트 / getReclaimDeletesWeight)을 가지고 있으며, 기본적으로 지금은 이전보다 더 공격적이다.
      <리> PKIndexSplitter 도구는 중간 지점 용어로 색인을 분할합니다.

    을 버전 3.2.0의 새로운 무엇 :

    • 새로운 그룹 모듈, 루씬 아래에 /있는 contrib / 그룹, 수 검색 결과는 단일 값 인덱스 필드로 그룹화합니다.
      <리> 새로운 IndexUpgrader 도구를 완벽하게 현재의 형식으로 이전 인덱스로 변환합니다.
    • 새로운 디렉토리 구현, NRTCachingDirectory는, NRT 요금을 다시 빨리와 응용 프로그램에 대한 I / O 부하를 줄이기 위해, RAM에 작은 세그먼트를 캐시합니다.
    • 새 수집기 구현, CachingCollector은 (선택적으로 문서 ID 및 점수) 검색 안타를 수집 한 다음를 재생 할 수 있습니다. 이 결과를 생성하기 위해 두 개 이상의 패스를 필요 수집기에 유용하다.
    • 색인 IndexWriter의 새로운 addDocuments 또는 updateDocuments 방법을 사용하여 문서 블록. 이 실험 API는 문서의 블록 영원히 흥미로운 미래를 활성화하면 그룹화 같은 기능과 조인, 색인에 연속 남아 있는지 확인하십시오.
      때문에 비 연속 세그먼트를 병합 할 수있는 것이 더 효율적이다
    • 새로운 기본 병합 정책, TieredMergePolicy.
      <리> NumericField 지금 당신이 저장된 문서를로드 할 때 제대로 반환됩니다 (이전에는 숫자 값으로 변환 문자열로, 다시 정상이 필드를 받았다).

    을 버전 3.1.0의 새로운 무엇 :.

    • ConstantScoreQuery 이제 직접 쿼리를 <포장 허용 / 리>
    • IndexWriter는 이제 새로운 별도의 빌더 API, IndexWriterConfig로 구성되어 있습니다. 이제 setMaxThreadStates를 호출하여 IndexWriter의 이전에 고정 된 내부 스레드 제한을 제어 할 수 있습니다.
    • IndexWriter.getReader은 IndexReader.open (IndexWriter)로 대체됩니다. 또한 당신은 지금 당신이 NRT 리더를 열 때 삭제가 해결해야하는지 여부를 지정할 수 있습니다.
    • 는 MultiSearcher는 사용되지 않습니다; ParallelMultiSearcher가 IndexSearcher에 직접 흡수되고있다.
      64 비트 윈도우와 솔라리스의 JVM에서 <리>, MMapDirectory은 (FSDirectory.open에 의해 반환) 기본 구현 지금이다. JVM이 지원하는 경우 MMapDirectory 또한 매핑 해제 할 수 있습니다.
      <리> 새 TotalHitCountCollector는 히트의 총 수를 계산합니다.
      세그먼트가 완료되면 <리> ReaderFinishedListener API는 항목을 축출하기 위해 외부 캐시를 할 수 있습니다.

    을 버전 3.0.1의 새로운 무엇 :.

      FuzzyTermEnum에서 불필요한 동기화를 제거
      삭제 된 용어를 해석 할 때 <리>, 성능 향상을 위해 장기 정렬 순서에 이렇게.
      <리> 잘못 IndexWriter.infoStream이 켜져 같은 엄청난 용어에 대해 경고 보관하지 마십시오.
    • 하나의 페이로드가있는 경우 최소 / MaxPayloadFunction는 0을 돌려 고정합니다.
    • 쿼리 모두 0 부스트 조항으로 구성 (예를 들어, 텍스트 : foo는 ^ 0) 잘못 분류 무효의 DocID 생산 .
    • FuzzyQuery에서 보호 된 내부 클래스 ScoreTerm 제거. 이 클래스의 비교기는 호환되지 않는 방식으로 변경했기 때문에 변화가 필요했다. 클래스가 공개하도록 구성되지 않았습니다.

    <강한> 버전 2.9.2에서 를 새로운 기능 :

    • BooleanQuery는 그 해시 코드에 disableCoord 무시 된 방법과 동일 BooleanQueries를 캐싱 할 때, 나쁜 일이 발생하는 원인이된다.
      <리> 잘못 IndexWriter.infoStream이 켜져 같은 엄청난 용어에 대해 경고 보관하지 마십시오.
      높은 인덱싱 속도로 <리>, NRT 리더가 일시적으로 삭제를 잃을 수 있습니다.

    을 버전 3.0.0의 새로운 무엇 :

    • SegmentReader 클래스 구현을 설정할 수있는 시스템 속성을 제거.
    • IndexCommit에 IndexCommitPoint에서 SnapshotDeletionPolicy 번호 스냅 샷 ()의 변경 반환 형식. 이 방법을 사용하는 코드가 작동하기 위해 루씬 3.0에 대해 다시 컴파일 할 필요가있다. 이전에 사용되지 IndexCommitPoint도 제거된다.
    • 모든 기본 속성에 대한 토큰의 인스턴스를 생성하는 편리한 AttributeFactory을 제공한다.
      <리> NumericRangeTermEnum에서 재귀를 제거합니다.
    • FuzzyQuery에 최적화 Levenshtein 거리 계산.

  • 유사한 소프트웨어

    PySolarized
    PySolarized

    13 May 15

    PHPCrawl
    PHPCrawl

    1 Mar 15

    SearchBlox
    SearchBlox

    10 Dec 15

    node-elasticsearch
    node-elasticsearch

    10 Dec 15

    개발자의 기타 소프트웨어 Apache Software Foundation

    코멘트 Apache Lucene

    댓글을 찾을 수 없습니다
    코멘트를 추가
    이미지를 켜십시오!