아파치 너치 아파치 루씬, 강력한 자바 검색 엔진의 상단에 지어졌다.
너치 개발자는 특히 웹에서 데이터를 검색하기 위해 최선을 다하고 프로젝트로 데이터에 구애받지 루씬 코드베이스를 변형, 루씬 코드베이스를 수정했습니다.
이 기술은 내장 된 검색 서버로 자신의 웹 페이지를 검색하거나 구문 분석하고 데이터베이스로 긁어 데이터를 찾기 위해 웹을 크롤링하는 데 사용할 수 있습니다.
너치은 하나의 시스템에서 실행하지만, 하둡 클러스터에서 잘 작동 할 수 있습니다.
다양한 플러그인은 사용 스펙트럼을 확장에 사용할 수있는
이 릴리스의 새로운 기능입니다.
이 중복 태그 마이크로 포맷 - reltag 태그 세트에 존재하지 않는 확인하십시오.
더 나은 날짜 필드에 대한 값을 후퇴.
지칠대로 지친 제거하십시오.
하둡 1.2.0로 업그레이드합니다.
티카 1.3로 업그레이드합니다.
이 버전 2.0의 새로운 기능 :
이 ParseFilter에 HTMLParseFilter 명칭 변경.
LIB-HTTP에 남아있는 로봇 / IP 차단 코드를 제거합니다.
포트 로깅은 SLF4J합니다.
외부 파서는 인코딩 속성을 지원합니다.
아이비 구성 설정 고라 포함되지 않습니다.
인젝터는 injectedScore를 호출하기 전에 메타 데이터를 추가해야합니다.
Nutchbase 포트 너치 벤치 마크.
구문 분석 - HTML을 다시 추가합니다.
MoreIndexingFilter 누락 된 날짜 형식.
파서 제한 시간.
크롤링 날짜에 다시 시도 간격은 0으로 설정됩니다.
SOLR 인덱서 및 DEDUP에 대한 로그 출력을 생성합니다.
개선 NutchConfiguration.
SolrDeleteDuplicates는 SolrRecord 개체를 복제 할 필요가있다.
받는다는 통해 사용할 수없는 기본 하둡 libs와.
빌드 및 런타임 환경을 분리합니다.
이 1.5 버전의 새로운 기능 :
이 자료는 여러 티카 1.1 하둡 1.0.0, LinkRank 개선 및 WebGraph 요소 등 여러 가지 주요 구성 요소의 업그레이드를 포함하여 개선뿐만 아니라 포함 새로운 플러그인, 블랙리스트를 덮고 필터링 및 몇 가지 이름을 구문 분석의 수입니다.
이 버전 1.4의 새로운 기능 :
이 추가 SOLR 4 배 (트렁크) 예 스키마.
SVN에 '/ 런타임'추가 무시합니다.
응용 프로그램 / XHTML + XML 구문 분석 - HTML의 plugin.xml에 활성화되어야한다 plugin.xml에 대해 여러 MIME 형식을 수 있습니다.
고정 구문 분석 - 티카와 분석 - HTML을 RFC-3986에 따라 상대 URL 해상도를 사용 할 수 있습니다.
티카 0.10로 업그레이드. 참고 : 이전보다 잘못된 형식의 문서에서 더 많은 텍스트를 무시 티카의 새로운 RTF 파서 - 자세한 내용 티카-748을 참조하십시오.
추가 된 수중 음파 탐지기는 개미의 build.xml 대상으로합니다.
버전 3.4.0에 SolrJ을 업그레이드.
개미 PMD 대상이 끊어집니다.
1.4 버전으로 업그레이드 SOLR 스키마.
이 1.3 버전의 새로운 기능 :
이 릴리스는 몇 가지 개선 (개선 된 RSS 구문 분석 지원, 아파치 티카와의 긴밀한 통합, 외부 구문 분석 지원, 개선 된 언어 식별과 크기의 순서를 포함 작은 소스 릴리스 타르볼 - 메가 정도에 대한)!.
이 버전 1.2의 새로운 기능 :
이 인덱스보다 플러그인 구성을 확인합니다.
구성 파일 프로토콜 상위 디렉토리 크롤링.
파서 제한 시간.
웹 사이트는 여전히 루씬은 브랜드입니다.
크롤링 날짜에 다시 시도 간격은 0으로 설정됩니다.
이 버전 1.0의 새로운 기능 :
이 파서 여러 구문 분석 개체를 반환하도록 허용합니다.
제거 중복 온톨로지 플러그인에서 항아리를 평민은 로깅.
SegmentReader에서 버그 무한 루프가 발생합니다.
채점 필터는 한 번에 모든 outlinks에 점수를 배포해야합니다.
너치 코어 경고의 수를 줄이십시오.
댓글을 찾을 수 없습니다