아파치 머하 웃 자바 개발자가 기계 학습 알고리즘을 확장 쓰기 수 있도록하기 위해 만들어졌습니다.
두싯 모든 오픈 소스 라이센스하에, 비즈니스 레벨의 코드와 함께 거대한 데이터로드를 처리하는 것을 의미하지만, 상용 수준의 결과이다.
다음과 같이 현재 두싯 과정은 다음과 같습니다. 내 데이터가 그것을 취득 데이터를 구성하는 데 클러스터링과 내용을 분류하는
이 릴리스의 새로운 기능입니다 :
이 릴리스는 드라이버 스파크 itemsimilarity의 코끼리 조련사-1707에서 사용하는 동시 발생 분석의 주요 메모리 사용량 버그를 해결합니다. 이것은 현재 실행 프로그램에서 훨씬 적은 메모리를 필요로합니다.
지원 스파크 1.2.2 이하 -으로 인해 JavaSerializer (SPARK-6069)에서 스파크의 버그 1.2+에 우리는 스파크 실행자에서 실행되는 코드에서 구아바의 사용을 제거했습니다. 이를 위해 우리는 너무 오래 구아바 컬렉션을 사용하는 방법을 보여주는 모든 예제 코드는 사용되지 않습니다 BiMap 기반 스칼라 컬렉션을 만들었습니다.
두싯 - 삼사라 QR 분해 및 매트릭스 작전에 약간의 수정.
#의 x3c를 &하기 위해 패키지 크기를 트림; 2백메가바이트 - 코끼리 조련사-1704.
마이너 테스트가 실행되지 않습니다 두싯 셸을 제외하고 스파크 1.3 이진 호환성을 나타냅니다.
이 버전 0.10.1의 새로운 기능입니다 :
이 릴리스는 드라이버 스파크 itemsimilarity의 코끼리 조련사-1707에서 사용하는 동시 발생 분석의 주요 메모리 사용량 버그를 해결합니다. 이것은 현재 실행 프로그램에서 훨씬 적은 메모리를 필요로합니다.
지원 스파크 1.2.2 이하 -으로 인해 JavaSerializer (SPARK-6069)에서 스파크의 버그 1.2+에 우리는 스파크 실행자에서 실행되는 코드에서 구아바의 사용을 제거했습니다. 이를 위해 우리는 너무 오래 구아바 컬렉션을 사용하는 방법을 보여주는 모든 예제 코드는 사용되지 않습니다 BiMap 기반 스칼라 컬렉션을 만들었습니다.
두싯 - 삼사라 QR 분해 및 매트릭스 작전에 약간의 수정.
#의 x3c를 &하기 위해 패키지 크기를 트림; 2백메가바이트 - 코끼리 조련사-1704.
마이너 테스트가 실행되지 않습니다 두싯 셸을 제외하고 스파크 1.3 이진 호환성을 나타냅니다.
이 버전 0.10.0의 새로운 기능입니다 :
두싯 수학 선형 대수학에 대한 스칼라 DSL 바인딩.
검색으로 추천인.
쉬운 기능 매트릭스 전망 및 파생 금융 상품에 대한 지원
ClusterDumper에 대한 JSON 출력 형식
당근 RandomizedRunner을 사용하여 모든 두싯 모듈에 대한 무작위 검사를 할 수 있습니다.
1 차원 클러스터링을 사용하여 정확한 분위수를 계산하는 온라인 알고리즘.
루씬 4.6.1에 두싯 업그레이드
버전 0.8의 새로운 기능입니다 :
이 바이어스 항목 기반 추천인 지원
사용자와 항목 편견과 등급 예측을위한 SGD 행렬 인수 분해
SVD 지원 ++
하나 이상의 루씬 저장 SequenceFiles에 인덱스뿐만 아니라 루씬 4.3.1에 대한 지원 루씬 버전의 업그레이드를 변환을 지원합니다.
새로운 스트리밍 온라인 (빠른) 클러스터링을 제공합니다 구현을 k는-의미
SequenceFiles지도-감소, 'seqdirectory는'지금 맵리 듀스 작업으로 실행할 수 있습니다로 변환합니다.
(인덱스 또는 값)를 해시 벡터의 차원을 지정 MinHashDriver에 옵션을 추가했습니다.
매트릭스 CONCAT 유틸리티는 현재 두 행렬을 연결합니다.
CommonsLang3로 업그레이드
조련사가 병렬로 테스트를 실행하여 구축 속도 향상.
댓글을 찾을 수 없습니다