Apache Spark

소프트웨어 스크린 샷:
Apache Spark
소프트웨어 정보:
버전: 1.6.0 업데이트
업로드 날짜: 6 Mar 16
라이센스: 무료
인기: 70

Rating: nan/5 (Total Votes: 0)

아파치 스파크는 데이터 분석 및 처리 프로그램의 처리 속도를 향상시키기 위해 고안되었다.

그것은 그들이 주류도 아닌 데이터 처리 응용 프로그램이 유용하지 않은 주로하기 때문에, 자바와 스칼라로 작성되고 다른 시스템에서는 찾아 볼 수없는 기능을 제공한다.

스파크가 먼저 UC 버클리 AMP 연구소에서 만들어지고 나중에 아파치 소프트웨어 재단에 기부했다

이 릴리스의 새로운 기능입니다 : 있습니다.

통합 메모리 관리 - 실행 및 캐싱 대신 지역의 독점 부문에 대한 공유 메모리.
마루 실적 - 평면 스키마를 사용하는 경우 엔 나무 마루를 스캔 성능을 향상시킬 수 있습니다.
별개의 집계 갖는 쿼리에 대한 향상된 쿼리 플래너 - 별개의 열이 높은 카디널리티가있을 때 별개의 집계 쿼리 계획은 더 강력하다.
적응 쿼리 실행 - 자동 조인 및 집계를위한 감속기의 수를 선택하기위한 초기 지원.
데이터 소스 API에 이중 필터를 방지 - 필터 푸시와 데이터 소스를 구현하는 경우, 개발자는 이제 푸시 다운 필터를 평가하는 이중 방지하기 위해 스파크 SQL을 알 수 있습니다.
지금 SortMergeJoin를 사용하는 대신 cartisian 제품을 컴퓨팅 실행합니다 (; = & #의 X3E & #의 x3c) - 조인 빠른 널 안전은 null 안전 평등을 사용하여 조인.
인 - 메모리 칼럼 캐시 실적 - DataFrames 또는 SQL 복잡한 유형이 포함 된 데이터를 캐싱 할 때 중요한 (14 배까지) 속도.
오프 힙 메모리 사용 SQL 실행 - 지원 쿼리 실행을 구성은 GC의 오버 헤드를 피하기 위해 오프 힙 메모리를 사용하여 발생하는

이 버전 1.5.2의 새로운 기능 :

이 핵심 API는 이제 비용 절감 작업을 가속화하기 위해 멀티 레벨 집계 나무를 지원합니다.
개선 된 오류보고 특정 잡았다 작업에 추가되었습니다.
스파크의 부두 의존성은 이제 사용자 프로그램과의 충돌을 피할 수 있도록 음영 처리됩니다.
스파크는 현재 일부 통신 엔드 포인트에 대한 SSL 암호화를 지원합니다.
실시간 GC 측정하고 기록 카운트는 UI에 추가되었습니다.

이 버전 1.4.0의 새로운 기능 :

이 핵심 API는 이제 비용 절감 작업을 가속화하기 위해 멀티 레벨 집계 나무를 지원합니다.
개선 된 오류보고 특정 잡았다 작업에 추가되었습니다.
스파크의 부두 의존성은 이제 사용자 프로그램과의 충돌을 피할 수 있도록 음영 처리됩니다.
스파크는 현재 일부 통신 엔드 포인트에 대한 SSL 암호화를 지원합니다.
실시간 GC 측정하고 기록 카운트는 UI에 추가되었습니다.

이 버전 1.2.0의 새로운 기능 :

이 PySpark의 정렬 운영자는 현재 대규모 데이터 세트에 대한 외부 유출을 지원합니다.
PySpark 이제 2GB 이하 방송 변수에 더 큰 지원과 종류 중에 외부 유출을 수행한다.
스파크는 작업 수준 진행 스파크의 UI 페이지, 진행보고를위한 안정적인 API, 완벽한 작업과 같은 출력 측정의 동적 업데이트를 추가합니다.
스파크는 이제 이미지 및 기타 바이너리 포맷 바이너리 파일을 읽기위한 지원을하고있다.

이 버전 1.0.0의 새로운 기능입니다 :

이 릴리스는 사용자가 기존의 스파크 워크 플로우에 SQL 쿼리를 통합 할 수있는 새로운 SQL 패키지 (스파크 SQL)를 도입, 스파크의 표준 라이브러리 확장합니다.
MLlib, 불꽃의 기계 학습 라이브러리, 스파 스 벡터 지원 및 여러 가지 새로운 알고리즘으로 확장됩니다.

이 버전 0.9.1의 새로운 기능 : 외부 유출에

이 고정 해시 충돌 버그
다른 로깅 백엔드에 의존하는 사용자를위한 불꽃의 log4j에와 고정 충돌
Graphx을 받는다는에서 스파크 조립 항아리에서 누락 된 고정하는 빌드
Akka 프레임 크기를 초과하는 출력 상태 맵핑에 고정 된 자동 고장 때문에
ASM에 제거 스파크의 불필요한 직접 종속성
때문에 LGPL 라이센스 충돌 기본 빌드에서 제거 통계-신경절
스파크 조립 단지를 포함하지 않는 유통 타르의 조정 버그

이 버전 0.8.0의 새로운 기능 :

이 개발 인큐베이터 프로젝트로 아파치 Sowftware 재단에 이동했습니다.

이 버전 0.7.3의 새로운 기능입니다 :

이 파이썬 성능 : 파이썬 VM을 산란을위한 스파크의 메커니즘은 JVM 큰 힙 크기를 가질 때까지 속도, 빠른 그렇게하도록 개선되었습니다 파이썬 API.
메소 수정 : 메소에 작업 결과를 역 직렬화 할 때 작업에 추가 JAR 파일은 이제 클래스 경로에있을 것입니다.
오류보고 : 비 직렬화 예외 지나치게 큰 작업 결과에 대한 더 나은 오류보고.
예를 들면 : updateStateByKey와 상태 스트림 처리의 예를 추가했습니다.
빌드 없음 스파크 스트리밍 더 이상 중국에 구축 할 수 있도록해야 Twitter4J의 REPO에 따라 달라집니다.
foldByKey의 버그 수정, 스트리밍 수, 통계 방법, 문서 및 웹 UI.

이 버전 0.7.2의 새로운 기능입니다 :

이 스칼라 버전 2.9.3으로 업데이트되었습니다.
성능 수정 및 구성 가능한 스토리지 레벨을 포함 베이글에 몇 가지 개선.
새로운 API 방법 : subtractByKey, foldByKey, mapWith, filterWith, foreachPartition, 등이 있습니다.
각 계산 단계에 대한 정보 수집, 인터페이스, SparkListener보고 새로운 통계 : 작업 길이는 등을 단행 바이트
K-수단 및 연산 (PI)를 포함하는 자바 API를 사용하여 여러 가지 새로운 예제.

이 버전 0.7.0의 새로운 기능입니다 :

는 0.7 PySpark라는 파이썬 API를 추가 스파크.
스파크 작업은 현재 프로그램의 각 분포 데이터 세트 (RDD)의 메모리 사용량을 감시하는 웹 대시를 시작.
스파크는 지금 SBT에 추가 메이븐를 사용하여 구축 할 수 있습니다.

이 버전 0.6.1의 새로운 기능입니다 :

이 고정 지나치게 공격적인 메시지는 근로자가 클러스터에서 분리 될 수 있습니다 타임 아웃.
HDFS의 지역에 영향을 미치는, 스케줄러에 호스트 이름을 노출하지 않은 독립 배포 모드에서 버그가 수정되었습니다.
매우 작은 셔플 속도를 높일 수 있습니다 셔플의 향상된 연결 재사용.
블록 매니저의 일부 잠재적 인 교착 상태를 해결했습니다.
메소에서 실패한 호스트의 ID를 가져 오는 버그가 수정되었습니다.
스팟 인스턴스를보다 효율적으로 처리 같은 여러 EC2 스크립트 개선.
그 불꽃은 사용자 정의에 결합 로컬 IP 주소를했다.
하둡이 배포판을 지원합니다.
데비안 배포판에서 스칼라의 위치에 대한 지원.

이 버전 0.6.0의 새로운 기능입니다 :

이 간단한 배포.
스파크의 문서는 새로운 퀵 스타트 가이드, 추가 배포 지침, 구성 가이드, 튜닝 가이드, 개선 Scaladoc API 문서로 확장되었습니다.
비동기 자바 NIO 사용하는 새로운 통신 관리자는 데이터 또는 경우 작업이 많은 작업이 많은 양의 전송 특히, 셔플 작업을 빠르게 실행할 수 있습니다.
새로운 스토리지 매니저 (등, 디스크, 직렬화, 또는 노드에 복제, 메모리에 데이터 집합을 유지할지 여부를 예를 들어) 당 데이터 세트 저장 수준 설정을 지원합니다.
향상된 디버깅.

개발자의 기타 소프트웨어 Apache Software Foundation

Apache SIS
Apache SIS

10 Feb 16

Apache Tika
Apache Tika

20 Jul 15

Apache Parquet
Apache Parquet

9 Feb 16

Apache Roller
Apache Roller

12 Apr 15

코멘트 Apache Spark

댓글을 찾을 수 없습니다
코멘트를 추가
이미지를 켜십시오!