DataCleaner 조직과 증가 및 데이터의 품질을 측정하고자하는 기업을위한 오픈 소스와 완전히 무료 솔루션입니다.
DataCleaner 사용자는, 프로파일 비교, 비즈니스 규칙에 대한 데이터의 유효성을 검사하고, 시간이 지남에 따라 이러한 측정의 진행을 모니터 할 수 있습니다.
그것의 기능 중에서, 우리는 데이터 모니터링, 데이터 프로파일 링 및 DQ 분석, 데이터 정제 및 농축, 감지 및 병합 중복, 고객 데이터 품질뿐만 아니라 초고속 ETLightweight (추출 - 변환 -로드)을 언급 할 수 있습니다.
뿐만 아니라 그것을 작동하는 방법으로 DataCleaner의 기능과 기능에 대한 자세한 내용은 http://eobjects.dk/docs
What를 참조하십시오이 릴리스의 새로운 기능입니다 :
개선 및 새로운 기능 :
우리는 가능한 만들고 DataCleaner의 바탕 화면 UI를 통해 테이블을 드롭했습니다. 참고 용어 그 표 & quot; 여기에 실제로 바로 관계형 데이터베이스 테이블 이상을 다룹니다. 또한 CouchDB를하고 ElasticSearch에서 MS 엑셀 데이터 저장소에 시트, MongoDB의에서 컬렉션, 문서 유형을 포함하고 등등 ... 기본적으로 이러한 CSV 데이터 저장소로 단일 테이블의 데이터 저장소를 제외하고 쓰기 작업을 지원하는 모든 데이터 저장소 유형은이 기능을 지원! 기능은 통해 노출되는 :
& 용어는 테이블 만들기 & quot; 를 통해 활성화 된 응용 프로그램의 왼쪽에있는 트리에서 스키마의 메뉴를 마우스 오른쪽 단추로 클릭합니다.
& 용어는 테이블 만들기 & quot; 테이블, 테이블 조회 및 업데이트 테이블에 같은 삽입과 같은 구성 요소 테이블 선택 입력을 통해도 사용 가능.
& 용어는 테이블 & quot 드롭; 를 통해 활성화 된 응용 프로그램의 왼쪽에있는 나무에서 테이블의 메뉴를 마우스 오른쪽 단추로 클릭합니다.
우리는 당신의 Salesforce.com 웹 서비스 엔드 포인트 URL을 지정 (옵션) 기능을 추가했습니다. 이것은 당신이 Salesforce.com의 샌드 박스 환경뿐만 아니라에 자신 만의 엔드 포인트에 연결 DataCleaner를 사용할 수 있습니다.
ElasticSearch 지원은 사용자 정의 매핑을 허용뿐만 아니라, 검색 및 인덱싱도 이제 ElasticSearch 데이터 저장소 정의를 재사용 향상되었습니다.
기록과 중복 검출 기능의 잠재적 중복 선택의 샘플링은 훈련 중에 결정이 더 대표하기 때문에 빠른 구성으로 이어지는 향상되었습니다.
중복 검출 모델 파일 포맷은 과거 훈련 결정을 저장하기 위해 별도의 '기준'파일에 대한 필요성을 제거시킨 업데이트되었습니다. 이전 포맷과의 호환성은 유지하지만, 새로운 포맷을 사용하는 것은 사용자 경험에 대한 많은 장점을 추가하고있다.
버그 수정:
스레드 부족 문제가 DataCleaner 모니터에서 수정되었습니다. 이 문제의 영향이 큰했지만, 그것은 단지 희귀하고 매우 사용자 정의 경우에 일어났다. 사용자 정의 리스너가 오류를 throw하는 DataCleaner 모니터에 개체 경우는 결코까지 해제되지 및 서버의 석영 스케줄링 풀에서 스레드를 복용중인 자원을 초래할 것입니다. 이 여러 번 일어날 경우 서버는 결국 그 풀의 스레드에서 실행할 수 있습니다.
결과 화면에 수직 메뉴 해주기 결과를 구성 요소의 라벨을 표시하는 적절한 작업을하고있다. 이렇게하면, 어떤 메뉴 항목 포인트 어떤 결과 항목을 인식 할 수있다.
버전 3.5.7의 새로운 기능 :
'동의어 검색'변환 이제 입력의 모든 토큰을 조회 할 수있는 옵션이 있습니다. 당신이 긴 텍스트 필드의 값 내에서 동의어의 교체를하고있는 경우에 유용합니다.
이것에 대한 모니터의 웹 서비스를 통해 DataCleaner 작업의 실행을 차단하면 때로는 차단 스레드에 의해 발생하는 버그와 함께 실패 할 수 있습니다. 이 문제가 수정되었습니다.
개선 방법에서 채용되었다 및 구성 요소의 시퀀스는 / 폐쇄 실행 후 정리된다.
DataCleaner의 JNLP / 자바 웹 시작 버전은 특정 상황에서가 아닌 웹 시작 런처에 의해 인식되는 특정 JAR 파일을 일으키는 원인이되는 자바 런타임 버그로 노출되었다. 이 문제는 그 JAR 파일에 약간의 수정을하여 수정되었습니다.
문서에서 몇 죽은 링크가 수정되었습니다.
버전 3.5.4의 새로운 기능 :
그것은 변환의 출력 열을 숨길 수있게되었습니다. 은폐 전혀 처리 흐름에 영향을주는, 단순히 사용자 인터페이스로부터 숨길 및 다른 구성 요소와 상호 작용할 때, 따라서 잠재적으로 더 깨끗한 경험하게하지 않을 것이다.
새로운 웹 서비스는 특정 작업의 실행 상태를 폴링하는 방법을 제공 모니터링 웹 애플리케이션에 추가되었다.
버그 레코드가 처리되지했을 때 특정 분석 유형에 실패 할 HTML 보고서를 일으키는 원인이 수정되었습니다.
그리고 6 기타 사소한 버그가 따르기는 하겠지만되었습니다.
버전 3.5.1의 새로운 기능 :
캡처 기록을 변경 :
새로운 필터가 이전에 처리되지 않은 레코드 증분 처리, 예를 활성화시켰다 프로파일 또는 복사 레코드 만 수정했습니다. 새로운 필터의 이름은 캡처 변경 데이터 캡처의 개념을 참조하여, 기록을 변경됩니다.
작업 대기중인 실행 :
그것은 여러 번 트리거되면 DataCleaner 모니터 이제, 동일한 잡의 실행을 대기한다. 이것은 당신이 실수로 작업이 무엇에 따라, 문제의 모든 종류로 이어질 수있는 동시에 같은 작업을 실행하지 않도록합니다.
마이너 버그 수정 :
몇 가지 버그 수정이 구현되었습니다.
버전 3.5의 새로운 기능 :
여러 마법사는 이제 데이터 저장소를 등록 할 수 있습니다; CSV 파일, 데이터베이스 연결 항목의 서버에 파일 업로드, Salesforce.com 자격 증명 등의 안내 등록을 포함.
마법사를 구축하는 작업은 몇 가지 향상된 기능으로 확장되었습니다; 빠른 분석 마법사의 값 분포와 패턴을 찾는 필드, EasyDQ 기반 고객 정화 작업과 펜타 데이터 통합 작업을 발사하기위한 새로운 작업 마법사 (더 아래 읽기)를 생성하기위한 완전히 새로운 마법사의 선택.
이제 임시 웹 사용자 인터페이스에서 직접 데이터 저장소를 조회 할 수 있습니다. 이것은 쉬운 작업이나 데이터의 처리의 다른 관리 방법을 설정하지 않고 데이터에 빠르게 또는 산발적 통찰력을 얻을 수있다.
작업 또는 데이터 저장소가 생성되면, 사용자는 새로 지어진 오브젝트에 조치를 취하도록 유도된다. 예를 들어, 당신은 매우 신속하게 만든 응용 직후 작업을 실행하거나, 등록 후 데이터 저장소를 조회 할 수 있습니다.
이제 관리자는 직접이 작업 파일의 XML 콘텐츠를 손으로 편집 할 경우에 특히 유용합니다 저장소에 작업을 업로드 할 수 있습니다.
기술 cruft에 많은 지금은 간단한 대화 상자를 표시 찬성 숨겨져있다. 예를 들어, 작업이 트리거 될 때 큰 로딩 인디케이터가 도시되고, 완료되면 그 결과가 도시된다. 이전에 아직 추가 정보에 대한 링크를 클릭시가 표시 될 수 있습니다 된 고급 로깅 화면.
버전 3.1.2의 새로운 기능 :
우리는 메트릭 값 (목록)를 취득하기위한 모니터링 응용 프로그램에서 웹 서비스를 추가했습니다. 이것은 데이터 (품질)를 모니터링 및 써드 파티 애플리케이션의 결과를 노출하는 방법으로, 모니터링은 더욱 가능한 키 구조 성분으로 만든다.
'표 조회'구성 요소는 구성 가능한 속성과 의미를 결합 추가하여 향상되었습니다. 당신이 가입 또는 내부 조인 왼쪽과 같은 의미 일할 수있는 조회를 원하는 경우가 조정할 수있는 참여 의미를 사용.
EasyDQ 구성 요소는 추가 구성 옵션과 풍부한 중복 제거 결과 인터페이스를 추가, 업그레이드되었습니다.
성능 향상이 릴리스의 특정 초점이되어왔다. 개선이 더 이전에 포함되지 않은 특정 코너 케이스에 스트리밍 처리 방식을 이용하는 DataCleaner의 엔진으로 이루어지고있다.
버전 3.1.1의 새로운 기능 :
날짜와 시간 관련 분석 옵션은 주 번호, 개월 동안 유통 분석기를 추가, 확장되었습니다. 날짜와 시간에 관련된 모든 분석기는 이제 소위 quot 하위 메뉴에서 그룹화, 날짜 및 시간 & quot을; 아래 & quot; 분석 & quot ;.
기술 통계 & quot; 선택 & quot; 옵션 번호 분석기 및 일자 / 시간 분석기에 추가되었다. 이 옵션은 중간, 비대칭, 백분위 및 첨도 이러한 분석의 결과에 추가 메트릭을 추가합니다. 자신의 메모리 풋 프린트는 기존 통계보다 약간 크기 때문에 이러한 통계는 선택 사항입니다.
모니터링 웹 응용 프로그램의 타임 라인 차트에 선 지금에 작은 점을 가지고있다. 관찰 포인트는 정확히 지적 - 이것은 그들에 몇 가지 (또는 하나) 관측 차트에 특히 유용합니다.
호출 임시 쿼리도 실질적으로 개선 된 쿼리 파서. 이제 쿼리는 DISTINCT 절, * -wildcards, 하위 쿼리를 포함하고 내결함성 텍스트의 경우 문제를 향해 있습니다 할 수 있습니다.
두 개의 새로운 변압기는 UUID를 생성하고 생성하는 타임 스탬프 추가되었습니다.
버전 3.1의 새로운 기능 :
메트릭 수식 - 데이터 품질의 KPI를 정교 :
그것은 훨씬 더 구축 DataCleaner의 모니터링 웹 응용 프로그램에서 데이터 품질의 KPI를 정교하게 할 수있게되었습니다. 사용자 인터페이스는 스프레드 시트와 같은 식 스타일로 복잡한 수식을 만들 수 있습니다; DataCleaner 작업에 의해 수집 된 변수를 사용하여.
메트릭 수식만큼이를 수학 식으로 표현 될 수있는 바와 같이, 메트릭, 상수 및 임의의 수의 연산을 결합 할 수있다.
예를 들어 - 총 레코드 수의 비율에 중복 레코드의 속도를 측정합니다. 또는 다중 문자열 패턴들의 세트에 부합 제품 코드의 양을 측정한다.
임시의 질의 - 어떤 데이터 저장소의 :
DataCleaner 3.1 당신은 지금 어떤 데이터 저장소에 임시 쿼리를 수행 할 수 있습니다! SQL 쿼리는 일반 표현 될 수 있고, 사용자의 검색 및 데이터 프로파일 경험으로 연장 진정 유용한 질의 메커니즘을 제공하는, 데이터베이스뿐만 아니라, 파일, 데이터베이스 NoSQL에 더인가한다.
쿼리 옵션은 관리자 역할에 사용자를 모니터링하는 웹 서비스를 통해 사용할 수도 있습니다. 쿼리는 HTTP 파라미터 또는 POST 본체로 제공되고, 그 결과가 XHTML 테이블로서 제공된다.
값 정규 - 새로운 분석 옵션 :
종종 당신은 값이 허용 된 특정 필드에 대한 기대해야하는 확고한 생각을 가지고있다. DataCleaner에서 항상 당신이 당신의 가정을 주장 도움이 값 분포 해석 옵션이있었습니다. 값 정규 - DataCleaner 3.1하지만, 당신은보다 정확한 제공을 가지고있다. 이 분석 옵션을 사용하면 기대 값의 집합을 지정하고 구체적으로 확인하고 예상치 못한 값을 식별, 분석과 같은 값 분포를 수행 할 수 있습니다.
작업의 복사, 삭제 및 관리 :
DataCleaner 모니터 응용 프로그램에서 작업 및 결과의 관리가 크게 향상되었습니다. 이제 모니터의 예약 페이지에서 작업을 클릭하고 이름 변경, 복사, 삭제 등과 같은 작업에 사용할 관리 옵션을 찾을 수 있습니다. 각각의 작업은 이러한 분석 결과, 일정 등과 같은 모니터에서 다른 유물에 연계를 존중합니다. 이 모니터링 저장소의 관리가 훨씬 쉬워 성숙 될 것을 의미합니다.
데이터 품질 이력 관리 :
때때로 당신은 당신이 실제로 역사적인 데이터 모니터링을 수행 할 상황에 직면 해! 그것은 당신이 역사적인 덤프 또는 표시하고의 이야기를하고자하는 데이터베이스의 백업을 가지고있을 수 있습니다. 이제,이 기록 데이터의 분석을 수행 DataCleaner 모니터에 업로드하고 새로운 웹 서비스를 이용하여 특정 분석 결과 기록 데이터를 설정할 수있다. 이것은 당신의 타임 라인이 제대로하지만 당신은 시간 이후 시점에서 어쩌면 수집 한 결과, 의도 한 날짜를 사용하여 결과를 플롯 것을 의미합니다.
클러스터 스케줄러 지원 (EE 전용) :
이 간단한 구성에 의해 대체 될 수 있도록 DataCleaner 모니터 스케쥴러는 구체화되었다. DataCleaner의 엔터프라이즈 에디션 (EE), 우리는 기계의 클러스터에 걸쳐 실행을로드 밸런스를 배포 할 수있는 기능을 제공하는 클러스터 스케줄러를 제공합니다.
(단 EE) CAS를 사용하여 단일 사인 온 (SSO) :
DataCleaner의 엔터프라이즈 에디션 (EE)에서 우리는 이제 모니터 응용 프로그램에 대한 단일 로그온 옵션을 제공합니다. 지금 DataCleaner는 IT 인프라, 또한 보안 지혜의 통합 된 일부가 될 수 있습니다.
... 그리고 더 많은 :
위의 단지를 요약 한 것입니다. 30 개 이상의 문제는이 릴리스에서 해결되었습니다. 우리는 포럼과 지역 사회에서 오는 여러 요청을 해결 한, 우리는 변화를위한 수단으로이 매체를 사용하는 모든 사람을 격려한다. 우리는 DataCleaner의 개발은 크게 지역 사회의 흐름에 의해 영향을받을 수 있도록하는 것이 매우 기쁘게 생각합니다.
버전 3.0.3의 새로운 기능 :
는 모니터링 저장소에 작업 이름을 변경하기위한 서비스를 추가합니다.
당신은 RESTful 웹 서비스 또는 대화 형 UI에서이 액세스 할 수 있습니다.
웹 서비스는 모니터링 저장소에 해석 결과의 역사적인 날짜를 변경 하였다.
웹 응용 프로그램은 기존의 JSF 컨테이너와 호환 만들어졌다.
웹 응용 프로그램의 구성 캐싱은 매우 빠른 페이지 로딩과 작업 초기화 시간에지도 개선되었다.
버전 3.0.2의 새로운 기능 :
모니터링 웹 응용 프로그램에서 작업을 트리거 할 때, 패널 실행의 최신 상태를 얻을 수 초마다 자동 - 새로 고칩니다.
절대 경로와 (예 : CSV 또는 Excel 스프레드 시트와 같은) 파일 기반 데이터 저장소가 올바르게 모니터링 웹 응용 프로그램에서 해결됩니다.
& quot; 키 / 값지도를 소등 선택; 변압기는 이제 & quot 같은 중첩 된 선택 식을 지원 Address.Street & quot; 또는 'orderlines [0] .product.name & quot ;.
테이블 룩업 메커니즘 JDBC 데이터베이스에 대해 실행될 때 준비된 문을 사용하여 성능을 위해 최적화되었다.
데이터 스토어 & quot; 관리자는 현재를 소등 직접 파일 기반 데이터 스토어를 다운로드 할 수 있습니다; 페이지.
모니터링 웹 응용 프로그램에서 예외 처리는 오류 메시지가 더 정확하고 직관적, 약간 향상되었습니다.
댓글을 찾을 수 없습니다