빅 데이터는 검색 엔진과 같은 출처에서 채취 한 데이터, 포인트 카드를 통해 추적 한 식료품 점 구매 패턴 등을 포괄하는 마케팅 아이디어입니다. 현대 사회에서 인터넷은 매우 많은 데이터 소스를 가지고 있기 때문에 처리하지 않고는 스케일을 사용하지 못하게되고 처리는 어느 한 서버에서 엄청난 시간을 소비하게됩니다. Apache Hadoop 입력
데이터 처리 시간 단축 Hadoop 아키텍처를 활용하여 처리 작업을 네트워크의 여러 시스템에 분산시킴으로써 처리 시간이 천문학적으로 감소하고 합리적인 시간 내에 응답을 결정할 수 있습니다. Apache Hadoop은 저장소 구성 요소와 처리 구성 요소의 두 가지 구성 요소로 나뉩니다. 가장 간단한 용어로, Hapood는 하나의 가상 서버를 여러 물리적 시스템으로 만듭니다. 사실, Hadoop은 여러 컴퓨터 간의 통신을 관리하여 마치 계산 작업을하는 컴퓨터가 하나 인 것처럼 보이도록 밀접하게 작업합니다. 데이터는 여러 컴퓨터에 분산되어 저장되고 처리 작업은 Hadoop 아키텍처에 의해 할당 및 조정됩니다.이러한 유형의 시스템은 원시 데이터를 빅 데이터 입력의 규모에 대한 유용한 정보로 변환하기위한 요구 사항입니다. 사용자가 검색 요청을 입력하면 매초 Google에 수신되는 데이터의 양을 고려하십시오. 전체 데이터 덩어리로서 어디에서 시작할 지 알 수 없지만 Hadoop은 자동으로 데이터 세트를 작고 체계적인 하위 세트로 축소하고 이러한 관리 가능한 하위 세트를 특정 리소스에 할당합니다. 모든 결과는 다시보고되고 유용한 정보로 조합됩니다.
설정하기 쉬운 서버
시스템이 복잡해 보이지만 대부분의 움직이는 부분은 추상화 뒤에서 가려져 있습니다. Hadoop 서버 설정은 매우 간단합니다. 시스템 요구 사항을 충족하는 하드웨어에 서버 구성 요소를 설치하기 만하면됩니다. 더 어려운 부분은 Hadoop 서버가 스토리지 및 처리 역할을 분산시키기 위해 사용할 컴퓨터 네트워크를 계획하는 것입니다. 여기에는 로컬 영역 네트워크를 설정하거나 여러 네트워크를 인터넷을 통해 연결하는 것이 포함될 수 있습니다. 기존 클라우드 서비스를 활용하고 Microsoft Azure 및 Amazon EC2와 같은 널리 사용되는 클라우드 플랫폼에서 Hadoop 클러스터 비용을 지불 할 수도 있습니다. 이러한 구성은 특별하게 구성 할 수 있으므로 더 쉽게 구성 할 수 있으며 더 이상 클러스터가 필요하지 않을 때 클러스터를 폐기 할 수 있습니다. 이러한 유형의 클러스터는 Hadoop 클러스터가 활성화 된 동안 만 비용을 지불하므로 테스트에 이상적입니다.
필요한 정보를 얻기 위해 데이터를 처리하십시오.
대용량 데이터는 매우 강력한 자원이지만 적절하게 분류되어 정보로 변환되지 않는 한 데이터는 쓸모가 없습니다. 현재 Hadoop 클러스터는 이러한 데이터 수집을 정보로 처리하는 데 매우 비용 효율적인 방법을 제공합니다.
댓글을 찾을 수 없습니다