Kafka Streams Tutorial – Emergence Of Big data

Kafka Streams 코스에 오신 것을 환영합니다 이 첫 번째 강연에서는 빠른 소개를 드리겠습니다

우리가 큰 데이터에서 시작한 곳과 어디로 갈 것인가? 권리? 의 시작하자 검색 엔진은 일상 생활에서 필수품이되었습니다 그러나 1993 년까지, World Wide Web은 손으로 색인을 생성했습니다 믿을 수 있니? Tim Berners-Lee 경 그 목록을 손으로 편집하고 CERN 웹 서버에서 호스팅하십시오 검색 엔진이 없습니다

나중에 야후는 사람들이 웹 페이지를 찾을 수있는 가장 인기있는 방법으로 떠올랐다 인터넷 그러나 전체 텍스트 색인 및 검색보다는 웹 디렉토리를 기반으로했습니다 엔진 알고리즘 몇 년 사이에 많은 개발이 이루어졌지만 1 년 내내 2000 년 Google은 PageRank 알고리즘에 대한 혁신적인 아이디어로 주목을 받았습니다

초기 PageRank 알고리즘은 두 가지 중요한 아이디어를 기반으로했습니다 특정 웹 페이지에 링크 된 웹 사이트의 수 또는 외부 웹 사이트의 수를 말할 수 있습니다 웹 사이트를 가리키는 링크 두 번째 아이디어는 다음에서 발견 된 키워드입니다 웹 페이지

우리는 PageRank의 세부 사항에 들어 가지 않을 것입니다 연산 그러나 Google은이 페이지 순위 알고리즘을 구현했습니다 대규모로 구현에 대한 중요한 요구 사항 중 하나 PageRank 알고리즘은 World Wide에서 대량의 데이터를 크롤링하고 수집하는 것이 었습니다 편물 이것은 Bigdata의 탄생에 기여할 시간과 필요였습니다

그게 어떻게 시작 됐어 Google은 처음으로 Bigdata 문제,하지만 또한 가능한 솔루션을 개발하고 상업적으로 처음으로 설립 Bigdata 처리 기술을 사용한 성공적인 비즈니스 높은 수준에서 Google 검색 엔진은 해결해야 할 네 가지 주요 문제가있었습니다 인터넷을 통해 웹 페이지를 검색하고 크롤링하고 콘텐츠 및 메타 데이터를 캡처합니다 이 첫 번째 문제는 쉽게 해결할 수있었습니다

필요한 모든 것은 간단한 프로그램이었습니다 웹 페이지의 컨텐츠를 검색하여이를 스토리지 시스템에 저장합니다 그러한 프로그램은 현재 널리 알려진 웹 크롤러입니다 그러나이 요구 사항은 두 번째 문제 엄청난 양의 데이터를 저장할 위치 웹 크롤러가 수집합니다

스토리지가 문제의 끝이 아니 었습니다 그들 또한 해당 데이터를 처리하고 PageRank 알고리즘을 적용하려고했습니다 그리고 그것은 세 번째 문제 마지막으로, 그들은 또한 에 의해 고속 쿼리를 지원할 수있는 임의 액세스 데이터베이스에서 PageRank의 결과 Google 검색 엔진 응용 프로그램 이러한 문제는 새로운 것이 아니며 일반적으로, 그들은 2000 년 전에도 구글이 새로운 혁신적인 접근법

업계는 이미 생성, 수집, 처리 중이었습니다 및 데이터 액세스 Oracle 및 MS SQL Server와 같은 데이터베이스 관리 시스템은 이러한 응용 프로그램의 중간 당시 일부 조직은 이미 테라 데이타 (Teradata)와 같은 시스템을 사용하는 테라 바이트의 데이터 볼륨 그러나 Google 해결하기 위해 노력한 것은 세 가지 고유 한 속성이 결합되어 훨씬 더 어려웠습니다

시간의 DBMS를 사용하여 해결할 수 있습니다 볼륨, 버라이어티 및 속도 웹 크롤러를 만드는 것은 Google에게는 큰 문제가 아니 었습니다 그것은 간단한 프로그램이었습니다 페이지 URL을 검색하여 페이지 내용을 검색하고이를 스토리지 시스템에 저장합니다

하지만 이 프로세스에서 주요 문제점은 크롤러가 수집하는 데이터의 양이었습니다 인터넷 크롤러는 인터넷을 통해 모든 웹 페이지를 읽고 그 사본을 저장해야했습니다 스토리지 시스템의 페이지 Google은 대규모 볼륨을 처리 할 것이라는 것을 알고있었습니다 당시에는 DBMS가 없었기 때문에 해당 수량을 저장하고 관리 할 수있었습니다 웹 페이지의 내용에는 구조가 없었습니다

그 (것)들을 a로 개조하는 것이 가능하지 않았다 행 – 열 형식으로 저장 및 처리하지 않습니다 Google은 시스템이 필요하다는 것을 알고있었습니다 다양한 형식으로 제공 될 수있는 원시 데이터 파일을 처리 할 수 ​​있습니다 시간의 DBMS 원시 데이터를 처리 할 중요한 지원이 없었습니다

벨로 시티는 모든 사운드 시스템의 가장 중요하고 필수적인 특성 중 하나입니다 Google 데이터를 신속하게 수집하고 처리하며 더 빠른 속도로 사용해야했습니다 속도 Google 검색 엔진은 검색 엔진 비즈니스를 시작한 이래 USP였습니다 거래를해야하는 Bigdata 애플리케이션의 새로운 시대를 이끌고있는 속도입니다 데이터를 실시간으로 확인할 수 있습니다

경우에 따라 데이터 포인트가 시간에 민감합니다 환자의 바이탈처럼 이러한 데이터 요소의 저장 수명은 제한적입니다 경우에 따라 시간이 지나면 쓸모 없게 될 수 있습니다 우리는 속도로 되돌아 올 것이다

속도가 실시간의 원동력이기 때문에 다음 강의에서 다시 한번 시스템 -이 과목의 주요 과목 Google은 위의 모든 문제를 성공적으로 해결했습니다 그리고 그들은 시리즈의 세계의 나머지에 그들의 해결책을 밝힐만큼 충분히 기질이 좋았다 3 개의 백서로 구성됩니다 이 세 가지 백서에서는 Google의 해결 방법에 대해 이야기했습니다 데이터 저장, 데이터 처리, 데이터 검색 등을 포함한다

이 세 가지 백서는 모두 높이 평가되었습니다 오픈 소스 커뮤니티에 의해 디자인과 개발을위한 기반을 형성했습니다 Hadoop이라고 불리는 유사한 오픈 소스 구현물의 일부이다 Hadoop과 다른 모든 유사한 솔루션은 일반적인 처리 문제를 해결하려고했습니다 이전에 분산 저장 장치에 저장된 많은 양의 데이터

이 접근법 일반적으로 일괄 처리라고합니다 일괄 처리 방법에서 데이터는 수집되어 분산 시스템에 저장됩니다 그런 다음 배치 작업을 사용하여 데이터를 읽습니다 분산 된 클러스터를 이용하여이를 처리 할 수있다 이전에 저장된 데이터를 처리하는 동안 새 데이터는 계속 스토리지에 도착합니다

그런 다음 다음 배치를 수행하고 결과와 결과를 결합해야합니다 이전 배치의 이 프로세스는 일련의 배치로 진행됩니다 일괄 처리 방법에서 결과는 특정 시간 이후에 사용할 수 있습니다 일괄 처리의 빈도와 일괄 처리가 처리를 완료하는 데 걸리는 시간 이러한 데이터 처리 배치에서 파생 된 통찰력은 가치가 있습니다 그러나 그러한 모든 통찰력 평등하지 않습니다

일부 통찰력은 데이터가 처음 나타난 직후 훨씬 더 높은 가치를 가질 수 있습니다 그 값은 그 시간과 함께 매우 빠르게 감소합니다 대부분의 경우 데이터 포인트는 시간에 민감하므로 대처해야합니다 분, 초 또는 밀리 초 단위로 표시됩니다 예를 들어, 사기 탐지 시스템은 많이 있습니다

트랜잭션이 완료되기 전에 사기 거래를 식별 할 수 있다면 더 가치가 있습니다 유사하게, 의료 ICU 또는 외과 수술 설정에서, 다양한 모니터들로부터의 데이터 간호사 및 의사에게 실시간으로 경보를 생성하여 즉시 알 수 있습니다 환자의 상태 변화 일반적인 사용 사례에 대해 논의합니다 향후 강의에서 이러한 요구 사항에 대한 데이터 소스를 제공합니다

그러나 필수적이다 시간에 민감한 데이터를 처리하는 속도에 대한 요구가 지속적으로 Bigdata 프로세싱 솔루션의 한계를 뛰어 넘습니다 이러한 요구 사항은 많은 사람들의 원천입니다 Kafka Streams, Spark 스트리밍, Apache Storm, Apache와 같은 혁신적이고 새로운 프레임 워크 Flink, Apache Samza 및 Google Cloud Dataflow 및 Amazon Kinesis와 같은 클라우드 서비스 이러한 새로운 솔루션은 실시간 데이터 처리 요구 사항을 충족시키기 위해 발전하고 있습니다

큰! 그래서,이 강연에서 빅 데이터에 대해 이야기했습니다 문제와 그것이 시작된 방법 우리는 또한 Google이 발표 한 세 개의 백서에 대해서도 이야기했습니다 이로 인해 큰 데이터 이동이 시작되어 Hadoop이 개발되었습니다 하둡이 움츠려 들었다

조직과 전문가들 사이에서 엄청난 관심과 인기를 얻었습니다 그러나 하둡 배치 처리 접근 방법을 채택했으며 이에 대해 간단히 이야기했습니다 그러나 기대 시간이 많이 걸리는 데이터를 신속하게 처리 할 필요가 있습니다 다음에 강의, 솔루션 구축에 대한 생각을 어떻게 시작할 수 있는지에 대해 자세히 설명합니다 실시간 데이터 처리 기대치를 충족시킬 수 있습니다

책을 읽는 것을 선호한다면,이 훈련 내 책을 기반으로합니다 모든 주요 온라인 소매점에서 종이 표지 책 또는 전자 서적을 얻을 수 있습니다 다음 강의에서 만나요 계속 배우고 성장하십시오