Apache Kafka Tutorial | What is Apache Kafka? | Kafka Tutorial for Beginners | Edureka

안녕하세요 여러분! Edureka의 Subham입니다 오늘 세션의 주제는 카프카 자습서입니다

따라서 아무런 지체없이 오늘 세션의 의제를 살펴 봅시다 이해하는 것이 중요하다고 생각합니다 기술의 필요성 이제 메시징 시스템의 필요성부터 시작하겠습니다 그런 다음 Apache Kafka와 그 기능을 이해할 것입니다 Kafka 튜토리얼을 더욱 발전시켜 우리가 다른 것에 대해 배울 것입니다

Apache Kafka의 구성 요소와 아키텍처 마침내 우리는 Apache Kafka를 설치하고 배포 할 것입니다 단일 노드 단일 브로커 클러스터

Apache Spark Tutorial | Spark Tutorial for Beginners | Apache Spark Training | Edureka

여러분 모두에게 매우 환영합니다 Edureka의이 Spark Tutorial에 대해서

시작하기 전에 모든 사람으로부터 빠른 확인을받을 수 있습니까? 너의 오른편에 내가 크고 분명하면 너는 채팅 옵션을 찾거나 뒤로 밀면됩니다 당신은 그 중 하나의 옵션을 입력 할 수 있습니다 아주 좋아, 감사 Saurabh 그래서 당신이해야 할 일은 당신이 알아낼 수있는 것입니다 질문을하고 방금 게시했습니다

여기에 대한 응답이므로 언제든지 저를 방해하십시오 가운데 언제든지 언제든지 나는 괜찮을거야 너는 거기에서 중간에 나를 방해 할 수있어 우리는 당신의 질문을 받아 들일 수 있습니다 이 웹 세미나에서 기대할 수있는 모든 것 왜 아파치 스파크인가, 왜 아파치 스파크인가? 왜 우리는이 새로운 기술을 배우고 있습니까? 오늘날의 세계에서 이 아파치 스파크에 대해 많이 들으셔야합니다

거기 아파치 스파크는 세계에서 다음 큰 것입니다, 왜 사람들은 아파치 스파크에 대해 이야기하고 있습니까? 다음 큰 것, 기능은 무엇입니까? 아파치 스파크에서 우리가 그런 말을하고있는 것 때문에? 그 아파치 스파크는 다시 다음 큰 일입니다 Apache Spark와 관련된 사용 사례는 무엇입니까? Apache Spark 생태계는 어떻게 생겼습니까? 우리는 또한 실습 예제를 할 것입니다 세션 중과 끝에서 나는 너를 프로젝트를 통해 걸을 것이다 아파치 스파크 (Apache Spark) 그래서, 그것은 당신이이 세션에서 기대할 수있는 것입니다 더 나아가, 이제 우리가 이야기하기도 전에 먼저 아파치 스파크 (Apache Spark)에 관해서는 매우 중요합니다

빅 데이터를 이해하기 위해서는 또는 우리가 옳게 선택할 것 Apache Spark 빅 데이터에 사용됩니까? 이제 빅 데이터라는 핵심 단어는 무엇입니까? 그것이 우리가 논의 할 첫 번째 것입니다 Big Data 란 무엇입니까? Big Data는 무엇을 알고 있습니까? 귀하의 답변은 무엇입니까, 몇 가지 대답을 얻을 수 있습니까? 오른쪽에 질문 패널이 보입니다 너는 거기서 대답 할 수있어 진지하게 만들어라 이 작은 대화식, 정말 도움이 될 것입니다

이 주제를 잘 이해하고, 나는이 수업이 끝날 때까지 너에게 보증 해 줄 것이다 당신은 무엇에 관한 좋은 지식을 가지고 모두 갈 것입니다 아파치 스파크,하지만 나 좀 도와 줘야 해 대화식으로 만들 수 있습니다 너는 나에게 말할 수있다

너는 무엇을 이해 하느냐? 빅 데이터 키워드 별? 아주 좋아요, 진실입니다 매분마다 생성되는 거대한 가벼운 데이터 다양한 자원에서 인터넷에, 아주 좋은 대답 그래서 우리는 대량의 데이터가 생성되었다고 말하고 있습니다 회사 네트워크에서 켜고있어 알았어

텍스트, 이미지, 비디오, 스트림, 아주 좋을 수 있습니다 일종의 성명서 만 보아라 많은 양의 데이터가 Big Data라고 부르지 만 실제로는 이 경우 빅 데이터가 아닌 대량의 데이터를 호출 할 수 있습니까? 아니요, 소책자는 데이터의 속성 중 하나 일뿐입니다 필요한 빅 데이터가 무엇인지 계속 정의해야하는 경우 더 넓은 의미에서 정의하기 위해, 나는 말할 필요가있다 볼륨이지만 다양한 자원에서 데이터가 어떻게 생성되는지, 페이스 북은 많은 데이터 또는 뉴스를 사용하고 있으며, 의료 도메인이 모든 도메인은 빅 데이터를 생성하고 있습니다

이제 다양한 종류의 자원에 대해 말하면 그것은 우리가 또한 말하고있는 그것을 생성하고있다 이 인쇄물에 대해서 어디서 읽었습니까? 그리고 결국에는 벡터 속도에 대해서도 이야기 할 것입니다 이 데이터는 페이스 북에 대해, 단지 10 살짜리 회사를 보아라 그들은 단지 10 년이라는 아주 오래되지 않은 회사 다 또는 12 세의 회사

이제 10 년에서 12 년 사이에 페이스 북이 성장했습니다 그 데이터는 기하 급수적으로, 그들은 엄청난 양의 데이터 몇 달 전 Mark에게서 트윗을 들었습니다 페이스 북의 CEO 인 그는 페이스 북 페이스 북 타임 라인에서 그는 스폰지 백이라고 언급했다 그리고 페이스 북에는 오늘 숫자가 있다고 언급했다

생활 인구의 수와 동등한 이 그룹이 100 년 전에 그것은 큰 진술입니다, 아니 새미, 우리는 내가 제공 할 구조화되지 않은 데이터도 처리 할 수 ​​있습니다 그 시점까지 그들은 큰 일을 이야기하고 있습니다 이제 Facebook에 대한 도전입니다 얼마나 많은 양의 데이터에 대해 이야기하고 있는지 상상할 수 있습니다

이제는 사용자의 수와 관련하여 들립니다 그러한 사용 데이터, 이제 활동은 무엇인가? Facebook에서 무엇을 하시나요? 너는 짹짹 오른쪽, 어쩌면 당신은 메시지를 입력 할 수 있습니다 또한 사진을 업로드하거나, 비디오를 업로드하거나, 당신은 오디오를 바로 업로드 할 수 있습니다 이제 그들은 일종의 포맷 된 데이터입니까? 우리가 다른 아이디어를 내 누이, 대답은 옳지 않습니다 틀림없이 그들은 친절하지 않습니다

그들은 매우 좋은 형식의 데이터를 그들이 데이터와 카테고리의 다른 카테고리 이를 비 구조적 데이터라고합니다 이제는 DBMS 시스템으로 처리 할 수 ​​있습니다 그 종류의 데이터, 대답은 아니오입니다 우리의 DBMS는 모든 구조를 다룰 수 있습니다 일종의 패턴을 가진 데이터를 사용할 수 있습니다

이제 우리가 하둡에 대해서 이야기 할 때 우리는 또한 이야기합니다 오디오에 대해, 우리가 다른 말로 우리가 부르는 비디오 그것은 비 구조화 된 데이터입니다 그래서 그것은 다양한 형식의 데이터이기도합니다 우리가 데이터를 다루는 것, 그래서 우리는 단지 말할 수 없습니다 이 데이터를 보면 거대한 데이터입니다

빅 데이터 아니오, 그것은 단지 하나의 속성입니다 왜냐하면 내가 구조화되지 않은 데이터를 가지고 있다면, 본질적으로 작지만 여전히 보유하고있는 경우에도 여전히이 Hadoop의 뿌리 인 Big Data 도구를 사용합니다 그들을 해결하기 위해, 그래서 그 경우에도 사용 DBMS가 효율적이지 않기 때문에 데이터 도구 그 모든 종류의 문제를 해결하기 위해서, 그것은 하나의 문제입니다 이제 얻은 데이터는 무엇이든 얻을 수 있습니다 어떤 종류의 문제, 누락 된 데이터가있을 수 있습니다

손상된 데이터가있을 수 있습니다 Veracity라는 데이터가 또한 Big Data의 한 속성입니다 따라서 빅 데이터는 볼륨이 아니라는 것을 알 수 있습니다 그러나 여러 요소로 구성됩니다 다양한 속도, 다양성, 진실성

이 모든 것이 빅 데이터의 중요한 구성 요소입니다 12 년 만에 페이스 북에 말했다 우리가 측면에서 볼 때 데이터를 너무 많이 성장시킬 수 있습니다 큰 데이터처럼 들리는 사용자 수 자체의 사용자가 활동을 수행 한 후 자신의 플랫폼에서 얼마나 많은 데이터를 상상해 페이스 북 페이스 북뿐만 아니라 유사하게 취급 할 수도있다 우리가 Instagram에 대해서 이야기를하더라도, 매분 게시물의 상당 부분이 좋아지고 있습니다

거의 70 명이 좋아, 36,000,111 나는 매 순간 얘기하고 있는데, 나는 심지어 말하고 있지 않다 하루 기준으로, YouTube 1 분마다, 3 시간 분량의 동영상이 업로드되고 있습니다 하지만 YouTube에서 아무것도 검색하면 천천히 쿼리 할 수 ​​있습니다 어떻게 모든 데이터를 그렇게 효율적으로 처리 할 수 ​​있습니까? 우리는 매 순간 페이스 북에 대해 이야기 할 수 있습니다 뭔가를 게시하거나 뭔가를 좋아하고 있습니다

너무 많은 사건이 일어나고 있습니다, 우리는 이야기 할 수 있습니다 트위터에 대해 매분마다 좋아하는 3 개, 47,000,222 짹짹이 그렇게 많이 일어나고 있습니다 분당 활동이 일어나고 있습니다 우리는 상상할 수있는 분당에 대해 이야기하고 있습니다 지금 일어나야 할 일이 무엇이겠습니까

사실 유원지가 풍부합니다 매 2 년마다, 데이터가 두 배가됩니다 당신은 달에 도달하기를 원한다 단지 모든 데이터를 태워라 지금 너와 너는 무엇을 가지고 있고 너는 할 수있을거야

달에 두 번 도달하는 것은 데이터의 양입니다 현재 우리가 다루고있는 것 더 나아가 지금 무슨 일이 일어날 지 상상해보십시오 2020 년에 건전지를 가져 가면 나는 항상 서구에게 너희 모두가 앉아 있다고 말하고있다 데이터 폭탄에 그리고 개 폭탄에 이것은 가고있다

현재 일어나고있는 일 때문에 매우 빨리 일어납니다 데이터로 작업하는 기업이 4 ~ 5 %에 ​​불과합니다 데이터의 잠재력을 실현했습니다 이제 그들과의 도전은 그들이 주저하고 있다는 것입니다 Hadoop 도구를 사용하기에 안전한 큰 데이터로 이동 그렇지 않은 이유는 그들이 두려워하기 때문입니다

내일이 바뀌면 어떻게 되겠습니까? 큰 데이터 도메인에 좋은 지원, 그들은 사용자의 수를 얻을 것인가? 누가 그 문제를 해결할 수있을 것인가? 그들이 아직도 생각하고있는이 모든 문제들은, 그들은 같은 이유로 사용하기를 주저합니다 Big Data 도구와 같은 기술 하지만 지금은 이렇게 오래있을 수 없어 확실히 무대가 있기 때문에 DBMS를 전혀 사용할 수없는 곳 또는 그 상황에서 모든 전통적인 시스템 그들은이 전환을해야합니다 2020 년까지이 회사의 5 %가 될 것으로 예상됩니다

40 %로 성장하고 지금 당장 상상해보십시오 너는이 indeedcom 또는 nok3com에 간다 당신은 매우 많은 일이 구매 경로를 위해 나타나고있는 것을 보았습니다

빅 데이터와 모든 것, 2020 년에 일어날 일을 상상해보십시오 엄청난 수요와 종이 공급 부족 나는 당신 회사에서이 말을 분명히한다 네가 일하는 중이라면 데이터베이스 회사에서 해보자 당신은 고위 관리자가되어야합니다 어쩌면 수석 디렉터 일 수도 있고 부사장 일 수도 있습니다

때로는이 사람들을 생각해 보라 그들의 경력을 시작한 것은 정말 행운입니다 20 년 전 Oracle DB 또는 DBMS 누가 지금 막오고 있으며 오늘 그들은 VP가되었습니다 나는 여전히 소프트웨어 개발자 입장에 앉아있다 그것은 매우 일반적인 생각입니다

너의 마음에 나는 그것에 대해 꽤 확신한다 이제 당신은 정확히 같은 위치에 앉아 있습니다 내일 세대, 당신의 미래 세대 비슷한 방식으로 정확하게 생각할 것입니다 그들은 또한 같은 방식으로 생각할 것입니다 이 사람들은이 빅 데이터 영역의 운 좋은 사람이었습니다

방금 나왔다 그들은 실제로 아파치와 함께 총격을 받았다 그리고 그들은 오늘 VP가되었고 나는 여전히 앉아있다 이 위치에서, 그래서 당신은 점령 할거야 곧 도메인이기 때문에 곧 그것은 폭발 할 것입니다

그리고 이것은 나, 나는 그것을 말하고 있지 않다 이것은 시작 요원으로부터의 모든 예측입니다 분석가들과 나는 작은 것에 대해서 이야기하지 않고있다 그리고 당신은 블록을 떠날 수 있습니다, 당신은 쉽게 할 수 있습니다 사실, 많은 사람들이 가지고있는 모든 것을 얻으십시오

또한이 수준으로 와서 말하기를, 향후 5 년간의 사람들 누가 데이터 또는 아파치 스파크로 변신하지 않을 것인가? 그들은 심지어 시장에서 살아남을 수 없을 것입니다 이것은 또한 분석가에 의해 말하고있다 이제 2020 년까지 데이터의 양을 상상해보십시오 그걸 다루면, 쇼핑몰, 쇼핑 카트, 차량 및 데이터를 생성하는 이러한 종류의 이벤트 지연 될 데이터의 양을 상상해보십시오 사실 이것은 당신이이 용어에 대해 들었을 것입니다

IoT, 장치의 인터넷 그 자체로 큰 데이터가 필요합니다 왜냐하면 많은 양의 데이터를 생성합니다 그래서 주위에 많은 일들이 일어날 것입니다 Big Data Analyst에 대해 이야기하고 정확히 무엇을 말합니까? 이 Big Data Analytics는 정확히 무엇을하고 있습니까? 이제이 과정은 처음부터 웹 로그 분석이란 무엇인지 이해해주세요

웹 로그 분석은 당신이 주어진 데이터와 당신은 그것으로부터 약간의 통찰력을 생성합니다 그것으로부터의 의미있는 통찰력, 당신은 원한다 데이터에서 어떤 정보를 얻으려면 현재 데이터가 당신과 함께 앉아 있기 때문에, 당신은 데이터에 대한 어떤 생각도 가지고 있지 않습니다 데이터와 그것에 대해 전혀 모른다 하지만 그 데이터와 관련하여 일하고 있습니다

분석가로서 당신은 데이터의 의미있는 정보 이를 애널리틱스라고 부르지 만 현재 주요 문제 데이터가 대량으로 증가했기 때문에 빅 데이터 그렇게 많이 데이터를 분석 할 수있는 방법은 무엇입니까? 데이터를 사용하여 내부에서 비즈니스를 얻을 수 있습니까? 우리가 이해하고자하는 모든 요점, 이 행동은 Big Data Analytics라고합니다 이제 일반적으로 수행되는 두 가지 유형의 분석이 있습니다 첫 번째 종류의 분석을 배치 분석이라고하며, 두 번째 종류의 분석을 실시간 분석이라고합니다 그게 다 뭐니? 하나씩 이해해 봅시다 이 배치 분석이란 정확히 무엇입니까? 실시간 분석? 이제는 모두 가정에서 세탁기를 사용해야합니다

또는 세탁기에 대해 쉽게 들었습니다 이제 당신이 정말로 할 수있는 일, 당신이 수집 할 때 옷을 벗고 언젠가는 씻어 라 아니면 옷을 벗기 자마자 당신은 먼저 그것을 씻은 다음 목욕을하고 그것을 사용하십시오 따라서 일반적으로이 부분을 일반적으로 수집합니다 옷과 어쩌면 언젠가는 그냥 넣어 세탁기에서 모든 옷을 처리하십시오

요가가 과정 일 때 모든 옷을 씻는 것을 의미합니다 이런 종류의 처리를 Batch purposing이라고합니다 일부 데이터를 수집 한 다음 나중에 처리하는 곳 그래서 우리는 이것을 호출 할 것입니다 일괄 처리를 통해 이전 데이터를 볼 수 있습니다 당신이 일종의 처리를 할 때 이를 일괄 처리라고합니다

실시간 처리, 한 가지 예를 살펴 보겠습니다 신용 카드 결제를하고 있다고 가정 해 보겠습니다 그리고 대부분의 사람들이 신용 카드를 사용해야한다는 것을 확신합니다 또는 직불 카드를 온라인으로 할 수 있습니다 Edureka에게 지불하면 온라인으로 할 수 있습니다

확실히 모든 사람들이 자신의 카드를 사용해야합니다 지금 당신이 인도에 바로 앉아 있다면, 방갈로르시에 앉아서 신용 카드 거래, 즉시 10 분이 지나면 귀하의 부분도 미국에서 스 와이프됩니다 그것은 가능합니다, 틀림없이 당신은 생각합니다 은행이 일종의 다리 역할을한다는 것은 의미가 있습니다 여전히 발생하고 나중에 그들은 그것은 진정한 연결이거나 맞지 않습니다

확실히 그들은 다르게 기다리고 싶지 않다 외국 사람들이 일어난다면 그것은 그들의 손실 일 것입니다 실시간 이벤트가 발생하는 즉시 사람이 스 와이프하려고한다는 메시지를 받으면 외모가 보이지 않는 곳의 카드 진정한 연결, 그들은 둘 중 하나를 시작합니다 보내기 OTP를 사용하거나 연결을 차단합니다 그들은 즉시 당신에게 전화를 할 것이고, 그들은 당신에게 물을 것이다 이 연결을했는지 여부 이것은 우리에게 이상한 것처럼 보입니다

묻기 시작하고 일단 승인하면 그들은 그 거래가 일어나게 할 것이고, 과거 데이터에서 처리가 진행 중입니다 또는 현재 데이터, 현재 데이터 그럼, 우리가이 처리를하고 있다는 것을 의미합니다 실시간으로 데이터가 언제 어디서 오는지 나는 즉시 처리를해야한다 나는 카드와 리얼 타임을 스 와이프하고 내 시스템은 활성화되고 알고리즘을 시작하고 실행합니다

이 거래를 허용할지 여부를 확인합니다 이제이 두 번째 유형의 처리 실시간 처리 (Real Time Processing)라고합니다 그래서, 당신에게 차이점을 설명하기 위해 일괄 처리와 실시간 처리 사이 따라서 일괄 처리 또는 과거 데이터에 대한 책 동시에 두 번째 종류의 가공 작업 즉각적인 데이터가 그 차이점입니다 우리가 모든 것을 이야기하는 동안, 실시간 분석에 관해 이야기한다면 방금 이야기했습니다

신용 카드처럼 사용 사례가 거의 없습니다 은행 업무에서 정부 기관에 매우 중요합니다 너는 우리의 어둠의 예술을 원하고 있건 없건간에, 그래서 만약 당신이 인도에 있다면 당신은 그것을하고있을 것입니다 실시간 처리를 위해 하나 더 인스턴스를 줄 수 있습니까? 우리가 얘기하면 지금 Amina를 사용하기에 앞서있다 어떤 주식 시장 분석 권리, 주식 시장 분석

우리가 그것에 대해 이야기한다면, 바로 지금 무슨 일이 일어날 지, 많은 회사가 있습니다 당신은 관용 검색에 대해 들었습니다 Goldman Sachs 너는이 회사들에 대해 들었 니, 모건 스탠리, Goldman Sachs, 연구 이벤트, 당신이이 이름들에 대해 그들이 무엇을하는지 들어 본 적이 있습니까? 그들은 스마트 알고리즘을 개발했습니다 너는 네가 그들에게주는 돈을 신청하라 당신 주식에 대한 당신의 돈, 그들에게 무엇을 할 것인가? 그 알고리즘은 일종의 예측과 말을 할 것입니다

좋아이 주식 가격은 높을거야 이 주식 가격은 낮아질 것입니다 알고리즘을 공개하지 않기 때문에 그것들은 더 좋지만 상처는 상처를 새롭게해야한다 그들은 그것들이 그들의 손실이 될 것이지만 그들이하는 일은 그들에는 똑똑한 알고리즘과 그 알고리즘이 있습니다

실시간으로 어떤 일이 일어 났는지 의미합니다 시장에서 어떤 비정상적인 사건이 발생하면 Plexus top의 주식 위탁 회사 또는 아래로 내려갈 수 있습니다 무엇이 있어야 할 것인가, 그들은 즉시 자신을 보냄으로써 고객 그들이 어떤 사건을 발견하면 잃지 말라 주식이 이익을 낼 수있는 실시간 그들은 기본적으로 그 주식을 살 것이고, 그래서이 알고리즘 세트는 실행 중입니다 리얼 타임 스케일에서, 내가 무엇을 알고 있는지

그래서이 모든 회사들은 이 실시간 처리 부분 마찬가지로 여러 텔레콤 회사가있을 수 있습니다 건강 관리, 건강 관리는 매우 중요합니다 환자가 왔을 때, 지금 환자가 왔을 때 우리는 즉시 통찰력을 얻고 싶다 어떤 정보가 주어 지든 그것에 기초하여 일부 처리 수단은 환자 치료를 시작합니다

그래서 모든 것들은 실시간으로 일어나고 있습니다 왜 아파치 스파크를 사용해야할까요? Hadoop이 이미있을 때, 우리가 이야기하는 이유 이 일괄 처리 및 실시간 처리에 대해? 그 부분을 이해합시다 포인트 1 번은 매우 중요합니다 Hadoop에서는 일괄 처리 만 가능합니다 Hadoop이 실시간 처리를위한 것이 아님을 의미합니다

이제 데이터를 수집했다고 가정 해 봅시다 하루 둘째 날에, 당신 만이 당신을 처리 할 수 ​​있습니다 그런 종류의 무언가 나는 단지 말하는 것이 아닙니다 하루라도 데이터를 처리해야한다는 것입니다 역사적인 데이터 인 R 단어를 하나만 말하자

하지만 그 데이터에 즉시 액세스 할 수는 없습니다 이것이 Hadoop 시스템에서 수행되는 작업이지만 우리는 아파치 스파크에 대해 이야기했다 시간이 없다 당신이 여기에서 할 수있는 것은 언제 어디서나 데이터 너는 즉시 그것을 처리 할 수 ​​있고, 즉각적인 처리가 사건이나 현장에서 발생할 수 있습니다 이제 나에게 또 다른 질문을 할 수있다

스파크는 실제 시간 지정 데이터에만 사용됩니까? 아니요, 스파크를하고 역사적 데이터를 다루는 것은 배치 종류를 의미합니다 처리의뿐만 아니라 그것은 초당 실시간을 할 수 있습니다 그래서 두 가지 종류의 프로세싱을 모두 할 수 있습니다 아파치 스파크, 유일한 이점인가? 아니, 존경심으로 두 가지 더 이해하자 아파치 스파크에게

이제 우리가 하둡에 관해 이야기 할 때, 그냥 그렇게했습니다 Hadoop Spark처럼 일괄 처리가 발생합니다 이제 우리가 스파크에 왔을 때 그것은 존경심으로 일어납니다 귀하의 실시간 처리에 이제 너를 설명했던 것과 똑같은거야

그래서 내가하는 일은 데이터를 처리 할 수 ​​있습니다 여러 소스에서 데이터를 처리 할 수 ​​있습니다 실시간으로 매우 사용하기 쉽습니다 이제 MapReduce 프로그래밍을 작성한 사람이 있습니까? 아니, 만약 네가 그 일을 알았다면, MapReduce는 명시된, 사미르가 그렇게했던 것처럼 그렇게 쉽지는 않습니다 사미르, 쉽게 전달할 수있어

따라서 초보자가 필요로하는 것처럼 쉽지 않습니다 MapReduce를 배우는 것은 쉬운 일이 아니다 시간이 걸린다 그것은 프로그램을 작성하는 측면에서 복잡합니다 Spark를 사용하면 매우 쉽고 Spark도 가능합니다

장점이 하나 더 빠르며 처리 속도가 빠릅니다 이 스파크는 매우 빠른 속도로 처리 될 수 있습니다 하나 인 MapReduce 프로그램에 Apache Spark의 주요 장점 중 하나입니다 이제 자세히 살펴보고, 일단 내가 그 부분을 설명하면 모두 내 MapReduce를 더 천천히, 왜 아파치 스파크 더 빠르고, 왜 우리가이 모든 진술을하고 있는가? 아파치 스파크 (Apache Spark)가 무엇인지, 어떻게 동작하는지, 이 부분을 이해합시다 그래서 나는 지금 내 눈을 멀게 할거야 내 스크린 공유하게하면 알았어

단계별로 단계별로 설명해 보겠습니다 어떤 MapReduce 보스, 무슨 문제 였어? MapReduce를 사용하여 방금 내가 말한 것을 기억하십시오 MapReduce가 더 느린 이유는 무엇입니까? 그래서 나는 너를 조금씩 자세히 설명 할 것이다 그래서이 부분을 이해하자 몇 가지 예를 들어 보겠습니다

파일을 가지고있다, 그 파일은 그것이라고 말할 것이다 약간의 데이터가있다 사과, 바나나를 보자 그래서 나는 너희 모두가 이미 Hadoop 시스템에 대한 지식이있다 당신은 탈출 과정의 데이터에 대해 알고 있습니다

Hadoop 시스템에서 알려 주시면 알려 드릴 필요가 없습니다 우리가 128MB로 데이터를 분할하는 것처럼, 나는 추측하고있다 여러분 모두 이미이 주제를 알고 있습니다 이제 오렌지색으로 복사하겠습니다 내 데이터가 이런 종류라고 가정 해 봅시다

이것이 내 친구라고 가정 해 봅시다 지금 나는이 파일을 이미 말하게하고있다 거기에 무엇이 있는지, 256 MB라고하자 지금이 데이터를 기본 크기로 나누는 경우 얼마나 많은 블록을 만들지, 두 블록 따라서 128MB, 128MB가 될 것입니다

이제 이것은 두 개의 블록을 만들 것입니다 128MB 및 128MB 네 상사가 너에게 간다고하자 그리고 너에게 말했다 나는 이런 문제가 필요하다

그리고이 문제를 나에게 둘 필요가있어 내가 어떤 문제의 수를 말할 때, 이제이 파일에서 저는 세 가지 핵심 단어 만 가지고 있습니다 사과, 바나나, 오렌지 몇 번이나 사과 이 파일에서 여는 중 바나나 이 파일에서 여는 중입니다 몇 번이나 오렌지색입니까? 이 파일에서 여는 중입니까? 너 나왔고 이런 식으로 일하기 시작 했어 당신은 쉬운 문제라고 생각했는데 왜냐하면 내 파일을 두 부분으로 나눌 수 있는데, 128 MB 128 MB 각각 무엇을할까요? 나는 분산 된 패션으로 나갈 것이고, 나는 그것에 대해 연구 할 것이다

분산 된 방식으로 작업하려면 제가 할 일은 제가 말하려고합니다 이런 식으로이 문제를 풀어 라 나는 괜찮을거야, 너 한테 사과 두 개를, 오렌지가 4 개, 바나나가 B가되어서 만듭니다 조금 간단한, 지금 당신이 무엇을 할거야? 당신이 두 사과 먹고 싶다고 설정한다고 가정 해 봅시다 하나는 이것 앞에서, 두 번째는 바나나 칩, 이제 사과 앞에 사과가 필요해

왜냐하면 이것은 첫째로, 오렌지 케이크를 제안하고있다 너는 그들 앞에서 하나 추가하기 시작했다 그들이 다시 왔을 때, 당신은 그 사과를 보았습니다 이전에 이미 발생했으며 카운트가 하나였습니다 그래서 이번에는 글꼴을 하나씩 늘릴 것입니다 당신은 그것을 파견하게 만들었습니다

이제 다시이 알고리즘을 비슷한 방식으로 수행했습니다 바나나 때문에, 당신은 첫 번째 블록을 위해 이것을 계속했습니다 일할 수있는 코드의 두 번째 블록에 대한 작업 다른 기계에서, 당신은 정확히 자극을했습니다 당신은 정확히 비슷한 단계를했습니다 이제 다음 단계는 무엇입니까? 이 경우에 할거야? 이제 이것으로 다음 단계가 될 것입니다

무슨 일이 있어도 출력을 위해 결합해야합니다 먼저 사과를 결합하고자하는 모든 것을 말하자 몇 번이나 제안했는지, 여기에서 말하자 너 사과하러 가자 20 수업에서 두 ​​번째 블록에서부터 a의 출력, 질량에서 34, 유사하게 바나나 때문에, 당신은 그렇게했습니다, 바나나 때문에, 56 개를 구입했다고 가정 해 봅시다

두 번째 바나나,이 오렌지와 오렌지, 결국 당신은 이것을 결합하고 출력을 줄 것입니다 그래서 당신은이 종류의 무언가를 다음에 할 것입니다 a, 20, 34 그리고 여기 또한 바나나를 위해 할 것입니다 당신은 오렌지를 위해 할 것이고 결국에는 당신이 할 것입니다 알았어, 1 해결책 가져와

네 상사 한테 내가이 문제를 해결한다고 말해라 네 사장님이 너와 행복하지 않을거야, 왜? 텔넷에 문제가 없습니다 이 접근법을 사용하면 올바른 접근 방식이 아닙니다 아무도 여기서 성능 병목 현상이 어디 있는지 말해 줄 수 있습니까? 성능 병목 현상은 어디에 있습니까? 왜 이것이 올바른 접근 방식이 아니라는 것을 말하고 있는가? 아무도이 양식 진술서를 볼 수 있습니까? 문제가 어디에 있습니까? 그래서, 집계 부분을 말할 필요가 있습니다 이 집계 부분은 아폴로입니다

다른 사람이 거기서 말한 것은 어떨까요? 다른 문제에 대해서는 문제가 없다고 가정 해 봅시다 그것이 매우 빠르다고 말하자 다른 사람을 기다려야한다 아니, 그건 맞는 해결책이 아니야, 실제로 문제가되지 않으므로 이것이 일종의 연결된 것이라면 다른 사람들을 기다릴 수없는 방법으로 다른 솔루션은 무엇입니까? 여기에 무슨 문제가 있습니까? 그런 다음 해결책이 무엇인지, 알 수 있습니까? 여기의 문제, 이 128 MB 파일, 당신 생각하십니까? 텍스트 데이터 만있는 경우 작습니다 너는 작아 질 것이라고 생각하니, 아냐

이제이 단계를 수행 할 때, 당신이 당신의 성적을 떨어 뜨리고 있다고 생각하지 않습니까? 요소가 올 때마다 당신은 가고 있는지 여부를 다시 확인하고 있습니다 그 요소는 이전에 또는하지 않았고 둘째로, 그러면이 숫자를 더합니다 이것이 우리 병목 현상이라고 생각하지 않습니까? 나는 이것을하기를 원하지 않는다 왜냐하면 매번 우리가 돌아갈 필요가있을 때마다 새로운 입장이 올거야 해당 요소가 이전에 발생했는지 여부를 확인하십시오

이것이 알고리즘의 주요 병목입니다 MapReduce가 어떻게 이것을 해결했는지, MapReduce가 이 문제를 해결하는 올바른 솔루션 프로세스는 무엇입니까? 그럼 어떻게 해결할 수 있는지 보도록하겠습니다 그래서 병목 현상이있는 곳에서 나는 진짜 흥분하지 않았습니다 우리가 돌아보고 있었기 때문에 그 병목 현상을 제거하면 보자 여기에서 지금이 솔루션을 제거하겠습니다

우리가 할 일은 더 나은 해결책을 내 보자 그래서 우리가하려고하는 것, 그래서 나는 가고 있다고 말한다 이번에는 사과 하나 만들어, 바나나를 만들거야, 하나 나는 오렌지색으로 만들거야 이번에 다시 실제가 왔을 때 나는 가서 돌아 보지 않을거야 이제 다시 여기에도 쉼표 하나만 넣을 것입니다

이것 앞에 열쇠가 무엇이든간에 나는 이것 앞에서 하나 덧붙이고있다 비슷하게, 나는 두 번째 드롭도했다 그래서 두 번째 블록에 대해서도 정확하게 했어요 내가 기다리지 않는 것과 똑같은 것들, 나는 아니다 가서 이전에 증가했는지 확인하십시오

이제 다음 단계에서 내가 할 일 사과가 나온 곳마다 나는 그들을 모으고 싶다 그래서 나는이 엔트리들을 결합 할 것입니다 이 두 기계 모두에서 나는 결합하려고합니다 이 관심과 내가 어디에서 할 것인지 나는 사과 또는 크림을 느낀다 함께 데려 가자

사과 쉼표 하나, 사과 쉼표 하나, 사과 쉼표 하나, 어디에 있든간에 두 기계 모두에서 우리가 어떻게 할 수 있을까요? 정렬을하면됩니다 모든 것을 하나의 기계로 통합 그런 다음 정렬 단계를 수행합니다 비슷하게 바나나를 위해 할 일 그래서 바나나 쉼표 하나, 바나나 쉼표 하나, 계속 해보자 지금은 비슷하다 내가 오렌지를 위해서 할 수있는 일

그래서 나는 계속 그렇게 할 수 있습니다 다음 단계에서 다음 단계는 무엇입니까? 이 모든 것을 하나로 결합 할 것입니다 사장이 올 때마다 나는 그냥 데리고 왔어 바나나와 비슷하게 나도 그렇게 할거야 이제 모든 사람들이 솔루션의 냄새를 맡을 수 있습니다

우리는 해결책을 냄새 맡을 수 있습니다 다음 것은 무엇입니까? 나는해야한다 나는 모든 것을 결합해야한다 모든 것을 집계하십시오 출력을 줄 것 인 3 번을 제공하고있다

쉼표 3 개, 쉼표 3 개, 숫자 3 개 하나의 거기에있을 것입니다 내가 그 출력을 결합하는 것입니다 그래서 쉼표 3, b 쉼표 3 우리가하는 일이 무엇이든, 나는 여기서 예를 든다 이제 MapReduce가 문제를 해결하는 방법입니다 그래서 우리가 한 조치가 무엇인지 알면 우리가 한 첫 번째 단계는 Mapper Phase로 불립니다 두 번째 단계는이 두 단계를 수행 한 것입니다 정렬 및 셔플 피치 및 제 3 단계 여기서하고있는 것을 감속기라고합니다

그래서 이것들은 관련된 세 단계입니다 MapReduce 프로그래밍에서 이제 이것이 어떻게 당신이 당신의 문제를 해결할 것인가입니다 이제는 알았습니다 왜 MapReduce가 더 낮았는지, 아직도 수수께끼가있다

우리는 분명히 이해하기를 원하기 때문에 우리가 왜 MapReduce에 대해 이야기했는지 이 문제를 해결하기 위해 더 낮습니다 우리는 복제를 다시 시작하는 중입니다 이걸로 나는 네가 모든 것을 알고 있다고 가정하지 않았다 Hadoop 시스템의 이러한 사실은 모르는 경우 나 한테 물어 봐야 해, 알았어 그래서 나는 당신에게 적절한 예를 줄 수 있습니다

그래서 나는 지금 당신이 복제를 알고 있다고 가정하고 있습니다 그래서 나는 복제 인자가 하나라고 가정하고 있습니다 이것은 지금 일어날 일입니다 지금 내가 이것을 실제로 본다면 나는 이것을하고있다 그래서 나는이 두 기계를 가지고이 두 기계를 추가한다

이 두 기계는 지금 ​​당장 내 모든 작업이 일어나고있다 그래서 이것은, 디노에 대해 다시 한번 말하지만, 나는 이것을 알고 있다고 가정하고 있습니다 네가 날 막지 않으면이 두 사람이야 너의 데이터 노드 야, 알았어 이 두 가지는 데이터 노드이므로 어디에서 데이터는 요인 데이터 노드에 상주하므로 어떤 것이 될 것인가? 이게 너의 블록 b라고 말하자

그리고 이것이 당신의 블록 b 2라고 말하자 그래서 무슨 일이 일어나면, 이것은 하나의 블록이 될 것입니다 내 복제 요소가 하나라고 생각한다면 이 한 블록은 다음에 가장 어려운 곳에 거주하는 것입니다 데이터 노드 1과이 블록 2 블록이 존재 함 데이터 노드 2의 하드 디스크에 저장됩니다 이것은 우리가 데이터 노드 2, 이것이 데이터 노드 하나라고 말할 수 있습니다

이제 무슨 일이 일어날 지 알면 처리를 수행하는 곳 디스크 레벨에서 처리를 수행합니까? 또는 메모리 수준에서 처리를 수행합니까? 처리가 이루어지는 곳에서 대답을 얻을 수 있습니까? 기억, 항상 그 기억 어디 처리가 발생합니다 이제 우리가해야 할 일은, 이제 매퍼 코드는 첫 번째 코드 실행될 코드는 매퍼 코드가됩니다 매퍼 코드가이 컴퓨터에 올 때 이 블록은 하나, 밖으로 이동됩니다 디스크 란 책상에서 메모리로 복사하는 것을 의미합니다 이 기계의 한 블록은 메모리에 올 것이다 이 머신의 mapper 코드가 실행됩니다

마찬가지로,이 기계의 블록에 b 이 기계의 기억을 향해 나아 간다 그리고 그것은 처형 당할 것입니다 자, 당신이 컴퓨터 과학 프로그램의 품질이라면 또는 당신이 아니라고해도, 당신은 생각했을 것입니다 입출력 연산이 일어날 때마다 내가 입 / 출력 작동을 말하면 나는 의미한다 귀하가 귀하의 데이터를 디스크에 저장하거나 데이터를 디스크에 씁니다

그래서 이것을 입출력 작업이라고합니다 그래서 내가 말하는 것은 당신이 이것을 들었을 것입니다 입 / 출력 작업이 발생할 때마다 당신이 가지고 있기 때문에 그것은 성능을 저하시킵니다 디스크 찾기와 모든 것들을 할 수 있습니다 그래서 그것이 그들의 연기를 느리게하는 이유

지금이 예제에서 나는 입출력 작업을하고있다 이제 이것은 내 메모리에 데이터를 복사하는 입력 경로입니다 이제 출력을위한 맵은 하나의 Mapper 출력입니다 이것은 매퍼 출력이며, 매퍼 출력은 이제 전화를 겁니다 이 말을하자

하나,이 출력이라고 부르 자 O 2로, 지금 무슨 일이 일어날 것인가? 이 모든 출력은 디스크에 다시 제공됩니다 이제이 오 하나가 여기에 다시 저장 될 것입니다 두 명이 여기에 다시 저장 될 것입니다 무슨 일이 일어 났습니까? 매퍼 출력 2 개를 여기에 저장했습니다

이제 이것이 다시 입출력 작업이라는 것을 알게되면 지금 나는 책상으로 출력 작업을하고있다 질문 컨트롤러, 무슨 일이 일어날 것인가? 블록 크기가 크면 효율적일까요? 메모리를 사용하려면 지금 당장 이 기억은 적어도 유지하기에 충분하다 128 MB의 데이터를 올리십시오 그렇지 않으면 오류가 발생합니다

MapReduce 프로그래밍에서, 당신은 단순히 다른 당신이 128MB의 데이터를 말하게한다면 128MB 미만의 메모리가있는 경우 너는 다른 최대 팩을 가질 것이다 이 문제를 해결하는 매우 현명한 방법입니다 스파크는 아무런 문제가 없으므로 기억을 덜 할 수 있습니다 그것은 여전히 ​​그것을 돌보아야합니다 스파크에 관한 아주 흥미로운 이야기 MapReduce에 관해서는 오류가 없다고 말합니다

사라, 그게 우리가 실제로 나눌 이유 야 우리의 데이터는 128MB로, 적어도 우리의 기억 그것을 처리하기에 충분해야합니다 자, 어떻게 될까요? 그래서 나는 첫 번째 O를 가지고 있고 나는 이미 관찰했다 내 입력 출력 작업이 시작됩니다 셔플을 정렬하면 셔플이 일어납니다

하나의 기계에서 일어날 것입니다 이 단계가 하나의 시스템에서 일어나고 있다고 가정 해 봅시다 그래서 만약 당신이 데이터가이 기계 전체에서 나왔다면 하나의 기계에, 그래서 그들이 결정한다고 말하자 정렬 및 셔플을 할 때 데이터 노드 하나, 이 자동 기계는 네트워크 전송을 할 것입니다 데이터의,이 O 2는 여기에 올 것이다

그 후이 종류와 셔플 단계가 일어날 것입니다 이 출력에서 ​​나오는 결과를 보겠습니다 오, 셋입니다 오, 셋입니다 이제 다시이 두 사람이 기억에 보내질 것이며, O 2는 메모리와 O 3에 전송됩니다

그 후에 다시 디스크에 저장됩니다 당신은 감속기에서 감속을 보낼 것입니다 O 3을 기억으로 가져 오는 것은 무엇입니까? 나는 최종 출력물을 디스크에 밀어 넣었다 그리고 이것은 많은 입출력 작업이 일어나고 있습니다 하나의 프로그램에서, 입력 – 출력 정렬 일본에서 네트워크 이전 완료 그리고 적은 입출력

3 단계 감속기가 입출력 작업을 완료했습니다 다시 한번 많은 입출력 작업을 볼 수 있습니까? 한 프로그램에서 전술적 인 최근 수학 학습 프로그램 자연 속에서는 속도가 느려서 모든 사람들이들을 수있다 MapReduce 프로그램이 본질적으로 느린 이유는 무엇입니까? 이미 로봇을 실행했다면 어떻게 될까요? O'Neil MapReduce에서 당신은 실행합니다 즉각적인 결과를 내지는 않습니다 이상을 실행하는 데는 좋은 시간이 필요합니다

왜 이런 일이 일어 났는가? 너무 많은 입출력 작업, 감사합니다 Ratish 계속 나아가 자 이것이 문제 다 MapReduce를 사용하여 어떻게 아파치 불꽃이 문제를 해결하고있다 어떻게 아파치가 문제를 일으키고 왜 해결할 수 있을까? 그것은 더 빠릅니다 왜 우리는 저의 저것이 빠른 시간 내에 출력물을 줄 수 있습니까? 그래서 그것을 이해합시다 이제 이것을 설명하기 위해, 무엇보다 먼저 나를 보자

여기에 다시 파일이 있다고 가정 해 봅시다 내 데이터가 이와 같다고 가정 해 보겠습니다 3, 5, 6, 7, 8 더 많은 데이터 더 많은 데이터가 있으므로이 데이터를 가져와 봅시다 유사하게 더 많은 데이터 34, 78, 3, 6이 있습니다

이제 이것이 하나 더 많은 데이터라고 가정 해 봅시다 마찬가지로 여기에 더 많은 데이터가 있다고 가정 해 봅시다 23, 67, 1, 9가 승진했다고합시다 이제 파일 크기가 34MB임을 알려 드리겠습니다 384MB, 죄송합니다

이 파일은 384 MB이고 두 번째 것은 Ftxt 파일의 이름을 말하자 이 파일의 이름입니다 이제 나는 너에게 외계인의 말을 쓰고있다 내가 설명 할 것이기 때문에 걱정하지 마라

이 부분, 내가 가진다면, 이게 뭔지 걱정하지 마세요 전 그냥 문자 메시지 일 뿐이에요 우리가 정확히 무엇을하는지 이해합시다 이제이 예에서도 내가 만든 것을 가정 해 봅시다 이 클러스터는 내 이름이 아닙니다

데이터 노드는 아닙니다 지금 여기서 일어나는 일이 당신에게하고 있습니다 이 파일의 Ftxt는 384MB이고, 그래서 내 파일이 나뉘어져 있다는 것이 명백합니다 세 부분으로 b 1, b 2, b 3 블록

이제 다시 여기서 가정합니다 나는 이것을 b 블록이라고 부르고 있는데, 이것을 B 블록이라고 부르면됩니다 이것을 b 블록 3 블록이라고 부르면됩니다 각각 128MB 이제 내 다음 단계는 무엇입니까? 그래서 저는 우리가이 블록들을 가지고 있다는 것을 이해했습니다

이제이 파일이 내 HDFS에 있다고 가정 해 봅시다 따라서 디스크에있는 곳에서 보관하십시오 디스크에서 b 블록 하나, b 여기 두 블록, b 세 블록 이제 데이터 노드에 상주 할 곳 디스크에서, 당신은 이것이 우리의 NTFS 데이터베이스라고 생각합니다 이제 첫 번째 매핑을 시작하자 마자 무엇보다도이 부분을 이해하기 전에 내가 너에게 한 가지 더 설명해 줄께

Java의 주요 진입 점은 무엇입니까? 당신이 어떤 프로그램도 쓸 수 없다면, 아무도, 주요 기능을 알아 주요 기능이 없으면 아무 것도 할 수 없습니다 이제 아파치 스파크에서도 거기에 하나의 주 진입 점이없는 경우, 어떤 응용 프로그램도 작동하지 않습니다 그 엔트리 포인트는 Spark Context라고 불린다 또한 Spark Context를 SC로 나타냅니다

이제 이것이 주요 진입 점이며 이것이 마스터 머신에서의 사이드들, 그래서 우리는 계속 지킬 것입니다 당신이 알고있는이 SC Java 프로그램, 하나의 프로젝트를 작성했다고 가정 해 봅시다 한 프로젝트의 경우 별도의 주 기능이 있습니다 다른 프로젝트에서는 별도의 주 기능이됩니다 유사하게,이 SC는 분리 될 것이다 개별 응용 프로그램마다

이제 첫 번째 코드 줄을 이해해 봅시다 그들이하는 일을 이렇게 무시해 버려 이 기이함은 그 부분을 무시하는 것입니다 당신은이 기이함을 어떤 데이터 유형과 관련 지을 수 없습니다 예를 들어 Java에서 우리는 문자열 데이터를 가지고 있습니다

그래서이 이상한 것을 대체 할 수 있습니다 이 RDD를 문자열로 바꾸지 않아도됩니다 그것은 숫자가 참을 수 없다는 것을 의미하므로, 그 번호는 얼마 동안 들리지 않는다 우리는 SC가 Spark Context를 의미한다는 것을 보았습니다 Spark 응용 프로그램을 사용하지 않으면 실행되었습니다

이제이 텍스트 파일 이것은 아파치 스파크의 API입니다 이 세부 사항에서는 다른 스탭 세션을 읽었습니다 그러나 나는 당신에게 무엇에 관한 아이디어를 줄 것입니다 이 텍스트 파일은이 텍스트 파일 API가 할 일, 아파치 스파크에서 어떤 파일이든간에 당신은 그 Ftxt 안에 기록했습니다

해당 파일을 검색하여 메모리에로드합니다 당신 기계의 어떤 의미일까요? 이제이 경우 Ftxt 예 세 대의 기계에서 예 F

txt는 b 블록 하나, b 블록 두 블록, b 블록 세 블록입니다 그래서 일어날 일은 당신의 b 블록 일 것입니다, 내가 이것을 만들자 이것이 내 RAM이라고 가정 해 보자 이것이 내 RAM이라고 가정 해 봅시다 이 경우 일어날 일은 그냥 한 블록 복사됩니다 나는 움직이지 않는다고 말하고있는 중이다

이 기계의 본문에 복사됩니다 b 두 블록이 메모리에 복사됩니다 이 기계의 3 블록이 복사됩니다 이 기계의 기억 장치에 그러면 블록이 전송되는 방식입니다 이 머신 메모리에, 지금 무슨 일이 생길까요? 그래서 우리는 단지 그 중 하나를 이해했습니다

b 2, b 3 블록 여기, 나는 그것을 추측하고있다 내 기억은이 모든 자료를 저장할 정도로 크다 이제 우리가 모든 블록을 다룰 경우 어떻게 될까요? 의무적 인 것은 아니지만, 모든 블록 크기가 동일해야하는 것은 아닙니다 그것은 다른 것도 줄 수 있습니다 그것은 중요하지 않습니다

각각의 블록 크기가 어떻든간에 블록을 메모리쪽으로 복사하려고합니다 그 첫 번째 코드 줄에서 일어난 일입니다 자,이 세 파일은 적어도 메모리에 앉아서 결합되어 있다고합니다 RDD로, 그래서이 세 파일은 우리의 RDD라고 불리는 메모리에 결합하여 말하고 있습니다 RDD의 이름은 무엇이며, 우리는 번호 RDD를 부여했습니다

그래서 우리는이 RDD에 RDD라는 이름을 붙였습니다 RDD 란 무엇인가, RDD는 분산 데이터, 기억에 앉아 RDD의 완전한 형태는 무엇입니까? RDD 예, 탄력적 인 분산 데이터의 완벽한 형태 이제 한 가지 질문을 드리겠습니다 분산 된 데이터인가요? 분산 된 데이터 이건 아니건간에 그렇습니다

분산 데이터입니다 무엇을 이해합니까? 탄력있는 대답을 얻을 수 있습니까? 너는 뭘로 이해하는지, 뭘 읽는지 보렴 비록 청취자는 아니지만 그래도 나는 단지 원한다 당신이 무엇을 이해하는지 이해하기 이 핵심 단어, 탄력? 탄력성이란 실생활을 의미합니다 그것은 신뢰할 수있는 영어 의미입니다

이제 네가 그런 식으로 부를 수있다 지금 내가 신뢰할 수있는 말을 할 때 이제는 언제든지 질문에 이르게됩니다 나는 무엇보다도 RAM에 대해 이야기하고있다 RAM에 데이터를 유지한다면 이것은 내 전체 시스템에서 가장 휘발성이있는 것 네가 뭔가를 가질 때마다 랩톱을 다시 시작하면 모든 항목이 지워집니다

당신의 RAM에서 나는 가장 휘발성이있는 것을 얻는다 지금은 여전히 ​​RDD가 탄력성이 있다고 말합니다 나는 데이터를 잃어 버릴거야 즉시되지 않았습니다 방금 노트북이나 다른 것을 다시 시작합니다 내 데이터를 잃을거야 이제 어떻게 이것이 인도 될 것입니까? 적용 요소, 복제 인자를 기억합니까? 복제 인자가 2라고하자

복제 계수가 2라고 가정 해 봅시다 이제는이 경우에 더 적은 장비가 있다면, 그래서 하나의 바위가 여기 앉아 있다고 해봅시다 B 블록이 여기에 복사된다고합시다 B 블록이 여기에 복사한다고 가정 해 봅시다 어떤 기계라도 그런 사이딩을하고 있다고 가정 해 봅시다

이제 어떻게 될 것입니까? 이 조건에서 말하자 그냥 차단하고 차단할 수 있습니다 그래서 우리는 잃어버린 것, 잃어버린 것, 그렇습니다 그 단계에 아직 도달하지는 않았지만 나는 말할 것입니다 이것에 관해서는, 아래는 잃어버린 B, 잃어버린 B는 3 점입니다

지금은 세 곳 중 하나입니다 예, 그렇습니다 무슨 일이 일어날 것입니까? 이 머신에는 즉시 세 개가로드됩니다 이 머신간에 즉시 로딩됩니다 이제 b 하나와 b 세 둘 다 낭독을 시작할 것입니다

이 기계에서 함께하면 무슨 일이 일어날까요? 이 세 가지는 에너지로 구성됩니다 그래서 다시 세 명은 기억으로 옮겨 질 것입니다 즉시 RDD가 생성됩니다 그래서 그것은이 RDD에서 큰 의미입니다 네가 잃는다고해도 거기에 눌려있다

데이터 또는 기계를 잃어버린 경우 그건 상관 없어요 그래서 이것을 탄력적 인 부분이라고합니다 이제 더 멀리 움직여야합니다 그래서 우리는 단지 이해했습니다 RDD 란 무엇이며 두 번째로 탄력적입니다

한 걸음 더 나아가 자 그래서 우리는 숫자 RDD를 만들었습니다 지금 나는 또한 RDD 필터를 만들고있다 하지만 지금 내가 할 일은 내가 갈거야 내 번호 RDD에 그것을 만들려면, 단지 번호 RDD

map, 다시이지도가 API이며,이 API는 무엇입니까? 나는 보통 우리 세션에서이 부분을 이해할 것이다 당일에는이 부분을 알려 드리겠습니다 당신의 소개를 위해 그것 위에 간단한 것 이지도 API 내부에 작성할 코드는 무엇이든 실행될 코드가 무엇이든지간에 이 줄 안쪽에 쓰는 것이 실행됩니다 그래서 지금 막 영어 키워드 몇 개를 썼습니다

이 장소에서이 영어 키워드 논리를 대체해야합니다 10 개 미만의 값을 찾으려면 프로그래밍 논리를 얻고, 어쩌면 파이썬 프로그램 일 수도 있고, 스칼라 프로그램 일 수도 있습니다 원하는 프로그램이 무엇이든지간에 그것은 무엇이든 될 수 있습니다 글을 쓸 수는있어 네

따라서 어떤 코드를 작성 하든지간에 지도 기능이 책임을집니다 또는지도 API가 실행해야합니다 이제 우리가 여기서하고있는 일, 한 가지 더 요점은, RDD는 언제나 불변입니다 나는 그것이 불변으로 전달된다는 것을 의미한다 이미 블록 b를 메모리에 넣은 경우 너는 어떤 변화도 할 수 없을거야

너의 블록 하나에, 너는 할 수 없을거야 당신의 블록에서 어떤 변화도 일으킬 수 있습니다 이제 어떻게 될 것입니까? 우리가 일하기 전에 먼저 여기에 오도록합시다 이 부분에서는이 부분을 보도록하겠습니다 그래서 여러분이 스칼라 함수를 작성했다고합시다

또는 어떤 함수 인 파이썬 함수 모든 값을 알아내는 것입니다 10보다 작기 때문에 가정 해 봅시다 이 b 한 블록,이 b 한 블록, 당신은이 4 개의 말을 모든 banch를 묶어 보자 그래서 그 경우 출력은 무엇입니까? 무엇이 출력 될 것인가,이 블록은 쉼표 3 개 이 두 값은 10보다 작기 때문에, 하나의 쉼표 3, 그래서 내가이 블록 SB 블록을 호출 할 수 있습니다, B 4라고 부르 자 여기에서 나오는 출력은 3 개의 쉼표 6입니다

이것을 B 블록 5라고 부르 자 마찬가지로, 당신이 이것을 알게되면 나는 말하지만, 한 쉼표는 9 자이고 이것을 아마 6 블록이라고 부르 자 이 블록을 네 블록이라고합시다이 블록은 다섯 블록입니다 이것은 6 블록입니다

이제 여기서 무슨 일이 일어나고있는거야? 이 B가 기억 속에 앉아있는 한 블록 나는이 코드가 실행될 때 이것을 할 것이다 그 실행은이 B 블록에서 일어날 것입니다 전에 새로운 블록이 생성됩니다 나는 한 블록 B에서 어떤 변화도하지 않을 것이다 이 B 블록에서 십자가를하고 있습니다

그리고 내가 부르는 새로운 블록을 만든다 a B 4 블록 유사하게,이 B 블럭으로부터, 이 B 블록을 5 블록 생성합니다 다시 아침에 앉아있을 것입니다 유사하게, 여기에서는 B 블록이 생성 될 것이다

이제이 경우 귀하의 B 한 블록과 B 네 블록 둘 다 함께 메모리에서 낭독을 시작합니다 마찬가지로 B 2와 B 5가 함께 거주 할 것입니다 B 3과 B 6은 함께 낭독하게됩니다 집합 적으로이 세 가지 모두, B 4, B 5, B 6 RDD라고 불리는 얻을 것이다 그 RDD의 이름은 하나의 RDD를 걸러 낼 수 있습니다 모두 지우시겠습니까? RDD 란 무엇인가, RDD는 어떻게 작동합니까? 이 개념은 모든 사람에게 분명합니다

이것이 스파크가 작동하는 방식입니다 이제 나 한테 물어 보자 이것이 더 빠를 것이라고 생각하지 않습니까? 돈 입출력 운영을하고 있습니까? Map Reduce를 가져 오는 것과 마찬가지입니다 입출력 동작 만 발생합니다 첫 번째 페이지에서 F

txt 파일을 사용할 때 그 후 내 데이터는 항상 메모리를 사용하고있었습니다 그게 내가 어떤 일도하지 않는 이유 야 그 이후의 입출력이 그 이유 다 그것은 당신에게 더 빠른 출력을 줄 것입니다

그래서 스파크가 더 빠릅니다 MapReduce와 비교하면 좋을 것 같아 RAM이 맞아, 분명히 거기에있다 하지만 여전히 스파크가 큰 경우 RAM 또한 그것을 처리 할 수 ​​있다는 것을 알고 있습니다 파이프 라이닝 개념이라고합니다

나는이 세션에서 그것을 다루지 않을 것이다 하지만 네, 커다란 사건이 있습니다 네 기억력이 적 으면 스파크가 가져 간다 사실은 매우 흥미로운 개념, 그래 다시 그것은 매우 흥미로운 개념입니다

스파크가 여전히 처리 할 수있는 너는 조금 더 적은 기억이 있으면 그래서 공원은 매우 스마트 한 프레임 워크가됩니다 사람들이이 논문을 읽는 이유입니다 자, 이제 네가 배웠어 내가 회상 세션을하는거야

우리는이 모든 주제들을 세부적으로 다룰 것입니다 이 상황이 발생하면 어떻게 될까요? 그러면 우리가 계속하는 모든 일들은 어떻게 될 것인가? 내 책상에 여분의 위험이 쏟아 질 것입니다 책상에 데이터를로드하지 않지만 여전히 그것을 처리 할 수있을 것입니다, 그것은 나쁜 일 이었습니까? 당신은 궁금해 할 것입니다 하지만 그것은 단지 파이프 라인에 관한 것일 수 있습니다 번호에 제한이 있습니까? 동시 클라이언트 요청 수, 아니요

원하는만큼 여러 번 읽을 수 있습니다 옳은 일을하고 싶다면 문제가있는 것입니다 거기에 아무런 제한이 없습니다 이제 한 단계 더 나아가 야합니다 그래서 우리는 방금 읽었습니다

이 부분, 지금 당신이 무엇을 알아 차리면 여기에서 일어나는 일이기 때문에, 처음에는 그래서 지금 나는 이미 필터 하나를 가지고있다, 그래서 내가 내 필터 하나, 이건 내 필터 예고 코드를 보자 RDD에 의해이 필터 하나의 RDD는 무언가에 의존하며, 예, 그것은 의존하거나 내 번호 RDD, 내 번호 RDD에, 내 번호가 의존하고있다 또는 뭔가 예, 그렇습니다 Ftxt, 그래서이 파일은 자고 있습니까? 아니요, 이것이 제가 여기서 삭제 한 그래프입니다 이 그래프는 즉시 문맥 정지에 의해 유지됩니다

이 모든 문장과이 태그를 실행합니다 이것은 dat, directed acyclic graph 계보로도 불린다 그래서 계통에서 일어난 일은 모든 데이터를 유지합니다 모든 정보를 유지 관리하는 f와 같은 의존성은 의존성을 가지고있다 당신의 번호, 번호는 의존성이 있습니다

Ftxt에서이 의존성 그래프가 무엇인지 계보는 혈통이라고합니다 그래서, 이것은 전체의 매우 중요한 부분입니다 이제 무슨 일이 일어나고 있는지 알게되면 B 블록 네 B 한 블록으로 인해 생성 된이 B 블록 5 개 B 2 블록 및 B 6 블록으로 인해 생성되었습니다 B 블록으로 생성됩니다

또 다른 용어는, 나는이 F 필터 RDD가 생성되었다고 말할 수 있습니다 숫자 RDD 덕택에 번호는 또한 RDD가 아니라 그 번호에서 RDD 나는 새로운 엔티티를 만들 것이다 하나의 RDD 필터로서,이 F는 변환 단계 그러나이 단계를 변형 단계라고 부릅니다 이제 출력물을 출력하고 있습니다 우리는 메모리에 데이터 만 보관하고 있습니다

Java에서는이 print 문을 사용했습니다 Spark에서는 print 서술문이 없지만 대신 우리가 수집 진술서를 가지고 있다는 것, B 4, B 5, B 6을 인쇄하려면 즉, 필터 하나의 RDD를 인쇄하고 싶습니다 내가 filter1collect 쓸 수 있습니다, 그러면 SC에 B 4, B 5, B 6이 인쇄됩니다 지금 당신이 여기서하고있는이 일은 이것은 당신이 무엇을하고 있는지를 언제나 고민하고 있습니다

출력 B를 Word 작업으로 인쇄합니다 따라서 현장 컨텍스트에서이 단계를 S 동작이라고합니다 그래서 이것이 당신이 그 일을하는 방법입니다 주요 단계 1은 변형이다 한 형식의 RDD를 다른 형식으로 변환 할 수있는 곳 RDD의 두 번째 작업을 Action이라고합니다

여기서 출력물을 인쇄 할 수 있습니다 그래서 이것들은 명심해야 할 중요한 포인트입니다 아파치 스파크에서 일하면서 저희 사이트로 돌아가서 이것에 대한 질문을 드리겠습니다 내가 다시 돌아 오기 전에 나는 다시 그걸로 돌아올 수있다

모두가이 단계에 대해 명확하게 설명합니다 돌아 가자 여기서 알아 차리면 우리가 배치 (batch)와 같은 것을 논의 할 것이다 실시간 처리에서 더 나아가, 이것이 어떻게 이루어 졌는지, 그래서 지금 막 토론했다

스파크에 대해, 스파크가 실시간 처리를 제공하고, 그래서 기본적으로 합의 된 창조는 변형과 함께 시작됩니다 네, 그렇습니다 우리가 방금 토론 한 부분이다 또한 사용하기가 매우 쉽다는 것을 알 수 있습니까? 내 MapReduce와 비교하여 사용하기가 매우 쉽습니다 MapReduce 프로그래밍을 이미 완료했다면 또는 사과, 오렌지, 바나나 예를 기억한다면, 확실히 나의 고뇌 방법은 비교에서 훨씬 간단하다

MapReduce 코드가 표시되면 MapReduce 프로그램에 본질적으로 복잡하지만 스파크 프로그램 매우 간단하게 보입니다 Spark 프로그램이 수행하는 이유 아주 단순한 자연 이제 더 나아가 스파크 성공 사례를 이해하고, 우리가 가진 것들은 무엇입니까? 요즘 그것을 사용하는 사람들이 많이 있습니다 우리가 주식 시장에 대해 이야기하는 것처럼, 주식 시장은 아파치 스파크를 많이 사용하기 때문에 더 빠른 처리 능력, 더 쉬운 특성 플러스 가능한 많은 것들 (말도 안되는 소리) Twitter 감정 분석이 인기 급상승일지도 모릅니다 그 회사에 따라 일어난 일입니다

어쩌면 시작 할지도 모르겠다 그걸 기반으로 일부 캠페인을하고, 은행 신용 카드 사기 공제 이미 신용 카드 예를 보여주었습니다 어떤 사기가 감지되고 있다고 가정합시다 어쩌면 그들은 이것이 소리가 나지 않을 것으로 예상하고있을 것입니다 진정한 관계처럼 우리는 패키지와 함께 배울 수 있습니다

하지만 MapReduce는 불가능합니다 실시간 처리를 수행 할 수도 없습니다 둘째, 과거 데이터에 적용하려고해도 그것은 그곳에서 도전이 느려질 것입니다 의료 영역에서도 우리는 아파치를 적용합니다 그래서 이들은 Apache Spark가 사용되는 영역입니다

Spark에 대해 이미 말하면서, 우리는 이미 논의했습니다 재미있는게 뭐니? 지금 스파크에서 오직 실시간 처리와 모든 것을 보았고, 지금은 아파치 스파크는 사용할 수있는 오픈 소스 클러스터입니다 물론 당신은 지불하지 않을 수도 있습니다 그 일을하기 위해서, 그것은 또한 아파치 스파크가 유명한 이유 실시간 처리 배치를 수행 할 수 있으며, 처리의 모든 종류의 처리 종류, 당신은 그것에 수행 할 수 있습니다 프로그래밍 팩을 수행 할 수 있습니다 또는 데이터 패럴 림이 있으면 내결함성도 처리 할 수 ​​있습니다 우리는 이미 탄력적 인 부분의 결과를 보았습니다

해양은 내결함성이 있다고 믿을만합니다 그래, 이제는 여러 번 MapReduce 위에 출력으로 얻을 수있는 것 생성 직후 연결 기능을 사용하면 과거는 이미 인쇄 될 것입니다 원래 일종의, 사실 내가 할 것입니다 실제적인 실행과 보여주기 그 후 한 가지 예를 들자 여기 남아서 정확히 무엇을 할 수 있는지 어떻게 완료 될지, 어떻게 데이터를로드 할 수 있는지 그리고 데이터를 내부에서 볼 수있는 방법

몇 분 안에 실용적인 것을 보여 드리겠습니다 좋아, 이제 더 멀리 나아가 자 아파치 스파크, 이제는 내게 아주 쉽다 우리가이 모든 것을 설명하기 위해 이미 본 것으로 Spark은 항상 Hadoop과 함께 사용합니다 독립형으로 사용할 수 있습니다

예, 사실입니다 독립 실행 형을 사용할 수도 있습니다 Hadoop 클러스터가 필요 없으며 간단하게 심지어 스파크 물건 만들기 자신의 간단한 Windows 컴퓨터 및 작업을 시작할 수 있습니다 그것에 다른 것을 요구하지 않고, 당신은 로컬 및 상대방이 재미있는 파일이었습니다 HDFSS를 전혀 요구하지 않아도됩니다

나는 그것의 한 가지 예를 보여 주겠다 그래서 당신은 우리가 어떻게 독립형인지 분명히 알게 될 것입니다 내가 아파치 스파크를 사용할 수 있다는 것을 제외하고는, 나는하지 않는다 RDMS를 연결해도 재미있는 사실입니다 당신이 직접 만들 수있는 많은 장점들이 있습니다

스파크가 거의 100 배 빠른 속도를 제공합니다 너는 그것이 굉장한 속도라고 생각하지 않느냐? 100 배, 나는 이중 또는 삼중에 대해 말하는 것이 아닙니다 같은, 나는 약 100x 시간 더 빨리 말하고있다 스파크가 아주 강력 해지면 많은 기업들이 많은 것을 듣고 있습니다 맵 수신기에서 아파치 스파크로, 왜? 네가 네 답을 얻었 으면 좋겠어

간단 해 뿐만 아니라 당신의 속도가 너무 빨라지고 있습니다 처리 속도가 매우 빠르기 때문에 캐싱이 매우 강력합니다 이 끈기 또는 진짜가 아닌 것은 무엇입니까? 진행 세션 및 데이터 세부 사항 하지만 우리는 메모리에 데이터를 캐시 할 수 있습니다 또한 대부분의 경우에 도움이됩니다

애플리케이션을 배포 할 수 있습니다 원본 YARN 또는 독립 실행 형 클러스터 이제이 이벤트는 아주 좋은 기능입니다 이미 Hadoop을 구성했으며 특정 클러스터를 변경할 필요가 없습니다 아파치 스파크, 핑 플러스 당신이 그것을 사용할 수 있습니다 MapReduce에 무엇을 사용하고 있는지 귀하의 아파치 스파크 유사하게, Spark는 다중, 파이썬 추가와 같은 프로그래밍 언어

(말도 안되는 소리) 그래서, 자바 언어도 많이 사용할 수 있습니다, 그래서이 4 가지 언어가 현재 사용됩니다 둘 다 똑같습니다 둘 다 정확하게 섹션입니다 이제 더 나아가서, 아파치를 통해 스파크, 그래서 우리가 어떻게 그 모든 것을 할 수 있는지 보자

이제 HDFS로 불꽃을 일으켜 더 강력하게 만듭니다 Spark 응용 프로그램을 실행할 수 있기 때문에 매우 쉽게 HDFS의 위에 이제 두 번째로 Spark plus MapReduce 프로그래밍 MapReduce 프로그래밍과 함께 Spark를 사용할 수 있습니다 Hadoop 클러스터에 있기 때문에 실행할 수 있습니다 MapReducee 및 동일한 클러스터의 일부 응용 프로그램 당신은 일반 스파크 응용 프로그램을 사용할 수 있습니다, 필요가 없습니다 모든 것을 바꿀 수 있습니다

당신이 필요로하는 강력한 것들 Spark에 대해 별도의 클러스터를 만들지 않습니다 클러스터를 분리하거나 대량 생산할 수 있습니다 마찬가지로, 만약 당신이 이미 완료 되었으면 Apache Spark에 사용할 수 있습니다 보통 이것은 매우 강력합니다 MapReduce에 대한 이전의 모든 응용 프로그램이 배포되었습니다

YARN에서 Spark하고 그 다리를 가라 MapReduce에서 마이그레이션하려는 기업 아파치에게 그들에게 불꽃을 불어 넣어 삶을 만들고있다 당신이 직접 이야기 할 수 있기 때문에 매우 쉽습니다 클러스터 관리자를 변경할 필요가 없습니다 당신은 직접 작업을 시작할 수 있습니다

원사가 무엇인지 모르는 사람들을 위해 그것에 대해 간단하게, 이것은 클러스터 리소스 관리자입니다, 더 많은 것을 보자 이제 스파크는 어떻게됩니까? Hadoop을 사용하면 그건 스파크가 대체 할 의도가 아니었기 때문이야 하둡, 실제로이 사실을 명심하십시오 Hadoop 프레임 워크의 확장입니다 사람들은이 혼란을 많이 말합니다

우리는 하둡을 대체 할 것입니다 그들은 대체 할 수 없습니다 아직도 모든 것을 고갈시키고있다 당신은 HDFS를 사용하고 있습니다, 당신은 원사를 사용하고 있습니다 그러나 당신이 변화하고있는 처리 스타일 그래서 Spark은 Hadoop을 대체하지 않을 것이며, 사실 확장 기능이라고 부를 수 있습니다 두 번째로 Hadoop 프레임 워크의 MapReduce로 Spark에 대해 이야기 할 때, 이제 그들은 함께 일할 수도 있고 때로는 함께 일할 수도 있습니다

그들은 새로운 응용 프로그램이 아니며 지금은 아닙니다 매우 드문 응용 프로그램이지만 응용 프로그램이있을 수 있습니다 그들이 다시 나누기 위해 쓰는 코드의 일부가 있습니다 MapReduce로 작성한 코드의 일부 이 모든 것이 가능합니다 MapReduce가 필요없는 코드 변환 회사 아파치에게 그들은 시간이 필요할 것 같은데 그들에게 정말로 중요한 발의 그들은 Apache Spark와 관련하여 처리를 시작할 수 있습니다

지도의 나머지 부분은 그대로 그대로 둘 수 있습니다 그러니 천천히 계속 변환 할 수 있습니다 그들은 또한 함께 일할 수 있기 때문에, 그래서 만약 당신이 혼자 스파클을 제공하지 않습니다 어떤 분배 된 그들에 의해 확실히 걸음 나는 의미한다 이미 독립형으로 사용하고 있기 때문에 데이터로 사용하지 않는 경우 그 경우에 확실히 당신은 해방되지 않습니다 Apacaha Spark가 단일 프로세스로 만듭니다 이제 더 나아가 중요한 기능은 무엇입니까? 아파치에서 스파크, 확실히 속도, 다각형, 다각형은 사용할 수있는 여러 언어를 의미합니다

칼라, 파이썬, 자바, 많은 언어들이다 많은 분석을 수행 할 수 있습니다 메모리 계산에서 우리가 실행 중일 때 메모리의 모든 것을 인 메모리 계산이라고합니다 Hadoop을 통합 할 수 있습니다 기계 학습을 적용하면 매우 강력한 아파치, 그것은 매우 강력합니다 Hadoop이 분명히 사용하지 않거나 이렇게합니다

지금도 우리는 마스트 아웃을 가지고 있습니다 대량 학살에 대해 듣지 못했지만 모두들 바란다 가지고 있어야하고, 그렇지 않다면 나는 단지 당신을 설명하게한다 massout은 MapReduce 프로그래밍 프레임 워크입니다 귀하의 기계 학습 알고리즘을 작성하는 데 사용됩니다 그래서 Mahal에서 기계 학습 알고리즘을 작성할 수 있습니다

지금 MapReduce는 문제를 변환하는 데 어려움을 겪고 있습니다 MapReduce에서 지불하고 당신은 내려하지만 이제 MapReduce 자체가 더 느립니다 기계 학습 알고리즘은 매우 이 때문에 자연적으로 수분이 풍부하다 당신의 처형은 마할에서 매우 느릴 것입니다 기계 학습 알고리즘이 이미 더 느리기 때문에 사실 MapReduce 프로그래밍은 본질적으로 느리다

그 마하오 때문에 이제 가끔 비워 졌어 출력물을달라고 요청했는데, 나는 말하고 있지 않다 약간의 시간도 실행하기까지 작은 데이터 세트라면 시간이 많이 걸릴 수도 있습니다 이제 이것은 마호를 가진 중요한 문제입니다, 스파크가 무엇을 생각해 내는지 알아라 SMLA라는 매우 유명한 프레임 워크, Spark MLA, 그는 마호를 대신합니다

이제 MNLA에서 모든 처리가 이루어질 것입니다 기억하기 때문에 대화를 알게 될 것입니다 수분 공급조차도 무슨 일이 일어나고 있는지 기억 속에서 이렇게 될 것입니다 매우 빠른 것, 지금 이것 때문에 MapReduced 프로그래밍이 어떻게되었는지 마할이 사용했던 사람들은 그것을 사용을 중단했습니다 이제 그들이 멈추는이 부분에서 어떤 일이 일어 났습니까? 실제로이 핵심 도구를 사용하여 핵심 개발자 이 마할의 MLA라고하는 단어에 말을 걸어도 지금 마할의 핵심 개발자, 그들 자신 네가 원하면 기계 학습 진행을보다 잘 실행 Spark 프레임 워크에서만 사용할 수 있습니다

실행보다는 Spark MLA를 사용하여 실행 하둡에서, 그게 이유 야 빅 데이터에 대한 기계 학습 알고리즘 모두가 스파크 MLA로 이동하고 있습니다 이 모든 부분을 자세히 살펴 보겠습니다 우리가 스페이스 바 싸움에서 지금 이야기 할 때 이 기능에 대해 논의하겠습니다 스파크는 100 배 빠른 속도로 작동 할 수 있습니다

왜 우리가 이미 알고 있는지 우리는 이미 스피드 네트워크를 가지고 있습니다, 지금 우리가 말할 때 우리는 방금 작성한 다각형에 대해 그리고 마루 자바와 하이브의 규모 그래서, 많은 언어가 지원되고 있습니다 이제 다음 스파크가 중요합니다 게으른 평가, 내가 너를 다시 데려다 줄거야 내 PPT에, 그래서이 경우, 지금은 무엇 실제로 어떻게됩니까?이 실행은 어떻게 여기에서 발생합니까? 그래서, 우선 여기서 일어나는 일은 이 산을 치 자마자 그렇게 좋아지지 않아 또는 섬유가 메모리를 넘어 즉시이를로드합니다 그것은 실제로 그렇게하지 않습니다

이 선을 치면 즉시 이 B 블록은 처음에는 비어있을 것이다 어떤 데이터도 보관하지 않을 것입니다 그러면 어떤 일이 일어날 것입니까? 지금이 숫자를 생성했습니다 다시 B 블록을 생성하고, B 블록을 생성합니다 및 B 6 개의 구획 그러나 그들 모두는 비게 될 것이다, 내부에 데이터가 없지만 filter1

collect를 변경하자마자, 지금 당신이 얻 자마자 무슨 일이 일어나는가? 이 filter1collect는 당신의 F 1에 갈 것입니다 B 4가 아닌 필터 하나를 의미하며, B 5, B 6, 그들은 그것을 말할 것입니다 귀하의 데이터를 인쇄하고 싶습니다 지금 어떻게 될 것입니까? 하나를 필터링하면 데이터가 없다고 말합니다

나는 현재 비어 있습니다, 지금 필터 하나가 갈 것입니다 요청 번호 RDD로 데이터를 제공합니다 이제이 B 하나, B 두, B 세 그들은 지금도 비어 있습니다하지만 그들은 또한 말할 것입니다 나는 비어 있습니다

Ftxt, Ftxt로 갈 것입니다 데이터를 num, num이 데이터를로드하여 하나를 필터링합니다 이 필터는 출력을 제공합니다

그래서이 것을 게으른 평가라고합니다 그 때까지는 행동을 취하지 않을 것임을 의미합니다 인쇄하지 않으면 사전에 실행하지 않습니다 그래서 모든 실행은 그 시간에 시작됩니다 네가 올 때 행동하고 행동하면 큰 프로그래밍 배경에서 그 시간까지 이미이 기능을 보았습니다

당신은 바보 진술을하지 않고 실행하지 않습니다 사전에있는 것, 이제이 부분을 Lazy Evaluation이라고합니다 우리가 원하지 않기 때문에 왜 게으른 평가입니까? 불필요하지만 중요한 때까지 기억 그때 우리는 출력 수단을 인쇄하지 않습니다 우리가 뭔가를 표시하고 싶지 않을 때 그들은 어떤 기관도하지 않을 것이며, 데이터가 메모리에 남지 않아야합니다 불필요하게, 이것을 Lazy Evaluation이라고 부릅니다

여기에서이 부분에 대해서는 Lazy Evaluation이라고합니다 이제 슬라이드로 돌아가 보겠습니다 이제이 부분을보세요 게으른 평가 속성, 이제는 실시간 컴퓨팅 데이터가 올 때와 같이 실시간으로 좋아 당신은 즉시 메모리에있는 물건을 교차 시작할 수 있습니다

그것은 이것이 우리가 가지고있는 네 번째 속성이라고 말했다 이미 볼 수있는 다섯 번째 속성 시작 이 DFS를 사용하면 MapReduce로 작업을 시작할 수 있습니다 우리가 논의한 것과 똑같은 일을 할 수 있습니다 사물처럼 기계 학습을 수행하십시오 그게 이것에 관한 부분입니다

이것이 귀하의 기계 학습을 적용하는 방법입니다 이것들은 스파크의 주요 특징입니다 이제 잠시 쉬고 나서 이야기 할 것입니다 생태계에 대한 세부적인 주제이기 때문에 거기서 나는 좋은 시간을 보낼 필요가있다 그래서 잠시 쉬자

그리고 나서 우리가 시작할 것이고, 그곳에서 휴식을 취한 후에 이야기 할 화제가 많이 남아 있습니다 우리는 또한 실천하고 따라갈 것입니다 결국 프로젝트를 통해 우리는 어떤 종류의 프로젝트를 할 것인가? 다음 학기를 시작할 것입니다 아파치 스파크 (Apache Spark)에 관한 이야기입니다 그러니 10 분 정도 휴식을 취한 다음 다시 돌아 가자

4시 30 분 친구들, 그럼 우리가 시작할거야 생태계와 실용에 대해 매우 중요합니다 그러니 제발, 그러니 4:30까지 돌아 오세요 그래서 모두들 다시 확인할 수 있습니다 모두들 나를 뒤통수 쳐 소리 쳐서 소리 지른다

그래서 더 멀리 나아가 자, 이제 스파크는 예를 들어 RDD 생성과 같은 작업 스파크 코어의 일부인 스파크 코어 모든 라이브러리의 주요 엔진입니다 예를 들어 스파크 시퀀스가 ​​있습니다 당신이 할 수있는 일, 당신은 쿼리를 작성할 수 있습니다 SQL 프로그래밍 방식과 온톨로지에서 당신의 길을 존중하여 회심을 얻으십시오 이것은 계산이 세계에서 일어날 것임을 의미합니다

두 번째로 빠른 심사입니다 그것 때문에 주요 구성 요소 우리가 수행 할 수있는 가능성이있었습니다, 실시간 처리가 가능하므로 스폿 스트리밍이 도움이됩니다 당신은 실시간 처리를 수행 할 수 있습니다 SparkMLib 왜냐하면 기계는 logarithim을 배우기 때문에 내가 토론 할 때이 부분에 대해 방금 토론했습니다 마호에 대해서, SparkMlib은 대체로 대체품입니다

왜냐하면 여기서 알고리즘은 YARN Hadoop에서 우리를 데려 갔다 SparkMLib에서 단 몇 초 만에 수의 토지가 크게 개선되었다 사람들이 그 다섯 graphX로 이동하는 이유 클래스 계산을 수행 할 수있는 곳 인쇄 추천을 연결할 수 있습니다 그래서 페이스 북의 친구가 그것을 생성, 내부 그래프 및 제공합니다 그래프 종류의 계산은 graphX를 사용하여 수행됩니다

Sparks R 이것은 새로 개발 된 회원입니다 그들은 여전히 ​​그것에 대해 노력하고 있습니다 이 버전 중 R은 분석가들이 사용하는 오픈 소스 언어 이제 스파크가 가져온 것 스파크에 대한 모든 애널리스트들은 간단합니다 그들은 이것을 다시 가져 와서 열심히 노력하고 있습니다

주식은 이미 그것을 만들었고, 이것은 가고있다 시장에서 차세대 제품이 될 것입니다 이제이 생태계가 어떻게 생겼는지, 그래서 예를 들어 여러 가지가있을 것입니다 우리가 스파크 시퀀스에 대해 이야기 할 때 가장 모든 계산이 존경심으로 일어나는 시대 RDD에 있지만 Spark에서와 마찬가지로 그는 SQL이라고하는 뭔가가 데이터 프레임이되었습니다 매우 유사한 명확한 RDD 그러나 유일한 차이 앉아있을 데이터가 본문에 표 형식으로 표시됩니다

지금이 경우에는 당신이 그것을 지키고있는 데이터 기능별로 열이 또한있을 것입니다 행 정보를 사용하면 열 정보도 갖게됩니다 그것이 우리가 RDD라고 부르지 않는 이유입니다 실제로 우리는 이것을 상위 3 위라고 부릅니다 마찬가지로, 기계 학습에서도 우리는 뭔가를 만드는 데 도움이되는 ml 파이프 라인이라고하는 것 여러 알고리즘을 결합하는 것이 더 쉽습니다

그래서 당신 ML 파이프 라인이 MLM의 관점에서 무엇을 할 것입니다 이제 스파크 코어에 대해 이야기 해 봅시다 스파크 코어 우리는 이미 거주하고있는 모든 데이터를 논의했습니다 신체에서 우리는 그 데이터를 RDD 이것이 당신의 스파크 코어 구성 요소에 대한 전부입니다 당신이 걸을 수있는 곳 대규모 병렬 시스템에서 모든 데이터가 마침내 다시 배포됩니다

그래서 모든 계산 또한 단호하게 일어날 것입니다 그래서 이것은 당신의 스파크 코어 구성 요소에 관한 것입니다 우리가 스파크의 건축에 ​​대해 이야기 할 때, 이제 이것을 당신의 이름 노드와 관련시킬 수 있습니다 귀하의 용 프로그램이 어떤 전화에 참석하는지 마스터 머신이므로 마스터 머신 비디오의 Spark 컨텍스트와 비슷한 작업자 노드 theta 노드라고 불리며, 그래서 우리는 주식을 표시한다 이 데이터 노드는 깨진 ​​노드로 네가 지킬 수있는 기억이 되라

우리가 세금 집행자라고 부른 기억의 그 공간 보시다시피 여기에 두 개의 데이터 노드가 있습니다 우리가 수행하고있는 명령에 대한 작업 당신이 지킬 RAM의 공간 모든 블록은 실행 프로그램으로 호출됩니다 이제 예를 들어 거주하고있는 블록들 당신은 도트 맵 로직을 사용하여 또는 10 미만의 값, 이제는 논리 RDD에서 실행중인 코드 작업이라고하기 때문에 작업이라고합니다 지금 거기 중간에 가게 매니저는 YARN과 같습니다 또는 무엇이든 지키고 싶은 YARN 부인 그것은 중간 물건이 될 것입니다

이 사이클 경로 컨텍스트로 이동합니다 그 다음에 YARN이 처형에 상처를 입을 것입니다 그러면 코드가 실행될 내부 실행 어디에서 작업을 수행 할 것인지, 또한 원하는 경우 데이터를 캐시하고, 데이터를 캐시하거나 처리 할 수 ​​있습니다 이제 Spark Streaming에 대해 이야기 해 보겠습니다 우리가 이미 토론 한 스파크 스트리밍 당신이 가진 좋은 시간부터 실시간 종류 사용할 수있는 처리 방법은 무엇입니까? 여기에 데이터를 가져 오는 즉시됩니다

데이터를 데이터로 분할하고, 작은 작은 데이터 만 있으면 바로 사용할 수 있습니다 완료된 메모리에서 처리합니다 Spark Screaming의 도움으로 그리고 당신이 만들고있는 마이크로 백업 데이터 Dstream이라고도합니다 이제 우리는 매우 높은 수준에서 이야기하고 있습니다 우리가 단지 너에게주고 싶어서 일들이 어떻게 작동하는지에 대한 아이디어지만 우리가 갈 때 방송국에서이 모든 것들이 스트림에 있습니다

확실히 2 년 반에서 3 년 만에 우리가 모든 것을 다 다루는 것은 불가능합니다 하지만 모든 주제에 대한 개요가 될 것입니다 내가 너에게주는 것은, 뒤로가는 것과 같다 스파크가 일반적으로 무엇인지, 예 스파크 엔진이 당신을 돕고 있습니다

스파크 또는 당신의 물건을 당신의 것으로 바꾼다 데이터 처리를 돕고, 이것이 스파크 처리의 역할입니다 이제 Spark 스트리밍에 관해 이야기 할 때도 마찬가지입니다 지금 당신에 대해 이야기하는 것처럼 스트리밍으로 스파크를 얻을 수 있습니다 실시간 데이터는 다음과 같습니다

당신은 벗어날 수 있습니다, 그것은 여러 소스에 대한 수 있습니다 당신은 카프카를 사용할 수 있습니다, 당신은 그것을 당길 수있는 Hbase를 사용할 수 있습니다 패킷 형식에서 어떤 종류의 데이터까지 실시간으로 데이터를 Spark 시스템에 가져옵니다 그 후에는 아무것도 적용 할 수 없으며, 당신은 스파크 SQL을 적용 할 수 있습니다 의미, 당신은 실행할 수 있습니다 그것 위에 당신의 SQL, 당신은 실행할 수 있습니다 귀하의 컴퓨터가 코드를 실행하고, 당신은 그것의 위에 간단한 RDD 코드를 적용 할 수 있습니다 무엇이든 출력에 다시 저장할 수 있습니다

Hps에서 SQL kafka 마지막 비트 검색 네가하고 싶은 것은 무엇이든 주 예, 언제 데이터가 실시간으로 여기에 남습니다 즉시 같은 크로스를 시작합니다 따라서 다른 라이브러리에서도 데이터를 가져올 수 있습니다 즉시 행동을 시작할 수 있습니다 이제 이것은 여러분이 할 수있는 것과 같은 예제입니다

카프카, HDFS / S3에서 데이터를 가져와 주식을 스트리밍으로 가져 오는 모든 출처에서 그런 다음 HDFS 또는 데이터베이스에 저장하거나 어디서나 UI 대시 보드 비슷한 것들이 당신이 좋아할 것입니다 변환 할 입력 데이터 스트림 작은 전화 데이터의 일괄 처리 및 그 다음 자체의 일괄 처리 당신은 모든 것을 출력 할 것입니다, 그래서 무슨 일이 일어나고 있니? 당신이 만들고있는 데이터의 실천 그래서 나는 작은 것들을 작은 RDD라고 부를 수 있습니다 내가 뭘 만들고있어, 그게 이유 야 여기에 표시되므로 깊은 느낌을 얻고 있습니다

데이터 일괄 처리를위한 작게, 아마도 이것은 활동입니다 짧은 시간 동안 생성 될 것입니다 이제는 모든 결과가 주어집니다 그래서 이것은 매우 높은 수준의 그림입니다 스트리밍 경로가 어떻게 작동 할 것인가

Spark SQL과 유사하게 매우 강력합니다 그것은 당신에게 매우 빨리 결과물을 줄 수 있기 때문에 Spark이있는 SQL을 가지고 있다면 실행할 수 있습니다 스파크 SQL이라고합니다 이제 Spark SQL은 구조화 된 데이터를 처리 할 수 ​​있습니다 세미 구조화 된 데이터는 처리 할 수 ​​없습니다

어쨌든 당신의 비정형 데이터 우리는 SQL 쿼리를 수행하므로 이해가됩니다 그것은 반 구조화 및 구조화 된 데이터는 구조화되지 않은 데이터가 아닙니다 스트리밍 데이터 구조에서 그것은 구조화 될 것이다 그것은 구조화 된 데이터가 될 것이지만 이것은 될 것입니다 구조화 된 데이터로 다양한 형식 지원 당신은 같은 여러 형식에서 데이터를 가져올 수 있습니다, 마루, 제이슨, 어쨌든 하이브는 모든 검색어와 비슷합니다

다른 일을 할 수있는 것은 신념입니다 누가 그렇게 할 수 있는지, 데이터 프레임을 사용할 수 있는지 RDD로도 셔플 할 수 있습니다 Spark SQL에서 모든 일이 가능합니다 당신의 하이브와 비교하면 성능 이게 빨간색 표시라면 자기 시스템에서 매우 높습니다 다른 하나는 Hadoop 시스템입니다

당신이 쉽게 우리가 복용하고 있음을 볼 수 있습니다 Hadoop 시스템과 비교할 때 시간이 훨씬 적습니다 하지만 이것이이 Spark QSL을 사용할 때 가장 큰 이점입니다 이제 Java 드라이버 인 JDBC Java를 사용합니다 또는 Oracle 드라이버 인 ODBC 드라이버 연결 만들기를위한 연결 사용자 정의 함수를 만들 수도 있습니다 하이브 (Hive)에서와 마찬가지로, 스파크에서도 그렇게 해

이미 사전 작성된 API가있는 경우 당신이 만든 크리에이터가 없다면 그것을 사용할 수 있습니다 UDF를 모르는 경우 실행할 수 있습니다 매체 개념의 높은 발생률뿐만 아니라 높이가 일반적인 개념이다 자신 만의 함수를 만들 수 있습니다 쓸 수 있습니다

자신의 Java PUD를 함수로 사용할 수 있습니다 귀하의 후속 또는 유형의 귀하의 UDF를 다시, 그래서 이것은 귀하의 스파크 SQL을가는 방법입니다 이제 일반적으로 워크 플로가 정확합니까? 당신은 어디서부터 데이터 소스를 가지게 될 것인가? 데이터를 가져올 것입니다, 당신은 변환됩니다 데이트 API에, 데이터 API는 단지 유사한 것을 의미합니다 RDD로 보내지 만 표 형식이어야합니다 그래서 열 정보뿐만 아니라 행을 가질 것입니다

이제 이름 열을 갖게 될 것입니다 너는 개 심자를 해석 할 것이다 그것은 계산을하는 통로에 Spark SQL 서비스가 실행 중입니다 결국 당신은 제공하려고 노력할 것입니다 그래서 이것은 높은 수준의 그림입니다

SQL 투표를 통과하는 방법에 대해 설명합니다 이제 Mllib에 대해 이야기 해 봅시다 기계 학습 라이브러리는 두 종류가 있습니다 하나는 alogarithm이고, 초는 감독되지 않은 대수입니다 무 감독 알고리즘 당신은 이미 출력을 알고있다 당신은 이미 그 부분을 알고 있습니다

당신은 뭔가 새로운 것을 예측하고 있습니다 너는 아무것도 모르는 학습을 제공한다 데이터에 대해 이전 날짜 출력 및 원하는 결과 그것으로부터의 결과물, 이것은 감독되지 않은 학습입니다 따라서 Mllib은 우수한 평점을 처리 할 수 ​​있습니다 현재 감독하에 있습니다

우리는 분류, 회귀, 마찬가지로 우리는 클러스터링, SVD 모든 것은 감독되지 않은 사람들도 이용할 수 있습니다 패키지에 포함 된 내용은 여기에 적습니다 단지 실패를 만듭니다 입자의 한계가 있습니까? 아니, 그런 제한이 없어 새미, 알았어 사용할 수있는 모든 것을 실행할 수 있습니다

사실 make라는 이름이 있습니다 당신의 Spark Context는 또한 당신에게 높은 맥락을 가지고 있습니다 이제 상위 쿼리를 실행하려면 파이프 컨텍스트의 도움으로 무엇을 할 수 있습니다 그러한 제한이 없으므로 여전히 코드 높이 쓰기 직접 실행할 수 있습니다 이제 더 나아가 우리가 가진 기술은 무엇입니까? Sparks SQL의 다양한 데이터 소스는 무엇입니까? 그래서 우리는 이미 같은 것을 논의했습니다

우리는 파 켈 (Parquel), 제이슨 (Jason) 내가 너에게 다시 보여주기 위해 돌아 가자 당신은 CSV, 데이터베이스에서 HBase, 오라클, DB, 내 SQL 패키지 및 모든 이것들은 여러분의 데이터입니다 그래서 모든 데이터 소스에서 가져올 수 있습니다 데이터 소스가 너무 많아서 더 이상 사용할 수 있습니까? 아니오, 분류에서 일반적으로 어떤 일이 발생합니까? 예를 들어 주기만하면됩니다

스팸 전자 메일 상자 란 무엇입니까? 나는 스파 킹을 봤어 Gmail의 스팸 이메일 상자에서 이제 새로운 이메일이 나옵니다 Google이 스팸 전자 메일인지 여부를 결정하는 방법 또는 스팸이 아닌 이메일을 분류의 예에는 3을 더한 것입니다 Google 뉴스에서 볼 수 있다고 가정 해 봅시다 당신이 무언가를 타이핑 할 때처럼 모든 뉴스를 모아서 클러스터링이라고합니다

회귀, 회귀는 또한 매우 중요한 사실, 그것은 여기에 없습니다, 회귀가 없다 집이 있다고 말할 수있다 너는 그 집과 너를 팔고 싶다 최적의 가격이 무엇인지 전혀 모른다 집을 임대해야합니다

이제이 회귀가 당신을 달성하는 데 도움이 될 것입니다 네가 본 협업 벤틀리 아마존 뒷 페이지로 이동하면 그들은 당신에게 추천을 보여줍니다, 당신은 이것을 살 수 있습니다 당신이 거기에서 사기 때문에 이것은 끝났습니다 협업 필터링의 도움을받습니다 따라서이 알고리즘은 추천 팩 graphX graphX에서 다시 한 번 중요한 자신감 당신은 모든 문제를 적용 할 수 있습니다, graphX에서 모든 문제를 해결할 수 있습니다

이제 우리에게는 가장자리가있는 여러 가지가 있습니다 관계를 나타냅니다 이제 이걸 다시 볼 수 있습니까? Bob, Carol 이것들은 어디에서 나옵니다 당신은 잎이라고 부를 수 있습니다 이제는 커넥터입니다

그 (것)들 사이에서 H로 불린다, 저것은 다만이다 여기에 화살표가 있으면 지금 여기에 표시됩니다 우리가 본 것처럼 직접 그래프라고 불리는 계보에서도 뭔가 그래서 당신의 유향 그래프입니다 이제 사용 사례는 무엇입니까? 몇 가지 예를 살펴 보겠습니다 이제 여러분 모두는이 Google지도를 보았을 것입니다 구글 맵 당신이 그것을 테스트해야합니다, 이제 구글 맵 그리고 그 뒤쪽에있는 그래프 X 당신이하는 일은 당신이하지 않는 것을 적용 할 때입니다

실제로 한 부분 만 검색하면된다 여러 부품의 경우 최적의 진흙 경로를 보여줍니다 그것은이 시간보다 적거나 링크 거리 일 수 있습니다 지금 계산이 모두 무슨 일이 일어나고 있는지 구덩이 그 모든 것을 검사하는 그래프를 계산하는 것 모든 시간을 계산하는데 소요되는 시간이 줄어들 것입니다

그것은 graphX의 도움으로 끝난다 마찬가지로 보호 기능에 대한 많은 예제가 있습니다 이 graphX를 사용해 주셔서 감사합니다 그들이 본 트위터 또는 LinkedIn을 참조하십시오 친구 추천, 즉 모든 것이 끝날 수있다

그래서 모든 권장 사항은 그래프를 생성하고 그 모든 것을 기반으로 그들은 산출하고 당신에게 산출을 준다, 그래서 거기 또한 graphX ​​실행이므로 graphX는 우리와 함께 사용할 수있는 매우 강력한 대수입니다 이제 프로젝트로 이동하기 전에 너에게 실제적인 부분을 보여주고 싶다 우리가 스파크 것들을 어떻게 수행 할 것인가 VM 머신으로 데려다 드리겠습니다 감독이 제공 할 것이므로이 기계의 감독이 제공하기 때문에 내가 어디에서 갈지 걱정하지 마라

소프트웨어, 내가이 시점에서 무엇을 할 것인가? 그곳에서 모든 역할이 감독의 감독을 받는다 이제 일단 당신이이 곳에 오면 당신은 보게 될 것입니다 이런 기계는 나에게 이것을 시키자 그래서 무슨 일이 생기면 이처럼 빈 머신이 보일 것입니다 이걸 보여 드리죠

하지만이게 당신 기계예요 당신은 무엇을 하려는지 지금처럼 보일 것입니다 일하기 시작하면 이 검은 색 옵션을 클릭하여이 영구 보존 물 그 후에 당신이 할 수있는 일은 당신이 할 수있는 일입니다 이제 너의 스파크에 가지마, 내가 어떻게 일할 수 있을까? 어떤 프로그램을 실행하기 위해 Spark와 함께 스칼라 프로그램을 사용하여 스파크에서 당신을 그것을로 입력됩니다 (말도 안되는 소리) 스파크주의를 입력하면 ELA Pro에 연락하여 경로 프로그램을 작성할 수 있습니다

그러나 ELA 프로그래밍 언어를 사용합니다 당신은 이것을 볼 수 있습니다, 이제 당신은 스파크를 볼 수 있습니까? 그것은 또한 나에게 한 포인트 5 포인트 두 버전을 제공하고 있습니다 스파크 버전입니다 이제 볼 수있는 여기를 볼 수 있습니다 이 부분 컨텍스트는 사용 가능한 상태로 제공됩니다 스파크 쉐이크에 연결되면 당신은 이것이 기본적으로 사용 가능하다는 것을 볼 수 있습니다

너에게,이 공격에 약간의 시간이 걸리게하라 이제 우리는 모두 연결되어 있으므로 연결되었습니다 이 스케일 무도회에, 지금 내가 원한다면 그것의 안에서 나는 단지 타입 출구를 부를 것이다, 그것은 단지 내가이 블록에서 나오게 할 것이다 이제 두 번째로 내 프로그램을 작성할 수 있습니다 내화물로, 내가 할 수있는 일 Spark에서 프로그래밍하고 싶다면 그러나 파이썬 프로그래밍 언어 나는 Spark box와 연결할 것이다

그래서 연결하기 위해서는 Spark를 입력하면됩니다 내 데이터로, 나는 지금 연결되지 않을거야 파이썬이 필요하지 않기 때문에 나는 지금 스칼라 모든 것을 설명 할 것이다 하지만 연결을 원한다면 입력 할 수 있습니다 현장에서 다시 내 스파크에 연결하자

그 동안이 연결되어지고있다 파일을 만들자 파일을 만들자 그래서 당신이 알아 차릴지라도 나는 아무것도 가지고 있지 않다 나는 이미 F

txt를 가지고 있으므로 cattxt라고 해봅시다 나는 1, 2, 3, 4, 5의 데이터를 가지고있다 이것은 나와 함께하는 나의 데이터입니다 나는이 파일을 밀어 붙이게 할거야

이미 선택했는지 확인하십시오 내 시스템에서는 DFS 시스템을 의미하는데, hadoop dfscatatxt 이미 사용 가능한지 빠르게 확인하기 만하면됩니다

좋아, 그런 파일이 없으니 내가 먼저 넣을 게 이 파일을 내 시스템에 보자 atxt 그래서 이것은 dfs의 기본 위치에 놓을 것입니다 지금 내가 그것을 읽고 싶다면 나는이 길을 볼 수있다

다시 한번 저는 여러분이 알고 있다고 가정합니다 이걸 최고의 점수로 생각하면 지금 볼 수 있습니다 이 하나, 둘, 셋, 넷, 다섯이오고있어 Hadoop 파일 시스템에서 이제 내가하고 싶은,이 파일을 사용하고 싶습니다

내 스파크 시스템에서 지금 어떻게 할 수 있니? 그래서 내가 여기 스칼라와 스칼라로 들어 가자 정수 float이없고 Java와는 다릅니다 당신이 integer와 같은 정의를 사용할 때 우리가 정의하는 데 사용하는 것과 같이 10과 같습니다 하지만 스칼라에서 우리는이 티커 테이프를 사용하지 않습니다 사실 우리가하는 일을 그래서 내가 10을 동등하게 사용하면, 자동으로 식별합니다

알 수없는 정수 값입니다 그것은 정수형이라고 말해 줄 것입니다 이제이 값을 20으로 업데이트하려면 나는 그것을 할 수있다, 내가 지금 갱신하고 싶은지 말하자 이런 식으로 ABC로 가면, 화살을 움직일거야 a는 이미 정수로 정의되어 있기 때문에 일부 ABC 문자열 유형을 지정하려고합니다

그래서 그것이 당신이이 화살을 가지고있는 이유입니다 비슷하게, Val이라는 또 하나의 것이 있습니다 발 B는 10과 같다면 할 수 있습니다 그것은 그것과 정확히 똑같이 작동 하나 하나 가지고있다 이 경우의 차이점은 B가 같으면 같음 ~ 20, 오류가 표시되며이 오류의 원인 왜냐하면 당신이 뭔가를 val로 정의 할 때 그것은 상수입니다

견딜 수 없을 것입니다 더 이상, 그것은 상수가 될 것입니다 뭔가를 val로 정의하면 그 이유가 있습니다 업데이트되지 않을 것입니다 해당 값을 업데이트 할 수 없습니다

그래서 이것은 당신이 할 줄 알았어요 귀하의 프로그램, 그래서 다시 가변 부분에 대한 당신의 일정한 가치를위한 발의 이제 너는 이렇게 될거야 이제 예제로 사용 해보자 우리가 배웠다면, 이제 내가 만들고 싶으면 자동차 번호 때문에 TV 번호 sc

textfile과 같습니다 이미 파일로 말한이 API를 기억하십시오 sctextfile 이제이 파일을 atxt로 보냅니다

내가이 파일을 atxt로 주면 스파크를 거의 보지 못했다 문자열 유형의 RDD를 만들었습니다 원하는 경우 지금 이 데이터를 읽으려면 numbercollect를 호출합니다

사용 가능한 값이 인쇄됩니다 너는 볼 수 있니? 여기에서 볼 수있는 것은 당신의 기억에서 나온 것입니다 이것은 읽고있는 메모리에서 나온 것입니다 그것이이 특별한 방식으로 나타나고있는 이유 그래서 이것은 당신이 당신의 단계를 수행하는 방법입니다

이제, 내가 말했던 두 번째 일은 스파크 독립 실행 형 시스템에서 걷는다 고 말하면서, 그래서 지금 무슨 일이 일어 났는지는 우리는이 부분을 우리 역사에서 실행했습니다 이제 로컬 파일 시스템에서이 작업을 실행하려면 그럴 수 있겠습니까? 그렇습니다 이 경우 그렇게하기 위해해야 ​​할 일 차이점이 여기에 올 것입니다 당신이 여기서주고있는 파일은 대신 너는 그렇게 함으로 너는 이 파일 키워드는 그 전과 후에 예를 들어 로컬 파일을 제공해야합니다 이 길은 무엇입니까 / 집 / 나는 그들이 오는가? 이 경로는 경로만큼 깊지 않은 로컬 경로입니다

그래서 / home / cat Eureka / atxt를 작성할 것입니다 자네가 이걸 주면 파일을 메모리에 저장하고 hdfs로는 저장하지 않는다 대신에 그걸로드 한 경우는 무엇입니까? 너의 하,이야, 그래서 그 차이가있다 그래서 두 번째 경우에서 볼 수있는 것처럼 나는 아닙니다

내 Hdfs를 사용하는 것조차도 무엇을 의미합니까? 이제 그들이 왜 이걸 설정했는지 말해 줄 수 있니? 입력 부분 옆에 존재하지 않기 때문에 여기에 오타를 입력했습니다 알았다면 이제 알겠습니다 왜 내가이 오류를 여기에서 얻지 못했을 까? 왜 내가 여기 다른 사람을 얻지 않았어? 이 파일은 존재하지 않지만 여전히 얻지 못했습니다 Lazy Evaluation으로 인한 오류 게으른 평가를 통해 잘못된 경로를 부여한 경우 다른 그것은 비어있는 거래를 만들었지 만 아무것도 실행되지 않았으므로 모든 출력 또는 장면에 오류가있을 수 있습니다 당신이 연결의 그 행동을 명중 할 때

이제는이 값을 수정하기 위해 필요합니다 이 에드카와 내가 연결하면이 시간을 연결한다 작동합니다이 출력을 볼 수 있습니다 하나 둘 셋 넷 다섯

이번에는 잘 작동하므로 지금해야합니다 평가를 같은 것으로 남겨 두는 것이 더 분명하다 잘못된 파일 이름을 지정하는 경우 문제가되지 않습니다 내가 생산 단위에서 스파크를 사용하고 싶다고 가정 해보자 하지만 Hadoop 위에는 가능하지 않습니다

그렇습니다 너는 그럴 수 없어, 너는 그거 할 수있어 미안해 하지만 대개 그건 네가하는 일이 아니라 네가하는 일이야 원한다면 할 수있는 일이 많습니다

당신은 아마존에 그것을 배치 할 수 있습니다 당신이 거기에서 할 수있는 많은 것을 클러스터하십시오 이 경우 분배를 어떻게 제공 할 것인가? 다른 배포 시스템을 사용할 것입니다 그래서이 경우 당신은이 팩을 사용하지 않습니다 당신은 그것을 배포 할 수 있습니다 가지가지 종류의 물건을 나누어 배포 할 수 없다

클러스터에서 당신은 해방되지 못했습니다 그 중복성은 아마존도 아마 뉴스 다 그것으로 충분하기 때문에 그렇게 할 수 있습니다 이걸 사용하면 이제 얻을 수 있습니다 그래서 이것은 당신이 당신의 길을 어떻게 수행 할 것인가입니다

내가이 길에서 너는 어떻게 일할 지 말하기 때문에 내가 너에게 말했듯이 너를 설명 할거야 그래서 이것이 어떻게 작동하는지입니다 이제 재미있는 사용 사례를 살펴 보겠습니다 그래서 우리 PPT로 돌아 가자 이것은 매우 흥미로울 것입니다

이 사용 사례를 보자 이 유스 케이스는 매우 흥미 롭습니다 스파크를 이용한 지진 감지 용 그래서 나는 이미 일본을 보았을지도 모른다라고 생각한다 이렇게 많은 지진이 올 수도 있습니다 그것에 대해 들었습니다

분명히 가질 수 있습니다 네가 들었음에 틀림 없다고 생각하지 않았다 일본에서 일어나는 돌연변이가 너무 많다는 것 예산 문제를 해결하는 방법 그래서 나는 너에게 엿볼 것을 줄 것이다 우리가 세션에서 어떤 종류의 문제를 해결했는지, 확실히 우리는 자세히 걷지 않을 것입니다 이것에 관해서는 Spark가 얼마나 자주 있는지를 알게 될 것입니다

여기서 간단한 설명을 드리겠습니다 그러나이 모든 목표는 그 당시 배울 것입니다 세션의 이제, 그래서이 부분을 보자 이 사건을 어떻게 사용하게 될지, 모두들 어떤 질문이든 알고 있어야합니다 그래서 나는 깨질거야 너의 표면이 흔들리는 것 같아 너의 집이 떨리는 거지, 사실 일어나는 모든 사건들 인도 출신이라면 최근에 보았을 것입니다

온 지진 사건이있었습니다 최근 네팔에서도 네팔에서 싸운다 그 사건이 있었는데, 이것들은 빠른 유지입니다 와서, 지금 매우 중요한 부분은 지진이 큰 지진이라면 earthquick 또는 어쩌면 쓰나미처럼 산불이 화산일지도 모릅니다 이제는 그들에게 친절을하는 것이 매우 중요합니다

균열이 올 것 같아요 그들은 그것을 예측할 수 있어야합니다 미리, 그렇게해서는 안된다 그들이 나가기 위해 나간 마지막 순간 그 후 온 국기는 아무 협박도없이 온다 그것은 그렇게 일어나서는 안된다

이 모든 것들을 미리 예측할 수 있어야한다 그들은 미리 예측할 수 있어야합니다 일본이 오늘 기름을 사용하고있는이 배출 시스템 실시간 유형의 사용 사례입니다 내가 제시하고있는 것이 일본이 이미 존재하기 때문이다 해결하기 위해이 경로를 사용하여 펭귄 이 지진으로 우리가 보게 될 것입니다

그들이 그것을 어떻게 사용하는지 이제 일본 지진 모델에서 어떤 일이 일어 났는지 말해 보겠습니다 그래서 지진이 올 때마다 예 : 오후 3시 또는 오후 2시 46 분 지금 일본 지진 조기 경보가 예측되었다 이제 그 일은 내가 예측 한대로 였어 즉시 그들은 학교에 경보를 보내기 시작합니다

모든 역의 공장까지 엘리베이터로 TV 방송국을 통해, 그들은 즉시 친절 모든 사람들에게 말했습니다 그래서 모든 학생들은 학교에 거기에 그들이 갈 시간이있어 책상 아래, 달리기 전의 탄환 열차 그들은 즉시를 제외하고 다르게 멈췄다 이제 탄환 열차가 흔들 리기 시작합니다

이미 초고속으로 연소하고있다 그들은 정렬이 없어야한다는 것을 보증하기를 원한다 그 사상자 때문에 총알 기차가 멈췄다 모든 엘리베이터들 달리는 리프트가 멈췄다

그렇지 않으면 어떤 사건이 일어날 수있다 60 초 전, 60 초 전 그들이 거의 알릴 수 있었던이 번호 모두, 그들은 메시지를 보낸다 그들은 TV에서 모든 것을 방송했습니다 그들은 즉시 모든 논문을 마쳤습니다 최소한이 메시지를 보낼 수 있도록 누구든지 그것을받을 수 있고 구원 받았다

수백만의 생명, 그래서 그들이 어떻게 할 수 있었는지 우리가이 모든 것을 다했다는 것을 성취하기 위해 팔꿈치 아파치 스파크의 그들이 어떻게 지내기 전에 가장 중요하다 당신은 그들이하고있는 모든 것을 볼 수 있습니다 거기 그들은 실시간 시스템에서 그것을하고 있습니다 데이터를 수집 할 수 없으면 나중에 그들이했던 모든 과정은 실시간 시스템, 그래서 그들은 연결 즉시 처리되는 데이터 및 곧 그들이 지진을 감지하자마자 그들은 즉시 실제로 이것이 2011 년에 일어난 사실을 알려주었습니다 이제는 매우 자주 사용하기 시작합니다

일본은 이것은 매우 빈번하고 영향을받습니다 그래서 중요한 것은 우리가 할 수 있어야한다는 것입니다 데이터를 처리하기 위해 미디어에 문제가 없다 여러 소스의 데이터를 처리 할 수 ​​있어야합니다 그들은 여러 출처에서 올 수 있기 때문에 서로 다른 소스 일 수 있습니다

이 사건은 다른 어떤 사건이 수정 되었기 때문에 우리는이 일이 일어날 수 있다고 예측하고있다 그것은 매우 사용하기 쉬워야합니다 그것은 사용자를위한 것에서 매우 복잡합니다 그것을 사용하는 것은 매우 복잡해질 것입니다 문제를 해결할 수없는 경우 지금도 결국에는 많은 메시지를 보내는 방법 오른쪽 하단까지, 모든 것들 스파크가주의를 기울입니다

이제 두 가지 종류의 레이어가 있습니다 지진이 일어나면 프라임 기부와 두 번째 건물 스파크에는 두 가지 종류의 방법이 있습니다 초벌절 파도는 벤더와 같거나 언제입니까? 시작하려면 Dickey Center에서 시작하십시오 go 또는 20을 시작하여 시작할 것입니다

이차적 인 물결이 더 심하다 친구 한테도 불을 붙 였지 일단 시작되면 2 차 실패로 그것은 크게 손상을 입힐 수 있습니다 당신은 초기 파동을 말할 수 있지만 두 번째 파동 우리는 그것의 위에있을 것이다 그래서 그들은 발견한다 세부 사항을 만든다 그 점에 관해서는 그 세부 사항에 대해서는 언급하지 않을 것입니다

하지만 여기에 관해서는 그와 관련하여 몇 가지 세부 사항이있을 것입니다 이제 우리가 스파크를 사용하여 무엇을 할 것인가? 우리는 우리의 정직을 창조 할 것입니다 그럼 우리 기계에서 보자 우리가 OC보다 얼마나 싸게 계산할 것인가? 어떤 것을 사용하여 나중에이 문제를 해결할 것인가? 도움으로이 알파를 계산할 것입니다 스파크 시스템의 우리가 다시 와서하자 이 기계에, 지금 그 일을하기 위해서 일단이 용어를 빠져 나가면 빠져 나오십시오

이 관심사에서 지금 당신이하려는 일 나는이 프로젝트를 이미 만들었고 여기에 보관했다 왜냐하면 우리는 당신에게 이것에 대한 개요를주고 싶기 때문입니다 내 다운로드 섹션으로 가자 src라는 프로젝트가 여러분의 프로젝트입니다 처음에 당신이 가질 모든 것 너는 모든 일들을 처음부터 끝내지 않을 것이다

그래서 무슨 일이 일어날 지 그래서 내가 가면 여기에서 내 다운로드에는 alt 프로젝트가 두 개 있습니다 지금은 처음에는 내가 생각하는이 목표 디렉토리 프로젝트 디렉토리 우리는 SBT 심볼 위에 사용할 것입니다 가위 확장 도구를 SBT로 모르는 경우 모든 의존성을 처리합니다 check는 모든 의존성을 충분히 처리합니다 그래서 mebane과 매우 비슷합니다

이미 Mebane을 안다면, 매우 유사하지만 동시에 나는 선호한다 이 SBB는 SBB가 쓰기 쉽기 때문에 당신의 방법과 비교하여 이 법안을 쓸 때 생각을 쓰는 중이다 그래서 이것은 당신에게 buildsbt를 쓸 수있게 해줍니다 이제이 시점에서 프로젝트의 이름, 버전 의 스칼라 버전을 사용하여 당신은 의존성이 무엇인지를 사용하고 있습니다

당신은 어떤 버전의 의존성을 가지고 있는가? 당신은 예를 들어 4 개의 스파크가 있습니다 저는 152 버전의 스파크를 사용하고 있습니다 내 프로그램에서 뭐든간에 나는 무엇이든을 요구하는 경우에 쓰고있다, 스파크 작업과 관련된이 웹 사이트에서 가져 오기 org

apachespark, 다운로드하여 설치하십시오 Spark 스트리밍 프로그램에 대한 종속성이 필요한 경우 이 특정 버전 152 이 웹 사이트 또는이 링크로 이동하여 실행하십시오

가장 좋은 몫에서 비슷한 것을 말하고 있습니다 자, 일단이 작업을 완료하면 폴더 구조, 폴더 구조 SRC 폴더를 만들어야합니다 그 후에 당신은 메인 폴더를 만들 것입니다 주 폴더에서 다시 만들 것입니다 ELA라는 폴더 이제 그 안에 당신은 당신의 프로그램을 지킬 것입니다

그래서 지금 여기서 당신은 당신의 프로그램을 작성할 것입니다 그래서 너는 이걸 볼 수 있니? streamingscala, networkscala, rscala

그럼 아래의 블랙 박스로 유지합시다 그럼 당신은 달성 코드를 작성하는 것입니다 이 문제 성명서, 지금 우리가하는 것 이 일에서 나가자 기본 프로젝트 폴더로 이동하고 여기에서 당신은 sve 꾸러미를 쓸 것이다, 존경심을 가지고 다운로드가 시작됩니다 당신의 프로그램을 검사 할 것입니다 스파크 경로에 필요한 의존성 경로 스트리밍, Spark MLlib 다운로드 설치하고 다운로드하면됩니다

설치하고 실행하지 않을 것입니다 전에 이미 해 봤기 때문에 또한 시간이 걸리기 때문에 그 이유가 있습니다 나는 그것을하지 않고있다, 이제는 네가 채운 후에 이 패킷은 모든 디렉토리를 찾을 수 있습니다 직접 현장 프로젝트 디렉토리 이것들은 이것들의 나중에 만들어졌다 이제 어떻게 될 것인가? 이걸 만들었 으면, 이클립스에 갈거야

그래서 이클립스를 열고 이클립스를 열어 보겠습니다 모든 파일이 준비되어 있습니다 지금 나는 이미이 프로그램을 내 앞에두고있다 하지만 당신이 어떻게 데려 올지 말해 줄 게요 이 프로그램은 이제 너에게 갈거야

두 가지 옵션 모두에서 가져 오기를 선택하면 기존 프로젝트를 작업 공간으로 가져오고, 다음에 한 번 선택하면됩니다 예를 들어 주 프로젝트를 선택해야합니다 분화구를위한이 r2 프로젝트 좋아, 일단 그렇게하면 여기에 프로젝트 디렉토리가 있습니다 도구가 여기 올 것입니다 이제해야 할 일이 있습니다

너의 것과 같이이 프로그램을 모두 무시하라 클로렐라 만 있으면 돼 내 주요 기능 코드를 작성했습니다 이제 그 일이 끝나면 당신은 치유 사 응용 프로그램으로 실행해야합니다 코드가 실행되기 시작합니다

이제이 오류가 나를 반환합니다, 이 출력을 보자 자, 이걸 보면, 한 번 보여줄거야 실행이 끝났습니다 ROC 아래의이 영역을 자주 봅니다 그래서 이것은 모두 로우 패스 프로그램으로 계산됩니다

마찬가지로 다른 프로그램들도있다 속도를 화면에 표시하는 데 도움이 될 것입니다 나는 그 모든 것을 다 걷지 않고있다 이제 내 PPT로 돌아가서 우리가 무엇을 할 지 다음 단계는 무엇입니까? 그래서 당신은 이것을 볼 수 있습니다 엑셀 시트 나는 지금 ROC를 유지하고있다 이제 ROC를 만든 후에 우리는 그래프를 생성 할 것입니다

현재 일본에는 중요한 것이 하나 있는데, 일본은 이미 지진의 영향을 많이받는 지역이다 이제는 그 문제가 무엇이든간에 사소한 지진에도 마찬가지야 경고를 보내기 시작해야합니다 사소한 애정 때문에 모든 것을하고 싶지 않아 사실 건물과 기반 시설 일본에서 만들어진 것은 그런 식으로 여섯 가지 규모 아래 지진이 발생하면 거기에 가정의 방법으로 설계된 아무런 피해도 없으며 피해도 없을 것입니다

그래서, 이것은 당신이 일할 때 가장 중요한 것입니다 일본에있는 일본인들과 그래서 6이라는 의미는 묻혀 있지 않습니다 6 세 이상, 그들은 걱정하고 있습니다 이제 그들은 그래프 생성이 될 것입니다 네가 할 수있는 일, 너는 다시 할 수있어

이 그래프를 생성하면 너는 아무 것도 보지 않고 너는 가고있어 6 세 이상, 6 세 이상인 경우 우리는 즉시 그들을 시작해야합니다 이 프로그래밍 사이트를 알고 있다면 우리가 방금 만든 것입니다 너는이 실행 경로를, 지금 가지고 있다면 동일한 결과를 시각화하기 위해 이것은 무엇인가? 내 ROC를 보여주고 있지만 내 지진이 6보다 커지면 그때 파도 나 많은 것들만이 일어납니다 그렇지 않으면 평온을 유지하는 모든 사람들에게 배우십시오

그것이 프로젝트입니다 우리가 일반적으로하는 것입니다 우리의 공간 프로그램 디자인을 보여줍니다 이제는 우리가 친절한 유일한 프로젝트가 아닙니다 여러 개의 제품 세그먼트를 생성하는 방법 예를 들어 내가 좋아하는 모델을 만드는 것처럼 어떻게 벽을 만들지 않을 수도 있습니다

존경심으로 어떤 판매가 일어나고 있는지 스파크와 아파치를 사용하고있다 거기서 끝나고 산출물을 시각화하는 것 어떤 분석을 하든지간에 이 모든 것을 그렇게 주문하고 있습니다 우리가 세션을 할 때 우리는 당신을 걸어 간다 배운 모든 것들은 운임과 느낌 이 모든 프로젝트는 현재 사용 중입니다 당신이 화제를 알지 못하기 때문에 당신은 할 수 없습니다

그 때 프로젝트의 100 %를 얻으려면 주관적인 각 주제를 알게되면 당신은 스파크가 어떻게 생겼는지에 대한 명확한 그림을 갖게 될 것입니다 이 모든 새로운 공간을 끝내고 있습니다 그래서 우리가 토론하고 싶은 것을 선택합니다 두 번째 부분과 함께, 그래서이 세션을 바란다 여러분 모두에게 유용합니다

통찰력이 있습니다 스파크가 작동하는 방법, 왜 우리가 갈 거에요? 스파크와 무엇에 관한 이용 가능한 중요한 것들과 그게 중요해 (말도 안되는 소리) 그들 중 한 명에게서 질문이 있으면 물어보십시오 너 뭐야, 아파치 스파크 뭔가 리얼 타임에서는 아직 내가 거의 다 보통이다 실시간을 만들 수는 있지만 유용하지는 않습니다

그래서 우리가 시도하기 때문에 거의 원자로에 가깝습니다 어떤 사람들하고 너에게 말하고있어 정확히는 아니지만 심지어 내 목소리까지 도달합니다 최소한 몇 초 만에 최소한 당신에게 또는보고있는 경우에도 나노초 단위 내 화면에서 당신은 예외에서 그 데이터를 보지 못한다 스파크 리얼 타임 스쿼터에있는 것의 정의 할 수 없으므로 짝수가 될 것입니다

거의 실시간으로 불리는 사소한 지연 그것이 우리가 결정할 수있는 것입니다 일반적으로 이것이 우리가 설계하려고하는 것입니다 사실 그것은 거의 다른 질문 일 것입니다 누구든지이 세션은 매우 도움이됩니다 나는 오늘 나를 많이 고마워했다

그래서, 만약 당신이 세부 사항을 배우고 싶다면 당신은 Tilaka와 연락을 취할 수 있습니다 나도 거기있는 다른 사람이고 너에게 말해 줄께 이 시장에서 가장 인기있는 주제입니다 지금 당장 이용할 수있는 직업이 너무 많아요 내 말에 순종하지 말고 그냥 가라

당신이 최대 일자리를 볼 수있는 자신을 탐험 해보세요 큰 데이터를 가져 왔고 그 이유는 많은 사람들이 아파치쪽으로 움직이고 있습니다 드레이프 나는 그것을 배우는 많은 학생들이 머리를 가지고있다 우주선을 만드는 사람들이 많이있다 이 도메인에서 일을 성공적으로 마쳤습니다

이 모든 것을 흥미있게 만들어 주신 모든 분들께 감사드립니다 이 에드레카 세션을 좋아하길 바래 무슨 길을 다시 우리가 다시 한 번 에드레카 세션입니다 나는 너를 다시 한번보고 싶다 그래서 모두 감사합니다 이 비디오를 듣고 즐거웠기를 바랍니다

친절하게 대해 주시고 댓글을 달 수 있습니다 의심이나 의문이 생기면 우리는 대답 할 것입니다 가장 빠른 시일 내에 그 (것)들에게 더 많은 동영상을 찾아보십시오 우리의 재생 목록과 우리의 에드레카 채널에 가입 더 배우고 행복하게 배우기

Introduction to IoT | IoT Projects-Smart Chair | IoT Tutorial for Beginners | IoT Training | Edureka

안녕하세요,이 분들은 에드레카 (Edureka)의 바하라 (Bharani)입니다 오늘의 교육 세션에서 우리는 사물의 인터넷은 왜 다음 큰 혁명 이니, 이해하자

오늘의 교육 목표에서 우리는 무엇을 이해하는지 시작합니다 정확히 인터넷의 사물이고 우리는 다음의 진화를 살펴볼 것입니다 인터넷은 IOT 아키텍처를 통해 갈 것이며 다음을 살펴볼 것입니다 IOT에 사용 된 여러 개발 보드와 마침내 우리는 Raspberry Pi 3을 사용하는 스마트 의자의 개념 목표는 마침내 나에게 채팅을 적어서 확인을 준다 상자 괜찮아요

라비가 분명하다고 말하면서 샘 팔라비는 질문을했습니다 Arduino와 IOT 개발 키트를 묻습니다 Pallavi Arduino가 있습니다 실제로 오픈 소스 하드웨어 및 소프트웨어 회사는 자신의 IOT 장치를 만들기위한 싱글 보드 마이크로 컨트롤러 귀하의 질문에 대답 Pallavi 괜찮아 그래서 Pallavi 예 맞아요 모두들 지금 Eureka의 IOT 인증 과정을이 과정에서 이수하 실 겁니다 센서 및 부품 통합을 사용하여 IOT 솔루션을 개발하는 방법을 배우게됩니다

빅 데이터 (Big Data)에서 IOT를 구현하고 활용도 및 추출 된 데이터의 모델링이 과정에 포함 된 유스 케이스 및 실습 IOT 기술이 어떻게 미래를 변화 시킬지 이해하는 데 도움이 될 것입니다 이 교육이 끝나면 귀하는 다음과 같은 역할과 책임을 배우게됩니다 IOT 개발자 바로 지금 당장 세션을 시작해 보겠습니다 인터넷이라는 용어는 기본적으로 인터넷이 기본적으로 전세계 컴퓨터 연결 인터넷은 공유 할 데이터 고속도로를 제공합니다 전 세계 한 곳에서 다른 곳으로 네트워크를 통한 정보 제공 컴퓨터 연결에서 인터넷의 기능을 확장 할 때 세계적으로 몇 개의 작은 전자 장치를 연결하는 것 Internet of Things 스마트 한 창의력을 지닌 스마트 한 장치가 이제는 만들어졌습니다

IBM Internet of Things에 따라 IOT에 대한 IBM의 정의를 살펴보십시오 모든 장치를 인터넷에 연결하는 개념과 다른 장치를 인터넷에 연결하는 개념 인터넷의 물건 인터넷은 연결된 일을하는 거대한 네트입니다 모든 사람들은 그들이 사용하는 방식에 관한 데이터를 수집하고 공유합니다 그들 주위의 신체 환경 그래서 지금 우리는 정확히 내가하는 일의 인터넷이 무엇인지를 이해했습니다 인터넷의 진화를 살펴보면 인터넷 시대 이전의 대부분의 인간과 인간의 의사 소통은 고정 된 이동 전화를 통해 문제가되었다

유선 전화를 사용하면 통신 회사와 전화 통화를 예약해야합니다 가능한 경우 가끔 연결하기 때문에 수 시간 또는 며칠이 걸릴 수 있습니다 그때 인터넷의 근원으로 세계는 즉시 바뀌었다 지리 정보를 고려하지 않고 정보를 공유 할 수있는 메커니즘을 제공했습니다 위치는 대륙이 될 수 있고 여전히 중요한 정보를 공유 할 수 있습니다

버튼 클릭과 블로깅 소셜 미디어 발명이 시작된 후 MySpace와 LinkedIn과 같은 인기 사이트에서 폭발적인 인기를 얻었다 2000 년대 초 YouTube는 2005 년에 나왔습니다 먼 거리에서 서로 의사 소통하고 공유하는 사람들 2006 년 페이스 북과 트위터가 전 세계 사용자에게 공개되었습니다 오늘날 소셜 네트워킹 사이트의 엄청난 다양성과 그 중 많은 것들이 있습니다 교차 게시를 허용하도록 연결될 수 있으므로 사용자가 친밀감을 희생하지 않으면 서 최대한 많은 사람들에게 다가 갈 수있다

사람과 사람의 의사 소통이 가능하며 컴퓨터 및 그러므로 인터넷은 거의 전적으로 인간에 의존한다 인터넷에서 거의 모든 데이터를 이용할 수있는 정보 기록을 눌러서 인간에 의해 처음으로 붙잡혀 만들어졌습니다 디지털 사진을 찍거나 바코드를 스캔하는 버튼은 사람들이 문제입니다 제한된 시간의 주의력과 정확성을 가지며 이는 모두 좋지 않다는 것을 의미합니다 실제 상황에서 데이터를 캡처하는 데만 사용하고 컴퓨터가 있으면 감사합니다

데이터 또는 가제트를 사용하지 않는 것에 대해 알아야 할 모든 것 우리의 모든 도움은 우리가 모든 것을 추적하고 세며 대대적으로 사물을 교체해야 할 때 알 수있는 낭비, 손실 및 비용을 줄입니다 수리 및 그들이 신선하거나 과거 최고 였는지 여부는 모두 인터넷 오브 사물을 통해 지금까지는 IOT가 인터넷에 연결되어 있지 않다는 것을 이해했을 것입니다 실제로 소비자 장치는 IOT가 가능한 시스템을 구축 한 기술입니다 현실 세계의 자극에 자율적으로 감지하고 반응 따라서 인간의 개입은 확실한 프로세스 흐름을 개발할 필요가있다 프레임 워크는 IOT 솔루션이 내장되어 있으므로 Internet of Things는 엔티티 또는 고유 한 물리적 장치입니다

임베디드 시스템을 식별하고 네트워크를 통해 데이터를 전송할 수있는 능력 이러한 것들에는 센서와 액추에이터가 장착되어있어 전송하는 장치의 센서 신호 수용 및 처리 물리적 환경의 정보를 신호로, 액추에이터는 센서로부터의 신호에 작용하는 장치이며, 수집 된 정보를 전송하기 위해 출력물로 변환 아두 이노 (Arduino)와 같은 하드웨어 구성 요소와 라스베리 파이 (Raspberry Pi)는 센서는 아날로그 형태로 시작하여 집계하여 다운 스트림 데이터 수집 시스템을위한 디지털 스트림 이러한 데이터 집계 및 변환 기능을 수행합니다 센서 및 액츄에이터에 근접하여 설치되는 수집 시스템 예를 들어 펌프에는 6 개의 센서 및 액추에이터가 포함될 수 있습니다 데이터를 데이터 집계 장치에 공급할뿐만 아니라 데이터를 디지털화하고 거기서 인접한 게이트웨이 장치 나 Cir 단어가 될 것이므로 데이터를 디지털화하고 IOT 데이터가 디지털화되면 다음 단계로 전달합니다 통합되어 IT 영역으로 넘어갈 준비가되었지만 데이터에 필요할 수 있음 데이터 센터에 들어가기 전에 처리해야합니다 IT 처리 시스템은 원격 사무소 또는 기타 에지 위치에 배치 될 수 있습니다

그러나 일반적으로 우리는 시설이나 장소에서 그들이 더 가까이에 거주하고 있다고 말했습니다 센서는 예를 들어 와이어 링 클로짓과 같이 통과하지 않고 펌프의 bration 데이터로 원시 처리하여 데이터를 집계하고 변환 할 수 있습니다 그것을 분석하고 각각에 관해서만 투사를 보냅니다 장치가 더 자세한 처리가 필요한 깔끔한 서비스 데이터에 실패하고 피드백이 즉각적이지 않아도 물리적 인 보다 강력한 IT 시스템이 분석 할 수있는 데이터 센터 또는 클라우드 기반 시스템 데이터를 안전하게 관리하고 안전하게 저장할 수 있습니다 센서 데이터를 다른 소스의 데이터와 더 잘 결합시켜야합니다

통찰력 4 단계 처리는 클라우드 또는 전제 조건에서 수행 될 수 있습니다 하이브리드 클라우드 시스템이지만 그 단계에서 실행되는 처리 유형은 그대로 유지됩니다 플랫폼에 관계없이 동일하므로 IOT 솔루션 아키텍처였습니다 이제 우리는 다른 IOT 개발 보드를 살펴볼 것입니다 우리는 Arduino에서 시작하여 Arduino는 오픈 소스 플랫폼입니다

전자 프로젝트를 구축하기 위해서는 물리적 프로그래밍 가능 회로 보드 및 소프트웨어 또는 IDE의 조각을 누른 다음 우리는 라즈베리 파이 나무 딸기 파이 원래 교육용으로 설계된 신용 카드 크기의 컴퓨터이며 1981 년 영국 BBC 마이크로에서 영감을 얻은 이유는 단일 보드 컴퓨터가 약 700MHz의 ARM 프로세서가 탑재 된 Broadcom의 칩 시스템 그리고 256에서 512 메가 비트 램의 가격은 파이 모델의 경우 약 35 달러이며, 많은 온라인 및 실제 매장을 통해 구입할 수 있으며 인텔 Galileo Intel Galileo는 Arduino 인증 제품 중 첫 번째 제품입니다 Intel x86 아키텍처 기반의 개발 용 부츠입니다 제조업체 및 교육 커뮤니티 인텔을 기반으로 한 최초의 보드입니다 방패와 호환되는 하드웨어 및 소프트웨어 펜이되도록 설계된 아키텍처 당신이 알고있는 Arduino를위한 디자인 r3 IOT에 사용되는 일부 개발 부츠의 복용량 이제 우리는 진행할 것입니다 첫 단계가 될 수 있도록 라즈베리 파이를 구성하는 방법을 이해해야합니다

거기에 나무 딸기 파이 도트 org에서 운영 체제가 다운로드 다운로드 그래서 우리는이 raspbian을 다운로드해야 할 것입니다 운영 체제 다운로드 후이 zip 파일을 다운로드합니다 운영 체제가 SD 카드에로드해야하기 전에 우리는 SD 카드를 포맷해야하므로이 사이트의 SD 카드로 갈 것입니다 도트 org는 SD 카드 형식을 다운로드 할 수 있습니다 이제 소프트웨어를 사용할 수 있습니다

Windows 및 Mac 시스템 모두에서 사용할 수 있으며 Windows 시스템을 사용하고 있으므로 다운로드 할 수 있습니다 Windows 용 라이센스 계약에 동의하겠습니다 우리가 필요로하는 SD 카드를 포맷 한 후에 다운로드가 시작됩니다 운영 체제를 SD 카드에 플래시 할 수있는 디스크 이미 저 우리는 sourceforgenet에 가서 win32 디스크 이미 저를 다운로드 할 것입니다

다시 다운로드를 클릭하면 다운로드가 시작됩니다 그래픽 데스크톱 공유 시스템이 필요합니다 그래픽 사용자 인터페이스를 사용하는 Raspberry Pi는 진짜 VNC입니다 GUI를 사용하여 Raspberry Pi와 함께 작업 할 수있게 해주는 소프트웨어 BNC 뷰어를 다운로드하면 다운로드가 시작되고 위의 단계를 통해 SD 카드를 라즈베리 파이에 삽입 할 수 있습니다 전원 케이블을 PI에 연결하고 전원 케이블을 PI가 개방형 Wi-Fi 네트워크 검색을 시작할 것이므로 우리가 할 일은 우리 시스템에서 핫스팟을 켜면 Raspberry Pi가 우리의 시스템에 연결됩니다

컴퓨터의 Wi-Fi와 일단 컴퓨터의 Wi-Fi에 연결되면 Raspberry Pi의 동적 IP 주소를 볼 수 있습니다 IP 주소를 입력하고 대화 상자 나 뷰 NC 뷰어에 내려 놓습니다 이것은 우리에게 Raspberry Pi로 작업 할 수있는 그래픽 사용자 인터페이스를 제공합니다 그러니 가자 그러면 내가 설정으로 가서 라즈베리를 보자

Pi는 이미 내 Wi-Fi 네트워크에 연결되어 있으며 동적 IP입니다 라즈베리 파이의 주소를 입력하면이 IP 주소를 받아 들일 것입니다 이제 VNC 뷰어의 대화 상자가 나에게 GUI를 제공합니다 – ok transferee 이제 스마트 의자의 개념을 이해하고 이해합니다 똑똑한 의자를 사용하면 앉아있는 것보다 훨씬 더 많은 것을 할 수 있습니다 똑똑한 응용 프로그램을 사용하면 자녀가 전기를 절약 할 수 있습니다

그리고 에어컨 비용은 클라우드에서 실행되는 프로그램이 될 것입니다 사무실 바닥에있는 모든 좌석이 지정된 시간 동안 센서가 의자에 센서를 조명 및 공조 시스템에 설치하고 전원을 켜십시오 똑똑한 의자를 다른 용도로 사용하지 않으면 우리가 상당히 큰 강당에서 특정 좌석을 찾는 강당은 홀이 부분적으로 만 채워지고 사람들이 공석에 대한 지식을 지키면 관객에게 엄청난 도움이 될 것입니다 지정석이 없다 좌석 점유에 대한 지식 또한 행사를 제공 할 것이다

좌석 점유 및 출석 패턴에 대한 데이터가있는 조직자 또 다른 재미있는 시간에 당신은 당신의 상사 밑에 IOT 장치를 둘 수 있습니다 귀하의 상사가 기내에 있는지 여부와 언제 귀하가 알 수 있도록 의자 그는 너 주위에 있지 않아서 행복하게 낮잠을 자고있어 그래서 우리 자신의 IOT 기반의 마처를 만들자 라스베리 파이는 Smasher를 만들어야 만했던 이래로 그 감각에는 8 가지 특징이있었습니다 8 개의 RGB LED 매트릭스와 미니 조이스틱 및 센서를 연결하는 자이로 스코프 가속도계 자력계 온도 센서 습도 센서 및 기압계 압력과 이것이 우리가 알아낼 수있는 파이썬 코드입니다

의자가 비어 있거나 VNC 뷰어로 이동하여이 코드를 올바르게 이해하지 못하게하십시오 그래서 이것은 코드 모션이나 py입니다 그래서 우리가하는 일이 이해됩니다 우리는 감각 모자 패키지를 가져오고 있으며 감각 모자 패키지가 필요합니다 그래서 우리는 라스베리 파이 (Raspberry Pi) 꼭대기의 센스 모자로 작업 할 수 있습니다

우리는 또한 시간 패키지를 가져와 라즈베리 파이를 이 두 패키지를 가져온 후에 잠자기를하면 전체 코드를 내부에서 작성하고 있습니다 이 클래스는 센서 감지로 이름을 정하고이 클래스 안에 있습니다 감각 모자에서 값을 읽고 그 값을 감각에 저장 이제 우리가 할 일은 변수의 값을 계속 읽는 것입니다 가속도계에 저장하고 가속도 개체를이 개체에서 저장합니다 우리는 x 축 y 축과 z 축의 값을 취하여 XY와 Zed에 저장합니다

변수가 각각이 세 변수는 XY 및 z 축을 계산 한 후 x의 값을 10 진수로 반올림합니다 똑같은 장소에서 y 값을 소수점 이하 자릿수로 낮추면 우리는 말한 값을 첫 번째 소수점 이하로 반올림 한 후 인쇄합니다 x y & z의 값을 인쇄 한 후 x y & z의 값은 라즈베리를 넣을 것입니다 파이가 2 초 동안 잠을 자면 우리가이 일을하는 동안 값을 출력 할 것입니다 x y & z와 그 다음 나무 딸기 파이는 잠을 자고 자면 Z가 0보다 크거나 같으면 메시지가 표시됩니다

chain의 값이 0보다 작 으면 체인이 비어 있거나 다른 한편으로는 의자가 비어 있지 않다는 메시지가 나옵니다 비어 있고 그 축이 긍정적 인 것을 의미하지만, 누군가가 와서 의자에 앉아서 의자가 뒤로 젖혀지며 기울기 z 축은 이제 음의 값을 가지므로 메시지를 얻습니다 의자가 비어 있지 않으므로 터미널에서이 명령을 실행 해 봅시다 우리는 코드를 실행하거나이 명령을 사용하여 Python 모션 다트 py 및 코드 개가 작동하기 시작합니다 그래서 여기서 볼 수있는 것은 값입니다

XY와 Z의 값을 출력하고 xy & z의 값을 출력 한 후에 우리는 내 전화기에서 같은 코드를 실행하고 싶다면 의자가 비어있다 ssh 클라이언트가 필요합니다 그런 ssh 클라이언트는 Android와 iOS 휴대 전화를 종단 앱으로 사용할 수 있도록 다음과 같은 목적으로 내 안드로이드 폰을 다운로드 한 후에이 코드를 실행 해 보겠습니다 당신이 볼 수 있듯이 지금 전화는 내 전화에 모션 코드를 py 코드를 실행했습니다 그래서 나는 xy와 z 축 값을 얻는다 의자가 비 었음을 알려주는 메시지가 지금 내 친구가 올 것입니다

내 친구가 우리가 보는 의자에 앉아서 의자에 앉는다 z 축의 값에 변화가 있고 메시지에도 이제 우리는 의자가 비어 있지 않으므로 우리는 전화의 종착역의 도움으로 스마트 의자의 개념 그래서 우리는이 비디오가 끝날 때까지 우리를 이해함으로써 시작했습니다 정확히 무엇입니까 그리고 우리는 다음 인터넷의 진화를 봐 우리는 IOT 아키텍처를 살펴본 후 다른 IOT를 살펴 봅니다 우리가 우리의 라즈베리 파이와 모션 닷 P UI 코드를 이해했습니다 의자에서 발견 된 UI 코드는 비어 있습니다

비디오를 좋아하길 바래서 고맙다 당신

Hadoop Tutorial | What Is Hadoop | Big Data Hadoop Tutorial For Beginners | Intellipaat

안녕하세요, 하둡 세션에 오신 것을 환영합니다 그럼 아주 작은 이야기부터 시작합시다

우리는 잘 가야한다 그래서 나는이 전자 상거래 사이트의 CEO 인 Jeff Bezos입니다 Mamazon와 너희들은 내 기술자 야 그래서 오늘 우리의 조직은 다음과 같이 보입니다 우리는 전자 상거래 사이트와 오라클에서 실행됩니다

우리는 인벤토리를 가지고 있고 그것은 MY SQL에서 실행됩니다 그래서 인생은 여기에서 아주 쉽게, 모든 것이 굉장합니다 그래서 지금 내가 대답하기를 원한다면 의문 다음 달에 얼마나 많은 iPhone을 주문해야하는지 말해 보겠습니다 아주 단순한 지금해야 할 일을하는 전형적인 비디오는 모든 것을로드하는 것입니다

이 데이터를 데이터웨어 하우스에 저장하고 테라 데이터를 말한 다음 기본적으로 귀하의보고 이것이 바로 tableau 및 Qlikview와 같은 도구가있는 곳입니다 그래서 데이터가 생성되면웨어 하우스에로드하고 생명은 매우 간단합니다 하지만 한 가지 문제가 있습니다 이 전체 설정의 실제 문제 보게 될 때까지 이것이 잘 돌아갔을 것입니다

2000 또는 2005 오늘 우리는 2018 년에 있으며 질문은 그렇게 간단하지 않습니다 우리가보고있는 데이터의 양이 매우 거대하기 때문에 간단한 예를 들자 이제 내가 질문을 바꾸고 얼마나 많은 말을했는지 고객은 iPhone을 구입하고 좋아했지만 배달이 싫었습니다 지혜로운 말로 트위터에 분노를 터뜨렸다

이제 가장 먼저 Twitter와 같은 출처에서 오는 데이터 및 귀하의 다른 소스 센서, 클라우드의 네트워크 로그 따라서 생성되는이 deta는 실제로 정말 거대하고 전통적인 데이터베이스 시스템에 잘 들어 가지 않을 것입니다 그래서 마이클은 여기에 질문이 있습니다 그는 Big Data에 대해 이야기하고 있습니까? 예 마이클 당신은 절대적으로 옳다 따라서이 엄청난 양의 데이터가 다른 출처와 다른 형식으로 존재하는 것은 귀하의 빅 데이터 (Big Data)와 우리는이 큰 데이터를 저장하고 처리하기 위해 새로운 것을 필요로합니다

그래서 그것이 우리가 다른 시스템을 도입하기로 결정한 곳이며 시스템은 Hadoop은 이제 Hadoop을 다음과 같이 생각합니다 매우 큰 데이터웨어 하우스로서의 매우 원유가 많은 조잡한 방식으로 데이터를 가져올 수 있습니다 어디서나 쉽게 단일 마스터를 호스트 할 수 있으며 이론적으로 수십 개의 수천 개의 노드 또한 두 가지 서비스를 제공합니다 저장소 및 프로세스이므로이 사람 전통적인 데이터베이스 및 기타 소스에서도 데이터를 가져올 수 있습니다

이제이 사람 데이터를 저장하고 데이터를 처리 할 수 ​​있습니다 하둡을 누군가로 생각하십시오 일반적으로 많은 데이터를 저장하고 처리하기 위해웨어 하우스를 보완합니다 이제 최종 처리가 완료된 후에 데이터를 저장하고 처리합니다 그 마지막 물건을 창고에 넣을 수 있습니다

분석 도구를 사용하면보고 도구에 직접 연결할 수 있습니다 또한 가능한 사람들은 당신의 패턴을 기반으로 당신이 정말로 당신이 무엇을 선택할 수 있습니다 Hadoop의 아이디어입니다 그래서 모든 데이터를 한 곳에서 처리하고 처리합니다 웨어 하우스에로드하거나 직접보고 도구에 연결할 수 있습니다

이 인스턴스를 오라클에로드하면 다른 인스턴스가됩니다 추천 엔진 그래서 우리가 가진 모든 근원에서 이런 식으로 생각하십시오 우리는 아이폰을 사는 사람들의 85 %가 스크린을 원한다는 것을 알았습니다 경비원과 아이폰을 사는 81 명도 뒤 표지를 샀다

이제 한 번 우리는 Hadoop 내에서 이것을 배울 수 있습니다 Oracle에 다시로드 할 수 있으며 다음 고객이 우리 전자 상거래 사이트에 오면 언제든지 iPhone을 구입하여 스크린 가드와 백 커버를 구입하여 Hadoop을 생각해보십시오 매우 큰 데이터 저장소로 데이터를 저장하고 데이터를 처리 한 다음 당신이 좋아하는 방식으로 그것을 사용할 수 있습니다 그래서 저는 Hadoop이하는 일에 대해 모든 사람들이 분명히 희망하기를 바랍니다

그러니 내가 앞으로 나아갈 수 있도록 빨리 확인해주세요 좋아, 램이 분명하다는 것도 확인해 줬어 앤도 마찬가지야 좋아, 모두의 것 같아 좋은

이제 사람들은 하둡의 스토리지 및 프로세싱 부분을 이해하게 될 것입니다 하지만 프로세스의 이름을 거치지 않고 우리가 전체 이해를 가질 것이기 때문에 작은 이야기 그래서 이것은 타마 컨설팅 서비스의 CEO 인 카일 라쉬 (Kailash) 전 세계 150여 개 국가와 지역에 회사가 있습니다 회사를 사랑했습니다 그래서 어제이 회사의 페이스 북 페이지는 10 억 좋아, 이제는 CEO가 거대한 대시 보드를 만들고 싶어

전체 지구본 및 각 국가의 마우스를 가져다 대면 얼마나 많은 사람들이 좋아하는지 표시합니다 그 나라 이제이 작업은 프로젝트 인 Ajay에게 할당됩니다 그는 4 일 동안 대시 보드를 만들 예정입니다 이제하자

Ajay가 이것을 위해 Hadoop을 사용하려고하며 Ajay가 두 팀원을 보유하고 있음을 확인하십시오 MrAdmin과 Mr Developer 이제 Ajay가 말합니다

MrAdmin 하둡 클러스터를 설정하고 개발자에게 알려줍니다 그가 대시 보드 전체를 개발하기로되어 있다고 들어 보았습니다 지금 당장 일어난다 그래서 첫 번째 관리자가 오면 그는 5 대의 기계를 구입하고 하나는 마스터되고 4 명은 노예가 될 것이라고 결정합니다

그래서 Mr Mr 관리자 가 작동하게되었고 그는 하나의 마스터와 4- 노드가있는 5 노드 클러스터를 설정하고 있습니다 노예와 하둡은 모두 저장과 가공에 관한 것입니다 저장소 마스터라는 누군가를 설치하고 마스터에 다시 설치합니다

처리 마스터를 설치합니다 이제 그는 노예에 스토리지 노예와 슬레이브를 처리하여 모든 노예에게이 작업을 수행합니다 이제 관리자가 제프 보스에게 알려줍니다 설정이 진행되고 데이터를 수집하고 프로그램을 작성합니다 이제 Ajay가 호출합니다

개발자 Mr 그리고 Mr 개발자는 계속해서 데이터를로드하고 코드 그래서 개발자는 페이스 북이 JSON으로 파일 크기는 약 640MB입니다 따라서 저장소 마스터에 파일을 쓸 때 실제로 128 MB의 블록으로 세분화됩니다

따라서 640을 128로 나눈 값은 5 블록을 의미합니다 각 블록은 세 번 복제됩니다 그래서 그것이 15 블럭이됩니다 좋아요 Deepak의 질문이 있습니다

그는 왜 블록이 세 번 복제되었는지 묻습니다 좋은 질문입니다 그래서 우리는 실제로 결함의 개념을 가지고 있습니다 Hadoop의 내성 원래 블록이 손상 되더라도 블록을 두 개 더 복사하면 데이터를 검색 할 수 있으며 이것이 Hadoop을 만듭니다 신뢰할 수 있습니다 그래서 당신 질문 인 Deepak에 대답합니까? 좋아, 디팍이 좋다

이제 원본 파일의이 15 개의 블록이 서로 다른 슬레이브 노드가 있으므로이 블로그 중 네 개가 첫 번째 노드에 저장되어 있다고 가정 해 보겠습니다 노예 두 번째 노예는 4 명, 세 번째 슬리브는 4 명, 두 번째 및 세 명은 마지막 것 이제 데이터가 준비되었습니다 그것은 이미 블록으로 분해되었지만 스토리지 마스터의 경우 메타 데이터 만 갖게됩니다

그래서 메타 데이터는 다음과 같이 보입니다 이제 FacebookJSON은 1 2 3 4 5 차단하고 블록 1은 슬레이브 1 2에 있습니다 세 개, 두 번째 블록은 두 번째 세 번째 블록과 네 번째 블록에 있습니다 무엇이 메타 데이터에 저장되어 있는지

스토리지 마스터에는 아무런 문제가 없습니다 마스터는 메타 데이터 만 저장하고 전체 데이터는 저장하지 않기 때문입니다 지금 그 이유 때문에 메모리가 아무리 큰 파일 일지라도 문제가되지는 않습니다 당신은 메타 데이터에 대해서만 이름 노드의 메모리를 사용하지만 원본 데이터 실제로 슬리브에 기록됩니다 아줌마들, 너에게 단순하게 해줄거야

예를 들어, 우리가 볼 수있는 것은 프로젝트 관리자입니다 이 팀은 이제 프로젝트 관리자가 사람들이하는 일이 무엇인지 알지만 모든 작업이 실제로 슬레이브에 의해 수행되므로 관리자가 병목 현상이없는 것입니다 여기에 어떤 데이터가 어디에 저장되어 있는지 알 수있는 능력도 없습니다 어느 매니저가 아무 것도하지 않는 곳에서 실행중인 작업 메타 데이터 이제 좋아요 데이터가 저장되면 데이터가 표시됩니다

그것을 저장 영역에 썼고 모든 데이터가 퍼져 나갔다 이제는 개발자가 앞서 가서 프로그램을 쓴다 국가 별 좋아요 수를 찾으려면 프로그램 이름이 Java 프로그램 이제이 Java 프로그램이 제출되어 처리 마스터가됩니다 모든 컴퓨터에이 코드를 복사합니다 이제 마스터는 기본적으로 알맞을 것입니다

너 네 개의 슬리브가 하나의 블록을 처리하고 두 개의 블록을 처리합니다 너에게 노예가 너에게 노예가 너를 노예처럼 너에게 처리 블록 3 세 및 프로세스 블록 네 당신과 노예에 대한 로컬 프로세스입니다 당신에게 국부적으로 싸우는 블록 싸움은 당신의 사업을 국부적으로 네트워크와 작업이 완료되어야하고 최종 출력을 얻을 수 있습니다 보고 도구에 직접 표시하거나 창고 및 분석 기능을 수행하므로 Hadoop이 실제로 이러한 방식으로 작동합니다 지금 Hadoop입니다

이제 지금까지 우리는 hulu가 두 가지 서비스를 제공한다는 것을 알았습니다 프로세싱을 제공하여 스토리지를 제공하는 팀을 HDFS라고하며 팀 이것이 MapReduce를 마스터 처리하기 때문에 다시 처리 할 수 ​​있습니다 마스터와 HDFS가 이름 노드로 호출되고 슬리브가 다음과 같이 호출됩니다 MapReduce의 데이터 노드는 마스터가 작업 추적자로 불리고 슬리브가 tasktracker 간단한 물건으로 불리는 삶은 여기에 매우 쉽습니다 이제이 특별한 설정에는 당신이 쓸 수있는 매우 심각한 제한이있었습니다 MapReduce의 프로그램을 좋아하든 좋아하든 쓸 수 있습니다

프로그램 만 MapReduce 또는 MapReduce에서 실행되는 다른 프레임 워크이지만 다른 것을 가질 수 있으므로 간단한 예를 들어 봅시다 내가 평신도라는 것을 보자 적절한 리 남자처럼 지금 내 아이폰 나쁜 나무에 문제가있다 그래서 난 그냥 새 배터리를 구입하고 내 아이폰에 넣어 그래서 정상적인 사람이 들어갈 수 있습니다 상점과 아이폰을위한 배터리를 구입 분명히 옳지 않아 이것은 애플은 당신이 내 전화기를 사용하고 싶다면 내 전화기 만 사용해야한다고 말한다 배터리가 마음에 들거나 좋아하지 않는다면 배터리와 플러그를 구입할 수 없습니다 당신이 Hadoop을 사용하고 싶었던 것과 매우 비슷하게 전화에 넣었습니다

친구는 그것을 사용하지만 당신은 Maya에서 자신을 표현해야합니다 이는 매우 심각한 한계이며, 이것이 하둡 (Hadoop) 원 포인트로 불리는 이유입니다 X하지만 당신이 정말로 원했던 것이 더 나은 것이 었습니다 그래서 우리는 거기에 MapReduce 대신 저장소가 있지만 다른 버전의 Hadoop 리소스 관리자와 노드 인 새로운 구성 요소 충돌이었습니다 매니저가 지금 원사가 어디에서 할 것인가? 나는 누구에게나 자원을 줄 것이다 MapReduce plunk or storm 하둡 (Hadoop)의 한 지점에서 MapReduce가 유일한 주일뿐입니다

Hadoop에서 MapReduce가 X를 가리키고있는 방법 중 하나입니다 이것을 Hadoop의 한 지점에 집중하십시오 X MapReduce만이 유일합니다 우리는 Hadoop에서 두 포인트 X MapReduce를 사용하는 방법 중 하나입니다 모든 약 2 점 X와 우리는 전혀 한 점 X에 대해 논의하지 않을 것입니다

내가 IX의 한 가지 점을 설명한 이유는 내가 좋은 것을 설명 할 수 있기 때문이다 우리가 나쁜 건강을 설명하고있는 건강은 아마 그렇게 힘들어 질 것입니다 마찬가지로 X 점을 설명해야만한다면 먼저 X 점 하나를 보여 주어야합니다 저기서의 심각한 한계와 그것이 내가 두 점 X를 가져올 때입니다 두 포인트 X는 기본적으로 귀하의 성별 주름 소스 관리자입니다 리소스가 필요한 모든 사람들이 리소스를 제공하므로 X를 실제로 가리키는 방법 인 작업을 수행하십시오

이제는 Hadoop의 처리 능력으로 X를 가리키며 여기서 Y는 마스터를 나타냅니다 자원 관리자라고 불리는 우리는 또한 잠자기 상태에서 전자를 가지고있어서 내 기억 장치 층이 남아있다 DITA를 쓰고 처리 한 것과 거의 같지만 일을 제출하면됩니다 Yancy에게 Yancy에게 안녕하세요, MapReduce를 실행하는 방법을 모르겠지만 앱 마스터로 불리는 사람이 나를 위해 MapReduce를 할 수 있으므로 리소스입니다 매니저 나는 사람들에게 자원을 제공한다

나는 어떻게 처리해야할지 모르지만 나는 앱 마스터로 불리는 다른 사람을 알면 그는 그 일을 할 것입니다 이제 얀은 이제 누군가가 잠자기 할 때 앱 마스터를 초기화 할 것입니다이 앱 마스터는 다음과 같습니다 기본적으로 처리되는 사람은 일을 할 것이므로 누가 그 일에 책임이 있는가? 그것은 앱 마스터들입니다 그래서 얀 마스터는 헤이 앱 마스터를 봅니다

나는 당신을 위해 새로운 직업을 가지고 있습니다 왜 그렇게하지 않는가? 지금은 앱 마스터가 좋다 Gurion 마스터 NC 보스 당신이 나를 위해 일을하고 싶다면 나에게 다음과 같은 것들을주세요 그래서 슬리브에 두 자원을 하나 소매에 하나의 자원을 두 자원에 슬리브 3 개 및 슬리브에 하나의 리소스가있는 이유는 데이터 지역이 중요한 것은 마스터에게 보이고, 알았어 리소스와 마스터를 가져 가라 전진 할 수 있고 모든 곳에서 일을 해낼 수 있습니다

그래서 여기의 아이디어는 실 마스터입니다 이것이 자원을 제공하는 직업을해라 그래서 이것은 당신을위한 원사이다 이 모든 세부 묘사가 한 점에서 중요하다면 더 많은 것 X MapReduce는 두 점 X에서 유일한 방법입니다 Maya는 그 중 하나를 생산합니다

그렇다면 왜 그렇습니까? 인생에서 더 많은 옵션이 필요하기 때문에 우리는 두 점 X에 가야합니다 그 사람들처럼 나는 아주 간단한 예를 들어 줄 것이다 그래서 이것은 회사라고 불린다 발 팬더 그래서 음식 팬더는 지금 당신을 위해 발 배달을하는 회사입니다 당신은 피자 헛 (Pizza Hut)에 전화를 걸 수 있습니다 당신은 정말 좋아하는 나머지 서랍에서 주문할 수 있습니다

발 바지 레슨을 보는 방법 나는 발을 들이지 않지만 항상 음식을 제공 할 수 있습니다 사람들에게 서비스를 제공하여 원하는대로 주문할 수 있습니다 Hadoop의 전체 풍경과 건축 작업에 대한 설명 관점은 회의에 참석해 주셔서 감사합니다 다음 수업에서 영화 보러 주셔서 감사합니다 질문이 있으시면 아래에 답변 해 주시면 최대한 빨리 답변 해 드리겠습니다

가능하면 텔레 패스 채널에 가입하여 계속 유지할 수 있습니다 당신은 또한 갈 수있는 최신 기술에 대한 자신의 업데이트 기타 관련 미리보기 및 oculus 및 자세한 내용은 당사 웹 사이트를 방문하십시오 계속해서 학습을 향상시킨다 오

SAP HANA Training | SAP HANA Tutorial For Beginners | SAP HANA Architecture | Intellipaat

안녕하세요 다른 동영상으로 돌아 오신 것을 환영합니다

Intellipaat 오늘의 비디오에서 우리는 SAP HANA 이 비디오의 의제는 다음과 같습니다 1 SAP HANA 란 무엇입니까? 2 SAP HANA 고유 기능은 무엇입니까? 3

Sapa HANA 대 전통적인 데이터베이스 4 SAP HANA는 어디에서 사용할 수 있습니까? 5SAP HANA 유스 케이스 6 SAP 한나 채용 동향 SAP HANA는 정확히 무엇입니까? SAP HANA는 선도적 인 기술로 진화하고 있습니다 플랫폼을 제공합니다

이 통합 된 IT 시스템은 서버에서 실행되며 실시간으로 데이터를 처리하여 운영을 제공합니다 텍스트 분석 및 예측 분석과 같은 통찰력 SAP HANA는 또한 분석 된 데이터를 시각화하는 기능을 제공합니다 SAP는 재무 분석에서 제품에 이르기까지 모든 것을 수행하는 애플리케이션 제품군을 보유하고 있습니다 개발이지만 IT 부서는 특정 목표를 염두에두고 자체적으로 만들 수도 있습니다

그래서 그것을 탐험 해 봅시다 우리가 MS-SQL을 서버는 전통적인 RDBMS 데이터베이스이므로, 주요 구성 요소는 다음과 같습니다 CPU, RAM 및 디스크 Customer_Name의 4 개 열로 된 20 억 개의 데이터를 포함하는 테이블이 있고, 제품 _ 이름, 수량 및 금액 전통적인 RDBMS에서이 테이블은 디스크에 위치 할 것이고 데이터는 저장 될 것입니다 파일 시스템 형식의 형태로

이제 비즈니스가 상위 50 위 고객을 확보해야한다는 요구 사항이 있다고 가정 해보십시오 그들에게 할인 쿠폰을 제공합니다 정기적 인 RDBMS 서비스에서이 쿼리를 해결하기 위해 첫 번째 CPU가 쿼리를 트리거하고 그것을 RAM에 전달하여 데이터를 CPU로 가져옵니다 그러면 CPU가 디스크에 요청을 보냅니다 디스크는 모든 20 억 데이터 레코드를 검색하고 결과를 배치 단위로 RAM에 보냅니다

그러면 RAM이 결과를 CPU에 전달합니다 이 20 억 개의 데이터를 처리하는 데 얼마나 많은 시간이 걸릴지 알고 있습니까? 이 간단한 쿼리를 실행합니다 약 1 ~ 2 시간 그러나 SAP HANA에서 동일한 테이블 및 동일한 데이터를 가진 동일한 쿼리를 실행하면 약 1 ~ 2 초 아시나요, 왜 SAP HANA에서 성능 향상이 그렇게 많이 일어나고 있는지 알고 계십니까? 디자인 덕분입니다

SAP HANA는 인 메모리 컴퓨팅 엔진, 열 기반 데이터 저장소, 대규모 병렬 처리 데이터 고성능을 제공하는 데이터 압축 복잡한 데이터 저장소의 실시간 컴퓨팅 분석 따라서이 모든 기능에 대해 자세히 논의 할 수 있습니다 이 예에서 실행하는 것으로 보았 듯이 약 1-2 시간이 걸렸습니다 높은 컴퓨팅 장치가있는 경우에도 약 45 분이 소요됩니다 1 시간 이는 쿼리 실행에 소요되는 시간의 90 %가 읽기, 페치 기기 간 통신 및 처리 및 프리젠 테이션에 소요 된 시간은 불과 10 %였습니다

데이터 그리고 여기에서 각 행과 열을 스캔해야합니다 그래서이 문제를 극복하기 위해 SAP HANA의 설계가 변경되었으며 In Memory 플랫폼을 기반으로합니다 여기서 디스크는 RAM 내부에 배치되므로 20 억 데이터 특수 설계된 RAM에서 사용할 수 있으며 특수 설계된 통합 CPU 따라서 쿼리가 SAP HANA 상자에서 실행되면 RAM 내부에서 실행되므로 디스크와 같은 장치 간의 통신에 소모되는 시간을 피할 수 있습니다

및 데이터는 모두 RAM 내부에서 사용할 수 있으며 특수 설계된 통합형 CPU는 RAM과 CPU 사이에서 너무 많은 시간을 소비하므로 무시할 수 있습니다 그리고 모든 데이터가 RAM 내부에서 사용 가능하므로 처리 및 실행 쿼리가 매우 빠릅니다 따라서이 메모리 내 데이터베이스는 왜 메모리 내 데이터베이스에 완전한 향상이 있는지 이유 중 하나입니다 SAP HANA의 성능 이제 Disk가 왜 필요한지 궁금 할 것입니다

우리가 알고 있듯이, RAM은 비 휘발성 메모리로, 전원이 차단되면 아무 것도 의미하지 않습니다 "RAM"에 포함 된 데이터가 손실됩니다 따라서 우리가 가지고있는 데이터의 백업을 원한다면 디스크를 얻고 전원이 다시 공급되면 데이터가 RAM에 다시로드되고 처리가 수행 될 수 있습니다 이제 다른 기능을 살펴 보겠습니다 SAP HANA, 즉 Columnar Database의 성능을 향상시킵니다

데이터에서 알 수 있듯이 파일 시스템 형식의 형식으로 저장되지만 여기서 칼럼 형식 데이터베이스에는 "데이터"가 저장됩니다 행 대신 열 이유를 이해합시다 여기서 우리는 동일한 20 억 테이블 데이터와 전체 데이터베이스를 취할 것입니다 크기는 약 10GB입니다

행 저장 개념에서와 같이 CPU 연속 메모리 위치에 저장됩니다 John / Pen / 1 / 10 그러면 두 번째 행이 계속됩니다 마지막 행이 저장 될 때까지 Mary / Pencil / 2 / 20 등 또한 SAP HANA에서는 테이블 레코드를 열 순서로 저장합니다 열의 엔트리는 John, Mary, 하나의 파일에, Pen, Pencil 등등 다른 파일에 있습니다

더 명확하게하기 위해 먼저 Get Top Top 50에 대한 쿼리가 있다고 가정 해 봅시다 Customer_Name 및 Amount 열만 필요한 고객 행 저장소 개념에서는 첫 번째 행, 첫 번째 열 매 20 억 개의 모든 레코드에 매번 하나씩 데이터베이스 10GB 여기에 우리가 제품 이름과 수량 열을 스캔하고 싶지는 않지만 여전히 스캔 모든 데이터에서 일어나고 있습니다 데이터를 저장하는 SAP HANA에서 동일한 쿼리를 수행하는 경우 여기서 열 데이터는 다른 파일로 분리됩니다

따라서 Customer_Name 열 파일 및 Amount 열만 처리합니다 파일 전통적인 RDBMS에서 전체 테이블을 스캔했는데 이는 SAP에서와 같이 완전한 10GB 데이터베이스를 의미합니다 HANA는 4GB 데이터를 읽을 수있는 열을 2 개만 읽습니다

57 % 증가하고 쿼리 성능이 최대 5 배 향상되었습니다 이제 우리는 또 다른 중요한 기능을 살펴볼 것입니다 데이터의 방대한 병렬 처리입니다 SAP HANA를 사용하면 여러 데이터를 병렬로 지원하므로 여러 데이터를 처리 할 수 ​​있습니다 처리는 효과적인 데이터 분석의 중심입니다

SAP HANA는 수행 할 수있는 것을 활용하여 원주 형 데이터 저장을 지원합니다 인접한 메모리 위치에있는 배열의 루프에서 다양한 작업을 수행 할 수 있습니다 특정 레코드를 검색하고 데이터를 결합하는 등의 작업을 수행합니다 예를 들어, 카드를 분류 할 카드가있는 바구니를 받았다고 가정 해 봅시다 양복들

혼자서이 GROUP BY 수트 쿼리에 응답하는 데 1 시간 정도 걸릴 수 있습니다 바구니를 4 등분으로 나누어 카드를 배포 한 경우 4 명에게 바구니를 나누기 위해 쿼리에 15 분과 1 분이 소요될 수 있습니다 분을 눌러 병합합니다 바구니의 크기가 두 배로 늘어나면 쿼리 시간은 30 분 플러스가됩니다 사람 수가 많아지면 15 분 내에 응답을 유지할 수 있습니다

즉, 병렬 처리의 수준은 직접적이고 즉각적인 방법 마찬가지로 4 분이 걸리는 쿼리를 실행하려면 하나의 프로세서이지만 4 개의 프로세서를 사용하여 완료하는 데 단 1 분이 소요됩니다 둘 이상의 열을 검색하여 병렬 처리로 결합하는 것도 고려할 수 있습니다 컬럼은 공정 속도를 높이고 운반하기 위해 여러 부분으로 나뉘어져있다 한 열에서 병렬로 작업을 수행하면 각 열은 다양한 프로세서 코어

SAP HANA의 다음 중요한 기능 데이터 압축입니다 정규 RDBMS에 20 억 개의 레코드 데이터 세트 테이블을 저장할 때 크기가 어떻게됩니까? 대략 10 GB 정도가되어야합니다 동일한 데이터 세트로 동일한 테이블을 저장할 때 SAP HANA에서 약 1GB가 될 것입니다 왜 이것이 10 % 원래 금액 SAP가 일반 RDBMS에서 SAP HANA 데이터베이스로 데이터를 이동할 때마다 데이터 압축은 서로 다른 압축 기술을 사용하여 이루어지며 원래 데이터의 약 7 %에서 10 %로 줄어들 것입니다

10GB 데이터는 약 압축됩니다 ~ 1GB 실시간 시나리오 에서처럼 테라 바이트와 페타 바이트로 엄청난 양의 데이터가있을 것입니다 SAP HANA는 특별한 기업이므로이 테라 바이트와 페타 바이트의 데이터를 SAP HANA에 넣을 수는 없습니다 설계된 하드웨어이므로 일반 메모리보다 비쌉니다

개념 우리는 모든 데이터를 RAM에 저장해야하므로 여기 테라 바이트가 필요한 모든 데이터를 저장해야합니다 매우 비쌀 페타 바이트 RAM이 필요합니다 SAP가 10GB의 데이터 압축 기능을 추가 한 이유 다양한 압축 기술을 통해 구현됩니다 그 중 중요한 기술 중 하나가 사전 인코딩입니다 FirstName 열이 있고 우리가 정의한 테이블을 생각해 봅시다

이 테이블은 varchar (50)입니다 즉, 각 행의 첫 번째 이름에 대해 50자를 예약한다는 의미입니다 기존 RDBMS에서 1 천만 행의 데이터를 50 문자를 예약합니다 1 천만 번, 2 천분의 1 비트로 50 비트로 디스크의이 공간을 차지합니다 SAP HANA에 동일한 열을 넣으면 SAP HANA가 동일한 열을 나눕니다

첫 번째 열 데이터 형식이 정수이고 다른 열의 데이터 형식이 정수가 될 2 열로 Varchar의 데이터 유형이 50입니다 여기서 Varchar 50은 연구에서와 마찬가지로 이름의 고유 한 가치를 포함합니다 이름의 10 % 만 별개이고 다른 하나는 동일하다는 것을 의미합니다 1 천만 건의 데이터 중에서 Varchar에 저장되는 고유 한 이름은 백만 가지입니다 열에 다른 위치에 메모리 위치가 있습니다

우리가 FirstName 메모리 위치 테이블에서 볼 수 있듯이, John 메모리 위치 23 일, Mary 메모리 위치는 45이고 Peter 메모리 위치는 60이므로 정수 테이블 요한에게는 1, 23은 마리아, 23은 요한, 26은 피터 등입니다 그래서 여기에 우리의 천만 가지 레코드가 정수 형태와 1 백만 가지 형태로 저장됩니다 이름 그래서 우리가 정수 값으로 계산하는 경우 2 바이트를 포함하므로 4 비트를 의미합니다 10 만, varchar 열에는 1 백만 데이터가 있습니다

이는 1을 의미합니다 50 만분의 2 비트로 즉, 정규 RDBMS에서 총 1 억 비트의 데이터가 있음을 의미합니다 SAP HANA에서는 4 백만 비트의 데이터와 1 억 데이터의 비트가 합계로 10400 만 비트이므로 1000을 비교할 때 백만 비트가 1 억 4 백만 비트이므로 원본의 약 10 %입니다 데이터 이제 SAP HANA가 어떻게 다른지 살펴 보겠습니다

전통적인 데이터베이스에서? 우리는 비즈니스에서 모든 것을 알고 있습니다 Suite는 ERP, CRM 및 SCM과 같은 완전히 통합 된 응용 프로그램 세트로 기업 핵심 비즈니스 기능을 실행합니다 여기에 모든 작업 응용 프로그램이 여기에 통합되어 있으며 이러한 모든 응용 프로그램이 생성됩니다 많은 데이터와이 데이터에 대한 액세스 권한은 쉽지 않으므로 ETL을 추출하고 변환 및로드 도구를 사용하여이 데이터를 다른 데이터베이스로 이동하고이 데이터베이스를 호출합니다 ODS – 운영 데이터 저장소로

이제 우리의 모든 데이터가 ODS로 옮겨져 영향을주지 않고 모든 데이터를 평가할 수 있습니다 우리의 비즈니스 스위트 좋습니다 이제 문제는 데이터 저장소에서 우리는 많은 정보를 갖고 싶어하지 않는다는 것입니다 모든 세부 정보를 확인하십시오

아마도 몇 년 또는 다른 치수 이제이 데이터를 요약 할 수있는 무언가가 필요합니다 집계 집계를 통해 요약 정보에 액세스 할 수 있습니다 그러나 빠른 액세스를 위해 많은 집계를 가질 가능성이 높습니다

우리는 Indexes를 구축해야하지만, 여전히 우리는 데이터에 없기 때문에 복잡한 키 성능을 정의해야하므로 복잡한 계산 이러한 계산은 핵심 성과 지표를 정의하는 데 도움이됩니다 이제 데이터웨어 하우스를 실행할 준비가되었습니다 아래의 모든 내용을 통해 우리는 매우 큰 큐브를 구성하여 데이터를 저장하고 그것은 데이터웨어 하우스 또는 비즈니스웨어 하우스입니다 그러나 문제는 우리 부서가 다르다는 것입니다

다른 사람과 HR은 다른 사람과 함께 사용하므로 사용자 정의 데이터를 빌드해야합니다 데이터 마트 여기에 더 큰 큐브에서 더 작은 큐브를 만듭니다 이를 통해 우리는 서로 다른 보고서를 사용할 수 있다는 보고서를 작성할 준비가되었습니다 tableau, SAP Business Objects, Pantaho 등과 같은 도구를 사용하여 대시 보드를 만들 수 있습니다

통찰력을 봐 멋지다! 환경에 훌륭한 도구가 있지만이 설정의 문제는 다른 비즈니스 스위트를 추가하려는 것처럼 요구 사항에서 변경이 발생하거나 우리는 스택에서 무엇이든지 바뀌 었습니다 무슨 일이 일어 났는지 보죠? 완전한 환경은 붕괴 될 것입니다 이것은 전체 환경이 충분히 강하지 않았기 때문에 일어 났으며 그 이유는 비록 우리가 좋은 도구를 가지고 있음에도 불구하고 너무 복잡했다 그러나 우리는 그것을 유지할 수 없다

기업들은 위기에 처할 것입니다 이 문제를 극복하기 위해 SAP HANA를 사용할 수 있습니다 따라서 SAP HANA의 작동 방식은 다음과 같습니다 비즈니스 응용 프로그램 및 Business Suite에 대해 알고있는 것처럼 우리가 Business Client를 가지고 있다는 것에 대한 트랜잭션 및 운영 데이터 Business Suite에 액세스 할 수 있습니다 이제는 SAP HANA 플랫폼이 그림으로 나오고 우리는 다음으로 설정했습니다

비즈니스 스위트 이를 통해 비즈니스 스위트에서 전환 데이터를 선택할 것입니다 실시간으로 기본으로 SAP HANA 플랫폼으로 복사하므로 동일한 테이블 복제 세트를 갖게됩니다 비즈니스 스위트와 SAP HANA 모두에서 이를 통해 수익성과 같은 일부 전환을 가속화 할 수 있습니다 분석 (CO-PA) 또는 재무 회계 (FI-CO)를 사용하여이를 액셀러레이터라고합니다 SAP HANA의 빠른 시작입니다

필요할 때마다 액셀러레이터를 전환 할 수 있습니다 SAP HANA에서는 가속기를 사용하여 필요한 정보를 복사합니다 Accelerator는 필요시 SAP Hana 플랫폼으로 전환을 리디렉션합니다 가속화 된 방식으로 SAP HANA 플랫폼에서 얻을 수있는 흥미로운 점 중 하나는 SAP HANA 플랫폼 상단에 필요할 때 언제든지보고 할 수 있습니다 우리는 Accelerator를 보유하고 있으므로 언제든지 신속하게보고 할 수 있습니다

여기서 더 나아갈 수 있습니다 데이터웨어 하우스가 전통적인 시스템 우리가 그걸 어떻게해야합니까? 여기서는 SAP HANA 플랫폼에서 실행하고 밑줄을 긋습니다 데이터웨어 하우스는 SAP HANA 플랫폼이됩니다 이제 데이터웨어 하우스 / 비즈니스웨어 하우스가 SAP HANA 플랫폼에서 실행되고 있으며 SAP HANA 플랫폼에서 비즈니스 스위트를 실행할 수 있습니다

그리고이 설정의 가장 중요한 부분은 우리가 직접 실행할 수 있다는 것입니다 비즈니스 클라이언트는 SAP HANA 플랫폼의 상단에 있습니다 따라서 모든 트랜잭션은 SAP HANA 플랫폼에서 원활하게 실행되며 쉽게 실행할 수 있습니다 SAP HANA 플랫폼에 대한보고 또한 사전 데이터 마이닝을위한 기능을 제공하며 예측 적 알고리즘을 SAP HANA 플랫폼 위에 추가합니다

이는 SAP HANA가 메모리에 있음을 보여 주지만 병렬 처리도 제공하므로 SAP HANA 플랫폼에서 모든 복잡한 알고리즘을 직접 실행할 수 있습니다 또한 최상위 SAP HANA 플랫폼에서 <Click Event> 모바일 애플리케이션을 구축 할 수 있습니다 우리의 데이터에 신속하게 액세스하십시오 특정 산업 응용 프로그램 SAP HANA 플랫폼의 최상위에서 실행할 수도 있습니다 SAP HANA는 어디에서 사용할 수 있습니까? 어디서나 많은 양의 데이터 SAP HANA를 구현할 수 있습니다

일부 지역은 항공 우주, 국방, 자동차, 금융, 소매, 건강 관리, 통신, 보험과 더 많은 데이터 사용이 실시간 경험을 필요로하는 모든 기능 영역에 적용 가능합니다 이제 우리는 유명한 용도 중 하나를 살펴볼 것입니다 SAP HANA의 경우 아시나요,보다 폰은 세계에서 가장 약 30 개국에서 운영되는 최대 통신 회사 및 네트워크 파트너 50 개 이상의 국가에서 모바일, 유선 및 광대역 서비스를 제공합니다

경쟁 증가 및 통신 환경의 악화로 매출이 감소했습니다 및 마진 이 시장에서 경쟁하기위한 노력의 일환으로 통신 회사들은 관세와 서비스는 물론 더 많은 복잡성과 데이터를 창출한다 따라서 어느 고객과 어떤 관세가 공헌하고 있는지를 판별하는 것이 점차 어려워지고 있습니다 긍정적 또는 부정적으로 어떤 핵심 요소 또는 요소를 차별화하는지 다른 사람들로부터 이 수익 누출은 관세 오용, 고객 할인 쌓기, 수익성에 대한 이해 부족 개인 고객 및 관세에 대한 그러나 SAP HANA를 통해 Vodafone은 여러 데이터 소스의 모든 데이터를 분석 할 수 있습니다 실시간으로 제공되며 위의 문제를 해결할 수있는 솔루션을 제공합니다

Vodafone을 통해 고객 수익성에 대한 상세한 뷰 확보 및 ARPU (Average Revenue Per User) 중요성을 제공하기 위해 신속한 세부 분석 기능 제공 가치를 창출하십시오 Vodafone으로 하여금 수 천만개의 이전에 확인되지 않은 것을 식별 할 수있게 함 수익 누출 모든 사람에 대한 실시간 시각화 및 반복 분석 기능 제공 데이터 (초 / 분 단위가 아닌 주 단위) 수십억의 마진 드라이버 조합 (분 단위 – 현재 현재 불가능 환경에 막대한 투자를하지 않아도됩니다) 비즈니스 프로세스와 적절하게 통합되는 산업별 애플리케이션 이제 SAP의 채용 동향을 살펴 보겠습니다

하나 전문가들은 SAP HANA가 최고를 보장한다고 말합니다 경력 성장 SAP는 HANA를 전체 응용 프로그램의 플랫폼 및 데이터베이스로 출시했습니다 기능을 제공합니다

최근 SAP HANA 경험이있는 지원자는 가장 높은 봉급으로 지급됩니다 SAP Consultants의 평균 급여는 "연간 약 98,541 달러 Enterprise Architect에 대한 SAP 컨설턴트의 연간 136,814 달러 그래서 우리는이 비디오의 끝으로갑니다 여기서는 SAP HANA의 정의와 처리 방법에 대해 알아 보았습니다 실시간 통찰력을 제공하는 실시간 데이터 그런 다음 고유 한 기능과 설계 방법을 살펴 보았습니다

나중에 SAP HANA가 기존 데이터베이스와 어떻게 다른지 살펴 보았습니다 우리는 또한 SAP HANA가 어디에나있는 것을 보았습니다 그런 다음 SAP HANA를 사용하여 Vodafone에서 모든 데이터를 분석하는 방법을 살펴 보았습니다 여러 데이터 소스를 실시간으로 분석하고 문제를 해결할 수있는 솔루션을 제공합니다 그런 다음 SAP HANA의 경력 성장을 살펴 보았습니다

SAP HANA에서 커리어를 가속화하기 위해, Intellipaat에서 SAP HANA 온라인 교육에 가입하십시오 우리는 당신이 배우는 데 도움이되는 최고의 온라인 수업을 제공합니다 : SAP HANA 인 메모리 컴퓨팅, HANA Studio 개발 및 관리, SAP의 데이터 프로비저닝 SAP의 HANA, ABAP 프로그래밍 HANA, SAP HANA 데이터 모델링 고맙습니다!

What is Hadoop and Parallel Processing? | Hadoop Tutorial for Beginners | Big Data | Great Learning

하둡 (Hadoop)이 무엇인지 이해하기 전에 우리는 공정해야합니다 이 배포판에 대한 이해의 비트 모두에 대해 컴퓨팅

이것은 실제로 우리에게 어디서의 견고한 이해를 줄 것입니다 Hadoop은 실제로 Hadoop이있는 곳부터 시작합니다 그것의 뿌리는 분산 컴퓨팅에서 온 것이거나 단순히 컴퓨팅 서클에 대한 병렬 처리 현실적인 예를 들고 생계를 유지하려고합시다 그려야 할 방 너는 무엇을 할 것인가? 약 2 시간이 소요됩니다 페인트 작업을 끝내라

이제 하나의 표면에 5 개의 표면이 그려집니다 그 사람이 네 네 벽과 한 천장이야 직행을 위해 10 시간이 걸릴 것입니다 페인트 작업 완료하기 3 시간 안에 완료 될 페인트 작업 경험적 접근법 또는 단순한 상식 접근법 더 많이 고용하겠다는 5 개의 다른 화가를 고용하여 각 개별 표면에서 페인트 작업 페인트 작업은 3 시간 이내에 완료됩니다 그래서이 사건은 컴퓨터 과학에서의 문제 해결

문제가 있다고 가정하자 데이터 세트는 실제로 숫자가 될 것입니다 쉼표 또는 CSP 파일로 구분됩니다 파일 크기는 1GB입니다 그런 다음 PC가 있거나 일반적으로 PC 또는 노트북에 모든 숫자를 스캔 할 수있는 소프트웨어 이 파일에서 하나씩 차례로 프로그램은 일반적으로 모든 숫자를 더할 것입니다

그 파일에 있었어 이 토론을 위해 단일 시스템에서의 작동이 이루어질 것입니다 모든 숫자의 합계를 산출하는 50 초 이 10GB 파일의 모든 숫자는 1000 개의 숫자입니다 이제 동일한 문제가 실제로 해결 될 수 있습니다 어디 우분투 또는 일부를 설치하여 실행할 수있는 노트북 리눅스 또는 일부 Windows의 풍미 운영 체제 또는 일부 사과 기반 운영 체제 또는 이것은 이제 컴퓨팅 클러스터입니다

수백 대의 기계와 각 기계로 이루어져있다 운영 체제와 같은 것을 가질 필요가있다 소프트웨어의 또 다른 조각이 될 필요가있다 모든 기계를 조정하고 말하고 전체 클러스터는 단일 단위로 작동합니다 그래서 이것은 실제로 분산 된 것으로서 많이 불립니다

운영 체제 쉽게 구할 수있는 것이 없다 또는 분산 운영 체제 최소한 커스텀 화가 필요하다 배포 된 오픈 소스가 있더라도 완료됩니다 시장에서 사용 가능한 시스템이므로 많은 실제로 슈퍼 컴퓨팅 클러스터를 소유 할 필요가 있습니다 빌드 할 자체 소프트웨어 엔지니어링 팀 이 맞춤형 분산 운영 체제가 이것을 유지하기 위해 전체 클러스터 가동 및 실행, 하드웨어가 있음 투자 측면에서 전면적 인 인프라 비용 슈퍼 컴퓨터를 조달하고 거기에 그것을 유지하기위한 네트워크 기술자 군대 지속적으로 소프트웨어 엔지니어 팀이되어야합니다

계속해서 버그를 적용하고 패치가 계속 발생하는 경우 패치가 수퍼 컴퓨터의 운영 운영 체제, 운영 체제 맞춤 디자인이어야하며 버그 수정 또한 유지되어야합니다 측면에서의 도전 유지 수퍼 컴퓨터와 그것을 가동시키는 것 우리가 실제로 논의하는 모든 과제는 슈퍼 컴퓨팅 환경 이 소프트웨어로 꽤 많이 돌 보았다 하둡 (Hadoop)이라고 불리는이 때문에 대부분의 사람들은 실제로 적어도 들었을 것입니다 이 용어는 하둡 (Hadoop)이라고 불렀습니다이 하둡은 무엇입니까? 이 Hadoop은 기본적으로 여러 시스템에 설치해야하는 소프트웨어 네트워킹 인프라를 통해 이미 상호 연결 그래서이 Hadoop은 비용이 들지 않고 개방되어 있습니다

출처 그리고 병렬 환경을 제공합니다 처리하는 것은 분산 된 느낌을 준다 그러나 분산 운영 체제이지만, Hadoop은 본격적인 분산 운영 체제가 아닙니다 이미 운영중인 호스트에 위치한다 Windows 또는 Linux가 될 수있는 시스템 이미 사전 설치된 운영 체제 기반 운영 체제 클러스터의 일부에 속하는 모든 컴퓨터에서 그래서 이점은 무료이기 때문입니다

오픈 소스 인 많은 중규모 조직 자신의 클러스터를 구축 할 수 있습니다 클러스터 의미 그것은 여러 개의 상호 연결된 일련의 구성입니다 컴퓨터들 그래서, 작은 수퍼 컴퓨터처럼 강력하고 빠르지 않다 전공에서 판매되는 상업용 슈퍼 컴퓨터 IBM, Fujitsu, Cray 's와 같은 거대 기업 귀하의 필요에 따라 예산에 따라 유스 케이스를 사용하면 작은 클러스터를 만들 수 있습니다 적어도 10 배 또는 몇 백 배 더 강력 함 독립형 시스템에서 동일한 문제를 해결하는 것보다 그리고 실제로 hadoop의 일부로 오는 소프트웨어 업데이트 다시 자유롭게 유지되므로 유지 관리 할 필요가 없습니다

자격을 갖춘 소프트웨어로 구성된 자체 팀 엔지니어가 버그 수정 및 소프트웨어 패치 처리 거의 모든 것이 무료로 제공되므로 그 이유가 무엇입니까? hadoop은 실제로 꽤 인기가 있습니다 업계의 사람들은 많은 소음을 만들기 시작했습니다 hadoop 주위에, 당신은 데이터를 가지고 있기 때문에, 데이터를 저장할 수 있고 이제는 실제로 당신이 아는 아주 경제적 인 방법입니다 데이터를 분석하고 hadoop은 요구하지 않는다 당신은 실제로 하드웨어 인프라를 조달해야합니다

당신이 100을 갖고 싶다면 단일 공급 업체로부터 시스템을 상호 연결하거나 클러스터에 수백 개의 노드를 설치해야합니다 여기서 노드라는 단어는 클러스터의 개별 시스템, 클러스터는 기본적으로 서로 연결된 여러 기계 그래서, 하둡 (Hadoop)이란 무엇입니까? 실제로 모든 컴퓨터를 구입해야한다고 말합니다 한 공급 업체에서, 당신은 꽤 많이 만들 수 있습니다 자신의 하드웨어 및 여러 공급 업체에서 올 수 있습니다 이 경우 회사는 단일 공급 업체에게 막대한 금액의 프리미엄 지불 무언가가 깨져서 Hadoop이 꽤 많이있는 곳 이죠 에서 하드웨어 인프라를 쉽게 설정할 수 있습니다

소프트웨어 측면에서 보면 같은 시간에 비용이 전혀 들지 않습니다 실제로 하둡의 근원은 실제로 무엇입니까? Hadoop은 분산 형입니다 patal 프로세싱 프레임 워크 또는 단순히 분산을 용이하게하는 patal 처리 프레임 워크 실제로 시작된 뿌리를 사실 인터넷 검색 엔진은 하둡의 아이디어입니다 인터넷 수색 엔진에서 기인했다 그래서, 나는 희망한다 많은 사람들이 이런 종류의 회사에 대해 들어 보지 못했을 것입니다 Jeeves com 또는 또는 AltaVista, 이들은 모두 매우 인기있는 검색이었다

요즘 엔진 기억 검색 엔진은 실제로 브라우저에 탭이지만 이전 검색 엔진은 실제로 분리되어 있었다 다운로드하고 설치해야하는 파일 Windows 운영 체제와 이들이 예제 였고 지금은, 야후 만 많은 사람들이 기억할 수있는 나는 많은 사람들이 야후를 사용하지 않을 것이라고 확신한다 검색 엔진 목적으로 구글이라는 단어라면 구글 검색 엔진과 동의어이므로 초기에 다시 방문하십시오 2000 년대와 90 년대 후반 인터넷 실제로 블록 단위로 구축되고있었습니다 이들은 실제로 엄청난 돈을 벌어들이는 회사들이었습니다

꽤 인기가 있기 때문에 야후는 당시 매우 인기가 있었고 Google은 사진에서 그 무엇도 결코 보지 못했고 어떤 일이 일어 났는지 살펴 봅니다 2000 년 이후 10 년 만에 Google이 독점하고 있습니다 이 인터넷 검색 엔진 공간 및 검색 엔진 인 경우 Google은 검색 엔진 공간과 거의 동의어입니다 2000 년대 초반에 꽤 많이 돌아 왔습니다 두 사람이있을 때 더프 커팅과 마이크 카르텔 라 그들은 nuch라고 불리는 인터넷 검색 엔진 프로젝트에서 일하고있었습니다

그리고 그것은 구글이 실제로 초기 단계에 있었던 때였 다 그들은 자신의 검색 엔진을 구축하기 위해 노력하고있었습니다 꽤 많은 백서와이 두 사람 출판 몇몇 아이디어에 영감을 받았다 구글의 백서에서 볼 수있다 그리고 컷 한 남자들 중 하나가 야후와 2006 년 공식적으로 야후 안정 버전의 Hadoop을 출시했습니다

2006 년부터 2007 년까지 그것은 오픈 소스 프로젝트가되었다 Apache Software Foundation 또는 Apache dot 또는 자신의 공식 웹 사이트 또는 Hadoop 복사본을 다운로드하여 다운로드 할 수 있습니다 무료로 그래서, 여기 있습니다 2006 년부터이 시점까지 3 가지 주요 Hadoop 릴리즈 인 Hadoop 10, 2

0 시장에서 30을 사용할 수 있습니다 가장 안정된 하나는 Hadoop 버전 2이며 mr2라고도합니다 또는 양 요약하면 우리는 매우 기본적인 것을 이해하려고 노력한다 병렬 처리 란 무엇인가? 실제로 어떤 종류의 문제가 될 수 있습니다

왜 병렬 처리가 필요한가? 인프라 스트럭처를 처리하고 얼마나 오래되었는지 슈퍼 컴퓨터의 측면에서 병렬 처리 개념 슈퍼 컴퓨터의 도전과 방법 Hadoop은 실제로 두 가지면에서 구출에 이릅니다 하드웨어 인프라뿐만 아니라 무료입니다

Hadoop Tutorial For Beginners | Apache Hadoop Tutorial | Hadoop Training | Edureka

안녕하세요 여러분, 에드레카에 오신 것을 환영합니다 초보자를위한 Hadoop 튜토리얼 비디오

이 자습서에서는 하둡의 기초와 불꽃 우리는 또한 두 가지 흥미로운 Hadoop을 사용한 대규모 데이터 활용 사례 및 스파크, 배울 수있는 더 좋은 방법 기술을 직접 습득하는 것보다 훨씬 쉽습니다 그래서 여기에 의제가 있는데 이것은 무엇입니까? 너는 오늘 훈련 안에 배울 것이다 이미 말했듯이 우리는 두 가지 큰 우리가 연구 할 데이터 사용 사례 첫 번째는 우리의 예비 선거이며 두 번째는 즉각적인 택시 시작입니다 우리가 시작할 uber 택시와 매우 흡사하다 둘 다 사용의 문제 진술 사례를 읽고 나서 배우십시오 빅 데이터 기술 및 개념 우리가이기 때문에 그들을 해결하기 위해 Hadoop을 사용하고 간단한 소개로 시작 우리가 이해할 수있는 하둡과 스파크 Hadoop의 구성 요소 이해 후 HDFS와 원사입니다

하둡 우리는 앞으로 나아갈 것입니다 스파크가 어떻게 작동하는지 배우고 우리가 갈 다른 구성 요소 K-means와 Zeplin을 이해하기 위해 k- 수단은 기계 학습 알고리즘이다 그리고 Zepplin은 우리가 갈 도구입니다 데이터를 시각화하고 마침내 우리는 사용의 해결책으로 진행할 것이다 데모가있는 케이스 우리 모두가 갈 수있어서 좋다

우리와 함께 시작하자 이 유스 케이스에서 선거 유스 케이스 우리는 2016 년에 대해 논의 할 것입니다 기본 선거 각 당의 경쟁자 선거 서로 경쟁하여 대담하다 그 자신의 정당은 최종 선거에는 두 가지 주요 미국의 정당 2 명 민주당과 공화당은 경쟁자 민주당 원은 Hillary이었다 클린턴과 버니 샌더스 외 그들 Hillary Clinton는 1 차를 이겼다 선거와 공화당의 경쟁자는 도널드 트럼프 테드 크루즈 이미 알고있는 다른 몇 가지 도널드 트럼프가 공화당은 이제 우리가 당신은 이미 분석가입니다 도널드 트럼프에 고용되어서 너 나는 무엇이 다른지 알고 싶다 이유 때문에 힐러리 클린턴 내 원정 경기를 원한다

캠페인을 통해 이길 수 있습니다 그녀를 위해 투표 한 사람들의 호의 그래서 이것이 전체 의제였습니다 당신에게 주어진 과제는 데이터 분석가 그래서 무엇이 제일 먼저 당신이 제일 먼저 할 일이 필요할 것입니다 데이터를 요청할 것입니다 나와 데이터 세트 두 개가 있습니다

이 데이터가 무엇인지 살펴 보겠습니다 세트가 포함되어 있으므로 이것이 우리의 첫 번째 데이터입니다 우리를 예비 선거로 설정 데이터 세트가 다르므로 우리의 데이터 세트에있는 필드는 첫 번째 필드는 미국이므로 우리는 알라바마 주정부의 상태 목록 알라바마의 약어입니다 알라바마에있는 다른 카운티들은 우리가 갈 볼드윈 Barbour 비트 Blount 수소 버틀러 등 우리는 Phipps 이제 Phipps 연방 정보 표준 코드를 처리하므로 기본적으로 우리는 우편 번호를 의미합니다 우리가 될 파티가있어

우리는 민주당을 분석하기 때문에 그 이유가 무엇인지 알고 싶다 우리가있을 힐러리 클린턴의 승리 민주당 만 분석 한 다음 우리는 후보자를 가지고 있고 내가 말한 이후로 버니 후보가 두 명 있었 잖아요 샌더스와 힐러리 클린턴, 그래서 우리는 후보자의 이름과 각 후보자가 얻은 득표 수 그래서 Bernie Sanders는 우리 투가에서 544를 얻었다 카운티와 힐러리 클린턴은 87에 도착했다 여기의이 분야에서 투표의 일부분 이 둘은 함께 1을 얻을 것입니다

이것은 기본적으로 백분율을 나타냅니다 각 후보자가 투표권을 얻었습니다 두 번째 데이터 집합을 살펴 보겠습니다 지금이 데이터 세트는 우리 카운티입니다 인구 통계 기능 데이터 세트 먼저 FIPS를 다시 r2 카운티 볼드윈이라는 지역 알라바마에있는 다른 다른 카운티와 다른 주들도 주 약자이다

여기 알라바마와 여기에서 볼 수있는 필드는 실제로 다른 기능들 정확히 무엇이 포함되어 있는지 알 수 없다 코드화 된 형식으로 작성 되었기 때문에 하지만 내가 이걸 어떻게 보여줄지 예를 들어 보겠다 데이터 세트에 나와 있습니다 너에게 몇 줄을 보여줄거야 데이터 세트 이것은 전체 데이터 세트가 아니므로 다음과 같은 다양한 필드가 포함되어 있습니다

2010 년 인구 2014 년 성비 몇 명의 여성이 남성인지, 그 다음에 어떤 민족성 얼마나 많은 요원이 얼마나 많은가? 흑인 미국인의 비율 얼마나 많은 아프리카 흑인이 살았습니까? 또한 연령대에 따라 아기 수 얼마나 많은 노인들이 얼마나 많은 성인인가? 우리의 데이터에는 많은 필드가 있습니다 이것이 우리를 분석하고 분석하는 데 도움이 될 것입니다 실제로 무엇을 이끌어 냈는지 알아 내라 힐러리 클린턴의 승리로 우리 데이터 세트를 보았습니다 데이터 세트 이해하기 무엇이 다른지 알아 내라

기능 또는 다른 점 열을 사용하고 당신은 전략을 생각하거나 생각해야합니다 어떻게 할거야? 분석하므로 전체 솔루션입니다 전략 그래서 당신이 할 첫 번째 일 데이터 세트가 필요하고 너와 두 데이터 세트를 가지고있어 네가해야 할 일은 그 데이터를 HDFS로 변환합니다 HDFS는 Hadoop입니다

분산 파일 시스템이므로 다음 단계는 데이터를 저장하는 것입니다 SPARC 구성 요소를 사용하여 데이터를 처리합니다 우리는 SPARC 속편 SPARC을 사용할 것입니다 M Lib 등등 다음 작업은 다음과 같습니다 SPARC 속편을 사용하여 데이터 변환 여기서 변환은 필터링을 의미합니다

데이터 및 행과 열 당신은 또는 이것을 처리하기 위해 다음 SPARC을 사용하여이 데이터를 클러스터링하는 단계입니다 em lib와 우리 데이터를 클러스터링하기 위해 k-means와 마지막 단계를 사용할 것입니다 다음을 사용하여 결과를 시각화하는 것입니다 현재이 데이터를 시각화 한 Zeppelin은 또한 매우 중요하기 때문에 시각화를 할 수 없다 주요 이유가 무엇인지 파악하고 너는 옳은 것을 얻을 수 없을거야

이제 귀하의 데이터에 대한 통찰력은 당신이 용어에 익숙하지 않으면 무서워 같은 불꽃은 Park M leg k-means와 같다 클러스터링하면 오늘 세션에서 이것들은 우리의 것입니다 전체 전략이 우리가가는거야 오늘 할 일은 우리가 어떻게 할 것인가하는 것입니다

이 유스 케이스를 구현하고 이유를 찾아야한다 힐러리 클린턴 상원 의원이 이겼다 결과를 시각화 한 것입니다 내가 가지고있는 분석을 보여 주겠다 수행 한 어떻게 보이는지 보여 줄게

내 마스터 노드에있는 Zeppelin입니다 내 Hadoop 클러스터에서 우리는 우리의 데이터를 시각화 할 것입니다 무서워하지 않는 코드가 많이 있습니다 스파크가있는 스케일러 코드 일뿐입니다 평등하고 결국 당신은 될 것입니다

이 코드를 작성하는 법을 배워서 시각화 부분으로 바로 넘어 가기 그래서 이것이 첫 번째 시각화입니다 우리는 그것을 가지고 분석했습니다 다른 인종에 따라 예를 들어 X 축에서 외국 태생의 사람들과 y 축에서 우리는 외국에서 태어났다는 것을 보았습니다 Hillary의 인기는 무엇입니까? 아시아 인들과 서클들 사이의 클린턴 가장 큰 값을 나타냅니다 우리가 가진 원이 더 큰 수입니다 이제는 좀 더 시각화를 만들었습니다

우리는 선 그래프를 힐러리 클린턴과 버니의 표결 다시 샌더스와 함께 우리는 Bernie를 비교하는 영역 그래프 샌더스와 힐러리 클린턴 투표 따라서 우리는 훨씬 더 시각화가 있습니다 우리는 막대 그래프와 마침내 우리는 또한 모든 것을 가지고있다 카운티 현명한 투표 분포 당신을 도울 이러한 시각화 답을 도출 할 결론을 도출하다 또는 도널드 트럼프에 대한 대답은 너를 원하고 너는 걱정하지 마라 내가 어떻게 설명하는지 배우는 법 내가 만든 방식의 모든 세부 사항 이제 이러한 시각화를 통해 두 번째 사용 사례를 살펴보십시오 인스턴트 택시 사용 사례 이제 택시 사용 미국에서의 시동 인스턴트 gabs 그리고 다시 한 번 우리를 분석하는 데 아주 훌륭한 직업 선거에서 다시 너를 고용했다

지금 기본적으로이 문제를 해결하십시오 회사는 수요가 무엇인지 알고 싶어한다 정확한 위치와 그 중 피크 시간과 그 시간 그들은 최대화하기를 원한다 벌집을 찾는 그들의 이익 그들이 많이 얻을 수있는 지점 픽업하고 택시를 거기에 가져 오는 중 피크 시간 동안 이것은 두 번째입니다 다시 한번 첫 번째 일 당신이 필요로하는 데이터 세트이므로 이것이 우리의 데이터 세트입니다 ~하기 위해 당신에게 주어진 분석하고 피크가 무엇인지 알아 내라

시간과 얼마나 많은 택시가 예상되는지 피크 시간대의 그 위치들 이것은 단지 날짜 / 시간 스탬프입니다 픽업 시간 및 픽업 특정 습관에 대한 날짜입니다 2014 년 1 월 8 일 자정 무렵 그리고 나서 위도와 경도 이것은 위치를 나타냅니다 픽업의 다음이 기지입니다 TLC베이스 코트에 있습니다 운전 면허증 번호처럼 이제 우리는 다시 전략을 세워야합니다

이 데이터를 어떻게 분석 할 것인가? 처음에는 CSV로 데이터를 가져 왔습니다 형식이 첫 번째 단계이며 당신은 다음에 다시 데이터를 얻었습니다 단계는 다음과 같이 HDFS에 데이터를 저장하는 것입니다 우리는 처음으로 다시해야만했습니다 이 데이터 세트 때문에 데이터를 변환하십시오

실제로 실제로 정말로 길다 행과 열이 많이 포함되어 있습니다 어쩌면 당신은 모든 것을 분석하고 싶지 않을 것입니다 한번에 필터를 다시 필터링 할 것입니다 그 후 행의 일부를 꺼내십시오

클러스터링을 다시 시작하기 위해 변형 k- 지금은 말하지 않을거야 걱정할 필요가 없습니다 시작하고 그것을하는 방법 및 클러스터에 의해 우리는 각각의 중심점을 찾을 것입니다 각각의 픽업 포인트 또는 각각의 벌집 포인트 그래서 우리가 수행하는 이유입니다 클러스터를 찾으려면 클러스터 센터는 우리가 기대할 벌집 지점 최대 픽업 회수 피크 시간이므로 이것이 전체입니다 이제 전략을 보여 드리겠습니다

이것과 같은 시각화 우리 선거를 위해 그렇게 했어 다시 도끼와 도끼 인 코드 spark 속편 코드는 나를 그냥 뛰어 내리게한다 시각화 부분에 직접 다시 이것은 우리의 x 축이고 우리는 픽업 횟수 및 y 우리는 시간이 있고 그것은 우리가 그룹으로 묶은 시간과 날 크기 및 개수에 따라 볼 수있는 픽업 수입니다 여기에서 볼 수있는 가장 큰 크기 이 것들이 있고 이것은 발견된다 네 번째 클러스터에서는 주위에있는 17 번째 시간 오후 5시 이것이 우리가 알아 낸 것입니다

우리가 분석하고 시각화 한 후에 우리의 데이터는 우리의 데이터 세트를 다시 설정하고 내가 얼마나 많은지 얘기 할거야 클러스터가 만들어지고 만드는 방법 다른 클러스터 및 찾는 방법 이 모든 것이 다시 나옵니다 uber 데이터 세트의 시각화 및 이 위치는 벌집 점을 식별하기위한 명령 다시 우리는 다른 시간에 따른 픽업 그래서 우리는 24 조각을 가지고있다 이쪽에서 너는 가장 큰 것을 볼 수있다 슬라이스는 열일곱시에 있고 4시 방향에 약 16 시간

오후 5 시이의 시각화입니다 이제 데이터 세트가 Google의 프레젠테이션을 통해 우리는 우리가 해야하지만 지금은 무엇을 이해하자 이 모든 것을 수행하기 위해서는 당신이해야 할 일은 무엇입니까? 알고 있거나 배울 필요가있다 당신이 배우기 위해 필요한 것 유스 케이스에 대한 분석 수행 소개부터 시작하겠습니다 하둡과 불꽃이 생겨서 우리가 이해할 것입니다 Hadoop은 무엇이며 스파크는 무엇이며 다음으로 우리는 깊은 잠수를 할 것입니다 하둡은 다른 것을 이해합니다

예를 들어 Hadoop의 구성 요소 저장 장치는 이미 알고있다 s DFS로하고 실을 Hadoop의 처리 단위 다른 도구를 사용할 것입니다 쉽게 할 수있는 아파치 스파크 하둡과 통합되어 더 나은 분석을 수행 한 다음 k-means와 Zeppelin을 이해할 것입니다 우리는 k-means 클러스터링을 사용했기 때문에 우리의 데이터를 클러스터하기 위해 Zeppelin을 시각화하기 위해 그것을 사용했다 그리고 나서 우리는 마침내 우리가 사용할 유스 케이스의 솔루션 직접 구현해야합니다

너가 배울 필요가있는 것 그래서 얻으 십시요 하둡으로 시작하여 우리가 할 수있는 불꽃을 일으킨다 Hadoop을 소개하고 스파크 그럼 이제 무엇을 보자 Hadoop은 무엇인가? 큰 프레임을 저장할 수있는 프레임 워크입니다 분산 방식으로 데이터 클러스터 그들을 평행하게 처리한다 Hadoop에는 다음과 같은 두 가지 구성 요소가 있습니다

스토리지에는 HDFS가 있습니다 Hadoop 분산 파일 시스템 모든 종류의 데이터를 덤프 할 수 있습니다 하둡 클러스터 전체에서 분산 된 방식으로 가공 전의 하드웨어 너는 아직 약자 야 또 다른 자원과 협상가 Hadoop의 처리 단위입니다 는 Hadoop 전체에 분산 된 데이터 HDFS의 클러스터에서 스파크가 발생했습니다

소호 파치 스파크는 아파치에 의해 인기있는 프로젝트이며 이것은 오픈 소스 클러스터 컴퓨팅 실시간 처리를위한 프레임 워크 반면에 Hadoop은 일괄 처리 스파크는 스파크로 실시간 처리 처리는 메모리에서 일어나고 에 대한 인터페이스를 제공합니다 다음으로 전체 클러스터 프로그래밍 암시 적 데이터 병렬 처리 및 오류 공차 그래서 데이터 병렬이란 무엇인가? 데이터 병렬 처리는 다중 병렬 처리 병렬 컴퓨팅의 프로세스 환경에서 많은 평행 단어 그 문장은 내가 너에게 간단히 말해 줄거야 그것은 기본적으로 에서 작동하는 노드 전반의 데이터 데이터 병렬 및 그것은 작동합니다 HDFS 및 s3과 같은 내결함성 시스템 원사 상단에 건축되어 있기 때문에 실을 사용하면 서로 결합 할 수 있습니다 아파치와 같은 도구가 더 나은 성능을 발휘합니다

데이터 처리 하둡 토폴로지를 보면 둘 다 스파크가 같아 마스터 / 슬레이브 토폴로지 고려할 경우 Hadoop의 토폴로지 용어 HDFS는 알려진대로 마스터 노드 작업 노드의 이름 메모로 슬레이브 노드는 데이터 노드 그리고 스파크에서 주인은으로 알려져있다 주인과 노예는 노동자라고 알려져 있습니다 이것은 기본적으로 데몬입니다 이것은 Hadoop에 대한 간략한 소개입니다

스파크를 치고 이제 살펴 보자 하둡을 칭송하다 항상 무엇에 관한 토론 이었는가? 브룩이 어떻게 발화할지 선택하고 완고한 사람이 있다고 말해줘 아파치가 불꽃을 일으킨다는 오해 Hadoop을 대체 할 가능성이 있습니다 Hadoop it의 시대를 끝내라 말하기는 매우 어렵다

두 명의 프레이머가 상호 배타적이지만 더 낫다 그들이 서로 짝을 지을 때 서로 다른 도전을 해봅시다 우리가 스파크를 사용할 때 우리가 다루는 Hadoop을 함께 사용하면 스파크가 데이터를 처리하는 첫 번째 지점 MapReduce보다 수백 배 빠릅니다 결과가 더 빨리 나오고 다음 시점에서 더 빠른 분석을 수행합니다 원사에서 실행할 수있는 스파크 응용 프로그램입니다

하둡 클러스터를 활용하면 Hadoop 클러스터는 일반적으로 우리가 얻는 상품 하드웨어 더 나은 처리하지만 우리는 매우 사용하고 있습니다 저가 하드웨어를 사용하면 그래서 우리의 비용도 많이 삭감했습니다 저렴한 비용 최적화 세 번째 포인트 아파치 스파크가 HDFS를 저장 장치가 필요 없으므로 다른 저장 장치가 필요하지 않습니다 아파치를위한 저장 공간은 네가 가지고 있지 않은 HDFS 자체에서 작동 같은 파일을 다시 복사하고, 그래서 스파크로 처리하고 싶다 파일의 중복을 피할 수 있습니다

하둡은 매우 강력한 기반을 형성합니다 미래의 빅 데이터 이니셔티브 및 스파크는 그 중 하나입니다 대규모 데이터 이니셔티브 강화 메모리 내 처리와 같은 기능 기계 학습 능력과 당신 Hadoop과 함께 사용할 수 있으며 너를 줄 수있는 필수품 기계 설비 최소 비용으로 더 나은 처리 이것들은 당신이 얻을 수있는 이점입니다 SPARC와 Hadoop을 함께 사용하면 큰 데이터를 분석하기 위해 일부를 보자 큰 사용 사례 – 첫 번째 큰 데이터 사용 사례 추천을 자세히 설명하는 웹입니다

엔진을 아마존이나 다른 온라인 쇼핑 사이트를 순서대로 당신이 볼 수있는 것을 사기 위해 추천 항목이 아래에 표시됩니다 화면 또는 화면 옆에 그것은 모두 큰 데이터를 사용하여 생성됩니다 분석 및 광고 타겟팅 페이스 북 너는 다른 많은 것을 본다 물건을 살 것인지 묻는 항목 검색 품질 남용을 클릭하고 사기 탐지 당신은 큰 데이터를 사용할 수 있습니다 분석 및 통신 고객 이탈을 알아 내기 위해 네트워크 성능 예방 최적화 분석 네트워크 실패를 예측하고 손실을 예방할 수있다 오류 전 또는 오류 전 실제로 그것은 또한 널리 사용되는 발생합니다

사기 탐지 및 소개하기 위해 사이버 보안 다른 복지 계획의 정의 건강과 삶에 널리 사용되었습니다 건강 정보 교환을위한 과학 유전자 시퀀싱 직렬화 건강 관리 서비스 품질 개선 및 마약 안전은 이제 내가 너에게 큰 데이터 분석은 매우 쉽습니다 특정 질병을 진단하기위한 명령 그리고 이것들도 치료법을 찾아라 더 큰 데이터 사용 사례도 있습니다 은행 및 금융 서비스에 진정한 위험 사기 탐지 모델링 신용 카드 채점 분석 및 많은 소매로 더 많이 사용할 수 있습니다

교통 서비스 호텔 및 음식 배달 서비스와 실제로 너는 아무리 이름을 지어 라 당신이 사용할 수 있다면 가지고있는 사업 귀사의 큰 데이터를 효율적으로 자라서 너는 달라질거야 큰 데이터 분석 및 따라서 비즈니스를 더욱 향상시킬 수 있습니다 요즘 모두가 큰 데이터를 사용하고 있습니다 너는 다른 분야를 보았다

모든 것이 서로 다르다 하지만 모두가 큰 데이터 분석을 사용하고 있습니다 큰 데이터 분석은 다음과 같이 할 수 있습니다 Hadoop과 같은 도구와 스파크 등 큰 데이터 분석이 대단한 이유입니다 오늘날의 수요와 왜 그것이 매우 방법을 배우는 것이 중요합니다

도구로 큰 데이터 분석 수행 이것을 좋아해 이제는 빅 데이터는 솔루션 아키텍처를 이제는 큰 데이터를 다루고 있습니다 당신이해야 할 첫 번째 일은 그 모든 데이터를 덤프해야합니다 HDFS에 저장하고 분산 된 형태로 저장 방법은 다음 단계로 처리하는 것입니다 당신이 통찰력을 얻을 수 있도록 그 데이터 원사는 원사를 사용할 수 있기 때문에 원사를 사용할 것입니다 우리가 다른 도구들을 통합 할 수있게해라

함께 우리가 처리하는 데 도움이 될 큰 데이터는 다음과 같은 도구입니다 당신은 할 수있는 존과 통합 할 수 있습니다 Apache hive pachi spark 중 하나를 선택하십시오 MapReduce Apache Kafka를 사용하려면 큰 데이터를 분석하고 아파치 스파크는 하나입니다 가장 널리 사용되고 가장 널리 사용되는 커다란 가공을 위해 원사를 사용하는 도구 데이터이므로 전체 솔루션은 우리가 소개 한 이래로 하둡과 스파크로 가보자

저장 장치 인 HDFS를보십시오 Hadoop의 HDFS가 Hadoop의 약자 분산 파일 시스템이며 이것은 하둡 (Hadoop) 저장 장치 HDFS의 아키텍처는 이미 그것은 마스터 / 노예라고 말했다 마스터 노드가 알려져있는 아키텍처 명명 된 노드이며 슬레이브 노드가 알려져 있습니다 데이터 노드로서 그리고 나서 우리는 또 다른 여기에 보조 노드로 알려진 노드 이름 노드는 이제 혼란스러워하지 않는다 2 차 이름 노드가 될 것입니다

이름 노드의 치환 그렇다고해서 제가 2 차적인 것이 무엇인지 말해주지 않을 것입니다 이름 노드는 이제 돌아가고 전체 아키텍처를 이해한다 제대로 당신은 작은 아이콘을 볼 수 있습니다 이 모든 다른 노드에서 기본적으로 이름 노드는 마스터입니다 데몬이라고 생각할 수 있습니다

왕에게 도움이되는 데몬이 있습니다 보조 이름 노드입니다 목사의 아이콘과 폰 종속 노드 또는 종속 노드를 나타냅니다 데이먼의 데이터 노드는 여기 있습니다 실제 데이터를 포함하므로 언제든지 HDFS에 파일을 덤프하면 귀하의 데이터가 데이터 노드 HDFS의 가장 좋은 점은 위에 추상화 레이어를 만듭니다

분산 된 스토리지 자원 HDFS 파일을 가져 오는 중입니다 다른 기계에 분산되어 있지만 전체 HDFS를 단일 화면으로 볼 수 있습니다 단위에 배치되기 때문에 이제 구조는 각각의 구성 요소 하나 하나씩 이름 노드를 살펴 봅니다 node는 마스터 데몬이며 데이터 노드를 포함하고 관리합니다 이름 노드가하는 일은 정보를 의미하는 메타 데이터 및 메타 데이터 어떤 파일이나 어떤 데이터라도 데이터 노드에 이름이 저장됩니다

노드가 적절한 시트를 적절하게 유지함 모든 것이 언급 된 파일 어느 데이터가 어떤 데이터 노드에 저장되는지 그것은 모든 종류의 요청을 제공합니다 고객이기도하고 이후로 그것도 수신 된 마스터 노드 작은 하트와 너는 보았다 이전 슬라이드에서 데이터 팝업 노드가 실제로 하트 비트를 보내는 중입니다 아무 것도 아닌 요일 이름 노드 이름 노드에게 데이터 노드가 살아 있고 작동 중입니다

정확히 이제 보조 이름 노드가 온다 보조 이름 노드는 매우 효과적입니다 중요한 일과 그 일은 체크 포인트는 체크 포인트이므로 편집 로그를 FS와 결합하는 프로세스 이미지로 이제 편집 내용을 알려 드리겠습니다 로그는 무엇이며 FS 이미지는 무엇입니까? 하둡 클러스터를 설치했다는 것을 알았습니다 며칠 전에 새로운 데이터 블록이있을 때마다 내 HDFS에 저장된 데이터 블록 모든 거래가 삭제됩니다

FS 이미지로 알려진 파일에 결합 FS 이미지는 디스크에 있습니다 그리고 비슷한 파일이 하나 더 있습니다 편집 로그로 알려짐 이제 편집 로그 거래 기록을 보관하지 않을 것입니다 20 일 전에는 단 몇 시간 만에 돌아 왔습니다 이제 레코드를 유지한다고 해봅시다

발생하는 거래 내역 지난 4 시간 동안 및 검사 점 편집 로그를 결합하는 작업입니다 FS 이미지 내에서 더 빠르게 장애 복구 (failover) 메타 데이터이므로 이름이 노드가 내려 가서 매트 전체 잃어버린 우리는 우리가 할 수있는 걱정할 필요가 없습니다 새 이름 노드를 설정하고 동일한 이름을 얻는다 트랜잭션 파일 및 메타 데이터 보조 이름 노드에서 업데이트 된 사본과 체크 포인팅은 매시간마다 발생합니다 하지만 구성 할 수도 있습니다

체크 포인팅 프로세스 이해 여기에 FS 이미지와 편집 로그이므로 디스크의 FS 이미지 램프에 편집 로그가 있습니다 보조 이름 노드가하는 일은 먼저 FS 이미지를 복사하고 로그 편집 및 함께 편집 업데이트 된 FS 이미지를 얻으려면 이 FS 이미지는 다시 이름 노드를 가지며 이제는 이름 노드가 업데이트 된 FS 이미지와 그 동안에는 새 편집 로그는 체크 포인트가 일어나고 있습니다 프로세스가 계속 진행되므로 이름 노드를 유지하기 위해 이름 노드를 도와줍니다 의 FS 이미지의 업데이트 된 사본 매시간 거래를 이야기하겠습니다 이들이 슬레이브 인 데이터 노드에 대해 데이먼 스와 여기가 실제 데이터가 저장되며 클라이언트가 읽기 또는 쓰기 요청에 데이터를 제공합니다

노드는 데이터가 실제로 데이터 노드에 저장됩니다 이것은 HDFS의 구성 요소에 관한 모든 것입니다 이제 전체 HDFS를 이해해 봅시다 우리가 가지고있는 아키텍처 다른 데이터 노드를 여기에 설정할 수 있습니다 랙의 랙에있는 다른 데이터 노드를 올리십시오

하나는 세 개의 서로 다른 데이터 노드를 가지고 있습니다 이라크에서 우리는 두 가지 다른 데이터를 가지고 있습니다 노드 및 각 데이터 노드 다른 데이터 블록을 포함하고 있기 때문에 데이터 노드는 데이터가 블록에 저장됩니다 그래서 우리는 그것에 대해 배울 것입니다 클라이언트가 요청할 수 있도록 오는 슬라이드 읽기 또는 쓰기 중 하나를 선택하고 클라이언트가 특정 파일은 먼저 이름 노드와 이름에 이름 노드가 정확하게 알고있는 메타 데이타 파일이있는 곳에서 우리는 IP를 줄 것이다

데이터 노드의 어드레스 다른 데이터 블록은 특정 파일을 선택하면 이 IP로 이동할 수있는 클라이언트 주소를 입력하면이 데이터 노드로 이동할 수 있습니다 파일을 읽은 다음 클라이언트는 차례로 다른 클라이언트로 이동합니다 데이터 Plock이있는 데이터 노드 현재 그리고 마지막으로 읽기 요청은 이제 고객에게 에 싶어 다시 이름 메모에 연락 할 것입니다 메타 데이터를 두 번 클릭하고 우리는 공간이 어디에 있는지 볼 것입니다 공간이 있는지 여부를 확인합니다

가용한지 아닌지 그리고 다시 한 번 데이터 노드의 IP 주소를 부여한다 여기서 클라이언트는 파일을 쓸 수 있고 마찬가지로 쓰기 메커니즘도 이런 식으로 데이터에 의해 읽기 쓰기 요청이 제공됩니다 이제 노드가 HDFS 블록에 대해 이야기 해 봅시다 복제와 내가 말한 이후 HDFS는 내결함성 시스템입니다 각 파일이 어떻게 저장되는지 봅시다

블록으로 HDFS를 덤프 할 때마다 파일을 HDFS에 넣습니다 다른 블록들과 분배 됨 Hadoop 클러스터와 각 블록의 기본 크기는 128입니다 메가 바이트는 이제 내가 380 메가 바이트의 파일이므로 첫 번째 블록 세 개 블록은 초당 128 메가 바이트입니다 128 메가 바이트이고 세 번째는 나머지 크기를 차지하라 그 파일은 124 메가 바이트 이제 파일 크기가 있다고 가정 해 봅시다

500 메가 바이트의 블록 수 알았어 AJ가 4라고 말했어 그것은 4라고 말합니다 물론 여러분들은 오른쪽 4 블록 첫 3 블록 128 메가 바이트이고 lacs 블록이 될 것입니다 남은 파일 크기 만 차지합니다

116 메가 바이트이므로 이제 언제든지 블록 복제를 논의합니다 먼저 HDFS에 파일을 덤프합니다 블록으로 나눈 다음 각각의 블록이 2 번 복사되므로 지금 당신은 원래 블록과 두 개 더있다 같은 블록 복제본 인자가 3 인 경우, 너의 hadoop 안에 3 개의 유사한 구획 당신은 내가 가지고있는 것을 볼 수 있습니다 248 메가 바이트 파일 128 메가 바이트와 120 메가 바이트 그래서 내 블록 1은 3 번, 블록 2는 그곳에도 3 번에 3 번있다

우리가 이것을 사용하는 다른 데이터 노드 복제 요소가 데이터 노드가 다운되면 우리는 서로 다른 두 개의 데이터 블록 데이터 노드이므로 데이터 블록 복제본 이제 hdfs에서 제대로 복제가 RAC로 알려진 알고리즘 인식 및 그것은 우리에게 결함을 제공합니다 관용 RAC 인식 알고리즘은 말한다 블록의 첫 번째 복제가 로컬 랙에 보관하고 다음 2 개의 복제본이 우리가 데이터 블록을 저장할 다른 랙 1 번 랙에서 대기 시간이 지금은 명령이 줄어들었다 Hadoop을 시작하는 데 사용할 것입니다 하둡 데이먼을 당신 이름처럼 저주합니다 노드의 보조 이름 노드와 슬레이브 머신의 데이터 노드 하나 모든 하둡 악마를 시작하려면 원사를 설명하지 않은 HDFS 및 원사 그러나 원사는 Hadoop 그래서 모든 원사를 시작합니다

악마는 자원 관리자와 노드 관리자는 또한 다음과 같습니다 hadoop Damons를 모두 중지하라는 명령 JPS와 함께 무엇이 있는지 확인할 수 있습니다 현재 달리고있는 악마들 너의 기계는 내가 보여 주기만하면 돼 이제 내가해야 할 첫 번째 일은 내 디렉터리를 내로 변경해야합니다

headed directory 그래서 나는 CD를 할거야 하둡, 이제는 명령을 기억하고 첫 번째를 기억할 수 있습니다 명령은 슬래시를 위해 / s 빈을위한 점이었습니다 모든 도트 쉬를 시작하도록 요청하십시오 비밀 번호가 알았어

당신은 또한 그것이되도록 구성 할 수 있습니다 당신이하지 않도록 비밀 번호 적은 과정 원할 때 암호를 입력해야합니다 특정 Damons을 실행하면 JPS를 사용합시다 여기 모든 악마들이 있습니다 내 주인을 만나고 노드 관리자 내 보조 이름은 JPS를 알고 있습니다

자체는 데이터 노드 인 데몬입니다 자원 관리자 및 이름 메모 당신은 자원 관리자와 노드에 대해 다가올 슬라이드의 관리자는 걱정하지 않아도됩니다 이것에 관해서는 이것들은 단지 악마들입니다 내 마스터 컴퓨터에서 실행중인 악마가 무엇인지 보여 드리죠 내 노예 기계에서 달리다

내 노예 기계의 터미널 난 그냥 여기에 JPS를 운영 할 예정입니다 프로세스 또는 실행중인 악마 내 노예 기계에서 노드 매니저와 데이터 노드는 우리의 노예 악마들과 그들 모두 내 노예 기계에서 뛰고있어 너가 달릴 수있는 모든 악마를 멈추고 싶다 같은 명령 시작하는 대신에 그냥 멈출 수 있습니다 여기 내 HDFS를 사용하기 때문에 그걸 막지는 않을거야

과정은 동일하므로 쓸 수있는 몇 가지 명령 원하는 경우 Hadoop에서 파일을 삭제하거나 삭제할 수 있습니다 로컬 파일에서 파일 복사 시스템을 HDFS에 연결하려면이 명령을 사용하십시오 Hadoop FS -이 이름은 당신의 이름입니다 올바른 경로를 입력해야하는 파일 파일을 복사하여 HDFS를 사용하면 HDFS의 대상 폴더 당신이 떠나고 있다면 지금 복사하고 싶습니다 비워두면 복사가됩니다 마스터 디렉토리와 Hadoop을 모든 HDFS 파일을 나열하고 싶습니다

이 명령을 사용하여 할 수 있고 if 그 파일을 제거하고 싶습니다 이 파일을 다시 사용하면이 명령을 사용할 수 있습니다 Hadoop FS – RM에 사용되는 이걸 제거하는 것도 첫 번째 단계입니다 당신이 시작할 때해야 할 일 무언가를 분석하고 이것이 길이다 데이터 세트를 우리의 HDFS를 먼저 분석 한 다음 우리는 이제 HDFS를 보았습니다

실의 처리 단위 인 실 Hadoop 그래서 원사는 무엇인지 알고 있습니다 아무것도 아니지만 MapReduce 버전입니다 Hadoop이 새롭게 등장했을 때 버전 20으로 원사 도입 새로운 프레임 워크는 아직 의미가 없습니다 또 다른 자원 협상가 비 실행 가능 MapReduce 애플리케이션 및 우리가 아파치 스파크 하이브와 같은 다른 도구 돼지 등 그것은 우리에게 제공 병렬 처리를위한 패러다임 하둡 지금 모든 것을 버릴 때

데이터가 HDFS로 분산됩니다 이 모든 분산 된 데이터는 병행 처리하고 완료된다 원사의 도움으로 볼 수 있습니다 여기 원사의 구조가 다시 마스터 / 슬레이브가됩니다 토폴로지 그래서 여기에 마스터 데몬입니다 리소스 관리자와 슬레이브로 알려진 Damon은 노드 관리자라고 알려져 있습니다

이 구성 요소를 살펴 보겠습니다 하나씩 하나씩 첫 번째 단계는 자원입니다 관리자가 마스터 데몬이므로 처리 요구를 수신하고 클라이언트가 그가 자원 관리자에게 오도록 요청한다 먼저 자원 관리자 모든 종속 노드 또는 노드를 관리 관리자가 클라이언트가 올 때마다 그는 일부 데이터를 처리하려고합니다 자원 관리자가 요청을 가져오고 해당하는 요청을 전달합니다

이제 노드 관리자는 노드 관리자 노드 관리자는 종속 노드입니다 악마와 그들은 모두에 설치됩니다 데이터 노드를 사용하면 데이터 블록으로 분할되어 저장됩니다 데이터 노드에서 처리되고 처리됩니다 같은 기계에서 그러니까 데이터 노드가 설정된 기계 노드 관리자는 또한 처리를 위해 존재합니다

모든 데이터와 해당 데이터에 표시 노드에 대한 책임이 있습니다 모든 단일 작업에 대한 작업 실행 데이터 노드 그래서 이것은 실제 어디에 데이터 처리가 시작됩니다 전체 아키텍처를 자세히 살펴보십시오 클라이언트는 자원 관리자가 처리하기 위해 데이터와 자원 관리자 요청을 노드로 전달합니다 관리자가 중요한 구성 요소이기 때문에 내가 너와 얘기 할거야

그것을주의해야한다 그래서 마디 관리자가 컨테이너와 앱을 가지고 있습니다 앱 마스터에있는 마스터가 시작되었습니다 모든 특정 애플리케이션 코드 또는 모든 작업 또는 모든 처리 작업 클라이언트는 앱 마스터의 애플리케이션 마스터는 처리하고 돌봐야 할 책임이있다 필요한 모든 리소스 해당 코드를 실행하려면 명령을 내리십시오 어떤 리소스 든 요구 사항입니다

앱 마스터가 자원 관리자의 자원 자원 관리자는 다음을 제공합니다 모든 리소스가있는 앱 마스터 노드 관리자에게 시작을 요청합니다 컨테이너와 컨테이너는 실제 실행이 이루어지는 장소 이제 원사 워크 플로우를 순서대로 보자 더 나은 것을 여기에서 이해하는 것은 클라이언트와이 클라이언트는 이 예제에서의 일자리 MapReduce 코드는 MapReduce 작업이므로 먼저 MapReduce 작업이 표시되고 클라이언트가 이걸 실행하려고합니다 특정 직업 그는 일자리를 리소스 관리자가 리소스를 요청했습니다 관리자가 리소스를 실행하려면 관리자는 클라이언트와 그의 직업에 대한 신청서 ID 자원 관리자가 컨테이너를 시작합니다

이제 앱 마스터가 시작되었습니다 앱 마스터도 특정 컨테이너 다음 앱 마스터 모든 리소스를 수집합니다 해당 작업을 실행하기위한 요구 사항 리소스 관리자에게 할당하도록 요청하십시오 그 이후의 모든 자원 자원은 노드에 제공됩니다 관리자가 컨테이너를 시작하고 컨테이너를 시작하고 이것은 작업이 실행됩니다

이제 살펴 보겠습니다 전체 원사 애플리케이션 워크 플로우에서 단계별로 첫 번째 단계는 클라이언트가 애플리케이션을 자원 관리자 다음에 자원 관리자가 시작할 컨테이너를 할당합니다 앱 마스터 다음 앱 마스터 자원 관리자에 등록하고 리소스 관리자에게 앱을 알립니다 마스터가 만들어져 준비가되었습니다 코드의 실행을 감독한다

앱 마스터는 컨테이너에 자원 관리자, 앱 마스터 노드 관리자에게 실행을 알린다 콘테이너와 콘테이너 후에 응용 프로그램 코드를 시작했습니다 용기에 넣었다 특정 애플리케이션 코드 클라이언트와 연결 한 다음 자원 관리자가 응용 프로그램 상태 여부 제대로 실행되었거나 실행되지 않았습니다 앱 마스터를 성공적으로 실행했습니다 자원 관리자와 함께 등록이 취소되었습니다

이것이 전체 워크 플로우입니다 전체 Hadoop 클러스터 살펴보기 아키텍처 HDFS 팔 여기와 함께 여기 당신은 HDFS와 얀 모두를 볼 수 있습니다 마스터 슬레이브 토폴로지를 마스터가 HDFS에서 그의 이름과 주인 원 사는 자원 관리자이다 데이먼의 HDFS는 데이터 노트와 여기가 모든 데이터가 저장되는 곳입니다 원사에서는 노드 관리자입니다

데이터가 컨테이너 및 앱 마스터가주의를 기울입니다 필요한 모든 자원의 거기서 프로그램을 실행하기 위해서 당신이해야 할 중요한 일입니다 알았어 그들이 내 눈치를 보았을거야 데이터 노드와 노드 관리자가 거짓말을합니다

동일한 머신에서이 데이터 노드 이 노드 관리자는 같은 머신과이 노드 매니저는 같은 기계에 있어야하지만 그렇지 않다 노드 이름과 자원 관리자는 같을 것이다 그들이 할 수있는 기계는 그렇지만 그렇지 않다 필요한 이름 노드가 다른 기계 및 자원 관리자 다른 컴퓨터에있을 수 있습니다 이것이 혼란스러워하지 마라

또한 같은 기계에 있어야합니다 이 사건은 이제 내가 너에게 Hadoop 클러스터 하드웨어 사양 하드웨어 사양 중 일부는 당신이 설정하고 싶다면 명심해야한다 이름 노드에 대해 Hadoop 클러스터 설정 당신은 64 기가와 RAM을 필요로 하드 디스크는 최소 하나 이상이어야합니다 테라 바이트 프로세서는 크세논이어야합니다 8 개의 코어와 이더넷이 있어야합니다

3 x 10 기가 바이트 시스템은 64 비트 CentOS 또는 Linux 여야합니다 하지만 전력은 여분의 전력이어야합니다 네가 이름을 원하지 않기 때문에 공급한다 왜 그 이유 때문에 내려갈 것인가? 노드가 내려 가서 전체 HDFS를 사용할 수 있습니다 아래로 그리고 필요한 데이터 메모를 위해 램 하드 디스크의 16 기가 바이트는 6이어야합니다 이것이 2 테라 바이트 씩 필요한 모든 데이터를 저장합니다

많은 메모리를 프로세서에 가지고있다 2 개의 코어로 Zen해야 함 이더넷 3 10 기가 바이트와 OS가 있어야합니다 다시 64 비트 CentOS 또는 Linux 및 2 차 이름 노드 Ram은 32 여야합니다 기가 바이트 하드 디스크는 1이어야합니다 4 코어의 테라 바이트 프로세서 Zen 이더넷 3 x 10 기가 OS는 64이어야합니다 CentOS 또는 Linux 비트로 다시 전원을 켭니다

예비 전원 공급 장치 여야합니다 화면을 일시 중지하고 이 이미지의 스크린 샷을보세요 이 프레젠테이션을 이보다 걱정하지 마라 녹음은 LMS에 다음과 같이 그럼이게 네가 지켜야 할거야 네 마음 춤을 Hadoop 클러스터이므로 하드웨어입니다

지금 요구되는 사양 진짜 하둡에 대해 이야기 해 드리겠습니다 클러스터 배포를 고려하면 페이스 북이므로 좋아하는 예입니다 Facebook은 21 페타 바이트의 저장 용량을 보유하고 있습니다 단일 HDFS 클러스터에서 21 개 페타 바이트는 10으로 증가합니다 15 바이트의 전력과 그들은 2 클러스터 당 1 천 대의 머신과 32 기가 실행중인 컴퓨터 당 숫양 15 MapReduce 작업 및 이러한 각 시스템 실행 15 MapReduce 작업 및 1200 대의 컴퓨터에 8 개 코어가 각각 800 개이고 16 개가 있습니다

코어는 각각 12 테라 바이트 컴퓨터 당 데이터 총 21 테라 바이트의 구성 저장 용량보다 큽니다 이전에 알려진 야후의 클러스터 가장 큰 하둡으로 알려졌다 클러스터 였고 14 페타 바이트였습니다 페이스 북은 21 야후로 패배 페타 바이트는 이제 다른 것에 대해 이야기 해 봅니다 Spotify 인 사용 사례는 얼마나 많은 너는 음악을 듣고 Spotify 괜찮아

그래서 당신 중 일부는 그렇게 보입니다 심지어 Spotify 사용자들도 Hadoop for 음악 추천을 생성하기 때문에 음악을들을 때 당신은 그것을 볼 수 있습니다 새로운 노래의 일부 음악 또한 속한 당신에게 추천했다 너와 같은 장르로 큰 소리로 듣기 위해 오른쪽으로 듣기 Hadoop 및 Spotify를 사용한 데이터 분석 16 개의 노드와 50 개의 노드가있다

저장 용량은 65 페타 바이트입니다 대략 Spotify에는 70가있다 테라 바이트 단위의 RAM으로 하둡 일자리 25,000 건에 43,000 건이있다 가상화 코어가 훨씬 크기 때문에 Facebook보다 클러스터가 Hadoop을 사용하는 두 가지 유스 케이스 처리하고 저장하기 위해 클러스터 당신이 모든 것을 배웠으니 큰 데이터 Hadoop은 HDFS와 원사 모두에 대해 저장 및 처리 구성 요소 Hadoop 그럼 아파치에 대해 살펴 보자 spark Apache spark는 오픈 소스입니다

클러스터 컴퓨팅 프레임 워크 실시간 처리 및 번성하는 오픈 소스 커뮤니티와 가장 적극적인 Apache 프로젝트 순간과 스파크 요소는 무엇입니까? 아파치를 빠르고 안정적으로 만들어라 많은 불꽃 구성 요소가 만들어졌습니다 잘린 문제를 해결하는 Hadoop MapReduce를 사용하는 동안 Apache 스파크는 다음과 같은 구성 요소를 가지고 있습니다 스파크 코어 엔진을 가지고 있습니다 코어 엔진은 전체 스파크 용입니다

모든 구성 요소의 기반이되는 프레임 워크 그것은 핵심 엔진에 배치되므로 처음에는 우리가 똑같은 불꽃을 가지고있어 sparks equal은 spark 모듈입니다 구조화 된 데이터 처리 및 기존에 수정 된 하이브 쿼리를 실행한다 hadoop 배포 후 우리는 스파크 스트리밍은 이제 스트리밍 스파크입니다 그만큼 사용 된 스파크의 성분 실시간 스트리밍 데이터를 처리하며 코스 파크 API에 유용한 추가 높은 처리량 오류를 가능하게하기 때문에 라이브 데이터의 허용 오차 스트림 처리 우리가 불꽃을 가지고있어

이 빛은 기계 학습입니다 spark 용 라이브러리를 사용하고 있습니다 머신을 구현하기 위해 활약하다 우리의 유스 케이스에서 학습 한 다음 우리는 그래프 인 그래프 X를 얻었습니다 계산 엔진 및 이것은 반점이다 그래프 및 그래프 병렬 API 계산은 세트를 가지고있다 하위 그래프와 같은 기본 연산자 공동 구매 등 당신은있어 스파크 R 그래서 우리를위한 패키지입니다 사용자가 활용할 수있는 언어 우리 껍데기의 힘을 발휘해서 사람들이 이미 우리 일을하고있는 사람들은 그걸로 편안하고 그들은 우리를 사용할 수 있습니다

쉘을 동시에 직접적으로 사용할 수 있습니다 이 특별한 것을 사용하여 스파크를 사용할 수 있습니다 우리가 할 수있는 우리의 쉘에 모든 코드를 작성하고 스파크가 당신을 위해 그것을 처리 할겁니다 현실적인 사람들을 더 자세히 보아라 그리고이 모든 중요한 구성 요소들 우리는 스파크 코어를 가지고 있고 스파크 코어는 대규모의 기본 엔진 병렬 및 분산 데이터 처리 핵심은 분산 된 실행이다

엔진 및 Java 스칼라 및 Python API 분산 된 ETL을위한 플랫폼 제공 개발 및 추가 라이브러리 상단에 구축 된 코어는 다양한 스트리밍 속편을 허용합니다 기계 학습도 가능합니다 배포 예약 책임 클러스터의 작업 모니터링 스토리지 시스템과 상호 작용 SPARC에 대해 살펴 보겠습니다 아파치 스파크가 잘 정의되고 계층화 된 아키텍처 모든 SPARC 구성 요소 및 층들은 느슨하게 결합되고 다양한 확장 기능과 도서관은 먼저 이 프로그램은 SPARC 드라이버입니다 여기에는 드라이버 프로그램과 스파크 문맥 이것은 중심점이다

SPARC 쉘의 시작점과 드라이버 프로그램은 메인 프로그램을 실행한다 기능 응용 프로그램 및 이것은 장소입니다 스파크 컨텍스트가 생성됩니다 스파크 컨텍스트 스파크 컨텍스트를 나타냅니다 전체 스파크와의 연결 클러스터를 만들고이를 사용하여 탄력적 인 분산 데이터 세트 누적 기 및 방송 변수 on 그 클러스터와 당신은 그것을 알아야합니다 하나의 스파크 컨텍스트 만 활성화 될 수 있습니다 가상 시스템을 제거하고 전에 활성 스파크 컨텍스트를 중지하십시오

새로운 것을 만들자 마스터에서 실행되는 드라이버 프로그램 스파크 클러스터의 손잡이 직업 실행과 협상 클러스터 관리자 이것은 클러스터입니다 여기의 매니저와 클러스터 관리자는 다음과 같은 외부 서비스입니다 자원 확보에 대한 책임 클러스터를 점화하고 할당 작업자 노드에서 스파크 작업에 연결 우리는 집행자에게 집행자를 두었습니다 분산 에이전트입니다

업무 수행 책임자 모든 스파크 애플리케이션에는 고유 한 기능이 있습니다 실행 프로그램 프로세스 실행자가 일반적으로 실행합니다 스파크의 전체 일생 동안 응용 프로그램 및이 현상은 또한 실행 프로그램의 정적 할당이라고하는 그러나 당신은 또한 동적 인 것을 선택할 수 있습니다 집행 할 수있는 집행자의 위치 또는 spark executor를 동적으로 제거합니다 전반적인 워크 플로와 일치하므로 괜찮습니다

이제 내가 너에게 실제로 무엇을 말해 줄까? 스파크 테이블이 클라이언트가 스파크를 제출할 때 제출 사용자 응용 프로그램 코드 드라이버 코드를 암시 적으로 변환합니다 변환 및 액션을 논리적 실리카 그래프 또는 DAG 이 단계에서 운전자 프로그램 또한 특정 종류의 파이프 라이닝과 같은 최적화 변환을 수행 한 다음 논리적 인 daj의 물리적 실행 무대 뒤 세트를 가진 계획 실제 실행 계획 작성 더 많은 물리적 실행 단위를 만듭니다 각 작업 아래에있는 작업 그런 다음이 작업들은 번들로 제공됩니다 스파크 클러스터로 보내 드라이버가 프로그램이 클러스터와 대화 매니저와 협상을 소스 및 클러스터 관리자 유언 집행자를 노동자로 데려 간다 운전자를 대신하여 노드와 이 시점에서 드라이버는 작업을 클러스터 관리자가 하루를 기준으로 유언 집행자와 유언자 앞에서 처음 등록을 시작한다

운전자 프로그램과 함께 운전자가 전체 론적 시각을 가지고 있음을 모든 집행자의 집행자 다양한 작업을 수행하고 운전자 프로그램에 의해 그들에게 배정 된 스파크가 발생할 때 어떤 시점에서든 응용 프로그램이 드라이버를 실행 중입니다 프로그램은 모니터링되지 않은 실행중인 실행 프로그램 집합 이 드라이버에서 응용 프로그램 코드를 실행하십시오 여기에 프로그램은 또한 미래의 작업을 예약 추적에 의한 데이터 대체에 기반 캐시 데이터의 위치를 ​​바란다 당신은 아키텍처를 이해했습니다 부분적으로 많은 의구심 좋아, 이제 의심 할 여지없이 스파크 속편과 그 아키텍처 그래서 스파크 사이클은 새로운 것입니다 모듈은 스파크로 스파크를 사용한 관계형 처리 함수형 프로그래밍 API 및 에 의해 데이터 쿼리를 지원합니다

속편 또는 하이브 쿼리 언어를 통해 익숙한 사람들 우리의 DBM 그래서 스파크 속편은 아주 쉬울 것입니다 이전 도구에서 전환 당신이 전통적인 관계형 데이터 처리 스파크 속편과 함께 제공됩니다 다양한 데이터 소스 및 후속 쿼리를 읽을 수있게합니다 코드 변환과 그 이유는 스파크 속편은 매우 강력 해졌다 이 도구는 스파크의 아키텍처입니다 후속편 각각에 대해 이야기 해 보겠습니다

우리가 처음으로 구성 요소를 하나씩 데이터 소스 API를 가져 와서 로드 및 저장을위한 범용 API 구조화 된 데이터이며 하이브에 대한 지원 Avro JSON JDBC CVS 포켓 등도 지원하고 있으므로 세 번째 스파크 패키지를 통한 파티 통합 데이터 프레임 API 데이터를 얻었습니다 프레임 API는 분산 컬렉션입니다 정리 된 데이터의 이름 지정 관계형과 유사합니다 저장에 사용되는 속편의 표 테이블의 데이터이므로 적용 할 수있는 도메인 별 언어 또는 DSL은 구조화 된 반 구조화 된 데이터를 처리하므로 에서 킬로바이트에서 페타 바이트까지의 데이터 단일 노드 클러스터에서 다중 노드로 클러스터 및 다른 API를 제공합니다 파이썬 자바 스칼라와 우리의 프로그래밍 그래서 당신이 가지고 있기를 바랍니다

스파크의 모든 건축물을 이해했다 속편 우리는 스파크 속편을 사용할 것입니다 우리의 유스 케이스를 해결하기 위해서 다른 명령을 시작하려면 Damon 이것들은 매우 유사합니다 HDFS를 시작하는 명령 방법 데이먼이 모든 것을 시작하는 걸 볼 수있어 스파크 데몬 그래서 스파크 악마는 우리의 주인이고 이 명령을 사용하여 모든 악마가 켜져 있는지 확인하십시오

Hadoop과 같은 JPS를 사용할 수있는 컴퓨터 그런 다음 스파크를 시작하려면 쉘 당신이 갈 수있는 이것을 사용할 수 있습니다 앞으로 이것을 시도해 보라 이것은 매우 유사하다 내가 방금 보여준 하둡 예술 더 일찍 그렇게하지 않을거야 그리고 나서 우리는이 아파치 스파크도 보았습니다

이제 k-means와 Zeppelin k-means는 클러스터링입니다 방법과 Zeppelin은 우리가 가고있는 것이다 우리의 데이터를 시각화하기 위해 k-means 클러스터링에 대해 이야기합시다 이제 k- 수단이 가장 간단한 것 중 하나입니다 감독되지 않은 학습 알고리즘 잘 알려진 클러스터링 문제를 해결합니다

그래서 k-means의 과정은 다음과 같다 데이터를 분류하는 간단하고 쉬운 방법 특정 수의 클러스터로 설정 수행하기 전에 수정 된 클러스터링 방법 그래서 주요 아이디어는 정의 된 case centroids 각각에 대해 클러스터와 centroid는 있어야합니다 ~ 때문에 매우 교활한 방법으로 배치 위치가 다른 원인으로 인해 다른 결과는 여기에 예를 들어 특정 인구의 총 모집단 위치 및 그래서 우리는 그들을 클러스터 싶어요 즉 네 개의 다른 클러스터 그룹 하나 2, 3, 4 그래서 우리가 명심해야 할 중요한 것 그룹 1의 객체는 가능한 한 비슷하지만 거기에있다 만큼 차이가 있어야한다 그룹 1과 그룹 2에있는 개체 거짓말하고있는 점들이 같은 그룹이 비슷해야한다

특성과해야한다 거짓말하는 것과는 다른 점 다른 클러스터에서 객체의 속성이 허용됩니다 어떤 객체를 그룹화할지 결정 함께 예를 들어 미국에서 사용중인 것과 동일한 샘플 카운티에서 두 번째 데이터를 고려해 봅시다 우리가 사용했던 세트가 많이있다 이미 말했던 기능 연령대가 있고 전문직에 의해 분류되며 또한 민족에 따라 분류되므로 우리가 얘기하는 것입니다 그래서 이것들은 우리가 우리의 데이터를 클러스터 할 수 있도록 k-means 클러스터링은 여기 하나 더 있습니다

예를 들어 소득과 균형이 너무 커서 x 축에서 총 월 수입과 y를 얻었습니다 축 밸런스 나는 데이터를 클러스터하고 싶다 이 두 속성에 따라 이게 내 첫 번째 집단 인 것을 알면 이것이 내 두 번째 클러스터이므로 이것이 사람들을 나타내는 클러스터 높은 소득과 낮은 균형을 가지고있다 이 계정에 많은 돈을 썼다 클러스터는 저소득이지만 높은 균형을 유지하고 그들은 안전합니다

여기에 누워있는 점들은 그들이 가지고있는 비슷한 특성 낮은 소득과 높은 균형을 가지고 있고 여기에 같은 것을 공유하는 사람들이다 그들이 가지고있는 특성 균형과 고소득이 있으며 여기 저기에 외주인이 거의 없다 클러스터를 형성하지 마십시오 k-means 클러스터링의 예는 다음과 같습니다 우리의 문제를 해결하기 위해 그것을 사용하십시오

문제는 누구도 가지고 있지 않다 여기에 질문이 하나 더 있습니다 한가지 더 문제가 있습니다 지금 내게 말해 줄 테니 문제는 나는 내 도시에 학교를 세우고 싶다 이것들은 각 학생의 삶이 내 질문에 어울리는 곳 당신에게 내가 어디에서 제 집을 만들어야합니까? 학교에 살면 학교에 다니지

이 특정 위치에있는 도시 그걸 우리가 알아낼 수 있도록 k-는 클러스터링을 의미하고 우리는 알아낼 것입니다 너가 할 수있는 경우에 중심점 권리 이렇게 이 모든 것을 묶고 그룹화하라 위치를 파악하고 학교를 각 클러스터의 중심점 그것이 최적이기 때문에 그것은 방법이 아니기 때문이 아닙니다 학생들은 덜 여행해야합니다 모든 사람의 집에 가깝고 거기에있다

그것은 그래서 우리는 세 개의 클러스터를 형성 했으므로 갈색 점이 하나의 클러스터임을 알 수 있습니다 파란색 점은 하나의 클러스터이고 빨간 점들은 하나의 클러스터이고 우리는 학교의 중심점에 학교를 세우다 각 클러스터는 여기에 하나 있습니다 그래서 여기 또 하나 있습니다 내 학교를 그렇게 설정할 필요가있는 곳

내 학생들이 여행 할 필요가 없다는 것 그렇게 많이 k-means에 관한 것이 었습니다 이제 Apache Zeppelin에 대해 이야기 해 보겠습니다 이것은 가져 오는 웹 페이지 노트북입니다 데이터 처리시 탐색 시각화 공유 및 Hadoop과 공동 작업 기능 내가 너에게 보여준 것을 기억해 Zeppelin notebook 당신은 우리가 우리가 실행 한 코드를 작성했습니다

심지어 거기에서 속편 코드를 실행하면 코드 실행으로 더 많은 시각화 거기서 이것은 상호 작용하는 방식입니다 Zeppelin은 많은 사람들을 지원합니다 통역사이며 매우 강력합니다 이를 사용할 수있는 시각화 도구 리눅스 시스템과 잘 어울린다 많은 언어 통역사를 지원합니다

우리 파이썬과 많은 것을 지원하는 다른 통역사들은 이제 계속 나아 갑시다 그래서 유스 케이스의 솔루션에 니가 뭘 기다리고 있었 니? 먼저 우리는 미국 군을 해결할 것입니다 솔루션 그래서 우리가 할 첫 번째 일 데이터를 HDFS에 저장하고 다음을 사용하여 데이터를 분석합니다 스칼라 SPARC 속편 및 SPARC ml 실험실 및 마침내 우리는 결과를 찾을 것입니다 Zeppelin so를 사용하여 시각화합니다

이것은 전체 미국 선거 해결책이었다 내가 너에게 말했던 전략과 나 내가 다시 반복해야한다고 생각하지 마라 네가 나를 원한다면 나는 모두를 반복해야 해 맞아 대부분의 사람들이 말하고있어 아니, 나는 이걸 바로 통과 할거야

다시 한번 제 VM으로 가도록하겠습니다 너를 위해 이것을 실행해라 이것이 나의 것이다 제 펠린과 나는 내 노트를 열었고 여기 우리가 내 우리 선거로 가자 노트와 이것이 처음 코드입니다

내가 할 일은 내가 특정 패키지 가져 오기 에있는 특정 기능을 사용하고있다 Sparx를 가져온 패키지들 동등한 패키지와 나는 또한 수입했다 Spark ml Lib 패키지는 k-means를 사용하기 때문에 벡터 어셈블러를위한 클러스터링 나 특정 기계 학습 기능 여기 벡터 어셈블러가 있습니다 패키지는 나에게 특정 기계를 준다 내가 배우려는 학습 기능 나는 k-means도 가져왔다

k-means를 사용하기 때문에 패키지 클러스터링 한 다음 가장 먼저하는 일 해야 할 일은 속편 문맥 그래서 나는 시작했다 SPARC 속편 컨텍스트 여기와 다음 네가해야 할 일은 네가 스키마를 정의해야 할 때 데이터 세트를 덤프하거나 우리의 데이터를 덤프해야합니다 특정 형식 및 우리 스파크와 어떤 포맷을해야하는지 우리가 여기서 스키마를 정의 할 수 있도록 코드를 통해 내가 널 데리고 가자 호출 된 변수에 스키마 저장 스키마를 정의해야합니다 적절한 구조로 구조체 유형으로 시작하십시오

우리의 데이터 세트가 다른 것을 알고있다 필드를 정의 할 열로 이 필드의 배열로 다음이 우리는 배열과 구조체입니다 지금 다른 필드를 정의합니다 첫 번째 입력란은 내부에 구조체 필드를 정의합니다 어떤 것을 언급해야하는 괄호 그 이름의 이름이어야한다

필드 그래서 나는 그것을 상태로 명명했다 문자열 유형이어야하며 true이어야합니다 다음 문자열 유형임을 의미합니다 문자열 타입의 FIPS를 얻었습니다 FIPS는 숫자라는 것을 알고 있지만 어떤 종류의 숫자도하지 않을 것입니다

우리가 할거야 엉덩이에 작업 문자열로 머무르면 파티가 열립니다 문자열 형으로서의 문자열 형 후보 정수 타입으로 투표하면 우리는 득표 수를 세 것입니다 특정 숫자가있을 것입니다 우리가 수행 할 작업 데이터를 분석하는 데 도움이 될 것입니다 그러면 우리는 분수 투표권을 얻었습니다

우리는 10 진수 타입을 알고 있습니다 다음 유형으로 두 번 입력하십시오 너는 할 필요가있는 스파크가 필요하다 HDFS에서 데이터 세트를 읽으십시오 당신은 스파크 명령을 사용해야합니다

읽기 옵션 헤더 true 헤더 true 당신이 언급 한 것을 의미합니다 내 데이터가 이미 스파크에 말했어 다음과 같은 상태로 인해 열 머리글이 포함됩니다 약자 그들은 아무것도 아니지만 그들은 기둥이다 헤더를 사용하여 명시 적으로 할 필요가 없습니다

그것에 대한 열 머리글을 정의하지 마십시오 임의의 행을 열 머리글을 선택하면 데이터 세트에있는 열 헤더 당신이 말하는 스키마에 대해 언급해야합니다 내가 정의한 바에 따라 변수 스키마 그래서 내가 가진 이유는 내 파일에 언급 된 내용은 CSV 형식이어야합니다 형식을 선택한 다음 내 HDFS에있는 파일의 경로입니다 경로와이 전체 데이터 세트를 내 변수 DF 지금 내가 할 일 내가 어떤 것을 나눌거야

내가 알기 때문에 내 데이터 세트의 행 내 데이터 세트에 공화당과 민주당 데이터와 나는 단지 민주당 원 데이터는 우리가 힐러리 클린턴과 버니 샌더스는 괜찮아 그래서 이것이 어떻게 데이터 세트를 나눈 값으로 우리가 한 일은 우리가 가진 것입니다 DFR이라고하는 변수를 하나 더 생성했습니다 우리는 Part II에서 필터를 답했다 공화당과 동등하다

민주당 데이터를 DF에 저장 D 그래서 우리는 DF를 사용할 것입니다 D는 앞으로부터 밑줄을 긋고 DF는 공화당 데이터가 너의 다음 수업을위한 과제물이되었습니다 민주당 원 자료를 분석하고 이 수업이 끝나면 난 너를 원해 공화당 데이터를 가져 가려는 사람들 이미 데이터 세트를 사용할 수 있습니다 요소와 VMS도 있습니다

언제나 모든 것을 설치하십시오 너는 자유 시간이있을 때 너는 집에있다 공화당 데이터를 분석하고 그 이유가 무엇인지 말해줘 도널드 트럼프, 네가 모든 일을하기를 원해 그 분석은 다음 수업에서 우리는 결론과 결론 분석 한 결과 공화당 데이터와 그런 식으로 당신은 또한 더 많은 것을 배우면 그것도있을 것입니다

오늘 수업 이후에 너에게 연습해라 좋아, 우리는 DF를 가져갈거야 지금 D를 강조하고 가장 먼저 우리가 할 일은 테이블보기와 나는 선거로서의 테이블보기 그 모습과 그 모습을 보여주세요 이게 내가 가지고있는 명령이다

Zeppelin에서 실행되므로 속편 코드입니다 내가 제플린에서 뛰었고 너는 할 수있어 내가 국가를 가지고 있는지 보자 밑줄을 긋고 나는 민주당 원 데이터는 지금 당장 가자 다시 괜찮아

이제는 테이블 뷰를 생성 한 후 민주당 원 자료가 내 선거에있다 테이블 그래서 지금 내가 뭘 할거야 임시 변수를 만드는 중입니다 그리고 나는 스파크를 동등한 코드로 달리고있다 나는이 코드를 작성함으로써 실제로하고있다 속편 코드를 쓰는 동기 또는 속편 질의는 내가 원하는 것이다

내 데이터를 더욱 세련되게 수정해라 여기서 분석하려고하면 특정 후보가 실제로 내가 이겼다 아무 것도 할 필요가 없다 데이터 손실 FIPS에는 잃는 것 중 하나가 포함되어 있습니다 후보자와 승리 중 하나 후보 구성원에는 데이터가 포함되어 있습니다

이기는 후보자와 잃는 사람의 내 데이터 세트 때문에 후보자 버니 (Bernie)의 데이터 샌더스와 힐러리 클린턴 Bernie Sanders가이긴 부분과 힐러리 클린턴 상원 의원 누가 누구인지 알고 싶다 특정 카운티의 우승자들은 그렇게 잘 할 수 있습니다 그 데이터를 수정하고 내가이 쿼리를 사용하고있어 선거에서 모두 선택하고 나서 내부 조인을 수행하려고합니다 그들의 쿼리 그래서 이것은 하나 더 많은 쿼리 이 쿼리 내부에 내가 알려주지 무엇보다 먼저 내가 실제로하고있는 일 우리가 한 일은 우리가 가지고있는 것입니다

선택한 Phipps가 아시다시피 Phipps마다 두 개의 항목이 있습니다 각 Phipps는 실제로 두 번 나타납니다 데이터 세트 그래서 나는 B라는 이름을 지었다 우리는 최대 분수를 세고있다 투표를 통해 각 항목에서 우리는 최대 분수 투표를 한 다음 실제로 우승자를 찾을 수 있습니다

누가 최대 분수를 가지고 있는지보기 우리는 보트를 최대 분수 투표 열의 이름이 지정됩니다 우리는 Phipps가 그렇게 그룹화하고 있습니다 이제 각각의 핍스가 선택됩니다 최대 투표 수와 Phipps에 대한 두 개의 열이 있습니다 1 0 0 1 및 1 0 0 1이므로 유일한 규칙입니다

최대가 선택됩니다 분수 투표 이제 우승자를 얻게 될 것입니다 데이터 및이 전체 표의 이름을 지정했습니다 이 쿼리 내에서 그룹 TT로 나는 우리가 선거 점이 될 때 그것을 검증하고있다 Phipps 메인 테이블 뷰 점 Phipps B 열과 동등해야합니다

그룹 TT 테이블과 선거구 분수 투표는 그룹 TT와 동등하다 그래서 의심 할 때 내가 작성한이 쿼리에 이것 또는 이제 우리가 할 일은 우리가 가진 데이터가 뭐든간에 선거에서 그 중 하나를 저에게 보냅시다 선거에 지금 무엇이 있는지 보여주세요 이건 내 선거 테이블 뿐이야 나는 두 개의 Phipp를 가지고 있음을 볼 수있다

그래서 1 제로 6 7 1 제로 6 7 선거 하나를 보여 드리죠 지금 거기 나는 반복이없는 것을 볼 수있다 Phipps Phipps에 대한 항목이 하나뿐입니다 그게 누가 누가 이겼는지 알려주는 행입니다 그 카운티 또는 특정 FIP에서 또는 FIP와 관련된 당신이 볼 수있는 특정 카운티 힐라리 클린턴은 괜찮 았어

힐러리 클린턴 체로키 알았어 힐러리 클린턴 그리고 그 다음 스테이트 하우스 지구 19는 버니 샌더스 알래스카 이건 주로 버니 샌더스입니다 우리는 지금 해본 적이 있습니다 B라는 추가 열도 있습니다 그리고 a는 최대 값을 알려줍니다

분수 투표 및 B는 FIPS에게 알려줍니다 FIPS의 데이터와 B의 데이터 분수로 투표 한 데이터와 같음 그리고 데이터는 내가 가진 것과 똑같습니다 내 칼럼은 반복하고 그들은 같은 가치를 가지고 있습니다 지금 B를 원하지 마라 그래서 내가 옳다

나는 필터를 걸러 낼거야 내가 필요로하지 않는 칼럼과 나는 B와 A를 원하지 않는다 내가 할거야 임시 변수를 다시 사용하므로 일부를 저장하는 임시 변수 데이터를 일시적으로 저장하므로 SPARC 속편 코드는 내가 원하는 상태의 열 주 약어 카운티 핍 스 파티 후보자 투표 선거 전 모든 것을 D에 보관하고 있습니다 우승자 이 새 변수를 생성했습니다

임시 직원이 있었는지간에 나는 그것은 깊은 우승자에게 그리고 지금 나는 단지 가지고있다 우승자 데이터 그래서 나는 모든 것을 얻었다 카운티와 나는 누가 그걸 얻었 는가? 특정 카운티와 투표의 분수 내가 지금하고있는 일 지금까지는 우리가 단지 데이터를 쉽게 설정할 수 있도록 설정 결론을 내리기 위해 해당 데이터의 통찰력과 항상 그렇지는 않다고 말해 줄 게요 귀하가 귀하의 데이터를 정확한 것으로 설정하다 네가 가진다면 나 한테하는거야 네가 그걸 본 후에 데이터를 이해하고 데이터를 이해하고 실제로해야 할 일을 알아 내라

당신은 할 여러 단계를 수행 할 수 있습니다 또한 이것은 단지 한 가지 방법 일뿐입니다 그게 내가하는 일이야 그냥 너에게 말하면 우리는 D 승자 테이블을 만들고 우리는 민주당 원으로 이름을 지을거야 다시 가서 내가 무엇을 보여줄 지 알려주지

민주당 원 테이블보기는 할 수있는 것처럼 보입니다 언론의 시프트 입력으로 우리가 가지고 있던 칼럼 a와 b를 가지고있다 선거 중 하나 그래서 나는 우승자 데이터를 얻었습니다 이제 우리가 돌아가서 무엇을 발견할까요? 우리는 내가 원하는 것을 찾을거야 어떤 후보자인지 알아 내라

내 상태를 원했고 날짜를 그것이 나올 때 얻을 수있는 결과는 무엇이든 때 임시 변수에 저장 나는 모든 것을 배정 할거야 임시 변수에 저장된 D 상태라고 불리는 새로운 변수 마찬가지로 나는 테이블을 만들거야 D 상태를 볼 수있는 상태입니다 내 상태 테이블보기를 보여줍니다 실제로 거기에 그렇게 포함되어 있습니다

힐러리 클린턴 국무 장관 55 개 카운티 플로리다 힐러리 클린턴 상원 의원 158 개 카운티에서 우리가 온 것입니다 지금까지의 첫 번째 데이터 세트까지 우리가 두 번째로 무엇을 할 수 있는지 보자 모든 다른 데이터 집합을 포함하는 데이터 집합 인구 통계 학적 특징은 다시 처음으로 스키마를 정의해야합니다 그 스키마 스키마의 이름을 지정할 시간 우리가 거의 가지고 있다는 것을 알기 때문에 54 열 그래서 나는 모든 것을 정의해야한다

54 열 또한 그래서 당신은 무엇을 기억합니까? 각 열에는 이것은 정확히 내가 한 일이고 나는 모든 라인을 통과 할 필요는 없습니다 이미 정의하는 법을 말한 것 같습니다 당신은 당신의 코드를 가질 수있는 스키마 LMS 그래서 당신은 그것을 볼 수 있습니다 그래서 우리가 다시하고있는 다음 일은 우리가해야 할 일이다 우리의 데이터 세트를 읽고 나는 DF라는 새로운 변수로 설정된 데이터 하나 그리고 이것은 내 HDFS의 경로입니다 내 데이터 세트가 있던 곳에서 내 데이터 세트에 대한 테이블보기를 만들었습니다

사실이라고 불리는 이제 사실이 무엇인지 보여 드리겠습니다 당신이 볼 수 있듯이 약어 상태 약어 인구 2014를 사용하는 대신 지금 코드 또는 있던 인코딩 된 양식 실제로 내 데이터 세트에 다양한 메타 이름이 주어지면 그것이 무엇을 포함하고 있는지 묘사하라 PST 214 대신 인구가 있습니다 2014는 그렇다 54 가지 인구 통계 학적 특징을 모두 포함 또는 내 기능에 있던 다른 기능 데이터 세트 왜 델론은 히스패닉이나 라티노가 아닌가? 같은 집에서 1 년 이상 외국 태생의 언어 또는 기타 고등학교에서 영어로하는 말보다 졸업생 이상 포함 기본적으로 모든 다른 기능 또는 실제로 다른 모든 열 내 데이터 세트에 있었고 내 스키마에 정의되어 있으므로 사실 나는 지금 내가해야 할 일이있다

내가 분석하지 않을거야 이 모든 다른 것을 기반으로 한 전체 데이터 기능을 선택하겠습니다 특정 기능을 분석하기 위해 나는 단지 몇 가지를 추가 할 것입니다 이것들은 저는 Phipps를 사용할 것입니다 내가 사용할 상태를 사용할거야

상태 약어 65 세 이상인 후보자 년 고령자 여성들 백인 혼자 흑인 아프리카 혼자 나 아시아계 혼자 히스패닉 또는 라티노 선택 근본적으로 내가하려는 것은 내가 인기가 무엇인지 확인하려고합니다 힐러리 클린턴의 외국인들 사이 다른 사람 또는 사람들 백인들 선택하기 때문에 민족성 흑인과 히스패닉 인 그래서 나는 그냥 분석해 보려구 나는 이것을 임시 변수를 다시 그리고 나서 이걸 실행하여 얻을 수있는 결과 나는 동등한 코드를 사용한다 dfx라는 다른 변수와 나는 그것을 저장하고 테이블을 만들거야 겨울의 사실 같은 4df의 사실보기 겨울철에 어떤 사실을 보여 드리죠

겨울의 사실처럼 보입니다 립스 주 (州)는 알라바마 주입니다 약자 알라바마 지역에 대한 에일입니다 이름은 투가 카운티와 우승자입니다 힐러리 클린턴이었고 그 특정 카운티에서 65 년이란 13 % 여성 8 % 50 퍼센트 1 포인트 4 와이드 혼자서 7 개의 7 포인트 9와 그렇게 이것들은 당신에게 검은 색 흰색의 데이터를 보여줍니다 또는 아프리카에는 18 %가 있고 그럼 나는 다른 분야를 가지고있어

나는 선택했다 아시아 혼자 히스패닉 또는 라틴계 외국 태생이므로 열네 살을 선택했습니다 그것을 분석 할 수있는 기능 이제 내가 다시하고있는 것은 내가 힐러리 클린턴 자료를 나눌 것입니다 Bernie Sanders 데이터를 사용하여 Hillary Clinton이 이겼던 이유 만 분석 할 수 있습니다 또는 Bernie Sanders가 일부에서 승리 한 이유 우리가 계획하고있는 특정 카운티들 우리가 나누는 것과 같은 방식으로 걸러 내기 위해 우리의 민주당과 공화당 데이터 초기 기본 결과 데이터 집합이므로 네가 한 짓 이라니 DF 사실에 저장되어 있으므로 후보자가있는 필터와 DFX 힐러리 클린턴과 동등 할 것입니다

HC에 저장되어 있고 Bernie의 데이터 샌더스는 B 초 후에 저장됩니다 우리가하는 일은 우리가 하나의 핫 인코딩을 추가하여 우리 데이터의 두 열 더 WBS 이 경우 우리는 할 것입니다 하나의 핫 인코딩과 우리가하려고하는 것 우리가 포함 시키거나 에 두 개의 열을 추가로 연결하려고합니다 겨울철 사실을 Wh와 WB로 하나 또는 0을 포함하므로 그런 식으로 편집 할 수 있습니다 카운티

그래서 당신이 카운티를 고려한다면 우리의 turgut 카운티는 다음과 같이 말합니다 힐러리 클린턴 상 수상자 WH C와 WB s 중 하나를 가지고있다 똑같은 카운티가있는 제로 버니 샌더스가 버니 샌더스 (Bernie Sanders) WB에서 1 ​​개를 갖게 될 것입니다 HC가 갖게 될 우리는 다른 견해를 만들고 있습니다 이 두 가지 모두 함께 WH C가 1이면 어디든 말해 줄거야

이 말은 나에게 Hillary Clinton이이긴 카운티 나에게 카운티를 보여줄 뿐이다 버니 샌더스가 이겼고 우리는 두 가지 모두에 대한보기를 만들기 위해 버니 샌더스는 WBS와 힐러리 클린턴, 그러면 우리는 마침내 우리는 함께 사용하여 두 가지를 병합합니다 유니온 그래서 모든 선택 연합에서 모든 유니온 WBS에서 선택하십시오 결과에 저장하고 우리는 결과로 알려진 테이블보기 그래서 나를 보자 이 결과에 무엇이 포함되어 있는지 보여주세요

거기에 우리가 얻는 것이 힐러리였다 클린턴 그래서 우리는 버니 샌더스를 얻었다 여기 바닥에있는 데이터와 나는 다른 분야도 모두 가지고있다 내 두 번째 데이터가 다른 설정 내 두 번째에서 선택한 기능 데이터를 분석하여 이제는 실제 분석 부분 이것은 우리가 어디에 있는지 k-means를 수행 할 예정이지만 처음에는 기능 항목을 정의해야합니다 실제로 무엇이 무엇인지 정의해야합니다

피드를 입력하면 당신은 결과물을 얻습니다 그래서 이것은 실제적입니다 피드에 입력 할 입력 기계에 연결하여 기계 학습은 계속되고 마침내 제공됩니다 너는 어떤 종류의 결과가 옳다 내가 다시 정의하는 곳에서 배열을 사용하여 모든 다른 필드 정의 내 데이터 세트에서 사람들을 사용하기 때문에 65 세살 된 여성 인 백분율 Y 대부 또는 흑인 또는 혼자의 아프리카 계 미국인 혼자 아시아 히스패닉 또는 라틴계 외국 태생 영어 이외의 언어 가정 학사 학위 이상 재향 군인 주택 소유 비율 중앙 가구 소득 수준 이하의 빈곤층 인구 밀도 평방 마일 wh c와 w BS 그리고 나서 나는 사용할거야

그래서 이것은 벡터 어셈블러입니다 다른 기계 학습 가능 우리가 k- 수단을 사용하는 알고리즘 내 입력 열은 기능 호출이므로 이것은 입력이 될 것이고 출력 열과 호출됩니다 내가 어떤 결과를 가져 왔는지 가는 get은 기능이며 변환해야합니다 결과 그래서 이것이 최종 테이블이다 우리가 창조 한 당신이 알고있는 견해 무엇을 변형 시키는가 또는 변형시키는 것 다시 우리의 전략에서 우리는 우리가 변형해야한다는 것을 이미 보았습니다 데이터를 먼저 그래서 내 업데이트 된 데이터 세트는 결과입니다

결과를 변형시키고 이 열이 될 열은 기능별 열 및 출력 테이블보기 기능이라고 부르면 우리는 k-means 클러스터링을 수행하려고합니다 그리고 우리는 그것을 k-means라는 변수가 스파크 M 라이브와 다른 기능들 라이브러리와 함께 SPARC를 선택했습니다 클러스터링 k- 평균을 의미합니다 k-는 이미 정의한 바를 의미합니다 클러스터가 필요하고 우리는 네 개가 필요합니다

우리는 네 개의 클러스터를 선택한 다음 기능 항목을 다음과 같이 설정합니다 기능을 선택하고 예측 열을 설정합니다 우리가 가고있는 그 후로 예측으로서 모델을 만들기 위해 우리는 입력 및 출력 열이 너무 커서 우리는 케인즈의 점에 맞는 행을 사용할 것입니다 그리고 우리가 얻게 될 모든 예측들 우리는 그것을 모델에 저장하려고합니다 우리는 이것을 할 것이고 우리는 클러스터 센터를 인쇄하려고합니다

각 클러스터에 대해 내 클러스터 센터는 우리가 달린 후에야 이 코드를 보면이 코드가 다른 클러스터 센터는 그렇게 단순하지 않습니다 내가 네게 이해시킬 수있는 것 우리가 k-means 후에 무엇을 할 것인가? 클러스터링 및 분석 방법 숫자는 매우 많이 배치되어 있습니다 무의식적으로 내가 한 일은 나는 각 클러스터를 골랐다 센터 포인트 그리고 나서 나는 새로운 것을 만들었습니다 테이블 예

그렇습니다 우리는 네 개의 클러스터를 가지고 있습니다 0 번째 클러스터 첫 번째 클러스터 두 번째 클러스터 및 셋째 그래서 0 1 2 3 네 개의 클러스터가 괜찮아요 우리가 찾았습니다 이 클러스터는 우리가 내게 먹인 다른 기능들 k-는 우리가 관찰 한 알고리즘을 의미합니다

여기에서 whc와 wvs는 비율 또는 승리 확률 힐러리 클린턴 상원 의원은 09 Bernie Sanders에게 기회는 01이었고 그런 다음에 차이점을 관찰한다면 각 기능의 클러스터 중심 여기서 당신은 많이 없다는 것을 알 수 있습니다 여기도 다르지 않으니 50 49 49 51 그리고 다시 잘 돌아 간다 차이점은 많이 있지만 여기를 보면 그것은 9이고 16으로 갈 것이므로 검정에 대한보다 상세한 분석을 할 수있다

또는 african-american 그래서 당신이 원한다면 흑인의 진정한지지를 아십시오 아프리카 계 미국인 그리고 너는보고 싶다 그들의 투표 패턴이나 방법은 무엇입니까? 인기가있는 사람들은 힐러리 클린턴이었다 어쩌면 이것이 아마도 좋은 분야가 될 수 있습니다 대안을 보았으므로 분석하십시오

마찬가지로 숫자를 확인해 볼 수 있습니다 다른 기능을 사용하면 체크 아웃 할 수 있습니다 여기에 16 8 9 및 36에 이렇게 어쩌면 다시 히스패닉 또는 라틴계 분야와 그것과 심지어 더 많은 분석을해라 여기 베테랑에서 볼 수 있습니다 사십 만 팔백 육십 반면에 우리는 110 ~ 80 2 천 개는 모두 너무 많아

차이점은 여기에 불과합니다 백 이십 칠백 오십 우리가 가진 수십 만 수와 심지어 백 가지가있다 수천명이 여기에 그래서 우리가 할 수있는 방법입니다 다른 분야가 우리는 그것의 주된 이유를 발견 할 수있다 그것이 만들어야하는 주요 요점 당신의 분석은 우리의 Zeppelin 노트북과 여기가 지금은 너무 우리가하려고하는 것은 우리가 먼저 결과를 시각화하려고합니다 우리는 예측에서부터 세고 있습니다

클러스터에서 예측은 예측을 의미합니다 내가 가지고 있다는 것을 알기 때문에 내 클러스터를 내 클러스터에 저장 정보와 예측이 내 k-means 이후에 출력되므로 이 많은 클러스터 그래서 이것은 카운트입니다 내 카운티 또는 다른 카운티의 내 모든 것에 속하는 여러 가지 클러스터에서 클러스터 1에서 볼 수 있습니다 나는 1917 년을 얻었고 두 번째 클러스터는 내가 가지고있다 750 원이 어쩌면 내가 더 지불해야 할지도 몰라

정렬에주의 cluster1 맞아 그래서 내가 왜 선택된 클러스터 하나와 우리가있어 다른 예측을 할 수있게 X 축에서 볼 수있다 외국 태어난 사람들과 y 축에서 나는 가지고있다 영어 이외의 선택된 언어 집에서 말하면 우리는 후보에 의해 당신이 볼 수 있도록 밝은 파란색은 Bernie Sanders와 Hillary에게는 진한 파란색이 더 많이 나타납니다 클린턴 이 모든 밝은 파란색은 버니를위한거야

샌더스와 당신은 그것을 볼 수 있습니다 외국인 수가 증가합니다 힐러리 클린턴 만 볼 수있다 여기에 산점도가 있으므로 몇 가지있을 수 있습니다 여기와 같은 특이점과 크기 검정색 또는 아프리카 계 미국인 혼자 예, 그렇습니다

이 기능이 우리는 번호 그래서 우리는 그것을 그룹화 그것에 따르면 당신은 더 큰 원은 더 많은 것을 나타냅니다 흑인 또는 아프리카 계 미국인 혼자서 그것이 우리가 찾을 수있는 결론입니다 산산이 줄기에서 나와 우리가 볼 수있다 그것은 외국 사람들의 수로서 힐러리의 인기를 높인다 클린턴은 더 큰 그룹에 속한다

외국 사람도 선택할 수 있습니다 모든 매개 변수 중에서 다른 매개 변수 선택한 다른 기능 그래서 우리는 또한 재향 군인의 편차가 있으므로 선택하겠습니다 재향 군인 및 Y 축 그래서 또한 변화 시키십시오 X 축은 흰색 만 사용합니다 여기 당신이 여기 볼 수 있습니다 흰색 만있는 x 축과 재향 군인입니다

힐러리 클린턴은 더 작은 그룹의 베테랑 인 우리가 크기를 결정했기 때문에 베테랑 그리고 흑인이나 아프리카 계 미국인 혼자서 크기는 또한 일부 값을 나타냅니다 아프리카 계 미국인들 사이에서 인기가있다 참전 용사들과 함께 실제로 볼 수있는 수가 증가합니다 그 산점도와 거의 그것 때문에 이 점이 인원수가 증가하거나 백인의 수가 증가한다 투표는 똑같이 종류가 분산되어있다

버니 샌더스와 힐러리 사이 거기 때문에 클린턴 이 산점도의 많은 점 여기에 가서 너를 끌고 갈 수있어 다른 기능을 드롭하면 그것에 다른 시각화를 만든다 우리가 한 일은 우리가 1900 년과 17 년이있다 내 클러스터 하나에 카운티 그래서 내가 갈거야 그걸 보러 갈거야 이 열 아홉 열 사이에 얼마나 많은 힐러리 클린턴에게 찬성했다

얼마나 많은 사람들이 버니를지지 했습니까? 샌더스 그래서 클러스터 넘버 1에서 당신은 볼 수 있습니다 힐러리 클린턴이 승리자임이 분명하다 버니 샌더스 만이 764를 얻었습니다 반면 그녀는 1150 3 번 클러스터와 마찬가지로 힐러리 클린턴 (Hillary Clinton) 버니 샌더스와 함께 그녀는 또한 삼백 팔십 여덟, 버니 샌더스는 363 이니까 매우 가까운 전화이고 다시 0 너는 19 세에서 30 세 사이이고 그 다음에 우리는 선을 만들었습니다

에 대한 단어 분포 차트 힐러리 클린턴과 버니 샌더스 우리가 예측 한 키즈 여기서 값은 whc이고 WBS는 우리는 여기에 너무 명확히있다 버니 샌더스는 심지어 뒤쳐져있다 네가 그 테이블을 가지고 있지는 않지만 당신은 또한에 따라 그것을 찾을 수 있습니다 이 라인 차트에서 볼 수 있습니다 클러스터 제로조차 다시 힐러리 클린턴 버니 샌더스를 앞섰다 두 개가 매우 순수한 연결이었습니다

경쟁과 그것을 볼 수 있습니다 이 그래프가 여기에 표시되어 클러스터를 나타냅니다 네가 볼 수있는 두 남자가 목 경쟁 및 다시 클러스터 3 명은 목에서 목까지 입었습니다 경쟁이 그렇게 설명 힐러리의 투표 분포 클린턴과 버니 샌더스와 확실히 힐러리 클린턴은 앞서 알고있다 그리고 그것이 물론 그녀가 다시 선거 운동을 할 수 있습니다 앞서 우리는 같은 그래프를 만들었습니다

그것은 단지 지역 그래프 대신에 여기 라인의 주요 그래프는 우리 주와 후보자 그래서 나는 미국과 후보자는 여기에 있고 값은 카운티 이 막 대형 차트 아래로 마우스를 가져 가면 너는 코네티컷 버니에서 그것을 볼 수있다 샌더스는 코네티컷에서 115 개의 카운티를 받았습니다 힐러리 클린턴 (Hillary Clinton) 플로리다 힐러리 클린턴은 58 세 플로리다 버니 샌더스는 9 살이고 여기에 너야 버니 샌더스 원에서 볼 수있다 버니 샌더스가 대다수를 차지해 메인에 투표 그래서 당신은 또한 그것을 현명하게 분류 할 수 있습니다 당신은 어느 주인지 알 수 있습니다

도널드 트럼프 (Donald Trump) 당신이 할 수있는 주 목표 바로 알기 때문에 메인에서 많은 사람들이 Bernie Sanders에게 투표했습니다 아마 힐러리 클린턴은 인기가 없을거야 그래서 앞으로 나아갈 수 있고 그렇게 이끌 수 있습니다 Donald Trump의 파티원입니다 그에게 메인에 가서 조언을 해달라고 조언한다

Hillary 때문에 다른 캠페인 클린턴은별로 인기가 없다 투표를하는 것이 조금 쉬울 것입니다 메인에있는 사람들로부터 당신은에서 결론을 내릴 수 있습니다 매우 정확하지는 않지만이 그 일은 아주 가깝습니다 당신은 다른 차트를 만들 수 있습니다

원형 차트를 만들 수있는 원형 차트 만들기 또는 어떤 카운티에서 건간에 그들의 머리가 파이에 있도록 막대 차트 차트는 좋아 보이지만 어쩌면 그렇지는 않습니다 통찰력이있어서 나는 그것을 놓았다 원형 차트를 만들 수 있음을 보여줄 수 있습니다 또한 이것들은 여러분이 우리 카운티를 분석 한 후 만들 수 있습니다 데이터 및 이것이 당신이 말할 수있는 것입니다

도널드 트럼프 (Donald Trump) 당신이 실제로 갈 수있는 제안 도널드 트럼프에게 인기가 있다고 말하라 포럼 사람들과 사람들 사이 그녀가 다른 언어를 사용하는 사람들 히스패닉계 사람들 사이에서 인기가있다 메인에서 그녀는 많은 카운티를 잃었습니다 그녀는 거의 모든 카운티를 잃었습니다 메인 그래서 이들은 서로 다른 통찰력 네가 가진 것과 너는 말할 수있다

상급자 또는 고용주가 너를 고용해서 너를 위해서 이것은 바로 표현할 수 있습니다 초보자 수준 및 몇 가지 더 있습니다 당신이해야 할 분석 너에게 갈 수있는 몇 가지 옵션을 보여줬다 앞서 민주당에서 더 많은 것을 시도해보십시오 섹션 및 또한 당신은 그 기억 당신은 공화당을 위해 그것을해야합니다

파티도 이제 네가 가진 걸 보게 해줘 오늘 배웠다 지금 당장 질문하실 수 있습니다 앞으로 나에게 묻는다 그래서 누군가는 어떤 것을 가지고 있느냐? 질문들 좋아, AJ가 내가 원하는 걸 말하고있어

그것을 시도하고 나는 당신에게 요청했다 AJ의 다음 수업은 내가 아주 좋아 당신이 그걸 흥미롭고 너는 그것을 시도 할거야 그래서 고마워요 그래서 지금 우리는 계속 전진 해 즉시 택시 사용을위한 해결책 우리가 가지고있는 것을 기억한다면 픽업이 포함 된 uber 데이터 세트 시간과 위치를 두 열 위도와 경도 그리고 우리는 또한 특정 번호의 라이센스 번호를 가지고있다

ruber 드라이버와 우리가해야 할 일은 벌집을 찾아야 해 우리가 최대 픽업을 찾은 다음 우리는 또한 무엇이 무엇인지 알아 내야 할 것입니다 오늘의 피크 시간 전체 전략 그래서 우리는 위버있어 픽업 데이터 세트를 저장 한 다음 데이터를 HDFS로 변환하면 데이터 세트를 사용하여 k-는 위도와 경도와 B 지점 또는 벌집 지점 그래서 지금 내게 열어 보자 다른 노트북 the uber notebook so 다시해야 할 첫 번째 일 uber 데이터 세트를 복사하여 HDFS 이제 우리가하기 전에 우리가 해냈어

우리에게 너를 설명하는 군 다시 코드는 일종의 분석이다 첫 번째 것은 다시 그 것이다 우리는 일부 스파크 속편을 가져오고 있습니다 패키지 및 일부 스파크 ml Lib 패키지 왜냐하면 우리는 k-means를 사용할 것이기 때문에 클러스터링 및 벡터를 볼 수 있습니다 어셈블러가 다시 spark ml 클러스터링 k- 수단 및 기타 스파크 속편 패키지 그래서 우리는 속편을 시작해야합니다 맥락과 우리는 같은 방식으로 우리가 다시 정의해야 할 첫 번째 일 지금 스키마가 많은 필드가 없습니다

기억한다면 4 개의 필드 만 있습니다 그래서 첫 번째 필드는 날짜와 시간이었습니다 우리가 머문 시간을 정의하는 우표 다음 필드를 Det로 정의하면 위도와 경도는 내가 그랬어 내 데이터 세트를 읽으려고하면 이것이 내 uber 데이터가 설정된 내 HDFS의 경로 스키마가 스키마로 정의되어 있으므로 여기 헤더는 사실입니다 왜냐하면 다시 데이터 세트에 열 헤더가 포함되어 있습니다

기능 호출을 DF에 저장하려고합니다 여기는 위도가 될 것입니다 경도는 내가 알아낼 것이기 때문에 벌집은 내가 할 지점을 가리킨다 내 최대 킥을 다시 얻을 수있어 입력 호출을 기능으로 설정했습니다

이러한 기능을 호출하고 출력합니다 어셈블러를 사용하여 데이터를 설정 한 다음 다시 사용하고 있습니다 k-means를 사용하고 동일한 엘보우 법을 사용합니다 우리는 우리가 8 이 데이터 세트에 대한 클러스터를 정상적으로 설정 한 다음 예측 열을 선택합니다 예측 열과 출력 열을 우리는 클러스터 센터를 인쇄했습니다

그래서 각 클러스터마다 뭐든간에 결과 우리는 클러스터를 찾을 것입니다 센터에서 정확한 위치를 알려줍니다 이 클러스터는 우리가 find k-means 후 실제로는 벌집이 포인트가 될 것이라고 지적했다 내가 최대 픽업에서 찾을 수있는 곳 바로 여기에서 클러스터를 인쇄했습니다 위도는 위도를 정의합니다

그리고 경도는 내 것이 될거야 내가 찾는 곳 최대 픽업과 나는 8 개의 결과를 얻었다 내가 8 개의 클러스터를 가지고 있기 때문에 그렇게 좋아 8 개 센터를 이 클러스터가 다른 클러스터 학교 문제처럼 내가 k- 수단으로 당신에게 설명했는데 이것은 우리가 발견 한 것과 정확히 무슨 일이 일어나는가? 각 클러스터의 중심에서 우리가 학교를 대체하고있는 곳 또는 새로운 학교를 이렇게 유사하게 건축하십시오 이것은 내 벌집 지점이 될 것입니다

이것이 내 최대 자리를 차지할 곳입니다 택시의 수를 알았을 정도로 우리는 벌집은 다음 일을 우리에게 알려줍니다 우리가 최고점을 찾아야 할 필요가있다 나도 알아야하기 때문에 택시를 몇시에 넣어야합니까? 위치 그래서 우리가 지금하고있는 일은 우리가하는 일입니다 queue라는 새 변수를 가져온다

우리는 타임 스탬프에서 우리를 선택합니다 열을 입력 한 다음 별칭 이름을 사용해야합니다 우리와 우리는 예측 또는 우리가 지금 내 k-means 클러스터링을 마쳤습니다 우리는 그것을 그룹화하고 있습니다 하루 중 다른 시간에 그리고 나서 그것은 단지 나에게 픽업을 보여줄 것이다

오늘의 다른 시간 우리가 알아 낸 위치는 벌집이 가리킨 다음 우리는 얼마나 많은 픽업을 할 지 계산해라 그 장소에서 우회전하면 얻을 수있어 내림차순으로 작은 픽업 카운트가 첫 번째가되고 더 큰 것은 비슷하게 바닥에있을 것이다 다시 우리는 새로운 변수를 생성하고있다 엘테, 우리도 똑같이 할거야

여기 우리가하는 일은 우리가하는 일입니다 지금 시간을 선택하는 것은 위도 / 경도 예측 시간이 아닌 필터는 null이 아니므로 우리는 null 값을 필터링합니다 이제 테이블 뷰를 만들었습니다 카테고리에 대한 설명을 드리겠습니다 두 가지 범주에 괜찮아요

내려 가서 몇 가지 작업을 했어 여기에서 다시 위로 스크롤하면 우리가 만든 테이블을 다시 보여줍니다 T와 Q에 대한 견해 역시 다시 T입니다 그리고 Q 괜찮습니다 각각에 대한 시각화 우리가 null이 아닌 값 P를 생성했습니다

그래서 다시 우리는 null을 걸러 냈습니다 시간과 우리는 새로운 시각을 창조했다 P라는 여기에 내 시간이 내 카운트 및 x 축에서 많은 픽업이 거기에 있었고 이것은 서로 다른 시간의 날짜와 그 다음 나는 예측에 의해 그것을 그룹화했다 크기는 개수에 따라 다릅니다 당신은 더 큰 원형을 볼 수 있습니다 더 많은 픽업을 의미하므로 찾을 수 있습니다

가장 큰 서클을 벗어나면 당신은 가장 큰 원을 찾을 수 있습니다 이것이 x 축을 따라 가기 때문에 개수가 늘어나면 가장 큰 원이 어디인지 알아 내라 여기 제 4 군데에 있고 너는 800 명이 있다는 것을 알 수있다 또는 8 천 9 백 15 17 시간의 픽업 오후 5 시경에있는 날 이니 최대 픽업이 주위에 있다는 것을 알아라 4시 또는 5시와 이것 네 번째 클러스터에 모두 거짓말을한다

내 피크 시간이 약 4 시간이나 저녁 5시에 그렇게 좋았어 이것이 우리가 얻은 통찰력입니다 너는 내가 가진 인스턴트 택시 CEO에게 알릴 수있어 당신의 택시가 준비되어야한다는 것을 알았습니다 그것이 약 4 ~ 5 개 정도이기 때문에 사람들이 사무실이나 그들은 저녁 식사 나 외출 중입니다

어떤 것이고 이것은 또 다른 것입니다 테이블보기는 T와 같습니다 그래서 여기 있습니다 위도와 경도가 있습니다 우리가 벌집을 찾는 곳입니다

위치 그래서 나는 이것을 가지고있다 분산 형 플롯에서의 분포 당신은 우리가 매우 조밀 한 것을 볼 수 있습니다 여기를 가리키면 벌 하이브를 대표하다 당신이 할 수있는 일은 당신이 미국지도를 넣고 크기를 조정할 수 있습니다 여기이 척도에 따르면 그럼 정확히 무엇인지 알 수 있습니다 놓을 필요가있는 정확한 위치 17 시간 경의 택시 또는 하루 16 시간 괜찮아

우리는 많은 행이 있다는 것을 알고 있습니다 결과는 10,000 행 정도면 10,000 개이지만 분명히 훨씬 더 많았고 다른 클러스터를 체크인하십시오 클러스터 0을 분석 중이므로 여기 여기이 점을 보시오 이것에 대한 클러스터는 클러스터 5에있다 이것은 클러스터 0에 놓여 있습니다

그래서 각 클러스터를 분석해서 여기 있습니다 위도와 경도를 배치했다 제 0 클러스터 때문에 볼 수 있습니다 여기서 예측은 0과 같습니다 나는 이것을 표에서 선택했다

U의 T는 여기에서 찾을 수 있습니다 정확한 위도와 경도는 여기에 있습니다 위도는 40 ~ 72 포인트입니다 경도는 음의 70이다 3 점 9시 9 분 이니까

정확한 위치를 가리킬 수있는 방법 피크 기간 동안 모자가 있어야합니다 이 배포판을 보면 또 한 시간 씩 이건 그냥 파이 차트에요 그것으로 창조 된 해당 시간의 픽업 횟수 하루는 0에서 23까지 이것에 24 개의 조각이있다 동그라미를 치면이 몇 안되는 것을 볼 수 있습니다 조각이 더 큰 덩어리이고 이것은 하루 중 19 시간 5시 6시 7시 3시 방향에 4시 방향 등등

어쩌면 아무도 자정을 볼 수 없습니다 어쩌면 당신의 택시가 안락하게 여행 할 수 있습니다 더 이상 택시를 배치 할 필요가 없습니다 이 부분에서 이들은 네가 얻을 수있는 통찰력 그것에 관한 질문들과 나는 생각한다 우리 카운티 선거를하는 것은 꽤 쉽게 할 수 있으며 이것은 또한 꽤 이해하기 쉽고 또한 훨씬 더 명확한 결과 알았어

그래서 다시 우리 집에 가자 프레젠테이션을 통해 당신이 가지고있는 가장자리 리카 LMS LMS에있는 모든 것을 이 수업은 녹음되어 이 기간에도 LMS에 있으십시오 수업을 잊어 버리면 수업 네가 이걸 좀 볼 수 있다고 했어 기록 다시 LMS에서 수업을 듣기 만하면됩니다

너 자신을 배워라 모든 과정 내용을 직접 소유하세요 기본 과정이므로 어떤 문서 든 당신은 당신의 주제와 관련이 있고 싶습니다 여기에 그것을 찾을 것입니다 그래서 그냥 보여 드리죠 너는 전체 과정조차 그렇다 내용은 여기에 있습니다

프레젠테이션과 모든 녹음은 여기에 숨겨집니다 다른 과정 코스 내용 액세스 권한이있는 모듈 당신과 관련된 다른 프로젝트들 물론 다운로드 할 수 있습니다 문제 성명서는 모두 해야 할 요구 사항 이 프로젝트를 수행하려면 그것을 다운로드하고 그것을 해결 한 후에 당신은 할 수 있습니다 여기에 다시 제출하십시오 에드가 리카 VM도 적당합니다

이것을 사용하는 방법에 관한 안내선 방법 VM 및 의심되는 점이 있으면 24/7 지원팀에 전화해도 그냥 가야할 LMS를 보여줘 내가 이미 서명 했으니 까 로그인하고 로그인하지 않은 경우 여기에 로그인 옵션이 있습니다 오른쪽 구석에 서명하면됩니다 안에 들어가서 내 코스로 가라

코스에는 다양한 코스가 있습니다 에드 유레카에서 가져 왔어 그냥 코스에 가면 모든 것이 있습니다 Hadoop을 시작하고 싶습니다 여기에 언급 된 모든 것이 있습니다

소프트웨어 또는 하드웨어 요구 사항은 다음 당신은 사전있어 여기와 하나의 녹음 세션 수업도 언제든지 볼 수 있습니다 LMS의 가장 중요한 부분은 평생 액세스 할 수 있습니다 너의 수업이 끝난 후에는 그렇지 않아 한 번 퍽을 어떻게하는지 배웠다면 당신의 일괄 처리는 끝났어 더 많은 강의에 참석하면 모든 오래된 클래스에 접근 할 수있다

당신이 참석하고 그것을 볼 수있는 언제든지 원하는 코스가 있습니다 모듈 2에 대한 콘텐츠 클래스 레코딩에는 모듈이 있습니다 퀴즈 과제 및 모든 것 그리고 다시 나는 당신은 어떻게 사용하는지에 대해 의문의 여지가 있습니다 LMS는 항상 고객 지원 팀에 전화 할 수 있습니다 아무도 질문이 없어요

참석해 주셔서 감사합니다 세션 좋은 시간 보내길 바래요 하둡에 대해 배우고 당신이 할 수있는 불꽃 놀이 우리를 평가하고 우리에게 어떻게하는지 알려주십시오 당신은 ed Eureka와 함께 즐겁게 학습했습니다 당신은 당신의 경험을 논평 할 수 있습니다

몇 가지 제안을 할 수도 있고하지 않을 수도 있습니다 이 동영상이 마음에 드시면 정말 좋습니다 우리가 도울 수 있도록 도왔습니다 우리가 무엇을 생각해야하는지에 대한 더 많은 아이디어 다음과 함께 다음 걸릴 수 있습니다 우리가 할 수 있도록 우리를 더 향상시켜 주셔서 감사합니다

이 비디오를보고 나는 당신을 볼 것입니다 다음 번에 행복하게 배울 때까지 나는 너가 이것 듣는 것을 즐겼기를 바란다 비디오는 충분히 그것을 좋아할만큼 친절해야한다 당신은 당신의 의심에 대해 언급 할 수 있습니다 검색어를 입력하면 가장 초기의 동영상은 더 많은 동영상을 찾습니다

우리의 재생 목록에 Rekha 채널 더 행복하게 배우기 배우기

HADOOP Tutorial for Beginners – The BEST Explanation # PART 1

안녕하십니까, 그것은 소리인가? 예 그것은 다른 사람에 대한 소리인가? 예 네, 지금 수업을 시작할 수 있다고 생각합니다

어서 내 자신을 소개하자 내가 하리이야, 하둡 온라인 트레이너 greatonline 훈련에서 내가 일하고 있어요 다국적 기업이다 그래서 내 배경에 대해 간략입니다 그래서 당신은 신속하게 자신을 소개하시기 바랍니다 수 있습니다

안녕 얘들 아,이 뉴저지에서 빈입니다 승인, 하리 안녕하세요, 내가 보스턴에 살고, 빈두입니다 승인 안녕, 시카고에서 Saatya 좋아, 안녕 하리,이 Srivani입니다 안녕, Blumington에서

좋아, 안녕하세요, 버지니아에서 UMA이다 승인, 좋아, 다음, 지금 수업을 시작합니다 그것을 잘 맞나요? 예 참으로 작성하십시오 승인, 나 오늘의 의제에 대한 가자, 그래서 의제 무엇인가 코스 내용의 오늘의 데모 sessionOverview 및 물질하는 나는 방법 등의 교육에 대해 브리핑하겠습니다 교육이 될 것입니다 및 과정 구조는 어떻게 될 것인가? 다음으로, 빅 데이터는 무엇인가? 이제 -a -days 모두가 미래의 큰 데이터가 말하는 나는 빅 데이터가 명확하게 무엇을 youunderstand 만들거야 과 도전이 무엇인지 우리가 직면하게 될 것이다 대한 도전 빅 데이터로 처리하면서 하둡은 무엇인가? 나는 당신의 간단한 소개를 줄 것이다 하둡과 하둡의 중요성 우리는 하둡을 사용해야하는 이유, 그것의 중요성은 무엇인가, 나는 설명 할 것이다 하둡 시스템을 에코 것을 그래서 여기 내가 당신에게 하둡의 모든 구성 요소를 보여줍니다 간단한 실시간 예와 에코 시스템

그래서 당신은 쉽게 모든 것을 이해할 수있다 질문 및 답변, 그래서 데모의 끝 당신은 당신이 어떤 질문을 요청할 수 있습니다 그 질문에 답하고 그것 뿐이다됩니다 이것은 오늘날의 데모 세션의 의제입니다 그래서 파워 포인트 프리젠 테이션으로 이동하기 전에, 내가 당신에게 과정의 구조 나 과정 드라이브를 보여 드리죠 그래서이 과정 드라이브가 같은 모습입니다 팔 개 폴더가 포함됩니다 여기에 첫 번째 그래서 세션입니다 그래서이 훈련 의지는 수업 30 시간으로 구성 즉, 30 개 세션 그래서 매일 한 시간 클래스입니다 그래서 이것은 평일 수업에 대한 준비가되어 또한 주말 배치를해야합니다 그래서이 폴더 것은 그래서 매일 구성 좀 PowerPoint 프레젠테이션을 설명 할 것이다 또는 나는 것 프로그램의 일부를 설명하거나 나는 수도 모든 그래서 재료의 일부를 보여 나는 당신을 보여줄 것이다 또는 당신을 가르 칠 것입니다 어떤 매일 세션에서 그 것 이 폴더에 존재

파워 포인트 프리젠 테이션 또는 어떤 물질 프로그램이나 나는 설명 할 것이다 그 클래스에 그래서 이것은 어떻게 세션입니다 될 것이다 매일의 수업 후 작업 나는 당신에게 당신이 할 몇 가지 과제를 줄 것이다 당신이 어떤 의심이 그래서 만약 다음 클래스에 의해 완료 그 과제에 대한 또는 질문, 우리는 할 수 같은 다음 수업 시간에 같은 논의 나는 당신에게 할당의 할당을 표시합니다 이 과제를 완료 할 수 있습니다, 같은이 데모 세션의 말 빅 데이터의 4 개 V의는 무엇인가? 다음 중 데이터의 다양한 빅 데이터 일 수있다 그래서이 질문은 아주 쉽게 대답 할 수 이 클래스에 대해주의 깊게 경청합니다 그래서 마찬가지로 매일 나는 당신에게 몇 가지 작업을 줄 것이다 그뿐만 아니라 질문에 나처럼 그것은 그렇게뿐만 아니라의 여러 대답 질문입니다 난 당신이 연습하는 일부 프로그램을 줄 수도 그런 일이 무엇 때문에 내가 당신에게 줄 것이다 당신이 그 일을 마무리하는 경우 그래서 충분합니다 내가 최선의 수집, 그래서이 소재입니다 재료에 대한 또한 내가 개인적으로 준비 자료 개념의 일부 당신이 따르는 경우에 그래서 당신을 약속 내 클래스와 당신은 지정을 완료 할 수있는 경우 이 인터뷰를 해독하기에 충분하거나 선택을 취소합니다 인증 시험 다음 하나는 자주 요청합니다 질문 그래서이 자주 묻는 질문 (FAQ) 그래서 이들은에서의 자주 제기되는 질문입니다 인터뷰는 인증 시험의 일부입니다 그래서 나는 자주이 수집 요청했습니다 에서 작업하는 동료의 질문 다국적 기업은 너무 자주 이러한 희망 묻는 질문 다음은, 당신을 위해 도움이 될 것입니다 인증 그래서이 폴더의 구성 구성 당신이 완료 할 수있는 자격증은 무엇입니까 내 수업 및 인증에 참석 한 후 또한 인증 시험 패턴 강의 당신은 또한 인증 댐의 일부를해야합니다 이 폴더에 그래서 우리는 몇 가지 샘플을 재개 좋은 이력서 당신은 단순히 변경할 수 있습니다 당신의 이름과 당신에 업로드 할 수 있습니다 당신이 아주 좋은 가지고 당신의 작업은 포털 개념의 이해는 당신이 유지할 수 원하는 경우 2 ~ 3 년간의 경험과 비디오 그래서 이 동영상 무엇인가 그래서 당신은 클래스 또는 경우 일부 무엇을 그리워하는 경우 우리는 기록 할 것이다이 다시 수업을 듣고 싶은 모든 세션은 당신이 당신이 이들에 액세스 할 줄 것이다 비디오 세션이 훈련에 참여하는 경우 그래서 일단 당신은 삶의 시간 액세스 할 수 있습니다 당신은 여기에서 볼 수있는 소재, 비디오 당신은 다른 배치로 가입 할 수 있습니다 당신은 당신이 원하는 경우 클래스의 일부를 그리워있는 경우 다시 수업에 참여하고 나는이 프로젝트를 그리워 죄송합니다 훈련의 끝에서 당신이 선택할 수 있습니다 여기에 프로젝트 중 하나를 수행 할 수 있습니다 프로젝트를 완료하고이에 붙어있는 경우 당신이 우리의 도움을 원하는 곳 또는 경우 당신이 프로젝트를 완료하는 데 도움이 될 것입니다

그래서 단순히이 과정 드라이브가 얼마나이다; 나를 다시 PowerPoint 프레젠테이션에 가자 승인, 그래서, 당신이 요즘 무엇이든 그것을 기록하기됩니다 당신이 채팅 어딘가에 경우에도, 일부 전화로 얘기하면, 당신은 인터넷 모두에서 무언가를 검색하는 경우 어딘가에 기록하기됩니다 그래서 어디 데이터의 양이 더 저장되며 이 저장되어있는 경우 데이터가 저장되는 이유, 이들은 질문 그래서,에 대답하기 전에 이러한 질문은, 그래서 내가 당신에게 보여 드리겠습니다 그래서 세계 디지털 데이터 어떻게 세계 D 디지털 데이터 증가하고있다 여기 당신에게 하나 개의 그림을 보여 드리겠습니다

여기서 상기 메모리 2015에 제타 바이트 보이고 세계 디지털 데이터는 01 제타 바이트 2000입니다 2005 년에 유감이 01 제타 바이트 및 2015 년에 그것은 9 제타 바이트입니다 그래서 제타 바이트가 정확히 무엇인지 나는이 메모리 크기 차트에서 보여주지 않도록 그래서 이거 메모리 크기 차트는 당신에게 모든 메모리 크기를 제공합니다 추천 요타 바이트로 최대 비트 최소값부터

예, 당신이 알고있는 기가 바이트 1024 메가 바이트 1024 기가 바이트 1 테라 바이트 1024 테라 바이트 하나 페타 바이트 1024 페타 바이트는 하나 엑사 바이트입니다 이 무엇을 그래서 1024 엑사 바이트는 하나의 제타 바이트이며, 제타 바이트는 우리가 무슨 말을입니다 세계 디지털 데이터 제타 바이트는 그래서 약 1조기가바이트이 ​​많이 있으므로 많은 제로가 얼마나 같은 데이터의 양 zetabyte에 거의 20 ~ 24 자리가 될 것입니다 이 제타 바이트이다 이것은 제타 바이트가 매우 큰 데이터입니다 그래서 내가 다시 세계 디지털 데이터로 가자, 그래서 경우 2012 년에 여기에있는 세계 디지털 데이터는 28 제타 바이트입니다 2015 년 그들은이 85 제타 바이트에이를 수있을 것으로 기대 그러나 실제로는 9 제타 바이트를 건넜다

과거 그래서 삼년 만 거의 배 이상 배 그래서이 성장 사람들은 전문가가 있습니다 2020 년 세계 디지털 데이터가 될 것으로 기대 44 제타 바이트이 증가 그래프를 보여 그래서 만약, 이것은 데이터 용량 등 지수 그래프 세계에서 기하 급수적으로 증가하고있다 그래프에서 파란 선은 도시 이것 이 빨간 선은 설명 그래서이 빨간색 선은 무엇인가 구조 데이터의 성장은 그래서이 무엇 구조 데이터 구조 데이터가 어떤 데이터입니다 이는 우리가 관계형 데이터베이스에 저장할 수 있습니다 여러분 모두가 알고 희망 어떤 관계형 데이터베이스 또는 DBMS 관계형 데이터베이스 관리 시스템 그래서 관계형 데이터베이스는 데이터를 포함 행과 열을 같은 테이블의 형태로 그래서 이것은 관계형 데이터베이스로 호출 할 것입니다 주로 나는이 관계형 데이터베이스를 사용합니다 또는 자주 데모 세션에서 관계형 테이블 예, 구조 데이터 구조 데이터는 무엇입니까 관계형 데이터베이스에 저장하고 unstructure 데이터 그래서 이것은 당신이 저장할 수 없습니다 것입니다 비즈니스 데이터 구조 데이터는 비즈니스 데이터입니다 그래서 당신이 unstructure 데이터를 비교한다면 데이터 구조는 데이터의 80 %와 같은 데이터의 대부분 unstructure 데이터는 15 %의 데이터의 20 % 인 이것은 어떻게 데이터가이 세상에서 구조 데이터입니다 세계에서 증가하고 있지만, 사람들은 왜 저장하는 저장의 필요가 무엇인지 데이터의 많은 양의 이 데이터는이 질문에 대한 대답은 매우 간단합니다 데이터의 내부를 얻기 위해 필요한 취할 결과에 따라 행동 그래서 당신을 이해하기 훨씬 더 나는 당신에게 간단한 예를 줄 것이다 우리는 작은 식료품 가게를 생각해 보자 그래서 뭐 가게 주인은 다시 그래서 처음에 단지 몇 일하고있다 그는 가게를 열고 그는 모든 제품을 가져 중 그는 팔고 싶어 그는 모든 제품을 보관 등 자신이 원하는 무엇이든 같이 임의의 방법으로 그래서 그는 자신이 관찰 무엇을, 한 달 동안 관찰 우리는 빵과 잼과 같은 두 제품을 보자

그래서 그는 같은 양의 빵과 잼을 구입 하지만 잼 나는 잼의 판매는 것과없는 것을 의미하지 않습니다 빵의 모든 사람들은 빵을 구입하는 사람들 때문에 잼을 구입하지 않습니다 그들 그래서이 그가 온 것입니다 누구처럼 역사를 보면 알 수 있습니다 모든 사람들은 빵을 사는 모든 사람들은 누구 다음이 역사를보고, 잼을 구입, 그는 빵을 구입하는 사람들의 50 %를 찾거나 사람들의 50 %를 의미 구매 잼 빵을 구입하면서 잼을 복용하지 그래서 그는이 발견 그는 한 다음 그가 빵과 잼을 모두 배치 함께 다음 다른 옆에 하나처럼 그는 관찰 1 개월 충격적 위해, 잼의 판매도 있습니다 incre는 80 %와 같이 30 % 증가한 증가 빵을 복용하거나 또한 잼을 복용하는 사람들 그래서 무슨 일이 사건 때문에 여기에 무슨 일이 일어나고 있는지 어떻게 사람들은 또한 누구 때문에 30 %의 증가를 가지고있다 정말 의도는 잼을 구입하지 않아도되지만 잼 그러나 빵과 함께 잼을 본 후에 이 얼마나 판매 그래서 그들은 또한이 잼을 취하고 내가 말할 수있는이 예제에서, 그래서 걸림 증가를 얻었다 이 크지 자료입니다 만,이 저장 무엇을 필요가있다 그래서 함께 빵과 잼을 배치하여이 데이터 이로 호출 무엇 때문에 잼의 판매는 증가되었다 시장 바구니 분석은 그래서 그는보고 한 일 역사에, 그입니다 판매의 역사는 무엇입니까 데이터의 내부를 받고 어떤 것은 필요하다 와 수 있도록 조치는 그는 함께 빵과 잼을 배치 걸렸다 이 그의 사업이이 중 하나입니다 그래서 증가되었다 예를 왜 데이터를 저장하는 사람들 이 데이터를 저장의 필요성은 무엇인가 당신은이 예제를 이해 희망 그래서 내가 다음 빛에 가자 빅 데이터 무엇인가? 나는 당신에게 간단한 정의를주지 이 빅 데이터 무엇 빅 데이터,의, 빅 데이터는 크거나 복잡한 데이터 세트를 수집하는 기존의 데이터 처리에 의해 처리 될 수없는 두 가지 때문에 응용 프로그램은 여기에서 고려해야 할 하나는 크고 복잡한 데이터 세트 모음 그래서 빅 데이터는 수집하는 간단한 데이터 아니다 큰 그 엄청난 데이터를 의미하며, 또한 일 수 있습니다 복잡한 데이터 세트 및이 데이터는 할 수 없다 전통의 데이터 처리에 의해 처리 응용 프로그램은 그래서 기존의 데이터 무엇인가 처리 애플리케이션을 이것은 그래서 관계형 데이터베이스 또는이 때문에 관계형 테이블 빅 데이터는 처리 할 수없는 우리의 관계형 데이터베이스 관리 시스템 또는 DBMS 때문에이 유형의 데이터는 우리로 호출 할 수 있습니다 빅 데이터 빅 데이터가 크거나 복잡한의 모음입니다 처리 할 수없는 데이터 세트 우리의 기존의 데이터 처리 응용 프로그램 승인, 다음으로, 빅 데이터 애플리케이션은 지금은 논의 할 것이다 이 빅 데이터가 사용 사례 중 일부에 여기에 여기에 중요한 역할을 첫 번째를 재생하는 것은 E-상업 웹 사이트는 너무 많은있다 아마존, Flipcart, 이베이 같은 종류의 모든 E-상업 웹 사이트 모든 아주 좋은 E-상업 웹 사이트입니다입니다 당신이 구입하는 경우 당신이 아마존에서 아마존을 고려한다면 이 관계처럼 RDBMS에 저장됩니다 뭔가 그래서하지만 데이터베이스의 프로젝트를 검색하는 동안 제품은 당신이 추천을 많이 받고있을 것이다 같은 당신은 유사한 종류의 다른 제품을 받고 있습니다 제품의 당신은 검색하는 경우처럼 모바일 당신은 추천을 많이 받고있을 것이다 다른 휴대폰의 마찬가지로 그래서 당신은 어떻게 이것들을 얻고있다 당신이 제품을 검색 할 수있는 권고 전 또는 사용자의 대부분은 검색 수 제품은 그래서 아마존은 방법이 무엇을하고 있는지 아마존은 당신에게 권장 사항을 보여주고있다 그래서 무엇을 할 것 것은 같은 모든 검색 데이터를 저장하는 것입니다 어떤 사람들은 검색합니다 또는 당신이 검색 무엇을 당신은 특정 제품을 검색 할 때 그래서이 모든 검색 데이터는이 아마존에 의해 저장됩니다 그리고이 가게를 무엇을 할 것 인 데이터가 될 것입니다 아마존에 의해 이러한 데이터를 처리하여 처리 이 권고의 일부를 표시합니다 그들은이 큰 데이터 나되는 데이터를 저장하는 곳 사용자의 검색에 의해 생성 된 그들은 할 수 없습니다 이 사업이 아니기 때문에 RDBMS에서이 데이터를 저장 이것은 비즈니스 데이터가 아니기 때문에 데이터 죄송합니다 당신은 RDBMS에서이 데이터를 저장할 수 있으며 당신은 할 수 없습니다 과정이 데이터 또한 그렇게 때문에 왜 당신이 할 수있는 't RDBMS이를 저장하는 주요 이유에서입니다 관계형 데이터베이스는 개념 통화를합니다 무슨 뜻인지 쓰기에 쓰기 스키마에 대한 스키마 데이터베이스에 데이터를 삽입 할 때 윌 가있는 경우, 같은 데이터의 데이터 유형을 확인 적절한 포맷 만 그 데이터를 삽입 할 당신은 직원 정보가있는 경우 가정 그래서 직원 이름 및 직원 급여가 그래서 당신이 데이터베이스에 데이터를 삽입하는 동안 또는 테이블에 데이터가 먼저 급여 여부를 검색합니다 자리에 SOR하지 번호 또는 그리에 이 숫자 인 경우에만이 삽입됩니다 데이터베이스에 데이터 그렇지 않으면하지 않습니다, 그것은하지 않습니다 그래서 이것은 우리가 검증로 부르는 동의 쓰기에 대한 스키마를 작성하기 전에 스키마를 확인 그렇게 때문에 쓰기에이 스키마의 데이터베이스에 우리는 RDBMS에이 검색 데이터를 저장할 수 있기 때문에 이 검색 데이터가 매우 그대로 시간이 더 걸릴 것입니다 이것이 그래서 시간의 매우 많은 시간이 걸릴 것입니다 거대하고 이 검색 데이터는 어떻게 구조화되지 않은 데이터입니다 이는 우리가 빅 데이터를 호출 할 수 있습니다

그래서이 방법 아마존 unstructure가이 검색 데이터를 저장해 데이터와이 데이터를 처리하여 그것을 보여주는 권고의 일부, 그래서 어떻게 저장되어 내가 나중에 설명하겠습니다 것을 저장되는 경우 어떻게 아마존은 검색 데이터를 처리하고 당신을 줄입니다 권장 사항을 참조하십시오 내가 다음 예를 들어 가자 즉, 소셜 네트워킹 웹 사이트입니다 그래서 요즘 소셜 네트워킹 웹 사이트도 있습니다 데이터 페이스 북, 구글의 매우 엄청난 금액을 생성, 트위터, Instogram 이러한 모든 그래서 저를 생각 해보자 여기에 페이스 북 페이스 북은 거의 500를 생성 하루에 테라 바이트는 그 이상이 될 수있는 그렇게 매우 거대하고이 데이터의 형태 일 수있다 , 스포츠,, 이미지, 비디오 및 좋아 그것은 왜이 페이스 북 모든 형식에있을 수 있습니다 데이터의 많은 양을 어떻게 저장되고 이 데이터를 저장하는 사용 그래서 그것에 대해 알고 전에 그래서 혹시 어떻게 페이스 북과 같은이 질문을했을까요 페이스 북이 돈을 받고, 그래서 돈을 받고 기본적으로 광고주이뿐만 아니라 소스 그러나 이것은 주요 원인 중 하나입니다 광고주가 돈을 얻을 것이다 소득의 소스 그래서 어떤 광고주는 올 것 할 것 페이스 북 그리고 그들은 몇 가지 광고를 원하는 사람의 특정 그룹에 표시하는 유일한 모든 사람들은 그래서 이것은 어떤 차이가 타겟 마케팅 및 글로벌 마케팅 사이 글로벌 마케팅은 단순히 게재됩니다 는 모든 사람에 추가하지만 대상 마케팅은 무엇입니까 표시하거나 광고를 제시 사람들 때문 만의 특정 그룹 그들은 단순히 당신에게 말을 인용하겠습니다 목표 사람들 여기 예 광고하려는 광고주 신발 같은 축구 키트, 또는 축구, 축구 키트에 대한 뭔가 다른 광고주가 와서 너무 페이스 북은 내가 남자를 원하는이 같은 요청 축구를 사랑하고 누구 누구 누구 25 세 미만 그래서 나는이 내 광고를 보여주고 싶은 유일한 사람 그래서 페이스 북을 기반으로 무엇을 할 것 인 우리 모공, lides 우리의 기록 데이터는 사람들을 얻을 것이다 재생 사랑하는 사람과 같은 요건 축구와 누구 25 세 미만이 페이스 북 뭐 그것은 해당 광고를 표시합니다 무엇을 할 것 인 그 사람들은 그래서 이것은 어떤 대상 마케팅이다 그래서 사람의 수에만 광고주를 기반으로 페이스 북은 점점 방법을 페이스 북에 지불하는 것은 그래서입니다 돈 때문에 빅 데이터의 관계 것입니다 여기에 페이스 북, 페이스 북이 저장되도록 데이터 게시물이 좋아하는 데이터, 이미지, 비디오 뭔가 그런 식으로이 데이터를이 페이스 북은 점점 있도록 사람과 보여주는 것이 좋습니다의 내부 사람들에게 권고 또는 광고 이 얼마나 그것이 돈을 받고있다 그래서 이것은 페이스 북이 빅 데이터를 사용하는 방법입니다 그것은 모든 데이터를 저장하고 분석하는 분석되고 이 데이터는에 기초하여 결과를 수득 결과와이 광고를 광고가 될 것입니다 표시 다음 하나는 CC 카메라의 CC의 TV의입니다 그래서 당신은 세계에서 CC의 수를 보면 카메라도 상당히 증가한다

그래서 데이터는이 CC 카메라에서 생성 된 또한 매우 거대 그래서 이러한 데이터는 것을 의미하는 인 동영상의 형태로하고이 또한 빅 데이터입니다 및 분석이이 데이터에 적용 할 수있다 대부분 추적하는 범죄 부서에서 사용됩니다 범죄의 일부는 어떤 과거에 무슨 일이 있었 그리고 너무 다음 한 의료 산업 의료 산업은이 빅 데이터 분석이 될 것입니다 그래서 사용 나는 가정도 여기에 당신에게 간단한 예를주지 모든 병원은 모든 환자 정보가됩니다 병원 같은 환자 정보 phasemen해야합니다 질병, 의학은 질병과 어떤 주어진 그것의 그것이 경화 얼마나 많은 일 비용이다 모든 병원 가정 환자의 정보를 이 같은 및 국가 저장소에있는 모든 병원의 경우 어딘가 한 곳에서 거기에 같은 데이터 각 질병 때문에 가정을 위해 우리가 분석을 수행 할 수 있습니다 질병 무엇 무엇 무엇과 같은 모든 데이터 그것의 비용이 무엇인지 주어진 의학 무엇인가 얼마나 많은 일에이 너무 치료를 받았습니다 어떻게 어떻게 분석을 수행 할 수 있으며, 사용이 무엇인지 나는 각 질병에 대해 말씀 드리죠 우리는 기반으로 최적의 솔루션을 얻을 수 있습니다 상황이 어쩌면 비용 또는 시간 돈이나 시간의 경우처럼 누군가가 초기에 모두가 치료하고자하는 치료하고 싶어 일찍 분명하지만 나는 사람을 의미 우리가 할 수있는 가정이 약을 감당할 수 없거나 그냥 말해 나는 우리가 최고의 기계를 얻을 수 있음을 의미 특정 질병에 대한 유감 최고의 의학 저렴한 비용에 우리가 할 수있는 노력들이 할 수있는 경우에 이렇게 비싼 약을주고있는 치료할 수 초기 I는 달리 매우 적은 시간을 의미 그들은 그 정도 여유가없는 경우 경우 우리가 줄 수있는 돈이 많은 양의 저렴한 비용의 약 하는 최선의 방법으로 치료할 수 있습니다 그래서 이것은 어떻게 의료 산업에서 또한 우리는 분석을 수행 할 수 있습니다 빅 데이터에 이에 대해 분명히있어 바랍니다 다음 중 하나 비행기 데이터, 그래서 승객에 대해 확실히 아니다 데이터는 다른 데이터에 관한 것입니다

어떤 데이터가 나는 비행기는 약 6,000 센서에서이 같이 들어 날개는 그래서이 센서는 것 무엇을 할 것 인 이 데이터와 데이터의 매우 큰 금액을 생성 이 미스 인 경우 우리는 비행을 추적 할 수도 있습니다 이 파일럿에 즉시 새로운 경로를 표시 할 수 있습니다 매우 적은 연료를 사용하여 관광 destinate 대상 그래서 이들의 장점 중 무엇 일부입니다 이 때문에 센서 비행기와 같은 큰 데이터 분석 데이터 우리는 같은 다른 결론을 얻을 수 있습니다 이 놓친 경우 우리는 비행을 추적 할 수 있으며, 우리는 목적지까지의 최단 경로를 얻을 수 있습니다 이것은이 항공기에 사용되는 방법이다 그것은 그래서 여기 마지막 하나는 위성 데이터입니다 대기에 대한 매우 큰 데이터 날씨 그리고 그것은 또한 consi 데이터로 구성 많이하고 다른 행성과 우리 연구원에 대한 이 데이터 일부를 얻기에 대한 분석 그것에서 권장 사항을 참조하십시오 당신은 분명히있어 희망 빅 데이터 분석에 대한 모든 예 나는 다음 빛의 특성에 갈거야 빅 데이터의 그래서 우리가 어떻게 데이터가 있음을 말할 수있다 이러한 문자를 기반으로 빅 데이터 여부를 특성은 우리가 쉽게 데이터 여부를 말할 수있다 빅 데이터 여부 그래서 첫 번째는 볼륨입니다 이름 빅 데이터는 큰 의미가 매우 큰 말한대로 데이터 thedata의 크기는 크기가 매우 크다 테라 바이트 일 수 엑사 형태 이는 단순히이 또한 처리되어야 우리는 나머지 데이터를 말할 수있다 두 번째는 얼마나 속도 또는과 속도 얼마나 속도 데이터가 생성된다

여기에 최고의 인용 수 예를 들어 페이스 북이다 하루에 거의 생성합니다 그래서 거의 스트리밍처럼 그래서 데이터의 500 테라 바이트 데이터는 밀리 초, 그래서 당신은 응답해야 그건 당신이 밀리 초 단위로 결과를 제공 할 필요가 의미 또는 이러한 데이터를 처리하여 초 이러한 유형의에 따라서 으로 생성되는 데이터와 같은 데이터 높은 속도는 또한 빅 데이터로 호출 할 수있다 데이터가 상이한 될 수 있으므로 다음 하나는 다양하다 같은 구조화, 비 구조화 텍스트, 멀티미디어 등의 형태 멀티미디어는 모든 이미지, 비디오를 다룰 것입니다 의미 오디오, 모든이가되도록 모든 다른 종류 데이터 때문에 데이터의 모든 종류의 무엇인가 그래서 모든 특성이에 대해 알고 전에 데이터 때문에 데이터의 모든 다른 종류의 무엇인가 가질거야 따라서 첫 번째는 구조적 데이터 인 구조화 된 데이터는 잘 조직 된 데이터를 의미합니다 그래서 가장 좋은 예는 같은 관계형 테이블입니다 데이터는 행과 열의 형태 것 그래서 잘 조직되어 서로 다른 것 특정있을 것이다 컬럼의 데이터를 의미 데이터 유형은 잘 이러한 유형의 있도록 구성되어 있습니다 데이터의 구조화 된 데이터로 부를 것이다 다음 사람은 그렇지 않은 반 구조화 된 데이터입니다 완전히 다소입니다 테이블처럼 구성 그래서를 구성하지만 어떤 데이터 유형이 없습니다 또는 사물의 검증 종류

최고의 그래서 여기 예제는 XML 데이터 또는 JSON 데이터입니다 마지막 하나는 구조화되지 않은 데이터 구조화되지 않은 데이터입니다 이 특별한 형식이되지 않습니다 수단 등 이 데이터에 아무런 검증 없을 것이다 그래서이 그것이 될 수도 같은 데이터는 어떠한 형태 일 수 있습니다 텍스트 데이터 또는 멀티미디어 데이터 수 있습니다 이미지, 오디오, 비디오와 같은 또는 어떤 그래프 수 있습니다 데이터 그래서 이러한 모든 비정형 데이터에서 제공합니다 그래서 기본적으로 데이터는 이들 중 하나에 포함됩니다 데이터 데이터의 세 가지 형태의 세 가지 형식 따라서이 데이터의 유형은 빅 데이터로 호출 할 수 있습니다 구조화 된 데이터 또는 반 구조화 된 데이터 또는 비정형 데이터 데이터 일반적으로 모든 종류의 빅 데이터가 될 수 있지만, 데이터는 같은 거대한해야합니다 이 데이터를 구성하는 경우는 큰하지만, 경우 수 있어야합니다 이 구조화되지 않은 데이터, 당신은 간단하게 말할 수 있습니다 그것은 데이터의 양을 고려하지 않고 빅 데이터입니다 이 구조화되지 않은 데이터로 처리 할 수 ​​없기 때문에 우리의 관계형 데이터베이스 그래서 심지어 구조 불구하고 데이터가 관계형 데이터베이스에 의해 처리 될 수 있지만, 매우 큰 경우가에서 처리하기 어려울 것입니다 다시 관계형 데이터베이스

따라서 데이터에있을 것입니다 다양한 형태의 데이터의 대부분이 다양한 형태의 우리는 그것을로 빅 데이터를 호출 할 수 있습니다 마지막 하나는 진실성이다 진실성은 uncertainity을 의미 의심 할 데이터입니다 인해 데이터 불일치 및 불완전 행 그래서 데이터가 불일치한다는 것을 의미 데이터 일관성 의미하지 않습니다 서로 다른 장소에서 다른 것을 의미 또는 그 수단 불완전 수 있습니다 모든 참조 데이터가 제공되지 않을 수있는 몇 가지 데이터의 일부 데이터에 사용할 수있는 이러한 유형의 데이터도 수 누락 될 수있다 때로는 우리가 필요하기 때문에 빅 데이터를 고려할 수 또한 그래서이 이러한 종류의 데이터를 처리하는 특성은 빅 데이터의 4 명 V의로 호출 할 수 있습니다 우리는 데이터 주소로 호출 할 수 있습니다 볼륨, 모션 진실성 데이터, 여러 형태의 다양한 데이터 의심 진실성 데이터입니다 그래서 이것들은 4 개 V의의는 빅 데이터는 따라서 이러한 특성을 기반으로 우리는 데이터가 빅 데이터인지를 말할 수있다 또는 내가 너희에게 다양성을 기반으로하지 이미 당신은 신속하게 응답 할 수있는 다음의 어느 오는 있습니다 예 품종의 어떤에서 다양한 어떤 데이터 유형이 또는 무엇과 같은 데이터 데이터의 첫 번째 그래픽 데이터 인 그 것이다 같은 그래프 데이터는 데이터의 한 종류이며 구조화 데이터 또는 비 구조화 데이터 또는은 반 정형 데이터 그래픽 데이터는 어떤 타입 데이터의? 네, 구조화되지 않은 데이터입니다 그것은 우리의 관계에 저장 할 수 없기 때문에 데이터베이스와 다음 하나는 잘 조직 A A 테이블 표 때문에 이는 직원 테이블 구성의 일례이다 직원 이름, 부서, 성별, 어떤 나라와 얼마나 많은 각 직원의 급여입니다 그래서이 데이터는 어떤 종류인가? 예,이 구조입니다 데이터 이것은이다가 아니라 표에 정리되어 있기 때문에 관계형 데이터베이스 테이블 옆에 책 책 형태 인 데이터 XML은 그래서 이것은 데이터의 어떤 종류입니까? 예, 이것이 반 구조화 된 데이터로 인해 XML 데이터와 JSON 데이터는 반 구조화 된 데이터로 분류된다 다음 한 다음 하나의 로그 생성입니다 특정 행위의 응용 프로그램은 그래서 이것은 우리가 고려할 수있다 그것이 데이터있는 다양한 있도록 텍스트 데이터로? 네, 확실히, 그것은 구조화되지 않은 데이터 텍스트 데이터입니다 구조화되지 않은 데이터로 간주됩니다

다음 하나 개의 오디오, MP 3 가지와 같은 오디오 파일 오디오 파일이 오디오 데이터를 저장하려면 이렇게 먼저 인 데이터 타입은? 예, 우리는이를 저장할 수 없습니다 구조화되지 않은 데이터는 우리의 관계형 데이타베이스에 오디오 데이터 마지막 하나는 PDF 그래서 PDF 포맷 데이터, 예 PDF 형식입니다 데이터가 무엇인지 텍스트 데이터 및 텍스트 데이터 다시 구조화되지 않은 데이터로 간주됩니다 그래서 이러한 예제의 일부입니다 당신은 데이터의 다른 종류에 대해 분명히 희망 그리고 될 수있는 등 빅 데이터를 고려 그리고, 어떤 될 수 없습니다 승인 지금 당신은 무엇 빅 데이터에 대한 명확 이며, 여기서이 모든 빅 데이터 그래서 전입니다 저장 , 저장 저장에 대해 아는 것은 문제 중 하나입니다 나는 엄청난 양의 데이터를 저장하는 데 의미 우리는 몇 가지 기계를 필요로하기 전에 대해 알고 모든 스토리지 일들이 나에게 처리 일 가자 하나의 컴퓨터와 데이터를 읽는 예, 우리는 데이터의 4 테라 바이트를 가지고 이 기계 100 메가 바이트 속도를 가지고 초당이 기계가 처리 할 필요가되도록 4 테라 바이트의 데이터를 상기 IO 채널은 데 초당 100 메가 속도 그래서이 문제를 처리하는 데 얼마나 많은 시간이 걸릴 것입니다 4 테라 바이트의 데이터 당신은 지금 계산시겠습니까? 기다릴게 예 그래서 여기 계산은 매우 간단합니다 4 terebytes 줄 것이다 초당 100메가바이트으로 나눈 당신이 여기 시간 4 테라 바이트 당신은 변환합니다 이 속도 때문에 메가 바이트으로 테라 바이트 초당 메가 바이트에 그래서 4 테라 바이트는 X 1,024기가바이트 X (1024)는 변환 메가 바이트에 너무 4x4x1024x1024는 구분 초당 100메가바이트으로 내가 원하는 그래서도 68로 나누어하고 분 결과 즉, 따라서 대략 60 X 100 그래서 4를 처리 700 분지고있어 단일 시스템으로 데이터 테라 초당 100 메가 갖는 속도 그것은 700 분 필요합니다 좋아, 당신이 처리 할 경우 이렇게 이 하나의 기계는 당신이 가지고있는 시간이다 좋아, 그래서 당신이 원하는 경우 어떻게 처리 평행 다른 기계로 처리하고, 당신은 다른과 함께 처리 할 이유 기계 당신은 병렬로 처리하기 때문에 경우 당신은 매우 빠르게 처리 할 수 ​​있습니다

내가 당신을 보여 드리죠 여기에 계산 그래서 여기 있어요 1백메가바이트와 데이터 4 테라 바이트를 처리 할 초당 당신은 과정 700 분지고있다 그게 당신이 원하는 경우 어떻게 11에 시간 40 분 4 개 병렬 머신이 데이터를 처리 그래서 전, 병렬 처리 무엇을 당신이 고려해야 할 첫 번째해야 할 4 기계 당신은 배포해야 데이터의 4 테라 바이트로 동등 1 테라 바이트, 1 테라 바이트, 1 테라 바이트 추천 기계, 1 테라 바이트 데이터 그래서 지금이 4 teratypes 평행을 추천 장치에 배포됩니다 1 테라 바이트, 1 테라 바이트, 1 테라 바이트, 1 테라 바이트 각각의 머신과 데이터를 처리 할 초당 100메가바이트 따라서 각 시스템은 처리해야 100메가바이트 데이터와 1 테라 초당 그래서 어느 정도의 시간이 소요되는지 첫 번째 시스템은 1 테라 바이트를 처리하기 위해, 즉 1백75분, 그래서 당신은 같이 계산할 수 있습니다 1024 X 1024으로 나눈 X 1 테라 100 × 60 간단히 말해서 나는 당신이 4 테라 바이트로 그것을 할 수 있습니다 그것은 1 테라 바이트의 700 분 필요가있을 것입니다 4 700, 단순히 그것이했다 그래서 만약 175분입니다 그것은 또한 걸릴 것 1 기계 1백75분 3 기계와 175에 대한 2 차 175, 175 4 기계 얼마나 많은 시간을 너무 이 데이터는 데이터 4 4 테라 바이트가 될 수있다 평행이를 실행하여 프로세스를 처리와 평행하여 4 기계 또는 이 4 개의 기계는 175 분으로 있도록 는 이러한 실행 있기 때문에 7백분 아니다 4 기계는 모두를 의미 평행 실행 4 기계를 동시에 작업하고 이 전체 데이터의 처리가 완료 175분 우리가 속도를 말할 수있는 전체 있도록 처리되는 데이터 400 메가 바이트 초당 시간 175 분 이 병렬 처리에 대한 명확 바랍니다

따라서 병렬 처리의 장점은 무엇인가 여기에 짧은 시간에 더 많은을 처리 할 수 ​​있습니다 데이터는 그래서 당신이 직면 한 도전 무엇인가 이 일을하고있다 첫 번째는 여기 당신은 분할하고 데이터를 배포해야 모든 4 기계로이 중 하나입니다 도전 분할 때문에 서로 다른 두 가지 배포하는 당신이 분할 및 배포 알고 희망 분할은 1 테라 바이트로 덩어리를 만드는 것입니다, 1 테라 바이트, 1 테라 바이트 및 배포 어떤이를 보내는이 데이터를 전송하는 첫번째 임무에 1 개 테라 바이트의 데이터와 기계에 제 2 테라 에 세 번째 기계 4 테라 바이트에 3 테라 바이트 4 시스템이 무엇 배포하고 이렇게 나누어 분배하는 주요 인 중 하나 도전은 다음의 하나 인 병렬 처리 그래서 당신은 평행이 모든 기계를 실행해야합니다 그래서 도전 중 하나입니다 다음 중 하나입니다 이전 예에서, 그래서 결과를 결합 필요 결합하지 수 있도록 그냥 데이터를 읽고 아무것도 나는 당신이 어떤을 생성하지 않는 당신을 의미 결과는 당신에게 아무것도하지만 결합 할 필요가있어하지 않도록 이후이 기계 중 일부 결과가있는 경우 처리는이 결과를 결합해야 하나 그렇게 결과를 결합로하고 그것을 만들 또한 도전의 하나 그리고 마지막으로 비용이 많이 드는 서버입니다 즉,이 기계에게 그렇다면 비싼 기계를 의미 기계는 비용이 많이 드는하므로 시스템의 비용 이 때문에 증가 할 것이다 또한 도전 중 하나입니다 비용은 개발자 문제가되지 않습니다 어떤 곳 또는 직원의 문제는 관리입니다 문제가 있지만, 분할 및 배포 이러한 병렬 처리이다 빗질 개발자의 모든 두통 어떤이 사다리를 극복하는 방법을 이렇게 보여줍니다 이 문제는,이 문제를 어떻게 극복하기 그래서 솔루션은 이러한 모든를 극복하기 위해 문제는 하둡이다

하둡은뿐만 아니라 솔루션 내가 중 하나를 말할 수있는 많은 솔루션이있다 용액 하둡이다 그래서 하둡은 무엇인가? 나는 당신에게 간단한 소개 나 간단한주지 하둡의 정의 아파치 하둡은 오픈 분산에 대한 소스 소프트웨어 프레임 워크 저장 및 대용량의 분산 처리 데이터는 범용 하드웨어 클러스터에 설정 큰 정의는 그래서으로이 정의를 깰 수있을 세 부분으로 우리가 매우 이해할 수 있도록 용이하게 마우스 오른쪽 단추로, 첫 번째는 그래서 오픈 소스 소프트웨어 프레임 워크 하둡은 오픈 소스입니다 소프트웨어를 의미 소프트웨어 프레임 워크 무료로 누구나 사용할 수에 대한 사람이 갈 수있다 아파치 웹 사이트 및이 하둡 소프트웨어를 다운로드 무료로 사용할 수 있습니다

그래서 이것은 무엇 장점이다 오픈 소스 소프트웨어 프레임 워크 두 번째는 분산 저장 및 분산 처리 나는 이미 배포 배포하고 무엇인지 설명 이 데이터 기억 수단 평행 기억 다른 기계로 평행에 저장하는 것입니다 분산 저장 및 분산 처리 또한 때문에 데이터 저장에 평행 처리 병렬로 데이터를 처리하는 병렬 인 어떤 하둡에 의해 수행 마지막 하나는이 데이터의 뜻 상품의 클러스터에 저장되고 처리 될 하드웨어는 그래서 클러스터가 무엇 클러스터? 클러스터는 단순히 기계의 그룹 또는 시스템의 네트워크 상용 하드웨어와이 클러스터의 클러스터 그래서 범용 하드웨어 상품 의해 형성 그래서 하둡 seephor 하드웨어는 오픈 소스 인 소프트웨어 프레임 워크와 그 데이터가 있는지 확인 분산 방식으로 저장 및 처리 될 그리고 상품의 클러스터에 데이터를 저장할 하드웨어는 그래서 우리가 당신의 도전을 확인하자 먼저 분산 직면하는 도전이 무엇인지 저장이되도록 분산 처리 하둡에 의해 알아서 할 것, 두 번째는 병렬 프로세싱이 돌볼 것 또한 하둡에 의해, 세 번째 것은 세 번째 것입니다 그것은 또한 처리됩니다 있도록 결과를 결합 하둡 프레임 워크 그리고 마지막으로 비용이 많이 드는하여 당신은 상용 하드웨어를 사용하도록 서버 여기 이렇게도 overcomeThis되는이 단순히 하둡의 정의, 아파치 하둡이 인 분산을위한 오픈 소스 소프트웨어 프레임 워크 저장 및 분산 처리는 큰 변화 데이터는 범용 하드웨어 클러스터에 설정한다 여러분 모두의 정의에 대해 분명히있어 희망 지금이 하둡은 무엇으로 이루어져 있는지 빅 데이터 및 내가 정의 스토리지에서 당신을 설명 된대로 및 처리는 여기에 물건을 측정하는 것입니다 그래서 하둡의 핵심은 두 가지로 구성 하나는 HDFS 하둡 분산 파일 시스템입니다 두 번째지도는 그래서 이전과 같이 감소한다 나는 당신에게 하나의 저장을위한 두 가지를 이야기하고 HDFS는 어떤 스토리지 그래서 하나는 처리를 위해입니다 부분 및지도 줄은 무엇 처리 부분이다

나는이이 두 가지 있습니다 설명 할 것이다 하둡의 개념은, 미안 그래서 나는 설명 할 것이다 우리의 정규 수업에서이 두 가지 그리고, 내가 다음 빛 왜 하둡 가자 그 하둡의 중요성이 무엇을 의미? 그래서 첫 번째 즉를 저장하는 기능입니다 이 저장하고있는 엄청난 양을 처리 할 수 ​​있습니다 데이터의 종류는 매우 빠르게 매우 처리 할 수 ​​있습니다 신속하게 데이터 볼륨과 유감의 데이터 볼륨에 와 다양성은 지속적으로 특히 증가 소셜 미디어 및 물건의 인터넷에서 이 처리와 같은 키를 키 고려 데이터의 종류 및 처리 매우 큰 데이터 빨리이이 세대와 같은에서 무엇을 필요가 그 특히 소셜 미디어와 인터넷에서 일들이 발생하는 것들 데이터는 매우 fastly 요즘 그 무엇이다 하둡은 매우 빠르게 처리하고 다음을하고있다 컴퓨팅 파워 하둡의 분산 컴퓨팅 모델 데이터를 처리하는 매우 빠른 처리 이 데이터 빅 데이터는 매우 빠릅니다 이것 때문에 그 병렬 처리는 우리가이 전화 할게 무엇인가 처리를 분산하고도 증가시킬 수있다 더 많은 계산이 처리 속도 노드 당신은 당신이 가지고있는 처리 능력을 가지고 당신이 처리에 더 많은 컴퓨터가있는 경우 즉, 당신은 병렬 데이터 처리를 처리 할 수 힘은 매우 짧은 시간에 의미 이상이다 당신은 다음 중 하나가 고장 인 dataThe를 처리 할 수 ​​있습니다 그래서 하둡 허용 데이터를 구비하고, 애플리케이션 프로세싱은 하드웨어 보호 실패 때문에 하드웨어 장애로부터 보호 노드가있는 경우에도 노드가 다운 될 경우에도 의미 경우에도 노드가 실패 할 경우 또는 당신이로는 추락 범용 하드웨어 하드웨어를 사용하여 높은 존재 그래서 만약에 기계 충돌의 기회 노드 또는 기계가 고장 났거나 추락있어 그래서 작업은 하둡 작업이 자동으로됩니다 다른 기계로 리디렉션 다른 노드는 확인하는 것을 분산 컴퓨팅 실패 그래서 이것은 어떤 장점입니다하지 않습니다 하둡 하나 개의 노드가 다운되면 그것은 수 있도록 데 다른 노드로 리디렉션 유사한 데이터 그래서 왜 유사한 데이터는 것입니다 하둡 데이터의 여러 사본을 저장하기 때문에 즉, 동일한 데이터에 저장된다는 것을 의미 다른 기계 또는 서로 다른 노드이 그래서 데이터의 복제 복제로 전화를 무슨 기계의 경우 하나의 사고를 가지고함으로써, 있도록 취하거나 다음에서 데이터를 처리합니다 기계 그래서이 하둡의 장점입니다 하둡의 장점은 다음 하나는 달리 너무 유연성 우리의 전통적인 관계형 데이터베이스, 당신은하지 않습니다 저장하기 전에 데이터를 전처리한다 전처리는 데이터를 확인할 수 있습니다 의미 데이터를 데이터베이스에 저장하기 전에 나는 이미 당신에게로 이 있는지 여부를 확인합니다 직원의 급여 데이터가 소수인지 아닌지 즉 의미 번호인지 그래서에 데이터를 저장하기 전에 데이터베이스는 유효성을 확인합니다 그래서이 기존의 데이터베이스와는 달리이 일을 달리 사전 처리에 당신은 필요없는 데이터 이전 이전에 저장 같은 데이터베이스에 기억 당신이 원하는대로 HDFS 우리는 많은 데이터를 저장할 수 있습니다 나중에이 데이터를 사용하는 방법을 결정 , 비정형 데이터, 텍스트 데이터, 이미지가 포함 비디오 어떤 형식입니다

그래서 이것은 무엇 유연성이다 우리는 하둡에 있습니다 다음 하나는 저렴한 비용이다 난 이미 정의, 하둡에서 당신에게로 오픈 소스 소프트웨어 프레임 워크이다 즉, 소프트웨어가 무료로 의미 또한 당신은 상품 머신이있을 것이다, 상용 하드웨어 그래서, 그래서 이들은 또한 아주 싼 그래서이 하둡은 무엇 매우 저렴합니다 마지막 하나는 쉽게 성장할 수있는 확장 성을 당신의 추가하여 더 많은 데이터를 간단하게 처리 할 수있는 시스템 당신은 더 많은 데이터를 저장하려면 의미 노드 및 프로세스 더 많은 데이터가 더 많은 기계를 가질 수 있습니다 필요 할 때마다 당신은 단순히 기계를 추가 할 수 있습니다, 하지만 약간의 관리는 필요 그래서 이것은이 내 말은 어떻게 무엇을이다 하둡의 중요성 당신이 이들에 대해 분명히있어 희망 6 점은 지금은 다음 빛에 갈거야 여기에 내가 당신에게 모든 구성 요소를 보여줍니다 하둡 설명함으로써 에코 시스템 에코 내가 할게요 큰 경우에, 그래서 간단한 예 다시 아마존 예 그래서 어떻게 권고 사항은 아마존에 표시됩니다 당신은 특정 제품에 대한 웹 사이트를 검색하는 동안 그래서 당신은 당신이 무엇을하고 객실에서 노트북과 함께 앉아 당신은 열 아마존의 웹 사이트 당신은 검색 과와 특정 모바일 사용자 정의 당신이 검색하는 동안 당신은 무엇을 할 것 인 그래서 기능 제품에 대한 당신은 아마존 것을 요청합니다 웹 서버는 당신에게 제품의 데이터를 제공하는 그래서이 데이터 될 위치를 어디에이 데이터 이것이 우리의 관계에 저장됩니다 저장됩니다 아마존이 어떤 관계를 가질 것이다 데이터베이스 데이터베이스는 그래서이 아마존에서이 데이터를 수정합니다 이 보여 질 것이며, 관계형 데이타베이스 웹 사이트와의 일부를 수행하여 당신 작업 다른 검색 같은 제품이 생성이 모든 것을 이 웹 서버는 일부 로그를 생성합니다, 그래서 우리는이 로그와 기반을 처리해야 이 로그 데이터에만 권장됩니다 표시, 그래서 이것은 로그 데이터 무엇이 우리의 데이터입니다 그래서 우리는 HDFS의 하둡에이 데이터를 취할 필요 분산 파일 시스템 그래서 당신은 얻을 것이다 방법 이 라인이이 라인 전에 그냥 분리하는 하둡은 다른 것들로부터 시스템을 에코 승인 그래서 HDFS, Hadoop을에이 로그 데이터를 얻을하는 방법 이 다이어그램 하둡에 있으므로, 파일 시스템 분산 몇 가지를 가지고 하둡 분산 파일 시스템 다른 기계 난 그냥 당신에게 3 기계를 보였다 노란색 컬러 그래서 우리는이 데이터를 얻을 필요 HDFS에이 로그 데이터는 어떻게이 데이터를 얻을 것이다 그래서 여기에 우리는 수로라는 하나의 도구가 있습니다

수로는 데이터 데이터 주입 도구 인 HDFS에 데이터를 얻을 것이다 것은 로그 데이터를 얻을 수 있도록 그리고 분산 하둡에 데이터를 저장합니다 좋아, 시스템 파일 우리는 하둡에 데이터를 가지고 분산 파일 시스템이 로그 그러나 데이터가되지 않도록 이 로그 데이터를 가정처럼 모든 정보를 사용자 ID와 정보를 제공합니다 그래서 ID, 우리는 ID 무엇인지 모른다 이 ID를 가진 그래서, 나는 사용자의 일부를 얻으려면 그는이 저장되는 위치와 같은 정보는, 그의 이름은 무엇입니까 아마존 때문에이 표창이있을 것 위치에 따라 표시 또한, 오른쪽, 그래서 얻을 필요 사용자의 위치 때문에이 사용하지 못할 수 있습니다 로그 만이 사용할 수 있습니다 곳이 될 것입니다 모든 때문에 관계형 데이터베이스에서 사용할 수 사용자 이름과 같은 사용자 정보 주소와 자신의 연락처 번호 다 우리의 관계형 데이터베이스에있을 것입니다 좋아, 우리는이 관계형 데이터를 결합해야합니다 그 전에 내가 당신에게 한 가지 한 가지 더 말해 줄 수 해당 쿼리 우리가 할 수있는 또한 HDFS에 데이터를 저장 한 후 Noye 스케일 데이터베이스 또는 Noye 규모의 데이터 데이터 기본 언어

그것이 우리가 H 기반을 가지고 있다고 가정 우리가 할 수있는이 데이터베이스 그래서 Noye 규모의 데이터베이스 일부 테이블을 만들거나 우리는 몇 가지 구조를 만들 수 있습니다 HDFS에 저장된 데이터에 대한 그래서 H베이스는 Noye 스케일 데이터베이스는 그래서 어떤 난 당신이 쿼리를 쓸 수있는 의미처럼 조회 할 수 있습니다 데이터의 다른 형태의 당신은 결과를 볼 수 있습니다 예, 제가 원하는 상황으로 돌아 가자 사용자의 위치는 그 위치를 의미 사용자는 그래서 관계에서이 데이터를 얻을 수 있습니다 머물고있다 데이터베이스 그래서 내가이 데이터 그래서 수로를 얻을 수있는 방법 관계형 데이터베이스에서 데이터를 얻을 수 있도록 이를 위해 우리는 또 하나의 도구를 사용하는 것은 Sqoop을 호출합니다 Sqoop을 이름 자체가 하둡에 SQL을 말한다 즉, 관계형에 데이터를 전송하는 것을 의미합니다 HDFS이다 하둡에 데이터베이스 하둡 분산 파일 시스템과 우리가 가지고있는 모든 HDFS에 필요한 정보를 지금 우리가 필요 뜻이 데이터를 처리하기 위해 우리가 필요 대부분의 모든 제품 검색 무엇을 얻을 사용자와의 사용자에게 표시됩니다 권장 그래서 우리는 무엇을 얻을 필요로 우리가로 표시하는 데 필요한 모든 제품은 무엇인가 권장 사항을 참조하십시오 그래서 처리 부분이 될 것입니다 나는 이미 하둡에게로지도에 의해 수행은 감소 코어는 저장을위한 두 가지의 HDFS 구성 및지도 처리를 위해 줄입니다

따라서이 데이터를 처리하고는이 저장됩니다 그래서이 HDFS에서 처음으로 HDFS에서 권고 다시 우리는 이러한 권장 사항을 수행해야합니다 또는, 관계형 데이터베이스에이 데이터를 가지고 때때로 우리는에 결과를 취할 필요 여기 관계형 데이터베이스 우리는 다시 사용할 필요가 관계에 하둡에서 데이터를 취할 Sqoop을 데이터베이스 정도로 Sqoope는 양방향 데이터 분사 인 이 데이터를 전송할 수 있다는 것을 의미 공구 에 하둡과 하둡에 관계형 데이터베이스 또한 관계형 데이터베이스 이 관계 데이터베이스에서 우리는 표시됩니다 권고 또는 아마존이 표시됩니다 사용자에게 권고, 그래서 이것이 어떻게 권장 사항은 사용자에게 표시됩니다 즉, 하둡에 로그 데이터를 얻을 것이다 의미 데이터의 주입 도구와 수조를 호출 윌 관계형 데이터의 데이터를 얻을, 나는 그것이를 얻을 것이다 그것을 의미 에 테이블의 관계형 데이터베이스 관계형 날짜 구성 요소와 하둡은 Sqoop을하고 호출 여기에 처리 부분은지도 감소되고 우리는이 HDFS 위에 Noye 스케일 데이터베이스는 H베이스 인 이러한 것들로 우리가 얻을 수 권고하지만 다른 것입니다 지도 줄이 너무 처리 프레임 워크입니다 지도 감소는 JAVA로 작성되었습니다 JAVA 언어 때문에 JAVA 언어는, 참으로 당신의 일부는 자바를 알고있을 자바는 너무 어려워 조금 극복하기 위해 무엇을 우리는 하이브라는 또 하나 개의 구성 요소가있다 하이브는 같이하지 의미 언어와 같은 SQL입니다 JAVA 어려운 그것은 언어와 같은 SQL은 그래서 당신은 할 수 쿼리를 작성하고, 다시 전환됩니다 지도 할 계획을 줄이고 그것을 처리하지만,에 높은 수준의 프로그래머 내 말은 할 필요 프로그래머가 코드를 작성 할 필요가 없습니다 JAVA에지도처럼 당신은 SQL의 SQL을 작성할 수 감소 하이브에서 쿼리있다 이것은 무엇의 장점입니다 하이브, 다음 하나는 돼지입니다

돼지는 다시 전처리이다 프레임 워크, 돼지 스크립트 도구입니다 무엇도 할 수 있습니다 스크립트처럼이에 비해 매우 쉬운 것입니다 지도 줄이거 나 2 라이너는 돼지의 있도록지도, JAVA 감소 돼지 코드 2 개 라인 JAVA 20 개 라인과 동일 할 것이다 그래서 이것은 돼지가 얼마나 간단하기 때문에 차이점은 무엇입니까 수 있도록 돼지 및 하이브 사이에 난 이미 당신을 말했다 돼지 전처리 프레임 워크이며 이름이 수 자체 마찬가지로이 돼지 도구 돼지, 돼지 수있는 모든 것을 말한다 모든 유형의 데이터를 처리 할 수 ​​있지만, 하이브 하이브해야합니다 나는 이미 하이브 언어와 같은 SQL을 가지고 이야기 SQL은 너무 기반의 구조화 된 쿼리 언어를 의미 비 구조화 데이터를 생성한다 구조화 하이브에 테이블 그래서 하이브는 주로 구조에서 작동합니다 데이터는하지만, 여기서는 그 일이 무엇인가 전처리 당신이 경우 또는 경우에 그래서 당신은 구조화되지 않은 데이터가 돼지와 전처리 및 후 처리에 해당 나는 돼지 데이터의 처리 후 의미, 우리가 만들 수 있습니다 이를 위해 우리가 필요로하므로 데이터의 상단에 하이브 테이블, H 카탈로그라는 또 하나의 도구입니다 H 카탈로그가 될 것입니다 하이브 돼지 간의 통신에 사용 그리고 마지막으로 우리는 도구에서 호출 한 사육사는 그래서 이름 자체가 말한다 사육사가 무엇을 할 것 인 사육사, 동물원의 모든 동물을 조정합니다 마찬가지로이 사육사는 모든 좌표합니다 하둡의 구성 요소와 같은 시스템을 에코 Sqoop을이 수로는 HDFS는,지도 감소, H베이스, 하이브, 돼지, H 카탈로그 모든 에코, 나는이 모든 의미 에코 시스템의 구성 요소가 조정됩니다 사육사에 의해 이 모든에 대해 분명히있어 희망 내가 잠시 다시 말씀 드리죠 구성 요소, 그래서 수로가 될 것입니다 데이터 주입 도구가로 로그 데이터를 얻을 것이다 HDFS 지도 감소 처리 프레임 워크입니다 HDFS는 하둡의 기억 저장 부에 Sqoop을는 양방향 데이터 주입 도구 그것은 관계형 데이터베이스에서 데이터를 얻을 것이다 그리고 그것은 또한 관계형 데이터베이스에 데이터를 얻을 것이다 하둡과 하이브에서 언어와 같은 SQL입니다 그리고 돼지는 스크립팅 언어는 전처리이다 도구는 H베이스는 Noye 스케일 데이터베이스 H 카탈로그이며 사이의 통신에 사용되는 하이브 및 돼지와 사육사가 사용됩니다 의 좌표 모든 구성 요소 하둡 에코 시스템 이것은 무엇을 짧게 하둡입니다 에코 시스템 아키텍처 때문에 HDFS는이다 어떤 스토리지 부분지도는 감소 일부 처리, H 카탈로그 메타 데이터 인 서비스는 하이브와 돼지 사이의 의사 소통 H H베이스 기재는 Noye 스케일 데이터 기지 Sqoop을하고 수로 데이터 주입 도구 와 사육사는 조정 도구입니다 와 Oozie는 돌봐되는 워크 플로우 및 예약

그래서 내가 잘 설명하지 않았다, 그래서 나는 당신을 말할 것이다 그래서 Oozie는 그래서 예약 작업입니다 작업은 일부 하이브 쿼리로 구성되어있는 경우 그것은 수도 돼지 쿼리와 그것을 구성 또한 수도 일자리를 줄지도로 구성되어 있습니다 그래서 나는 모든 것을 통합하는 데 필요한 단일 작업에서, 일의이 워크 플로의 종류 때문에 여기서의 데이터가 흐르도록해야 곳에, 이 워크 플로 및 일정입니다 그래서 당신은 매일 작업을 예약 할 수 있습니다 특정 시간에 이런 일 그래서이 모든 일이 될 것입니다 Oozie로주의해야합니다 나는 우리가 할 수있는 의미 그것이 워크 플로우 그래서, Oozie 취급 예약 도구 및 다른 모든 것들과 이미 설명했다 나는 당신에게 모든 도구를 약속 해요 명확하게 설명 및 프로그램됩니다 모든 나는 정규 수업에서 설명 할 것이다

지도 대신에 속도에 그래서도 우리에게 수 감소 또한, 처리기구 인 점화를 사용한다 그래서 나는 또한뿐만 아니라 불꽃에 수업을받을 수 있습니다 요청할 것 그리고 데모에 참석 주셔서 감사합니다 아주 많이하고있는 경우 감사합니다 질문이, 당신은 저를 요청할 수 있습니다

Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Hadoop Training | Edureka

모두 안녕, 이것은 우리가있어 Edureka에서 오늘의 튜토리얼에서 Reshma입니다 하둡에 초점을 맞출 것이다 오늘의 시청에 모든 참석자 감사 세션

난 당신이 모든 세션을 즐길 수 있기를 바랍니다하지만 시작하기 전에 내가 원하는 여러분 모두 너무 친절 제대로 내 말 듣고 나을 드롭 할 수 있는지 확인합니다 채팅 창에서 확인이 그래서 내가 시작할 수 있습니다 좋아, 그래서 야해 카니 카 네하 Keshav의 확인 제이슨 세바스찬이있다 좋아 그래서 우리는 우리가 오늘 학습 할 수 있습니다 주제를보고 시작합니다 그래서 우리는 때문에의 이유를 빅 데이터의 성장 동력을 학습하여 시작합니다 데이터가 큰 것은 데이터로 변환하고있다 그럼 우리는 무엇인지 살펴 보겠습니다 빅 데이터는 우리는 하둡이다 빅 데이터의 솔루션에 대해 살펴 보겠습니다 그래서 우리는 또한 하둡과 다른의 마스터 / 슬레이브 아키텍처를 볼 수 있습니다 하둡의 핵심 구성 요소, 우리는 또한 데이터 블록에 얼마나 HDFS 데이터를 저장을 연구합니다 어떻게 읽기 / 쓰기 메커니즘은 HDFS에서 작동합니다

그런 다음 우리는 이해합니다 하둡의 프로그래밍 부분 맵리 듀스로 알려져 있으며, 우리는 이해할 수있을 겁니다되는 이것은 맵리 듀스 프로그램으로 우리는 전체 맵리 듀스 작업을 이해하게 될 것입니다 워크 플로우 우리는 다른 도구 하둡 생태계를 볼 수 있습니다 그 하둡 에코 시스템으로 구성되어 마침내 우리는 사용 사례 곳에서 할게요 우리는 하둡 실제 생활의 모든 빅 데이터 문제를 해결 한 방법을 볼 수 있습니다 그래서 나는 희망 의제는 모든 사람에게 깨끗한 지, 모든 권리 모두가 것 같다 의제 분명 그래서 우리는 시작하는거야 그리고 우리는 큰 시작합니다 데이터 성장 동력 이제 빅 데이터의 성장 뒤에 이유가 될 수있다 기술 데이터의 향상도 성장하고있다 이래 수많은 당신이 70 년대 또는 80 년대처럼 시간을 거슬러 가서 지금 경우 매일 많은 사람들이 아니었다 컴퓨터를 사용 다루고있는 사람들의 일부분 만이 있었다 컴퓨터 및 컴퓨터 시스템에 공급되는 데이터가 매우도 있었다 이유입니다 덜하지만 지금은 모두가 가젯 모두를 소유하고 휴대 전화 모두가 노트북을 소유하고 그들은 당신도 할 수 있습니다 매일 데이터를 생성하는 우리는 스마트 다루고있는 요즘 요인으로 사물의 인터넷의 생각 장치 우리는 서로 연결되어 스마트 가전 제품을 가지고 그리고 그들은 네트워크를 형성 사물의 인터넷 불과하다있는 그들이 시도 할 때 일들 때문에 이러한 스마트 어플라이언스는 데이터를 생성하는 큰의 상승 뒤에 서로 하나 개 눈에 띄는 요소와 통신 우리의 마음에 오는 데이터는 우리가 수십억 사람들이 소셜 미디어입니다 소셜 미디어 때문에 우리 인간 우리는 사회적 동물이며 우리는 상호 작용하는 사랑 우리는 우리의 생각과 감정과 소셜 미디어 웹 사이트를 공유하는 사랑 우리가 필요로하는 우리가 바로 플랫폼을 제공하고 우리는 그것을 사용하고있다 광범위하게 매일 당신은 화면의 앞에 통계에 당신 있도록 본다면 그 페이스 북에서 사용자가 거의 400 만 좋아하는 모든 생성 볼 수 있습니다 60초 유사 트위터에 거의 30 만 트윗 매 60가 레딧에 초 인스 타 그램에 18,000 사용자 개 투표가 더있다 100 만 좋아하는 것보다 유튜브에 새로운 비디오의 거의 300시간있다 지금은 당신이 할 수있는 60 초마다 데이터 60 ​​초마다 업로드 우리가 매일 처리되는 데이터의 종류를 상상하고 얼마나 많은 데이터 우리는 소셜 미디어 웹 사이트가 그 이후 수년에 걸쳐 축적 된 지금 시작하는 많은 데이터 그리고 그것은 년 동안 기하 급수적으로 증가하고있다 그래서 시스코는 이제 모든 것을 알고 이것에 대해 이야기하는 것을 보자 시스코 가장 큰 네트워킹 회사 중 하나입니다 그리고 그들은을 모니터링 한 데이터 트래픽은 그들이 년 동안 받고있다 그리고 그들은에이를 게시 한 자신의 백서 그들은 매년 게시하고 우리는 여기에서 볼 수있는 그들은 2020 년 우리가 306 엑사 바이트 다루고있을거야 제공 한 통계 이제 한 엑사 바이트는 18 바이트 이제 전원 (10)를 발생 데이터의는 많은입니다 심지어 당신이 생각할 수있는 제로 2015 년 당신은 우리 만 처리 된 것을 볼 경우 3

7 엑사 바이트로 지금은 불과 5 년 만에 우리는 306까지거야 데이터가 되었기 때문에 엑사 바이트는 지금은 앞으로 몇 년 더 할 수있다 기하 급수적으로 증가하고 우리는 지금 많은 양의 데이터를 처리하고, 시스코는있다 또한 이제 때문에 데이터의 상승의 세 가지 주요 이유를 언급 첫 번째는 스마트 모바일 기기에 적응 지금은 일이 우리가 할 수있는 노키아 1100과 같은 휴대 전화를 사용하고 때 사라 사람 만 전화 통화를 수신하고 단지 몇 줄의 텍스트를 보내 메시지는 요즘 모든 사람들이 스마트 폰을 사용하고 우리는 다른 사용 응용 프로그램의 각 그래서 애플 리케이션과 우리의 전화는 많은 양의 데이터를 생성한다 다음 그들이 현재 셀 네트워크의 발전을 정의하는 언급 한 이유 이전에 우리는 2G 지금 우리가 3G 및 4G와 함께했다 그리고 우리는 기대하고 5g 지금 시간에 우리는 셀룰러 네트워크 기술의 전진도하고 그것은 우리가 가능한 우리가 더 빠르게 통신 할 수 및 더 나은로했다 이미 우리가이 일을 공유하는 사랑 말했 때문에 왜 방법 및 그건 우리가 동영상이나 모든 종류의 메시지를 보내거나 보낼 매우 쉽게되어 심지어 국가 떨어져 있으며 그것은 단지 몇 걸립니다 우리의 친구에게 파일 초 그 사람도 초 밀리 초는 메시지를받을 수 없습니다 그것은 우리가 때문에의 용이성 광범위하게 그것을 사용하는 이유 우리가 제공하기 것을 사용하고 그들이 언급 한 그 다음 이유는 지금 계층 가격을 검토 네트워크 회사는 또한 당신을 제공하고 있습니다 데이터의 많은 온 가족이 지금 우리가 무제한이 사용할 수있는 계획 다시 우리를 위해 매우 가능하다 그리고 그 데이터 계획 및 공유 계획 우리가 광범위하게 그것을 사용하는 이유 때문에 모바일 사용자의 많은 요즘 이제이 있습니다 통계는 또한 우리가 할 수 있도록 217 신규 사용자를 60 초마다이 말 상상 거의 거의 모든 사람들이 모바일을 사용하는 세계 인구 중 전화는 이제 잘 거의 그래서 당신은 우리가 다루고있는 것을 말할 수있다 주요가로 빅 데이터가 그래서 지금 우리가 볼 수 있도록 제공하는 이유는 데이터의 많은 그것은 무엇 이름이 큰가는 데이터 당신은 이미이를 것으로 이해되는 빅 데이터는 지금 우리가하지만 경우 다루고있는 대량의 데이터 클러스터 당신은 내가보기 나 한테 물어 전통의의 기능을 둘러싼 문제 문 등 기존의 시스템이 우리를 만들 때 시스템은 그래서를 처리하는 우리는 데이터와 같은 종류의 같은 양을 처리해야한다고 생각하지 데이터들은이 금액을 처리 할 수 ​​없습니다 있도록 생성과 같은 높은 속도 및되는 데이터의 이유가 크다 전통적인 시스템이 큰를 저장할 수 없기 때문에 데이터는 문제가 데이터와 현재 공정을 나는 빅 데이터는 IBM이 그래서 문제가 있음을 이야기하기 때문에 큰 데이터 문제를 식별하기 위해 제안 5vs 그는 의미 때문에 그래서 첫 번째는 "볼륨"입니다 화면의 전면에 클라이언트가 사용하는 데이터의 양이됩니다 너무 큰 것을 점점 더 어려워 클라이언트 또는 고객은에 데이터를 저장하기 위해 다음 기존의 시스템과는 우리가 해결책을 접근해야하는 시간입니다 우리가 얘기하자 다음 V 지금 우리는 이미 우리가 알고 "다양한"입니다 데이터의 엑사 바이트로 데이터의 방대한 양을 다루는 그러나이오고있다 다양한 소스 지금 우리는 mp3 파일로 다루고에서 우리가 상대하고있는 동영상 파일의 이미지를 JSON으로 지금은 MP3 그래서 모든 다른 종류의 수 있습니다 파일과 비디오 파일들은 모든 비정형 데이터 JSON 파일이 반입니다입니다 구조화가 일부 구조화 된 데이터뿐만 아니라하지만 중요한 문제는 그 데이터의 약 90 %가 이렇게 비 구조 데이터의 대부분은 우리가해야 모든 구조화되지 않은 데이터를 덤프 또는 우리는 분명 그것의 사용을해야 우리 그 구조화되지 않은 데이터는 우리가 말하는 그 때문에 그것의 사용을해야한다 약 때문에 페이스 북에 우리는 주로있는 사진 동영상을 공유 다음은 회사에서 사용되기 때문에 구조화되지 않은 사람들은 매우 중요한 데이터는 통찰력 그래서이 데이터를 제공함으로써 얻게되는 비즈니스 의사 결정을 내릴 수 회사 때문에 페이스 북에 자신의 고객을 프로파일 링 할 수있는 기회 당신 다른 페이지를 좋아 주위에 가서 그 프로파일 링되어 이제 때문에 회사는 당신이 좋아하는 것들 중 어떤 종류의 것을 알고 그들은하여 접근 할 수 페이스 북에서 당신은 당신이에 검색 할 때 볼 수있는 광고 때문에 팝업 특정 응용 프로그램이 오른쪽에 사용자의 뉴스 피드이며, 당신은 그 광고는 사용자가 어떤 종류의 알고 특정 또한 것을 찾을 수 있습니다 당신이 페이스 북에 서로 다른 페이지를 탐색했기 때문에 당신이 좋아하는 것들 구글 또는 다른 많은 웹 사이트는 왜 이러한 비정형 데이터 인 매우 중요한 데이터의 90 %를 포함 이것은 우리의 기존 시스템이 불가능하기 때문에 또한 문제가 이 구조화되지 않은 데이터를 처리하는 단계를 포함한다 온다 다음 V는 그래서 "속도"입니다 의 당신이를 만들 경우이 경우를 이해하기 위해 웹 서비스에 대해 이야기하자 웹 서비스와 클라이언트가 어떻게 액세스하기위한 웹 서비스를 제공 웹 서비스가 시점에서 처리 할 수있는 많은 이벤트가 그래서 당신은 아마 말할 수있다 천이나 이천 그래서 일반적으로 거의 2 천 살아있을 것입니다 평균에 시간의 시점에서 연결은 일반적으로 항상있다 그 시점에서 가능한 라이브 연결의 수에 제한 때문에 당신은 당신의 회사가 오백 거래의 임계 값이 있다고 가정 시간의 시점에서 그것은 당신의 상한 그러나 오늘 당신은 할 수 없습니다 당신이 센서에 대해 말하는 빅 데이터의 세계 수의 양이 이야기 GPS와 같은 쉰의 계속 당신에게 보내는 정보는 대한 지속적으로 당신에게 당신에 대해 얘기하고 누군가에게 정보를 전송 수백만 실시간으로 초당 심지어 파업 수십억 일부를 필요로하므로 데이터가 있음을 속도의 양을 견딜 확장 기능 당신이 생각하는 경우 귀하의 기존 시스템에 버려지고 속도는 다음 다시 그들을 제안 고객에 대한 도전 일 수있다 빅 데이터 솔루션이 다시 빅 데이터 문제이기 때문이다 이제 다음 V 그 "값은"이제 데이터 세트는 당신에게 필요한를 제공 할 수없는 경우입니다에 대해 우리가 얘기하자 당신은 통찰력을 확보 한 다음 사업을 개발하는 데 사용할 수있는 정보 매우 중요하기 때문에 당신이 권리가 있음을 당신이 그냥 쓰레기입니다 데이터 당신은 그것에서 지금 거기에서 올바른 정보를 추출 할 수 있습니다 에 대한 불필요한 데이터 세트에 주위에 거짓말 불필요한 데이터 수 있습니다 당신은 지금 당신은 또한 당신을 줄 것이다 데이터 세트를 식별 할 수 있어야 할 것이다 즉 다시 그래서 당신은 위해 필요한 값은 당신의 사업을 개발하기 위해 가치있는 데이터를 식별하고, 따라서 그것은 다시입니다하기 위해 문제 빅 데이터 문제 그리고 마지막으로 우리는 "정확성"에 대해 얘기하자 간단한 단어에서 데이터의 희소성에 대해 너무 진실성 회담 그래서 진실성 말한다 당신은 데이터가 오늘날에 항상 정확하거나 신뢰할 수있는 기대하지 수 세계 당신은 얻을 값 빠져있는 몇 가지 데이터는이 작업을해야 할 수도 있습니다 부정확하거나 항상 성립하지 않을 수 있습니다 데이터가있는 데이터의 여러 유형 그래서 즉 진실성 당신이 신뢰에 시스템을해야한다는 것을 의미 데이터가 항상 정확하지 않을 수 있음을 이해하고, 최대 표준은 당신이이 응용 프로그램 개발자로 당신에게 달려있다 데이터를 통합하고 이해가되지 않습니다 그 데이터를 플러시하고 당신에게 의미가 있습니다 만 데이터를 추출하기 위해 그 데이터를 사용 마지막 결정은 그래서 이들은 다섯 Z의 사용자가 식별하는 데 도움이 될 것입니다 데이터 여부를 빅 데이터 문제는 빅 데이터인지 아닌지 그리고 당신은 찾을 수 있습니다 그것에 대한 해결책에 대한 접근 방식은 그래서 이것은 빅 데이터에 대한 소개였다 그래서 지금 우리는 빅 데이터의 문제를 이해하는 것입니다 그리고 당신을위한 접근 방법 당신이 관련 될 수 이야기와 이에 대한 해결책은 그래서 당신이 찾을 수 있기를 바랍니다 이 부분이 매우 흥미 롭군요

이 밥과 그래서 그래서 이것은 매우 일반적인 시나리오입니다 그는 도시에서 아주 작은 레스토랑을 열었다 그는 위해 웨이터 복장을 주문을 복용하고이 마지막으로 모든 주문 및 요리사 요리사입니다 여기 무슨 일 이제 고객에게 전달이가 요리사가 있다는 것이다 그는 음식 선반에 액세스 할 수있는 그는 모두를 얻을 곳이다 위해 식품 재료 이제이가있는 특정 요리를 요리하기 기존의 시나리오는 그래서 그는 시간 당이 개 주문을 받고 그리고 그는 할 수 있어요 그것은 그에게 행복한 상황이 그래서 그는 요리, 그래서 시간 당이 개 요리를 두 주문 당이 있기 때문에 행복하게 고객이 제공 얻고있다 시간과 그가 음식 선반에 대한 액세스 권한을 가지고 모든 시간을 가지고 또한 그것의 우리는 귀하의 전통과 같은 시나리오를 비교 행복한 하루 유사한 경우 처리 시스템은 또한 데이터 있도록 매우 일정한 속도 모두에서 생성되고 또한 어떤 구성되어 생성되는 데이터가 우리에 매우 용이 그것은 전통에 대한 행복한 날 수 있도록 기존의 시스템을 처리하는 또한 처리 시스템 지금 그래서 이것이 우리가 다른 일에 대해 이야기하자 다른 시나리오는 그래서 밥은 지금 온라인 주문을하기로 결정하고 지금은 지금은 시간 당이 개 주문에서 그렇게 기대했던 것보다 훨씬 더 많은 수주 주문은 시간당 십 개 주문에 오르지 않은 지금 그는 10 요리의 모든 요리한다 그가 할 수 없기 때문에이 그래서 시간은 요리에 매우 나쁜 상황 열 요리 시간마다 요리의 경우 사전에 그는 두 요리를하고 있었다 모든 시간은 이제 너무 우리의 전통적인 처리 시스템의 시나리오를 고려 매우 큰 수 및 생성되는 데이터의 매우 다양한 존재 놀라운 속도로 그들은 이미 통계를 본 것을 I 불과 60 초마다 얼마나 많은 데이터 있도록 생성되고 있음을 보여 주었다 속도는 정말 높고 그들은 모두 비 구조화 된 데이터와 우리의 전통이다 처리 시스템은 그래서에 대한 나쁜 날 것으로 일을 할 수없는 우리의 그렇게 물어 것이기 처리 시스템은 너무 그래서 지금 무슨 일이 해결책이 될한다 밥없이 서비스 고객을 위해 지금 무엇을해야하는지 그래서 너희들 세바스챤 것을 말하고, 그래서 내가 몇 가지 답변을 받고 있어요 그래서 모든 권리를 지연 밥 당신은 문제가 있으므로 올바른 더 요리사를 고용하고 정확하게 세바스찬한다 솔루션이 고용 될 수 있도록 시간 당 너무 많은 주문이 있었다이었다 여러 요리하고 밥 그가 네 더 요리사를 고용 그렇게 정확히 무엇이며, 지금은 다섯 명 요리사를 가지고 있으며 모든 요리는이이 음식 선반에 액세스 할 수 그들은 모두 이제부터 자신의 재료를 얻을 경우 여러 요리사가있다 어쩌면 각각의 요리는 열 개 주문 시간 당이 비록 음식을 요리 이 개 주문 매 시간마다 복용하고 사람들을 제공하고 있지만 문제가 있습니다 아직 단 하나 개의 음식 선반이가 이제 때문에있을 수 있습니다 해안의 모두 같은 상황은 어쩌면의이 두 요리사 하나 같은를 가정 해 봅시다 동시에 성분 그리고 그들은 그 위에 싸움이나하고 다른 요리사 요리사 중 하나가 음식에서 모든 재료를 촬영 할 때까지 기다릴 필요가 선반과 그 시간은 어쩌면 그는 난로과에 뭔가를 가지고있다 그는 그래서 갈 수있는 다른 요리를 기다리고 있었다 때문에 이미 불에있다 그는 그것이 문제가 그래서 다시 그가 원하는 것을 성분에 손을 얻을 수 있습니다 그래서 지금 우리가 전통과 같은 상황을 생각해 보자 처리하기 위해 처리 시스템은 그래서 지금 우리는 여러 프로세서를 가지고있다 그것은 바로하지만 문제를 해결해야하므로 문제가되는 한 모든 데이터 다시 모든 프로세싱 유닛은 데이터를 액세스하기 때문에 문제점이있다 이렇게 처리 된 데이터를 가져 오는 데이터웨어 하우스가 단일 지점에서 네트워크가 많이 발생하는 오버 헤드의 입력 / 출력이 많이있을 것이다 오버 헤드 때문에 그 때때로의 네트워크 혼잡이있을 것 처리부 등의 상황이있을 수는 데이터를 다운로드하고 데이터웨어 하우스와 다른 단위를 액세스하기 위해 대기열에서 기다려야 그 데이터는 거의 실시간으로 수행 할 때이 완전히 실패 이 솔루션은 실패 이유를 처리 상황은 다음과 같은 경우입니다 – 그래서 다음 무엇을 해결해야한다 그래서 나는 몇 가지 답변을 얻을 수 있습니다 좋아 그래서 게이샤은 분산되어야한다고 말한다 당신이 옳다 평행 음식물 선반 보낸 기생 흐름 때문에 밥 병목 있다는 우리는 어떻게 볼 수 있도록 솔루션은 분산 및 병렬 접근 방식을 제공하는 것이 었습니다 밥은 밥이 무슨 짓을했는지 않도록 해결책 그가로 주문을 분할한다는 것을했다 다른 작업은 이제 우리의 그런 말을하자 고기 소스의 예를 살펴 보자 고객이 밥의 레스토랑에 온 그는 고기를 주문했다 소스는 그래서 지금 밥의 주방에서 일어나는 것은 요리사의 각각이 가지고 있다는 것입니다 다른 작업은 그럼 여기이 요리사 고기 소스를 준비하기 위해 가정 해 봅시다 그는 단지 고기와 여기이 요리사를 요리 그는 단지 소스를 요리하고 그 사람도있다 함께 고기와 양념을 결합하기 위해 주방장을 고용하고 이 요리는 고기와 두 요리사 요리 있도록 마지막으로 고객 서비스를 제공 양념을 준비하고 동시에이 평행을 수행하고, 마지막으로이 주방장은 순서를 병합하고 순서는 이제 경우 완료 음식 선반도 밥하기 위해 한 그래서 어떤 병목 기억 이 그가하는 방식으로 음식 껍질을 분산한다는 것입니다 해결하는 요리사 자신의 선반에 자신의 액세스를 가지고 그래서 여기에이 선반 보유 모든 이 요리사가 필요할 수 있습니다 유사 그가 가지고 성분 세 이상 같은 재료를 가지고 선반은 다시 지금의 그 우리를 가정 해 봅시다 우리가하지 않는 경우에, 그래서 요리사 중 하나가 아픈 하강하는 문제가 우리는 또한 우리가 할 수있는 고기를 요리 할 수있는 또 다른 요리를 가지고 있기 때문에 많은 걱정 아주 쉽게이 문제를 해결 유사의 또 다른이 온다 가정 해 봅시다 식품 선반 고장 문제와 여기이 요리사에 액세스 할 수 없습니다 세 개 선반이 있기 때문에 성분 그래서 다시 우리는 걱정할 필요가 없습니다 재해의 그 시간에 우리는 세 가지 더 선반의 백업 그가 할 수있는 정도가 가서 이렇게 기본적으로 여기에 선반의 어떤에서 재료를 사용하는 우리 작은 작업으로 전체 가공 작업을 분산 병렬 만들었다 지금 벌크 레스토랑에서 문제는 서비스 고객 수 없습니다 있습니다 행복하게 나를 그녀와 함께 상황을 연관하자 우리는있어 내가 요리사의 각각 가지고 있다고 말 했어요 여기서 우리가 살펴 보자 하둡 측면에서 자신의 음식 선반이가는 것을 의미 데이터 지역으로 알려져있다 데이터 프로세싱 유닛이 모든 일에 로컬로 사용할 수 있습니다 어디 요리 고기와 소스의 모든 다른 작업을 평행 일어나고 이것은 하둡 측면에서지도로 알려져 있습니다 그리고 그들은 마지막으로 병합 할 때와 마지막으로 우리는이로 알려져 헤드 쉐프 요리로 고기 소스를 가지고있다 감소 우리가 나중에이 튜토리얼에 하둡의 맵리 듀스를 학습 할 수 있습니다하지 않습니다 내가 지금 그것을 말하는거야 경우 조건에 혼란스러워하고 당신은 아니에요 수이 튜토리얼의이 말에 분명히있을거야 그것을 이해하기 위해 나는 약속 그래서 지금 그는 심지어에서 시간 당 모든 열 개 온라인 주문을 처리 할 수 시간은 밥이 더 많은 고객을 얻는 경우에도의 크리스마스 나 신년에 가정 해 봅시다 시간 당 열 개 이상의 주문 그가이 개발 한이 시스템 확장 성이 그 역할을하기 위해 그 경우에 더 요리사 더 주방장을 고용 할 수있다 시간 당 더 많은 주문이 확장 가능한 시스템 당신이 확장 할 수 있도록 스케일 그는 더 요리사를 고용 할 필요가 다운 될 때마다 때마다 그는 그는 더 요리사를 해고 할 수 필요 그래서 이것은 밥이 있었다 궁극적 인 솔루션이며이 매우 효과적이다 참으로하지만 지금은 볼이 모든 문제를 해결했다 그러나 우리는 해결 한 모든 문제는 우리 모두가 큰 데이터를 해결할 수있는 그런 틀을해야합니까 를 저장하고 잘 대답을 처리하는 문제는 그래 우리는 무언가가있다 아파치 하둡이라는이 큰 데이터가 그렇게 우리를하게 처리 할 수있는 프레임 워크입니다 하둡은 우리가 할 수있는 프레임 워크 그래서 가서 자세히 아파치 하둡 참조 저장하고 지금 병렬로 대규모 데이터 세트 및 분산 방식을 처리하는 빅 데이터 처음 다루는 두 가지 주요 문제가 있다는 것을 알고 우리가 가지고 빅 데이터의 저장 문제를 해결하기 위해 수 있도록 스토리지를했다 HDFS 때문에 밥의 그것을 배포하여 식품 선반 문제를 해결하는 방법과 같은 요리사 중에서 유사 하둡의 기억 해결 이제 하둡 분산 파일 시스템을 의미 HDFS와 빅 데이터 우리가 덤핑되는 데이터의 모든 큰 금액 그것은 서로 다른 시스템에 분산 그리고이 기계에 서로 연결되어 우리의 데이터는 분산지고 하둡의 관점에서이라고하는 밥 사이에 나눈 작업에 관리 어떻게 같은 다시 하둡 클러스터와 그의 요리사는하기 위해 매우 빠른 유사 서빙 과정이 필요 빅 데이터를 처리하는 우리는 무엇인가라는 맵리 듀스을 가지고 있고 이것은이다 하둡 프로그래밍 유닛 그래서 병렬있게 분산 우리의 하둡 클러스터 때문에 모든 기계에서 데이터의 처리를 거짓말하는 하둡 클러스터는 그것이 가지고이이 맵으로 알려진 데이터를 처리 중간 출력은를 제공하기 위해 결합되어 마지막 때 이 때문에 맵리 듀스 그래서 지금 줄이고라고 최종 출력은 우리가 이해하자 마스터 / 슬레이브 아키텍처이며, 우리는거야 하둡 아키텍처 난 당신거야 바로 그 확신하는 매우 간단한 시나리오를 취함으로써 이해 모두가 매우 밀접하게이 일반적으로 모든에서 발견되는 시나리오는 그래서에 관련 다른 회사에 우리는 여기에 프로젝트 관리자와 프로젝트 관리자가 있도록 여기에 우리의 예에서 4 명이 존 그래서 사명의 팀을 처리 그가에서 얻을 어떤 프로젝트 때문에 제임스 밥과 앨리스 클라이언트 그는 그것이 자신의 팀 구성원을 넘어 배포하는 방법에 대한 보고서를 추적 작업은 우리가 프로젝트 것을 생각해 보자 그래서 지금 수시로 진행되고 그는 클라이언트에서 네 개의 프로젝트를 받았습니다 여기 매니저는 그래서이 말을하자 프로젝트는 BC와 D 그리고 그는 통해 모든 프로젝트를 할당 한 존 그래서 팀 프로젝트 제임스가 볼 프로젝트 B 밥이 가지고 가지고있다라고 앨리스의가 D 그래서 모두 처리하고 다른 프로젝트에 노력하고있어 및 그는이를 만날 수있을 거라고 확신 그래서 일이 잘 벌어지고 마감 시간에 프로젝트를 제공하지만 밥이 적용되는 문제가있다 그리고 휴가를 위해 그는 내가 떠나기에 갈거야 프로젝트 매니저를 알려줍니다 주 또는이와 나는 사무실을 오는되지 않고 지금 일을 할 수없고, 마지막에 그는에 대한 책임이 있기 때문에 프로젝트 관리자에 대한 문제가 클라이언트에 완료되지 않은 작업은 그래서이 사람이 있는지 확인한다 이 계획 때문에를 생각하는, 그래서 모든 프로젝트는 시간에 전달되도록 이 문제에 어떤 프로젝트를 해결하기 위해, 그래서 그는 매우 영리한 사람이다 관리자는 그가 요한에게 간다 않는 그가 그를 헤이 요한이 어떻게 일을 이야기하고 요한은 내가 그래 난 당신이 정말하고있는 것을 듣고 큰 일을 해요라고 그래 위대하고 프로젝트에서 우수하고있는 존 말했다 일이 뭔가 비린내가 왜 오늘 나에게 너무 감상한다 다음 프로젝트 관리자는 앞서가는 당신이 그렇게하고 있기 때문에 존 있도록 그에게 말한다 물론 왜 당신은뿐만 아니라 볼 수있는 프로젝트를 차지 않았고 존 것들 괜찮아 그건 그 후 더 내 프로젝트와 괜찮아 없음을 관리자에게 다시 응답 나는 이미 할 일이 많이 가지고있어 것을 나는 프로젝트를 취할 수 있다고 생각하지 않습니다 C는 프로젝트 관리자는 더 당신이 오해 당신이하지 않아도 없어 한 더 더 말한다 프로젝트 작업은 당신이 밥은 이미 잘 프로젝트 C에 당신을 노력하고 있습니다 알고 참조 백업 프로젝트로 유지할 수 있습니다 당신은 모르실 수도 당신은 그렇지 않을 수 있습니다 심지어 프로젝트 C의 끝에서 일해야하지만 당신은 모두에 대한 신용을 얻을 것이다 마지막에 프로젝트와 그때 존 상당한 하이킹을 참조하여 수 그가 심지어 그것을 일해야하지 않을 수 있습니다 그가거야 꽤 좋은 거래라고 생각 그 이유는 그리스 그리고 그것은 지금 이렇게 프로젝트 C를 차지 그래서에 대한 인상을받을 프로젝트 관리자가 작업을했다 그는 완료에 대해 걱정할 필요가 없습니다 밥은 마을의 외출하면 프로젝트도보고 이것은 매우 매우 영리하다 심지어 미래의 문제를 해결하기 위해 동료는 그가하는 일은 그 각각에 간다 회원과 그들에게 같은 일을 알려줍니다 따라서 지금은 백업을 가지고있다 회원의 이제까지도에서 선택했다, 그래서 만약 모든 다른 프로젝트에 대한 팀은 그가 백업을 가지고 및 프로젝트 관리자가 완료 방법이 모두 자신의 주어진 시간에 작업 및 클라이언트가 만족하고 그는 또한 확실하게 그는 다시를 들고 누구인지하기 위해서뿐만 아니라 자신의 목록을 업데이트했다고 뿐만 아니라 프로젝트의이 하둡에 우리가 가지고있는 일이 정확히 무엇인가 다른 노예를 감독 마스터 노드는 마스터 노드 노드 슬레이브에서 진행되는 모든 처리의 트랙 기록을 유지 노드 및 재해의 경우에는 그 중 하나는 마스터 노하우를 다운되면 우리는이 모든 사무실의 상황을 비교로 항상 지금 백업을 가지고있다 이 우리의 하둡 클러스터는 그래서는이가 마스터 노드처럼 보이는 것입니다 저희 사무실의 경우 프로젝트 관리자와 이들의 처리입니다 작업이 수행지고 단위 그래서 이것은 정확히 어떻게 하둡입니다 프로세스와 하둡은 빅 데이터가 너무 마스터 슬레이브 아키텍처를 사용하여 관리 나중에 마스터 노드와 슬레이브 노드와 세부 사항에 대한 자세한 내용을 이해 이 튜토리얼 그렇게 의심은 지금까지 지금 우리는 앞으로 이동합니다 우리는 하둡 코어 살펴 보겠습니다 구성 요소는 그리고 우리는 어떤 첫째 HDFS를 살펴거야 하둡 분산 파일 시스템 처음 있도록하는 것은의 두 살펴 보자 HDFS의 구성 요소는 우리는 이미 마스터에 대해 얘기하고 있기 때문에 슬레이브 그렇게 노드 우리는 이것들이를 그래서 이름 노드와 데이터 노드 무엇인지 살펴 보자 우리는 이미에 대해 얘기하고 이후 콤포넌트 당신은 HDFS에서 찾을 수 있습니다 마스터 / 슬레이브 아키텍처 마스터 노드는 이름 노드와 슬레이브로 알려져있다 그래서 여기에 이름 노드가이 유지되도록 노드는 데이터 노드로 알려져 있으며, 관리 슬레이브 노드있는 모든 다른 데이터 노드는 좋아하는 우리 프로젝트 관리자는 팀을 관리하고 너희들이 관리자에게보고하는 방법을 좋아한다 작업 진행 상황과 모든 것에 대해 데이터 노드는 또한으로 같은 일을 하트 비트로서 알려진 신호를 송신하는 단계는 지금까지 단지 신호 데이터 노드가 살아과 오는 지금 잘 작동 이름 노드에게 데이터 노드는 그래서 이것은 실제 데이터가 때 기억 때문에 저장되는 위치입니다 다른 걸쳐 분산 방식으로 데이터를 저장에 대해 이야기 기계 그래서 이것은 정확히 데이터가 분산되어 어디에 그것은이다 데이터 블록에 저장 여기에 데이터 노드는 관리를 담당하므로 모든 데이터 블록에서 데이터 이들은 이러한하지만 아무것도는 노예 데몬과 마스터 데몬은 이름 노드하지만 여기에 다른 볼 수 있습니다 보조 이름 노드이며 이름 당신으로 여기에 구성 요소 이 때 같은 이름의 노드 만 백업입니다 수도를 추측 할 수 이름 노드는 그래서 충돌 할 수 있습니다이 인수하지만 실제로는 아니다 보조 이름의 목적은 목적은 완전히 다른 것입니다하지만 난거야 당신은 단지 잠시 동안 인내심을 유지해야하는 것이 무엇인지를 말해 나는 매우 해요 당신이 얼마나 중요한 보조 이름에 대해 알고 호기심됩니다 있는지 확인 노드는 이제 나에게 우리가있어 이후 잘 보조 이름 노드에 대해 얘기 할 수있다 메타 데이터에 대해 이야기하는 것은 우리의 데이터에 대한 정보에 불과하다하는 것이 포함 하둡 클러스터에서 일어난 한 모든 변경 또는 우리의 HDFS 네임 스페이스와이 메타 데이터는 두 개의 파일을 사용하여 HDFS에 의해 유지되며, RSS 이미지 편집 로그 지금 말해 보자 두 파일은 무엇 F 그래서 그들이다 이미지가 이상이 파일은 여기이있는 모든 수정 사항을 포함 이름 노드 그렇게 시작된 이래로 당신의 하둡 클러스터에서 이루어지고 내 FS 이미지가 포함됩니다 그럼 이름의 노드가 이십일 다시 시작되었습니다 가정 해 봅시다 에서 일어나는 모든 변화의 모든 세부 사항 당신은 많은 양의 데이터가있을 것이라고 상상할 수 분명 있도록 이십일 요청 이에 포함 된 것은 여기 찾아 우리가 본질적으로 이미지를 저장하는 이유입니다 우리의 디스크에 당신은 당신의 이름 노드의 로컬 디스크에서이 SS의 이미지 파일을 찾을 수 있도록 기계는 그래서 지금이 파일은 또한 메타 데이터를 포함 로그 편집오고 수정 사항에 대한 데이터하지만 가장 최근의 변경 사항이 포함되어 의는 지난 1에서 일어났다 수정은 어떤 가정 해 봅시다이 파일이 작으며이 파일은 이름 부하 기계의 RAM 우리가에있는 검사 점으로 알려진 작업을 수행 여기에 보조 이름 노드를 지금 무엇을 검사 점되어 편집 로그와 결합하는 과정이다 FS 이미지와 그것을 수행하는 방법 여기에 보조 이름의 노드가 가지고 있도록 편집 로그와 이름 노드에서 SS 이미지의 복사하여 다음 그들을 추가 그래서 새로운 FS 이미지를 얻기 위하여까지 우리는 왜 우리가 필요 새로운 FS 이미지를 필요합니까 순서대로 FS 이미지의 업데이트 된 파일은 최근의 모든 변경 사항을 적용하기 우리의 SS의 이미지 파일에 왜 우리가하자 정기적으로 통합해야합니까 당신이 당신의 편집 잠금의 모든 수정 사항을 유지하는 경우 당신이 알고 있다고 당신의 편집 로그 실험실에있는 것을 당신은 당신의 편집 로그 파일을 할 수 없도록 시간이 지남에 따라 더 많은 수정을 할 것이기 때문에 더 큰 성장과 많은 변경이는 먼저 왜 그래서 편집 로그에 저장 얻을 것이다 파일이 커지면 그것은 당신의 RAM에 공간을 많이 복용 끝낼 수 있습니다 및 우리는 매우 느리고 또한 동안 이름 노드의 처리 능력을 만들어 줄게 실패의 시간의 당신의 이름의 노드가 실패했다고 가정 해 봅시다 당신은 설정하려는 새 이름 노드까지 당신은 설정하기 위해 필요한 모든 파일을 가지고 당신은 모든 SS 이미지의 가장 업데이트 된 최근의 사본을 가지고 있지만 새 이름 이름 노드는 당신이 당신의 데이터 노드에 대해 필요한 메타 데이터 그래서 보조 이름 노드에서 발견되며, 그 이유는 전무하여 장애 복구 시간은 훨씬 적은 성장할 것입니다 그리고 당신은 많은 것을 잃지 않을 것이다 새 이름 노드와 내 기본을 설정하기 위해 데이터 또는 많은 시간 체크 포인트 인 경우 체크 포인트 것은 모든 시간과 시간을 발생 당신은 또한 그래서 이러한 변경 사항이 저장되어 좀 더 변경 될 수 있습니다 해프닝 새로운 편집과 다음 체크 포인트가 발생할 때까지 우리가 다시 포함하는 새로운 편집 로그 파일을 유지됩니다 모든 최근의 때 마지막 체크 포인트 이후의 변경은 그래서 이것은 다시 로그인 준비가 될 것입니다 우리가 수정에 걸릴거야 그래서 다시 검사 점을 수행하는 모든 다음이 편집 로그 및 데이터는 우리가 가진 마지막 SS의 이미지와 결합 그래서이 체크 포인트 일이 일어나고에 유지하고 기본적으로는 장소마다 소요 한 R 당신은 체크 포인트 것은 최소 간격으로 발생 할 경우, 당신은 할 수 오랜 시간이 지나면 원하는 경우 또한 당신은 또한 우리는 그것을 이렇게 구성 할 수 있습니다 않는다 우리가 이름이 무엇인지를 살펴 촬영 한 HDFS 구성 요소에 대한 공부 노드와 어떻게 모든 데이터 노드를 관리 않습니다 우리는 또한의 기능을 보았다 보조 이름 노드는 지금 그래서 지금 우리가이 모든 데이터가 실제로 저장되는 방법을 살펴 보자 HDFS 그래서 모든 데이터 노드의 블록 구성 파일 시스템은 각각의 파일은 특정 크기의 블록으로 크기를 MV 128 기본적으로 나눈 그래서 우리는 예제 파일을 저장 및 데이터 블록을 HDFS 방법을 이해 할 수 있도록 클라이언트가 3백80메가바이트입니다 파일을 저장하려고한다고 가정 그는 저장하려고 하둡 분산 파일 시스템은 이제 H DSS이 어떤 작업을 수행하는지 사용자가 그것이다 3백80메가바이트가 128메가바이트로 나눈 때문에 세 개의 블록으로 파일을 나눕니다 이는 각 데이터 블록의 기본 크기는 너무 여기에 약 3입니다 128MB의 차지하는 첫번째 블록이 제 2 블록도 128MB의 점유하며 세번째 블록 1백24메가바이트 그렇게하는 파일의 나머지 사이즈의 것 내 파일을 데이터 블록으로 분할 한 후이 데이터 블록이 될 것입니다 모든 데이터 노드에 분산 여기 클러스터 mojado에 있는지 당신은 128MB의 내 파일의 첫 번째 부분은 실제로 노드 한 것을 볼 수 있습니다 다음 데이터 블록의 제 2 데이터 노드에 내 최종 데이터 블록은 데이터 노드 3 당신은 모든 블록의 크기를 알 경우 마지막을 제외하고 동일 그래서 이것은 124 메가 바이트 데이터 블록이며,이 같은 HDFS의 공간을 절약하기 위해 하둡을하는 데 도움이 마지막 블록은을 저장하는 데 필요한 공간 만 그 정도를 사용하고 에서 그렇게 때문에 우리가 저장 한 4메가바이트의 마지막 부분 이 시나리오에서 낭비하는 것은 지금 우리가 가진 것을 당신에게 거의 보일 수 있습니다 네 개의 메가 바이트 때문에 큰 문제는 무엇하지만 상상은 수십 작업하는 경우 말했다 이에 대한 모든이었다 그래서 이러한 파일의 수천 여기에 저장할 수있는 데이터의 양 데이터 블록 및 방법은 다른 데이터 노드와 I를 통해 데이터를 저장 블록을 HDFS 지금 당신은 왜 우리가 분산 파일이 필요 않는다는 것을 이해한다고 가정 시스템은 그래서 내게는 우리가 우리가를 사용하는 세 가지 장점을 가지고 있음을 알 수 있습니다 분산 파일 시스템은 그래서 나를 예를 들어 당신이 설명 할 수 있도록 지금은 내가 사 기계의 이렇게 하나 하둡 클러스터를 가지고 상상 그 이름 노드이고 다른 세 개의 데이터 노드입니다 그래서 어디 데이터 노드의 각 용량의이 가정 것을 보자 그래서 지금 1 테라 바이트입니다 I 내 모든 데이터 노드가이 있기 때문에 그래서 세 테라 바이트의 파일을 저장해야 1 테라 바이트의 용량이 세 테라 바이트의 파일을 배포됩니다 내 세 개의 데이터 노드에 분산되며, 1 테라 바이트를 차지합니다 각 데이터 노드에 그래서 지금은 그렇게 저장하기 방법에 대해 걱정할 필요가 없습니다 HDFS는 관리하고 당신이이 날을 제공 보면 세 테라 바이트의 용량을 가지는 그렇게하는 하나의 컴퓨터의 추상화 즉, HDFS의 힘 그리고 내가 당신에게 사용의 두 번째 이점을 설명하자 분산 파일 시스템은 이제 그 대신 세 테라 바이트를 고려 나는 네 테라 바이트의 파일을 저장할 필요가 내 클러스터 용량은 세 가지입니다 그래서 맞추기 위해 내 클러스터에 하나 이상의 데이터 노드를 추가 할 것입니다 테라 바이트 내 요구 사항 및 아마 나중에 큰 크기의 파일을 저장해야하는 경우에 당신 가서 맞추기 위해 클러스터에 많은 기계를 추가 할 수 있습니다 모든 당신이 볼 수 있도록 요구 사항은 파일을 저장하기 위해 해당 파일 시스템의 종류 이는 분산되어 내가 당신에게의 세 번째 혜택을 알려주지 지금은 확장 성이 매우 높아 분산 파일 시스템을 사용하는 지금의 당신이 하나를 가지고 생각해 보자 한 처리의 처리 능력을 보유하고 높은 반면 컴퓨터 당신이를 통해 파일을 배포하고 지금 사초에서 테라 바이트의 데이터 동일한 용량과 같은 하나의 컴퓨터 같은 처리 능력은 그렇게하는 대신 평행 해당 파일을 읽고 있습니다 그것은 하나의 바이트를 취할 것입니다, 그래서 하나의 당신은 당신의 클러스터에서 4 개 개의 데이터 노드를 가지고있는 경우 우리는 하나의 컴퓨터로 수행하는 실제 시간의 힘이 있도록 분산 파일 시스템의 도움으로 이렇게 기본적으로 당신에게 단 1 초 소요 우리는 서로 다른 시스템에 걸쳐 우리의 큰 파일을 배포 할 수 있고 우리는 또한있어 그리고 평행하기 때문에이를 처리함으로써 처리 시간을 단축 이것은이 때문에있는 데이터를 처리하는 시간의 엄청난 금액을 절약 할 수 있었다 지금 HDFS를 사용의 이점은 우리가 하둡에 대처하는 방법을 볼 수 있습니다 데이터 노드 장애 지금 우리가 데이터 노드에 우리의 데이터를 저장하는 것을 알고 있지만, 데이터 노드가 너무 실패하면 것은 우리가 여기에 같은 예를 생각해 보자 무엇 내가 380 메가 바이트 찾아야 것을 알고 나는 3 개 데이터 블록을 가지고있는 내 하둡 클러스터에 여기에 세 개의 데이터 노드에 분산되는 것은 이렇게하자 파일의 마지막 부분을 포함하는 데이터 노드가 무슨 충돌 말 지금 당신은 당신의 파일의 일부를 지금 파일 고도의 공정을 잃은 그렇게 당신이 그것의 한 부분이 없기 때문에 그래서 당신이 생각하는 해결책이 될 수 casian 우리가 백업을해야한다고 말한다 그래서 그것에 대해 그래서 나는 대답을 얻고있다 네 바로이 문제를 해결하는 논리적 인 접근 방식이 될 것입니다 그래서 우리 데이터 오른쪽의 여러 사본을 가지고 있고 그 하둡이 얼마나입니다한다 복제 인자로 알려져있다 뭔가를 도입하여 폭행 당신 모든 것을 복제는 복제 인 것은 사본에 불과하다 유사 아는 우리를 데이터 블록은 데이터를 각각 다른 복사본을 가지고있는 것 HDFS 당신이이 부분 있음을 볼 수 있도록 블록은 클러스터 전체 3 부를 가지고있다 1백24메가바이트이 ​​데이터 블록은 파일 데이터 노드 개의 데이터 노드에 존재 세 개의 데이터 노드 (4)와 유사하게이 아니라 다른 데이터 블록에 공통적 물론 이렇게 모든 데이터 블록 내 하둡 클러스터에있을 것입니다 세 번 경우에도 내 데이터 노드 중 하나가 추락 도착 및 I이었다 데이터 블록을 모두 잃을 데이터 노드 내부에서 나는 두 개 더 사본이 있기 때문에 걱정할 필요가 없습니다 다른 데이터 노드에 존재하는 우리는에 있습니다 그 때문에 하둡에 우리가 상품 하드웨어의 그것으로 처리되기 때문에 어떤 점에서 우리 상품의 하드웨어가 충돌 할 가능성이 높다 우리는 세 가지 사본을 유지 보수 왜 그렇게 시간이다 그래서 그 경우에도이 우리가 외출 여전히 HDFS는 내결함성을 수행하고 내가 얼마나 그래서 이것은 하나 더 가지고있다 그녀는 우리가 가야 할 것을 요구하고있다 있도록 네하에서 질문이 있어요 우리의 데이터 블록의 전방 및 만들 복제본은없는 방법 리튬 잘 알려진 에 어떤 파일을 복사 할 때 모든 종류의 파일을 넣을 때마다 그렇게하는 방법 하둡 파일은 기본적으로 기본적 그것에 의해 복제 얻을 것이다 클러스터 세 가지의 복제 요인이있을 것이다 그것은 모든 데이터 블록이된다는 것을 의미합니다 당신의 하둡 클러스터에서 현재 자동으로 세 번 그래서 나는 그 수도 바랍니다 당신이 좋아 답을 가지고있다 그래서 그녀는 네 말을하는 당신에게 니 하우 섬 감사 참으로 아주 좋은 질문을했다 질문은 그래서 우리는 이제 걱정할 필요가 없습니다 데이터 노드는 당신이 알고 있기 때문에 우리가 여러 복사본을 얻고있다 추락 도착 같은 바구니에 모든 달걀을 넣어 결코 속담이 아주 아주 사실이다 지금 우리가 다루고있는이 시나리오의 경우 우리는하지 않습니다 우리는 세 가지에서 우리의 계란을 넣어 것 같은 바구니에 모든 달걀을 넣어 다른 그래서 경우에도 한 바구니도 지금 바구니와 모든 계란 균열 열린 우리는 내가 희망이 있다면 우리의 오믈렛을 위해 우리가 충분한 계란을 걱정할 필요가 없습니다 모두가 당신이 어떤이있는 경우 HDFS는 내결함성을 제공하는 방법을 이해하는 질문 당신은 가서 물어거나 질문을받을 때마다 당신은 요청할 수 있습니다 이 세션이 끝 날 그래서 지금 우리가 뒤에 무슨 일을 이해하자 당신은 당신이 쓰고 싶은 경우에 따라서 HDFS에 파일을 작성하는 장면 당신의 하둡 클러스터에 걸쳐 파일은 세 단계와 통과해야 당신이 통과해야하는 첫 번째 단계는 파이프 라인 설정이 그래서 우리가 이해 할 수있다 그래서 내가 텍스트 파일을 가지고 있다고 가정 해 봅시다 예와 파이프 라인을 설정하는 방법 어쩌면이 예 도트 TXT라고 나는 두 개의 데이터 블록으로 분할 한 이는 블록 A와 블록 B는 그래서 우리가 블록의 측면 우리를하자 먼저 이야기하자 클라이언트가 그래서 여기 내 HDFS 내 데이터 노드에 블록 A를 작성하는 방법을 참조 그래서 첫 번째 요청 이름 노트에서 클라이언트는 이야기 내가 복사 할 필요가 블로그를 가지고 너무 이름 노트 그래서 나는거야 괜찮 말한다 당신이 당신의 파일을 복사 할 수 있습니다 당신에게 세 가지 데이터 노드의 IP 주소를 제공 세 개의 데이터 노드와 당신은 당신이 당신의 블록을 세 번 복사 할 필요가 있음을 알고 분명히 복제 요인은 세 가지 때문에 이름 노드는 여기 있습니다 세 개의 데이터 노드 데이터 노드 나라 한 4-6의 IP 주소 때문에 이제 클라이언트 노드는 세 개의 데이터 노드 곳의 IP 주소를 적발했다 A는 처음으로 그가가는 두 개의 데이터 노드를 확인 않습니다 무엇 때문에 복사됩니다 차단 1 그들은 내가 당신의 데이터 노드에 블록을 복사 할 헤이 너무 것을 원하지 않기 때문에 당신이 준비가 그냥 가서 그들이 준비하는 경우 데이터 노드 4와 6을 요청할 수 있으며, 데이터는 그냥 가서 M6를 요청할 수 있습니다 그래서 그래 내가 준비가 말한다 이제 데이터 노드 (1)는 데이터 노드 4로 이동하고 헤이 그래서 종류는 당신을 위해 요구하고있다 죄송 준비 블록을 복사하는 것은 다음 4 말한다 그래 내가 준비가 다음 괜찮아 번 그냥 가서 그가 우리 6 그래서도 준비하고 6도 경우 6가 준비 및이 전체 파이프 라인이 첫 번째 블록 A가 될 것이라고 설정하는 방법입니다 데이터 노드 한 후 데이터 노드 4로 복사 한 후 그들은 6의가에서 그런 말을하자 나타낸다 상황이 어떤 IP가를 해결하는 것이 가능한 데이터 노드가없는 이름 노드 어쩌면 준 작동하지 않는 사람 또는 그 데이터 노드는 아니다 이 경우 그렇게 작업하는 클라이언트 노드는 확인을받지 않을 때 그는 이봐, 당신이 준 그 어떤 IP 주소를 말한다 주요 no로 돌아갑니다 그 데이터 노드 당신이 가서 나에게 또 다른 하나를 줄 것이다 그렇게 작동하지 않는 및 다음 이름 노드는 계속 데이터 노드가되어있는 것을 확인 가능한 해당 기간 동안 그리고 이제 다시 클라이언트 노드에 IP 주소를 제공 파이프 라인이 준비 그래서 당신의 파이프 라인은 이렇게 첫째 지금 설정이 복사됩니다 데이터 노드에 1 그들은 터널 (4) 및 다음 데이터 노드 그래서 당신을 6 파이프 라인은 이제 실제 쓰기가 자리를 너무 걸리는 두 번째 단계 온다 이제 모든 데이터 노드가 블록을 복사 할 준비가되어 있기 때문에 클라이언트 것입니다 지금은 이렇게 접속 데이터 노드 (1 개) 제 1 데이터 노드 먼저 그래서 현재 블록에 복사 할 클라이언트의 나머지 부분을 복사하기 위해 데이터 노드 일에 책임을 줄 것이다 이제 블록 데이터 주 4 데이터 노드 6 데이터 노드 (1)는 데이터 노드 (4)에 문의하고, 블록 (A)을 복사 말할 것 자신과 동일한 기능을 수행 할 데이터 노드 6을 물어 그래서 데이터 노드 (4)은 블록 (8)을 복사 한 다음에 데이터 메시지를 전달한다 또한 그래서 지금 당신이 가지고 블록을 복사합니다 6 노드 6과 유사하게 데이터 노드 쓰기 걸리는 우리가 요구하는대로 블록의 세 사본 그래서 이것은이다 장소 후 다음 단계는 수신 확인의 일련 것을 지금 우리가 이렇게 파이프 라인은 그리고 우리는 데이터 노드에 우리의 블록을 쓴 것을 우리 그래서 지금은 확인이 반대 순서로 진행됩니다 싶어 기입 데이터 노드 (4)에 대한 확인 응답을 제공 할 첫 번째 데이터 노드 6에 있도록 나는 우리가 있음을 받기 전에 그들이했던 것보다 성공적으로 블록을 복사 한 것을 승인 및 I 자신에 블록 (A)을 복사 한 데이터를 노드 1로 전달 그래서 그래서 모든 승인 될 것이다 데이터 노드를 갖는 6 데이터 노드 (1)로 전달하고 데이터는 노드 (1)를 최종적으로 확인을 제공한다 모든 세 개의 블록이 성공적으로 복사 된 클라이언트 노드와 그 후 Clinard 이름 노드에 메시지를 보내드립니다 그 모든 블록이 데이터를 복사 한 것을 쓰기는 성공했다 노드 1 4 6 그래서 이름 노드는 해당 메시지를 수신하고 업데이트합니다 그 모든 블록이 복사 된 메타 데이터가있는 데이터 노드 그래서 이것이 어떻게 바로 메커니즘은 먼저 실제 쓰기를 파이프 라인 설치를 발생 그리고 당신은 그래서 지금 우리는 단지 하나에 대해 단지 이야기 승인을 얻을 내 파일을 내 예를 TXT 파일로 분할되었다 도트 있다고 말했다으로 차단 두 블록은 블록과 블록 B가있을 것이기 블록 오른쪽 메커니즘 유사한 클라이언트 노드가 복사 블록 B를 요청하는 경우에만 그는를 얻을 수 있습니다 다른 데이터 노드의 IP 주소는, 예를 들면 블록 B는 3 내지 7 복사되고 9 블록 A는 1 ~ 4 및 6에 복사 된 지금 나 쓰기 과정 당신을 알려주지 블록 바깥 및 블록 B가 동시에 일어날의 지금 분명히 말 했잖아 쓰기 메커니즘 그것이 실제 이렇게 세 단계로 이루어집니다 쓰기가 처음에 복사 얻을 것이다 의미 순차적으로 일어날 것입니다 먼저 데이터 노드 다음 두 번째 그리고 세 번째 있지만 블록 것 쓰기 메커니즘이 그래서 어떻게 일어나는지를 동시에 복사 할 수는 그래서 이것은이다 블록과 B 블록의 기입이 동시에 일어나고 그래서 1a 및 1B 단계는 상기 일어나고 동시에 2a 및도 2b 단계에서 일어나는 클라이언트가 서로 다른 두 가지의 서로 다른 블록을 복사하는 그래서 동시에 데이터 1A 노드 후 2A를 동시에 일어나는되고이 1b 및 첫 번째 블록은 블록이라고 할 때 2b는도 동시에 일어나고 데이터 노드 1과에 복사하기 블록 B가에서 복사하기 때 데이터 노드 7은 유사하게 다른 단계도 동시에 일어나고있다 파일을 차단하는만큼 모든 블록이 동일한에 복사됩니다 포함 데이터 노드로 순차적 인 단계에서 시간이 그래서이 방법을 쓰기입니다 메커니즘은 우리가 이야기 파일을 읽는 뒤에 무엇인지 보자 그래서 지금 발생 당신의 HDFS에 다른 데이터 노드에서 그렇게 나를 읽기가 있음을 알려주지 상당히 당신의 HDFS에 블록을 쓰는 것보다 훨씬 간단 그래서 지금 가정 해 봅시다 내 클라이언트는 서로 다른 데이터를 통해 복사 된 같은 파일을 읽고 싶어 내 블록 A가 데이터 노드 1 ~ 4에 복사 된 것을 알 수 있도록 내 HDFS의 노드 6 블록 B는 데이터 노드에 복사 된 3 7 9 그래서 지금 내 클라이언트 것 다시 나는이 특정 파일 및 내 이름을 읽을 수 이름 노드를 요청 나무는 IP 주소를 제공 할 경우 그 특정의 내 모든 데이터 블록 클라인 노드가 IP 주소를 수신 및 연락처 있도록 파일이 위치한 데이터 노드와 모든 데이터 블록 내 데이터 블록 A와를 가져됩니다 내 데이터 블록 B가 동시에 공급 될 것이며,이어서,이를 클라이언트에 의해 판독 될 그래서 이것은 전체 읽기 메커니즘이 모든 약들 때문에 발생하는 방법입니다 HDFS 우리는 파일이 파일을 통해 복사 방법 HDFS에 복사하는 방법을 보았다 분산 방식으로 하둡 클러스터는 우리는 이점을 보았다 분산 파일 시스템을 사용하는 우리는 또한 이름이 무엇인지 이해 노드와 어떤 데이터 노드는 우리의 데이터가 저장되는 방법을 어떻게 파일입니다 저장 및 데이터 블록으로 그것을 분할하고 하둡 클러스터에 분산 우리는 모든 방법 하둡 거래 우리의 데이터 노드 느낌이 때 것을 본 그들은 파일에 대한 백업으로 복제 요소를 도입 한 후 우리는이 또한 읽기 및 쓰기 메커니즘이 어떻게 일어나는지 알 그래서 당신 희망 모두가 당신이 어떤이있는 경우 하둡 분산 파일 시스템 무엇인가 이해 질문 당신은 우리가 가서 이동하고 우리가 무엇을 확인하자, 지금 나 한테 물어 할 수 있습니다 맵리 듀스 지금 당신은 이미 우리가 시작 준 예를 기억 그녀의 세션 요리사 예제의 방법을 다른 요리사은 다른 요리를 같은 시간과 마지막으로 머리 요리사가 모두 함께 요리를 조립하고 이것은 우리가 지금 배우는 것입니다 우리가있을거야 그래서 결국 원하는 출력을 제공합니다 당신이 더 맵리 듀스를 이해할 수 있도록 관련성 예제와 함께 학습 그래서 우리가 재미있는 찾을 수 있습니다 또 다른 이야기와 맵리 듀스를 이해하자 다시 나는 그것에 대해 매우 확신 그래서 우리가이 곳에 우리가 상황을 생각해 보자 교수와 그들이 줄리어스을 읽고, 그래서 수업 시간에 4 명 명의 학생이있다 시저 책은 이제 교수는 알고 싶어 몇 번이나 말씀 줄리어스 그가 가서 읽기 자신의 학생들에게 물었다 그 이처럼 책 발생 전체 책은 단어 줄리어스이 책이 몇 번이나 말해 너무 모든 학생들은 책의 사본을 가지고 그리고 그들은 세기 시작 단어 줄리어스 때문에 그렇게 할 사시간을했다 그래서 첫 번째 학생은 내가있어 고 응답 두 번째는 (46)에 응답 45 시간 어쩌면 우리가 그것을 올바른 모르는 어쩌면 계산 실수를하거나 우리는 책 은행이없는 세 번째 학생도 45 대답 때문에 네 번째는 (45)를 응답 한 후 교수는 괜찮 3 명이 결정 나는 대다수 가야하고 대부분은 일반적으로 올바른 때문에 잘못 될 수 없습니다 단어 줄리어스는 45 번 나타났다 대답을 통해 이동하시기 바랍니다 전체 책과 그렇게 그 교수가 생각 4 시간 시간을했다 이 교수는 그가를 적용 한 일이 시간 때문에 시간을 많이 복용 다른 방법은 그래서 우리가이 책은 그가 그래서 네 장을 가지고 있다고 가정하자 학생들의 각 각 장을 배포 그는 당신이 장 하나에 가서 몇 번이나 말해 학생 하나를 물었다 줄리어스 장 하나에서 발생하는 유사 그는이 같은 작업을 포기하고 세 번째 장에 두 번째 학생 장 세에 2 장을 할당 이제 네 번째로 네 그들 만 대신 하나 개의 장으로 할당되기 때문에 책 전체의 그들은 줄리어스 단어를 셀 수있게되었습니다 또는 전체를 마무리 한 R의 장 그리고 그들은 같은 시간에 그 일을하고있는 동시에 너무 제 1 계산 된 제 2 제 3 카운트 한 카운트 한 제 4 장에도 계산되어 모두가 그렇게 각각의 대답을했다했다 이 학생은 교수에 올라가서 내가 줄리어스 12 단어를 발견했다 제 1 장 및 제 학생의 시간은 내가 그것을 발견 14 배에 말했다 제 2 장 제 3 장 그는 내가 그가 말하는 그 여덟 번과 4 장을 발견 말한다 교수가 모든 다른를 받았다 그래서 내가 11 번 발견 4 명 개의 모든 학생들의 대답을 마지막으로 그는 얻기 위해 그들을 추가하고 45의 대답은의 그것이 그들을 추가 할 그 두 분이 소요된다고 가정하자 지금이 그가 2 분을하지 않을 수 있도록 아주 작은 숫자이지만, 우리는 단지 우리가을 찾을 수 있습니다 지금 그래서 대신에 4 시간을 가정 하나 또는 두 개의 분 정답은 그래서 이것은 매우 효과적입니다 하여 학생들의 각각의 분산 된 부분의 각 그래서 솔루션 그들에게이 부분은 맵으로 마지막으로 알려진이 책의 일부에 일하고 있었다 교수 함께이 부분은 다음과 같이 공지 된 모든 수치를 합산 때 줄이 완전히 모든 그래서 하둡의 개념에서 생산 맵 단일 파일의 처리 부분으로 나누어 져 있습니다 그리고 그들은 점점 동시에 처리하고 최종적으로 감속 모든 중간 추가 결과 당신에게 최종 출력을 제공하고 이것은 매우 효과적인 솔루션입니다 모든 작업은 평행 나는 희망 너무 적은 시간에 일어나고 있기 때문에 당신이 예제를 이해하는 것이 당신은 본질을 이해 이 예제와 맵리 듀스의 그래서 지금 우리가 가서 맵리 듀스를 이해하자 이것은을하므로 MapReduce를 너무 상세히 프로그래밍 유닛과는 hadoo 프레임 워크 A는 분산 사용의 장점 맵리 듀스 두 구성되도록 위해 프레임 워크는 대용량 데이터 세트를 처리하는 첫 번째는 맵으로 알려져 있으며, 두 번째 작업은 다음과 같이 알려져 있으므로 별개의 작업 줄이고 명명 된 맵리 듀스 알 수 있듯이 감속기 단계는 일어난다 매퍼 단계는 릴리의 요구 때문에 완료된 후 를 결합하기 위해 마지막으로 맵에 의해 생성되는 중간 결과 첫 번째하므로 데이터의 블록이 어디에 당신에게지도 작업을 최종 출력을 제공 판독 프로세스는 중간 출력으로 키 값 쌍을 생성하고하도록 키 값 쌍에 지나지 않는 매퍼 또는지도 작업의 출력은 감속기에 입력하고 감속기에서 키 값 쌍을 수신 여러지도 작업 후 마침내 모든 중간 결과를 집계 당신은 키 값 쌍의 형태로 최종 출력을 제공합니다 그래서 이것은 어떻게 맵리 듀스는 우리가 상세하게이 이해 될 것이다 일어난다 그래서 그래서 우리가 지금 이동하자 당신이이 모든 것을 이해 바랍니다 워드 카운트 프로그램이 그래서 우리가 할 수있는 예제를 맵리 듀스를 이해 단락을 가지고 우리는 우리가이 많은 텍스트 DRB에게 강 자동차 자동차를 가지고 있다고 강 사슴 차 맥주와 우리가 찾아 각 단어가 표시되는 방식을 여러 번 있다고 할 이 특정 문장 또는이 특정 단락에 그래서 이것은 어떻게 맵리 듀스는 그래서 지금 우리가 나눈 한 작동하고 있음을 알고 있기 때문에 우리는 위로 분할 다른 부분에 전체 작업은 여기에 우리가 문장의 각을 나눌 수 있습니다 이 첫 문장 사슴 맥주 그래서 3에 세 문장이 있기 때문에 강 두 번째는 자동차 자동차 강이며, 세 번째는 이제 당신의 차 맥주이다 매핑은 여기에 나는 이후 문장의 각 장소를 취할 것 이미지도 작업 후 데이터를 읽어 뭔가 있음을 말했다 우리는이 단어의 각 인 키를 가지고 있도록 키 값 쌍을 형성한다 다음 값이 너무 여기에 매핑 1에 불과하다있는 여기에 할당 이들 각각은 단어와 키 값의 쌍으로 변환되도록 이루어진다 번호 하나 때문에 먼저뿐만 아니라 이렇게 다른 두 문장에서 유사하게 발생 우리는 당신이 여기 그림에서 볼 수 있듯이 세 분할에 입력을 분할 우리는 세 부분과 우리가 가지고있는 세 개의 문장으로 구분되어 우리 다시 문질러 첫 번째 사슴 맥주 강 두 번째, 그래서 자동차 자동차 강이다 다음 자동차 맥주를 사슴과 우리는 모든지도들 사이에서이 작품을 배포 할 수 있습니다 노드는 그 후 무슨 일이 일어 매핑 그래서 우리는 각각의 단어를 토큰 화 매퍼 및 그래서 하드 코딩 된 값 1에게주는 뒤에 이유를 하드 코딩 된 값 1은 자신의 모든 단어의리스트 있도록 해주기 번 발생한다는 것이다 키 값 쌍은 키가 개별적인 단어 아무것도없는 곳에 생성됩니다 상기 값은 1 매퍼 정렬 및 셔플이되도록 발생하므로 후에 모든 키는 이후 있도록 해당 감속기에 전송 된 정렬 및 감속기의 각 셔플 고유 키와있을 것이다 바로 그 키 그래서 우리는 가지고 맥주에 해당하는 값 목록 두 번 그래서 우리는 이제 키 맥주와 그 값 2 회 1 등 무엇을 가지고 그것은 무엇을 할 것 인 감속기는 당신이에 존재하는 값을 계산하는 경우 레인 물건 값 그래서 여기에 하나는 두 가지입니다 및 자동차 세 번 세 가지가 하나 개의 값 때문에 자동차가 유사 삼을 것입니다 발견 D R2와 강이 마지막으로 우리가 키 값에 모두 함께 출력을 얻을 것이다 쌍 감속기 결합 갖도록 모든 다른 중간 결과 모든 함께 여기에 우리는 당신에게 마지막을주는 다른 키 값 쌍을 가지고있다 우리가 맥주를 볼 수있는 출력은 우리의 입력이 번에 발견 된 차량이 어떻게 그래서 세 번 두 번 강을 두 번 사슴이었다 나는이 단어 수를 이해 희망 있도록 맵리 듀스는 하둡에서 발생 이 프로그램은 그래서 우리는 가서 내가 당신에게 중요한 말씀 드리죠 있도록이 프로그램을 실행합니다 맵리 듀스 프로그램의 일부는 그래서 먼저는 매퍼 코드를 작성해야 매핑은 모든 배포 작업이에서 수행하는 방법을 발생하는 방법 동시에 그들은 키 값 쌍을 생성하고 그 사용자에 제공하는 방법 코드는 그 방법의 모든 중간 예비 키 값을 의미 우리는 매핑 기능의 각각에서 가지고 우리가 어떻게 병합합니다 쌍 그 다음 마지막으로 그래서 여기에 당신이 모든을 지정 드라이버 코드가 작업이 너무 입력 출력 경로 등의 이름이 무엇인지와 같은 작업 구성 이의 얘기하자 이제 하둡의 맵리 듀스를 실행의 세 부분입니다 매퍼 코드에 대해 이렇게 기본적으로이 자바 프로그램은 당신의 사람들을 위해 이렇게 자바를 알고 자바 작업을 한 것은 이것은 매우 간단한 프로그램 누구 당신을 제외한 모든 날을 통해 이동이 전체 프로그램의 논리를 설명 할 말 그래서 이것은 우리의 매퍼 코드는 우리가 확장 여기라는 클래스 맵을 우리가 우리의 입 / 출력 키의 데이터 유형을 언급하고 클래스 매퍼 대한 값 쌍은 지금 매퍼 나를 매퍼이 수락하는 당신에게 말할 수 있도록 키 값 쌍의 입력 및 키 값 쌍 형태로도 출력을 제공하므로 우리는 단락하지만 아무것도없는 입력으로이 문제를 가지고 있기 때문에 우리는하지 않은 자체 여기에 특정 키 또는 값이 너무 매퍼를 지정 지정 바이트 오프셋 타입과 여기에 값으로 키가 각 문장 것 또는 우리가에 입력 된 전체 단락의 각 튜플 따라서 키의 각각의 데이터 유형이 바이트 오프셋 종류 그러나 아무것도하지 않는 것이다 그냥 숫자이고 그 바이트 오프셋을 소요하기 때문에 잘못 쓰기 가능 입력 당신이 여기에 입력을 볼 경우 나 그냥 더블 인 당신에게 알려주지 이 문장에서 우리는 네 개의 4, 5 세 단어를 가지고 볼 경우 캐릭터 각각이 공백 그들은 문자 유형의 모든 때문에 당신이 그들을 함께 추가 할 경우 있도록 각 문자는 8 바이트의 메모리를 차지 당신은 (121)를 얻을이이 그래서 앞으로 몇 오프셋 다음 바이트 잘못된 기록 가능하고 입력을 우리의 바이트 오프셋 종류의 데이터 형식 당신이 기억하는 경우 유형은 텍스트하지만 아무것도없는 문장의 각을하고 것 가질 것이다 있도록 매퍼 키 값 쌍으로 다시 출력을 생성 또한 아무것도 각 토큰에 아무것도 없지만 독특한 단어의 각 토큰 화 된 값으로 아무 것도 있지만 텍스트와없는 우리의 특정 튜플 우리가 할당 한 것처럼 우리는 앞의 예에서 수행 한 것처럼 하드 코딩 된 값 그래서 정수 뿐이다 토큰 각각 하드 코드 값 1 우리 맵퍼 출력 값이 데이터 형식은 어려운 것이 이것 때문에 방법 우리는 오프셋 나누어 우리의 키를 가지고 우리의 튜플과 같은 값을 우리가있다 세 개의 튜플이 가지고이는 튜플의 각 수행됩니다 우리의 입력에지도 상에있어서 현재 키 값과 같은 상황을 취하므로 인수는 그래서 우리는 우리 키로 바이트 오프셋을 가지고 우리는 같은 tupple이 우리의 가치와 맥락은 우리가 우리가 지금 무엇을 우리의지도 출력을 쓸 수 있습니다 여기에서하고 우리가 변수라는 줄에 tupple의 각을 저장하는 것입니다 그리고 우리는 우리가로 우리의 각 튜플을 깨는 의미 토큰 화하고 해당 탭에 존재 아무것도 토큰 있지만, 각 개별 단어와 우리가 하드 코딩 된 값 1을 할당하는 것은 각각의 토큰은 우리의지도를 출력 할 것이다 하드 코드 값 1 키와 함께 우리는 하드 코어로를 구비 한 값은 단어의 각 적어도 그 한 번 발생되기 때문에 있을 것이다 것입니다 그 값을 계속 출력 있도록 특정 튜플 하드 코딩 된 값 어떤 경우에 토큰 각각 같은 다음 당신은 우리가 단지의 출력 그래서 얼마 전에 배운 예를 기억 우리의 예에서 첫 번째 부부는 하나 그래서 이것은이다 D (R1) B (R1)와 강이 될 것입니다 전체지도 기록은 그래서 지금 우리가 심지어 여기에 좋은 감속기 살펴 보자 우리는 클래스 감속기 및 확장 감소라는 클래스를 가지고있다 단지 셔플 후 발생하는 등 정렬 줄일 것을 기억 여기에 입력은 우리의 셔플 및 정렬 및 출력 아무것도 없습니다 셔플의 출력과이있을 것이다이 같은으로 정렬 그것이 이후에 발생 주파수 또는 얼마나 많은 시간을 함께 단어 매핑이 우리 입력됩니다 그렇게하고 첫 번째 키를 볼 경우 열쇠는 여기에 텍스트 여기에 값하지만 아무것도 추가 불과하다입니다 이는 int 데이터 유형의 기록 가능하고 최종적으로는 출력을 생성 단어와 얼마나 많은 시간이 아무것도는 그러나 다시없는 한 발생 말과 데이터 형식 텍스트와 같은 ncredible 뭔가입니다 수 당신이 이상 여기에 우리가하고있는 그래서 무엇을 볼 수있는이 그래서 우리는을 가지고 있다는 것입니다 그래서 여기 감소라는 방법은 우리가 아무는 불과하다하지 입력 키를 가지고있다 텍스트 그래서 지금이기 때문에이 같은 추가 무언가로 입력 값 배열 우리는 단지 루프를 실행하겠습니다 우리는 각 사람의 수를 요약합니다 우리가 가지고 곰에 대한 그래서 여기 토큰은 2 일 우리는 단지이 두 사람을 요약합니다 출력 키가 텍스트 수 있도록 그리고 마지막으로 특정입니다 결과를 얻을 수 단어 나 고유 단어와 값이 모든 것들의 합이 될 것이라고 그래서 여기에 특정 배열에 연관 우리는 2 그래서으로 1 더하기 1을 가지고있다 최종 출력은 곰이 유사하다 WISC 입력에서 카드 것 1 1 1 그래서 우리는 카드 3 그래서이 전체 비디오 회로지고있다 나는 코드의 또 하나 개의 섹션이되었다는 말 했어요 기억 전체 맵리 듀스 코드와 세 번째 부분은 드라이버 코드를 여기 그래서이 코드 이에 대한 그래서 우리의 맵리 듀스 작업의 모든 구성 정보를 포함합니다 예를 들어 내 작업의 이름을 내 입력 출력의 데이터 유형을 포함합니다 내 작업 이름 내 단어 수 있다는 맵퍼 및 감속기 당신이 볼 수 있도록 프로그램은 여기 그때 내 클래스의 이름 매퍼 클래스를 언급하지 않은 이는 감소 감속기 클래스와 출력 키 맵핑라고도 클래스는 우리는 또한 우리의 클래스의 출력 값을 설정할 수 있도록 TXT와의 이후입니다 우리가 단어의 주파수를 다루고있는이 예 우리가 다시 당신이 설정하려는 경우 기소 언급 한, 그래서 숫자에 불과하지 입력 형식 클래스 아무것도하지만이 방법 매퍼 단지 지정되는 작업 단위 것이다 무엇 특정 크기의 입력을 처리 할 각 맵에 대한 우리가이 과정을 가지고 전체 텍스트를 입력 우리의 경우 라인별로 라인은 그래서 우리는 유사하게 우리는 또한 방법을 지정할 수 있습니다뿐만 아니라이를 지정할 수 있습니다 인 출력이 우리의 파일에 기록하는 방법을 출력 형식의 클래스 또한 라인으로 라인 그리고 우리는 가서 우리가 할 수있는 입력 경로를 설정할 수 있습니다 그것은 우리의 입력 파일을 가져옵니다있는 디렉토리를 언급하고 우리는 갈 수있다 앞서 출력 경로 또는 디렉토리를 언급 내 파일이나 내 출력 에 기록 될 것입니다 – 그래서는이 무엇인지 정확히 드라이버 코드가 포함되어 있습니다 그래서 전체 맵리 듀스 코드의 단지 구성 세부 사항에 지나지 않는다 그래서 우리가 가서거야 모든이 프로그램을 이해 바랍니다 실행 그렇게이 내 HT의 SS는 그래서 앞서 가자 내가 설정 한 내 VM이며, 맵리 듀스 프로그램이 실질적 그래서 내가 먼저 내 IDE를 열 수 있도록 실행 이 난 그냥 보여 my 자바 프로그램 그래서 내 ID를 나는 이클립스를 사용하고 있습니다 당신은 그래서 여기에 여기에 다음 내 매퍼 코드를 내 감속기 코드이 내 드라이버 난 그냥 상세히 당신에게 그것을 설명 코드 나는 출발점 주요 방법이라고하지 않고이 어디 내 앞서 출발점이 있음을 말하므로 드라이버 코드가있는 내 자바 코드가있는 여기 당신이 볼 수있는 주요 방법이 있고 우리는 입력 경로와 첫 번째 인수에 대한 제로 번째 인수를 할당 출력 경로 여기 내 클래스 이름은 작업이이 패키지 계산되도록 내 클래스가에있는 곳이다 점에서 유레카 점지도 감소 에드와 나는이었다 그래서이이 프로그램에 필요한 중요한 요구 하둡 항아리 항아리는 내가 모든 하둡과 함께이 모든 프로그램을 내 보낸 워드 카운트 항아리와 같은 종속성 그래서 이것은 당신이 jar 파일을 통해 볼 수 있습니다되는 여기 그래서 이것은 그렇게의 앞서 가자 난 그냥 열 것이다 그것을 위해 있도록이 실행됩니다 내 터미널 그래서 지금의이 가서 저장하기 위해 디렉토리를 만들 수 내 입력과 출력 그래서 처음 나는 하나의 디렉토리를 만들거야, 그리고이 요소 내에는 나는거야 당신이 사용할 필요가 그것에 대해 있도록 입력 및 출력에 대한 두 가지 이상의 디렉토리를 생성 다음 명령 하둡 FS – MKDIR 메이크업 디렉토리입니다 나를 부르 자 우리가 가서 몇 가지를 만들 수 이제 운동 등 및 디렉토리 입력과 출력에 대한 하위 디렉토리는 그래서 우리가 앞서 갈거야, 그리고 난 그냥 입력을 추가 할 것 여기에 유사 이상은 우리가 가서 만들 수 있습니다 뿐만 아니라 출력 디렉토리는 지금 내 디렉토리를 만든 있도록 내가 데이터 세트 또는 우리가 상대하고있는 파일을 끌어해야 할 무엇을 내가 가지고 우리의 입력 디렉토리에와 하둡은 거기에서 그것을 가져오고 실행할 수 있도록 코드는 그래서 내 파일이 어디 나를 이렇게이 집에서 여기에 당신을 보여 드리죠 우리가 배운 같은 파일이 그래서 디렉토리 그래서 이것은 파일입니다 사랑하는 강 카드 인 예 그래서이 여기에 간단한 단락이며, 우리는 여기에이 텍스트 파일의 단어 수 프로그램을 수행 할거야 그래서이 txt 테스트 점으로 알려진 우리가 함께 완료 있도록 화면을 취소하는 우리의 디렉토리를 지금 우리의 다음 단계입니다 만드는 것은이 텍스트 파일을 넣어하거나 이동합니다 우리가 명령 하둡 FS를 사용할 것이다 그것을 위해, 그래서 우리의 HDFS 디렉토리에 텍스트 파일 – 넣고 테스트 도트 EXE 우리의 파일의 이름과 우리의 HDFS 디렉토리 단어 수로 알려져 있으며 우리는 우리의 입력 디렉토리에 원하는되는 그래서 이것은 우리가 jar 파일을 실행해야 할 지금 우리가 무엇을 이동합니다 이제 테스트 도트 txt 파일에 맵리 듀스를 수행하고 그것을 위해 우리가 사용하는 것입니다 위해 이 명령은 하둡 항아리와 내 항아리의 이름은 단어 수있다 우리는 또한 당신의 이름을 기억하도록 패키지의 이름을 언급해야 I n 개의 점입니다 코드에서 당신을 보여 패키지 유레카 점지도 에드 줄이고 또한 내 클래스의 이름을 언급했다 내 주요 방법은 수 있도록 인 이 맵리 듀스 프로그램의 실행의 이름 때문에 거기에서 시작할 수 있습니다 내 클래스는 단어 수를 누르 그래서이 예외를 파괴 입력하는 경우 때문에 당신은 우리가 우리의 입력 디렉토리 언급 한 우리의 드라이버 코드의 기억 제로 번째 인수이며 출력 디렉토리 인수하지만 우리로 하나입니다 우리가 가서 있도록 언급 그래서 어디를 언급하지 않은 하둡은 우리의 입력 디렉토리에서 파일을 가져오고 마지막으로 출력을 저장할 수 있습니다 입에 발 디렉토리는 이제 우리가 앞서 갈거야, 그리고 우리는 단지 입력을 말할 것이다 출력 디렉토리 내 입력 단어 수 플래시 입력에 내 출력였다 있도록 단어 슬래시 출력을 계산하고 지금은지도를 볼 수 있습니다 우리는 이제 그것을 실행하자 생산 실행이 벌어지고 그래서 당신은 몇 바이트를 읽을 것을 볼 수 있습니다 그래서 일부 바이트를 작성하는 것은 우리가 가서 출력을 보자 그래서 하둡을 명령하는 데 사용했던 것을위한, 그래서 내가 당신에게 내 출력 파일을 보여주지 FS – LS 다음이 내 디렉토리입니다 이것이 나의 출력 파일 그래서 우리가 앞서 가자 체크 당신이 여기 참조 참조 하둡이 출력 파일에 기록하거나 할 것을 우리는 맵리 듀스를 볼 수 있음 그 결과 난 그냥 cat 명령을 사용합니다 그것에 대해 있도록 고양이 내 디렉토리 – 그래서이 명령 하둡 SS입니다 그래서 거기에 그것이 모든 단어를 계산 맥주가 너무이며 애스 트릭스 제로 슬래시 그 당신에게 해 네 번 자동차의 최종 결과를 주신 세 사슴이와 그래서 이것은 하둡 맵리 듀스 실행하는 방법입니다 세 역이 그 방법이다 이것은 단지 하나의 간단한하므로 시스템의 다른 맵리 듀스 프로그램을 실행할 수 있습니다 예를 들어 당신이 가서뿐만 아니라 내가 희망 그래서 다른 프로그램을 실행할 수 있습니다 여러분 모두가이 이해 한 것을 우리는 가서 다음로 이동합니다 주제 그래서 지금 우리가 가서 실의 구성 요소와 실을 살펴 보자 아무것도하지만 또 다른 자원 협상을 의미합니다 우리가 가지고 있도록 맵리 듀스 버전이 그래서 우리가 구성 요소를 살펴 보자 자원 관리자 노드 관리자 응용 프로그램 마스터와 컨테이너 자원이 너무 매니저는 여기에서 다시 처리 부서의 주요 노드 그래서입니다 자원 관리자는이를 처리하는 MapReduce 작업과 같은 요청을 수신 노드 매니저에 요청을 전달하고이 경우 모니터의 MapReduce 이것이 여기 작업은 노드 매니저 있도록 제대로 여부 일어나고있다 모든 데이터 노드에 설치하면 노드 것을 생각할 수 기본적 있도록 이 책임이 있으므로 관리자와 데이터 노드는 단일 시스템에있다 응용 프로그램 마스터와 컨테이너 이제 용기에오고 그래서 용기는 이 곳 전체 그래서이 있지만, 아무것도 CPU와 RAM의 조합입니다 처리 또는 맵리 듀스 작업이 발생하고있다 우리는 응용 프로그램을 가지고있다 자원 관리자가 수신 될 때마다 마스터 앱 때문에 마스터가 할당 그렇게 만 응용 프로그램 마스터가있는 경우 모니터하는 시작되는 맵리 듀스 작업에 대한 요청 맵리 듀스 작업이 벌금과 보고서에 가서 자원와 협상한다 매니저는 것을 수행하기 위해 필요할 수 있습니다 자원을 요청합니다 특히 맵리 듀스 작업은 그래서 이것은 다시와 마스터 슬레이브 아키텍처 자원 관리자는 마스터이고, 노드 매니저 인 절전 응용 프로그램 마스터와 용기 돌보고 책임 그래서 이것은 야드 지금 우리가 가서 전체 맵리 듀스 작업 워크 플로우를 살펴 보겠습니다 그래서 어떤 클라이언트 노드를 발생하는 것은 맵리 듀스 작업을 제출 자원 관리자와 당신이 알고있는 경우 자원 관리자는 그래서 masternode입니다 작업이 제출 한 후 자원 관리자가 응답 곳이다 클라이언트 응용 프로그램 ID와 노드는 자원 관리자의 접촉 노드 매니저 및 컨테이너를 시작하는 그들에게 물었다 다음 노드 관리자입니다 그래서 응용 프로그램 응용 프로그램의 각 앱 마스터를 실행에 대한 책임 데이터 노드 환경 여기서가 용기 협상한다 마스터 프로세스가 실행되고이 특정 응용 프로그램을 실행하며 응용 프로그램의 마스터 그렇게 진행 상황을 모니터링 악마하지만 아무것도없는 데이터 노드에 상주하고 태스크의 실행에 대한 용기에 연통 그것은 있도록 필요한 모든 자원을 받게됩니다 다음 각각의 데이터 노드 응용 프로그램의 마스터는 리소스 관리자에서 모든 자원을 받게됩니다 해당 작업을 완료하기 위해 주문하고 컨테이너를 시작 응용 프로그램 마스터가 있도록 컨테이너를 실행하고 용기를 시작할 때 우리는 마당을해야합니다 실제 맵리 듀스 물건을 수행하고 마지막으로 우리가 얻을 것이다 아이 전체 맵리 듀스 작업 워크 플로우가 발생하고 어떻게 출력은 그래서 이것은이다 지금 맵리 듀스 작업이있을 때 우리가 장면 뒤에 어떻게되는지 이해하자 일어나는 것은 그래서 이것은 우리의 입력 블록 및 입력 블록 의지의 세부 사항입니다 지도 작업에 의해 판독 및 각 맵은 원형 메모리 버퍼를 갖는 것이 그것을 출력을 기록하고 버퍼 (100)는 기본적으로하지만 MB의 크기 제안은 정렬 맵리 듀스 점 IO 점을 변경하여 조정 또는 변경 될 수 있습니다 MB 속성 그래서 버퍼의 내용이 임의의 임계 크기에 도달하면 그것은 080에 채워 나 할 때 기본적으로의 80 %를 그래서 백그라운드 스레드 말한다 지도 출력 할 수 있도록 디스크에 내용을 유출하기 시작합니다 경우 유출이 발생하지만, 동시에 버퍼에 기록되는 것을 계속 버퍼는 유출이 완료 될 때까지지도 차단이 기간 동안 채워 그래서 먼저 데이터를 분할한다 디스크에 스레드 콘텐츠를 흘리 전 그들은 궁극적 될 감속기에 대응하는 파티션 내로 각 파티션 너무로 전송 된 배경 스레드는 메모리를 수행 정렬 T 각각의 시간에 의해 상기 메모리 버퍼에 도달 새로운 스핀 파일이지도 작업 후 수 있도록 만들어 스핀 임계 값 거기에 기록 된 마지막 출력 레코드는 여러 스핀 사이트되기 전에 너무 작업이 하나의 파티션으로 파일을 병합하는 유출을 완료하고 정렬 된 출력 파일이 너무 다른 매핑 기능을 수행 할 것 구성 등록지도는 공동 점 정렬 요소가 최대를 제어 생산 스트림 또는 유출 파일의 수는 한 번에 병합하고 기본 그래서 단계입니다 이제 우리는 마침내 모든 다른 다른 매핑 기능에서 출력을해야합니다 다른 맵에서이 출력 페치하고는 감속기로 전송 집계 내가받은 여기이 이미지에서 볼 수 있도록 다른 중간 다른지도에서 결과 마침내는 병합하고 최종를 제공하기 위해 감속기로 전송됩니다 결과는 그래서 이것은 맵리 듀스 내가 모든이를 이해하면 희망 그래서 어떻게 작동 질문은 모든 권리 그래서 우리는 이동거야 그리고 우리는 살펴 보겠습니다 원사 아키텍처에서 우리는 이미 구성 요소 겪었 실 그래서 우리는 이미 마스터 리소스 매니저가 존재하는 것을 알고 노드 관리자가 모든 존재이고 우리가 가지고 슬레이브는 다시 노드 슬레이브 노드와 노드 관리자는 응용 프로그램 마스터와 컨테이너에 대한 책임 그래서 우리는 노드 관리자가 않습니다 그래서 여기에 다른 노드 매니저있어 이것은 노드 상태 또는 노드들 각각은 하나의 수행 방법을 보내는 맵리 듀스 작업과 리소스 자원 관리자와 때 보고서를 보냅니다 관리자는 작업 요청 또는 클라이언트에서 맵리 듀스 작업 요청을 수신 무엇을 그것은 이제 하나 하나가이 응용 프로그램의 마스터를 시작 노드 매니저를 요구하지 않습니다 이 단지는 요청을 얻을 때 또는 실행되도록 각 응용 프로그램에 대한 응용 프로그램의 마스터 맵리 듀스 클라이언트에서 작업과는 맵리 듀스 즉시 종료 응용 프로그램의 마스터 수집에 대한 책임이 있으므로 작업이 완료되면 모든 위해 필요한 자원은에서 해당 맵리 듀스 작업을 수행 할 수 자원 관리자는 이렇게 응용 프로그램의 마스터는 필요하고 모든 자원을 요청 자원이 해당 응용 프로그램의 마스터를 통해 제공하고, 마지막으로 응용 프로그램의 마스터는 컨테이너를 실행에 대한 책임 실제 맵리 듀스 작업 또는 맵리 듀스 처리에 소요되는 곳이다 장소 그래서 이것은 전체 실 아키텍처는 그래서 희망 매우 간단입니다 지금이 이해 한 것을하는 것은 우리가 하둡을 살펴 보자 함께 하둡을이 두 가지 개념을 모두 결합하여 아키텍처 분산 파일 시스템 및 원사 그래서 당신이 함께 HDFS와 원사를 보면 우리 때문에 HDFS의 경우 마스터 노드의 이름은 그래서 여기에 두 개의 마스터 노드를 가지고있다 노드와 아야 년에는 HDFS는 만 책임이 있으므로 자원 관리자입니다 우리가 여기있는 또한 보조 이름 노드를 가질 수 있도록 우리 빅 데이터를 저장 체크 포인팅에 대한 책임과는 반대 이미 검사 점을 알고있다 편집 로그 실제로 첫째로 FS 이미지를 결합하는 프로세스 작업자 노드와 경우는 우리가 데이터 노드 가지고 데이터를 저장 마당의 우리는 우리의 노동자에 대한 책임이 우리의 노드 관리자 노드 당신은 또한 볼 수 있도록 맵리 듀스 작업에 불과하다 데이터를 처리 그들은 기본적으로 그렇게 단일 시스템에있는 데이터 노드와 노드 매니저 나는 당신이 희망 있도록이 모두 함께 HDFS와 원사 모든 HDFS를 이해 모든 이제 데이터를 하둡에 저장하는 방법을 알고 그것을 어떻게 처리하면되도록 실 그렇게 지금 우리는 하둡 클러스터가 실제로 보이는 방법을 살펴 보자 hadoo 그래서 이것은 하둡 클러스터 그래서 우리는 가지고 다른 랙과 같은 모습입니다 함께 그 서로 다른 노드 마스터를 포함하고 슬레이브는 그래서 모두 함께 노드 모든 컴퓨터가 서로 연결되어 있으므로이 서로 다른 클러스터에 지나지 않는다 그들이이 특정 랙 스위치로 연결되어 우리가 가진 한 마스터 노드는 이름은 보조 이름 노드와 다른 슬레이브 노드 우리 노드 또한 함께 큰 하둡 클러스터를 얻기 위해 작은 클러스터를 결합 할 수 있습니다 모두 함께 그래서 이것은을 보여줍니다 매우 간단한 그림은 무엇 하둡 클러스터는 이제 우리가 서로 다른 하둡 클러스터를 시작할 수있는 방법을 살펴 보자처럼 보인다 또는 하둡 클러스터의 다른 모드 괜찮아 우리는 바닥 그래서에서 시작합니다 우리는 그냥했습니다 이전 이미지 때문에 다중 노드 클러스터 모드로 시작합니다 표시 당신은 멀티 노드 클러스터 모드 그래서 내가 그냥 가서 그것을 보여주게됩니다 다시 그래서 이것은 하둡 멀티 노드 클러스터 그래서 우리는 여러 노드를 가지고있다 마스터 노드이며, 노동자에 대한 노드 여기에 우리가있어 이름 노드 이상 다른 기계는 그래서 이것은 다중 노드 클러스터이며, 우리는 의사를 가지고있다 이 모든 하둡 마스터 데몬 데몬 및 것을 의미하므로 분산 모드 슬레이브 데몬 그들은 로컬 컴퓨터에서 실행 한 다음 우리는 가지고있다 독립형 또는 로컬 모드는 어떤 악마가없는이 모든 것을 의미 하나의 가상 머신에서 실행 그래서 이것은 당신이있을 때 위의 유일한 제품군입니다 단지 hadoo 그래서이에만 작동 방법이 있음을보고 싶지 않는 방법을 시도 할 것 그뿐만이 완전히 분산 파일을 가지고 우리의 개념을 위반 그것은 전혀 분산되지 않는 시스템 때문에 당신은 하나의 기계가있을 때 하지만 차이 분산 된 의사에 당신이 가상화를 가질 수 있다는 것입니다 하드웨어가 동일 할지라도 내부에 여전히 논리적 분리를 할 수 있습니다 그러나 이것은 해당 시스템이 다운되면 이후 사용하는 것도 권장하지 않습니다 당신이 갈 수 있도록 전체 하둡 클러스터 또는 전체 하둡 설정이 손실 될 수 앞서 당신이 원하는 때 의사 분산 모드에서 하둡 클러스터를 설정 당신이 파일이 분산되는 방법을보고 싶어하고 원하는 경우 하둡을 배울 수 당신이 앞서 갈 수있는 하둡에 처음으로 직접 경험을하고 하둡을 설정하는 당신에 대해 이야기 할 때 논리적으로 분할하지만하여 단일 시스템에서 클러스터 생산 당신은 항상 당신이해야 멀티 노드 클러스터 모드로 진행한다 작업을 분할하고 당신이 밖으로 혜택을받을 수 있습니다 얼마나 정확하게 빅 데이터의 모든 작업을하지 않는 한 당신이 작업을 배포하지 않는 때문에 또한 백업 계획을함으로써 서로 다른 시스템에 의해 평행 수행 또는 백업 저장 장치를 구비하거나 백업 노드 또는 다시 컴퓨터를 구비하여 단일 시스템이 전환 될 때 처리를 위해 아래로 당신은 적절한을받지 않습니다 하둡을 사용의 이점은 그래서 왜 당신은 항상해야 생산 목적의 멀티 노드 클러스터 모드로 가서는 그래서 이것은 그래서 모든 하둡 클러스터에 대한했다 지금 우리가 앞서 가자와 하둡 생태계를 참조 그래서 이것은 하둡 에코 시스템이며,이 도구의 집합에 불과하다있는 당신을 빅 데이터 분석을 수행하기 위해 사용 그래서 독감 시작하자 수 있으며, HDFS에 데이터를 섭취에 사용되는 학교는 지금은 이미 당신을 말했다 에 대처하기 위해, 그래서 데이터가 매우 빠른 속도로 생성 된 속도 우리는 줌 같은 도구를 사용하고에 데이터를 섭취하기 위해 특종 그것이 발생하기 때문에 처리 시스템 또는 우리의 스토리지 시스템 그래서 수로 및 범위를 매우 고속으로 데이터를 저장하기 위하여 깔대기처럼 동작 다음 약간의 시간을 위해 그에 따라 수로가 섭취하는 데 사용됩니다 섭취 아무것도하지만 대부분 사회적없는 비정형 및 반 구조화 된 데이터 미디어 데이터 범위는 구글 엑셀 시트와 같은 구조화 된 데이터를 섭취하는 데 사용 시트처럼 뭔가 당신은 이미 HDFS 이것이입니다 무엇인지 우리는 또한이 큰 데이터를 저장하는 데 사용되는 분산 파일 시스템 실에 대해 논의 또 다른 자원 협상이 있지만 아무것도없는 그에서 빅 데이터를 처리하기위한 것입니다 떨어져 우리가 가지고 다른 많은 사용하는 경우 우리의 하둡 에코 시스템 도구는 그래서 우리는 높은 VR 지금 고의를 가지고있다 그것은 페이스 북과 그것에 의해 개발 된 분석 있도록 그래서 페이스 북의 속편과 매우 유사합니다 높은 질의 언어를 사용 높은 개발하고 그들이 그것을 사용하기 시작하고 싶어 할 때 그들은 고용해야하지 않았다 이미 전문가 사람들을 사용할 수 있기 때문에 사람들은 HTML을 알고있는 사람 속편에와 지금 우리가 또 다른 도구 가지고있다과 매우 유사 돼지입니다 분석 현재 돼지는 정말 강력하고 하나 개의 큰 명령은 거의이다 당신이 것을 실행할 때 너무 분명 맵리 듀스 코드의 20 개 라인과 동일한 돼지 명령 한 줄 컴파일러는 암시 적으로 맵리 듀스로 변환 명령을 선택하는 코드 그러나 당신은 단지 하나 개의 돼지 명령을 운전해야하며 수행합니다 근처에 사용됩니다 여기에 데이터 회로 공원에 대한 분석 실시간 처리 및 기계 학습을 위해 우리는 두 가지 이상의 도구 SPARC있어 ML의 입술과 mahute 그래서 다시 우리는 사육사와 같은 도구를 가지고와 인 구현 한 아파치가 프로비저닝하기위한 도구입니다 구현 있도록 관리 및 조정에 사용 아파치 하둡 클러스터를 관리 및 모니터링 이곳을 통해 전자 관리하기 위해 워크 플로우 스케줄러 시스템입니다 아파치 하둡 작업이 매우 신뢰할 수있는 확장 성 및 확장입니다 무료로 다음이 아파치 폭풍 실시간 계산을 위해 사용되는 시스템 오픈 소스와 폭풍으로 안정적으로 억제 할 수없는 처리하는 것은 매우 쉽습니다 데이터 스트림은 그 다음 우리는 또한 실시간 데이터 피드를 처리 카프카있어 우리는 지금이이 검색 및 인덱싱에 사용되는 태양 loosin있어 하둡 에코 시스템 도구 세트와 필요에 따라 다음을 수행해야합니다 최고의 도구를 선택하고하지 않도록 최선의 해결책을 마련 동시에 모든 도구를 사용하기 때문에,이이었다 하둡 생태계 어떤 질문이나 모든 권리 그래서 지금 의심은 우리가 살펴 보자 우리는 실시간으로 빅 데이터 분석을위한 하둡을 사용하는 방법을 이해하기 위해 케이스를 사용 삶과 때 우리의 올림픽 데이터를 계정을 복용하고 분석하여 이해 우리가이 데이터 세트와 방법이 데이터 세트와 함께 할 건지 보자도록 설정 그래서 우리는 올림픽의 데이터 세트가 있고 우리는 하둡 도구를 사용하려고하는 것 같아 이제 설정이 데이터에 대한 몇 가지 분석을하기 위해 큰으로 알려진 내가이 사용 사례로 앞서 가기 전에 당신에게 큰에 대해 조금 이야기 할 수 있도록 큰는 매우 강력하고 널리 사용되어 매우 인기있는 도구입니다 및 빅 데이터 분석을 위해 우리는 당신이 복잡한 상태를 쓸 수있을 것 같아요 자바에 대한 지식없이 변환 당신은 이전 프로그램을 보았다 우리 즉,이이었다 매우 간단했다 썼다 단지 작은 맵리 듀스 프로그램 만 자바 코드의 약 70 ~ 80 라인이 있고 당신이 자바에서 잘하지 않으면 그것은 수도 당신은 그래서 지금 우리가 큰 가지고 있기 때문에 걱정하지 않아도 하드를 위해 린에게 수 큰 라틴어로 알려진이 매우이다 큰 사용자 자신의 언어를 비슷한 속편 그들은 또한 가입을위한 다양한 내장 연산자를 가지고하는 필터링 대량의 데이터를 처리하고 또한 내가 당신에게 매우 말할 수 있도록 정렬 큰 코드의 10 줄이 200 개 라인과 거의 동일하다고 흥미로운 사실 매우 쉽게 배울 때문에 그림이 너무 인기가 왜 맵리 듀스 코드는 그래서입니다 그리고 이제 우리가 가지고 많은 데이터를 처리 할 큰 매우 쉽게 설정입니다 설정 올림픽 데이터가 지금은 매우 작지만 단지 예를 들어 나 보자 을 보여 나를 우리가 이러한 설정이 데이터를 어떻게 할 건데 무엇을 말해 보자 우리가 설정 한 올림픽 데이터에 대한 분석을 만들려고하고있는 것입니다 처음에 우리는 우승 한 상위 10 개국의 목록을 찾을거야 가장 메달과는 우리는 금메달의 총 수는 원 보게 될 것입니다 각 국가와 우리는 또한 국가들이 가장 많은 승리하는 알아 봅니다 그래서 수영 특정 스포츠에서 메달이 우리가 가고있는 것입니다 이 간단한입니다 우리가 그렇게 설정 우리의 데이터를 살펴 보자 지금 알아 내고 내 데이터의 설명은 그래서이있어 세트 이렇게 설정 내 데이터의 첫 번째 필드는 athlead이며이의 이름으로 구성 선수는 우리가 운동 선수의 나이를 국가를 가지고하는 운동 선수 선수가 마감일이 시합을 할 때 올림픽의 해에 속한다 끝 행사가 특정 올림픽 년간 개최 된 날짜 선수가 그 사람이나 그 곁에 이겨 금메달의 수에 연관되어 스포츠 여러 메달의 그녀의 전화 번호는 동메달과 총 메달 수 원 특정 선수에 의해이 이렇게 여기처럼 우리의 데이터 세트가 모습입니다 선수와이 분야의 운동 선수와 선수의 이름을 포함 다음 마이클 펠프스 나탈리 코울린 알렉스 동물의 나이와 같은 운동 선수 국가 미국 2008 년 폐막식 일 이 날짜 스포츠 금메달을 원조 실버 수영한다 메달 제로 청동 넷 개 제로 총 메달 팔은 그래서 이것은 우리의 데이터가 외모를 설정하는 방법입니다 같은 우리가하기 위해이 데이터 세트에 대한 몇 가지 작업을 수행 할거야 몇 가지 분석을하고 그림을 사용하는 일부 통찰력 그래서 우리가 앞서 가자 나를 보자 그래서 이것은 내 하둡 세트를 가지고 내 터미널 것을 수행하는 방법을 보여 우리가에 대한 큰 사용하려고하고 최대 그래서 지금은 이미 내 데이터 세트를로드 한 내 HDFS 실제로 설정 내 데이터가 너무 자리하고있는 곳 내가 당신을 보여 드리죠 하둡 SS – LS 그래서이 내 입력과 출력 디렉토리 그래서 우리가 앞서 일러 가자 그래서 내 모든 결과는 여기에 저장됩니다 이러한 분석을하고 난 갈거야 앞서 당신이 모든 작업을 수행하면 당신에게 보여 그래서 우리가하고있는 제일 먼저 우리가 톱 10의 목록을 찾을거야 이것은 그래서 가장 높은 메달 국가 그래서 내가 가서 큰 열게 선반이나 큰 그래서 우리는 우리가해야 할 첫 번째 일은 그것을 위해 내가 난 변수를 사용하려고 해요 그래서 돼지로 설정 데이터를로드 할 필요 이 변수의 데이터 세트를 저장하는 것,이 명령하다 나는 부하되는 사용하고 있습니다 그리고 당신의 이름을 언급해야 어떤 디렉토리는 올림픽 슬래시 입력하고 당신은 또한의 이름을 언급해야 당신의 데이터 세트 올림픽은 데이터를 강조하고 그것은 CSV 파일입니다 그 후 당신은 큰 스토리지를 사용하여 작성해야 우리는 지금 구분 사인 D를 사용하는 나는 이유를 말해주지려고하는 경우에 당신 때문에 우리의 데이터를 기억하는 우리는 그들이 분리되어있는 모든 필드를 설정 탭을 사용하여, 우리가 여기에 우리의 구분 기호로 플래시 T를 사용하고 그 이유는과 당신이 돼지 코드의 각 행을 종료 한 후 세미콜론으로 종료되었는지 확인 당신이 속편에서 어떻게 지금처럼 Enter 키를 누릅니다 지금 우리가 당신이 사용할 수 있도록이 변수 올림픽을 확인 가자 명령 덤프 및 변수의 이름 이 그래서 여기에 우리가 모든 필드를 가지고 그것을 그래서 그래서 내 데이터 세트가로드 된 우리는 플레이어 세 나라 각각의 이름을 가지고 언급 그들은 마감일 행사를 올림픽의 해에 스포츠 각 소속 이 선수가 금메달은 동메달의 수와 연관되어의와 궁극적 인 나의 전체 데이터 세트는 변수 올림픽에로드 된 경우 너무 당신은 우리가 톱 10의 목록을 찾을거야 어떻게 할 건데 기억 가장 높은 메달 나라는 그래서 우리는 우리에게 여기에 모든 필드를 단지 필요가 없습니다 우리는 국가 이름을 얻었고, 총 메달에 대한 그래서 한 분야가 필요합니다 나는 한 번 더 코드를 작성하지만 처음 난 난 그렇게 화면을 취소 것 여기에 또 다른 변수를 사용하려고하는 것은 그래서 우리가 국가 마지막을 호출 저를하자, 코드를 작성 그래서 나를 각 올림픽을 위해 가정 해 봅시다 국가를 추가 생성 현재 총 메달 이러한 인덱스 있습니다 달러 개의 볼 아홉이 수 그래서 우리의 데이터 세트에 나를 돌아 가자 나는이 두 가지를 언급 ​​한 이유는 내가 당신을 보여 드리죠 아홉 여기 그래서 이것은 우리의 데이터를 설정하고 모든 필드의 인덱스 그것을 제로 그래서 운동 선수에서 시작 한 국가에서 0 번째 인덱스 나이에이다 두와 총 메달 그래서 우리는 국가와 전체 메달과 필요 6시입니다 당신이 국가 필드와 총의 인덱스를 언급 한 이유입니다 메달 필드에만 그래서 지금이 우리가이를 확인 가자 우리가 앞서 가자 및 실행 변하기 쉬운 당신은 모든 나라를 볼 수 있도록 그래서 이것은 우리의 또 다른 중간 결과입니다 존재하고 당신은 지금 모든 것을 볼 수 있도록 하드 코딩 된 값 중 하나가 국가 우리는 여기에서 우크라이나를 가지고 두 우리가 원하는 그래서 여기에있다 그것을 위해 우리가 사용하는 것, 그래서 모두 같은 나라 함께 지금 우리는 그룹에 싶어합니다 이 다시 나는 우리가 전화하는거야 함께 그룹에 모든 국가 변수를 사용하고 있습니다 그렇게 분류 다음으로 그룹 국가 최종 있도록이 명령을 실행 국가 지금 우리는 그룹화 확인해 보도록하자 그래서 지금은 모두 같은 나라가 함께 그룹화됩니다 볼 수 있습니다 가지고 트리니다드 토바고 여기 세르비아 몬테네그로 체코 공화국의 모든 국가 그룹화되어 있으므로 경우이 결과는 중간입니다 이전 맵리 듀스 프로그램에 기억 우리는 또한 같은 유사한 값을 얻었다 이 후 우리가했던 우리가 그것을 계산하고 마지막 최종 결과를주고 그것은 우리가 지금 나 또한 각 돼지를 말할 수 있도록거야 정확히 무엇인가 당신이 그것을 실행 코드는 암시 적으로 변환됩니다 또는 암시 적으로 얻는다 맵리 듀스 코드로 번역에만 그래서 무엇이든 우리가 비슷한했다 일어나고있다 이전 코드에서 것은 또한 그래서 지금 우리가 앞서 갈거야, 그리고 우리는 그들을 그렇게 계산합니다 지금 내가 결과를 저장하기 위해 다른 변수를 사용하자 그래서 제가 마지막을 부르 자 결과 이것은 명령입니다 각 그래서 그룹을 생성 그룹화 위해 우리가 이중으로 사용하려고하고 그것을 계산 우리는 우리 나라의 마지막을 사용하고 여기 계수라고하고 빵의 기능 총 초원 스카우트는 지금 우리가 최종 결과를 확인 가자로 Tirico가이 곳과이 그렇게 한국은 274 개 총 메달을 가지고있다 북한은 21 일 베네수엘라 사 가지고 가지고 있지만 당신이 지금 그것을 볼 경우이 아니다 정렬 된 순서로 우리가 톱 10을 원하는 그래서 우리가 그것을 정렬 할 수 있도록 우리가 할 수 있도록 상단에 가장 높은 메달 수상자가 내가 저장거야이 변수를 사용하겠습니다을 정렬하려면 그것을 취소 이 변수의 분류 결과 정렬라고 지금은 쓸거야 나는 최종 결과를 주문하려면 F에 의해 계산 나는 내림차순 원 이 멋진 여자 정렬 그래서 지금 우리는 정렬 된 방식으로 모든 국가를 가지고있다 당신이 이동하면 우리는 미국이 가장 높은 메달을 가지고 있음을 알 수 다음 러시아 독일 호주 중국은 제공하지만 모든 목록을 가지고있다 내가 제거 할 수 있도록 저와 국가와 나는 단지 상위 10 개국을 원했다 모든 다른 사람을 그 날 사용할 수 있도록하기위한 나는 너무 톱 10을 선택합니다 또 다른 변수는 상위 10 개국의 이름 만 저장 날 수 있도록 최종 카운트를 호출 날이 제한을 사용할 수 있도록 짧은 열 지금 당신은 내게만을 제공 상위 열 값은 지금 우리가 마지막 수를 확인 가자 그래서 이것은 우리가 상위 10 개국의 이름을 가지고 우리의 최종 결과입니다 메달의 총 개수는 특정 국가 원하고 그래서 이것은 우리의 최종 그 결과 그럼 가서에 대한 그래서 우리의 출력 디렉토리에이 결과를 저장할 수 나는이 명령 매장 최종 카운트를 사용하는거야 디렉토리의 이름에있는 올림픽 슬래시 출력은 나를 보자 특정 파일에 저장하는 것은 내게는 첫 번째 경우를 사용 부르 자 최종 결과가 성공적으로 파일에 저장되어 있으므로 그것은 성공이다 내 출력 디렉터리에 유사하게 우리는 계속 진행하여에 대한 답을 찾을 수 있습니다 우리는 이미 두 번째 있었다 다른 두 가지 질문 정상을 찾는 것이었다 이것이 지금 금메달의 가장 많은 우승 10 개국 우리가를 선택하는 대신 단 한 첫 번째 완전히 유사 총 메달 필드 우리가 금메달이 시간 필드를 선택거야, 그리고 떨어져 금메달이 될 것이다, 그래서 다른 모든 단계를 동일하게 나타날 것이라고에서 대신 쓰기 (9)의 6 번째 인덱스 우리는이 경우 (6)를 작성해야하고 세 번째였다 국가 그렇게하자 수영에서 메달의 가장 많은 승리하는 알아보십시오 나 가서이 다시 또한 매우 매우 유사합니다, 그래서 당신이 하나를 실행 하나 더 있기 때문에 대신 두 가지의 우리는 세 개의 필드를 선택해야합니다 이 일에 관련된 스포츠 필드 필드 그래서 내가 그냥 진행하자 우리는 우리가 가장 먼저해야 할 일은로드 할 수 있도록 같은 명령을 실행 우리의 이 같은 그래서 데이터 세트는 그래서 우리는 두 번째 지금이로드 한 지금 대신 두 필드의 두 번째는 우리가 너무 세 개의 필드를 선택합니다 이것은 우리가 스포츠에 있던 또 다른 하나를 추가 할 것입니다 괜찮 국가 등이 발생 다섯 번째 인덱스는 그렇게 가서 있도록 5 구 스포츠로 총 메달을 언급 우리가 수영 특정 스포츠를 원하기 때문에 우리는 필터링 할 수 있습니다 스포츠의 모든 그리고 우리는 단지 나에게 계정에 걸릴하지만 먼저 내가 분명히 드리겠습니다 내 화면은 내가 다른 변수를 사용하고, 그래서 내가 선수 필터를 호출하자 나는거야 내가 갈거야, 그래서 필터로 알려진이 또 다른 붙박이 기능을 사용하는 방법 필터링하기 스포츠 및 스포츠에 의해 국가 마지막은 수영 그래서 지금 우리가 가서 선수 필터를 확인하자 그래서 거기에 우리는 국가가 이제 스포츠 수영의 이름을 가지고있다 다시는 우리가 그룹에 원하는 또 다른 중간 결과 모든 국가는 함께 다시 나를 호출이 변수를 사용하자 최종 그룹과 우리는 또 다른 붙박이 기능을 사용할 수 있습니다 이는라는 그룹입니다 국가 별 ashle 필터 어서 최종 그룹을 확인하자 그래서 다시 우리는 지금 우리가 앞서 갈거야 모두 함께 국가를 분류했다 그것을 계산하고 지금 우리가 앞서 갈거야 그리고 우리는을 사용합니다 우리가 전에 그렇게 나에게 또 다른 변수를 사용할 수 있도록 않았다 유사한 카운트 기능 여기에 나를 다시 보자 최종 카운트를 호출 수 있도록 각 최종 그룹 여기 그래서 공간이 반드시 승무원을 생성 당신은 운동 선수 필터 언급 한 카운트 기능을 사용 지금의 앞서 가자 마지막 수를 확인 다시는 정렬 우리는 항상 메달을 승리 상단 나라를보고 싶지 않을 것 그래서 수영은 다시 우리가 가서 그것을 정렬 할 수 있습니다 그래서 시작 우리의 최종 카운트 F에 의해 계산 나는 정상 국가가 먼저 그렇게 내림차순으로 정렬하려면 내가 가서 일종의 확인하자 그래서 거기에 우리가 가지고 나는 분명히 그래서 너희들은 이미 짐작 알고 미국과 마이클의 자아가 될 것 모든 그래서 그래 그래서 우리는 가지고 싶 었 미국은 테이블에 우리는 호주 네덜란드 일본있어 중국 독일 프랑스는 지금 당신은 당신이 할 수있는 유일한 상위 5 위에 열을 원하는 경우 그것 때문에 제한을 사용하여 유사한 방법으로하지만, 당신이이 방법을 유지하려는 경우 그래서 지금이 우리가 원하는 최종 결과라고 할 수있는 우리가 갈거야 우리의 출력 디렉토리에 저장 그래서 다시 우리는 같은 명령 저장소를 사용합니다 다시 올림픽 슬래시가 입하지만 디렉토리에있는 칼 출력은 나에게 단지를하게하거나 우리 세와 입력의라는 파일을 사용하는 경우에 그래서 다시 지금의 지금이 그림 나올 성공 할 수있다 내 단자와 지금은 우리가 가지고있는 첫 번째 결과를 볼 수 있도록 우리 해당 유형 하둡 FS에 대한 그래서 우리의 출력 디렉토리에 저장 한 – 얻을 내 출력 디렉토리 그래서이 제 측 유스 케이스 및 애스 트릭스 제로였다 그래서 성공적으로 내 출력에 저장된 내 결과가있다 디렉토리와 거기가 그렇게 이것은 당신이하게하기 위해 큰 사용할 수있는 방법입니다 분석은 지금이 우리가 만드는 아주 작은 데이터 세트와 매우 쉽게 분석입니다 당신은 매우 복잡한 것 또한 큰 사용하여 수행 할 수 있으며, 당신은 단지에있는 그래서 나는 여러분 모두가이 사용을 이해 희망의 코드 몇 줄 쓰기 당신이 의심이있는 경우 경우 당신은 그래서 당신이 할 지금 나에게 질문을 할 수 질문은 확실히 내가 희망이 세션에 참석 당신에게 모두 감사합니다 모든 하둡에 대해 배운 적이 있지만 당신은 어떤 질문이나 의문 사항이있는 경우 이 비디오에 업로드됩니다 아래 친절하게 코멘트 섹션에두고 당신의 LMS와 나는 당신이 즐길 희망 다음 행복 학습까지 당신에게 다음 번에 볼 수 있습니다 이 비디오를 듣고 그것을 좋아하는 정도로 친절하고 당신은 댓글을 달 수 있습니다하시기 바랍니다 당신의 의심과 쿼리와의 우리는 최초의 할 일에 그들에게 응답 할 것이다 우리의 재생 목록에 더 많은 동영상 피려하고 유레카 채널에서 우리에 가입 더 행복 학습을 배울 수

HADOOP Tutorial for Beginners – The BEST Explanation # PART 1

안녕하십니까, 그것은 소리인가? 예 그것은 다른 사람에 대한 소리인가? 예 네, 지금 수업을 시작할 수 있다고 생각합니다

어서 내 자신을 소개하자 내가 하리이야, 하둡 온라인 트레이너 greatonline 훈련에서 내가 일하고 있어요 다국적 기업이다 그래서 내 배경에 대해 간략입니다 그래서 당신은 신속하게 자신을 소개하시기 바랍니다 수 있습니다

안녕 얘들 아,이 뉴저지에서 빈입니다 승인, 하리 안녕하세요, 내가 보스턴에 살고, 빈두입니다 승인 안녕, 시카고에서 Saatya 좋아, 안녕 하리,이 Srivani입니다 안녕, Blumington에서

좋아, 안녕하세요, 버지니아에서 UMA이다 승인, 좋아, 다음, 지금 수업을 시작합니다 그것을 잘 맞나요? 예 참으로 작성하십시오 승인, 나 오늘의 의제에 대한 가자, 그래서 의제 무엇인가 코스 내용의 오늘의 데모 sessionOverview 및 물질하는 나는 방법 등의 교육에 대해 브리핑하겠습니다 교육이 될 것입니다 및 과정 구조는 어떻게 될 것인가? 다음으로, 빅 데이터는 무엇인가? 이제 -a -days 모두가 미래의 큰 데이터가 말하는 나는 빅 데이터가 명확하게 무엇을 youunderstand 만들거야 과 도전이 무엇인지 우리가 직면하게 될 것이다 대한 도전 빅 데이터로 처리하면서 하둡은 무엇인가? 나는 당신의 간단한 소개를 줄 것이다 하둡과 하둡의 중요성 우리는 하둡을 사용해야하는 이유, 그것의 중요성은 무엇인가, 나는 설명 할 것이다 하둡 시스템을 에코 것을 그래서 여기 내가 당신에게 하둡의 모든 구성 요소를 보여줍니다 간단한 실시간 예와 에코 시스템

그래서 당신은 쉽게 모든 것을 이해할 수있다 질문 및 답변, 그래서 데모의 끝 당신은 당신이 어떤 질문을 요청할 수 있습니다 그 질문에 답하고 그것 뿐이다됩니다 이것은 오늘날의 데모 세션의 의제입니다 그래서 파워 포인트 프리젠 테이션으로 이동하기 전에, 내가 당신에게 과정의 구조 나 과정 드라이브를 보여 드리죠 그래서이 과정 드라이브가 같은 모습입니다 팔 개 폴더가 포함됩니다 여기에 첫 번째 그래서 세션입니다 그래서이 훈련 의지는 수업 30 시간으로 구성 즉, 30 개 세션 그래서 매일 한 시간 클래스입니다 그래서 이것은 평일 수업에 대한 준비가되어 또한 주말 배치를해야합니다 그래서이 폴더 것은 그래서 매일 구성 좀 PowerPoint 프레젠테이션을 설명 할 것이다 또는 나는 것 프로그램의 일부를 설명하거나 나는 수도 모든 그래서 재료의 일부를 보여 나는 당신을 보여줄 것이다 또는 당신을 가르 칠 것입니다 어떤 매일 세션에서 그 것 이 폴더에 존재

파워 포인트 프리젠 테이션 또는 어떤 물질 프로그램이나 나는 설명 할 것이다 그 클래스에 그래서 이것은 어떻게 세션입니다 될 것이다 매일의 수업 후 작업 나는 당신에게 당신이 할 몇 가지 과제를 줄 것이다 당신이 어떤 의심이 그래서 만약 다음 클래스에 의해 완료 그 과제에 대한 또는 질문, 우리는 할 수 같은 다음 수업 시간에 같은 논의 나는 당신에게 할당의 할당을 표시합니다 이 과제를 완료 할 수 있습니다, 같은이 데모 세션의 말 빅 데이터의 4 개 V의는 무엇인가? 다음 중 데이터의 다양한 빅 데이터 일 수있다 그래서이 질문은 아주 쉽게 대답 할 수 이 클래스에 대해주의 깊게 경청합니다 그래서 마찬가지로 매일 나는 당신에게 몇 가지 작업을 줄 것이다 그뿐만 아니라 질문에 나처럼 그것은 그렇게뿐만 아니라의 여러 대답 질문입니다 난 당신이 연습하는 일부 프로그램을 줄 수도 그런 일이 무엇 때문에 내가 당신에게 줄 것이다 당신이 그 일을 마무리하는 경우 그래서 충분합니다 내가 최선의 수집, 그래서이 소재입니다 재료에 대한 또한 내가 개인적으로 준비 자료 개념의 일부 당신이 따르는 경우에 그래서 당신을 약속 내 클래스와 당신은 지정을 완료 할 수있는 경우 이 인터뷰를 해독하기에 충분하거나 선택을 취소합니다 인증 시험 다음 하나는 자주 요청합니다 질문 그래서이 자주 묻는 질문 (FAQ) 그래서 이들은에서의 자주 제기되는 질문입니다 인터뷰는 인증 시험의 일부입니다 그래서 나는 자주이 수집 요청했습니다 에서 작업하는 동료의 질문 다국적 기업은 너무 자주 이러한 희망 묻는 질문 다음은, 당신을 위해 도움이 될 것입니다 인증 그래서이 폴더의 구성 구성 당신이 완료 할 수있는 자격증은 무엇입니까 내 수업 및 인증에 참석 한 후 또한 인증 시험 패턴 강의 당신은 또한 인증 댐의 일부를해야합니다 이 폴더에 그래서 우리는 몇 가지 샘플을 재개 좋은 이력서 당신은 단순히 변경할 수 있습니다 당신의 이름과 당신에 업로드 할 수 있습니다 당신이 아주 좋은 가지고 당신의 작업은 포털 개념의 이해는 당신이 유지할 수 원하는 경우 2 ~ 3 년간의 경험과 비디오 그래서 이 동영상 무엇인가 그래서 당신은 클래스 또는 경우 일부 무엇을 그리워하는 경우 우리는 기록 할 것이다이 다시 수업을 듣고 싶은 모든 세션은 당신이 당신이 이들에 액세스 할 줄 것이다 비디오 세션이 훈련에 참여하는 경우 그래서 일단 당신은 삶의 시간 액세스 할 수 있습니다 당신은 여기에서 볼 수있는 소재, 비디오 당신은 다른 배치로 가입 할 수 있습니다 당신은 당신이 원하는 경우 클래스의 일부를 그리워있는 경우 다시 수업에 참여하고 나는이 프로젝트를 그리워 죄송합니다 훈련의 끝에서 당신이 선택할 수 있습니다 여기에 프로젝트 중 하나를 수행 할 수 있습니다 프로젝트를 완료하고이에 붙어있는 경우 당신이 우리의 도움을 원하는 곳 또는 경우 당신이 프로젝트를 완료하는 데 도움이 될 것입니다

그래서 단순히이 과정 드라이브가 얼마나이다; 나를 다시 PowerPoint 프레젠테이션에 가자 승인, 그래서, 당신이 요즘 무엇이든 그것을 기록하기됩니다 당신이 채팅 어딘가에 경우에도, 일부 전화로 얘기하면, 당신은 인터넷 모두에서 무언가를 검색하는 경우 어딘가에 기록하기됩니다 그래서 어디 데이터의 양이 더 저장되며 이 저장되어있는 경우 데이터가 저장되는 이유, 이들은 질문 그래서,에 대답하기 전에 이러한 질문은, 그래서 내가 당신에게 보여 드리겠습니다 그래서 세계 디지털 데이터 어떻게 세계 D 디지털 데이터 증가하고있다 여기 당신에게 하나 개의 그림을 보여 드리겠습니다

여기서 상기 메모리 2015에 제타 바이트 보이고 세계 디지털 데이터는 01 제타 바이트 2000입니다 2005 년에 유감이 01 제타 바이트 및 2015 년에 그것은 9 제타 바이트입니다 그래서 제타 바이트가 정확히 무엇인지 나는이 메모리 크기 차트에서 보여주지 않도록 그래서이 메모리 크기 차트는 당신에게 모든 메모리 크기를 제공합니다 추천 요타 바이트로 최대 비트 최소값부터

예, 당신이 알고있는 기가 바이트 1024 메가 바이트 1024 기가 바이트 1 테라 바이트 1024 테라 바이트 하나 페타 바이트 1024 페타 바이트는 하나 엑사 바이트입니다 이 무엇을 그래서 1024 엑사 바이트는 하나의 제타 바이트이며, 제타 바이트는 우리가 무슨 말을입니다 세계 디지털 데이터 제타 바이트는 그래서 약 1조기가바이트이 ​​많이 있으므로 많은 제로가 얼마나 같은 데이터의 양 zetabyte에 거의 20 ~ 24 자리가 될 것입니다 이 제타 바이트이다 이것은 제타 바이트가 매우 큰 데이터입니다 그래서 내가 다시 세계 디지털 데이터로 가자, 그래서 경우 2012 년에 여기에있는 세계 디지털 데이터는 28 제타 바이트입니다 2015 년 그들은이 85 제타 바이트에이를 수있을 것으로 기대 그러나 실제로는 9 제타 바이트를 건넜다

과거 그래서 삼년 만 거의 배 이상 배 그래서이 성장 사람들은 전문가가 있습니다 2020 년 세계 디지털 데이터가 될 것으로 기대 44 제타 바이트이 증가 그래프를 보여 그래서 만약, 이것은 데이터 용량 등 지수 그래프 세계에서 기하 급수적으로 증가하고있다 그래프에서 파란 선은 도시 이것 이 빨간 선은 설명 그래서이 빨간색 선은 무엇인가 구조 데이터의 성장은 그래서이 무엇 구조 데이터 구조 데이터가 어떤 데이터입니다 이는 우리가 관계형 데이터베이스에 저장할 수 있습니다 여러분 모두가 알고 희망 어떤 관계형 데이터베이스 또는 DBMS 관계형 데이터베이스 관리 시스템 그래서 관계형 데이터베이스는 데이터를 포함 행과 열을 같은 테이블의 형태로 그래서 이것은 관계형 데이터베이스로 호출 할 것입니다 주로 나는이 관계형 데이터베이스를 사용합니다 또는 자주 데모 세션에서 관계형 테이블 예, 구조 데이터 구조 데이터는 무엇입니까 관계형 데이터베이스에 저장하고 unstructure 데이터 그래서 이것은 당신이 저장할 수 없습니다 것입니다 비즈니스 데이터 구조 데이터는 비즈니스 데이터입니다 그래서 당신이 unstructure 데이터를 비교한다면 데이터 구조는 데이터의 80 %와 같은 데이터의 대부분 unstructure 데이터는 15 %의 데이터의 20 % 인 이것은 어떻게 데이터가이 세상에서 구조 데이터입니다 세계에서 증가하고 있지만, 사람들은 왜 저장하는 저장의 필요가 무엇인지 데이터의 많은 양의 이 데이터는이 질문에 대한 대답은 매우 간단합니다 데이터의 내부를 얻기 위해 필요한 취할 결과에 따라 행동 그래서 당신을 이해하기 훨씬 더 나는 당신에게 간단한 예를 줄 것이다 우리는 작은 식료품 가게를 생각해 보자 그래서 뭐 가게 주인은 다시 그래서 처음에 단지 몇 일하고있다 그는 가게를 열고 그는 모든 제품을 가져 중 그는 팔고 싶어 그는 모든 제품을 보관 등 자신이 원하는 무엇이든 같이 임의의 방법으로 그래서 그는 자신이 관찰 무엇을, 한 달 동안 관찰 우리는 빵과 잼과 같은 두 제품을 보자

그래서 그는 같은 양의 빵과 잼을 구입 하지만 잼 나는 잼의 판매는 것과없는 것을 의미하지 않습니다 빵의 모든 사람들은 빵을 구입하는 사람들 때문에 잼을 구입하지 않습니다 그들 그래서이 그가 온 것입니다 누구처럼 역사를 보면 알 수 있습니다 모든 사람들은 빵을 사는 모든 사람들은 누구 다음이 역사를보고, 잼을 구입, 그는 빵을 구입하는 사람들의 50 %를 찾거나 사람들의 50 %를 의미 구매 잼 빵을 구입하면서 잼을 복용하지 그래서 그는이 발견 그는 한 다음 그가 빵과 잼을 모두 배치 함께 다음 다른 옆에 하나처럼 그는 관찰 1 개월 충격적 위해, 잼의 판매도 있습니다 incre는 80 %와 같이 30 % 증가한 증가 빵을 복용하거나 또한 잼을 복용하는 사람들 그래서 무슨 일이 사건 때문에 여기에 무슨 일이 일어나고 있는지 어떻게 사람들은 또한 누구 때문에 30 %의 증가를 가지고있다 정말 의도는 잼을 구입하지 않아도되지만 잼 그러나 빵과 함께 잼을 본 후에 이 얼마나 판매 그래서 그들은 또한이 잼을 취하고 내가 말할 수있는이 예제에서, 그래서 걸림 증가를 얻었다 이 크지 자료입니다 만,이 저장 무엇을 필요가있다 그래서 함께 빵과 잼을 배치하여이 데이터 이로 호출 무엇 때문에 잼의 판매는 증가되었다 시장 바구니 분석은 그래서 그는보고 한 일 역사에, 그입니다 판매의 역사는 무엇입니까 데이터의 내부를 받고 어떤 것은 필요하다 와 수 있도록 조치는 그는 함께 빵과 잼을 배치 걸렸다 이 그의 사업이이 중 하나입니다 그래서 증가되었다 예를 왜 데이터를 저장하는 사람들 이 데이터를 저장의 필요성은 무엇인가 당신은이 예제를 이해 희망 그래서 내가 다음 빛에 가자 빅 데이터 무엇인가? 나는 당신에게 간단한 정의를주지 이 빅 데이터 무엇 빅 데이터,의, 빅 데이터는 크거나 복잡한 데이터 세트를 수집하는 기존의 데이터 처리에 의해 처리 될 수없는 두 가지 때문에 응용 프로그램은 여기에서 고려해야 할 하나는 크고 복잡한 데이터 세트 모음 그래서 빅 데이터는 수집하는 간단한 데이터 아니다 큰 그 엄청난 데이터를 의미하며, 또한 일 수 있습니다 복잡한 데이터 세트 및이 데이터는 할 수 없다 전통의 데이터 처리에 의해 처리 응용 프로그램은 그래서 기존의 데이터 무엇인가 처리 애플리케이션을 이것은 그래서 관계형 데이터베이스 또는이 때문에 관계형 테이블 빅 데이터는 처리 할 수없는 우리의 관계형 데이터베이스 관리 시스템 또는 DBMS 때문에이 유형의 데이터는 우리로 호출 할 수 있습니다 빅 데이터 빅 데이터가 크거나 복잡한의 모음입니다 처리 할 수없는 데이터 세트 우리의 기존의 데이터 처리 응용 프로그램 승인, 다음으로, 빅 데이터 애플리케이션은 지금은 논의 할 것이다 이 빅 데이터가 사용 사례 중 일부에 여기에 여기에 중요한 역할을 첫 번째를 재생하는 것은 E-상업 웹 사이트는 너무 많은있다 아마존, Flipcart, 이베이 같은 종류의 모든 E-상업 웹 사이트 모든 아주 좋은 E-상업 웹 사이트입니다입니다 당신이 구입하는 경우 당신이 아마존에서 아마존을 고려한다면 이 관계처럼 RDBMS에 저장됩니다 뭔가 그래서하지만 데이터베이스의 프로젝트를 검색하는 동안 제품은 당신이 추천을 많이 받고있을 것이다 같은 당신은 유사한 종류의 다른 제품을 받고 있습니다 제품의 당신은 검색하는 경우처럼 모바일 당신은 추천을 많이 받고있을 것이다 다른 휴대폰의 마찬가지로 그래서 당신은 어떻게 이것들을 얻고있다 당신이 제품을 검색 할 수있는 권고 전 또는 사용자의 대부분은 검색 수 제품은 그래서 아마존은 방법이 무엇을하고 있는지 아마존은 당신에게 권장 사항을 보여주고있다 그래서 무엇을 할 것 것은 같은 모든 검색 데이터를 저장하는 것입니다 어떤 사람들은 검색합니다 또는 당신이 검색 무엇을 당신은 특정 제품을 검색 할 때 그래서이 모든 검색 데이터는이 아마존에 의해 저장됩니다 그리고이 가게를 무엇을 할 것 인 데이터가 될 것입니다 아마존에 의해 이러한 데이터를 처리하여 처리 이 권고의 일부를 표시합니다 그들은이 큰 데이터 나되는 데이터를 저장하는 곳 사용자의 검색에 의해 생성 된 그들은 할 수 없습니다 이 사업이 아니기 때문에 RDBMS에서이 데이터를 저장 이것은 비즈니스 데이터가 아니기 때문에 데이터 죄송합니다 당신은 RDBMS에서이 데이터를 저장할 수 있으며 당신은 할 수 없습니다 과정이 데이터 또한 그렇게 때문에 왜 당신이 할 수있는 't RDBMS이를 저장하는 주요 이유에서입니다 관계형 데이터베이스는 개념 통화를합니다 무슨 뜻인지 쓰기에 쓰기 스키마에 대한 스키마 데이터베이스에 데이터를 삽입 할 때 윌 가있는 경우, 같은 데이터의 데이터 유형을 확인 적절한 포맷 만 그 데이터를 삽입 할 당신은 직원 정보가있는 경우 가정 그래서 직원 이름 및 직원 급여가 그래서 당신이 데이터베이스에 데이터를 삽입하는 동안 또는 테이블에 데이터가 먼저 급여 여부를 검색합니다 자리에 SOR하지 번호 또는 그리에 이 숫자 인 경우에만이 삽입됩니다 데이터베이스에 데이터 그렇지 않으면하지 않습니다, 그것은하지 않습니다 그래서 이것은 우리가 검증로 부르는 동의 쓰기에 대한 스키마를 작성하기 전에 스키마를 확인 그렇게 때문에 쓰기에이 스키마의 데이터베이스에 우리는 RDBMS에이 검색 데이터를 저장할 수 있기 때문에 이 검색 데이터가 매우 그대로 시간이 더 걸릴 것입니다 이것이 그래서 시간의 매우 많은 시간이 걸릴 것입니다 거대하고 이 검색 데이터는 어떻게 구조화되지 않은 데이터입니다 이는 우리가 빅 데이터를 호출 할 수 있습니다

그래서이 방법 아마존 unstructure가이 검색 데이터를 저장해 데이터와이 데이터를 처리하여 그것을 보여주는 권고의 일부, 그래서 어떻게 저장되어 내가 나중에 설명하겠습니다 것을 저장되는 경우 어떻게 아마존은 검색 데이터를 처리하고 당신을 줄입니다 권장 사항을 참조하십시오 내가 다음 예를 들어 가자 즉, 소셜 네트워킹 웹 사이트입니다 그래서 요즘 소셜 네트워킹 웹 사이트도 있습니다 데이터 페이스 북, 구글의 매우 엄청난 금액을 생성, 트위터, Instogram 이러한 모든 그래서 저를 생각 해보자 여기에 페이스 북 페이스 북은 거의 500를 생성 하루에 테라 바이트는 그 이상이 될 수있는 그렇게 매우 거대하고이 데이터의 형태 일 수있다 , 스포츠,, 이미지, 비디오 및 좋아 그것은 왜이 페이스 북 모든 형식에있을 수 있습니다 데이터의 많은 양을 어떻게 저장되고 이 데이터를 저장하는 사용 그래서 그것에 대해 알고 전에 그래서 혹시 어떻게 페이스 북과 같은이 질문을했을까요 페이스 북이 돈을 받고, 그래서 돈을 받고 기본적으로 광고주이뿐만 아니라 소스 그러나 이것은 주요 원인 중 하나입니다 광고주가 돈을 얻을 것이다 소득의 소스 그래서 어떤 광고주는 올 것 할 것 페이스 북 그리고 그들은 몇 가지 광고를 원하는 사람의 특정 그룹에 표시하는 유일한 모든 사람들은 그래서 이것은 어떤 차이가 타겟 마케팅 및 글로벌 마케팅 사이 글로벌 마케팅은 단순히 게재됩니다 는 모든 사람에 추가하지만 대상 마케팅은 무엇입니까 표시하거나 광고를 제시 사람들 때문 만의 특정 그룹 그들은 단순히 당신에게 말을 인용하겠습니다 목표 사람들 여기 예 광고하려는 광고주 신발 같은 축구 키트, 또는 축구, 축구 키트에 대한 뭔가 다른 광고주가 와서 너무 페이스 북은 내가 남자를 원하는이 같은 요청 축구를 사랑하고 누구 누구 누구 25 세 미만 그래서 나는이 내 광고를 보여주고 싶은 유일한 사람 그래서 페이스 북을 기반으로 무엇을 할 것 인 우리 모공, lides 우리의 기록 데이터는 사람들을 얻을 것이다 재생 사랑하는 사람과 같은 요건 축구와 누구 25 세 미만이 페이스 북 뭐 그것은 해당 광고를 표시합니다 무엇을 할 것 인 그 사람들은 그래서 이것은 어떤 대상 마케팅이다 그래서 사람의 수에만 광고주를 기반으로 페이스 북은 점점 방법을 페이스 북에 지불하는 것은 그래서입니다 돈 때문에 빅 데이터의 관계 것입니다 여기에 페이스 북, 페이스 북이 저장되도록 데이터 게시물이 좋아하는 데이터, 이미지, 비디오 뭔가 그런 식으로이 데이터를이 페이스 북은 점점 있도록 사람과 보여주는 것이 좋습니다의 내부 사람들에게 권고 또는 광고 이 얼마나 그것이 돈을 받고있다 그래서 이것은 페이스 북이 빅 데이터를 사용하는 방법입니다 그것은 모든 데이터를 저장하고 분석하는 분석되고 이 데이터는에 기초하여 결과를 수득 결과와이 광고를 광고가 될 것입니다 표시 다음 하나는 CC 카메라의 CC의 TV의입니다 그래서 당신은 세계에서 CC의 수를 보면 카메라도 상당히 증가한다

그래서 데이터는이 CC 카메라에서 생성 된 또한 매우 거대 그래서 이러한 데이터는 것을 의미하는 인 동영상의 형태로하고이 또한 빅 데이터입니다 및 분석이이 데이터에 적용 할 수있다 대부분 추적하는 범죄 부서에서 사용됩니다 범죄의 일부는 어떤 과거에 무슨 일이 있었 그리고 너무 다음 한 의료 산업 의료 산업은이 빅 데이터 분석이 될 것입니다 그래서 사용 나는 가정도 여기에 당신에게 간단한 예를주지 모든 병원은 모든 환자 정보가됩니다 병원 같은 환자 정보 phasemen해야합니다 질병, 의학은 질병과 어떤 주어진 그것의 그것이 경화 얼마나 많은 일 비용이다 모든 병원 가정 환자의 정보를 이 같은 및 국가 저장소에있는 모든 병원의 경우 어딘가 한 곳에서 거기에 같은 데이터 각 질병 때문에 가정을 위해 우리가 분석을 수행 할 수 있습니다 질병 무엇 무엇 무엇과 같은 모든 데이터 그것의 비용이 무엇인지 주어진 의학 무엇인가 얼마나 많은 일에이 너무 치료를 받았습니다 어떻게 어떻게 분석을 수행 할 수 있으며, 사용이 무엇인지 나는 각 질병에 대해 말씀 드리죠 우리는 기반으로 최적의 솔루션을 얻을 수 있습니다 상황이 어쩌면 비용 또는 시간 돈이나 시간의 경우처럼 누군가가 초기에 모두가 치료하고자하는 치료하고 싶어 일찍 분명하지만 나는 사람을 의미 우리가 할 수있는 가정이 약을 감당할 수 없거나 그냥 말해 나는 우리가 최고의 기계를 얻을 수 있음을 의미 특정 질병에 대한 유감 최고의 의학 저렴한 비용에 우리가 할 수있는 노력들이 할 수있는 경우에 이렇게 비싼 약을주고있는 치료할 수 초기 I는 달리 매우 적은 시간을 의미 그들은 그 정도 여유가없는 경우 경우 우리가 줄 수있는 돈이 많은 양의 저렴한 비용의 약 하는 최선의 방법으로 치료할 수 있습니다 그래서 이것은 어떻게 의료 산업에서 또한 우리는 분석을 수행 할 수 있습니다 빅 데이터에 이에 대해 분명히있어 바랍니다 다음 중 하나 비행기 데이터, 그래서 승객에 대해 확실히 아니다 데이터는 다른 데이터에 관한 것입니다

어떤 데이터가 나는 비행기는 약 6,000 센서에서이 같이 들어 날개는 그래서이 센서는 것 무엇을 할 것 인 이 데이터와 데이터의 매우 큰 금액을 생성 이 미스 인 경우 우리는 비행을 추적 할 수도 있습니다 이 파일럿에 즉시 새로운 경로를 표시 할 수 있습니다 매우 적은 연료를 사용하여 관광 destinate 대상 그래서 이들의 장점 중 무엇 일부입니다 이 때문에 센서 비행기와 같은 큰 데이터 분석 데이터 우리는 같은 다른 결론을 얻을 수 있습니다 이 놓친 경우 우리는 비행을 추적 할 수 있으며, 우리는 목적지까지의 최단 경로를 얻을 수 있습니다 이것은이 항공기에 사용되는 방법이다 그것은 그래서 여기 마지막 하나는 위성 데이터입니다 대기에 대한 매우 큰 데이터 날씨 그리고 그것은 또한 consi 데이터로 구성 많이하고 다른 행성과 우리 연구원에 대한 이 데이터 일부를 얻기에 대한 분석 그것에서 권장 사항을 참조하십시오 당신은 분명히있어 희망 빅 데이터 분석에 대한 모든 예 나는 다음 빛의 특성에 갈거야 빅 데이터의 그래서 우리가 어떻게 데이터가 있음을 말할 수있다 이러한 문자를 기반으로 빅 데이터 여부를 특성은 우리가 쉽게 데이터 여부를 말할 수있다 빅 데이터 여부 그래서 첫 번째는 볼륨입니다 이름 빅 데이터는 큰 의미가 매우 큰 말한대로 데이터 thedata의 크기는 크기가 매우 크다 테라 바이트 일 수 엑사 형태 이는 단순히이 또한 처리되어야 우리는 나머지 데이터를 말할 수있다 두 번째는 얼마나 속도 또는과 속도 얼마나 속도 데이터가 생성된다

여기에 최고의 인용 수 예를 들어 페이스 북이다 하루에 거의 생성합니다 그래서 거의 스트리밍처럼 그래서 데이터의 500 테라 바이트 데이터는 밀리 초, 그래서 당신은 응답해야 그건 당신이 밀리 초 단위로 결과를 제공 할 필요가 의미 또는 이러한 데이터를 처리하여 초 이러한 유형의에 따라서 으로 생성되는 데이터와 같은 데이터 높은 속도는 또한 빅 데이터로 호출 할 수있다 데이터가 상이한 될 수 있으므로 다음 하나는 다양하다 같은 구조화, 비 구조화 텍스트, 멀티미디어 등의 형태 멀티미디어는 모든 이미지, 비디오를 다룰 것입니다 의미 오디오, 모든이가되도록 모든 다른 종류 데이터 때문에 데이터의 모든 종류의 무엇인가 그래서 모든 특성이에 대해 알고 전에 데이터 때문에 데이터의 모든 다른 종류의 무엇인가 가질거야 따라서 첫 번째는 구조적 데이터 인 구조화 된 데이터는 잘 조직 된 데이터를 의미합니다 그래서 가장 좋은 예는 같은 관계형 테이블입니다 데이터는 행과 열의 형태 것 그래서 잘 조직되어 서로 다른 것 특정있을 것이다 컬럼의 데이터를 의미 데이터 유형은 잘 이러한 유형의 있도록 구성되어 있습니다 데이터의 구조화 된 데이터로 부를 것이다 다음 사람은 그렇지 않은 반 구조화 된 데이터입니다 완전히 다소입니다 테이블처럼 구성 그래서를 구성하지만 어떤 데이터 유형이 없습니다 또는 사물의 검증 종류

최고의 그래서 여기 예제는 XML 데이터 또는 JSON 데이터입니다 마지막 하나는 구조화되지 않은 데이터 구조화되지 않은 데이터입니다 이 특별한 형식이되지 않습니다 수단 등 이 데이터에 아무런 검증 없을 것이다 그래서이 그것이 될 수도 같은 데이터는 어떠한 형태 일 수 있습니다 텍스트 데이터 또는 멀티미디어 데이터 수 있습니다 이미지, 오디오, 비디오와 같은 또는 어떤 그래프 수 있습니다 데이터 그래서 이러한 모든 비정형 데이터에서 제공합니다 그래서 기본적으로 데이터는 이들 중 하나에 포함됩니다 데이터 데이터의 세 가지 형태의 세 가지 형식 따라서이 데이터의 유형은 빅 데이터로 호출 할 수 있습니다 구조화 된 데이터 또는 반 구조화 된 데이터 또는 비정형 데이터 데이터 일반적으로 모든 종류의 빅 데이터가 될 수 있지만, 데이터는 같은 거대한해야합니다 이 데이터를 구성하는 경우는 큰하지만, 경우 수 있어야합니다 이 구조화되지 않은 데이터, 당신은 간단하게 말할 수 있습니다 그것은 데이터의 양을 고려하지 않고 빅 데이터입니다 이 구조화되지 않은 데이터로 처리 할 수 ​​없기 때문에 우리의 관계형 데이터베이스 그래서 심지어 구조 불구하고 데이터가 관계형 데이터베이스에 의해 처리 될 수 있지만, 매우 큰 경우가에서 처리하기 어려울 것입니다 다시 관계형 데이터베이스

따라서 데이터에있을 것입니다 다양한 형태의 데이터의 대부분이 다양한 형태의 우리는 그것을로 빅 데이터를 호출 할 수 있습니다 마지막 하나는 진실성이다 진실성은 uncertainity을 의미 의심 할 데이터입니다 인해 데이터 불일치 및 불완전 행 그래서 데이터가 불일치한다는 것을 의미 데이터 일관성 의미하지 않습니다 서로 다른 장소에서 다른 것을 의미 또는 그 수단 불완전 수 있습니다 모든 참조 데이터가 제공되지 않을 수있는 몇 가지 데이터의 일부 데이터에 사용할 수있는 이러한 유형의 데이터도 수 누락 될 수있다 때로는 우리가 필요하기 때문에 빅 데이터를 고려할 수 또한 그래서이 이러한 종류의 데이터를 처리하는 특성은 빅 데이터의 4 명 V의로 호출 할 수 있습니다 우리는 데이터 주소로 호출 할 수 있습니다 볼륨, 모션 진실성 데이터, 여러 형태의 다양한 데이터 의심 진실성 데이터입니다 그래서 이것들은 4 개 V의의는 빅 데이터는 따라서 이러한 특성을 기반으로 우리는 데이터가 빅 데이터인지를 말할 수있다 또는 내가 너희에게 다양성을 기반으로하지 이미 당신은 신속하게 응답 할 수있는 다음의 어느 오는 있습니다 예 품종의 어떤에서 다양한 어떤 데이터 유형이 또는 무엇과 같은 데이터 데이터의 첫 번째 그래픽 데이터 인 그 것이다 같은 그래프 데이터는 데이터의 한 종류이며 구조화 데이터 또는 비 구조화 데이터 또는은 반 정형 데이터 그래픽 데이터는 어떤 타입 데이터의? 네, 구조화되지 않은 데이터입니다 그것은 우리의 관계에 저장 할 수 없기 때문에 데이터베이스와 다음 하나는 잘 조직 A A 테이블 표 때문에 이는 직원 테이블 구성의 일례이다 직원 이름, 부서, 성별, 어떤 나라와 얼마나 많은 각 직원의 급여입니다 그래서이 데이터는 어떤 종류인가? 예,이 구조입니다 데이터 이것은이다가 아니라 표에 정리되어 있기 때문에 관계형 데이터베이스 테이블 옆에 책 책 형태 인 데이터 XML은 그래서 이것은 데이터의 어떤 종류입니까? 예, 이것이 반 구조화 된 데이터로 인해 XML 데이터와 JSON 데이터는 반 구조화 된 데이터로 분류된다 다음 한 다음 하나의 로그 생성입니다 특정 행위의 응용 프로그램은 그래서 이것은 우리가 고려할 수있다 그것이 데이터있는 다양한 있도록 텍스트 데이터로? 네, 확실히, 그것은 구조화되지 않은 데이터 텍스트 데이터입니다 구조화되지 않은 데이터로 간주됩니다

다음 하나 개의 오디오, MP 3 가지와 같은 오디오 파일 오디오 파일이 오디오 데이터를 저장하려면 이렇게 먼저 인 데이터 타입은? 예, 우리는이를 저장할 수 없습니다 구조화되지 않은 데이터는 우리의 관계형 데이타베이스에 오디오 데이터 마지막 하나는 PDF 그래서 PDF 포맷 데이터, 예 PDF 형식입니다 데이터가 무엇인지 텍스트 데이터 및 텍스트 데이터 다시 구조화되지 않은 데이터로 간주됩니다 그래서 이러한 예제의 일부입니다 당신은 데이터의 다른 종류에 대해 분명히 희망 그리고 될 수있는 등 빅 데이터를 고려 그리고, 어떤 될 수 없습니다 승인 지금 당신은 무엇 빅 데이터에 대한 명확 이며, 여기서이 모든 빅 데이터 그래서 전입니다 저장 , 저장 저장에 대해 아는 것은 문제 중 하나입니다 나는 엄청난 양의 데이터를 저장하는 데 의미 우리는 몇 가지 기계를 필요로하기 전에 대해 알고 모든 스토리지 일들이 나에게 처리 일 가자 하나의 컴퓨터와 데이터를 읽는 예, 우리는 데이터의 4 테라 바이트를 가지고 이 기계 100 메가 바이트 속도를 가지고 초당이 기계가 처리 할 필요가되도록 4 테라 바이트의 데이터를 상기 IO 채널은 데 초당 100 메가 속도 그래서이 문제를 처리하는 데 얼마나 많은 시간이 걸릴 것입니다 4 테라 바이트의 데이터 당신은 지금 계산시겠습니까? 기다릴게 예 그래서 여기 계산은 매우 간단합니다 4 terebytes 줄 것이다 초당 100메가바이트으로 나눈 당신이 여기 시간 4 테라 바이트 당신은 변환합니다 이 속도 때문에 메가 바이트으로 테라 바이트 초당 메가 바이트에 그래서 4 테라 바이트는 X 1,024기가바이트 X (1024)는 변환 메가 바이트에 너무 4x4x1024x1024는 구분 초당 100메가바이트으로 내가 원하는 그래서도 68로 나누어하고 분 결과 즉, 따라서 대략 60 X 100 그래서 4를 처리 700 분지고있어 단일 시스템으로 데이터 테라 초당 100 메가 갖는 속도 그것은 700 분 필요합니다 좋아, 당신이 처리 할 경우 이렇게 이 하나의 기계는 당신이 가지고있는 시간이다 좋아, 그래서 당신이 원하는 경우 어떻게 처리 평행 다른 기계로 처리하고, 당신은 다른과 함께 처리 할 이유 기계 당신은 병렬로 처리하기 때문에 경우 당신은 매우 빠르게 처리 할 수 ​​있습니다

내가 당신을 보여 드리죠 여기에 계산 그래서 여기 있어요 1백메가바이트와 데이터 4 테라 바이트를 처리 할 초당 당신은 과정 700 분지고있다 그게 당신이 원하는 경우 어떻게 11에 시간 40 분 4 개 병렬 머신이 데이터를 처리 그래서 전, 병렬 처리 무엇을 당신이 고려해야 할 첫 번째해야 할 4 기계 당신은 배포해야 데이터의 4 테라 바이트로 동등 1 테라 바이트, 1 테라 바이트, 1 테라 바이트 추천 기계, 1 테라 바이트 데이터 그래서 지금이 4 teratypes 평행을 추천 장치에 배포됩니다 1 테라 바이트, 1 테라 바이트, 1 테라 바이트, 1 테라 바이트 각각의 머신과 데이터를 처리 할 초당 100메가바이트 따라서 각 시스템은 처리해야 100메가바이트 데이터와 1 테라 초당 그래서 어느 정도의 시간이 소요되는지 첫 번째 시스템은 1 테라 바이트를 처리하기 위해, 즉 1백75분, 그래서 당신은 같이 계산할 수 있습니다 1024 X 1024으로 나눈 X 1 테라 100 × 60 간단히 말해서 나는 당신이 4 테라 바이트로 그것을 할 수 있습니다 그것은 1 테라 바이트의 700 분 필요가있을 것입니다 4 700, 단순히 그것이했다 그래서 만약 175분입니다 그것은 또한 걸릴 것 1 기계 1백75분 3 기계와 175에 대한 2 차 175, 175 4 기계 얼마나 많은 시간을 너무 이 데이터는 데이터 4 4 테라 바이트가 될 수있다 평행이를 실행하여 프로세스를 처리와 평행하여 4 기계 또는 이 4 개의 기계는 175 분으로 있도록 는 이러한 실행 있기 때문에 7백분 아니다 4 기계는 모두를 의미 평행 실행 4 기계를 동시에 작업하고 이 전체 데이터의 처리가 완료 175분 우리가 속도를 말할 수있는 전체 있도록 처리되는 데이터 400 메가 바이트 초당 시간 175 분 이 병렬 처리에 대한 명확 바랍니다

따라서 병렬 처리의 장점은 무엇인가 여기에 짧은 시간에 더 많은을 처리 할 수 ​​있습니다 데이터는 그래서 당신이 직면 한 도전 무엇인가 이 일을하고있다 첫 번째는 여기 당신은 분할하고 데이터를 배포해야 모든 4 기계로이 중 하나입니다 도전 분할 때문에 서로 다른 두 가지 배포하는 당신이 분할 및 배포 알고 희망 분할은 1 테라 바이트로 덩어리를 만드는 것입니다, 1 테라 바이트, 1 테라 바이트 및 배포 어떤이를 보내는이 데이터를 전송하는 첫번째 임무에 1 개 테라 바이트의 데이터와 기계에 제 2 테라 에 세 번째 기계 4 테라 바이트에 3 테라 바이트 4 시스템이 무엇 배포하고 이렇게 나누어 분배하는 주요 인 중 하나 도전은 다음의 하나 인 병렬 처리 그래서 당신은 평행이 모든 기계를 실행해야합니다 그래서 도전 중 하나입니다 다음 중 하나입니다 이전 예에서, 그래서 결과를 결합 필요 결합하지 수 있도록 그냥 데이터를 읽고 아무것도 나는 당신이 어떤을 생성하지 않는 당신을 의미 결과는 당신에게 아무것도하지만 결합 할 필요가있어하지 않도록 이후이 기계 중 일부 결과가있는 경우 처리는이 결과를 결합해야 하나 그렇게 결과를 결합로하고 그것을 만들 또한 도전의 하나 그리고 마지막으로 비용이 많이 드는 서버입니다 즉,이 기계에게 그렇다면 비싼 기계를 의미 기계는 비용이 많이 드는하므로 시스템의 비용 이 때문에 증가 할 것이다 또한 도전 중 하나입니다 비용은 개발자 문제가되지 않습니다 어떤 곳 또는 직원의 문제는 관리입니다 문제가 있지만, 분할 및 배포 이러한 병렬 처리이다 빗질 개발자의 모든 두통 어떤이 사다리를 극복하는 방법을 이렇게 보여줍니다 이 문제는,이 문제를 어떻게 극복하기 그래서 솔루션은 이러한 모든를 극복하기 위해 문제는 하둡이다

하둡은뿐만 아니라 솔루션 내가 중 하나를 말할 수있는 많은 솔루션이있다 용액 하둡이다 그래서 하둡은 무엇인가? 나는 당신에게 간단한 소개 나 간단한주지 하둡의 정의 아파치 하둡은 오픈 분산에 대한 소스 소프트웨어 프레임 워크 저장 및 대용량의 분산 처리 데이터는 범용 하드웨어 클러스터에 설정 큰 정의는 그래서으로이 정의를 깰 수있을 세 부분으로 우리가 매우 이해할 수 있도록 용이하게 마우스 오른쪽 단추로, 첫 번째는 그래서 오픈 소스 소프트웨어 프레임 워크 하둡은 오픈 소스입니다 소프트웨어를 의미 소프트웨어 프레임 워크 무료로 누구나 사용할 수에 대한 사람이 갈 수있다 아파치 웹 사이트 및이 하둡 소프트웨어를 다운로드 무료로 사용할 수 있습니다

그래서 이것은 무엇 장점이다 오픈 소스 소프트웨어 프레임 워크 두 번째는 분산 저장 및 분산 처리 나는 이미 배포 배포하고 무엇인지 설명 이 데이터 기억 수단 평행 기억 다른 기계로 평행에 저장하는 것입니다 분산 저장 및 분산 처리 또한 때문에 데이터 저장에 평행 처리 병렬로 데이터를 처리하는 병렬 인 어떤 하둡에 의해 수행 마지막 하나는이 데이터의 뜻 상품의 클러스터에 저장되고 처리 될 하드웨어는 그래서 클러스터가 무엇 클러스터? 클러스터는 단순히 기계의 그룹 또는 시스템의 네트워크 상용 하드웨어와이 클러스터의 클러스터 그래서 범용 하드웨어 상품 의해 형성 그래서 하둡 seephor 하드웨어는 오픈 소스 인 소프트웨어 프레임 워크와 그 데이터가 있는지 확인 분산 방식으로 저장 및 처리 될 그리고 상품의 클러스터에 데이터를 저장할 하드웨어는 그래서 우리가 당신의 도전을 확인하자 먼저 분산 직면하는 도전이 무엇인지 저장이되도록 분산 처리 하둡에 의해 알아서 할 것, 두 번째는 병렬 프로세싱이 돌볼 것 또한 하둡에 의해, 세 번째 것은 세 번째 것입니다 그것은 또한 처리됩니다 있도록 결과를 결합 하둡 프레임 워크 그리고 마지막으로 비용이 많이 드는하여 당신은 상용 하드웨어를 사용하도록 서버 여기 이렇게도 overcomeThis되는이 단순히 하둡의 정의, 아파치 하둡이 인 분산을위한 오픈 소스 소프트웨어 프레임 워크 저장 및 분산 처리는 큰 변화 데이터는 범용 하드웨어 클러스터에 설정한다 여러분 모두의 정의에 대해 분명히있어 희망 지금이 하둡은 무엇으로 이루어져 있는지 빅 데이터 및 내가 정의 스토리지에서 당신을 설명 된대로 및 처리는 여기에 물건을 측정하는 것입니다 그래서 하둡의 핵심은 두 가지로 구성 하나는 HDFS 하둡 분산 파일 시스템입니다 두 번째지도는 그래서 이전과 같이 감소한다 나는 당신에게 하나의 저장을위한 두 가지를 이야기하고 HDFS는 어떤 스토리지 그래서 하나는 처리를 위해입니다 부분 및지도 줄은 무엇 처리 부분이다

나는이이 두 가지 있습니다 설명 할 것이다 하둡의 개념은, 미안 그래서 나는 설명 할 것이다 우리의 정규 수업에서이 두 가지 그리고, 내가 다음 빛 왜 하둡 가자 그 하둡의 중요성이 무엇을 의미? 그래서 첫 번째 즉를 저장하는 기능입니다 이 저장하고있는 엄청난 양을 처리 할 수 ​​있습니다 데이터의 종류는 매우 빠르게 매우 처리 할 수 ​​있습니다 신속하게 데이터 볼륨과 유감의 데이터 볼륨에 와 다양성은 지속적으로 특히 증가 소셜 미디어 및 물건의 인터넷에서 이 처리와 같은 키를 키 고려 데이터의 종류 및 처리 매우 큰 데이터 빨리이이 세대와 같은에서 무엇을 필요가 그 특히 소셜 미디어와 인터넷에서 일들이 발생하는 것들 데이터는 매우 fastly 요즘 그 무엇이다 하둡은 매우 빠르게 처리하고 다음을하고있다 컴퓨팅 파워 하둡의 분산 컴퓨팅 모델 데이터를 처리하는 매우 빠른 처리 이 데이터 빅 데이터는 매우 빠릅니다 이것 때문에 그 병렬 처리는 우리가이 전화 할게 무엇인가 처리를 분산하고도 증가시킬 수있다 더 많은 계산이 처리 속도 노드 당신은 당신이 가지고있는 처리 능력을 가지고 당신이 처리에 더 많은 컴퓨터가있는 경우 즉, 당신은 병렬 데이터 처리를 처리 할 수 힘은 매우 짧은 시간에 의미 이상이다 당신은 다음 중 하나가 고장 인 dataThe를 처리 할 수 ​​있습니다 그래서 하둡 허용 데이터를 구비하고, 애플리케이션 프로세싱은 하드웨어 보호 실패 때문에 하드웨어 장애로부터 보호 노드가있는 경우에도 노드가 다운 될 경우에도 의미 경우에도 노드가 실패 할 경우 또는 당신이로는 추락 범용 하드웨어 하드웨어를 사용하여 높은 존재 그래서 만약에 기계 충돌의 기회 노드 또는 기계가 고장 났거나 추락있어 그래서 작업은 하둡 작업이 자동으로됩니다 다른 기계로 리디렉션 다른 노드는 확인하는 것을 분산 컴퓨팅 실패 그래서 이것은 어떤 장점입니다하지 않습니다 하둡 하나 개의 노드가 다운되면 그것은 수 있도록 데 다른 노드로 리디렉션 유사한 데이터 그래서 왜 유사한 데이터는 것입니다 하둡 데이터의 여러 사본을 저장하기 때문에 즉, 동일한 데이터에 저장된다는 것을 의미 다른 기계 또는 서로 다른 노드이 그래서 데이터의 복제 복제로 전화를 무슨 기계의 경우 하나의 사고를 가지고함으로써, 있도록 취하거나 다음에서 데이터를 처리합니다 기계 그래서이 하둡의 장점입니다 하둡의 장점은 다음 하나는 달리 너무 유연성 우리의 전통적인 관계형 데이터베이스, 당신은하지 않습니다 저장하기 전에 데이터를 전처리한다 전처리는 데이터를 확인할 수 있습니다 의미 데이터를 데이터베이스에 저장하기 전에 나는 이미 당신에게로 이 있는지 여부를 확인합니다 직원의 급여 데이터가 소수인지 아닌지 즉 의미 번호인지 그래서에 데이터를 저장하기 전에 데이터베이스는 유효성을 확인합니다 그래서이 기존의 데이터베이스와는 달리이 일을 달리 사전 처리에 당신은 필요없는 데이터 이전 이전에 저장 같은 데이터베이스에 기억 당신이 원하는대로 HDFS 우리는 많은 데이터를 저장할 수 있습니다 나중에이 데이터를 사용하는 방법을 결정 , 비정형 데이터, 텍스트 데이터, 이미지가 포함 비디오 어떤 형식입니다

그래서 이것은 무엇 유연성이다 우리는 하둡에 있습니다 다음 하나는 저렴한 비용이다 난 이미 정의, 하둡에서 당신에게로 오픈 소스 소프트웨어 프레임 워크이다 즉, 소프트웨어가 무료로 의미 또한 당신은 상품 머신이있을 것이다, 상용 하드웨어 그래서, 그래서 이들은 또한 아주 싼 그래서이 하둡은 무엇 매우 저렴합니다 마지막 하나는 쉽게 성장할 수있는 확장 성을 당신의 추가하여 더 많은 데이터를 간단하게 처리 할 수있는 시스템 당신은 더 많은 데이터를 저장하려면 의미 노드 및 프로세스 더 많은 데이터가 더 많은 기계를 가질 수 있습니다 필요 할 때마다 당신은 단순히 기계를 추가 할 수 있습니다, 하지만 약간의 관리는 필요 그래서 이것은이 내 말은 어떻게 무엇을이다 하둡의 중요성 당신이 이들에 대해 분명히있어 희망 6 점은 지금은 다음 빛에 갈거야 여기에 내가 당신에게 모든 구성 요소를 보여줍니다 하둡 설명함으로써 에코 시스템 에코 내가 할게요 큰 경우에, 그래서 간단한 예 다시 아마존 예 그래서 어떻게 권고 사항은 아마존에 표시됩니다 당신은 특정 제품에 대한 웹 사이트를 검색하는 동안 그래서 당신은 당신이 무엇을하고 객실에서 노트북과 함께 앉아 당신은 열 아마존의 웹 사이트 당신은 검색 과와 특정 모바일 사용자 정의 당신이 검색하는 동안 당신은 무엇을 할 것 인 그래서 기능 제품에 대한 당신은 아마존 것을 요청합니다 웹 서버는 당신에게 제품의 데이터를 제공하는 그래서이 데이터 될 위치를 어디에이 데이터 이것이 우리의 관계에 저장됩니다 저장됩니다 아마존이 어떤 관계를 가질 것이다 데이터베이스 데이터베이스는 그래서이 아마존에서이 데이터를 수정합니다 이 보여 질 것이며, 관계형 데이타베이스 웹 사이트와의 일부를 수행하여 당신 작업 다른 검색 같은 제품이 생성이 모든 것을 이 웹 서버는 일부 로그를 생성합니다, 그래서 우리는이 로그와 기반을 처리해야 이 로그 데이터에만 권장됩니다 표시, 그래서 이것은 로그 데이터 무엇이 우리의 데이터입니다 그래서 우리는 HDFS의 하둡에이 데이터를 취할 필요 분산 파일 시스템 그래서 당신은 얻을 것이다 방법 이 라인이이 라인 전에 그냥 분리하는 하둡은 다른 것들로부터 시스템을 에코 승인 그래서 HDFS, Hadoop을에이 로그 데이터를 얻을하는 방법 이 다이어그램 하둡에 있으므로, 파일 시스템 분산 몇 가지를 가지고 하둡 분산 파일 시스템 다른 기계 난 그냥 당신에게 3 기계를 보였다 노란색 컬러 그래서 우리는이 데이터를 얻을 필요 HDFS에이 로그 데이터는 어떻게이 데이터를 얻을 것이다 그래서 여기에 우리는 수로라는 하나의 도구가 있습니다

수로는 데이터 데이터 주입 도구 인 HDFS에 데이터를 얻을 것이다 것은 로그 데이터를 얻을 수 있도록 그리고 분산 하둡에 데이터를 저장합니다 좋아, 시스템 파일 우리는 하둡에 데이터를 가지고 분산 파일 시스템이 로그 그러나 데이터가되지 않도록 이 로그 데이터를 가정처럼 모든 정보를 사용자 ID와 정보를 제공합니다 그래서 ID, 우리는 ID 무엇인지 모른다 이 ID를 가진 그래서, 나는 사용자의 일부를 얻으려면 그는이 저장되는 위치와 같은 정보는, 그의 이름은 무엇입니까 아마존 때문에이 표창이있을 것 위치에 따라 표시 또한, 오른쪽, 그래서 얻을 필요 사용자의 위치 때문에이 사용하지 못할 수 있습니다 로그 만이 사용할 수 있습니다 곳이 될 것입니다 모든 때문에 관계형 데이터베이스에서 사용할 수 사용자 이름과 같은 사용자 정보 주소와 자신의 연락처 번호 다 우리의 관계형 데이터베이스에있을 것입니다 좋아, 우리는이 관계형 데이터를 결합해야합니다 그 전에 내가 당신에게 한 가지 한 가지 더 말해 줄 수 해당 쿼리 우리가 할 수있는 또한 HDFS에 데이터를 저장 한 후 Noye 스케일 데이터베이스 또는 Noye 규모의 데이터 데이터 기본 언어

그것이 우리가 H 기반을 가지고 있다고 가정 우리가 할 수있는이 데이터베이스 그래서 Noye 규모의 데이터베이스 일부 테이블을 만들거나 우리는 몇 가지 구조를 만들 수 있습니다 HDFS에 저장된 데이터에 대한 그래서 H베이스는 Noye 스케일 데이터베이스는 그래서 어떤 난 당신이 쿼리를 쓸 수있는 의미처럼 조회 할 수 있습니다 데이터의 다른 형태의 당신은 결과를 볼 수 있습니다 예, 제가 원하는 상황으로 돌아 가자 사용자의 위치는 그 위치를 의미 사용자는 그래서 관계에서이 데이터를 얻을 수 있습니다 머물고있다 데이터베이스 그래서 내가이 데이터 그래서 수로를 얻을 수있는 방법 관계형 데이터베이스에서 데이터를 얻을 수 있도록 이를 위해 우리는 또 하나의 도구를 사용하는 것은 Sqoop을 호출합니다 Sqoop을 이름 자체가 하둡에 SQL을 말한다 즉, 관계형에 데이터를 전송하는 것을 의미합니다 HDFS이다 하둡에 데이터베이스 하둡 분산 파일 시스템과 우리가 가지고있는 모든 HDFS에 필요한 정보를 지금 우리가 필요 뜻이 데이터를 처리하기 위해 우리가 필요 대부분의 모든 제품 검색 무엇을 얻을 사용자와의 사용자에게 표시됩니다 권장 그래서 우리는 무엇을 얻을 필요로 우리가로 표시하는 데 필요한 모든 제품은 무엇인가 권장 사항을 참조하십시오 그래서 처리 부분이 될 것입니다 나는 이미 하둡에게로지도에 의해 수행은 감소 코어는 저장을위한 두 가지의 HDFS 구성 및지도 처리를 위해 줄입니다

따라서이 데이터를 처리하고는이 저장됩니다 그래서이 HDFS에서 처음으로 HDFS에서 권고 다시 우리는 이러한 권장 사항을 수행해야합니다 또는, 관계형 데이터베이스에이 데이터를 가지고 때때로 우리는에 결과를 취할 필요 여기 관계형 데이터베이스 우리는 다시 사용할 필요가 관계에 하둡에서 데이터를 취할 Sqoop을 데이터베이스 정도로 Sqoope는 양방향 데이터 분사 인 이 데이터를 전송할 수 있다는 것을 의미 공구 에 하둡과 하둡에 관계형 데이터베이스 또한 관계형 데이터베이스 이 관계 데이터베이스에서 우리는 표시됩니다 권고 또는 아마존이 표시됩니다 사용자에게 권고, 그래서 이것이 어떻게 권장 사항은 사용자에게 표시됩니다 즉, 하둡에 로그 데이터를 얻을 것이다 의미 데이터의 주입 도구와 수조를 호출 윌 관계형 데이터의 데이터를 얻을, 나는 그것이를 얻을 것이다 그것을 의미 에 테이블의 관계형 데이터베이스 관계형 날짜 구성 요소와 하둡은 Sqoop을하고 호출 여기에 처리 부분은지도 감소되고 우리는이 HDFS 위에 Noye 스케일 데이터베이스는 H베이스 인 이러한 것들로 우리가 얻을 수 권고하지만 다른 것입니다 지도 줄이 너무 처리 프레임 워크입니다 지도 감소는 JAVA로 작성되었습니다 JAVA 언어 때문에 JAVA 언어는, 참으로 당신의 일부는 자바를 알고있을 자바는 너무 어려워 조금 극복하기 위해 무엇을 우리는 하이브라는 또 하나 개의 구성 요소가있다 하이브는 같이하지 의미 언어와 같은 SQL입니다 JAVA 어려운 그것은 언어와 같은 SQL은 그래서 당신은 할 수 쿼리를 작성하고, 다시 전환됩니다 지도 할 계획을 줄이고 그것을 처리하지만,에 높은 수준의 프로그래머 내 말은 할 필요 프로그래머가 코드를 작성 할 필요가 없습니다 JAVA에지도처럼 당신은 SQL의 SQL을 작성할 수 감소 하이브에서 쿼리있다 이것은 무엇의 장점입니다 하이브, 다음 하나는 돼지입니다

돼지는 다시 전처리이다 프레임 워크, 돼지 스크립트 도구입니다 무엇도 할 수 있습니다 스크립트처럼이에 비해 매우 쉬운 것입니다 지도 줄이거 나 2 라이너는 돼지의 있도록지도, JAVA 감소 돼지 코드 2 개 라인 JAVA 20 개 라인과 동일 할 것이다 그래서 이것은 돼지가 얼마나 간단하기 때문에 차이점은 무엇입니까 수 있도록 돼지 및 하이브 사이에 난 이미 당신을 말했다 돼지 전처리 프레임 워크이며 이름이 수 자체 마찬가지로이 돼지 도구 돼지, 돼지 수있는 모든 것을 말한다 모든 유형의 데이터를 처리 할 수 ​​있지만, 하이브 하이브해야합니다 나는 이미 하이브 언어와 같은 SQL을 가지고 이야기 SQL은 너무 기반의 구조화 된 쿼리 언어를 의미 비 구조화 데이터를 생성한다 구조화 하이브에 테이블 그래서 하이브는 주로 구조에서 작동합니다 데이터는하지만, 여기서는 그 일이 무엇인가 전처리 당신이 경우 또는 경우에 그래서 당신은 구조화되지 않은 데이터가 돼지와 전처리 및 후 처리에 해당 나는 돼지 데이터의 처리 후 의미, 우리가 만들 수 있습니다 이를 위해 우리가 필요로하므로 데이터의 상단에 하이브 테이블, H 카탈로그라는 또 하나의 도구입니다 H 카탈로그가 될 것입니다 하이브 돼지 간의 통신에 사용 그리고 마지막으로 우리는 도구에서 호출 한 사육사는 그래서 이름 자체가 말한다 사육사가 무엇을 할 것 인 사육사, 동물원의 모든 동물을 조정합니다 마찬가지로이 사육사는 모든 좌표합니다 하둡의 구성 요소와 같은 시스템을 에코 Sqoop을이 수로는 HDFS는,지도 감소, H베이스, 하이브, 돼지, H 카탈로그 모든 에코, 나는이 모든 의미 에코 시스템의 구성 요소가 조정됩니다 사육사에 의해 이 모든에 대해 분명히있어 희망 내가 잠시 다시 말씀 드리죠 구성 요소, 그래서 수로가 될 것입니다 데이터 주입 도구가로 로그 데이터를 얻을 것이다 HDFS 지도 감소 처리 프레임 워크입니다 HDFS는 하둡의 기억 저장 부에 Sqoop을는 양방향 데이터 주입 도구 그것은 관계형 데이터베이스에서 데이터를 얻을 것이다 그리고 그것은 또한 관계형 데이터베이스에 데이터를 얻을 것이다 하둡과 하이브에서 언어와 같은 SQL입니다 그리고 돼지는 스크립팅 언어는 전처리이다 도구는 H베이스는 Noye 스케일 데이터베이스 H 카탈로그이며 사이의 통신에 사용되는 하이브 및 돼지와 사육사가 사용됩니다 의 좌표 모든 구성 요소 하둡 에코 시스템 이것은 무엇을 짧게 하둡입니다 에코 시스템 아키텍처 때문에 HDFS는이다 어떤 스토리지 부분지도는 감소 일부 처리, H 카탈로그 메타 데이터 인 서비스는 하이브와 돼지 사이의 의사 소통 H H베이스 기재는 Noye 스케일 데이터 기지 Sqoop을하고 수로 데이터 주입 도구 와 사육사는 조정 도구입니다 와 Oozie는 돌봐되는 워크 플로우 및 예약

그래서 내가 잘 설명하지 않았다, 그래서 나는 당신을 말할 것이다 그래서 Oozie는 그래서 예약 작업입니다 작업은 일부 하이브 쿼리로 구성되어있는 경우 그것은 수도 돼지 쿼리와 그것을 구성 또한 수도 일자리를 줄지도로 구성되어 있습니다 그래서 나는 모든 것을 통합하는 데 필요한 단일 작업에서, 일의이 워크 플로의 종류 때문에 여기서의 데이터가 흐르도록해야 곳에, 이 워크 플로 및 일정입니다 그래서 당신은 매일 작업을 예약 할 수 있습니다 특정 시간에 이런 일 그래서이 모든 일이 될 것입니다 Oozie로주의해야합니다 나는 우리가 할 수있는 의미 그것이 워크 플로우 그래서, Oozie 취급 예약 도구 및 다른 모든 것들과 이미 설명했다 나는 당신에게 모든 도구를 약속 해요 명확하게 설명 및 프로그램됩니다 모든 나는 정규 수업에서 설명 할 것이다

지도 대신에 속도에 그래서도 우리에게 수 감소 또한, 처리기구 인 점화를 사용한다 그래서 나는 또한뿐만 아니라 불꽃에 수업을받을 수 있습니다 요청할 것 그리고 데모에 참석 주셔서 감사합니다 아주 많이하고있는 경우 감사합니다 질문이, 당신은 저를 요청할 수 있습니다