Spark Tutorial for Beginners | Apache Spark Architecture | Spark Components | Intellipaat

안녕하세요 Apache Spark Architecture 세션에 오신 것을 환영합니다

우리가 보자 오늘의 의제 이 세션에서 우리는 진짜를 가지고 시작합니다 스파크가 직면 한 문제를 해결하는 데 사용 된 시간 산업 유스 케이스 야후 그런 다음 스파크가 무엇인지 이해하고 그 중 일부에 약간의 빛을 비 춥니 다 풍모 그 후 우리는 다른 구성 요소를 볼 수 있습니다 스파크 아키텍처를 자세하게 다루고 마지막으로 스파크 응용 프로그램을 만드는 방법을 배웁니다

문제를 이해하도록하겠습니다 야후는 스파크에 직면하고있다 야후의 자산은 관련성을 극대화하십시오 즉, 개인화를 제공하기 위해 사용하는 알고리즘 광고를 타겟으로하고 개인화 된 콘텐츠는 정교하고 관련성 모델을 자주 업데이트해야했습니다 뉴스 피드와 뉴스는 시간이 지남에 따라 계속 바뀌었고 Yahoo도 150 개가 넘었습니다 35,000 노드 하둡 클러스터에 저장된 페타 바이트 단위의 데이터 데이터 이동으로 인한 대기 시간을 피하기 위해 효율적으로 액세스 또한 비용 효율적인 방식으로 데이터로부터 통찰력을 얻습니다

야후는 SPARK를 통해 반복 모델의 성능을 향상시켰다 훈련 뉴스에 사용 된 기계 학습 알고리즘 약 15,000 줄의 C ++ 코드가 필요한 개인화 spark로 구현 된 머신 러닝 알고리즘은 120 개에 불과했습니다 스칼라 프로그래밍 코드 라인과 알고리즘은 프로덕션 환경에서 사용 가능 1 억 개의 레코드가있는 데이터 세트에 대한 단 30 분의 교육으로 지금 그다지 놀랍지 않습니다 야후는 뉴스를 개인화하기 위해 아파치 스파크를 사용한다 웹 페이지 및 타겟팅 된 광고 야후는 기계 학습도 사용합니다 어떤 종류의 뉴스 사용자인지 알아 내기 위해 아파치 스파크를 실행하는 알고리즘 읽고 뉴스 기사를 분류하는 데 관심이 있습니다

어떤 종류의 사용자가 각 뉴스 카테고리를 읽는 데 관심이 있고 스파크의 도움으로 야후는 또한 모델 훈련의 대기 시간을 줄일 수 있었다 메모리 처리를 통해 이제 어떻게 야후를 이해했는지 스파크의 혜택 이제 스파크에 대해 간단히 이해하겠습니다 그래서 그것은 실시간 처리를위한 클러스터 컴퓨팅 프레임 워크 실제로 2009 년 UC Berkeley R & D 연구소에서 Hadoop 하위 프로젝트 도입 2010 년에 오픈 소스가되었고 2013 년에 Apache Software에 기증되었습니다

기초 따라서 모든 클러스터를 프로그래밍하기위한 인터페이스를 제공합니다 암시 적 데이터 병렬 및 내결함성 이제 우리 중 일부를 보자 스파크의 흥미로운 특징 스파크는 실시간 계산과 낮은 대기 시간을 제공합니다 메모리 내 계산으로 인해 스파크가 대규모 데이터 처리 및 SPARK도 폴리 글롯이므로 SPARK를 작성할 수 있습니다

Java, Scala, Python 또는 SQL과 같은 여러 언어로 된 응용 프로그램 불꽃 강력한 캐싱 기능을 제공하므로 강력한 캐싱 및 디스크 지속성 기능과 SPARK는 여러 배치 모드를 통해 메조, 헤 도프 경사, 또는 자체 클러스터 관리자를 시작하십시오 이제 스파크 충격도 거의 모든 단일 회사가 포춘 500 대 기업에 소규모 창업 규모를 구축하고 빅 데이터 애플리케이션을 혁신하기위한 Apache Spark 산업 미디어, 건강 관리, 금융, 전자 상거래 및 여행과 같이 거의 모두 스파크를 사용하고 있습니다 집중적으로

이제 rdd 's의 개념을 이해해 봅시다 따라서 여러 작업에서 데이터를 처리 할 때는 재사용하고 인 메모리 데이터 공유를 통해 얻을 수있는 데이터 공유 실제로 네트워크 및 디스크 공유보다 빠릅니다 이것이 바로 메모리 내 데이터 공유를 돕기 위해 rdd가 제공되는 곳입니다 그래서 rdd는 탄력적 인 분산 데이터 세트를 나타내며 기본 데이터입니다 탄력적으로 아파치 스파크의 구조는 다음과 같이 내결함성을 의미합니다 노드 장애 발생시 누락되거나 필요한 파티션을 다시 계산할 수 있습니다

rdd 연계 그래프의 도움으로 데이터 이후에 배포되었습니다 여러 노드에 상주하며 마지막으로 데이터 세트는 데이터 레코드를 나타냅니다 당신은 함께 일합니다 사용자는 외부에서 데이터 집합을 알 수 있습니다 JSON 파일, CSV 파일, 텍스트 파일 또는 데이터베이스 그래서 rdd는 불변입니다 객체 수집 및 RDD 변경 시도로 완전히 새로운 결과 rdd

이제 이것을 이해하겠습니다 수행을 위해 rdd를 고려하십시오 지도, 필터 등의 변형 그래서 이것은 완전히 새로운 RDD를 만들지 만 아무것도 계산하지 않습니다 결과를 계산하려면 카운트와 같은 rdd에 대한 작업을 수행하고 텍스트 파일로 저장하는 등 그에 따라 결과를 표시하십시오 이제 다양한 구성 요소를 이해하겠습니다 스파크 생태계 가장 스파크 코어 구성 요소부터 시작하겠습니다 기본적인 IO 기능을 담당하는 스파크 생태계의 필수 구성 요소 스케줄링, 모니터링 등

스파크 생태계 전체가 그 위에 구축됩니다 그런 다음 다른 배포 모드가 있습니다 스파크 캔 원사, 메시 또는 스파크 자체 클러스터 관리자를 통해 hadoop을 통해 배포됩니다 그런 다음 다른 라이브러리가 있습니다 이 스파크 생태계 라이브러리는 스파크 SQL, mlib, 그래픽 및 스트리밍

Spark SQL은 우리가 수행하는 데 도움이됩니다 데이터에 대한 쿼리와 SQL과 같은 쿼리를 사용하여 데이터를 저장하면 mlib가 있습니다 이 스파크 머신 러닝 라이브러리는 배포를 쉽게하고 확장 가능한 머신 러닝 파이프 라인 개발 요약 통계, 상관 관계, 기능 추출 및 기타 여러 가지 스파크의 그래픽 구성 요소는 데이터 과학자가 그래프 작업을 돕습니다 그래프에서 유연성과 탄력성을 얻기위한 비 그래프 소스 건축과 변형 그런 다음 마침내 스파크 스트리밍이 있습니다 일괄 처리 및 데이터 스트리밍을 수행 할 수있는 구성 요소 응용 프로그램에서

프로그래밍 언어로 오는 불꽃은 Scala, R, Python 및 Java에서 구현됩니다 그러나 스칼라는 널리 사용됩니다 스파크 언어로 최종적으로 HDFS 로컬 파일 시스템을 통해 데이터를 저장할 수 있습니다 그리고 구름 또한 SQL 데이터베이스를 지원하지 않고 SQL 학습을 지원합니다 그래서 지금 당신은 Spark 구성 요소에 대한 간단한 아이디어가 있습니다

이제 SPARK에 뛰어 들자 건축물 따라서 Apache spark에는 잘 정의되어 있습니다 모든 스파크 구성 요소와 레이어가 느슨하게 결합 된 계층 구조 SPARK는 마스터 / 작업자 아키텍처와 마스터 노드에서 응용 프로그램을 구동하는 드라이버 프로그램이 있습니다 드라이버 프로그램이 무엇인지 생각하기 때문에 기본적으로 작성중인 코드 드라이버 프로그램으로 동작하거나 대화식 쉘을 사용하는 경우 쉘 드라이버 프로그램으로 작동합니다

드라이버 프로그램은 이 SPARK 컨텍스트가 작성되는 위치입니다 그래서 가정 이 SPARK 컨텍스트는 모든 SPARK 기능의 관문입니다 이제 SPARK 드라이버에는 태그 스케줄러, 작업 스케줄러와 같은 다양한 구성 요소가 포함되어 있습니다 백엔드 스케줄러 및 블록 관리자는 Spark 사용자 코드를 실제 Spark 작업으로 변환 클러스터에서 실행됩니다 스파크 드라이버와 스파크 컨텍스트는 클러스터 내 작업 실행은 이제 SPARC 컨텍스트가 클러스터와 작동합니다

관리자는 다양한 작업을 관리하고 클러스터 관리자는 Spark 클러스터에서 리소스를 획득하여 Spark 작업에 할당 이 작업은 작업자에게 배포되는 여러 작업에 존재합니다 노드는 언제든지 RDD 연도 및 스파크 컨텍스트를 배포 할 수 있습니다 다양한 메모를 통해 현금으로 교환 할 수 있습니다 실제로 기본적으로 작업을 수행하는 슬레이브 노드 인 노드 작업자 노드 내부에서 스파크 컨텍스트로 결과를 다시 반환 우리는 유언 집행 인이 있으므로 유언 집행 인은 작업 실행 및 모든 Spark 응용 프로그램에는 자체 실행 프로그램 프로세스가 있습니다 따라서 실행자는 일반적으로 스파크 응용 프로그램의 전체 수명 동안 실행됩니다 스파크 컨텍스트는 작업이 작업에서 작업을 중단하고 배포합니다 작업자 노드는 이러한 작업을 파티션 RDD에서 수행하여 작업을 수행합니다

결과를 수집하고 기본 스파크 컨텍스트로 돌아가고 증가하면 작업자 수는 작업을 더 많은 파티션으로 나눌 수 있으며 병렬 I / O를 실행하십시오 여러 시스템이 훨씬 빠르며 작업자 메모리 크기의 증가 또한 증가하고 당신은 작업을 더 빠르게 실행하기 위해 캐시 할 수 있으므로 이제 Spark 런타임을 이해하겠습니다 클라이언트가 스파크 사용자 애플리케이션 코드를 드라이버에 제출할 때의 아키텍처 변환 및 조치가 포함 된 코드를 암시 적으로 드라이버 프로그램 단계에서 논리 지향 비순환 그래프 또는 태그 변환을 계획하는 등의 특정 최적화를 수행 한 다음 논리적 데이터를 이후 단계로 설정할 물리적 실행 계획으로 변환 실제 실행 계획을 작성하면 작은 실제 실행 단위가 작성됩니다 각 단계에서 작업이라고하며 작업이 번들로 전송되어 스파크 클러스터는 이제 드라이버 프로그램을 클러스터 관리자 및 클러스터 관리자 자원 협상 이 시점에서 드라이버를 대신하여 작업자 노드에서 실행자를 시작합니다 드라이버는 데이터 배치를 기반으로 클러스터 관리자에 대한 작업 감지 실행자가 실행을 시작하기 전에 드라이버에 등록합니다 드라이버가 모든 실행 프로그램을 전체적으로 볼 수 있도록 프로그램 실행자가 드라이버에 의해 지정된 다양한 작업을 실행하기 시작했습니다

프로그램 및 Spark 응용 프로그램이 실행될 때 드라이버 프로그램은 실행되고 마지막으로 실행되는 일련의 실행 프로그램을 모니터링합니다 드라이버 프로그램 기본 메소드가 종료되거나 중지 메소드를 호출 할 때 스파크 컨텍스트 모든 실행 프로그램을 종료하고 리소스를 해제합니다 이 불꽃 실행 런타임 아키텍처는 이제 클러스터 관리자를 통해 시스템이 현재 지원하는 바를 배치 할 수있는 다양한 수수료 이 클러스터 관리자는 간단한 독립형 스파크 독립형 클러스터를 갖습니다 스파크에 포함 된 클러스터 관리자를 통해 클러스터를 쉽게 설정할 수 있습니다 바 굴뚝 소스를 가지고 있는데 Hadoop MapReduce를 실행하고 Hadoop 이온을 사용하는 애플리케이션을 서비스합니다

마지막으로 오픈 소스 인 누적 위치에 배포 할 수도 있습니다 컨테이너화 된 자동 배포 확장 및 관리 시스템 SPARC 아키텍처에 관한 모든 것이므로 이제 작은 그들은 불꽃 응용 프로그램을 만드는 방법으로 이동하여 폴더를 만들었습니다 소스 코드로 구성된 환영 세계라는 이름으로 스파크 응용 프로그램 이므로이 폴더 안에 들어가서 CD를 좋아합니다 환영합니다 이제이 구성 요소가 무엇인지 보여 드리겠습니다

폴더는 두 가지 구성 요소가 있습니다 하나는 SBT 파일에 빌드 한 다음 이 청구서 SBT 파일은 기본적으로 모든 스파 응용 프로그램 jar 파일을 빌드하기위한 종속성이므로 보여 드리겠습니다 여러분은 모든 의존성을 가지고 있으므로 VI를 입력하고 이름을 얻습니다 SBT가 아닌 빌드 될 파일이므로 종속성입니다 먼저 우리는 응용 프로그램의 이름을 가지고 다음 버전의 응용 프로그램을 만든 다음 여기에 Scala 버전이 있습니다

이 SRC 폴더에 존재하는 소스 코드를 보여주세요 ced를 입력 한 다음 폴더 SRC와이 SRC 폴더의 이름을 지정합니다 이 CD 메인으로 들어갈 수있는 다른 폴더로 구성되어 있습니다 다시이 메인 폴더는 다른 폴더로 구성되어 있습니다 나도 이것 안에 들어가서 CD 스칼라를 입력 할 것입니다

Scala 폴더 안에 LS를 다시 입력하겠습니다 Scala 폴더 안에 존재하는 Scala 파일은 소스로 구성됩니다 코드를 입력하겠습니다 VI를 입력 한 다음 소스 이름을 입력 할 소스 코드를 보여 드리겠습니다 반점 스칼라를 환영하는이 클래스 이 소스 코드이므로 Falcom이라는 이름의 클래스가 있습니다 그런 다음 이름 기능 내에서 우리는 시원하게 인쇄 했으므로 인쇄 할 것입니다

환영 나무 이것은 불꽃에 대한 세션이므로 환영의 집으로 돌아갑니다 폴더 및 jar 파일 작성 바로 환영 폴더로 돌아가서 여기에 있습니다 SPD와 SRC에서 빌드하므로 jar 파일을 빌드하려면 이것을 사용해야합니다 SBT package 명령을 실행하면 jar 파일이 작성됩니다 바로 jar 파일이 성공적으로 빌드되었음을 알 수 있습니다 jar 파일 홈 교육 환영 세계의 경로와 여기에 우리는 여기에 jar 파일이 있으므로 이것은 jar 파일의 이름입니다

환영합니다 Boyd 그리고 이것은 그것의 버전이므로 이제 LS를 입력하겠습니다 처음에는 SRC 폴더와 Bell dot SBT 파일이 jar 파일을 빌드하면 프로젝트라는 두 폴더가 있습니다 대상 과이 jar 파일 이이 대상 폴더에 있으므로 이 대상 폴더 안에 CD 대상을 입력하겠습니다 이 두 폴더로 다시 구성된 Stargate 폴더는 Scala 211 폴더 안에 들어가서 CD Scala 211을 입력하고 이 안에는 jar 파일이있어서 모두 환영합니다

버전이며 이것은 jar 파일이므로 지금 jar 파일을 준비했습니다 계속해서 작업을 제출하여 응용 프로그램을 작성하십시오 그에 대한 명령은 명령이 촉발 보충 내가 죽을거야-그리고 나일 강의 수업 후 나는 연설을 할 것이다 그런 다음 파일 이름을 지정하여 파일 이름을 환영합니다 앞서 스칼라에 오신 것을 환영합니다 바로 환영받은 같은 클래스의 그리고 다시 연설을하겠습니다 type–그리고 여기에 master를 입력하겠습니다 9는 배포 모드를 지정하여 배포 모드를 지정합니다

변이가 여기에 실을 좋아하고 항아리의 일부를 가져옵니다 파일 우리는 스파크를 성공적으로 만들었습니다 처음부터이 환영 세계의 소스 코드를 보았습니다 Spa의 세션이므로 작업을 제출 한 후 마지막으로이를 생성했습니다 응용 프로그램 오른쪽 그래서 이것은 우리가 불꽃 응용 프로그램을 만들 수있는 방법입니다 세션을 마치고 참석해 주셔서 감사합니다

Pig Tutorial | Apache Pig Tutorial | What Is Pig In Hadoop? | Intellipaat

안녕하세요, Intellipaat의 세션에 오신 것을 환영합니다 오늘은 2006 년 Yahoo에서 연구자들을 위해 개발 한 Pig 대용량 데이터에서 MapReduce 작업을 작성하고 실행하는 임시 방법이 있습니다

세트 다중 쿼리를 사용하여 개발 시간을 단축하기 위해 만들어졌습니다 접근 이 세션으로 이동하기 전에 채널을 구독하십시오 앞으로 나올 비디오에 대한 업데이트를 놓치지 않을 것입니다 당신이 얻고 싶다면 Biglip Hadoop Architect로 인증 된 Intellipaat는 이에 대한 과정을 제공합니다

이 설명에 제공된 링크를 통해 이동하십시오 이제 빨리 보자 의제를 한눈에 다음으로 시작하여 Pig를 소개합니다 역사와 돼지와 그 구성 요소가 정확히 무엇인지 논의한 다음 돼지의 특징을 소개함으로써 돼지의 힘에 대해 배우고 장점 돼지의 힘이 확실 해지면 사용자를 배우게됩니다 시나리오와 Pig와 Hive의 비교를 참조하십시오 또한, 당신은 일부를 볼 수 있습니다 Pig에서 복잡한 데이터 유형을 찾은 다음 Pig 및 로컬 모드와 MapReduce 모드에서 Pig를 실행하는 방법을 배우십시오

Pig에서이 스키마를 통해 다양한 연산자를 소개합니다 로드 연산자, 상점 연산자, 관계 연산자 등의 돼지 후 연산자를 소개하면서 단어 수 프로그램을 배우고 데이터를 그룹화 한 다음 날씨 데이터 분석을 수행하게됩니다 그래서, 문제는 돼지와 비슷하며 Hive와 비슷합니다 나는 가지고있다 돼지에 대해 많이 들었으므로 사용되는 곳과 사용하지 않는 곳

첫번째 내가 Pig에 대해 이야기하려고하는 것은 혼란 스럽지만 여전히 Pig와 Hive는 거의 동시에 동일한 문제, 즉 두 도구가 거의 모두 동시에이 두 도구를 사용하면 같은 문제를 해결할 수 있습니다 내가 말할 수있는 거의 같은 문제 Pig를 사용할 수있는 대부분의 경우 하이브도 사용할 수 있습니다 당신이 할 수없는 상황이 있지만 대개 그렇다면 왜 하나의 도구를 발명 했습니까? Pig와 Hive가 거의 같은 경우 왜 두 가지 도구가 있습니까? 대답은 매우 간단합니다

Hive의 사용 사례를 기억하십시오 페이스 북은 엄청난 양을 다루고있었습니다 구조화 된 데이터를 사용하여 대부분의 검색어를 암호화 된 Python을 사용하는 Oracle이 발명의 단계였습니다 하이브 페이스 북은 하둡으로 옮겨야했고 그들은 무엇을해야할지 몰랐습니다 그래서 그들은 실제로 무언가를 발명했습니다 하이브라고 동시에 야후는 같은 문제에 직면했지만 다른 방법 아시다시피 야후는 실제로 발명 된 회사입니다 하둡

그들은 하둡을 발명하지 않았다 그들은 기본적으로 Nutch 프로젝트를 인수했습니다 실제로 하둡의 첫 번째 안정적인 릴리스는 실제로 야후 야후가 하둡을 가지고있을 때 같은 문제가있었습니다 권리 하둡의 데이터로 작업하고 싶습니다

하지만 유일한 방법은 MapReduce입니다 즉, 직원들에게 Java를 배우고 MapReduce 코드를 작성하십시오 어떻게해야합니까? 그러나 야후는 실제로 다른 방식으로 생각했다 야후가 생각한 것은 스크립팅 도구를 만듭니다 사람들이 설치하고 스크립트를 작성하기 만하면 쉽게 배울 수 있습니다 그냥하세요 스크립팅 도구는 스크립트를 일련의 MapReduce 프로그램이 바로 Apache Pig입니다

야후는 나중에 그것을 발명하여 아파치에 기여했으며 최상위 수준이되었습니다 계획 2013 년과 2014 년쯤에 하둡 세계에서 임시직의 약 70 ~ 80 %가 돼지 만 사용하여 달성했습니다 돼지는 실제로 가장 인기가 많습니다 도구

글쎄, 최근에 Spark의 발명 이후 실제로는 Pig 's 오늘날 우리가 보는 것처럼 인기는 없지만 그래도 여전히 돼지는 최고 중 하나입니다 모든 프로그래머와 분석가를위한 선택 그래서 정확히 돼지 야? 우리는 당신에게 배경을 제공하기 위해, 야후에 의해 발명 된 것을 볼 수 있습니다 Hive가 Facebook에 의해 발명되었을 때와 같은 시간 유일한 문제는이 두 회사는 서로 제대로 이야기하지 않았기 때문에 같은 문제를 해결하려고했고 두 도구를 발명하게되었습니다 하나는 돼지입니다 그래서, 기본적으로 큰 데이터 세트를 탐색하는 데 사용되는 스크립팅 언어입니다

지금이야 새로운 언어로, 익숙해 지려면 시간이 좀 걸릴 것입니다 그래서, 학습 돼지의 곡선은 하이브의 곡선보다 높습니다 누군가가 가지고 있다면 다른 방법으로 Hive를 배우기 위해서는 Hive가 SQL을 따르기 때문에 훨씬 쉬울 것입니다 SQL을 알고 있다면 Hive CL을 가져 와서 바로 탐색을 시작할 수 있지만 Pig로 시작하면 Pig에는 Pig Latin이라는 고유 언어가 있습니다 따라서 Pig의 언어는 Pig Latin이라고하며 Pig Latin은 새로운 언어이므로 구문, 사용 방법은 모두 새로운 것입니다

익숙해 지려면 시간이 좀 걸립니다 돼지와 함께라면 괜찮습니다 방법을 알아낼 수 있도록 도와 드리겠습니다 Pig를 배우고 그 작업을하는 방법을 배우십시오 실제로 큰 문제는 아닙니다 좋아, 빠른 정보 : 빅 데이터 하둡으로 인증 받고 싶다면 건축가 인 Intellipaat는 Big Data Hadoop에 대한 전체 과정을 제공합니다 모든 주요 구성 요소 및 전문가가 사용하는 도구

부디 자세한 내용은 설명에 언급 된 링크를 참조하십시오 이제합시다 세션으로 돌아갑니다 따라서 Pig의 구성 요소 : 실제로 Pig는 패키지로 제공됩니다 돼지 엔진이라고 불리는 것을 가지고 있습니다 하둡은 코드를 MapReduce로 변환합니다

언어는 실제로 돼지 라틴어라고합니다 돼지 라틴어는 당신이 배우기로되어있는 당신의 언어입니다 이제 Pig의 장점은 무엇입니까? 사용자가 Hadoop을 조정할 필요가 없습니다 의미에서, 사용자 정의 MapReduce 프로그램을 작성하는 경우 프로그램을 미세 조정해야 할 수도 있지만 Pig는 기본적으로 코드를 최적화합니다 당신 최적화를 켜고 끌 수 있지만 기본적으로 코드 최적화가 켜집니다 돼지에 의해

따라서 Pig는 최적의 MapReduce 코드를 생성합니다 사용자를 Hadoop 인터페이스에서 격리시킵니다 그래서 당신은 필요가 없습니다 실제로 MapReduce 나 Hadoop 등을 배웁니다 당신이 작성해야한다면 약 200 줄의 Java 코드, 10 줄의 Pig에서 같은 것을 쓸 수 있습니다 라틴어와 같은 방법으로 4에서 Java 기반 MapReduce 코드를 개발하려고하면 약 15 분 안에 동일한 작업을 수행 할 수 있습니다

돼지 라틴어 따라서 Java 프로그래머에게 시스템을 엽니 다 이제 우리는 실제로 볼 때, 우리는 Pig 코드를 작성할 때마다 나는 빠르고 일하기 쉽다고 말합니까? 이제는 모든 스크립팅에 공통적 인 방법입니다 언어입니다 파이썬이든 루비이든 쉘 스크립팅이든 모든 스크립팅 언어는 몇 가지 장점을 더 제공합니다

언어는 짧고 달콤합니다 사용할 수있는 많은 내장 함수가 있습니다 예를 들어 Python을 보면 n 개의 패키지와 함수를 사용할 수 있습니다 파이썬 코드는 매우 작을 수 있습니다 스크립팅 언어입니다 마찬가지로 돼지도 스크립팅처럼 행동합니다 언어이지만, 당신의 SQL과는 다릅니다

따라서 SQL은 다소 비슷합니다 질문 따라서 테이블에서 특정 결과를 가져 오려면 하나의 복잡한 쿼리를 작성하고 실행하여 결과를 얻을 수 있지만 여기서는 Pig와 상호 작용하려면 스크립트로 작성해야합니다 다음은 Pig Latin 데이터 흐름입니다 언어 실제로 일반 데이터 유형을 허용하므로 사용할 수 있습니다

long, float, chararray, int 등 모든 것이 가능합니다 돼지 복잡한 데이터 유형도 지원합니다 확장 가능하며 사용자 정의 함수를 지원합니다 Pig에 몇 가지 기능을 추가하고 싶을 때 할 수있는 일은 Java와 같은 것으로 작성하고 Pig 내에서 호출하십시오 사용자 정의 함수

UDF 또는 사용자 정의 함수의 예를 보여 드리겠습니다 따라서 언어로 자신의 함수를 작성하고 Java를 말하고 다음과 같이 패키지 할 수 있습니다 Java 파일을 Pig에 등록하면 Pig가 해당 UDF를 실제로 사용할 수 있습니다 돼지 메타 데이터가 필요하지 않습니다 유형없이 메타 데이터없이 작동 할 수 있습니다 선언 또는 기타 사항이지만 Pig에 메타 데이터를 제공하면 작동합니다

같은 방식으로 하이브는 그렇지 않습니다 내가 하이브와 함께 일한다면 내 메타 스토어 서비스가 실행 중이어야합니다 '좋아요, 테이블을 만들고 메타 데이터를 사용하지 마십시오 ' 그런 식으로 작동하지 않습니다

어느 한 쪽 자체 메타 데이터 서비스 또는 HCatalog와 같은 것을 사용해야하지만 메타 데이터가 필요합니다 Pig의 경우 메타 데이터를 사용할 필요는 없지만 언제 사용할 수 있습니다 가능합니다 Hive와 같은 다른 도구와 메타 데이터를 공유 할 수도 있습니다 HCatalog를 통해

그것은 HDFS의 파일에서 작동합니다 결합, 그룹, 필터 및 정렬과 같은 일반적인 작업 따라서 Pig에는 많은 내장 기능이 있습니다 함수는 결합, 그룹, 필터 및 정렬과 같은 공통 연산자를 제공합니다 그만큼 Pig의 힘은 실제로 이러한 내장 연산자에서 비롯됩니다 조인을하려는 경우와 같은 작업을 수행하려고합니다

조인 연산자를 호출하면 가입 작업을 수행하십시오 그래서 이것은 실제로 돼지가 우리를 도와줍니다 사용 시나리오는 무엇입니까? 하나 웹 로그 처리 일 수 있습니다 나는 실제로 당신에게 돼지 프로그램을 보여줄 것입니다 웹 로그를 받아서 처리합니다 자, Pig는 문자열 연산에 매우 능숙합니다

정규 표현식을 거부합니다 그래서 이것은 매우 될 수 있습니다 웹 로그와 같은 상황에서 유용합니다 따라서 웹 서버가 실행 중이라고 가정하십시오 많은 로그 파일을 생성합니다 이제 로그 파일은 구조화되지 않은

특정 패턴을 따르지 않습니다 전화해도됩니다 반 구조이지만, 비정형 데이터처럼 넣겠습니다 만약 너라면 무언가를 추출하고 싶다면 Pig를 사용할 수 있습니다 돼지는 손질이 잘되고 부분 문자열 연산, 정규 표현식, 데이터 웹 검색 플랫폼 및 대규모 데이터 세트에 대한 임시 쿼리 처리 Hive조차도 대규모 데이터 세트에서 빠른 쿼리에 신속하게 사용할 수 있습니다 큰 데이터 세트를 처리하기위한 알고리즘 프로토 타입

그렇다면 누가 모두 돼지를 사용합니까? Hadoop을 가장 많이 사용하는 Yahoo 인 Pig 직종의 40 % 트위터는 또 다른 잘 알려진 사용자입니다 돼지의 돼지는 일종의 가장 널리 사용되는 생태계 도구 중 하나입니다 우리에게 가능합니다 Pig vs Hive : Pig와 Hive는 정확히 동일하게 보입니다 그렇다면 왜 실제로 차이점이 필요한가? 예, 차이점이 있습니다

이걸 연관시켜야한다면 가장 큰 차이점은 이것으로 시작합니다 첫 번째 요점은 Pig는 단지 클라이언트 측 응용 프로그램이므로 Pig 서버가 없습니다 그러나 Hive는 선택적 Thrift Server와 우리는 Hives Server 1, Hive Server 2 등을 보았습니다 무엇을 사용하지만 Pig를 볼 때 Pig는 단지 클라이언트 측입니다 신청

그래서, 돼지 서버 나 다른 것이 없으며 왜 그렇게됩니까? Pig는 데이터웨어 하우스가 아니며 Hive는 필요한 데이터웨어 하우스입니다 데이터 액세스 및 저장을위한 연결 생성 음, Pig는 가질 필요가 없으며 JDBC / ODBC는 없습니다 연결성 Hive는 연결성을 지원하므로 Beeline 클라이언트 또는 일반 SQL 클라이언트에서 언제든지 연결할 수 있습니다 하이브 테이블 따라서 Hive는 실제로 JDBC 드라이버를 지원하므로 Hive에 직접 연결하여 원하는 작업을 수행하지만 Pig 이후 테이블에서는 작동하지 않으며 스토리지에서는 작동하지 않으며 JDBC / ODBC가 없습니다

연결성 따라서 Pig가 데이터를 가져와야 할 경우 데이터는 Hadoop에 있어야합니다 폴더 또는 어딘가에서 데이터를 읽고 변환하여 저장합니다 하둡으로 돌아갑니다 – 그것이하는 일입니다 안에 테이블이나 물건이 없습니다 돼지

돼지는 실제로 개발자가 주로 사용하며 Hive는 대부분 분석가들이 사용합니다 그것은 당신에게 달려 있습니다 그리고 여기 스키마는 의무가 아닌 여기서 스키마는 필수입니다 Hive 테이블을 만들 때 바로 스키마가 필요합니다

당신은 어떤 종류가 필요합니다 적어도 스키마의 또한 Pig에는 웹 서버가 없습니다 여기서 할 수 있습니다 선택적인 웹 서버, 가능한 Hive를위한 웹 인터페이스가 있습니다 저는 이것이 실제로 명백한 차이점이라고 생각합니다 많이있을 수 있습니다 고려해야 할 몇 가지 사항이 있습니다

실제로 어디 시나리오에 맞는 돼지? Ok guys, quick info : 인증을 받고 싶다면 Intellipaat 빅 데이터 하둡 설계자 모든 주요 데이터를 다루는 빅 데이터 하둡에 대한 전체 과정을 제공합니다 전문가가 사용하는 구성 요소 및 도구 를 통해 가십시오 자세한 내용은 설명에 언급 된 링크를 참조하십시오 이제 다시 돌아 가자 세션이므로 Hadoop 클러스터가 있고 내 후속 데이터베이스가 있다고 가정 해 봅시다 어쩌면 여기에 웹 서버가 있고 여기에 앱 서버가있을 수 있습니다

어쩌면 내가 데이터를 수집하고 있으므로 여기에 특종을 가져올 수 있습니다 내 속편에서 Hadoop으로, 웹 서버에서 내 데이터를 가져올 수 있습니다 아마도 나는 flume 또는 무언가를 사용하여 로그 파일을 가져 와서 모두 얻습니다 여기에서 그리고 여기에서 로그는 몇 가지 로그를 가져오고 있습니다 주로 구조화되고 반 구조화 된 여러 유형의 데이터를 수집합니다

폴더에있는이 모든 데이터 확인 그래서 이것은 하둡에있는 내 폴더이므로 내가하고있는 일은 웹 서버 로그에서 DBMS 시스템의 데이터를 수집하고 있습니다 여러 곳의 데이터웨어 하우스에서 Hadoop의 폴더가 좋습니다 이제 데이터가 있습니다 이 데이터를 안녕으로 보낼 수 있습니까? 그렇습니다하지만 일반적으로 우리가하는 일은 이 폴더에 있으면 Pig를 실행하여 데이터를 읽습니다

여기에 데이터를 변환하고 Hadoop으로 다시 보내십시오 내 데이터 권한 및이 변환 된 데이터는보고를 위해 hi에 의해 액세스됩니다 그래서 돼지는 실제로 데이터로 사용됩니다 공장 운영자 또는 데이터를 정리할 수있는 무언가 웹 서버 로그 또는 원하는 데이터베이스에서 원시 데이터를 가져옵니다 데이터를 정리하여 ETL 직원이 이보다 더 잘 연관시킬 수 있습니다 원치 않는 정보가있을 수 있습니다

쿠키 관련 정보 로봇이 정보를 크롤링하는 등 이 경우 데이터를 높은 위치에 덤프하지 않을 수 있습니다 하이브는 모든 것이 저장되는 최종 목적지이고 보고 도구는 높은 테이블에 직접 연결할 수 있으므로 데이터를 변환하여 데이터를 정리하고 일단 피크가되면 데이터를 정리합니다 데이터를 구조화 한 다음 해당 데이터를 하이브 테이블에 저장할 수 있습니다 돼지가 데이터를 읽고있는 것을 저장하지 않고있는 것을 볼 수 있습니다 또 다른 예는이 센서 데이터입니다

이 날씨에서 데이터를 수집하는 경우 알고있는 날씨 데이터 온도 등의 센서 등 날씨 데이터가 일반적으로 해독하기가 매우 어려운 매우 구체적인 문자열 형식으로 제공되므로 폴더에 날씨 데이터가 있으면 쉽게 데이터를 사용할 수 있습니다 관심있는 정보를 얻는 문자열 조작 그 구조 데이터는 다른 폴더에 저장되므로 하이브가 따라서 돼지는 작업자 또는 데이터 공장 운영자를 청소할 때 사용됩니다 데이터를 구조화하여 하이브에 저장할 수 있도록 이것은 오늘날 그들이 할 수있는 모든 것을 과대 광고를 수행하는 방법 ETL 도구로 작동 할 수도 있지만 그래, 돼지는 일반적으로 하둡 위에서 거래로 간주 될 수 있습니다 돼지가 시스템에 잘 맞아서 돼지를 사용하지 않는 곳 돼지는 순수한 비정형 데이터에 적합하지 않습니다 이러한 경우 오디오 비디오 이미지 등 돼지가 적합하지 않을 수 있습니다 돼지를 가공 할 수있어 구조화 된 측면에서 반 구조화 된 데이터와 다음 요점은 이 도구에 대한 이상한 이름 Pig 아파치의 사람들이 정말 재미 있다는 것을 알고 있습니다

큰 철학이라는 것이 있다는 것을 의미합니다 원하는 경우 Apache의 Apache Pig 철학을 읽을 수 있습니다 그들이 어떻게이 도구에 Pig라는 이름을 주 었는지 아파치가 말하는 것은 우선 모든 동물 돼지는 무엇이든 먹을 수 있습니다 당신의 엉덩이 아파치 원숭이와 같은 방법으로 그들은 또한 모든 유형의 데이터를 먹을 수 있습니다 구조화 된 반 구조화 및 일종의 실행 구조이므로 돼지는 아무 말도하지 않고 동물처럼 두 번째로 먹을 것입니다 요점은 동물 돼지가 쉽게 길들여져 있다는 것을 의미합니다 집안의 돼지 돼지 내 형태의 돼지이므로 돼지는 같은 날이 아파치 서사시는 매우 잘 작동 할 수있는 도구입니다 다른 플랫폼과 아파치도 돼지가 당신과 같은 의미에서 날아갈 것이라고 말합니다 스크립트를 즉석에서 작성할 수 있으므로 이것이 큰 철학이므로 Apache Epics 철학은 Big Eight를 올바르게 본다 돼지는 가축과 돼지가 날아 다니는 큰 곳을 픽셀 철학과 거리가 멀어 돼지 돼지라고 불리는 이유는 실제로 복잡한 데이터 형식이라고 불리는 일반 데이터 형식을 지원합니다

또한 복잡한 데이터 유형을 지원하므로 복잡한 데이터 유형의 의미는 무엇입니까? 그들 중 하나는 부부 부부라고하는 매우있다 빅 더블의 세계 밖에서도 일반적인 것은 일련의 필드가 생각하는 것입니다 테이블에서 행과 같은 Apple과 튜플은 일반적으로 다음과 같이 표현됩니다 예를 들어 19 쉼표 2 이것은 커플이고 가방이라는 것이 있습니다 잘 튜플의 모음입니다 정의가 실제로 정확하지 않습니다 가방은 지갑을 포함 할 수 있기 때문에 가방은 실제로 다른 가방도 포함 할 수 있습니다 bad는 정렬되지 않은 콜렉션이므로 나쁜 것은 포함 할 수있는 복잡한 데이터 유형입니다

커플 또는 다른 가방을 포함 할 수 있습니다지도는 시작하는 방법에 대한 핵심 가치 쌍입니다 B로 작업하기 때문에 먼저 가장 먼저 알아야 할 데이터를 이해해야합니다 그렇지 않으면 작업하는 것이 옳지 않으므로 먼저해야 할 일 데이터는 이제 빅 데이터 시나리오에서 매우 일반적이라는 것을 이해합니다 데이터를 이해해야 데이터 작업을 시작할 수 있습니다 작업 할 데이터를 보여 주므로 이제 작업 할 데이터가 있습니다 2 개의 파일 세트가 있습니다

매일 뉴욕 증권 거래소라고합니다 예를 들어 첫 번째 열은 교환입니다 뉴욕 증권 거래소 이름 인 두 번째 열을 기호 또는 시세 이것은 우리가 모니터링하는 주식 이름이며 날짜가 있습니다 이것은 날짜 열이며 시작 값 마감 값이 높음입니다 총 거래량과 다른 가치가 있으므로 기본적으로 이것은 주식 데이터입니다 모든 주식은 시가 총액 종가가 높고 총 판매량이 적습니다

그리고 이것은 정말 좋은 데이터 세트입니다 공공 극장 세트입니다 이 데이터에 대해 많은 작업을 수행 할 수 있다는 것을 알고 있으므로 데이터 세트 두 번째 데이터 세트는 비슷한 데이터 세트이지만 4 개만 있습니다 이 열은 먼저 교환 이름 NYSC를 두 번째로 표시합니다 세 번째 날짜와 마지막 열은 배당이므로 네 개의 열이 있으므로 다음은 우리가 처음에 큰 것을 이해하기 위해 사용할 두 데이터 세트입니다

데스크톱으로 이동하여이 데이터 세트를 모두 사용할 수 있습니다 바탕 화면에서 볼 수 있습니다 매일 뉴욕과 뉴욕 SD 배당금 모두 데이터 세트는 내 데스크탑에서 가장 먼저 알아야 할 사항입니다 큰 것은 큰 두 가지 모드로 실행할 수 있다는 것입니다 로컬 모드이 모드에서 두 MapReduce 모드는 로컬에서 데이터를 읽습니다 파일 시스템 그것을 변환하고 로컬 파일에 다시 저장 이 모드에서 시스템 괜찮습니다

Pig는 HDFS 파일 시스템 변환에서 데이터를 읽습니다 그것을 HDFS 파일 시스템에 다시 저장하는 것은 괜찮습니다 Big Data Hadoop 아키텍트 intellibid로 인증 받기를 원합니다 모든 주요 데이터를 다루는 빅 데이터 하둡에 대한 전체 과정을 제공합니다 전문가가 사용하는 구성 요소 및 도구는 자세한 내용은 설명에 언급 된 링크로 돌아가서 세션은 두 가지 모드에서 Pig를 실행할 수 있음을 의미하며 로컬 모드와 MapReduce 모드 로컬 모드는 로컬 모드에서 Pig를 시작하면 그것을 시작하면 기본적으로 Linux 컴퓨터에서 데이터를 가져옵니다 Linux 컴퓨터의 데이터가 Linux의 데이터를 읽습니다

기계 권리와 그것은 당신이 그것을 요구하는 모든 변환을 할 것입니다 Linux 시스템에 다시 저장하면 로컬의 Hadoop에 닿지 않습니다 MapReduce 모드의 모드는 동일한 개념이지만 HDFS에서 데이터를 읽습니다 즉 Hadoop은 다시 Hadoop에 저장합니다 MapReduce 모드는 예측 로컬 모드에서 테스트 용으로 사용하는 것입니다 예를 들어, 돼지 스크립트를 작성하고 어떻게 작동하는지 확인하려는 경우 랩톱의 로컬 모드에서 Pig를 실행하여 노트북의 하드 디스크는 하드 디스크에 다시 저장하므로 로컬 모드를 사용하여 얼마나 큰 효과가 있는지 경험하십시오

MapReduce 모드를 사용하면 가장 먼저 보여 드릴 것은 로컬 모드입니다 데이터를 읽고 변환하여 로컬에 저장하는 방법을 의미합니다 파일 시스템이 바로 돼지를 시작하기 위해 Cal 모드는 B 대시 X 로컬을 입력하기 만하면됩니다 로컬 모드에서는 Hadoop 및 로컬 모드와 아무런 관련이 없습니다 방금 테스트에 사용했습니다

grunt라는이 프롬프트가 표시되는 것을 어떻게 알 수 있습니까? 그래서 grunt는 큰 프롬프트입니다 실제로 이것은 큰 권리의 프롬프트입니다 여기에 첫 번째 큰 명령을 입력 할 수 있습니다 이것이 픽업 라인의 모양입니다 코드 줄처럼 큰 스크립트 줄이 이렇게 보일 것입니다 내가 무엇을 먼저 썼는가 배당금과 같은 기호가 있으므로 언제든지 볼 수 있습니다

이 기호는 그것이 관계라는 것에 큰 관계라는 것을 의미합니다 이 기호와 같은 것을 볼 때 관계를 어떻게 식별합니까? 위반 그래서 여기에 나는 배당금이 같다고 말하는 DI 관계를 선언하고 있습니다 이 파일을 교환 기호 날짜 배당으로로드 이제이 배당금은 괜찮을 수도 있습니다 방금 배당금으로 불렀습니다 예를 들어 ragu가 여기에서 작동한다고 말할 수 있습니다

당신이주는 것은 정말로 중요하지 않습니다 변수가 아닌 방식으로 기억하십시오 돼지에는 변수의 개념이 없습니다 이것은 변수가 아닌 관계라고 불립니다 이제 우리는 ragout이 load와 같다고 말합니다 파일은로드되지 않는 일부 데이터가 있음을 의미합니다 돼지의 연산자 또는 실제로로드하는 것을 호출 할 수있는 함수는 이제 파일에 대한 포인터를 만들 것입니다

ragu ragu를 호출하면이 파일을 의미 하며이 파일은 4 개의 열과 열 이름 바꾸기 기호 날짜 및 배당 내가 말하는 모든 데이터 유형을 의미하는 스키마를 제공하지 않음을 알 수 있습니다 돼지는 라구라고 부르면 돼지를 아는 것입니다이 파일을주세요 파일의 열은 모두 내가 4 개의 열에 대한 헤더입니다 이제 실제로 관계를 작성하는 여러 가지 방법이 있지만 이것을 기억하십시오 당신은 돼지와 함께 일하기 위해 관계로 시작해야하므로 첫 번째 단계 모든 Pig 스크립트에서 실제로 데이터를로드하거나 데이터를 가리키고 있기 때문에 데이터 없이는 어떻게 작동합니까 데이터 없이는 어떻게 작동합니까 바로 지금이 데이터를 가리키는 Yahoo라는 관계를 만들었습니다

맞아 그리고 당신은 또한 내가 관계를 만들었을 때 아무것도 알지 못했다 Raghu가 이것을로드하는 것과 동일하다고 말했지만 괜찮습니다 돼지를 게으른 연산자로 부르기 때문에 아무 일도 일어나지 않습니다 동물 돼지처럼 돼지는 아주 게으르다 그래서 당신에게 예를 제공 당신이 집에 앉아 있다고 가정 해 봅시다 아내 나 여자 친구와 함께 집에 앉아 너에게 와서 내일 저녁에 오늘 저녁을 의미한다고 말해 당신은 나가서 무언가를 얻어야하고 그녀는 당신이하는 것들의 목록을 만듭니다 예를 들어 슈퍼마켓에 가서 뭔가를 사야하고 당신은 전화 교환에 가서 청구서를 지불해야 할 수도 있습니다 우유 배달원에 가서 우유를 얻습니다

당신은 당신이해야 할 일의 목록을 만들고 있습니다 집에 앉아서 아내가 옳은 일을해야한다고 당신이해야 할 일의 목록을 만드십니까? milkman은 가서 슈퍼마켓이라는 단어가 나온 후 2 리터의 우유를 얻습니다 그 단어 전화 교환 후 식료품 가게 가서 가서이 xxx 당신을 얻을 해야 할 일의 목록을 만들지 만 때가되면 할 때 실제로 당신이하는 일을 그냥 나가서 하나씩 실행하십시오 Raghu는이 데이터를로드하는 것과 같습니다 Enter 키를 누르면 아무 일도 일어나지 않습니다 내가 할 일 목록을 만드는 것처럼 돼지에게 데이터 코어 Raghu라고 말하고 있습니다

돼지는 저에게 물어볼 것입니다 만약 이것이 이것이 데이터라면 어떻게해야합니까? 내가 옳은 일을하지 않겠다고 주장하기 위해서만 계속하겠습니다 배당금으로 괜찮습니다 그래서 이렇게 변경할 수 있습니다 완전히 역동적이어서 약물에서 배당으로 바꿨으니 배당으로 읽었으니 먼저 관계를 선포합니다 스키에주의를 기울이려면 구문을 선택해야하지만 돼지에게 말합니다 당신은 기호로 돼지 그룹 배당을 알고 배당은 내 이전 관계 I 기호 열별로 그룹화하여 다른 관계에 저장하려고합니다

이제 무슨 일이 있었는지 그룹화하고 두 번째 진술이 있습니다 첫 번째 진술로 여전히 아무것도하지 않고 지불됩니다 아무것도 게으르지 않아 아주 게으르다 각 그룹에 대해 이전 관계가 있다고 말하면 그룹 번호가 생성됩니다 배당금의 평균을 AVG라는 관계에 저장하여 여기에 세 가지 명령을 입력했습니다

이들은 세 가지 또는 돼지 용어로 세 가지 관계입니다 각 줄마다 아무 일도 일어나지 않은 이유는 없습니다 빨간색과 돼지는 그것을보고 그것이 무엇을해야하는지 볼 것입니다 무언가를해야하지만 요청하지 않는 한 출력을 요구하고 있습니까? 출력 Pig는 아무것도하지 않습니다 Pig는 게으른 자세를 취합니다

알았어 데이터 두 번째 줄은 괜찮아요 세 번째 줄의 열은 모든 배당금의 평균을 계산한다고 말할 것입니다 괜 찮 아 요하지만 마지막으로 무엇을 볼 수 나는 인쇄처럼 평균을 볼 수 자바에서 문장을 마지막으로 말하면 시스템 도트 도트 println 바로 출력을 볼 수있는 곳이므로 인쇄하지 않았습니다 돼지에 대한 명세서 지불에 대한 인쇄 명세서를 어떻게합니까 나는 덤프 AVG를 말할 것입니다 그래서 dump는 기본적 으로이 관계 덤프 수단을 실행한다고 말하는 유료 키워드입니다 당신이 할 때 Pig에게 그것을 시키거나 인쇄하거나 출력을 보여달라고 요청하고 있습니다

AVG를 덤프합니다이 줄을 읽으면 AVG가 두 그룹으로 수집되어 이 그룹으로 이동 배당과 관련이 있으므로 배당으로 이동하십시오 한 줄씩 실행을 시작하고 Enter 키를 누르면 결과를 보여줍니다 MapReduce 작업이 시작되고 한 줄씩 실행되고 나에게 평균 헨리는 모든 주식 평균이 기록되어 있는지 확인해야합니다 얼마나 큰 효과를 나는 지금 당신이 구문을 이해하고 싶지는 않지만 큰 느낌 만 실제로는 그런 관계에서 배당을 계산하면 계산하는 그룹을 그룹화합니다

그런 다음 덤프 평균이라고 말하면 이것이 올바른 방법 중 하나입니다 하지만이 문제는 당신이 입력하는 것입니다 한 줄씩 명령을 입력하십시오 한 줄씩 명령을 입력하고 마지막 줄 dump AVG dump는 화면에 결과를 표시하는 데 사용하는 키워드입니다 AVG는 이전의 관계이므로이 작업을 원하지 않으면 알고 있습니다 여기서 나가면 스크립트로 쓸 수있어 새 파일을 만들 수 있습니다

이 파일을 테스트 도트 피그라고 부릅니다 파일 테스트 도트 피그의 이름 돼지입니다 돼지 스크립트를 만드십시오 흠 이 파일 안에 그냥 내 의견을 쓸 수 있으므로 그냥 붙여 넣기 만하면됩니다

방금 dot pig 테스트라는 파일을 만들었고 파일을 열면 우리가 가지고 있었지만 지금 할 수있는 것과 같은 네 가지 진술 돼지 대시 X 로컬이라고 말할 수 있습니까? 이것은 로컬 모드에서 Pig를 실행하고 있음을 의미합니다 내 파일은 데스크탑에서 파일을 읽습니다 데스크탑에는 이미 파일이 있습니다 Enter 키를 누르면 테스트 도트 P라는 스크립트를 실행하십시오 그 같은 일과 당신은 당신이 바로 다시 프롬프트 그래서 당신은 셸을 실행하여 피크와 대화식으로 작업 할 수 있습니다 명령을 한 줄씩 입력하거나 전문가가 아닌 경우 Pig를 아주 잘 사용하면 큰 명령으로 실행해야 할 모든 명령을 넣을 수 있습니다

왜 우리는 무엇을 배웠는지 우리는 그 돼지를 배웠습니다 지역에서 더 많은 일을 할 수 있습니다 로컬 컴퓨터와 내가 저장하면 다른 것을 저장하는 것을 알 수 있습니다 이 스크립트의 한 가지 문제는 스크립트가 데이터 또는 평균을 찾아 결과를 보여 주지만 결과를 저장하지 않습니다 덤프 대신 결과를 저장하려면 어디서나 store라고 말할 수 있습니다

평균 2 개는 4 월 8 일이라고 폴더 이름을 지정합니다 세 줄을 실행하고 4 월 8 일이라는 폴더에 AVG를 저장 스크립트를 실행할 경우 스크립트를 실행하면 동일한 방식으로 실행되지만 LS를 수행하면 결과를 내 컴퓨터의 폴더에 저장하십시오 4 월 8 일이라는 새 디렉토리가 있으며 4 월 8 일로 이동하면 파일이 있습니다 파일을 여기에서 열면 부분 R이라고합니다 결과는 돼지에게 화면에 결과를 보여달라고 부탁하거나 돼지에게 파일이 작동하는 두 가지 방법으로 결과가 나타납니다

4 월 8 일은 폴더 이름이됩니다 폴더 안에 파일이 생성 될 부분이 생성됩니다 4 월 8 일 폴더 안에 있습니다 돼지의 MapReduce 모드도 있습니다 바로 Pig의 math reduce 모드에서 우리가 할 일은 데이터를 읽을 것입니다

HDFS는 변환을 통해 데이터를 다시 저장하여 동일한 예제를 사용하지만 내 데이터는 하둡에 있으므로 표시하겠습니다 하둡에서도 동일한 데이터를 사용할 수 있으므로 이것이 바로 하둡입니다 휴와 당신은이 NY가 매일이고 NYC 배당은 이미 하둡이 바로 MapReduce 모드에서 돼지를 실행하려면해야 할 모든 것 돼지를 입력하고 Enter 키를 누르십시오 이전에 돼지를 입력 할 때 사용했던 기억-X 지역은 지금 당신은 돼지라고 말해야하고 당신은 같은 grunt 프롬프트를 볼 수 있지만 예를 들어 내가 쓸 것이라고 말할 수있는 것과 같은 명령의 차이가 있습니다 다시 말하면 더 낮은 사용자가 Cloudera를 슬래시한다고 말해야합니다

슬래시 그래서 여기 하둡 경로를 제공해야합니다 흠 하둡 경로를 제공해야합니다 내가 지금 저장하고 싶다면 슬래시라고 말할 수 있습니다 사용자 슬래시 Cloudera는 April end라는 폴더를 슬래시하므로 MapReduce 작업은 파일을 Hadoop에 저장합니다 jar 파일을 생성하고 실행중인 것을 볼 수 있도록 폴더에 MapReduce 작업 종료 바로 cetera 그래서 런처를 생성합니다 적절한 MapReduce 작업으로 완료율이 0 %임을 알 수 있습니다

MapReduce 달에서 실행되어 결과를 올바르게 볼 수 있습니다 내가 휴로 가면 다시 같은 디렉토리로 돌아가 4 월 8 일이라는 폴더를 만들었어야합니다 여기는 4 월 8 일입니다 결과 파일은 내 요점은 달리기 명령과 모든 호를 선택하는 것입니다 로컬 모드와 MapReduce 모드에서 Pig를 실행하려면 똑같습니다

로컬 모드 또는 MapReduce 모드에서 유일한 차이점은 아는 것입니다 로컬 모드에서는 Linux의 입력 경로와 출력 경로를 제공해야합니다 Maya 생산 모드의 Linux는 Hadoop 출력 경로의 입력 경로를 제공합니다 유일한 차이점 인 하둡 이제 우리는 스키마를 살펴볼 수 있습니다주의 깊게 관찰하면 내가 무엇을하고 있는지 볼 수 있습니다

당신은 무슨 일이 일어나고 있는지 이해할 것입니다 대화식 모드 로컬 모드 로컬 모드 선택을 시작하겠습니다 즉, 바탕 화면에 파일이 있고 파일을 읽고 올바르게 작업하고 싶습니다 로컬 모드에서 시작해서 두 가지를 먼저해야합니다 중요한 것은 배당금이 교환 캐리어로 데이터를로드하는 것과 같습니다 심볼 캐리어 날짜 캐리어 배당 플로트이므로 명시 적 데이터입니다

타입 선언은 이것이 일반적으로 데이터가 있고 열을 알고 어떤 데이터 유형을 알게 될지 피그에게이 데이터를 불러 4 개의 열이있는 NY St 배당 및 4 개의 데이터 유형 이 돼지를 사용하면 모든 데이터 유형을 고수합니다 다른 프로그래밍 언어와 마찬가지로 제공되므로 여기에서 내가 원하는 데이터 유형이며 관계의 데이터 유형을 어떻게 알 수 있습니까 설명 배당금 설명 기술 사람들이 말하는 증거 다른 배당에는 네 개의 열이 있으며 이것들은 열입니다 이제 우리는 내가 한 일을 여기에 설명하지 않았습니다 명시 적 데이터 유형을 나타내는 데이터를로드했습니다 내가 데이터 유형을 보여줄 것입니다 배당을 설명하는 데이터 유형입니다 배당에 대한 유형과 이것이 우리가 알고있는 데이터 유형을 알고 있다고 말합니다

그런 다음 배당금은 부하 NYSC 밑줄 배당금 최신이라고 말했습니까? 매일 말할 수 있으므로 다른 예를 들어 봅시다 또는 당신은 이것을 말할 수 있고 매일 설명 할 수 있습니다 파일을로드하십시오 스키마를주지 않으므로 설명을하면 돼지는 매일 알 수없는 스키마를 말할 것입니다 스키마를 언급 했으므로 이제 문제는로드하는 것입니다 스키마를 설명하지 않고 이와 같은 파일을 사용하여 작업을 수행 할 수 있습니까? 예, 당신은 그렇게 할 수 있습니다

그것은 큰 장점입니다 다른 도구는이 장점을 가지고 있습니다 이제 내가 한 일이 New York Stock이라는 파일을로드했음을 보여줍니다 매일 교환하면 열 이름이 없거나 열 이름이 없습니다 데이터 유형이나 그 외의 다른 종류의 돼지가 스키마를 알 수 없지만 데이터를 변환하여 데이터를로드 한 다음 나는 매일 매일 말하고 있으므로 매일 매일이 데이터가 올바르게 생성됩니다

7 천 달러로 7 달러는 8 열이므로 숫자가있는 열을 나타냅니다 돼지에게 여덟 번째 열의 모든 숫자를 다시 천으로 나누도록 요청합니다 돼지에게 네 번째 열의 모든 요소에 1000을 곱하도록 요청하면 돼지에게 첫 번째 열에서 첫 번째 문자를 추출하도록 요청 또한 모든 행에서 일곱 번째와 네 번째 열 요소를 빼도록 지불하도록 요청 이제 각 생성에 대해 호출 된 연산자를 사용하도록 구문을 그대로 두십시오 기본적으로 제가 돼지에게 물어 보는 것은 이봐 요

매일 오른쪽에 8 개의 열이 있으며 열 이름이 없습니다 괜찮지 만 8 열이 있으므로 데이터를로드 할 때 분명히 데이터는 탭으로 구분됨 Pig는 읽을 수 있으므로 Pig는 탭의 탭인 데이터를 예상합니다 데이터가있는 경우 모든 열을 탭으로 구분해야합니다 탭으로 분리하지 않으면 코마 또는 당신이 가진 것과 같은 인수를 줄 수 있습니다 그러나 기본적으로 내 데이터는 탭으로 구분되므로 매일 NYSC로드를 말하면 모든 열을 자동으로 식별하여 모든 열의 이름을 지정합니다 $ 0 $ 1 $ 2 $ 3 천 단위로 8 번째 열의 모든 요소를 네 번째 열의 모든 요소를 ​​천 단위로 나누어 곱할 수 있습니다

100 도트 제로 및 하위 문자열 연산은 첫 번째 달러 0부터 의미합니다 열 0에서 1까지의 첫 번째 문자를 원하며 모든 행에 대해 원합니다 빼기 달러 6 빼기 달러 3은 7 번째 코너-4 번째 열을 의미합니다 내가 당신에게 말하려고하는 것은 당신이 돼지에게 모든 요소를 ​​나누도록 요구하고 있다는 것입니다 여덟 번째 열에서 천 단위로 누군가에게 무언가를 나누라고 요청할 때 즉, 숫자는 정수 여야하므로 돼지는 자동으로 네 번째 열에 대해 일곱 번째 열을 다시 정수로 캐스트하십시오 100

0을 곱하면 1000으로 곱하면 1000은 콜론을 double 데이터 유형 double로 가정하고 캐스팅 할 때 하위 문자열이라고 말하면 추출하려는 것을 자동으로 이해합니다 이게 카테 리라는 것을 이해할 것입니다하지만 당신이 말할 때- 당신이 선택을 요청하기 때문에 달러 6-달러 3 혼란이있을 수 있습니다 빼기 작업을 지금 할 수 있습니다 빼기 작업은 개인이 할 수 있습니다 정밀도를 위해 Pig는 두 가지를 모두 가정합니다

부동 소수점이며 덤프를하면 뺄셈을 수행합니다 당신이 그것을 제공하지 않고도 결과를 보여줄 것입니다 스키마는 스키마를 이해할 수 있으므로 첫 번째 열은 정수입니다 두 번째 열은 천 단위로 나누도록 요청하기 때문에 두 번째로 두 배는 칼로리입니다 네 번째는 다시 부동 소수점입니다 이 계산을 다시 한 번 보여 드리겠습니다

결과를 봅니다 이해하면 이것이 이것이 어떻게 될지 알려줍니다 스키마를 이상적으로 언급하지 않고 스키마를 언급해야합니다 돼지가 당신을 위해 일하는 또 다른 것은 내가 의미하는 스키마를 언급해야합니다 그것이 우리가하는 일이지만 스키마가없는 경우도 있습니다

데이터를 빠르게로드하고 예를 들어 약 10 열의 텍스트 파일을 얻는 것은 모두 당신이 할 수있는 jure의 정수입니다 그냥로드하고 모든 데이터 유형을 선언 할 필요가없는 모든 작업을 수행하십시오 당신은 당신이 ok라고 말할 때 천을 나눈 것을 알기 때문에 그것이 정수를 나누고 정수로 캐스트하여 정수 연산자를 작성하는 연산자 나 구문을 지금 자세히 살펴보십시오 내가로드 운영자가 만들 것이라고 말한로드 운영자는 무엇입니까? 당신이 내 데이터를 보면 그것을 사용하면이 NY se 밑줄 배당 또는 NY s 키이므로 이 데이터가 탭으로 구분 된 데이터는 구분 기호가 탭이며 기본적으로 탭 구분 기호를 사용하는 경우 big은 데이터를 이해하지만 데이터에 탭이없는 경우 데이터에 쉼표가 있으면 어떻게해야합니까? 이 데이터를 보면 올림픽 데이터 세트입니다 쉼표로 구분 된 데이터 이제 쉼표 구분자 데이터로 무엇을 할 수 있습니까? 이 데이터를 매우 간단하게로드하려면 그림에 있습니다 동등한 부하라고 말하십시오

올림픽이라고하면 큰 저장 공간을 부르고 있습니다 올림픽이 큰 스토리지 코마를 사용하는 내 파일 이므로이 큰 말을해야합니다 스토리지 다른 유형의 데이터를 가지고 있다면 간단히 할 수 있습니다 로드 연산자이므로로드 올림픽이라고 만하면 데이터가 pic 스토리지 코마를 사용하여로드 올림픽이라고하면 탭으로 구분 된 값은 데이터가 약간 혼수 상태이므로 CSV 파일이 있으면 매우 좋습니다 또는 쉼표로 구분 된 값 등이 데이터를로드하는 방법입니다

데이터가로드되는지 확인하십시오 스키마가 없습니다 스키마가 없습니다 우리가 언급하지 않았기 때문에 데이터를 덤프 해야하는 덤프를 말할 수 있습니다 데이터를 볼 수 있으므로 데이터가 완벽하게로드 된 것을 확인할 수 있습니다 로드 연산자를 사용할 때이를 사용하여 참조하십시오 결과를 저장하려면 운영자에게 바로 저장하십시오 그러면 내가 아는 모든 것을 하둡 폴더 이름으로 저장한다고 말할 수 있습니다

여기에 폴더를 만들어야하고 덤프를 저장하여 결과를 보여줍니다 화면과 저장소는 데이터를 폴더에 저장하므로 상점 운영자를로드하거나 번호 운영자 데모 운영자가 백만 줄을 가지고 있다면 좋지 않은 화면 상점에 매장이 있다고 말하면 화면에 백만 줄을 모두 던져 그녀의 개 어딘가에 당신은 당신이 액세스 할 수있는 모든 폴더 이름을 제공 할 수 있습니다 관계 연산자 OK 우리는 관계 연산자라는 것을 가지고 있습니다 맞습니다 몇 가지 예를 보여 드리겠습니다 이것으로 저는 다른 사람을 낮추고 여기에 관계를 만들고 싶습니다 여기에 열 이름을 지정한다는 것을 알고 있으므로 매일 NYS를로드하십시오

교환 기호 날짜 열기 높은 낮음 닫기 볼륨 조정 닫기 돼지에게 익숙해야하는 첫 번째 조작자가 각 운영자가 어떻게 작동하는지는 각 운영자가 모든 행을 가지고 당신이 언급하고있는 작업을 적용하십시오 close minus open이라고 말하면 또 다른 콜론이라는 열이 있습니다 바로 연이어서 속편 루프와 같아서 무언가를 적용 할 것입니다 속편 루프처럼 모든 레코드를 교환하고 이것이 작동하는지 확인하려면 어떻게해야합니까? 따라서 gain이라는 연산자를 덤프해야하므로 관계 코드가 완료되었다고 말할 것입니다 그리고 그것이 전부입니다 훨씬 더 많은 일을하세요

이제 제가 한 일을 제가했던 바로 C라고 말할 수 있습니다 가격은 각 가격에 대해 말할 수 있습니다 이제 C 덤프를하겠습니다 제가 지금 한 일을 보았습니까? 가격은 딸을 제로 달러로 생성합니다 두 개의 열과 내가했을 때 정확히 두 개의 열을 얻었으므로 어떻게 쉽게 필터링하는 것입니다 나는 단지 당신이 알고있는 3 개의 열을 호출하고 싶습니다

당신은 그것을 캐스팅하는 방법조차하지 않습니다 방금 말한 데이터 유형을 말할 필요가 없습니다 당신이 얻는 각각에 대해로드하고 그렇게 별도의 파일로 저장하십시오 이것은 데이터 변환이므로 매우 쉽게 말할 수 있습니다 데이터 변환은 대소 문자를 구분하는 관계입니다

내가 말하는 것은 하중이 같음 하중과 같지 않다 B 0 txt를로드하고 자본에 동일한로드를 너무 작게 말합니다 대문자 a가 다르므로 관계 이름은 대소 문자를 구분하지만 말할 수는 있습니다 이 또는이 중 하나를 사용하면 작업자가로드와 같거나 각각에 대해 사용할 수 있습니다 작은 글자 또는 대문자이지만 관계 이름은 매우 구체적입니다 각 연산자마다 범위를 언급하는 데 사용할 수 있습니다 동일한 데이터 가격을 올바르게로드하고 있으며 말할 수있는 일을 할 수 있습니다 각 가격에 대해 도트 도트 오픈을 생성하여 교환 기호를 생성합니다

date open 모든 열이 열리거나 open dot dot close라고 말할 수 있습니다 높음 낮음 닫힘 또는 볼륨 및 조정을 의미하는 볼륨 도트 도트라고 말할 수 있음 밑줄을 닫으면 이와 같은 열 범위를 언급 할 수 있으므로 div라는 관계를 다시 만들었습니다 동일한로드하고 있습니다 좋아, 그래서 여기에 관계를 만들고 우리가 몇 개의 열을 가지고 있는지 이 관계이지만 큰 것은 열이라고하지 않습니다 기록 미안 그것은 실제로 필드가 아니라 우리가 얼마나 많은 필드를 기록 교환 기호 날짜와 배당에 대한 div 관계를 가지고 있으므로 네 가지 분야에서 내가하고있는 일을 살펴보고 각각에 대한 밑줄 의미 200 또는 0의 배당 코마 배당으로 100/0으로 배당을 생성 그래서 이것은 내가 올바르게 쓰는 방식을 약간 혼란스럽게합니다

그래서 저는 이전 데이브 관계인 각 데이브에 대해 말하고 싶습니다 이 필드에 배당금이라는 200을 배당금으로 곱하면 무엇이 좋을까요? 여기서 배당금으로 1000으로 배당금을 썼습니다 다시 1000으로 배당 그것은 필드 이름은 내가 무엇을 말하고 있는지 참조하십시오 배당 열을 알고있는 모든 요소에 곱셈을 알고 있거나 배당하지만 필드를 올바르게 말하면 배당이라는 이름으로 저장됩니다

새로운 열이나 배당이라는 새로운 필드를 만들고 있지만 두 번째에는 내가하고있는 일 나는 배당에 모든 요소를 ​​곱하지만 새로운 열로 저장하지 않기 때문에 자동으로 일이 일어 났을 때 내가 쓰면 열이 있습니다 두 번째 열의 배당은 두 번째 열입니다 열이 없습니다 이름과 달러로 액세스 할 수 있습니다 즉, 작업을 수행 할 때마다 그렇지 않으면 달러 표기법으로 열을 생성합니다

좋아 필터 hmm로 가자 그래서 필터 연산자에서 나는 그냥로드합니다 데이터는 먼저 교환으로 느린 배당금을 말합니다 기호 후보 칼로리와 배당금을 떠 다니면 괜찮습니다 DV로 div를 필터링 한 다음 볼 수있는 데이터가 무엇인지 모르는 것보다 큽니다 내가 무엇을 먼저 했습니까? 이 뉴욕처럼로드는 교환 기호 날짜와 배당금으로 배당금입니다 필터 수명이라고 말할 수 있습니다 포인트 4 팀보다 큰 배당 열 나는 당신이 알고있는 모든 행을 원합니다

따라서 어떤 값보다 큰 열은 어떤 값보다 작은 열보다 작을 수 있습니다 약간의 가치와 나는 D의 덤프를했다 그것은 덤프 이 열이 01보다 큰 모든 레코드를 보여주세요 연산자는 조건 필터를 사용하여 열 값은 이제 뭔가보다 작을 수 있습니다 문자가있는 경우 부동 숫자 등에서 작동합니다

이 예의 예 처음 두 열은 문자 오른쪽 세 번째입니다 날짜는 그대로 두십시오하지만 처음 두 가지는 문자열입니다 열 이름 인 기호로 cm을 필터링하는 필터 점을 말할 수 있습니다 별표는 표현식과 일치하는 것이므로 모든 레코드를 원합니다

기호 열에서 빨간색으로 C로 시작하여 C 또는 C를 덤프했습니다 오 cm ACM 참조 em K 참조 em K 필요한 것은 열을 필터링하는 것입니다 정규 표현식이거나 그보다 작은 것보다 큰 것 필터 연산자입니다 이제 필터 연산자입니다 이 연산자를 그룹화 연산자라고하는 중요한 연산자입니다

큰 경우 매우 매우 중요합니다 운영자가 너무 많습니다 실제로 어쨌든 먼저 그룹화를 살펴 보겠습니다 먼저 데이터를로드하겠습니다 다음과 같이 데이터를로드 할 수도 있습니다

여기서로드를 알고 있다고 말하고 있습니다 ny는 매일 교환 및 재고로 사용됩니다 단 두 열만 사용하고 있습니다 나는 단지 두 개의 열만 사용하므로 두 개의 열만로드합니다 그룹별로 재고를 매일 그룹화하면 그룹화가 그룹화를 보는 매우 일반적인 작업입니다

많은 장소에서 속편 그룹화하지만 그룹화는 매우 다른 방식으로 작동합니다 당신의 피크에 내가 여기에보고있는 것은 내가 이전을 그룹화하고 싶다는 것입니다 내 데이터 인 관계는 실제로 재고 이름을 구입하므로 모든 재고 이름이 함께 올 것입니다 예를 들어 함께 올 것입니다 GRP 덤프에 특정 형식이 있으면 괜찮습니다 그룹화 결과 또는 다른 데이터 세트를 얻을 수 있는지 확인하여 등가 하중이라고 말할 수 있습니다

림픽 또는 림 픽픽 빠른 스토리지 코마를 사용하면 이것이 올림픽 데이터 세트입니다 기본 스키마로로드 할 스키마를 언급하십시오 액세스 0 0 2라고 말하면 B는 그룹 a 2와 같다고 말할 수 있습니다 달러 2 4로 그룹화하므로 달러 2 달러 2가 무엇입니까? 덤프 B를 말할 때 국가를 기준으로 데이터를 그룹화하십시오 점점이게 아마 당신에게 보여주고 싶은 것입니다 당신은 국가 이름을 가지고 있으므로 매우 적은 국가를 보자 실제로 선수를 식별하기가 쉽습니다

그룹화 작업 기록 이것은 하나의 기록이므로 여기에는 두 부분이 있습니다 하나는 국가 인 그룹화 키이므로 국가를보고 있습니다 도미니카 공화국이라는 두 번째 부분은 도미니카 공화국 도미니카 공화국에있는 한 남자가 있습니다 다른 남자가 있습니다 다른 남자가 있습니다

다른 남자가 있습니다 그룹화 할 때 그룹화 결과가 어떻게 발생하는지 내 요점은 작업 결과는 키 값 쌍과 같습니다 키는 그룹화 키입니다 이 경우 내 기록 도미니카 공화국의 국가 가치는 도미니카와 일치하는 모든 기록을 포함하는 가방입니다 트리니다드 토바고와 같은 방식으로 국가 권리와 이것들은 모두 트리니다드 토바고의 가치입니다 가방에서 그룹화 키인 첫 번째 요소 트리니다드 토바고 당신은 트리니다드 토바고에있는 모든 운동 선수가 있으므로 이것은 하나의 기록입니다 트리니다드에서 하나의 콘센트가 있고 다른 하나는 아 틀렛입니다

그래서 내가 할 수있는 것은 각 B에 대한 것입니다 그룹을 생성합니다 이와 같은 것을 말하고 셀 수 있다고합시다 올림픽을 낮춘 다음 BB가이 그룹을 C는 각각의 B가 쉼표를 생성한다고 가정 할 수 있습니다 기본적으로 우리가하는 일은 실제로 데이터 수를 세는 것입니다 덤프 C 그래서이 문장은 우리가 데이터를 잘로드하고 있다는 것을 의미합니다

우리는 주문에 달러로 내 원래 데이터 인 그룹 A를 말했다 C에서 내 국가 열이 각각에 대한 그룹 이름을 생성하므로 국가 이름을 원하고 그렇게 계산하면 내 원본이 될 것입니다 데이터 오른쪽은 모든 레코드를로드하는 곳이므로 기본적으로 이것은 모든 국가 C의 수를 줄 것입니다 뉴질랜드에는 51 개의 기록이 있으며 북한에는 21 명이 있으므로 그룹화는 이 그룹화와 같은 작업을 수행하는 데 매우 유용합니다 교환 및 재고로 매일 NY NY로드 할 수있는 것과 동일한 작업을 수행 할 수 있습니다 즉, 거래소 및 주식 그룹에 매일이라는 관계를로드하고 있음을 의미합니다

재고를 구입하면 각 그룹에 대해 말할 수 있습니다 그룹으로 묶은 다음 매일 계산하여 몇 개가 있는지 계산합니다 우리가 그룹화 연산자를 어떻게 수행할까요? 이 권리를로드하고 날짜별로 매일 주문 할 수 있으므로 이것이 어떻게됩니까? 날짜 열을보고 기본적으로 오름차순으로 정렬합니다 이 결말을 올바르게 말할 수 있으므로 기본적으로 알 수 있습니다 오름차순으로 오세요

알 수있는 여러 열 주문도 가능합니다 원한다면 날짜별로 쉼표 기호로 주문하십시오 쉼표를 열고 닫으면 매일 주문할 수 있습니다 이 닫힌 필드는 내림차순이되고 다른 필드는 오름차순이됩니다 조인 연산자이므로 조인하려는 경우 데이터를 간단히로드 할 수 있습니다

Dave의 부하 교환으로 간단한 날짜로 간단한 날짜로 매일 가입 할 수 있습니다 단일 열 조인 또는 다중 열 조인을 수행 할 수 있습니다 이렇게하면 매일 호출되는 데이터를 먼저로드 한 다음 데이터를 div라고하고 조인을 수행 할 수 있으므로 정상적인 조인이됩니다 원하는 조인 유형에 관계없이 왼쪽 바깥 쪽 오른쪽 바깥 쪽을 수행 할 수도 있습니다 내가 말하면 나는 기호 코미디로 Kumar de Deus 기호로 매일 가입한다고 말하고있다

J와 D는 다중 열 결합 결과 c3을 가져야합니다 조인 연산자를 사용하면 제한을 말할 수 있으므로 여기에 데이터를로드 할 수 있습니다 나는 말할 수있는 한계를 말할 수있는 스키마를 제공하지 않는 데이터를로드한다고 말하고있다 내가 처음 10 개를 버린다면 이제 한계가 10을줍니다 나만 10이므로 제한 한 것은 10이므로 제한 연산자 내가 어떻게 말하는지 보여줄 레코드의 수를 제한 할 것입니다 무작위 선택 당신은 한계를 말할 수 없으므로 한계 연산자는 실제로 단어 카운트가 무엇인지 지금 바로 데이터를 제한합니다

내가 단어 개수 프로그램을 제대로 실행하고 단지 당신이 있는지 확인하는 것입니다 실제로 스크립트를 먼저 살펴볼 단어 수를 알 수 있습니다 스크립트를 실행하고 결과를 얻고 있는지 확인하여 스크립트 이것은 실제로 우리를 위해 단어 수를 수행 할 스크립트입니다 나중에 스크립트를 설명하자면 이제 단어 개수 프로그램을 실행하면됩니다 무슨 일이 일어날 지 봅시다 이것은이 단어 개수를 가진 스크립트입니다

선택하고 내가 주어야 할 것은 파일 이름과 파일을 아는 것입니다 이 파일이 분석되었습니다이 파일은 분석 할 파일입니다 mary 어린 양의 양털은 눈처럼 하얗고 어린 양이 가서이게 당신의 동요입니다 메리에게 단어 수를 계산할 것입니다 내가 분석해야 할 것은 내 스크립트에서 내가 할 일을 스크립트로 열어서 말할거야 이것이 내가로드하고 싶은 것입니다 그리고 나는 이것을 먼저 실행할 것입니다

돼지-X 지역 단어 수 도트 돼지라고하면이 스크립트를 실행하는 방법입니다 난 그냥 Pig가 내 말을 위해 이것을 실행하고 있다고 말할 것입니다 그게 뭔지 보여줘 내가 그냥 들어가서 우리가 볼 수 있는지 예상 결과를 얻었고 단어 개수를 매우 잘 수행 할 수 있습니다 이 스크립트를 사용하면 우리가 가지고있는 4 줄 스크립트이며 실제로 단어 개수는 이제 이것을 Java 프로그램 인 MapReduce와 비교합니까? 단어 수를하고있는 프로그램은 바로 작성하기가 매우 복잡했습니다 이것은 흠이 너무 쉽습니다 이제 알았으니 이제 무엇인지 봅시다

일어날 것입니다 나는 단지 설명하기보다는이 끊기를 설명 할 것입니다 내가 할 일은 스크립트를 방금 실행하면 한 줄씩 실행한다는 것입니다 스크립트 당신은 아무것도 이해하지 못할 것입니다 그래서 내가 뭘하려고 해요 한 줄씩 줄이려면 전분을 처리하겠습니다 스크립트를 분석해 보겠습니다 이것은 내 치마의 첫 번째 줄이며 설명이 필요하지 않다고 생각합니다

내가하고있는 일은 데이터를 단일 열로 단일 필드로로드하는 것입니다 이 전체를 호출하면 네 줄의 데이터를 단일 열 또는 단일 열로 알 수 있습니다 field 내 열의 이름은 줄입니다 내 열의 이름은 줄입니다 단어 수이기 때문에 모든 데이터 유형 또는 기타 언급 당신이 받고있는 데이터가 무엇인지 알지 못합니다

알고 있으므로이 데이터를 줄로로드하므로 line은 열 이름입니다 여기에 줄이 있거나 기본적으로 내가하는 일 이 작업을 수행하므로 각 단어에 대해 단어라는 다른 관계를 만들 것입니다 내 데이터의 모든 라인이 라인을 토큰 화하여 라인이 무엇인지를 의미합니다 line은 열이므로 line은 열을 나타내는 열을 알고 있음을 의미합니다 데이터 토큰 화는 페이지의 함수 또는 연산자로 추출됩니다

모든 단어는 기본적으로 조직이 무엇을합니까? 기본적으로 각 단어에 대해 말할 때 모든 단어에 대해 행을 생성한다는 의미입니다 평평한 토큰 화 된 라인을 생성하면 할 것입니다 모든 줄을 읽고 모든 단어를 추출하고 모든 단어에 대해 행을 형성합니다 기본적으로 모든 개별 단어를 단일 열에 정렬합니다 단어는 내 열 머리글이 될 것이므로 열 머리글처럼 생각하십시오

여기 줄은 원래 데이터의 열 머리글이며 열입니다 내가 단어 덤프를하면 변환 된 데이터의 헤더 덤핑이 끝나면 이것이 당신이 얻는 것입니다 평평한 것을 평평하게 토큰 화하면 모든 단어를 선택합니다 이 열에 정렬하여 이제 내가 원하는 모든 단어를 갖습니다 셀 수 있지만 마리아가 여기 반복되고 있다는 것을 알고 있습니다

첫 번째 행과 다시 Mary가 여기에 있으므로 Mary가 두 번 반복되므로 Mary를 세어 그룹화해야 다음 단계는 내 데이터를 그룹화하여 나는 G RPD가 단어 verts로 그룹 단어라는 것은 내 관계 단어라고 말할 것이다 열 이름이 괜찮습니다 혼란스러워하는 단어가 아닙니다 내 관계 단어는 열 이름 또는 열 머리글이므로 해당 그룹이 열 단어로 단어 지금 쿨롱 단어는 모든 데이터를 가지고이 데이터 데이터는 실제로 단어를 포함하는 열이므로 그룹화를 기억하십시오 돼지의 연산자이기 때문에 이것이 내 데이터라는 것을 알고 있습니다 나는 그룹화를하고 있다는 것을 알고 있습니다

나는 그룹화를하고 있지만 돼지라는 것을 알고 있습니다 개발자가 알아야 할 것은 그룹화 결과가 어떻게 표시되는지입니다 이를 위해 G RPD라는이 관계 덤프를 수행하고 덤프를 수행합니다 이것과 이것이 Mary라는 요소를 보는 것처럼 보입니다 요소 또는 Mary라는이 레코드에는 두 개의 열이 있습니다

첫 번째 열은 그룹화입니다 메리 두 번째 열인 키는 튜플을 포함하는 가방입니다 Mary의 반복이 아닌 커플이므로 먼저 그룹화 키입니다 두 번째는 양고기와 동일한 Mary의 실제 반복 횟수입니다 눈이 떨어져도 딱 한 번만 반복하십시오 그러나 이것은 당신이해야 할 일입니다

내가 지금해야 할 일은 gr gr마다 각 gr PD에 대한 나의 이전 관계는 그룹을 생성합니다 그룹 여기에 그룹이 첫 번째 열이 될 것입니다 단어를 계산 단어가이 칼럼이 될 것입니다 이것을 적용하면 어떤 일이 일어날까요? Mary라는 그룹을 생성 한 다음 Mary의 반복하는 것은 단어가 원래의 관계라는 것을 기억하십시오 단어 열이라는 단어는 열이있는 곳에 여기에는 데이터를 올바르게 알고 있으며 그룹화 한 다음 말하는 것입니다 이 단어들을 세는 것입니다

기본적으로이 마리아가 아는 단어는 실제로 단어의 일부이므로이 단어를 너무 세고 싶습니다 그리고 이것은 그룹이므로 여기를 보면 각 단어를 그룹별로 단어별로 볼 수 있습니다 그룹을 생성하므로 그룹 생성은 그룹화 키를 생성하고 당신이 C와 PD의 덤프를하면 지금 계산 최종 결과가 있으므로 항상 그룹화 결과를 기억하십시오 작업에는 두 부분이 있습니다 한 부분은 그룹화 키이며 두 번째 부분은 이 경우 Mary가 반복되는 요소는 그룹화 키가됩니다

Mary 쉼표 Mary는 결과가 될 것이므로 알아야 할 것은 각각의 성장을 생성 한 다음 그 관계를 계산하여 어떻게 계산합니까? 여러 번 그것이 일어 났으므로 이것이 단어 카운트 프로그램을 작성하는 방법입니다 Pig를 이용한 기상 데이터 분석 실제로 우리가 지금 할 일은 먼저 데이터를 보여 드리도록하겠습니다 우리가 무엇을하는지 설명 할 것입니다 이것은 우리가 할 데이터입니다 분석하고 멋지게 보이지 않습니다

왜 데이터가 좋지 않습니까? 날씨 데이터이므로 날씨 데이터가 무엇을 의미합니까? 이것들은 센서에서 얻는 데이터의 유형입니다 기본적으로 온도 측정 값과 그 이상이 있지만 실제로는 데이터를 보면 현재 온도 측정에 관심이 있습니다 구조가 없다고 생각하지만 구조는 맞지만 당신은 실제로 그것을 coelom 형식으로 넣을 수 없다는 것을 알고 있습니다 당신은 그것이 우리가 무엇인지 매우 재밌는 방식으로 제공되는 방식을 알고 있습니다 이 데이터에서 할 것은 구조화되지 않은 데이터와 비슷합니다

구조화되지 않은 데이터 우리는 돼지를 사용하여 로컬 모드에서 돼지를 시작한 다음 명령을 보면 내가하고있는 첫 번째 일은 파일 이름이 무엇입니까? 그 다음에 우리는 그것이 돼지 점 txt인지 여부를 확인합니다 가장 먼저 할 일은 내가 말할 데이터를로드하는 것입니다 텍스트 로더를 데이터와 칼로리로 사용하여이 데이터를로드하는 것은 기본적으로 하위 문자열 작업을 수행하려고하기 때문에 이것을 칼로리로 선언합니다 하위 문자열 작업을 수행하고 싶습니다 시간이 지남에 따라 칼로리 그래서 내가 할거야 내가 말할거야 각각의 생성 트림에 대해 트림은 돼지에서 사용할 수있는 연산자입니다 기본적으로 트림하고 data 6이라는이 열에서 부분 문자열을 말할 수 있습니다

14 14 38 45 45 46 53 이것은 이것이 무엇을 의미합니까? 기본적으로 추출하고 싶습니다 문자 위치 6 ~ 14이므로 6 ~ 14 0 1 2 3 4 5 6 6 ~ 14는 kateri로로드 했으므로이 데이터가 무엇인지 알 수 있습니다 이게 맞을 것이고 이것은 날짜 열이 될 것입니다 실제로 볼 수있는 날짜는 2013 년 1 월 1 일과 같은 방법으로 추출하는 것입니다 38 ~ 45이지만 최소 온도 46 ~ 53이며 최대 이제 온도가 자연스럽게 나에게 이것이 데이터라는 것을 어떻게 알 수 있습니까? 데이터를 제공하는 사람에게 데이터를 이해하도록 요청해야합니다

내가 추출한 후에는 기본적으로 실제로 이것을 버리고 바보 같은 공기를 어떻게 보았는지 볼 수 있습니다 데이터가 지금처럼 보이므로 이제 데이터가 날짜로 추출됩니다 날짜는 코마 최소 온도 코마 최대 온도이므로 내 데이터에 대해이 형식이 있지만 사용하지 않으려는 것은 아닙니다 내가 지금 할 일이 다르기 때문에이 데이터를 저장하려고합니다 폴더에 데이터를 올바르게 저장하면 폴더가 있는지 여부를 어떻게 알 수 있습니까? LS를 만들면 data 9라는 새 폴더가 있습니다

데이터라는이 폴더에 LS를 사용하면 공원과 파일이 있습니다 이 부분 M 파일에 데이터가 있으므로 기본적으로 폴더에 데이터를 저장했습니다 데이터가 폴더에 저장되면 할 수있는 일은 데이터에 대한 구조 나는 이것이 아마도 데이터 9가 될 것이라고 말할 수있다 pick storage coma를 사용하여 방금 추출한이 데이터를로드합니다 스키마를 생성 할 때 쉼표로 구분하여 날짜를 최대 값으로 지정합니다

이 데이터를 호출하고 관계에로드 이제 s라는이 관계에는 세 개의 열이 있습니다 원시 데이터에서 추출 되었으며이 세 열은 특정 소와 같은 데이터 유형이 두 배로 증가하므로 이제 날짜가 최대가됩니다 온도와 최저 온도 그리고 내가 원한다면 아주 간단하게 할 수있는 일 내가 할 수있는 더운 날을 찾으려면 x는 filter s를 Max만큼 큽니다 어떤 사람들은 이전 관계를 걸러 낸다고 말합니다 최대 25라는 열에 의해 어떤 날이든 가정하고 있습니다 25 이상의 온도를 갖는 것은 더운 날이므로 이제 XI를 덤프하면 내 더운 날 흠 그래서 마지막 열에서 이것 좀 봐 최대 온도가 25보다 높고 최소 0보다 작을 수도 있습니다

추운 날을 실제로 찾아서 x는 filter ss라고 말할 수 있습니다 XI 덤프를하면 min colum에 의한 관계가 0보다 작습니다 이 결과의 두 번째 열을 볼 수 있습니다 모두 0보다 작습니다 바로 기본적으로 그것은 내가 준 조건입니다

당신도 많은 일을 할 수 있습니다 다른 것들의 지금은 통계 자료를 알고 당신을 향해 더 맞습니다 이것은 통계 자료에 더 가깝기 때문에 기본적으로 찾으려면 오늘 가장 인기있는 것은 당신이 그룹을하는 것입니다 그래서 나는 말할 것입니다 그래서 일반적으로 당신은 날짜 열에 의해 그룹을 최소 열에 의해 최대 열이지만 여기에 group s라고 말하거나 매우 특별한 그룹화입니다 내가 여기보고있어 이것이 내가 당신에게 보여주고 싶은 것입니다 일반적으로 그룹 Y라고 말하면 H 1 덤프를하면 결과는 다음과 같습니다

매우 흥미 롭기 때문에 이것이 실제로 그룹 s를 보는 결과입니다 여기에 하나의 결과 만 생성됩니다이 키는 모두 볼 수 있습니다 모든 가치는 당신이 가진 전체 데이터입니다 그래서 당신이 group s라고 말할 때 당신은 모든 것에 의해 성장하도록 요구하고 있습니다 불가능한 것처럼 돼지가하는 일이 핵심 가치를 창출 할 것입니다 그룹화 키의 조합은 모든 수단이 될 것입니다 모든 것과 가치 부분은 관계의 모든 요소가 될 것입니다 이것이 일어나는 일이고 내가하고있는 일은 각각의 h1에 대해 알고 있다고 말하고 있습니다

즉, 각 h1에 대한 이전 관계는 최대 s 최대 값을 최대로 생성하므로 여기에 새 열을 선언하면 이것이 내가 말하는 것입니다 max와 max 함수를 사용하면 괜찮습니다 최대 값을 찾을 수 있으므로이 관계를 덤프하면 II가 표시됩니다 최대 값이 34 점 하나이므로 이것이 내가 가진 최대 값입니다 지금 더운 날을 찾고 있어요 그래서 내가해야 할 일은 필터 ss는 쿨롱과 같은 max에 의한 나의 원래 관계라고 말해야합니다 최대 도트 수 그래서 최대 도트 수 이렇게 기본적으로 최대를 찾는 것입니다 이 34 개의 포인트가 발생하는 레코드를 원하는 데이터 필터링 기본적으로 그렇게한다면 X 덤프를하면 가장 뜨거운 날이 가장 뜨거운 날입니다 2013 년 6 월 12 일 어쩌면 그것은 조금입니다 이해하기가 복잡하지만 먼저 이해해야 할 것 같습니다

내가 모든 H에 대해 말하는 모든 것에 의해 그룹 s는 당신이 알고있는 최대를 생성하지 않을 것입니다 max를 최대 hmm으로 점으로 지정하면 최대 값을 얻을 수 있습니다 s by max는 i dot maximum과 같으므로 가능한 한 같은 방식으로 만 표시됩니다 당신이 할 수있는 것과 같은 가장 추운 날을 찾아 무선 하루도 찾아보세요 쿨롱의 최대를 말한 다음 할 수 있습니다

여기 필터링 또한이 그룹을 보여주고 싶었습니다 이 방법을 그대로 유지하면이 대신에 당신이 알고있는 각각의 최대 쿨롱에서 최대를 생성하고 내가 그것을 필터링 s 최대 값은 실제로 s 최대 값을 의미합니다 관계 당신은 관계에서 최대 열을 알고 최대 열 그래서 여기서 우리가하고있는 유일한 일은 group s 또는 결과입니다 그룹화 키에서 모두가되고 값은 모든 것이됩니다 당신은 당신이 알고있는 s s는 당신의 기본 데이터이며, 나는 각각의 H에 대해 말하고 있습니다

최대 최대 생성은 내 연산자입니다 s 최대 최대 도트는 최대 열입니다 최대 바로 그때 나는 최대의 필터가 i 도트 최대와 같다고 말하고있다 바로 이것이 내가 쓴 방식이므로 조금 시도해 볼 것을 제안합니다 또한 다른 방법으로 결과를 얻는 방법을 참조하십시오 빅 데이터 하둡으로 인증 받기를 원한다면 빠른 정보를 얻으십시오 architect intellibid는 Big Data Hadoop에 대한 전체 과정을 제공합니다

전문가가 사용하는 모든 주요 구성 요소 및 도구 자세한 내용은 설명에 언급 된 링크를 참조하십시오 질문이 있으시면 세션이 끝납니다 의견 섹션에서 아래에 의견을 보내 주시면 최대한 빨리 연락 드리겠습니다 채널을 구독하는 것을 잊지 마십시오 다가오는 비디오를 놓치지 않고 시청 해 주셔서 감사합니다

Hadoop Tutorial For Beginners | Big Data Hadoop | Apache Hadoop | Intellipaat

안녕 얘들 아, Intellipaat에 다시 오신 것을 환영합니다 오늘 세션에서 우리는 Hadoop은 무엇입니까? 하지만 실제로 우리가 다른 의문

Hadoop이 실제로 엔터프라이즈에있는 이유는 무엇입니까? 먼저 예제를 통해이 질문에 답한 다음 하둡 그러니 아주 작은 이야기부터 시작해 보겠습니다 그래서 나는 Jeff Mezos,이 전자 상거래 사이트의 CEO 인 Mamazon입니다 기술 친구들 오늘날 우리 조직은 다음과 같이 보입니다

우리는 전자 상거래 사이트를 보유하고 있으며 오라클에서 운영됩니다 우리는 인벤토리를 가지고있다 My SQL에서 실행됩니다 그래서 인생은 여기에서 매우 쉽습니다 모든것은 굉장해

그래서 지금 질문에 답하고 싶다면 예를 들어, 얼마나 많은 아이폰이 다음 달에 주문해야합니까? 아주 간단한 것들 이제는 일반적인 방법으로 일을하는 것은 모든 데이터를 데이터웨어 하우스에로드하는 것입니다 의 말을하자, 테라 데이터를 사용하면 기본적으로보고를 수행합니다 그래서 여기에 도구가 있습니다

tableau 및 QlikView와 유사합니다 따라서 모든 데이터가 생성되고로드됩니다 창고와 생활은 매우 간단합니다 그러나 이것은 하나의 문제입니다 그래서 진짜 문제 이 전체 설정에서 이것은 2000 년을 말할 때까지 잘 작동했을 것입니다

오늘날, 우리는 지금 2018 년에 있으며 질문은 그렇지 않습니다 우리가있는 데이터의 양이 보고있는 것은 매우 거대합니다 그럼 간단한 예를 들어 봅시다 이제 내가 가면 질문을 바꾸고 얼마나 많은 고객이 iPhone을 구입했는지, 좋아하는지 배달이 싫어 그러나 우리와 이야기하는 대신, 그들은 분노했습니다

지저귀다 이제 우선, 소스와 같은 데이터가 트위터 및 센서, 네트워크 로그 및 클라우드와 같은 기타 출처 그래서 이건 생성되는 데이터는 실제로 매우 크고 귀하의 데이터에 적합하지 않습니다 전통적인 데이터베이스 시스템은 괜찮습니다 그래서 마이클은 여기에 질문을합니다 그는 Big Data에 대해 이야기하고 계십니까? 네, 마이클, 당신은 절대적으로 옳습니다

그래서 이 모든 엄청난 양의 데이터가 서로 다른 출처에서 나옵니다 다른 형식은 귀하의 큰 데이터 일 뿐이며 새로운 것을 필요로합니다 이 큰 데이터를 저장하고 처리합니다 그래서 우리가 데려 오기로 결정했습니다 다른 시스템 및 시스템은 Hadoop이라고합니다

이제 Hadoop을 매우 거대한 데이터웨어 하우스로서의 매우 조잡한 원유 방식 따라서 데이터를 가져올 수 있습니다 어디서나 쉽게 단일 마스터를 호스트 할 수 있으며 이론적으로 수십 개의 수천 개의 노드 또한 두 가지 서비스 저장 및 프로세스를 제공합니다 그래서이 남자, 전통적인 데이터베이스 및 기타 소스에서도 데이터를 가져올 수 있습니다

이제이 녀석, 데이터를 저장하고 데이터를 처리 할 수 ​​있습니다 하둡을 누군가로 생각하십시오 일반적으로 많은 데이터를 저장하고 처리하기 위해웨어 하우스를 보완합니다 이제 최종 처리가 완료된 후에도 데이터를 저장하고 처리 한 후 그 마지막 물건을 창고에 넣을 수 있습니다 분석 도구를 사용하면보고 도구에 직접 연결할 수 있습니다

가능한 사람들도 그래서 당신의 패턴에 따라, 당신은 당신이 정말로 무엇을 선택할 수 있습니다 하고 싶다 이것이 Hadoop의 배경입니다 그래서 모든 데이터를 한 곳에서 처리하고 나면 무엇이든간에 창고에 실을 수 있습니다

또는 직접보고 도구에 연결할 수 있으며 다른 도구가 있습니다 예를 들어, 이것을 오라클에 다시로드하면 추천이됩니다 엔진 이런 식으로 생각하십시오 데이터를 얻은 모든 출처에서 우리는 아이폰을 사는 사람들의 85 %가 스크린 가드와 81 %의 사람들을 샀다고 배웁니다

아이폰을 사면 뒷 표지도 샀다 이제 우리가 이것을 한 번 배우면 하둡, 우리는 이것을 오라클에 다시로드 할 수 있으며 다음 고객이 전자 상거래 사이트에서는 항상 iPhone을 구입 한 사람들에게 스크린 가드와 뒤 표지를 샀다 따라서 Hadoop을 매우 큰 데이터 저장소로 생각하십시오 데이터를 저장하고 데이터를 처리 한 다음 원하는 방식으로 사용할 수 있습니다 여러분, 하둡이 무엇인지에 대해 모든 사람들이 분명히 희망하기를 바랍니다

그럼 나에게 빨리 줄래 내가 앞으로 나아갈 수있는 확인 좋아 램은 그가 분명해서 앤이라는 것을 확인했다 좋아, 모두들 좋아하는 것 같아 그래서 이제 Hadoop의 스토리지 및 프로세싱 부분을 이해하게 될 것입니다

하지만 대신 작은 이름을 쓰면 어떻게 될까? 왜냐하면 우리는 완전히 이해할 것이기 때문입니다 그래서 Kailash의 CEO 인 타마 컨설팅 서비스와 회사의 입지는 150 세 이상입니다 전세계의 국가와 사람들이이 회사를 좋아합니다 어제는 회사의 Facebook 페이지에 10 억 개의 좋아하는 항목이 있으므로 이제 CEO가 거대한 대시 보드 지구 전체를 볼 수 있고 각 국가를 가리킬 수 있습니다

그 나라에서 얼마나 많은 사람들이 좋아하는지 표시합니다 이제이 작업은 프로젝트 관리자 인 Ajay에게 배정 받았고 대시 보드는 4 일 만에 만들었습니다 이제 Ajay가 이것을 위해 Hadoop을 사용한다고 가정 해 봅시다 그의 팀에는 두 명의 멤버가 있습니다 미스터 관리 및 미스터 개발자, 지금 Ajay Admin 씨, Hadoop 클러스터를 설정하고 Mr

개발자는 전체 대시 보드를 개발해야합니다 그럼 무엇을 보자 지금 당장 일어난다 첫 번째 관리자가 들어 오면 5 대의 컴퓨터를 구입하고 하나는 주인이고 4 명은 노예가 될 것이라고 결정한다 그래서 Mr

관리자가 일하기 시작했으며 그는 5 노드 클러스터를 하나 설치했습니다 마스터 및 4- 노드 슬레이브 및 Hadoop은 모두 스토리지 및 처리에 관한 것입니다 곧 주인, 그는 저장 주인이라고 불리는 누군가를 설치하고 주인에 다시, 그는 처리 마스터를 설치합니다 이제 노예에서 그는 스토리지 노예와 처리하는 노예 그래서 그는 모든 노예를 위해 이것을합니다

이제 관리자는 Jeff에게 "Boss 설정이 완료되면 데이터를 수집하고 프로그램을 작성하십시오 "이제 Ajay는 개발자 님, 개발자가 진행하고 데이터를로드하고 코드 그래서 개발자는 페이스 북이 JSON으로 파일 크기는 약 640MB입니다 그래서 그는 스토리지 마스터에게 글을 쓸 때 파일은 실제로 128MB 블록으로 분류됩니다 따라서 640을 128로 나누면 5 개의 블록을 의미하고 각 블록은 복제됩니다

세 번, 그래서 그것을 15 블록 괜찮아요 그래서 Deepak의 질문이 있습니다 그는 "블록이 3 번 복제 된 이유는 무엇입니까?"라고 묻습니다 좋은 질문입니다 그래서 우리는 실제로 Hadoop의 내결함성 개념이 있습니다

지금도 원본 블로그가 손상되면 해당 블록을 두 개 더 복사 할 수 있습니다 데이터를 검색하면 이것이 Hadoop을 매우 신뢰할 수있게합니다 그래서 그것은 당신의 대답입니다 질문 디팍 좋습니다, 그래서 디팍은 좋습니다

이제이 15 블록의 원본 파일은 다른 슬레이브 노드에 분산됩니다 그래서 네 이 블로그 중 첫 번째 슬레이브에 저장되고, 네 번째 슬레이브에 네 개가 저장됩니다 세 번째 노예, 둘째 셋, 셋째 노예 이제 데이터가 준비되었습니다 그것 이미 블록으로 나뉘어져 있지만 스토리지 마스터의 경우에는 메타 데이터 만 갖게됩니다

따라서 메타 데이터는 다음과 같습니다 지금 FacebookJSON은 블록 1,2,3,4 & 5와 블록 1입니다 슬레이브 1,2 & 3에 존재합니다 블록 2는 슬레이브 2에 있습니다

3과 4 등이 메타 데이터에 저장됩니다 그래서 거기 마스터가 저장 전용이기 때문에 스토리지 마스터에 아무런 문제가 없습니다 메타 데이터 및 전체 데이터가 아닙니다 이제 그 기억이 전혀 아니다 발행물

따라서 파일의 크기에 관계없이 이름 노드의 메모리를 사용합니다 메타 데이터에 대해서만 원래 데이터가 실제로 슬레이브에 기록됩니다 지금 여러분에게 간단한 예를 들어 보겠습니다 그래서 우리가 말하자면, 그의 팀에 4 명이있는 프로젝트 매니저 이제는 프로젝트 매니저가 알고 있습니다

사람들이하는 일은 무엇이지만 모든 일은 실제로 노예가합니다 그래서 매니저가 여기 병목 현상이 아니며 그의 매니저도 아닙니다 어떤 데이터가 어디에 저장되어 있는지를 알 수있는 용량 그래서 관리자는 아무 것도하지 않습니다 그는 메타 데이터 만 가지고 있습니다

좋아, 이제 데이터가있는 곳 저장된 개발자는 데이터를 가져 왔으며 그것을 저장 영역에 썼고 모든 데이터가 퍼져 나갔다 그래서 이제 개발자는 앞서 가서 프로그램을 쓴다 국가 별 좋아요 수를 찾으려면 프로그램 이름이 자바 프로그램 이제이 Java 프로그램이 제출되므로 처리 마스터 모든 컴퓨터에이 코드를 복사합니다 이제 마스터는 기본적으로 그렇게 말할 것입니다

네 노예 한 명을 처리하고 두 명을 차단하라 당신에게 국부적 인 슬레이브 2, 블록 3을 로컬로 처리합니다 당신 노예 3 개, 당신은 네 블록과 네 노예 네 블록을 처리합니다

당신에게 국부적 인 프로세스 블록 5 따라서 비즈니스를 로컬로 수행하고 네트워크에 말하면 작업이 완료되어야하며 최종 결과를 얻습니다 출력을보고 도구에 직접 표시하거나로드 할 수 있습니다 창고를 만들고 그것을 수행하고 X를 맨 위에 놓습니다 Hadoop이 실제로 작동하는 방식입니다

얘들 아 그래서 이것은 당신을위한 하둡입니다 이제 신속하게 프로세스 이름 지금까지 Hadoop은 두 가지 서비스 스토리지 및 처리 따라서 스토리지를 제공하는 팀을 HD FS라고하며 팀 이것은 당신이 처리 할 수있게 해주는 것이 마스터이기 때문에 다시 생산합니다

슬레이브가 마스터가되고 HDFS가 이름 노드로 호출되고 슬레이브가 나를 호출됩니다 슬리브를 MapReduce의 데이터 노드라고하며 마스터는 작업이라고합니다 트래커와 슬리브를 tasktracker라고 부르며 저장 용으로 이름이 있습니다 노드 및 마스터 노드로 구성되며 처리시에는 작업 추적기 및 tasktracker 간단한 물건은 인생이 여기에 아주 아주 쉽지 않은가? 이 특별한 셋업은 당신이 쓸 수있는 한 가지 심각한 제한이있었습니다 당신이 그것을 좋아하든 싫어하든 관계없이 MapReduce의 프로그램 당신은 오직 MapReduce 나 다른 프로그램에서 쓸 수있는 프로그램을 작성할 수 있습니다 MapReduce하지만 다른 것을 가질 수는 없으므로 간단한 예를 들어 봅시다

내가 제대로 된 남자 같은 평신도라는 것을 보자 이제 내 남자 중에 문제가있다 아이폰 나쁜 트리 그래서 난 그냥 새로운 나쁜 살 수있는 나무와 내 아이폰에 넣어 그래서 정상적인 사람이 가게에 걸어 구매 분명히 옳지 않은 아이폰에 대한 나쁜 트리는 애플이 말하기 때문이다 당신이 내 휴대폰을 사용하고 싶다면 내 배터리 만 사용해야합니다 그것을 좋아하거나 그것을 좋아하지 않는다면 당신은 나쁜 나무를 살 수 없다

그녀는 Hadoop을 사용하기를 원한다면 전화도 매우 유사합니다 Hadoop은 친구라고 할 것입니다 그것을 사용하되 당신 자신과 MapReduce를 표현해야한다 왜냐하면 그것이 Hadoop one point X라고 불리는 이유지만, 정말로 원했던 것은 더 좋은 무엇인가이었습니다 그래서 우리는 다른 버전의 Hadoop에 스토리지가 있었지만 MapReduce 대신 새로운 구성 요소가있었습니다

충돌은 자원 관리자 및 노드 관리자 이외의 것입니다 지금 원사는 어디서나 할 수있는 자원을 줄 것이라고 말하는 곳에서 MapReduce Blanca는 Hadoop의 한 점 X에서 그렇게 중요하지 않습니다 MapReduce가 Hadoop에서 MapReduce를 가리키는 유일한 방법이었습니다 그것들을 되풀이하여 하둡 하나에 집중하십시오 point x ma는 Hadoop의 유일한 두 점을 줄입니다

X MapReduce는 방법 중 하나입니다 이제이 코스는 모두 약 2 포인트 X이고 우리는 논의하지 않을 것입니다 한 점 X와 내가 한 점 IX를 설명한 이유는 나쁜 건강을 설명하는 좋은 건강을 설명 할 수 있을까요? 내가 XI를 가리켜 야한다고 설명해야한다면 매우 힘들 수 있습니다 당신에게 한 점 X와 거기에 대한 심각한 한계를 보여줍니다 2 점 X를 가져와 두 점 X는 기본적으로 일반적인 자원 관리자입니다

리소스가 필요한 모든 사람들이 와서 리소스를 제공 할 것입니다 당신은 일을 할 수 있습니다 그래서 X를 가리키는 방법이 실제로 작동합니다 그래서 보도록하겠습니다 Hadoop의 프로세싱 파워에서 X를 가리키고 여기에 V를 master 리소스 관리자라고도하는 우리는 잠자기에서 전자를 가지고 있으므로 내 저장 계층 여전히 DITA를 쓰는 것과 거의 같습니다

처리하지만 내가 일하는 마스터에 내 직업을 제출하면 Yancy의 헤이 남자 나는 잘 모른다 MapReduce를 실행하는 방법은 없지만 할 수있는 자프 마스터라고 불리는 사람을 알고 있습니다 MapReduce for me 그래서 저는 리소스 관리자입니다 사람들에게 자원 처리하는 법을 모르지만 다른 사람을 안다 Zap Master라고 불리는 그는 그 일을 할거야

그래서 지금은이 앱 마스터가 이제 잠을 자면 앱 마스터를 초기화 할 것입니다 근본적으로 책임있는 일을하는 과정 그 일을 위해 앱 마스터 야 그래서 얀 마스터가 헤이 앱 마스터를 본다 나는 새로운 것을 가지고있다 당신을 위해 일하는 것은 어때? 잘 Gouri 3 월 2 NC 보스 만약 당신이 나를 위해 일을하고 싶지 Logged 나에게 다음과 같은 것들을 주시길

그러니 슬론에 대한 두 가지 자원을 하나의 자원으로 주 옵소서 슬레이브에서 하나의 리소스로 슬립 3에서 하나의 리소스 슬레이브에 왜 데이터 지역이 중요하기 때문에 연의 마스터는 괜찮습니다 자원과 그 주인은 앞으로 나아갈 수 있고 아이디어를 도처에 발사 할 수 있습니다 여기 연의 마스터는 자원을 제공하는 직업을 수행하지 않습니다 당신을위한 얀이 전체 세부 사항에 관한 한 가지 더 있습니다

한 지점에서 X MapReduce가 X MapReduce를 가리키는 유일한 방법입니다 그렇다면 왜 2 포인트 X를해야할까요? 그 사람들처럼 단순한 삶을 나는 아주 간단한 예를 들어 줄 것입니다 회사는 발 팬더라고 불렀습니다 음식 팬더는 발 배달을하는 회사입니다 피자 헛을 부르면 이제는 소변을 볼 수 있습니다

하지만 발 팬더를 부르면 다른 어떤 포효 소리도들을 수 있습니다 그래서 원사를 발 연못으로 생각하는 걸 어떻게 보는지 나는 발을 들지 않지만 나는 사람들에게 음식 서비스를 제공하여 언제든지 주문할 수 있습니다 그들은이 설명을 통해 하둡의 전체 풍경과 건축 작업 관점이 세션에 참석해 주셔서 감사합니다 얘들 아 다음 수업에서 만나 줘서 고마워 영화 감상은 아래에 의견이 있으면 의견을 나누고 공유 하시겠습니까? 그리고 우리는 가능한 한 빨리 그들에게 반응 할 것입니다 또한 intel bat에 가입하십시오 채널을 통해 최신 기술을 지속적으로 업데이트 할 수 있습니다

다른 관련 동영상과 재생 목록을 통해 자세한 정보를 얻을 수도 있습니다 지속적인 웹 사이트 방문

Hadoop Tutorial For Beginners | Apache Hadoop Tutorial | Hadoop Introduction | Intellipaat

따라서 Hadoop은 프레임 워크입니다 우리는이 모듈에서 Hadoop과 Hadoop의 다른 구성 요소를 이해할 것입니다

그런 다음 HDFS라고하는 첫 번째 중요한 구성 요소로 이동합니다 또는 Hadoop 분산 파일 시스템 따라서 Hadoop은 다음을 구성하는 프레임 워크입니다 여러 도구와 객체가 합쳐져서 Hadoop이됩니다 생태계

이제 이들은 Hadoop의 중요한 구성 요소 중 일부입니다 나는 이것이 모든 구성 요소라는 말은 아닙니다 따라서 전체 프레임 워크로 구성된 Hadoop의 다양한 구성 요소가 있습니다 그 중에서 중요한 핵심 구성 요소가 있습니다 그들 없이는 우리가 실행할 수없는 구성 요소없이 Hadoop 시스템

핵심 구성 요소에 대해 말하면 기본적으로 HDFS입니다 Map Reduce 및 Yarn 이를 통해 시스템에 데이터를 저장하고 처리 할 수 ​​있습니다 Hadoop은 기본적으로 클러스터입니다 우리는 현실 세계에서 클러스터를 정의 할 것입니다

여기서 우리는 여러 노드에 데이터를 저장할 것입니다 그래서 클러스터는 단지 하나의 그룹에 지나지 않습니다 의 기계 단일 노드 클러스터는 아니지만 함께 작동하는 시스템 그룹입니다 거대한 저장이 불가능하기 때문에 데이터를 저장하고 처리 할 수 ​​있습니다

단일 노드의 데이터 양 그래서 대체 무엇입니까 가장 좋은 대안은 데이터를 여러 노드로 나누어서 데이터를 HDFS에 저장하는 방법을 확인하십시오 저장 레이아웃으로 스토리지 레이아웃에 데이터를 저장하는 방법

그래서 그 목적을 위해 HDFS를 사용합니다 주로 HDFS가 그 이유입니다 데이터를 저장하고 모두 HDFS에 데이터를 저장합니다 플랫 파일 시스템으로 사용하기 때문에 파일 시스템과 유사합니다 linux 파일 시스템으로 특정 폴더를 계층 구조 형식으로 정의하고 해당 폴더 안에 파일을 저장하십시오

오늘 우리는 HDFS에 대해 배우게 될 것입니다 HDFS에서 데이터를 읽고 쓰는 방법 어떤 금액을 저장할 수 있도록 HDFS에 데이터를 저장하는 방법 우리의 Hadoop 클러스터에있는 데이터의 HDFS 위에, 우리는 원사라는 메커니즘을 가지고 있습니다 원사는 기본적으로이 도표에 표시되지 않습니다 그래서 HDFS, 이것은 기본적으로 2

X 용 apache hadoop 생태계가 말할 수있는 것입니다 이전 다이어그램은 이전 버전의 Hadoop과 더 관련이 있습니다 그래서 현재, 우리는 HDFS를 저장 계층으로보고 있습니다 아래쪽 레이어는 HDFS입니다 데이터

그런 다음 Yarn이라는 또 다른 프레임 워크가 있습니다 자, 원 사는 프레임 워크입니다 사용할 수있는 데이터에 대한 데이터를 처리 할 수 ​​있습니다 HDFS의 여러 노드에있는 다른 노드 그래서 말뚝으로, 나는 하나의 단일 서버에 전체 더미

제가 말씀 드렸다시피, HDFS는 기계 나는 하나의 노드에 전체 데이터 나 파일을 보관하지 않고 배포 할 것입니다 여러 노드에서 내 데이터 예를 들어, 1000 개의 프로필 레코드가있는 경우, 그 4 서버에 1000 기록 어떤면에서는 250 개의 레코드를 넣을 수 있습니다

각각은 각 데이터 노드 또는 각 데이터 서버에 있습니다 그래서 나는 내 데이터와 그 이유를 배포 할 것이다 나는 각 데이터 블록에서 프로세스를 실행할 수 있기 때문에 데이터를 배포하고 있는데, 이 데이터의이 조각의 각 블록에 병렬로 간단한 질문을하면, 원한다면 프로세스 (1000)는 순차적으로 그리고 모든 4 블록의 모든 4 블록 레코드는 평행으로 각각 250 개씩 있습니다 어떤 데이터를 할 수 있습니까? 프로세스가 훨씬 빨라 집니까? 4 개의 블록 데이터 또는 1000 개의 단일 블록 데이터를 기록합니다 이 네 개의 데이터 블록은 우리는 각 블록을 병렬로 처리 할 수 ​​있습니다

따라서 전체 데이터를 4 개의 블록으로 나누고 나는이 네 가지 블록에서 같은 과정을 진행하고있다 간단한 비유는 내가 너에게 100 임무를 부여한다면 사람은 일을 끝내기 위해 거의 백일이 걸릴 것입니다 하지만 그 일을 10 명의 사람들로 나눌 수 있다면, 나는 대략적으로 일을 끝낼 수 있습니다 10 일에서 12 일 동일한 논리가 여기에 적용됩니다

우리는 처리 시간을 훨씬 빠르게 달성하기 위해 데이터를 나누어서 내 데이터를 처리하는 데 걸리는 시간 그래서 우리는 Hadoop에서 어떤 양의 데이터라도 저장할 수 있다고 말합니다 데이터를 처리하는 데 걸리는 시간을 줄일 수 있습니다 모든 데이터를 여러 블록으로 병렬 처리 할 수있는 방법 그래서 계획 메커니즘 및 처리 메커니즘은 원사에서 처리합니다 털실은 분산이다 프로세싱 프레임 워크의 방식 map과 같은 다른 도구에서 작성하는 쿼리가 무엇이든간에, 돼지, 그 모든 메커니즘은 데이터를 처리하기 위해 원사의 도움을 필요로합니다

원사는 우리의 데이터를 처리하고 일을 마무리하는 촉진자입니다 이제 여러 도구에서 작성해야하는 쿼리 그래서 map reduce에 코드를 작성할 수 있습니다 코어 자바에서 또는 하이브를 쿼리 도구로 사용할 수 있습니다 돼지를 스크립팅 언어로 사용할 수 있습니다

우리는 쓸 수있다 스파크, 떼기와 같은 여러 가지 다른 형식의 코드 그들의 hadoop 스크립트에서 사용할 수있는 다양한 도구입니다 우리는 하나의 언어로만 코드를 작성할 수있는 그러한 단일 메커니즘에 제한되지 않습니다 사라는 우리가 자바였던 한 언어에만 의존했던 시대입니다 이제 Hadoop에서 사용할 수있는 도구와 옵션이 너무 많습니다

우리가 익숙한 언어 예를 들어 파이썬으로 코드를 작성하고자한다면 파이썬으로 코드를 작성할 수도 있습니다 자바, Python 모든 언어를 코딩 언어로 지정하고 모든 코딩 언어는 Hadoop에 쉽게 적용 할 수 있습니다 코드를 작성하고 코드와 나머지 코드를 실행하기 만하면됩니다 Hadoop 프레임 워크 자체가 관리합니다

그것은 정상적으로 하이브, SQL로 코드를 작성할 수 있습니다 따라서 데이터는 플랫 파일 시스템에 저장됩니다 그러나 구조화 된 방식으로 쿼리를 작성할 수 있습니다 그래서 하이브를 사용하여 쿼리를 작성할 수있었습니다 구조화 된 방식으로 구조화되지 않은 데이터에 적용됩니다

또한 우리는 당신의 SQL 쿼리를 깨뜨릴 수있는 매우 중요한 도구 인 Pig를 가지고 있습니다 매우 작은 단계로 SQL 쿼리의 개별 단계 매우 정상적인 데이터 흐름 형식으로 데이터를 처리하는 방법을 이해할 수 있습니다 그래서 돼지, 하이브는 우리가 데이터를 쉽게 처리 할 수있는 곳에서 배워야 할 중요한 도구입니다 또한 로컬 시스템과 HDFS에서도 작동합니다 큰 일을하고 더 많은 일을하십시오

또한 로컬 파일 시스템에 입찰 할 수 있으므로 논리를 테스트 할 수 있습니다 작은 데이터 세트 중 일부는 사용자가 가기 전에 나타납니다 노력은 무엇입니까 데이터는 오픈 소스와 함께 모여 있습니다 내가 그렇게하지 않으면 그들은 거기에서 무엇을하고 있는지

그것으로 구멍을 파는 것은 기존의 소금입니다 그러고 나서 자신의 패키지를 얻습니다 그렇다면 관련 장소에서 통합 솔루션으로 루프를 찾을 수있는 패키지가 될 수 있습니다 다른 하나와 나는 당신과 같은 모든 회사를 사용하기 위해 돌아왔다

많이 IBM은 다른 회사입니다 그는 자신의 제품과 통합되어 공장으로 만들었습니다 공을 했어 나를 멈춰 줘

나는 당신이 모든 시스템을 통합하고 그들이 통신하고있는 곳에서 페이팔을 만들었습니까? 서로에게 그래서 나는 또한 마이클 회사들이 자사 제품을 통합하기 위해 사용 해왔다 완전한 패키지로 끝낸다 그들이 노조에 주어 졌던 것뿐만 아니라 접혀진 패키지로 작업했을뿐만 아니라 수면에 그리고 나서 우리는 우리가 사는 다른 음식을 걷고 있습니다

내 큰 입은 기계 학습 응용 프로그램입니다 다른 인공 지능 브랜드를 얻을 수있는 시스템 나는 사람들을 내 농산물에 사로 잡았습니다 우리는 그것을 바꿀 수 있습니다 우리는 그것을 빨리 할 수 ​​있습니다 또는 기계 학습 응용 프로그램에있는 양을 피드백 할 수 있습니다

그래서 우리는 몇 가지 예측 분석을 사용할 수 있고 다른 클러스터링을 할 수 있습니다 기술은 우리와 다르게 할 수 있지만 입으로는 삶으로 움직일 수 있습니다 그게 정치적으로 큰 일이라 할지라도 그들이 할 수있는 일이기 때문에 그 일을해야합니다 우리는 너무 많이 읽을 수 있습니다 또한 감사 서비스를 사용할 수 있으며 일부는 그렇게 할 수 있습니다

자동 기능은 일반적으로 데이터 집합에 기본은 그 간단한 데이터베이스 중 하나입니다 또는 하단 섹션에서 우리는 N 평등 테이블로 그것에 대해 이야기 할 것입니다 테이블은 아무것도 아니지만 우리가 하나의 테이블에 모든 데이터를 유지하는 우화를 보여줍니다 당신이 처리 할 수있게하고 니콜 유물을 평상시보다 훨씬 빨리 알아 데이터베이스 시스템 데이터베이스 및 마찬가지로 다른 적은 테이블이 웹 애플리케이션에서 널리 사용되고있다 읽어

우리는 비 국방 주식을 많이 필요로합니다 예를 들어, Amazon 또는 다른 응용 프로그램에 들어간 사례를 예로들 수 있습니다 고객의 바이오스를 다시 한번 정보를 찾는 사람들을 만날 수 있습니다 애플리케이션에서 정보를 매우 빨리 얻어야하므로 사용할 수 있습니다 이러한 데이터베이스를 저장하고 우리는 매우 빨리 그 정보를 추출 할 수 있습니다 정상적인 데이터베이스

그것의 기반 외에도 우리는 한 쌍의 데이터 풀을 가지고 있습니다 이것은 증명 되었기 때문에 다른 데이터베이스의 모든 물건 데이터를 내 사무실로 가져올 수 있습니다 예를 들어 내가 좋은 품질의 데이터베이스에서 무엇을 가져올 지 알고 싶다면 다른 메커니즘을 주문할 수 있습니까? 나는 그것을 줄 수있는 사람들이 쉽게 데이터를 수정할 수 있습니다 그리고 다른 데이터베이스에 들어가기 만하면 그 날을 가져올 수 있습니다 생각 해봐

이 비디오를 얻으십시오 영화는 디아블로 시스템의 대상에 관한 좋은 책이며 하나의 스트리밍 날짜입니다 우리는 그 데이터를 매우 쉽게 수정할 수 있습니다 어쩌구 저쩌구 그 다음 우리는 그것을 처리 할 수 ​​있습니다 그래서 한 가지는 분명합니다

내가 열 필요가 있거나 그 모든 데이터를 고칠 필요가있을 때마다 나는 그것을한다 데이터를 처리 할 수 ​​없기 때문에 데이터를 처리하는 날짜와 우리가 사용하기에 앞서 모든 노드를 끄는 것이 허용되는 재미있는 사육사입니다 내 환경 그래서 모든 노드 사람들이 시스템을 원활하게 잠그기 위해 데이터를 수집하는 방법

그러나 그것은 가난한 봉사를 위해 싸운 사람들이 논쟁 중입니다 나는 중산층이다 우린 좋은 친구 야 그래서 모든 추론과 관리는 누군가에 의해 이루어집니다 나는 당신이 관리 할 수있는 것을 인정했다

세상에 더 많이 추가 할 수 있습니다 시스템의 노드 아래에있을 수 있습니다 그리고 당신은 할 수있는 일에 대해 약간의 변화를 줄 수있는 한 가지 모습이 있습니다 신체 아주 쉽게

그래서 이것은 큰 루프 시스템이고 우리 파티는 기본적으로 제품입니다 그 회사에 모회사인데 내가 다른 사무실과 모든 오픈 소스지만 나는이 모든 회사를하지 않습니다 자살 폭탄 테러로이 모든 오픈 소스 제품들이 하나의 패키지를 작성한 다음 제공하십시오 그래서이 두 가지 패키지 모두에 직접 또는 두 가지 방법으로 설치하는 두 가지 방법이 있습니다 하느님 감사합니다 전화 배급 회사는 다시 적재까지 적극적으로 사용할 수 있습니다 시스템 밖으로 또는 밖으로 그리고 우리는 우리가 할 수 있도록 길고 피 묻은 차이가있을 것입니다 적자와 왜 시간을 마주 치기 위해 IP 비즈니스에 참여하십시오

그래서 뭐야 그래서 내가 할 수있는 것은 모든 것을 가져올 수 있습니다 나는 직접적으로 수비를 했는가 아니면 내 지퍼를 돌릴 수 있었는가? 그래서 그것은 무엇입니까 가져 오기 내보내기는 데이터베이스에만 사용되며 다른 용도로는 사용되지 않습니다 윤활유를 사용하지 않고 모델을 선택하려면 하나만 있습니다

당신이 고칠 생각을 길들인 사람은 먹을 수있는 음식을 사 먹는다 귀하의 시스템은 모두 청취자 데이터베이스 관리 시스템에 속하지만 기록됩니다 귀하의 데이터베이스에서 그들은 서로 큰 비즈니스 플랫폼 플랫폼 나는 적어도 데이터베이스 관리 시스템이 없다는 생각이 들지 않으면 다윈 언어를 볼 수있다 또는 어쩌면 다른 언어로 죽을 수도 있습니다 주요 우선 순위

안경을 읽을 수 있고 직장에 갈 수 있습니다 그런 다음 가져올 수 있습니다 너는 그들에게 간다 내 말은 네가 그걸 네게 줄 수 있다는 뜻이야 당신이 일할 수있는 사람들에 의한 창

그래서 당신은 당신이 주문했을 때 파이썬을 사용할 수있는 방법으로 하나님 께 확장 할 필요가 있습니다 다른 기술 우리는 Ondo에 살기 때문에이 시간 내에이 시간 내에 수정할 수 있습니다 그 모든 데이터가 그것을합니다 스포크를 사용하여 이것을 얻으십시오

음,하지만 그건 데이터에 나쁜 영향을 미칠 것입니다 여러분이 IBM과 플랫폼으로 협력하고 있고 가장 좋은 친구를 원한다면 이걸 얻으면 우린 특종을 사용하여 Blue가 9 월에 영향을 미칠 수 있습니다 스트리밍 데이터를 참조하십시오 그래서 당신은 아무것도 느끼지 않지만 당신은 많은 것을 의미하지 않습니다 그래서 그들은 좋은 데이터가 아니지만

점에 사람을 연결하면 아무런 멈추지 않고 눈을 먹일 수 있습니다 그래서 그들이 원하는 음식이 아닌 것처럼 느끼는 것에 먹이를 줄 누군가는 아닙니다 가져 오기 위해 다른 데이터를 선택할 것입니다 그래서 나는 무엇을 했는가 그러나 나는 그렇다고 생각하는 사람을 선택하지 않았고 그것을 얻었습니다

어떤 기계도 그 과정을 자동화하는 것은 유용하지 않습니다 기계 학습은 별도의 메커니즘이므로 독자가 읽을 수있는 기술 방식입니다 새로운 모델을 좋아하고 만든 데이터로부터 데이터를 이해할 수 있습니다 이것들은 당신이 파는 모든 모델이 아닙니다 특정 두뇌 전부 당신은 떨어져 뛰어 오르지 않을 무언가를 알아낼 수있다 새로운 것의 모형 데이터

예를 들어 내가 최고 상을 찾고자한다면이 데이터 시장에 이미있다 데이터 그 기계 돈을 사용하는 것입니다 20 30 개의 데이터를 정리하면 해당 추세를 쉽게 예측할 수 있습니다 그들이 무엇을 또는 ​​다운로드가 안정 될지를 알아 내고 있는지 하지만 그것은 학습이 너무 많아서 우리가 예전의 데이터를 이해하는 데 도움이되지 않습니다

데이터 따라서 우리는 두 시스템에 데이터를 더 많이 공급할 것입니다 우리는 그 가능성을 이해하고, 너무 많은 돈이 갈 것이라는 것을 정말로 나쁘게 느끼고 있습니다 그들 따라서 두 번째 메커니즘을 사용하여 모든 다른 끝을 찾을 수 있습니다

우리는 그걸 예측할 수 있습니다 이 모든 것들은 모두 꺼져 있지만, 느끼는 모든 과정을 자동화 할 수 있습니다 더하기 같은 우리 모두 했어 네가 그의 변호에 대해 죄책감을 느낀다면 나는 니콜라스에게 기뻐 언제 데이트 할 필요가 있는지 알기 위해 이것을 얻을 수있었습니다

그런 다음 해당 데이터 곰팡이에 개를 실행하여 데이터 내에서 다른 곳으로 작업을 업로드해야합니다 골프 기술 및 골프 그리고 나서 사진은 골프를 치기는하지만 두 가지 방법이 있습니다 수동으로 또는 모든 시스템에서 모든 골프를 워크 플로의 단일 파일로 메커니즘을 사용하면 내 아기에게 모든 프로그램을 주문하기 쉽습니다 첫 번째 두 번째와 세 번째가 완료되면 다른 하나가 순서대로 아마도 당신은

그러나 그것은 당신이 알고있는 하나씩 골프 코스를 운영 할 수있게 해주는 것입니다 당신은 그것을 할 Leslie는 또한 어떻게 그녀가 그렇게했는지 확신 할 수 있도록 자신의 직업을 수행합니다 아무에게도 한 발을 내주기가 어렵습니다 종종 나는 갭 분석이 가능해질 것이라고 생각합니다

너도 알다시피, 이것이 큰일이다 나는이 모든 것을 다 통과했습니다 그래서 나는 다시 매우 긍정적으로 변했습니다 자동화 할 수 있다고 생각할 때 사용할 수있는 모든 도구가 있습니다 당신은 그것과 별개로 분석을 할 수 있습니다

Spock과 공과 같은 다른 많은 그룹이 있습니다 Spock 로컬 박스와이 상자와 같은 다른 도구에 시간을 할애해야합니다 당신은 메모리 프로세싱에서 어떤 것을 할 수 있습니다 우리 아빠는 Spock과 Moffat을 Spock과 비교하려고했는데 내 부스보다 훨씬 빠릅니다 왜냐하면 그것이 기억에 남을 것이기 때문입니다

그러나 Bob과 Spock을 잡는다면, 더 많은 메모리가 필요하거나 더욱 더 그래서 우리가 누군가를 목표로 삼을 수 있다면 Spock에서 뛰고 싶을 것입니다 나중에 어느 날 그것을 전달하고 싶습니다 나는 가제트와 메모리 또는 유령 기계를 방해하는 메커니즘을 남기지 않을 것입니다 너는 그 자리에 앉는다

그러나 바그다드에 우리가 기획하고지도 작성하거나 할 수있는 것을 얻을 수있는 것만 큼 크지는 않습니다 우리는 그 벌금을 줄 였지만 두 번째 지연의 한 부분을 인쇄했습니다 우리가 한 수학에서 2 분만에 100 분이면, 나는 그것을 할 수 있습니다 2 분 또는 3 분 후에 꺼집니다 그래서 종이에서 제 생산물을 시작하는 강렬한 양입니다

내 생산물이므로 사용할 수있는 많은 도구가 있습니다 Amazon Web Services 아무에게도 선이있을 것입니다 우리가 계산할 수있는 모든 것은 아마존에서 관리합니다 누군가는 당신이 관리 할 수 ​​있고 지배 할 수있는 도구입니다

그래서 넌 할 수있어 그리고 저는 그 시스템의 일부분이었습니다 관리자와 제목은 어떻게 운영됩니까? 그들은 원한다 당신이 할 수있는 한 가지는 당신이 시스템을 찾을 수 있도록해야합니다

당신은 누군가의 누군가를 그렇게 할 수 있습니다 그것은 그것이 보였던 것처럼 주문받습니다 이상 주의적 불평등이란 얼마나 오래 서로 알고 지내는 데 소비했는지에 관한 것이 었습니다 다른 좋은 몸 내가 돈이나 돈을 버릴 사람이 아닐지라도 내파 된 몸에 당신의 주요된다

나는이 비디오를 통해 당신이 즐겁게 배웠을 것이라고 확신합니다 동영상을 좋아하시겠습니까?이 동영상에 대한 의문 사항이 있으면 의견을 남기십시오 우리는 코멘트 섹션에 그리고 우리의 채널을 구독하는 것을 잊지 말고 더 많은 유익한 비디오를 보게하십시오 우리의 재생 목록에있는 다른 관련 동영상

자세한 내용은 당사 웹 사이트를 방문하십시오 이제는 인텔에 대해 계속 배우십시오

Apache Kafka Tutorial | What is Apache Kafka? | Kafka Tutorial for Beginners | Edureka

안녕하세요 여러분! Edureka의 Subham입니다 오늘 세션의 주제는 카프카 자습서입니다

따라서 아무런 지체없이 오늘 세션의 의제를 살펴 봅시다 이해하는 것이 중요하다고 생각합니다 기술의 필요성 이제 메시징 시스템의 필요성부터 시작하겠습니다 그런 다음 Apache Kafka와 그 기능을 이해할 것입니다 Kafka 튜토리얼을 더욱 발전시켜 우리가 다른 것에 대해 배울 것입니다

Apache Kafka의 구성 요소와 아키텍처 마침내 우리는 Apache Kafka를 설치하고 배포 할 것입니다 단일 노드 단일 브로커 클러스터

Apache Spark Tutorial | Spark Tutorial for Beginners | Apache Spark Training | Edureka

여러분 모두에게 매우 환영합니다 Edureka의이 Spark Tutorial에 대해서

시작하기 전에 모든 사람으로부터 빠른 확인을받을 수 있습니까? 너의 오른편에 내가 크고 분명하면 너는 채팅 옵션을 찾거나 뒤로 밀면됩니다 당신은 그 중 하나의 옵션을 입력 할 수 있습니다 아주 좋아, 감사 Saurabh 그래서 당신이해야 할 일은 당신이 알아낼 수있는 것입니다 질문을하고 방금 게시했습니다

여기에 대한 응답이므로 언제든지 저를 방해하십시오 가운데 언제든지 언제든지 나는 괜찮을거야 너는 거기에서 중간에 나를 방해 할 수있어 우리는 당신의 질문을 받아 들일 수 있습니다 이 웹 세미나에서 기대할 수있는 모든 것 왜 아파치 스파크인가, 왜 아파치 스파크인가? 왜 우리는이 새로운 기술을 배우고 있습니까? 오늘날의 세계에서 이 아파치 스파크에 대해 많이 들으셔야합니다

거기 아파치 스파크는 세계에서 다음 큰 것입니다, 왜 사람들은 아파치 스파크에 대해 이야기하고 있습니까? 다음 큰 것, 기능은 무엇입니까? 아파치 스파크에서 우리가 그런 말을하고있는 것 때문에? 그 아파치 스파크는 다시 다음 큰 일입니다 Apache Spark와 관련된 사용 사례는 무엇입니까? Apache Spark 생태계는 어떻게 생겼습니까? 우리는 또한 실습 예제를 할 것입니다 세션 중과 끝에서 나는 너를 프로젝트를 통해 걸을 것이다 아파치 스파크 (Apache Spark) 그래서, 그것은 당신이이 세션에서 기대할 수있는 것입니다 더 나아가, 이제 우리가 이야기하기도 전에 먼저 아파치 스파크 (Apache Spark)에 관해서는 매우 중요합니다

빅 데이터를 이해하기 위해서는 또는 우리가 옳게 선택할 것 Apache Spark 빅 데이터에 사용됩니까? 이제 빅 데이터라는 핵심 단어는 무엇입니까? 그것이 우리가 논의 할 첫 번째 것입니다 Big Data 란 무엇입니까? Big Data는 무엇을 알고 있습니까? 귀하의 답변은 무엇입니까, 몇 가지 대답을 얻을 수 있습니까? 오른쪽에 질문 패널이 보입니다 너는 거기서 대답 할 수있어 진지하게 만들어라 이 작은 대화식, 정말 도움이 될 것입니다

이 주제를 잘 이해하고, 나는이 수업이 끝날 때까지 너에게 보증 해 줄 것이다 당신은 무엇에 관한 좋은 지식을 가지고 모두 갈 것입니다 아파치 스파크,하지만 나 좀 도와 줘야 해 대화식으로 만들 수 있습니다 너는 나에게 말할 수있다

너는 무엇을 이해 하느냐? 빅 데이터 키워드 별? 아주 좋아요, 진실입니다 매분마다 생성되는 거대한 가벼운 데이터 다양한 자원에서 인터넷에, 아주 좋은 대답 그래서 우리는 대량의 데이터가 생성되었다고 말하고 있습니다 회사 네트워크에서 켜고있어 알았어

텍스트, 이미지, 비디오, 스트림, 아주 좋을 수 있습니다 일종의 성명서 만 보아라 많은 양의 데이터가 Big Data라고 부르지 만 실제로는 이 경우 빅 데이터가 아닌 대량의 데이터를 호출 할 수 있습니까? 아니요, 소책자는 데이터의 속성 중 하나 일뿐입니다 필요한 빅 데이터가 무엇인지 계속 정의해야하는 경우 더 넓은 의미에서 정의하기 위해, 나는 말할 필요가있다 볼륨이지만 다양한 자원에서 데이터가 어떻게 생성되는지, 페이스 북은 많은 데이터 또는 뉴스를 사용하고 있으며, 의료 도메인이 모든 도메인은 빅 데이터를 생성하고 있습니다

이제 다양한 종류의 자원에 대해 말하면 그것은 우리가 또한 말하고있는 그것을 생성하고있다 이 인쇄물에 대해서 어디서 읽었습니까? 그리고 결국에는 벡터 속도에 대해서도 이야기 할 것입니다 이 데이터는 페이스 북에 대해, 단지 10 살짜리 회사를 보아라 그들은 단지 10 년이라는 아주 오래되지 않은 회사 다 또는 12 세의 회사

이제 10 년에서 12 년 사이에 페이스 북이 성장했습니다 그 데이터는 기하 급수적으로, 그들은 엄청난 양의 데이터 몇 달 전 Mark에게서 트윗을 들었습니다 페이스 북의 CEO 인 그는 페이스 북 페이스 북 타임 라인에서 그는 스폰지 백이라고 언급했다 그리고 페이스 북에는 오늘 숫자가 있다고 언급했다

생활 인구의 수와 동등한 이 그룹이 100 년 전에 그것은 큰 진술입니다, 아니 새미, 우리는 내가 제공 할 구조화되지 않은 데이터도 처리 할 수 ​​있습니다 그 시점까지 그들은 큰 일을 이야기하고 있습니다 이제 Facebook에 대한 도전입니다 얼마나 많은 양의 데이터에 대해 이야기하고 있는지 상상할 수 있습니다

이제는 사용자의 수와 관련하여 들립니다 그러한 사용 데이터, 이제 활동은 무엇인가? Facebook에서 무엇을 하시나요? 너는 짹짹 오른쪽, 어쩌면 당신은 메시지를 입력 할 수 있습니다 또한 사진을 업로드하거나, 비디오를 업로드하거나, 당신은 오디오를 바로 업로드 할 수 있습니다 이제 그들은 일종의 포맷 된 데이터입니까? 우리가 다른 아이디어를 내 누이, 대답은 옳지 않습니다 틀림없이 그들은 친절하지 않습니다

그들은 매우 좋은 형식의 데이터를 그들이 데이터와 카테고리의 다른 카테고리 이를 비 구조적 데이터라고합니다 이제는 DBMS 시스템으로 처리 할 수 ​​있습니다 그 종류의 데이터, 대답은 아니오입니다 우리의 DBMS는 모든 구조를 다룰 수 있습니다 일종의 패턴을 가진 데이터를 사용할 수 있습니다

이제 우리가 하둡에 대해서 이야기 할 때 우리는 또한 이야기합니다 오디오에 대해, 우리가 다른 말로 우리가 부르는 비디오 그것은 비 구조화 된 데이터입니다 그래서 그것은 다양한 형식의 데이터이기도합니다 우리가 데이터를 다루는 것, 그래서 우리는 단지 말할 수 없습니다 이 데이터를 보면 거대한 데이터입니다

빅 데이터 아니오, 그것은 단지 하나의 속성입니다 왜냐하면 내가 구조화되지 않은 데이터를 가지고 있다면, 본질적으로 작지만 여전히 보유하고있는 경우에도 여전히이 Hadoop의 뿌리 인 Big Data 도구를 사용합니다 그들을 해결하기 위해, 그래서 그 경우에도 사용 DBMS가 효율적이지 않기 때문에 데이터 도구 그 모든 종류의 문제를 해결하기 위해서, 그것은 하나의 문제입니다 이제 얻은 데이터는 무엇이든 얻을 수 있습니다 어떤 종류의 문제, 누락 된 데이터가있을 수 있습니다

손상된 데이터가있을 수 있습니다 Veracity라는 데이터가 또한 Big Data의 한 속성입니다 따라서 빅 데이터는 볼륨이 아니라는 것을 알 수 있습니다 그러나 여러 요소로 구성됩니다 다양한 속도, 다양성, 진실성

이 모든 것이 빅 데이터의 중요한 구성 요소입니다 12 년 만에 페이스 북에 말했다 우리가 측면에서 볼 때 데이터를 너무 많이 성장시킬 수 있습니다 큰 데이터처럼 들리는 사용자 수 자체의 사용자가 활동을 수행 한 후 자신의 플랫폼에서 얼마나 많은 데이터를 상상해 페이스 북 페이스 북뿐만 아니라 유사하게 취급 할 수도있다 우리가 Instagram에 대해서 이야기를하더라도, 매분 게시물의 상당 부분이 좋아지고 있습니다

거의 70 명이 좋아, 36,000,111 나는 매 순간 얘기하고 있는데, 나는 심지어 말하고 있지 않다 하루 기준으로, YouTube 1 분마다, 3 시간 분량의 동영상이 업로드되고 있습니다 하지만 YouTube에서 아무것도 검색하면 천천히 쿼리 할 수 ​​있습니다 어떻게 모든 데이터를 그렇게 효율적으로 처리 할 수 ​​있습니까? 우리는 매 순간 페이스 북에 대해 이야기 할 수 있습니다 뭔가를 게시하거나 뭔가를 좋아하고 있습니다

너무 많은 사건이 일어나고 있습니다, 우리는 이야기 할 수 있습니다 트위터에 대해 매분마다 좋아하는 3 개, 47,000,222 짹짹이 그렇게 많이 일어나고 있습니다 분당 활동이 일어나고 있습니다 우리는 상상할 수있는 분당에 대해 이야기하고 있습니다 지금 일어나야 할 일이 무엇이겠습니까

사실 유원지가 풍부합니다 매 2 년마다, 데이터가 두 배가됩니다 당신은 달에 도달하기를 원한다 단지 모든 데이터를 태워라 지금 너와 너는 무엇을 가지고 있고 너는 할 수있을거야

달에 두 번 도달하는 것은 데이터의 양입니다 현재 우리가 다루고있는 것 더 나아가 지금 무슨 일이 일어날 지 상상해보십시오 2020 년에 건전지를 가져 가면 나는 항상 서구에게 너희 모두가 앉아 있다고 말하고있다 데이터 폭탄에 그리고 개 폭탄에 이것은 가고있다

현재 일어나고있는 일 때문에 매우 빨리 일어납니다 데이터로 작업하는 기업이 4 ~ 5 %에 ​​불과합니다 데이터의 잠재력을 실현했습니다 이제 그들과의 도전은 그들이 주저하고 있다는 것입니다 Hadoop 도구를 사용하기에 안전한 큰 데이터로 이동 그렇지 않은 이유는 그들이 두려워하기 때문입니다

내일이 바뀌면 어떻게 되겠습니까? 큰 데이터 도메인에 좋은 지원, 그들은 사용자의 수를 얻을 것인가? 누가 그 문제를 해결할 수있을 것인가? 그들이 아직도 생각하고있는이 모든 문제들은, 그들은 같은 이유로 사용하기를 주저합니다 Big Data 도구와 같은 기술 하지만 지금은 이렇게 오래있을 수 없어 확실히 무대가 있기 때문에 DBMS를 전혀 사용할 수없는 곳 또는 그 상황에서 모든 전통적인 시스템 그들은이 전환을해야합니다 2020 년까지이 회사의 5 %가 될 것으로 예상됩니다

40 %로 성장하고 지금 당장 상상해보십시오 너는이 indeedcom 또는 nok3com에 간다 당신은 매우 많은 일이 구매 경로를 위해 나타나고있는 것을 보았습니다

빅 데이터와 모든 것, 2020 년에 일어날 일을 상상해보십시오 엄청난 수요와 종이 공급 부족 나는 당신 회사에서이 말을 분명히한다 네가 일하는 중이라면 데이터베이스 회사에서 해보자 당신은 고위 관리자가되어야합니다 어쩌면 수석 디렉터 일 수도 있고 부사장 일 수도 있습니다

때로는이 사람들을 생각해 보라 그들의 경력을 시작한 것은 정말 행운입니다 20 년 전 Oracle DB 또는 DBMS 누가 지금 막오고 있으며 오늘 그들은 VP가되었습니다 나는 여전히 소프트웨어 개발자 입장에 앉아있다 그것은 매우 일반적인 생각입니다

너의 마음에 나는 그것에 대해 꽤 확신한다 이제 당신은 정확히 같은 위치에 앉아 있습니다 내일 세대, 당신의 미래 세대 비슷한 방식으로 정확하게 생각할 것입니다 그들은 또한 같은 방식으로 생각할 것입니다 이 사람들은이 빅 데이터 영역의 운 좋은 사람이었습니다

방금 나왔다 그들은 실제로 아파치와 함께 총격을 받았다 그리고 그들은 오늘 VP가되었고 나는 여전히 앉아있다 이 위치에서, 그래서 당신은 점령 할거야 곧 도메인이기 때문에 곧 그것은 폭발 할 것입니다

그리고 이것은 나, 나는 그것을 말하고 있지 않다 이것은 시작 요원으로부터의 모든 예측입니다 분석가들과 나는 작은 것에 대해서 이야기하지 않고있다 그리고 당신은 블록을 떠날 수 있습니다, 당신은 쉽게 할 수 있습니다 사실, 많은 사람들이 가지고있는 모든 것을 얻으십시오

또한이 수준으로 와서 말하기를, 향후 5 년간의 사람들 누가 데이터 또는 아파치 스파크로 변신하지 않을 것인가? 그들은 심지어 시장에서 살아남을 수 없을 것입니다 이것은 또한 분석가에 의해 말하고있다 이제 2020 년까지 데이터의 양을 상상해보십시오 그걸 다루면, 쇼핑몰, 쇼핑 카트, 차량 및 데이터를 생성하는 이러한 종류의 이벤트 지연 될 데이터의 양을 상상해보십시오 사실 이것은 당신이이 용어에 대해 들었을 것입니다

IoT, 장치의 인터넷 그 자체로 큰 데이터가 필요합니다 왜냐하면 많은 양의 데이터를 생성합니다 그래서 주위에 많은 일들이 일어날 것입니다 Big Data Analyst에 대해 이야기하고 정확히 무엇을 말합니까? 이 Big Data Analytics는 정확히 무엇을하고 있습니까? 이제이 과정은 처음부터 웹 로그 분석이란 무엇인지 이해해주세요

웹 로그 분석은 당신이 주어진 데이터와 당신은 그것으로부터 약간의 통찰력을 생성합니다 그것으로부터의 의미있는 통찰력, 당신은 원한다 데이터에서 어떤 정보를 얻으려면 현재 데이터가 당신과 함께 앉아 있기 때문에, 당신은 데이터에 대한 어떤 생각도 가지고 있지 않습니다 데이터와 그것에 대해 전혀 모른다 하지만 그 데이터와 관련하여 일하고 있습니다

분석가로서 당신은 데이터의 의미있는 정보 이를 애널리틱스라고 부르지 만 현재 주요 문제 데이터가 대량으로 증가했기 때문에 빅 데이터 그렇게 많이 데이터를 분석 할 수있는 방법은 무엇입니까? 데이터를 사용하여 내부에서 비즈니스를 얻을 수 있습니까? 우리가 이해하고자하는 모든 요점, 이 행동은 Big Data Analytics라고합니다 이제 일반적으로 수행되는 두 가지 유형의 분석이 있습니다 첫 번째 종류의 분석을 배치 분석이라고하며, 두 번째 종류의 분석을 실시간 분석이라고합니다 그게 다 뭐니? 하나씩 이해해 봅시다 이 배치 분석이란 정확히 무엇입니까? 실시간 분석? 이제는 모두 가정에서 세탁기를 사용해야합니다

또는 세탁기에 대해 쉽게 들었습니다 이제 당신이 정말로 할 수있는 일, 당신이 수집 할 때 옷을 벗고 언젠가는 씻어 라 아니면 옷을 벗기 자마자 당신은 먼저 그것을 씻은 다음 목욕을하고 그것을 사용하십시오 따라서 일반적으로이 부분을 일반적으로 수집합니다 옷과 어쩌면 언젠가는 그냥 넣어 세탁기에서 모든 옷을 처리하십시오

요가가 과정 일 때 모든 옷을 씻는 것을 의미합니다 이런 종류의 처리를 Batch purposing이라고합니다 일부 데이터를 수집 한 다음 나중에 처리하는 곳 그래서 우리는 이것을 호출 할 것입니다 일괄 처리를 통해 이전 데이터를 볼 수 있습니다 당신이 일종의 처리를 할 때 이를 일괄 처리라고합니다

실시간 처리, 한 가지 예를 살펴 보겠습니다 신용 카드 결제를하고 있다고 가정 해 보겠습니다 그리고 대부분의 사람들이 신용 카드를 사용해야한다는 것을 확신합니다 또는 직불 카드를 온라인으로 할 수 있습니다 Edureka에게 지불하면 온라인으로 할 수 있습니다

확실히 모든 사람들이 자신의 카드를 사용해야합니다 지금 당신이 인도에 바로 앉아 있다면, 방갈로르시에 앉아서 신용 카드 거래, 즉시 10 분이 지나면 귀하의 부분도 미국에서 스 와이프됩니다 그것은 가능합니다, 틀림없이 당신은 생각합니다 은행이 일종의 다리 역할을한다는 것은 의미가 있습니다 여전히 발생하고 나중에 그들은 그것은 진정한 연결이거나 맞지 않습니다

확실히 그들은 다르게 기다리고 싶지 않다 외국 사람들이 일어난다면 그것은 그들의 손실 일 것입니다 실시간 이벤트가 발생하는 즉시 사람이 스 와이프하려고한다는 메시지를 받으면 외모가 보이지 않는 곳의 카드 진정한 연결, 그들은 둘 중 하나를 시작합니다 보내기 OTP를 사용하거나 연결을 차단합니다 그들은 즉시 당신에게 전화를 할 것이고, 그들은 당신에게 물을 것이다 이 연결을했는지 여부 이것은 우리에게 이상한 것처럼 보입니다

묻기 시작하고 일단 승인하면 그들은 그 거래가 일어나게 할 것이고, 과거 데이터에서 처리가 진행 중입니다 또는 현재 데이터, 현재 데이터 그럼, 우리가이 처리를하고 있다는 것을 의미합니다 실시간으로 데이터가 언제 어디서 오는지 나는 즉시 처리를해야한다 나는 카드와 리얼 타임을 스 와이프하고 내 시스템은 활성화되고 알고리즘을 시작하고 실행합니다

이 거래를 허용할지 여부를 확인합니다 이제이 두 번째 유형의 처리 실시간 처리 (Real Time Processing)라고합니다 그래서, 당신에게 차이점을 설명하기 위해 일괄 처리와 실시간 처리 사이 따라서 일괄 처리 또는 과거 데이터에 대한 책 동시에 두 번째 종류의 가공 작업 즉각적인 데이터가 그 차이점입니다 우리가 모든 것을 이야기하는 동안, 실시간 분석에 관해 이야기한다면 방금 이야기했습니다

신용 카드처럼 사용 사례가 거의 없습니다 은행 업무에서 정부 기관에 매우 중요합니다 너는 우리의 어둠의 예술을 원하고 있건 없건간에, 그래서 만약 당신이 인도에 있다면 당신은 그것을하고있을 것입니다 실시간 처리를 위해 하나 더 인스턴스를 줄 수 있습니까? 우리가 얘기하면 지금 Amina를 사용하기에 앞서있다 어떤 주식 시장 분석 권리, 주식 시장 분석

우리가 그것에 대해 이야기한다면, 바로 지금 무슨 일이 일어날 지, 많은 회사가 있습니다 당신은 관용 검색에 대해 들었습니다 Goldman Sachs 너는이 회사들에 대해 들었 니, 모건 스탠리, Goldman Sachs, 연구 이벤트, 당신이이 이름들에 대해 그들이 무엇을하는지 들어 본 적이 있습니까? 그들은 스마트 알고리즘을 개발했습니다 너는 네가 그들에게주는 돈을 신청하라 당신 주식에 대한 당신의 돈, 그들에게 무엇을 할 것인가? 그 알고리즘은 일종의 예측과 말을 할 것입니다

좋아이 주식 가격은 높을거야 이 주식 가격은 낮아질 것입니다 알고리즘을 공개하지 않기 때문에 그것들은 더 좋지만 상처는 상처를 새롭게해야한다 그들은 그것들이 그들의 손실이 될 것이지만 그들이하는 일은 그들에는 똑똑한 알고리즘과 그 알고리즘이 있습니다

실시간으로 어떤 일이 일어 났는지 의미합니다 시장에서 어떤 비정상적인 사건이 발생하면 Plexus top의 주식 위탁 회사 또는 아래로 내려갈 수 있습니다 무엇이 있어야 할 것인가, 그들은 즉시 자신을 보냄으로써 고객 그들이 어떤 사건을 발견하면 잃지 말라 주식이 이익을 낼 수있는 실시간 그들은 기본적으로 그 주식을 살 것이고, 그래서이 알고리즘 세트는 실행 중입니다 리얼 타임 스케일에서, 내가 무엇을 알고 있는지

그래서이 모든 회사들은 이 실시간 처리 부분 마찬가지로 여러 텔레콤 회사가있을 수 있습니다 건강 관리, 건강 관리는 매우 중요합니다 환자가 왔을 때, 지금 환자가 왔을 때 우리는 즉시 통찰력을 얻고 싶다 어떤 정보가 주어 지든 그것에 기초하여 일부 처리 수단은 환자 치료를 시작합니다

그래서 모든 것들은 실시간으로 일어나고 있습니다 왜 아파치 스파크를 사용해야할까요? Hadoop이 이미있을 때, 우리가 이야기하는 이유 이 일괄 처리 및 실시간 처리에 대해? 그 부분을 이해합시다 포인트 1 번은 매우 중요합니다 Hadoop에서는 일괄 처리 만 가능합니다 Hadoop이 실시간 처리를위한 것이 아님을 의미합니다

이제 데이터를 수집했다고 가정 해 봅시다 하루 둘째 날에, 당신 만이 당신을 처리 할 수 ​​있습니다 그런 종류의 무언가 나는 단지 말하는 것이 아닙니다 하루라도 데이터를 처리해야한다는 것입니다 역사적인 데이터 인 R 단어를 하나만 말하자

하지만 그 데이터에 즉시 액세스 할 수는 없습니다 이것이 Hadoop 시스템에서 수행되는 작업이지만 우리는 아파치 스파크에 대해 이야기했다 시간이 없다 당신이 여기에서 할 수있는 것은 언제 어디서나 데이터 너는 즉시 그것을 처리 할 수 ​​있고, 즉각적인 처리가 사건이나 현장에서 발생할 수 있습니다 이제 나에게 또 다른 질문을 할 수있다

스파크는 실제 시간 지정 데이터에만 사용됩니까? 아니요, 스파크를하고 역사적 데이터를 다루는 것은 배치 종류를 의미합니다 처리의뿐만 아니라 그것은 초당 실시간을 할 수 있습니다 그래서 두 가지 종류의 프로세싱을 모두 할 수 있습니다 아파치 스파크, 유일한 이점인가? 아니, 존경심으로 두 가지 더 이해하자 아파치 스파크에게

이제 우리가 하둡에 관해 이야기 할 때, 그냥 그렇게했습니다 Hadoop Spark처럼 일괄 처리가 발생합니다 이제 우리가 스파크에 왔을 때 그것은 존경심으로 일어납니다 귀하의 실시간 처리에 이제 너를 설명했던 것과 똑같은거야

그래서 내가하는 일은 데이터를 처리 할 수 ​​있습니다 여러 소스에서 데이터를 처리 할 수 ​​있습니다 실시간으로 매우 사용하기 쉽습니다 이제 MapReduce 프로그래밍을 작성한 사람이 있습니까? 아니, 만약 네가 그 일을 알았다면, MapReduce는 명시된, 사미르가 그렇게했던 것처럼 그렇게 쉽지는 않습니다 사미르, 쉽게 전달할 수있어

따라서 초보자가 필요로하는 것처럼 쉽지 않습니다 MapReduce를 배우는 것은 쉬운 일이 아니다 시간이 걸린다 그것은 프로그램을 작성하는 측면에서 복잡합니다 Spark를 사용하면 매우 쉽고 Spark도 가능합니다

장점이 하나 더 빠르며 처리 속도가 빠릅니다 이 스파크는 매우 빠른 속도로 처리 될 수 있습니다 하나 인 MapReduce 프로그램에 Apache Spark의 주요 장점 중 하나입니다 이제 자세히 살펴보고, 일단 내가 그 부분을 설명하면 모두 내 MapReduce를 더 천천히, 왜 아파치 스파크 더 빠르고, 왜 우리가이 모든 진술을하고 있는가? 아파치 스파크 (Apache Spark)가 무엇인지, 어떻게 동작하는지, 이 부분을 이해합시다 그래서 나는 지금 내 눈을 멀게 할거야 내 스크린 공유하게하면 알았어

단계별로 단계별로 설명해 보겠습니다 어떤 MapReduce 보스, 무슨 문제 였어? MapReduce를 사용하여 방금 내가 말한 것을 기억하십시오 MapReduce가 더 느린 이유는 무엇입니까? 그래서 나는 너를 조금씩 자세히 설명 할 것이다 그래서이 부분을 이해하자 몇 가지 예를 들어 보겠습니다

파일을 가지고있다, 그 파일은 그것이라고 말할 것이다 약간의 데이터가있다 사과, 바나나를 보자 그래서 나는 너희 모두가 이미 Hadoop 시스템에 대한 지식이있다 당신은 탈출 과정의 데이터에 대해 알고 있습니다

Hadoop 시스템에서 알려 주시면 알려 드릴 필요가 없습니다 우리가 128MB로 데이터를 분할하는 것처럼, 나는 추측하고있다 여러분 모두 이미이 주제를 알고 있습니다 이제 오렌지색으로 복사하겠습니다 내 데이터가 이런 종류라고 가정 해 봅시다

이것이 내 친구라고 가정 해 봅시다 지금 나는이 파일을 이미 말하게하고있다 거기에 무엇이 있는지, 256 MB라고하자 지금이 데이터를 기본 크기로 나누는 경우 얼마나 많은 블록을 만들지, 두 블록 따라서 128MB, 128MB가 될 것입니다

이제 이것은 두 개의 블록을 만들 것입니다 128MB 및 128MB 네 상사가 너에게 간다고하자 그리고 너에게 말했다 나는 이런 문제가 필요하다

그리고이 문제를 나에게 둘 필요가있어 내가 어떤 문제의 수를 말할 때, 이제이 파일에서 저는 세 가지 핵심 단어 만 가지고 있습니다 사과, 바나나, 오렌지 몇 번이나 사과 이 파일에서 여는 중 바나나 이 파일에서 여는 중입니다 몇 번이나 오렌지색입니까? 이 파일에서 여는 중입니까? 너 나왔고 이런 식으로 일하기 시작 했어 당신은 쉬운 문제라고 생각했는데 왜냐하면 내 파일을 두 부분으로 나눌 수 있는데, 128 MB 128 MB 각각 무엇을할까요? 나는 분산 된 패션으로 나갈 것이고, 나는 그것에 대해 연구 할 것이다

분산 된 방식으로 작업하려면 제가 할 일은 제가 말하려고합니다 이런 식으로이 문제를 풀어 라 나는 괜찮을거야, 너 한테 사과 두 개를, 오렌지가 4 개, 바나나가 B가되어서 만듭니다 조금 간단한, 지금 당신이 무엇을 할거야? 당신이 두 사과 먹고 싶다고 설정한다고 가정 해 봅시다 하나는 이것 앞에서, 두 번째는 바나나 칩, 이제 사과 앞에 사과가 필요해

왜냐하면 이것은 첫째로, 오렌지 케이크를 제안하고있다 너는 그들 앞에서 하나 추가하기 시작했다 그들이 다시 왔을 때, 당신은 그 사과를 보았습니다 이전에 이미 발생했으며 카운트가 하나였습니다 그래서 이번에는 글꼴을 하나씩 늘릴 것입니다 당신은 그것을 파견하게 만들었습니다

이제 다시이 알고리즘을 비슷한 방식으로 수행했습니다 바나나 때문에, 당신은 첫 번째 블록을 위해 이것을 계속했습니다 일할 수있는 코드의 두 번째 블록에 대한 작업 다른 기계에서, 당신은 정확히 자극을했습니다 당신은 정확히 비슷한 단계를했습니다 이제 다음 단계는 무엇입니까? 이 경우에 할거야? 이제 이것으로 다음 단계가 될 것입니다

무슨 일이 있어도 출력을 위해 결합해야합니다 먼저 사과를 결합하고자하는 모든 것을 말하자 몇 번이나 제안했는지, 여기에서 말하자 너 사과하러 가자 20 수업에서 두 ​​번째 블록에서부터 a의 출력, 질량에서 34, 유사하게 바나나 때문에, 당신은 그렇게했습니다, 바나나 때문에, 56 개를 구입했다고 가정 해 봅시다

두 번째 바나나,이 오렌지와 오렌지, 결국 당신은 이것을 결합하고 출력을 줄 것입니다 그래서 당신은이 종류의 무언가를 다음에 할 것입니다 a, 20, 34 그리고 여기 또한 바나나를 위해 할 것입니다 당신은 오렌지를 위해 할 것이고 결국에는 당신이 할 것입니다 알았어, 1 해결책 가져와

네 상사 한테 내가이 문제를 해결한다고 말해라 네 사장님이 너와 행복하지 않을거야, 왜? 텔넷에 문제가 없습니다 이 접근법을 사용하면 올바른 접근 방식이 아닙니다 아무도 여기서 성능 병목 현상이 어디 있는지 말해 줄 수 있습니까? 성능 병목 현상은 어디에 있습니까? 왜 이것이 올바른 접근 방식이 아니라는 것을 말하고 있는가? 아무도이 양식 진술서를 볼 수 있습니까? 문제가 어디에 있습니까? 그래서, 집계 부분을 말할 필요가 있습니다 이 집계 부분은 아폴로입니다

다른 사람이 거기서 말한 것은 어떨까요? 다른 문제에 대해서는 문제가 없다고 가정 해 봅시다 그것이 매우 빠르다고 말하자 다른 사람을 기다려야한다 아니, 그건 맞는 해결책이 아니야, 실제로 문제가되지 않으므로 이것이 일종의 연결된 것이라면 다른 사람들을 기다릴 수없는 방법으로 다른 솔루션은 무엇입니까? 여기에 무슨 문제가 있습니까? 그런 다음 해결책이 무엇인지, 알 수 있습니까? 여기의 문제, 이 128 MB 파일, 당신 생각하십니까? 텍스트 데이터 만있는 경우 작습니다 너는 작아 질 것이라고 생각하니, 아냐

이제이 단계를 수행 할 때, 당신이 당신의 성적을 떨어 뜨리고 있다고 생각하지 않습니까? 요소가 올 때마다 당신은 가고 있는지 여부를 다시 확인하고 있습니다 그 요소는 이전에 또는하지 않았고 둘째로, 그러면이 숫자를 더합니다 이것이 우리 병목 현상이라고 생각하지 않습니까? 나는 이것을하기를 원하지 않는다 왜냐하면 매번 우리가 돌아갈 필요가있을 때마다 새로운 입장이 올거야 해당 요소가 이전에 발생했는지 여부를 확인하십시오

이것이 알고리즘의 주요 병목입니다 MapReduce가 어떻게 이것을 해결했는지, MapReduce가 이 문제를 해결하는 올바른 솔루션 프로세스는 무엇입니까? 그럼 어떻게 해결할 수 있는지 보도록하겠습니다 그래서 병목 현상이있는 곳에서 나는 진짜 흥분하지 않았습니다 우리가 돌아보고 있었기 때문에 그 병목 현상을 제거하면 보자 여기에서 지금이 솔루션을 제거하겠습니다

우리가 할 일은 더 나은 해결책을 내 보자 그래서 우리가하려고하는 것, 그래서 나는 가고 있다고 말한다 이번에는 사과 하나 만들어, 바나나를 만들거야, 하나 나는 오렌지색으로 만들거야 이번에 다시 실제가 왔을 때 나는 가서 돌아 보지 않을거야 이제 다시 여기에도 쉼표 하나만 넣을 것입니다

이것 앞에 열쇠가 무엇이든간에 나는 이것 앞에서 하나 덧붙이고있다 비슷하게, 나는 두 번째 드롭도했다 그래서 두 번째 블록에 대해서도 정확하게 했어요 내가 기다리지 않는 것과 똑같은 것들, 나는 아니다 가서 이전에 증가했는지 확인하십시오

이제 다음 단계에서 내가 할 일 사과가 나온 곳마다 나는 그들을 모으고 싶다 그래서 나는이 엔트리들을 결합 할 것입니다 이 두 기계 모두에서 나는 결합하려고합니다 이 관심과 내가 어디에서 할 것인지 나는 사과 또는 크림을 느낀다 함께 데려 가자

사과 쉼표 하나, 사과 쉼표 하나, 사과 쉼표 하나, 어디에 있든간에 두 기계 모두에서 우리가 어떻게 할 수 있을까요? 정렬을하면됩니다 모든 것을 하나의 기계로 통합 그런 다음 정렬 단계를 수행합니다 비슷하게 바나나를 위해 할 일 그래서 바나나 쉼표 하나, 바나나 쉼표 하나, 계속 해보자 지금은 비슷하다 내가 오렌지를 위해서 할 수있는 일

그래서 나는 계속 그렇게 할 수 있습니다 다음 단계에서 다음 단계는 무엇입니까? 이 모든 것을 하나로 결합 할 것입니다 사장이 올 때마다 나는 그냥 데리고 왔어 바나나와 비슷하게 나도 그렇게 할거야 이제 모든 사람들이 솔루션의 냄새를 맡을 수 있습니다

우리는 해결책을 냄새 맡을 수 있습니다 다음 것은 무엇입니까? 나는해야한다 나는 모든 것을 결합해야한다 모든 것을 집계하십시오 출력을 줄 것 인 3 번을 제공하고있다

쉼표 3 개, 쉼표 3 개, 숫자 3 개 하나의 거기에있을 것입니다 내가 그 출력을 결합하는 것입니다 그래서 쉼표 3, b 쉼표 3 우리가하는 일이 무엇이든, 나는 여기서 예를 든다 이제 MapReduce가 문제를 해결하는 방법입니다 그래서 우리가 한 조치가 무엇인지 알면 우리가 한 첫 번째 단계는 Mapper Phase로 불립니다 두 번째 단계는이 두 단계를 수행 한 것입니다 정렬 및 셔플 피치 및 제 3 단계 여기서하고있는 것을 감속기라고합니다

그래서 이것들은 관련된 세 단계입니다 MapReduce 프로그래밍에서 이제 이것이 어떻게 당신이 당신의 문제를 해결할 것인가입니다 이제는 알았습니다 왜 MapReduce가 더 낮았는지, 아직도 수수께끼가있다

우리는 분명히 이해하기를 원하기 때문에 우리가 왜 MapReduce에 대해 이야기했는지 이 문제를 해결하기 위해 더 낮습니다 우리는 복제를 다시 시작하는 중입니다 이걸로 나는 네가 모든 것을 알고 있다고 가정하지 않았다 Hadoop 시스템의 이러한 사실은 모르는 경우 나 한테 물어 봐야 해, 알았어 그래서 나는 당신에게 적절한 예를 줄 수 있습니다

그래서 나는 지금 당신이 복제를 알고 있다고 가정하고 있습니다 그래서 나는 복제 인자가 하나라고 가정하고 있습니다 이것은 지금 일어날 일입니다 지금 내가 이것을 실제로 본다면 나는 이것을하고있다 그래서 나는이 두 기계를 가지고이 두 기계를 추가한다

이 두 기계는 지금 ​​당장 내 모든 작업이 일어나고있다 그래서 이것은, 디노에 대해 다시 한번 말하지만, 나는 이것을 알고 있다고 가정하고 있습니다 네가 날 막지 않으면이 두 사람이야 너의 데이터 노드 야, 알았어 이 두 가지는 데이터 노드이므로 어디에서 데이터는 요인 데이터 노드에 상주하므로 어떤 것이 될 것인가? 이게 너의 블록 b라고 말하자

그리고 이것이 당신의 블록 b 2라고 말하자 그래서 무슨 일이 일어나면, 이것은 하나의 블록이 될 것입니다 내 복제 요소가 하나라고 생각한다면 이 한 블록은 다음에 가장 어려운 곳에 거주하는 것입니다 데이터 노드 1과이 블록 2 블록이 존재 함 데이터 노드 2의 하드 디스크에 저장됩니다 이것은 우리가 데이터 노드 2, 이것이 데이터 노드 하나라고 말할 수 있습니다

이제 무슨 일이 일어날 지 알면 처리를 수행하는 곳 디스크 레벨에서 처리를 수행합니까? 또는 메모리 수준에서 처리를 수행합니까? 처리가 이루어지는 곳에서 대답을 얻을 수 있습니까? 기억, 항상 그 기억 어디 처리가 발생합니다 이제 우리가해야 할 일은, 이제 매퍼 코드는 첫 번째 코드 실행될 코드는 매퍼 코드가됩니다 매퍼 코드가이 컴퓨터에 올 때 이 블록은 하나, 밖으로 이동됩니다 디스크 란 책상에서 메모리로 복사하는 것을 의미합니다 이 기계의 한 블록은 메모리에 올 것이다 이 머신의 mapper 코드가 실행됩니다

마찬가지로,이 기계의 블록에 b 이 기계의 기억을 향해 나아 간다 그리고 그것은 처형 당할 것입니다 자, 당신이 컴퓨터 과학 프로그램의 품질이라면 또는 당신이 아니라고해도, 당신은 생각했을 것입니다 입출력 연산이 일어날 때마다 내가 입 / 출력 작동을 말하면 나는 의미한다 귀하가 귀하의 데이터를 디스크에 저장하거나 데이터를 디스크에 씁니다

그래서 이것을 입출력 작업이라고합니다 그래서 내가 말하는 것은 당신이 이것을 들었을 것입니다 입 / 출력 작업이 발생할 때마다 당신이 가지고 있기 때문에 그것은 성능을 저하시킵니다 디스크 찾기와 모든 것들을 할 수 있습니다 그래서 그것이 그들의 연기를 느리게하는 이유

지금이 예제에서 나는 입출력 작업을하고있다 이제 이것은 내 메모리에 데이터를 복사하는 입력 경로입니다 이제 출력을위한 맵은 하나의 Mapper 출력입니다 이것은 매퍼 출력이며, 매퍼 출력은 이제 전화를 겁니다 이 말을하자

하나,이 출력이라고 부르 자 O 2로, 지금 무슨 일이 일어날 것인가? 이 모든 출력은 디스크에 다시 제공됩니다 이제이 오 하나가 여기에 다시 저장 될 것입니다 두 명이 여기에 다시 저장 될 것입니다 무슨 일이 일어 났습니까? 매퍼 출력 2 개를 여기에 저장했습니다

이제 이것이 다시 입출력 작업이라는 것을 알게되면 지금 나는 책상으로 출력 작업을하고있다 질문 컨트롤러, 무슨 일이 일어날 것인가? 블록 크기가 크면 효율적일까요? 메모리를 사용하려면 지금 당장 이 기억은 적어도 유지하기에 충분하다 128 MB의 데이터를 올리십시오 그렇지 않으면 오류가 발생합니다

MapReduce 프로그래밍에서, 당신은 단순히 다른 당신이 128MB의 데이터를 말하게한다면 128MB 미만의 메모리가있는 경우 너는 다른 최대 팩을 가질 것이다 이 문제를 해결하는 매우 현명한 방법입니다 스파크는 아무런 문제가 없으므로 기억을 덜 할 수 있습니다 그것은 여전히 ​​그것을 돌보아야합니다 스파크에 관한 아주 흥미로운 이야기 MapReduce에 관해서는 오류가 없다고 말합니다

사라, 그게 우리가 실제로 나눌 이유 야 우리의 데이터는 128MB로, 적어도 우리의 기억 그것을 처리하기에 충분해야합니다 자, 어떻게 될까요? 그래서 나는 첫 번째 O를 가지고 있고 나는 이미 관찰했다 내 입력 출력 작업이 시작됩니다 셔플을 정렬하면 셔플이 일어납니다

하나의 기계에서 일어날 것입니다 이 단계가 하나의 시스템에서 일어나고 있다고 가정 해 봅시다 그래서 만약 당신이 데이터가이 기계 전체에서 나왔다면 하나의 기계에, 그래서 그들이 결정한다고 말하자 정렬 및 셔플을 할 때 데이터 노드 하나, 이 자동 기계는 네트워크 전송을 할 것입니다 데이터의,이 O 2는 여기에 올 것이다

그 후이 종류와 셔플 단계가 일어날 것입니다 이 출력에서 ​​나오는 결과를 보겠습니다 오, 셋입니다 오, 셋입니다 이제 다시이 두 사람이 기억에 보내질 것이며, O 2는 메모리와 O 3에 전송됩니다

그 후에 다시 디스크에 저장됩니다 당신은 감속기에서 감속을 보낼 것입니다 O 3을 기억으로 가져 오는 것은 무엇입니까? 나는 최종 출력물을 디스크에 밀어 넣었다 그리고 이것은 많은 입출력 작업이 일어나고 있습니다 하나의 프로그램에서, 입력 – 출력 정렬 일본에서 네트워크 이전 완료 그리고 적은 입출력

3 단계 감속기가 입출력 작업을 완료했습니다 다시 한번 많은 입출력 작업을 볼 수 있습니까? 한 프로그램에서 전술적 인 최근 수학 학습 프로그램 자연 속에서는 속도가 느려서 모든 사람들이들을 수있다 MapReduce 프로그램이 본질적으로 느린 이유는 무엇입니까? 이미 로봇을 실행했다면 어떻게 될까요? O'Neil MapReduce에서 당신은 실행합니다 즉각적인 결과를 내지는 않습니다 이상을 실행하는 데는 좋은 시간이 필요합니다

왜 이런 일이 일어 났는가? 너무 많은 입출력 작업, 감사합니다 Ratish 계속 나아가 자 이것이 문제 다 MapReduce를 사용하여 어떻게 아파치 불꽃이 문제를 해결하고있다 어떻게 아파치가 문제를 일으키고 왜 해결할 수 있을까? 그것은 더 빠릅니다 왜 우리는 저의 저것이 빠른 시간 내에 출력물을 줄 수 있습니까? 그래서 그것을 이해합시다 이제 이것을 설명하기 위해, 무엇보다 먼저 나를 보자

여기에 다시 파일이 있다고 가정 해 봅시다 내 데이터가 이와 같다고 가정 해 보겠습니다 3, 5, 6, 7, 8 더 많은 데이터 더 많은 데이터가 있으므로이 데이터를 가져와 봅시다 유사하게 더 많은 데이터 34, 78, 3, 6이 있습니다

이제 이것이 하나 더 많은 데이터라고 가정 해 봅시다 마찬가지로 여기에 더 많은 데이터가 있다고 가정 해 봅시다 23, 67, 1, 9가 승진했다고합시다 이제 파일 크기가 34MB임을 알려 드리겠습니다 384MB, 죄송합니다

이 파일은 384 MB이고 두 번째 것은 Ftxt 파일의 이름을 말하자 이 파일의 이름입니다 이제 나는 너에게 외계인의 말을 쓰고있다 내가 설명 할 것이기 때문에 걱정하지 마라

이 부분, 내가 가진다면, 이게 뭔지 걱정하지 마세요 전 그냥 문자 메시지 일 뿐이에요 우리가 정확히 무엇을하는지 이해합시다 이제이 예에서도 내가 만든 것을 가정 해 봅시다 이 클러스터는 내 이름이 아닙니다

데이터 노드는 아닙니다 지금 여기서 일어나는 일이 당신에게하고 있습니다 이 파일의 Ftxt는 384MB이고, 그래서 내 파일이 나뉘어져 있다는 것이 명백합니다 세 부분으로 b 1, b 2, b 3 블록

이제 다시 여기서 가정합니다 나는 이것을 b 블록이라고 부르고 있는데, 이것을 B 블록이라고 부르면됩니다 이것을 b 블록 3 블록이라고 부르면됩니다 각각 128MB 이제 내 다음 단계는 무엇입니까? 그래서 저는 우리가이 블록들을 가지고 있다는 것을 이해했습니다

이제이 파일이 내 HDFS에 있다고 가정 해 봅시다 따라서 디스크에있는 곳에서 보관하십시오 디스크에서 b 블록 하나, b 여기 두 블록, b 세 블록 이제 데이터 노드에 상주 할 곳 디스크에서, 당신은 이것이 우리의 NTFS 데이터베이스라고 생각합니다 이제 첫 번째 매핑을 시작하자 마자 무엇보다도이 부분을 이해하기 전에 내가 너에게 한 가지 더 설명해 줄께

Java의 주요 진입 점은 무엇입니까? 당신이 어떤 프로그램도 쓸 수 없다면, 아무도, 주요 기능을 알아 주요 기능이 없으면 아무 것도 할 수 없습니다 이제 아파치 스파크에서도 거기에 하나의 주 진입 점이없는 경우, 어떤 응용 프로그램도 작동하지 않습니다 그 엔트리 포인트는 Spark Context라고 불린다 또한 Spark Context를 SC로 나타냅니다

이제 이것이 주요 진입 점이며 이것이 마스터 머신에서의 사이드들, 그래서 우리는 계속 지킬 것입니다 당신이 알고있는이 SC Java 프로그램, 하나의 프로젝트를 작성했다고 가정 해 봅시다 한 프로젝트의 경우 별도의 주 기능이 있습니다 다른 프로젝트에서는 별도의 주 기능이됩니다 유사하게,이 SC는 분리 될 것이다 개별 응용 프로그램마다

이제 첫 번째 코드 줄을 이해해 봅시다 그들이하는 일을 이렇게 무시해 버려 이 기이함은 그 부분을 무시하는 것입니다 당신은이 기이함을 어떤 데이터 유형과 관련 지을 수 없습니다 예를 들어 Java에서 우리는 문자열 데이터를 가지고 있습니다

그래서이 이상한 것을 대체 할 수 있습니다 이 RDD를 문자열로 바꾸지 않아도됩니다 그것은 숫자가 참을 수 없다는 것을 의미하므로, 그 번호는 얼마 동안 들리지 않는다 우리는 SC가 Spark Context를 의미한다는 것을 보았습니다 Spark 응용 프로그램을 사용하지 않으면 실행되었습니다

이제이 텍스트 파일 이것은 아파치 스파크의 API입니다 이 세부 사항에서는 다른 스탭 세션을 읽었습니다 그러나 나는 당신에게 무엇에 관한 아이디어를 줄 것입니다 이 텍스트 파일은이 텍스트 파일 API가 할 일, 아파치 스파크에서 어떤 파일이든간에 당신은 그 Ftxt 안에 기록했습니다

해당 파일을 검색하여 메모리에로드합니다 당신 기계의 어떤 의미일까요? 이제이 경우 Ftxt 예 세 대의 기계에서 예 F

txt는 b 블록 하나, b 블록 두 블록, b 블록 세 블록입니다 그래서 일어날 일은 당신의 b 블록 일 것입니다, 내가 이것을 만들자 이것이 내 RAM이라고 가정 해 보자 이것이 내 RAM이라고 가정 해 봅시다 이 경우 일어날 일은 그냥 한 블록 복사됩니다 나는 움직이지 않는다고 말하고있는 중이다

이 기계의 본문에 복사됩니다 b 두 블록이 메모리에 복사됩니다 이 기계의 3 블록이 복사됩니다 이 기계의 기억 장치에 그러면 블록이 전송되는 방식입니다 이 머신 메모리에, 지금 무슨 일이 생길까요? 그래서 우리는 단지 그 중 하나를 이해했습니다

b 2, b 3 블록 여기, 나는 그것을 추측하고있다 내 기억은이 모든 자료를 저장할 정도로 크다 이제 우리가 모든 블록을 다룰 경우 어떻게 될까요? 의무적 인 것은 아니지만, 모든 블록 크기가 동일해야하는 것은 아닙니다 그것은 다른 것도 줄 수 있습니다 그것은 중요하지 않습니다

각각의 블록 크기가 어떻든간에 블록을 메모리쪽으로 복사하려고합니다 그 첫 번째 코드 줄에서 일어난 일입니다 자,이 세 파일은 적어도 메모리에 앉아서 결합되어 있다고합니다 RDD로, 그래서이 세 파일은 우리의 RDD라고 불리는 메모리에 결합하여 말하고 있습니다 RDD의 이름은 무엇이며, 우리는 번호 RDD를 부여했습니다

그래서 우리는이 RDD에 RDD라는 이름을 붙였습니다 RDD 란 무엇인가, RDD는 분산 데이터, 기억에 앉아 RDD의 완전한 형태는 무엇입니까? RDD 예, 탄력적 인 분산 데이터의 완벽한 형태 이제 한 가지 질문을 드리겠습니다 분산 된 데이터인가요? 분산 된 데이터 이건 아니건간에 그렇습니다

분산 데이터입니다 무엇을 이해합니까? 탄력있는 대답을 얻을 수 있습니까? 너는 뭘로 이해하는지, 뭘 읽는지 보렴 비록 청취자는 아니지만 그래도 나는 단지 원한다 당신이 무엇을 이해하는지 이해하기 이 핵심 단어, 탄력? 탄력성이란 실생활을 의미합니다 그것은 신뢰할 수있는 영어 의미입니다

이제 네가 그런 식으로 부를 수있다 지금 내가 신뢰할 수있는 말을 할 때 이제는 언제든지 질문에 이르게됩니다 나는 무엇보다도 RAM에 대해 이야기하고있다 RAM에 데이터를 유지한다면 이것은 내 전체 시스템에서 가장 휘발성이있는 것 네가 뭔가를 가질 때마다 랩톱을 다시 시작하면 모든 항목이 지워집니다

당신의 RAM에서 나는 가장 휘발성이있는 것을 얻는다 지금은 여전히 ​​RDD가 탄력성이 있다고 말합니다 나는 데이터를 잃어 버릴거야 즉시되지 않았습니다 방금 노트북이나 다른 것을 다시 시작합니다 내 데이터를 잃을거야 이제 어떻게 이것이 인도 될 것입니까? 적용 요소, 복제 인자를 기억합니까? 복제 인자가 2라고하자

복제 계수가 2라고 가정 해 봅시다 이제는이 경우에 더 적은 장비가 있다면, 그래서 하나의 바위가 여기 앉아 있다고 해봅시다 B 블록이 여기에 복사된다고합시다 B 블록이 여기에 복사한다고 가정 해 봅시다 어떤 기계라도 그런 사이딩을하고 있다고 가정 해 봅시다

이제 어떻게 될 것입니까? 이 조건에서 말하자 그냥 차단하고 차단할 수 있습니다 그래서 우리는 잃어버린 것, 잃어버린 것, 그렇습니다 그 단계에 아직 도달하지는 않았지만 나는 말할 것입니다 이것에 관해서는, 아래는 잃어버린 B, 잃어버린 B는 3 점입니다

지금은 세 곳 중 하나입니다 예, 그렇습니다 무슨 일이 일어날 것입니까? 이 머신에는 즉시 세 개가로드됩니다 이 머신간에 즉시 로딩됩니다 이제 b 하나와 b 세 둘 다 낭독을 시작할 것입니다

이 기계에서 함께하면 무슨 일이 일어날까요? 이 세 가지는 에너지로 구성됩니다 그래서 다시 세 명은 기억으로 옮겨 질 것입니다 즉시 RDD가 생성됩니다 그래서 그것은이 RDD에서 큰 의미입니다 네가 잃는다고해도 거기에 눌려있다

데이터 또는 기계를 잃어버린 경우 그건 상관 없어요 그래서 이것을 탄력적 인 부분이라고합니다 이제 더 멀리 움직여야합니다 그래서 우리는 단지 이해했습니다 RDD 란 무엇이며 두 번째로 탄력적입니다

한 걸음 더 나아가 자 그래서 우리는 숫자 RDD를 만들었습니다 지금 나는 또한 RDD 필터를 만들고있다 하지만 지금 내가 할 일은 내가 갈거야 내 번호 RDD에 그것을 만들려면, 단지 번호 RDD

map, 다시이지도가 API이며,이 API는 무엇입니까? 나는 보통 우리 세션에서이 부분을 이해할 것이다 당일에는이 부분을 알려 드리겠습니다 당신의 소개를 위해 그것 위에 간단한 것 이지도 API 내부에 작성할 코드는 무엇이든 실행될 코드가 무엇이든지간에 이 줄 안쪽에 쓰는 것이 실행됩니다 그래서 지금 막 영어 키워드 몇 개를 썼습니다

이 장소에서이 영어 키워드 논리를 대체해야합니다 10 개 미만의 값을 찾으려면 프로그래밍 논리를 얻고, 어쩌면 파이썬 프로그램 일 수도 있고, 스칼라 프로그램 일 수도 있습니다 원하는 프로그램이 무엇이든지간에 그것은 무엇이든 될 수 있습니다 글을 쓸 수는있어 네

따라서 어떤 코드를 작성 하든지간에 지도 기능이 책임을집니다 또는지도 API가 실행해야합니다 이제 우리가 여기서하고있는 일, 한 가지 더 요점은, RDD는 언제나 불변입니다 나는 그것이 불변으로 전달된다는 것을 의미한다 이미 블록 b를 메모리에 넣은 경우 너는 어떤 변화도 할 수 없을거야

너의 블록 하나에, 너는 할 수 없을거야 당신의 블록에서 어떤 변화도 일으킬 수 있습니다 이제 어떻게 될 것입니까? 우리가 일하기 전에 먼저 여기에 오도록합시다 이 부분에서는이 부분을 보도록하겠습니다 그래서 여러분이 스칼라 함수를 작성했다고합시다

또는 어떤 함수 인 파이썬 함수 모든 값을 알아내는 것입니다 10보다 작기 때문에 가정 해 봅시다 이 b 한 블록,이 b 한 블록, 당신은이 4 개의 말을 모든 banch를 묶어 보자 그래서 그 경우 출력은 무엇입니까? 무엇이 출력 될 것인가,이 블록은 쉼표 3 개 이 두 값은 10보다 작기 때문에, 하나의 쉼표 3, 그래서 내가이 블록 SB 블록을 호출 할 수 있습니다, B 4라고 부르 자 여기에서 나오는 출력은 3 개의 쉼표 6입니다

이것을 B 블록 5라고 부르 자 마찬가지로, 당신이 이것을 알게되면 나는 말하지만, 한 쉼표는 9 자이고 이것을 아마 6 블록이라고 부르 자 이 블록을 네 블록이라고합시다이 블록은 다섯 블록입니다 이것은 6 블록입니다

이제 여기서 무슨 일이 일어나고있는거야? 이 B가 기억 속에 앉아있는 한 블록 나는이 코드가 실행될 때 이것을 할 것이다 그 실행은이 B 블록에서 일어날 것입니다 전에 새로운 블록이 생성됩니다 나는 한 블록 B에서 어떤 변화도하지 않을 것이다 이 B 블록에서 십자가를하고 있습니다

그리고 내가 부르는 새로운 블록을 만든다 a B 4 블록 유사하게,이 B 블럭으로부터, 이 B 블록을 5 블록 생성합니다 다시 아침에 앉아있을 것입니다 유사하게, 여기에서는 B 블록이 생성 될 것이다

이제이 경우 귀하의 B 한 블록과 B 네 블록 둘 다 함께 메모리에서 낭독을 시작합니다 마찬가지로 B 2와 B 5가 함께 거주 할 것입니다 B 3과 B 6은 함께 낭독하게됩니다 집합 적으로이 세 가지 모두, B 4, B 5, B 6 RDD라고 불리는 얻을 것이다 그 RDD의 이름은 하나의 RDD를 걸러 낼 수 있습니다 모두 지우시겠습니까? RDD 란 무엇인가, RDD는 어떻게 작동합니까? 이 개념은 모든 사람에게 분명합니다

이것이 스파크가 작동하는 방식입니다 이제 나 한테 물어 보자 이것이 더 빠를 것이라고 생각하지 않습니까? 돈 입출력 운영을하고 있습니까? Map Reduce를 가져 오는 것과 마찬가지입니다 입출력 동작 만 발생합니다 첫 번째 페이지에서 F

txt 파일을 사용할 때 그 후 내 데이터는 항상 메모리를 사용하고있었습니다 그게 내가 어떤 일도하지 않는 이유 야 그 이후의 입출력이 그 이유 다 그것은 당신에게 더 빠른 출력을 줄 것입니다

그래서 스파크가 더 빠릅니다 MapReduce와 비교하면 좋을 것 같아 RAM이 맞아, 분명히 거기에있다 하지만 여전히 스파크가 큰 경우 RAM 또한 그것을 처리 할 수 ​​있다는 것을 알고 있습니다 파이프 라이닝 개념이라고합니다

나는이 세션에서 그것을 다루지 않을 것이다 하지만 네, 커다란 사건이 있습니다 네 기억력이 적 으면 스파크가 가져 간다 사실은 매우 흥미로운 개념, 그래 다시 그것은 매우 흥미로운 개념입니다

스파크가 여전히 처리 할 수있는 너는 조금 더 적은 기억이 있으면 그래서 공원은 매우 스마트 한 프레임 워크가됩니다 사람들이이 논문을 읽는 이유입니다 자, 이제 네가 배웠어 내가 회상 세션을하는거야

우리는이 모든 주제들을 세부적으로 다룰 것입니다 이 상황이 발생하면 어떻게 될까요? 그러면 우리가 계속하는 모든 일들은 어떻게 될 것인가? 내 책상에 여분의 위험이 쏟아 질 것입니다 책상에 데이터를로드하지 않지만 여전히 그것을 처리 할 수있을 것입니다, 그것은 나쁜 일 이었습니까? 당신은 궁금해 할 것입니다 하지만 그것은 단지 파이프 라인에 관한 것일 수 있습니다 번호에 제한이 있습니까? 동시 클라이언트 요청 수, 아니요

원하는만큼 여러 번 읽을 수 있습니다 옳은 일을하고 싶다면 문제가있는 것입니다 거기에 아무런 제한이 없습니다 이제 한 단계 더 나아가 야합니다 그래서 우리는 방금 읽었습니다

이 부분, 지금 당신이 무엇을 알아 차리면 여기에서 일어나는 일이기 때문에, 처음에는 그래서 지금 나는 이미 필터 하나를 가지고있다, 그래서 내가 내 필터 하나, 이건 내 필터 예고 코드를 보자 RDD에 의해이 필터 하나의 RDD는 무언가에 의존하며, 예, 그것은 의존하거나 내 번호 RDD, 내 번호 RDD에, 내 번호가 의존하고있다 또는 뭔가 예, 그렇습니다 Ftxt, 그래서이 파일은 자고 있습니까? 아니요, 이것이 제가 여기서 삭제 한 그래프입니다 이 그래프는 즉시 문맥 정지에 의해 유지됩니다

이 모든 문장과이 태그를 실행합니다 이것은 dat, directed acyclic graph 계보로도 불린다 그래서 계통에서 일어난 일은 모든 데이터를 유지합니다 모든 정보를 유지 관리하는 f와 같은 의존성은 의존성을 가지고있다 당신의 번호, 번호는 의존성이 있습니다

Ftxt에서이 의존성 그래프가 무엇인지 계보는 혈통이라고합니다 그래서, 이것은 전체의 매우 중요한 부분입니다 이제 무슨 일이 일어나고 있는지 알게되면 B 블록 네 B 한 블록으로 인해 생성 된이 B 블록 5 개 B 2 블록 및 B 6 블록으로 인해 생성되었습니다 B 블록으로 생성됩니다

또 다른 용어는, 나는이 F 필터 RDD가 생성되었다고 말할 수 있습니다 숫자 RDD 덕택에 번호는 또한 RDD가 아니라 그 번호에서 RDD 나는 새로운 엔티티를 만들 것이다 하나의 RDD 필터로서,이 F는 변환 단계 그러나이 단계를 변형 단계라고 부릅니다 이제 출력물을 출력하고 있습니다 우리는 메모리에 데이터 만 보관하고 있습니다

Java에서는이 print 문을 사용했습니다 Spark에서는 print 서술문이 없지만 대신 우리가 수집 진술서를 가지고 있다는 것, B 4, B 5, B 6을 인쇄하려면 즉, 필터 하나의 RDD를 인쇄하고 싶습니다 내가 filter1collect 쓸 수 있습니다, 그러면 SC에 B 4, B 5, B 6이 인쇄됩니다 지금 당신이 여기서하고있는이 일은 이것은 당신이 무엇을하고 있는지를 언제나 고민하고 있습니다

출력 B를 Word 작업으로 인쇄합니다 따라서 현장 컨텍스트에서이 단계를 S 동작이라고합니다 그래서 이것이 당신이 그 일을하는 방법입니다 주요 단계 1은 변형이다 한 형식의 RDD를 다른 형식으로 변환 할 수있는 곳 RDD의 두 번째 작업을 Action이라고합니다

여기서 출력물을 인쇄 할 수 있습니다 그래서 이것들은 명심해야 할 중요한 포인트입니다 아파치 스파크에서 일하면서 저희 사이트로 돌아가서 이것에 대한 질문을 드리겠습니다 내가 다시 돌아 오기 전에 나는 다시 그걸로 돌아올 수있다

모두가이 단계에 대해 명확하게 설명합니다 돌아 가자 여기서 알아 차리면 우리가 배치 (batch)와 같은 것을 논의 할 것이다 실시간 처리에서 더 나아가, 이것이 어떻게 이루어 졌는지, 그래서 지금 막 토론했다

스파크에 대해, 스파크가 실시간 처리를 제공하고, 그래서 기본적으로 합의 된 창조는 변형과 함께 시작됩니다 네, 그렇습니다 우리가 방금 토론 한 부분이다 또한 사용하기가 매우 쉽다는 것을 알 수 있습니까? 내 MapReduce와 비교하여 사용하기가 매우 쉽습니다 MapReduce 프로그래밍을 이미 완료했다면 또는 사과, 오렌지, 바나나 예를 기억한다면, 확실히 나의 고뇌 방법은 비교에서 훨씬 간단하다

MapReduce 코드가 표시되면 MapReduce 프로그램에 본질적으로 복잡하지만 스파크 프로그램 매우 간단하게 보입니다 Spark 프로그램이 수행하는 이유 아주 단순한 자연 이제 더 나아가 스파크 성공 사례를 이해하고, 우리가 가진 것들은 무엇입니까? 요즘 그것을 사용하는 사람들이 많이 있습니다 우리가 주식 시장에 대해 이야기하는 것처럼, 주식 시장은 아파치 스파크를 많이 사용하기 때문에 더 빠른 처리 능력, 더 쉬운 특성 플러스 가능한 많은 것들 (말도 안되는 소리) Twitter 감정 분석이 인기 급상승일지도 모릅니다 그 회사에 따라 일어난 일입니다

어쩌면 시작 할지도 모르겠다 그걸 기반으로 일부 캠페인을하고, 은행 신용 카드 사기 공제 이미 신용 카드 예를 보여주었습니다 어떤 사기가 감지되고 있다고 가정합시다 어쩌면 그들은 이것이 소리가 나지 않을 것으로 예상하고있을 것입니다 진정한 관계처럼 우리는 패키지와 함께 배울 수 있습니다

하지만 MapReduce는 불가능합니다 실시간 처리를 수행 할 수도 없습니다 둘째, 과거 데이터에 적용하려고해도 그것은 그곳에서 도전이 느려질 것입니다 의료 영역에서도 우리는 아파치를 적용합니다 그래서 이들은 Apache Spark가 사용되는 영역입니다

Spark에 대해 이미 말하면서, 우리는 이미 논의했습니다 재미있는게 뭐니? 지금 스파크에서 오직 실시간 처리와 모든 것을 보았고, 지금은 아파치 스파크는 사용할 수있는 오픈 소스 클러스터입니다 물론 당신은 지불하지 않을 수도 있습니다 그 일을하기 위해서, 그것은 또한 아파치 스파크가 유명한 이유 실시간 처리 배치를 수행 할 수 있으며, 처리의 모든 종류의 처리 종류, 당신은 그것에 수행 할 수 있습니다 프로그래밍 팩을 수행 할 수 있습니다 또는 데이터 패럴 림이 있으면 내결함성도 처리 할 수 ​​있습니다 우리는 이미 탄력적 인 부분의 결과를 보았습니다

해양은 내결함성이 있다고 믿을만합니다 그래, 이제는 여러 번 MapReduce 위에 출력으로 얻을 수있는 것 생성 직후 연결 기능을 사용하면 과거는 이미 인쇄 될 것입니다 원래 일종의, 사실 내가 할 것입니다 실제적인 실행과 보여주기 그 후 한 가지 예를 들자 여기 남아서 정확히 무엇을 할 수 있는지 어떻게 완료 될지, 어떻게 데이터를로드 할 수 있는지 그리고 데이터를 내부에서 볼 수있는 방법

몇 분 안에 실용적인 것을 보여 드리겠습니다 좋아, 이제 더 멀리 나아가 자 아파치 스파크, 이제는 내게 아주 쉽다 우리가이 모든 것을 설명하기 위해 이미 본 것으로 Spark은 항상 Hadoop과 함께 사용합니다 독립형으로 사용할 수 있습니다

예, 사실입니다 독립 실행 형을 사용할 수도 있습니다 Hadoop 클러스터가 필요 없으며 간단하게 심지어 스파크 물건 만들기 자신의 간단한 Windows 컴퓨터 및 작업을 시작할 수 있습니다 그것에 다른 것을 요구하지 않고, 당신은 로컬 및 상대방이 재미있는 파일이었습니다 HDFSS를 전혀 요구하지 않아도됩니다

나는 그것의 한 가지 예를 보여 주겠다 그래서 당신은 우리가 어떻게 독립형인지 분명히 알게 될 것입니다 내가 아파치 스파크를 사용할 수 있다는 것을 제외하고는, 나는하지 않는다 RDMS를 연결해도 재미있는 사실입니다 당신이 직접 만들 수있는 많은 장점들이 있습니다

스파크가 거의 100 배 빠른 속도를 제공합니다 너는 그것이 굉장한 속도라고 생각하지 않느냐? 100 배, 나는 이중 또는 삼중에 대해 말하는 것이 아닙니다 같은, 나는 약 100x 시간 더 빨리 말하고있다 스파크가 아주 강력 해지면 많은 기업들이 많은 것을 듣고 있습니다 맵 수신기에서 아파치 스파크로, 왜? 네가 네 답을 얻었 으면 좋겠어

간단 해 뿐만 아니라 당신의 속도가 너무 빨라지고 있습니다 처리 속도가 매우 빠르기 때문에 캐싱이 매우 강력합니다 이 끈기 또는 진짜가 아닌 것은 무엇입니까? 진행 세션 및 데이터 세부 사항 하지만 우리는 메모리에 데이터를 캐시 할 수 있습니다 또한 대부분의 경우에 도움이됩니다

애플리케이션을 배포 할 수 있습니다 원본 YARN 또는 독립 실행 형 클러스터 이제이 이벤트는 아주 좋은 기능입니다 이미 Hadoop을 구성했으며 특정 클러스터를 변경할 필요가 없습니다 아파치 스파크, 핑 플러스 당신이 그것을 사용할 수 있습니다 MapReduce에 무엇을 사용하고 있는지 귀하의 아파치 스파크 유사하게, Spark는 다중, 파이썬 추가와 같은 프로그래밍 언어

(말도 안되는 소리) 그래서, 자바 언어도 많이 사용할 수 있습니다, 그래서이 4 가지 언어가 현재 사용됩니다 둘 다 똑같습니다 둘 다 정확하게 섹션입니다 이제 더 나아가서, 아파치를 통해 스파크, 그래서 우리가 어떻게 그 모든 것을 할 수 있는지 보자

이제 HDFS로 불꽃을 일으켜 더 강력하게 만듭니다 Spark 응용 프로그램을 실행할 수 있기 때문에 매우 쉽게 HDFS의 위에 이제 두 번째로 Spark plus MapReduce 프로그래밍 MapReduce 프로그래밍과 함께 Spark를 사용할 수 있습니다 Hadoop 클러스터에 있기 때문에 실행할 수 있습니다 MapReducee 및 동일한 클러스터의 일부 응용 프로그램 당신은 일반 스파크 응용 프로그램을 사용할 수 있습니다, 필요가 없습니다 모든 것을 바꿀 수 있습니다

당신이 필요로하는 강력한 것들 Spark에 대해 별도의 클러스터를 만들지 않습니다 클러스터를 분리하거나 대량 생산할 수 있습니다 마찬가지로, 만약 당신이 이미 완료 되었으면 Apache Spark에 사용할 수 있습니다 보통 이것은 매우 강력합니다 MapReduce에 대한 이전의 모든 응용 프로그램이 배포되었습니다

YARN에서 Spark하고 그 다리를 가라 MapReduce에서 마이그레이션하려는 기업 아파치에게 그들에게 불꽃을 불어 넣어 삶을 만들고있다 당신이 직접 이야기 할 수 있기 때문에 매우 쉽습니다 클러스터 관리자를 변경할 필요가 없습니다 당신은 직접 작업을 시작할 수 있습니다

원사가 무엇인지 모르는 사람들을 위해 그것에 대해 간단하게, 이것은 클러스터 리소스 관리자입니다, 더 많은 것을 보자 이제 스파크는 어떻게됩니까? Hadoop을 사용하면 그건 스파크가 대체 할 의도가 아니었기 때문이야 하둡, 실제로이 사실을 명심하십시오 Hadoop 프레임 워크의 확장입니다 사람들은이 혼란을 많이 말합니다

우리는 하둡을 대체 할 것입니다 그들은 대체 할 수 없습니다 아직도 모든 것을 고갈시키고있다 당신은 HDFS를 사용하고 있습니다, 당신은 원사를 사용하고 있습니다 그러나 당신이 변화하고있는 처리 스타일 그래서 Spark은 Hadoop을 대체하지 않을 것이며, 사실 확장 기능이라고 부를 수 있습니다 두 번째로 Hadoop 프레임 워크의 MapReduce로 Spark에 대해 이야기 할 때, 이제 그들은 함께 일할 수도 있고 때로는 함께 일할 수도 있습니다

그들은 새로운 응용 프로그램이 아니며 지금은 아닙니다 매우 드문 응용 프로그램이지만 응용 프로그램이있을 수 있습니다 그들이 다시 나누기 위해 쓰는 코드의 일부가 있습니다 MapReduce로 작성한 코드의 일부 이 모든 것이 가능합니다 MapReduce가 필요없는 코드 변환 회사 아파치에게 그들은 시간이 필요할 것 같은데 그들에게 정말로 중요한 발의 그들은 Apache Spark와 관련하여 처리를 시작할 수 있습니다

지도의 나머지 부분은 그대로 그대로 둘 수 있습니다 그러니 천천히 계속 변환 할 수 있습니다 그들은 또한 함께 일할 수 있기 때문에, 그래서 만약 당신이 혼자 스파클을 제공하지 않습니다 어떤 분배 된 그들에 의해 확실히 걸음 나는 의미한다 이미 독립형으로 사용하고 있기 때문에 데이터로 사용하지 않는 경우 그 경우에 확실히 당신은 해방되지 않습니다 Apacaha Spark가 단일 프로세스로 만듭니다 이제 더 나아가 중요한 기능은 무엇입니까? 아파치에서 스파크, 확실히 속도, 다각형, 다각형은 사용할 수있는 여러 언어를 의미합니다

칼라, 파이썬, 자바, 많은 언어들이다 많은 분석을 수행 할 수 있습니다 메모리 계산에서 우리가 실행 중일 때 메모리의 모든 것을 인 메모리 계산이라고합니다 Hadoop을 통합 할 수 있습니다 기계 학습을 적용하면 매우 강력한 아파치, 그것은 매우 강력합니다 Hadoop이 분명히 사용하지 않거나 이렇게합니다

지금도 우리는 마스트 아웃을 가지고 있습니다 대량 학살에 대해 듣지 못했지만 모두들 바란다 가지고 있어야하고, 그렇지 않다면 나는 단지 당신을 설명하게한다 massout은 MapReduce 프로그래밍 프레임 워크입니다 귀하의 기계 학습 알고리즘을 작성하는 데 사용됩니다 그래서 Mahal에서 기계 학습 알고리즘을 작성할 수 있습니다

지금 MapReduce는 문제를 변환하는 데 어려움을 겪고 있습니다 MapReduce에서 지불하고 당신은 내려하지만 이제 MapReduce 자체가 더 느립니다 기계 학습 알고리즘은 매우 이 때문에 자연적으로 수분이 풍부하다 당신의 처형은 마할에서 매우 느릴 것입니다 기계 학습 알고리즘이 이미 더 느리기 때문에 사실 MapReduce 프로그래밍은 본질적으로 느리다

그 마하오 때문에 이제 가끔 비워 졌어 출력물을달라고 요청했는데, 나는 말하고 있지 않다 약간의 시간도 실행하기까지 작은 데이터 세트라면 시간이 많이 걸릴 수도 있습니다 이제 이것은 마호를 가진 중요한 문제입니다, 스파크가 무엇을 생각해 내는지 알아라 SMLA라는 매우 유명한 프레임 워크, Spark MLA, 그는 마호를 대신합니다

이제 MNLA에서 모든 처리가 이루어질 것입니다 기억하기 때문에 대화를 알게 될 것입니다 수분 공급조차도 무슨 일이 일어나고 있는지 기억 속에서 이렇게 될 것입니다 매우 빠른 것, 지금 이것 때문에 MapReduced 프로그래밍이 어떻게되었는지 마할이 사용했던 사람들은 그것을 사용을 중단했습니다 이제 그들이 멈추는이 부분에서 어떤 일이 일어 났습니까? 실제로이 핵심 도구를 사용하여 핵심 개발자 이 마할의 MLA라고하는 단어에 말을 걸어도 지금 마할의 핵심 개발자, 그들 자신 네가 원하면 기계 학습 진행을보다 잘 실행 Spark 프레임 워크에서만 사용할 수 있습니다

실행보다는 Spark MLA를 사용하여 실행 하둡에서, 그게 이유 야 빅 데이터에 대한 기계 학습 알고리즘 모두가 스파크 MLA로 이동하고 있습니다 이 모든 부분을 자세히 살펴 보겠습니다 우리가 스페이스 바 싸움에서 지금 이야기 할 때 이 기능에 대해 논의하겠습니다 스파크는 100 배 빠른 속도로 작동 할 수 있습니다

왜 우리가 이미 알고 있는지 우리는 이미 스피드 네트워크를 가지고 있습니다, 지금 우리가 말할 때 우리는 방금 작성한 다각형에 대해 그리고 마루 자바와 하이브의 규모 그래서, 많은 언어가 지원되고 있습니다 이제 다음 스파크가 중요합니다 게으른 평가, 내가 너를 다시 데려다 줄거야 내 PPT에, 그래서이 경우, 지금은 무엇 실제로 어떻게됩니까?이 실행은 어떻게 여기에서 발생합니까? 그래서, 우선 여기서 일어나는 일은 이 산을 치 자마자 그렇게 좋아지지 않아 또는 섬유가 메모리를 넘어 즉시이를로드합니다 그것은 실제로 그렇게하지 않습니다

이 선을 치면 즉시 이 B 블록은 처음에는 비어있을 것이다 어떤 데이터도 보관하지 않을 것입니다 그러면 어떤 일이 일어날 것입니까? 지금이 숫자를 생성했습니다 다시 B 블록을 생성하고, B 블록을 생성합니다 및 B 6 개의 구획 그러나 그들 모두는 비게 될 것이다, 내부에 데이터가 없지만 filter1

collect를 변경하자마자, 지금 당신이 얻 자마자 무슨 일이 일어나는가? 이 filter1collect는 당신의 F 1에 갈 것입니다 B 4가 아닌 필터 하나를 의미하며, B 5, B 6, 그들은 그것을 말할 것입니다 귀하의 데이터를 인쇄하고 싶습니다 지금 어떻게 될 것입니까? 하나를 필터링하면 데이터가 없다고 말합니다

나는 현재 비어 있습니다, 지금 필터 하나가 갈 것입니다 요청 번호 RDD로 데이터를 제공합니다 이제이 B 하나, B 두, B 세 그들은 지금도 비어 있습니다하지만 그들은 또한 말할 것입니다 나는 비어 있습니다

Ftxt, Ftxt로 갈 것입니다 데이터를 num, num이 데이터를로드하여 하나를 필터링합니다 이 필터는 출력을 제공합니다

그래서이 것을 게으른 평가라고합니다 그 때까지는 행동을 취하지 않을 것임을 의미합니다 인쇄하지 않으면 사전에 실행하지 않습니다 그래서 모든 실행은 그 시간에 시작됩니다 네가 올 때 행동하고 행동하면 큰 프로그래밍 배경에서 그 시간까지 이미이 기능을 보았습니다

당신은 바보 진술을하지 않고 실행하지 않습니다 사전에있는 것, 이제이 부분을 Lazy Evaluation이라고합니다 우리가 원하지 않기 때문에 왜 게으른 평가입니까? 불필요하지만 중요한 때까지 기억 그때 우리는 출력 수단을 인쇄하지 않습니다 우리가 뭔가를 표시하고 싶지 않을 때 그들은 어떤 기관도하지 않을 것이며, 데이터가 메모리에 남지 않아야합니다 불필요하게, 이것을 Lazy Evaluation이라고 부릅니다

여기에서이 부분에 대해서는 Lazy Evaluation이라고합니다 이제 슬라이드로 돌아가 보겠습니다 이제이 부분을보세요 게으른 평가 속성, 이제는 실시간 컴퓨팅 데이터가 올 때와 같이 실시간으로 좋아 당신은 즉시 메모리에있는 물건을 교차 시작할 수 있습니다

그것은 이것이 우리가 가지고있는 네 번째 속성이라고 말했다 이미 볼 수있는 다섯 번째 속성 시작 이 DFS를 사용하면 MapReduce로 작업을 시작할 수 있습니다 우리가 논의한 것과 똑같은 일을 할 수 있습니다 사물처럼 기계 학습을 수행하십시오 그게 이것에 관한 부분입니다

이것이 귀하의 기계 학습을 적용하는 방법입니다 이것들은 스파크의 주요 특징입니다 이제 잠시 쉬고 나서 이야기 할 것입니다 생태계에 대한 세부적인 주제이기 때문에 거기서 나는 좋은 시간을 보낼 필요가있다 그래서 잠시 쉬자

그리고 나서 우리가 시작할 것이고, 그곳에서 휴식을 취한 후에 이야기 할 화제가 많이 남아 있습니다 우리는 또한 실천하고 따라갈 것입니다 결국 프로젝트를 통해 우리는 어떤 종류의 프로젝트를 할 것인가? 다음 학기를 시작할 것입니다 아파치 스파크 (Apache Spark)에 관한 이야기입니다 그러니 10 분 정도 휴식을 취한 다음 다시 돌아 가자

4시 30 분 친구들, 그럼 우리가 시작할거야 생태계와 실용에 대해 매우 중요합니다 그러니 제발, 그러니 4:30까지 돌아 오세요 그래서 모두들 다시 확인할 수 있습니다 모두들 나를 뒤통수 쳐 소리 쳐서 소리 지른다

그래서 더 멀리 나아가 자, 이제 스파크는 예를 들어 RDD 생성과 같은 작업 스파크 코어의 일부인 스파크 코어 모든 라이브러리의 주요 엔진입니다 예를 들어 스파크 시퀀스가 ​​있습니다 당신이 할 수있는 일, 당신은 쿼리를 작성할 수 있습니다 SQL 프로그래밍 방식과 온톨로지에서 당신의 길을 존중하여 회심을 얻으십시오 이것은 계산이 세계에서 일어날 것임을 의미합니다

두 번째로 빠른 심사입니다 그것 때문에 주요 구성 요소 우리가 수행 할 수있는 가능성이있었습니다, 실시간 처리가 가능하므로 스폿 스트리밍이 도움이됩니다 당신은 실시간 처리를 수행 할 수 있습니다 SparkMLib 왜냐하면 기계는 logarithim을 배우기 때문에 내가 토론 할 때이 부분에 대해 방금 토론했습니다 마호에 대해서, SparkMlib은 대체로 대체품입니다

왜냐하면 여기서 알고리즘은 YARN Hadoop에서 우리를 데려 갔다 SparkMLib에서 단 몇 초 만에 수의 토지가 크게 개선되었다 사람들이 그 다섯 graphX로 이동하는 이유 클래스 계산을 수행 할 수있는 곳 인쇄 추천을 연결할 수 있습니다 그래서 페이스 북의 친구가 그것을 생성, 내부 그래프 및 제공합니다 그래프 종류의 계산은 graphX를 사용하여 수행됩니다

Sparks R 이것은 새로 개발 된 회원입니다 그들은 여전히 ​​그것에 대해 노력하고 있습니다 이 버전 중 R은 분석가들이 사용하는 오픈 소스 언어 이제 스파크가 가져온 것 스파크에 대한 모든 애널리스트들은 간단합니다 그들은 이것을 다시 가져 와서 열심히 노력하고 있습니다

주식은 이미 그것을 만들었고, 이것은 가고있다 시장에서 차세대 제품이 될 것입니다 이제이 생태계가 어떻게 생겼는지, 그래서 예를 들어 여러 가지가있을 것입니다 우리가 스파크 시퀀스에 대해 이야기 할 때 가장 모든 계산이 존경심으로 일어나는 시대 RDD에 있지만 Spark에서와 마찬가지로 그는 SQL이라고하는 뭔가가 데이터 프레임이되었습니다 매우 유사한 명확한 RDD 그러나 유일한 차이 앉아있을 데이터가 본문에 표 형식으로 표시됩니다

지금이 경우에는 당신이 그것을 지키고있는 데이터 기능별로 열이 또한있을 것입니다 행 정보를 사용하면 열 정보도 갖게됩니다 그것이 우리가 RDD라고 부르지 않는 이유입니다 실제로 우리는 이것을 상위 3 위라고 부릅니다 마찬가지로, 기계 학습에서도 우리는 뭔가를 만드는 데 도움이되는 ml 파이프 라인이라고하는 것 여러 알고리즘을 결합하는 것이 더 쉽습니다

그래서 당신 ML 파이프 라인이 MLM의 관점에서 무엇을 할 것입니다 이제 스파크 코어에 대해 이야기 해 봅시다 스파크 코어 우리는 이미 거주하고있는 모든 데이터를 논의했습니다 신체에서 우리는 그 데이터를 RDD 이것이 당신의 스파크 코어 구성 요소에 대한 전부입니다 당신이 걸을 수있는 곳 대규모 병렬 시스템에서 모든 데이터가 마침내 다시 배포됩니다

그래서 모든 계산 또한 단호하게 일어날 것입니다 그래서 이것은 당신의 스파크 코어 구성 요소에 관한 것입니다 우리가 스파크의 건축에 ​​대해 이야기 할 때, 이제 이것을 당신의 이름 노드와 관련시킬 수 있습니다 귀하의 용 프로그램이 어떤 전화에 참석하는지 마스터 머신이므로 마스터 머신 비디오의 Spark 컨텍스트와 비슷한 작업자 노드 theta 노드라고 불리며, 그래서 우리는 주식을 표시한다 이 데이터 노드는 깨진 ​​노드로 네가 지킬 수있는 기억이 되라

우리가 세금 집행자라고 부른 기억의 그 공간 보시다시피 여기에 두 개의 데이터 노드가 있습니다 우리가 수행하고있는 명령에 대한 작업 당신이 지킬 RAM의 공간 모든 블록은 실행 프로그램으로 호출됩니다 이제 예를 들어 거주하고있는 블록들 당신은 도트 맵 로직을 사용하여 또는 10 미만의 값, 이제는 논리 RDD에서 실행중인 코드 작업이라고하기 때문에 작업이라고합니다 지금 거기 중간에 가게 매니저는 YARN과 같습니다 또는 무엇이든 지키고 싶은 YARN 부인 그것은 중간 물건이 될 것입니다

이 사이클 경로 컨텍스트로 이동합니다 그 다음에 YARN이 처형에 상처를 입을 것입니다 그러면 코드가 실행될 내부 실행 어디에서 작업을 수행 할 것인지, 또한 원하는 경우 데이터를 캐시하고, 데이터를 캐시하거나 처리 할 수 ​​있습니다 이제 Spark Streaming에 대해 이야기 해 보겠습니다 우리가 이미 토론 한 스파크 스트리밍 당신이 가진 좋은 시간부터 실시간 종류 사용할 수있는 처리 방법은 무엇입니까? 여기에 데이터를 가져 오는 즉시됩니다

데이터를 데이터로 분할하고, 작은 작은 데이터 만 있으면 바로 사용할 수 있습니다 완료된 메모리에서 처리합니다 Spark Screaming의 도움으로 그리고 당신이 만들고있는 마이크로 백업 데이터 Dstream이라고도합니다 이제 우리는 매우 높은 수준에서 이야기하고 있습니다 우리가 단지 너에게주고 싶어서 일들이 어떻게 작동하는지에 대한 아이디어지만 우리가 갈 때 방송국에서이 모든 것들이 스트림에 있습니다

확실히 2 년 반에서 3 년 만에 우리가 모든 것을 다 다루는 것은 불가능합니다 하지만 모든 주제에 대한 개요가 될 것입니다 내가 너에게주는 것은, 뒤로가는 것과 같다 스파크가 일반적으로 무엇인지, 예 스파크 엔진이 당신을 돕고 있습니다

스파크 또는 당신의 물건을 당신의 것으로 바꾼다 데이터 처리를 돕고, 이것이 스파크 처리의 역할입니다 이제 Spark 스트리밍에 관해 이야기 할 때도 마찬가지입니다 지금 당신에 대해 이야기하는 것처럼 스트리밍으로 스파크를 얻을 수 있습니다 실시간 데이터는 다음과 같습니다

당신은 벗어날 수 있습니다, 그것은 여러 소스에 대한 수 있습니다 당신은 카프카를 사용할 수 있습니다, 당신은 그것을 당길 수있는 Hbase를 사용할 수 있습니다 패킷 형식에서 어떤 종류의 데이터까지 실시간으로 데이터를 Spark 시스템에 가져옵니다 그 후에는 아무것도 적용 할 수 없으며, 당신은 스파크 SQL을 적용 할 수 있습니다 의미, 당신은 실행할 수 있습니다 그것 위에 당신의 SQL, 당신은 실행할 수 있습니다 귀하의 컴퓨터가 코드를 실행하고, 당신은 그것의 위에 간단한 RDD 코드를 적용 할 수 있습니다 무엇이든 출력에 다시 저장할 수 있습니다

Hps에서 SQL kafka 마지막 비트 검색 네가하고 싶은 것은 무엇이든 주 예, 언제 데이터가 실시간으로 여기에 남습니다 즉시 같은 크로스를 시작합니다 따라서 다른 라이브러리에서도 데이터를 가져올 수 있습니다 즉시 행동을 시작할 수 있습니다 이제 이것은 여러분이 할 수있는 것과 같은 예제입니다

카프카, HDFS / S3에서 데이터를 가져와 주식을 스트리밍으로 가져 오는 모든 출처에서 그런 다음 HDFS 또는 데이터베이스에 저장하거나 어디서나 UI 대시 보드 비슷한 것들이 당신이 좋아할 것입니다 변환 할 입력 데이터 스트림 작은 전화 데이터의 일괄 처리 및 그 다음 자체의 일괄 처리 당신은 모든 것을 출력 할 것입니다, 그래서 무슨 일이 일어나고 있니? 당신이 만들고있는 데이터의 실천 그래서 나는 작은 것들을 작은 RDD라고 부를 수 있습니다 내가 뭘 만들고있어, 그게 이유 야 여기에 표시되므로 깊은 느낌을 얻고 있습니다

데이터 일괄 처리를위한 작게, 아마도 이것은 활동입니다 짧은 시간 동안 생성 될 것입니다 이제는 모든 결과가 주어집니다 그래서 이것은 매우 높은 수준의 그림입니다 스트리밍 경로가 어떻게 작동 할 것인가

Spark SQL과 유사하게 매우 강력합니다 그것은 당신에게 매우 빨리 결과물을 줄 수 있기 때문에 Spark이있는 SQL을 가지고 있다면 실행할 수 있습니다 스파크 SQL이라고합니다 이제 Spark SQL은 구조화 된 데이터를 처리 할 수 ​​있습니다 세미 구조화 된 데이터는 처리 할 수 ​​없습니다

어쨌든 당신의 비정형 데이터 우리는 SQL 쿼리를 수행하므로 이해가됩니다 그것은 반 구조화 및 구조화 된 데이터는 구조화되지 않은 데이터가 아닙니다 스트리밍 데이터 구조에서 그것은 구조화 될 것이다 그것은 구조화 된 데이터가 될 것이지만 이것은 될 것입니다 구조화 된 데이터로 다양한 형식 지원 당신은 같은 여러 형식에서 데이터를 가져올 수 있습니다, 마루, 제이슨, 어쨌든 하이브는 모든 검색어와 비슷합니다

다른 일을 할 수있는 것은 신념입니다 누가 그렇게 할 수 있는지, 데이터 프레임을 사용할 수 있는지 RDD로도 셔플 할 수 있습니다 Spark SQL에서 모든 일이 가능합니다 당신의 하이브와 비교하면 성능 이게 빨간색 표시라면 자기 시스템에서 매우 높습니다 다른 하나는 Hadoop 시스템입니다

당신이 쉽게 우리가 복용하고 있음을 볼 수 있습니다 Hadoop 시스템과 비교할 때 시간이 훨씬 적습니다 하지만 이것이이 Spark QSL을 사용할 때 가장 큰 이점입니다 이제 Java 드라이버 인 JDBC Java를 사용합니다 또는 Oracle 드라이버 인 ODBC 드라이버 연결 만들기를위한 연결 사용자 정의 함수를 만들 수도 있습니다 하이브 (Hive)에서와 마찬가지로, 스파크에서도 그렇게 해

이미 사전 작성된 API가있는 경우 당신이 만든 크리에이터가 없다면 그것을 사용할 수 있습니다 UDF를 모르는 경우 실행할 수 있습니다 매체 개념의 높은 발생률뿐만 아니라 높이가 일반적인 개념이다 자신 만의 함수를 만들 수 있습니다 쓸 수 있습니다

자신의 Java PUD를 함수로 사용할 수 있습니다 귀하의 후속 또는 유형의 귀하의 UDF를 다시, 그래서 이것은 귀하의 스파크 SQL을가는 방법입니다 이제 일반적으로 워크 플로가 정확합니까? 당신은 어디서부터 데이터 소스를 가지게 될 것인가? 데이터를 가져올 것입니다, 당신은 변환됩니다 데이트 API에, 데이터 API는 단지 유사한 것을 의미합니다 RDD로 보내지 만 표 형식이어야합니다 그래서 열 정보뿐만 아니라 행을 가질 것입니다

이제 이름 열을 갖게 될 것입니다 너는 개 심자를 해석 할 것이다 그것은 계산을하는 통로에 Spark SQL 서비스가 실행 중입니다 결국 당신은 제공하려고 노력할 것입니다 그래서 이것은 높은 수준의 그림입니다

SQL 투표를 통과하는 방법에 대해 설명합니다 이제 Mllib에 대해 이야기 해 봅시다 기계 학습 라이브러리는 두 종류가 있습니다 하나는 alogarithm이고, 초는 감독되지 않은 대수입니다 무 감독 알고리즘 당신은 이미 출력을 알고있다 당신은 이미 그 부분을 알고 있습니다

당신은 뭔가 새로운 것을 예측하고 있습니다 너는 아무것도 모르는 학습을 제공한다 데이터에 대해 이전 날짜 출력 및 원하는 결과 그것으로부터의 결과물, 이것은 감독되지 않은 학습입니다 따라서 Mllib은 우수한 평점을 처리 할 수 ​​있습니다 현재 감독하에 있습니다

우리는 분류, 회귀, 마찬가지로 우리는 클러스터링, SVD 모든 것은 감독되지 않은 사람들도 이용할 수 있습니다 패키지에 포함 된 내용은 여기에 적습니다 단지 실패를 만듭니다 입자의 한계가 있습니까? 아니, 그런 제한이 없어 새미, 알았어 사용할 수있는 모든 것을 실행할 수 있습니다

사실 make라는 이름이 있습니다 당신의 Spark Context는 또한 당신에게 높은 맥락을 가지고 있습니다 이제 상위 쿼리를 실행하려면 파이프 컨텍스트의 도움으로 무엇을 할 수 있습니다 그러한 제한이 없으므로 여전히 코드 높이 쓰기 직접 실행할 수 있습니다 이제 더 나아가 우리가 가진 기술은 무엇입니까? Sparks SQL의 다양한 데이터 소스는 무엇입니까? 그래서 우리는 이미 같은 것을 논의했습니다

우리는 파 켈 (Parquel), 제이슨 (Jason) 내가 너에게 다시 보여주기 위해 돌아 가자 당신은 CSV, 데이터베이스에서 HBase, 오라클, DB, 내 SQL 패키지 및 모든 이것들은 여러분의 데이터입니다 그래서 모든 데이터 소스에서 가져올 수 있습니다 데이터 소스가 너무 많아서 더 이상 사용할 수 있습니까? 아니오, 분류에서 일반적으로 어떤 일이 발생합니까? 예를 들어 주기만하면됩니다

스팸 전자 메일 상자 란 무엇입니까? 나는 스파 킹을 봤어 Gmail의 스팸 이메일 상자에서 이제 새로운 이메일이 나옵니다 Google이 스팸 전자 메일인지 여부를 결정하는 방법 또는 스팸이 아닌 이메일을 분류의 예에는 3을 더한 것입니다 Google 뉴스에서 볼 수 있다고 가정 해 봅시다 당신이 무언가를 타이핑 할 때처럼 모든 뉴스를 모아서 클러스터링이라고합니다

회귀, 회귀는 또한 매우 중요한 사실, 그것은 여기에 없습니다, 회귀가 없다 집이 있다고 말할 수있다 너는 그 집과 너를 팔고 싶다 최적의 가격이 무엇인지 전혀 모른다 집을 임대해야합니다

이제이 회귀가 당신을 달성하는 데 도움이 될 것입니다 네가 본 협업 벤틀리 아마존 뒷 페이지로 이동하면 그들은 당신에게 추천을 보여줍니다, 당신은 이것을 살 수 있습니다 당신이 거기에서 사기 때문에 이것은 끝났습니다 협업 필터링의 도움을받습니다 따라서이 알고리즘은 추천 팩 graphX graphX에서 다시 한 번 중요한 자신감 당신은 모든 문제를 적용 할 수 있습니다, graphX에서 모든 문제를 해결할 수 있습니다

이제 우리에게는 가장자리가있는 여러 가지가 있습니다 관계를 나타냅니다 이제 이걸 다시 볼 수 있습니까? Bob, Carol 이것들은 어디에서 나옵니다 당신은 잎이라고 부를 수 있습니다 이제는 커넥터입니다

그 (것)들 사이에서 H로 불린다, 저것은 다만이다 여기에 화살표가 있으면 지금 여기에 표시됩니다 우리가 본 것처럼 직접 그래프라고 불리는 계보에서도 뭔가 그래서 당신의 유향 그래프입니다 이제 사용 사례는 무엇입니까? 몇 가지 예를 살펴 보겠습니다 이제 여러분 모두는이 Google지도를 보았을 것입니다 구글 맵 당신이 그것을 테스트해야합니다, 이제 구글 맵 그리고 그 뒤쪽에있는 그래프 X 당신이하는 일은 당신이하지 않는 것을 적용 할 때입니다

실제로 한 부분 만 검색하면된다 여러 부품의 경우 최적의 진흙 경로를 보여줍니다 그것은이 시간보다 적거나 링크 거리 일 수 있습니다 지금 계산이 모두 무슨 일이 일어나고 있는지 구덩이 그 모든 것을 검사하는 그래프를 계산하는 것 모든 시간을 계산하는데 소요되는 시간이 줄어들 것입니다

그것은 graphX의 도움으로 끝난다 마찬가지로 보호 기능에 대한 많은 예제가 있습니다 이 graphX를 사용해 주셔서 감사합니다 그들이 본 트위터 또는 LinkedIn을 참조하십시오 친구 추천, 즉 모든 것이 끝날 수있다

그래서 모든 권장 사항은 그래프를 생성하고 그 모든 것을 기반으로 그들은 산출하고 당신에게 산출을 준다, 그래서 거기 또한 graphX ​​실행이므로 graphX는 우리와 함께 사용할 수있는 매우 강력한 대수입니다 이제 프로젝트로 이동하기 전에 너에게 실제적인 부분을 보여주고 싶다 우리가 스파크 것들을 어떻게 수행 할 것인가 VM 머신으로 데려다 드리겠습니다 감독이 제공 할 것이므로이 기계의 감독이 제공하기 때문에 내가 어디에서 갈지 걱정하지 마라

소프트웨어, 내가이 시점에서 무엇을 할 것인가? 그곳에서 모든 역할이 감독의 감독을 받는다 이제 일단 당신이이 곳에 오면 당신은 보게 될 것입니다 이런 기계는 나에게 이것을 시키자 그래서 무슨 일이 생기면 이처럼 빈 머신이 보일 것입니다 이걸 보여 드리죠

하지만이게 당신 기계예요 당신은 무엇을 하려는지 지금처럼 보일 것입니다 일하기 시작하면 이 검은 색 옵션을 클릭하여이 영구 보존 물 그 후에 당신이 할 수있는 일은 당신이 할 수있는 일입니다 이제 너의 스파크에 가지마, 내가 어떻게 일할 수 있을까? 어떤 프로그램을 실행하기 위해 Spark와 함께 스칼라 프로그램을 사용하여 스파크에서 당신을 그것을로 입력됩니다 (말도 안되는 소리) 스파크주의를 입력하면 ELA Pro에 연락하여 경로 프로그램을 작성할 수 있습니다

그러나 ELA 프로그래밍 언어를 사용합니다 당신은 이것을 볼 수 있습니다, 이제 당신은 스파크를 볼 수 있습니까? 그것은 또한 나에게 한 포인트 5 포인트 두 버전을 제공하고 있습니다 스파크 버전입니다 이제 볼 수있는 여기를 볼 수 있습니다 이 부분 컨텍스트는 사용 가능한 상태로 제공됩니다 스파크 쉐이크에 연결되면 당신은 이것이 기본적으로 사용 가능하다는 것을 볼 수 있습니다

너에게,이 공격에 약간의 시간이 걸리게하라 이제 우리는 모두 연결되어 있으므로 연결되었습니다 이 스케일 무도회에, 지금 내가 원한다면 그것의 안에서 나는 단지 타입 출구를 부를 것이다, 그것은 단지 내가이 블록에서 나오게 할 것이다 이제 두 번째로 내 프로그램을 작성할 수 있습니다 내화물로, 내가 할 수있는 일 Spark에서 프로그래밍하고 싶다면 그러나 파이썬 프로그래밍 언어 나는 Spark box와 연결할 것이다

그래서 연결하기 위해서는 Spark를 입력하면됩니다 내 데이터로, 나는 지금 연결되지 않을거야 파이썬이 필요하지 않기 때문에 나는 지금 스칼라 모든 것을 설명 할 것이다 하지만 연결을 원한다면 입력 할 수 있습니다 현장에서 다시 내 스파크에 연결하자

그 동안이 연결되어지고있다 파일을 만들자 파일을 만들자 그래서 당신이 알아 차릴지라도 나는 아무것도 가지고 있지 않다 나는 이미 F

txt를 가지고 있으므로 cattxt라고 해봅시다 나는 1, 2, 3, 4, 5의 데이터를 가지고있다 이것은 나와 함께하는 나의 데이터입니다 나는이 파일을 밀어 붙이게 할거야

이미 선택했는지 확인하십시오 내 시스템에서는 DFS 시스템을 의미하는데, hadoop dfscatatxt 이미 사용 가능한지 빠르게 확인하기 만하면됩니다

좋아, 그런 파일이 없으니 내가 먼저 넣을 게 이 파일을 내 시스템에 보자 atxt 그래서 이것은 dfs의 기본 위치에 놓을 것입니다 지금 내가 그것을 읽고 싶다면 나는이 길을 볼 수있다

다시 한번 저는 여러분이 알고 있다고 가정합니다 이걸 최고의 점수로 생각하면 지금 볼 수 있습니다 이 하나, 둘, 셋, 넷, 다섯이오고있어 Hadoop 파일 시스템에서 이제 내가하고 싶은,이 파일을 사용하고 싶습니다

내 스파크 시스템에서 지금 어떻게 할 수 있니? 그래서 내가 여기 스칼라와 스칼라로 들어 가자 정수 float이없고 Java와는 다릅니다 당신이 integer와 같은 정의를 사용할 때 우리가 정의하는 데 사용하는 것과 같이 10과 같습니다 하지만 스칼라에서 우리는이 티커 테이프를 사용하지 않습니다 사실 우리가하는 일을 그래서 내가 10을 동등하게 사용하면, 자동으로 식별합니다

알 수없는 정수 값입니다 그것은 정수형이라고 말해 줄 것입니다 이제이 값을 20으로 업데이트하려면 나는 그것을 할 수있다, 내가 지금 갱신하고 싶은지 말하자 이런 식으로 ABC로 가면, 화살을 움직일거야 a는 이미 정수로 정의되어 있기 때문에 일부 ABC 문자열 유형을 지정하려고합니다

그래서 그것이 당신이이 화살을 가지고있는 이유입니다 비슷하게, Val이라는 또 하나의 것이 있습니다 발 B는 10과 같다면 할 수 있습니다 그것은 그것과 정확히 똑같이 작동 하나 하나 가지고있다 이 경우의 차이점은 B가 같으면 같음 ~ 20, 오류가 표시되며이 오류의 원인 왜냐하면 당신이 뭔가를 val로 정의 할 때 그것은 상수입니다

견딜 수 없을 것입니다 더 이상, 그것은 상수가 될 것입니다 뭔가를 val로 정의하면 그 이유가 있습니다 업데이트되지 않을 것입니다 해당 값을 업데이트 할 수 없습니다

그래서 이것은 당신이 할 줄 알았어요 귀하의 프로그램, 그래서 다시 가변 부분에 대한 당신의 일정한 가치를위한 발의 이제 너는 이렇게 될거야 이제 예제로 사용 해보자 우리가 배웠다면, 이제 내가 만들고 싶으면 자동차 번호 때문에 TV 번호 sc

textfile과 같습니다 이미 파일로 말한이 API를 기억하십시오 sctextfile 이제이 파일을 atxt로 보냅니다

내가이 파일을 atxt로 주면 스파크를 거의 보지 못했다 문자열 유형의 RDD를 만들었습니다 원하는 경우 지금 이 데이터를 읽으려면 numbercollect를 호출합니다

사용 가능한 값이 인쇄됩니다 너는 볼 수 있니? 여기에서 볼 수있는 것은 당신의 기억에서 나온 것입니다 이것은 읽고있는 메모리에서 나온 것입니다 그것이이 특별한 방식으로 나타나고있는 이유 그래서 이것은 당신이 당신의 단계를 수행하는 방법입니다

이제, 내가 말했던 두 번째 일은 스파크 독립 실행 형 시스템에서 걷는다 고 말하면서, 그래서 지금 무슨 일이 일어 났는지는 우리는이 부분을 우리 역사에서 실행했습니다 이제 로컬 파일 시스템에서이 작업을 실행하려면 그럴 수 있겠습니까? 그렇습니다 이 경우 그렇게하기 위해해야 ​​할 일 차이점이 여기에 올 것입니다 당신이 여기서주고있는 파일은 대신 너는 그렇게 함으로 너는 이 파일 키워드는 그 전과 후에 예를 들어 로컬 파일을 제공해야합니다 이 길은 무엇입니까 / 집 / 나는 그들이 오는가? 이 경로는 경로만큼 깊지 않은 로컬 경로입니다

그래서 / home / cat Eureka / atxt를 작성할 것입니다 자네가 이걸 주면 파일을 메모리에 저장하고 hdfs로는 저장하지 않는다 대신에 그걸로드 한 경우는 무엇입니까? 너의 하,이야, 그래서 그 차이가있다 그래서 두 번째 경우에서 볼 수있는 것처럼 나는 아닙니다

내 Hdfs를 사용하는 것조차도 무엇을 의미합니까? 이제 그들이 왜 이걸 설정했는지 말해 줄 수 있니? 입력 부분 옆에 존재하지 않기 때문에 여기에 오타를 입력했습니다 알았다면 이제 알겠습니다 왜 내가이 오류를 여기에서 얻지 못했을 까? 왜 내가 여기 다른 사람을 얻지 않았어? 이 파일은 존재하지 않지만 여전히 얻지 못했습니다 Lazy Evaluation으로 인한 오류 게으른 평가를 통해 잘못된 경로를 부여한 경우 다른 그것은 비어있는 거래를 만들었지 만 아무것도 실행되지 않았으므로 모든 출력 또는 장면에 오류가있을 수 있습니다 당신이 연결의 그 행동을 명중 할 때

이제는이 값을 수정하기 위해 필요합니다 이 에드카와 내가 연결하면이 시간을 연결한다 작동합니다이 출력을 볼 수 있습니다 하나 둘 셋 넷 다섯

이번에는 잘 작동하므로 지금해야합니다 평가를 같은 것으로 남겨 두는 것이 더 분명하다 잘못된 파일 이름을 지정하는 경우 문제가되지 않습니다 내가 생산 단위에서 스파크를 사용하고 싶다고 가정 해보자 하지만 Hadoop 위에는 가능하지 않습니다

그렇습니다 너는 그럴 수 없어, 너는 그거 할 수있어 미안해 하지만 대개 그건 네가하는 일이 아니라 네가하는 일이야 원한다면 할 수있는 일이 많습니다

당신은 아마존에 그것을 배치 할 수 있습니다 당신이 거기에서 할 수있는 많은 것을 클러스터하십시오 이 경우 분배를 어떻게 제공 할 것인가? 다른 배포 시스템을 사용할 것입니다 그래서이 경우 당신은이 팩을 사용하지 않습니다 당신은 그것을 배포 할 수 있습니다 가지가지 종류의 물건을 나누어 배포 할 수 없다

클러스터에서 당신은 해방되지 못했습니다 그 중복성은 아마존도 아마 뉴스 다 그것으로 충분하기 때문에 그렇게 할 수 있습니다 이걸 사용하면 이제 얻을 수 있습니다 그래서 이것은 당신이 당신의 길을 어떻게 수행 할 것인가입니다

내가이 길에서 너는 어떻게 일할 지 말하기 때문에 내가 너에게 말했듯이 너를 설명 할거야 그래서 이것이 어떻게 작동하는지입니다 이제 재미있는 사용 사례를 살펴 보겠습니다 그래서 우리 PPT로 돌아 가자 이것은 매우 흥미로울 것입니다

이 사용 사례를 보자 이 유스 케이스는 매우 흥미 롭습니다 스파크를 이용한 지진 감지 용 그래서 나는 이미 일본을 보았을지도 모른다라고 생각한다 이렇게 많은 지진이 올 수도 있습니다 그것에 대해 들었습니다

분명히 가질 수 있습니다 네가 들었음에 틀림 없다고 생각하지 않았다 일본에서 일어나는 돌연변이가 너무 많다는 것 예산 문제를 해결하는 방법 그래서 나는 너에게 엿볼 것을 줄 것이다 우리가 세션에서 어떤 종류의 문제를 해결했는지, 확실히 우리는 자세히 걷지 않을 것입니다 이것에 관해서는 Spark가 얼마나 자주 있는지를 알게 될 것입니다

여기서 간단한 설명을 드리겠습니다 그러나이 모든 목표는 그 당시 배울 것입니다 세션의 이제, 그래서이 부분을 보자 이 사건을 어떻게 사용하게 될지, 모두들 어떤 질문이든 알고 있어야합니다 그래서 나는 깨질거야 너의 표면이 흔들리는 것 같아 너의 집이 떨리는 거지, 사실 일어나는 모든 사건들 인도 출신이라면 최근에 보았을 것입니다

온 지진 사건이있었습니다 최근 네팔에서도 네팔에서 싸운다 그 사건이 있었는데, 이것들은 빠른 유지입니다 와서, 지금 매우 중요한 부분은 지진이 큰 지진이라면 earthquick 또는 어쩌면 쓰나미처럼 산불이 화산일지도 모릅니다 이제는 그들에게 친절을하는 것이 매우 중요합니다

균열이 올 것 같아요 그들은 그것을 예측할 수 있어야합니다 미리, 그렇게해서는 안된다 그들이 나가기 위해 나간 마지막 순간 그 후 온 국기는 아무 협박도없이 온다 그것은 그렇게 일어나서는 안된다

이 모든 것들을 미리 예측할 수 있어야한다 그들은 미리 예측할 수 있어야합니다 일본이 오늘 기름을 사용하고있는이 배출 시스템 실시간 유형의 사용 사례입니다 내가 제시하고있는 것이 일본이 이미 존재하기 때문이다 해결하기 위해이 경로를 사용하여 펭귄 이 지진으로 우리가 보게 될 것입니다

그들이 그것을 어떻게 사용하는지 이제 일본 지진 모델에서 어떤 일이 일어 났는지 말해 보겠습니다 그래서 지진이 올 때마다 예 : 오후 3시 또는 오후 2시 46 분 지금 일본 지진 조기 경보가 예측되었다 이제 그 일은 내가 예측 한대로 였어 즉시 그들은 학교에 경보를 보내기 시작합니다

모든 역의 공장까지 엘리베이터로 TV 방송국을 통해, 그들은 즉시 친절 모든 사람들에게 말했습니다 그래서 모든 학생들은 학교에 거기에 그들이 갈 시간이있어 책상 아래, 달리기 전의 탄환 열차 그들은 즉시를 제외하고 다르게 멈췄다 이제 탄환 열차가 흔들 리기 시작합니다

이미 초고속으로 연소하고있다 그들은 정렬이 없어야한다는 것을 보증하기를 원한다 그 사상자 때문에 총알 기차가 멈췄다 모든 엘리베이터들 달리는 리프트가 멈췄다

그렇지 않으면 어떤 사건이 일어날 수있다 60 초 전, 60 초 전 그들이 거의 알릴 수 있었던이 번호 모두, 그들은 메시지를 보낸다 그들은 TV에서 모든 것을 방송했습니다 그들은 즉시 모든 논문을 마쳤습니다 최소한이 메시지를 보낼 수 있도록 누구든지 그것을받을 수 있고 구원 받았다

수백만의 생명, 그래서 그들이 어떻게 할 수 있었는지 우리가이 모든 것을 다했다는 것을 성취하기 위해 팔꿈치 아파치 스파크의 그들이 어떻게 지내기 전에 가장 중요하다 당신은 그들이하고있는 모든 것을 볼 수 있습니다 거기 그들은 실시간 시스템에서 그것을하고 있습니다 데이터를 수집 할 수 없으면 나중에 그들이했던 모든 과정은 실시간 시스템, 그래서 그들은 연결 즉시 처리되는 데이터 및 곧 그들이 지진을 감지하자마자 그들은 즉시 실제로 이것이 2011 년에 일어난 사실을 알려주었습니다 이제는 매우 자주 사용하기 시작합니다

일본은 이것은 매우 빈번하고 영향을받습니다 그래서 중요한 것은 우리가 할 수 있어야한다는 것입니다 데이터를 처리하기 위해 미디어에 문제가 없다 여러 소스의 데이터를 처리 할 수 ​​있어야합니다 그들은 여러 출처에서 올 수 있기 때문에 서로 다른 소스 일 수 있습니다

이 사건은 다른 어떤 사건이 수정 되었기 때문에 우리는이 일이 일어날 수 있다고 예측하고있다 그것은 매우 사용하기 쉬워야합니다 그것은 사용자를위한 것에서 매우 복잡합니다 그것을 사용하는 것은 매우 복잡해질 것입니다 문제를 해결할 수없는 경우 지금도 결국에는 많은 메시지를 보내는 방법 오른쪽 하단까지, 모든 것들 스파크가주의를 기울입니다

이제 두 가지 종류의 레이어가 있습니다 지진이 일어나면 프라임 기부와 두 번째 건물 스파크에는 두 가지 종류의 방법이 있습니다 초벌절 파도는 벤더와 같거나 언제입니까? 시작하려면 Dickey Center에서 시작하십시오 go 또는 20을 시작하여 시작할 것입니다

이차적 인 물결이 더 심하다 친구 한테도 불을 붙 였지 일단 시작되면 2 차 실패로 그것은 크게 손상을 입힐 수 있습니다 당신은 초기 파동을 말할 수 있지만 두 번째 파동 우리는 그것의 위에있을 것이다 그래서 그들은 발견한다 세부 사항을 만든다 그 점에 관해서는 그 세부 사항에 대해서는 언급하지 않을 것입니다

하지만 여기에 관해서는 그와 관련하여 몇 가지 세부 사항이있을 것입니다 이제 우리가 스파크를 사용하여 무엇을 할 것인가? 우리는 우리의 정직을 창조 할 것입니다 그럼 우리 기계에서 보자 우리가 OC보다 얼마나 싸게 계산할 것인가? 어떤 것을 사용하여 나중에이 문제를 해결할 것인가? 도움으로이 알파를 계산할 것입니다 스파크 시스템의 우리가 다시 와서하자 이 기계에, 지금 그 일을하기 위해서 일단이 용어를 빠져 나가면 빠져 나오십시오

이 관심사에서 지금 당신이하려는 일 나는이 프로젝트를 이미 만들었고 여기에 보관했다 왜냐하면 우리는 당신에게 이것에 대한 개요를주고 싶기 때문입니다 내 다운로드 섹션으로 가자 src라는 프로젝트가 여러분의 프로젝트입니다 처음에 당신이 가질 모든 것 너는 모든 일들을 처음부터 끝내지 않을 것이다

그래서 무슨 일이 일어날 지 그래서 내가 가면 여기에서 내 다운로드에는 alt 프로젝트가 두 개 있습니다 지금은 처음에는 내가 생각하는이 목표 디렉토리 프로젝트 디렉토리 우리는 SBT 심볼 위에 사용할 것입니다 가위 확장 도구를 SBT로 모르는 경우 모든 의존성을 처리합니다 check는 모든 의존성을 충분히 처리합니다 그래서 mebane과 매우 비슷합니다

이미 Mebane을 안다면, 매우 유사하지만 동시에 나는 선호한다 이 SBB는 SBB가 쓰기 쉽기 때문에 당신의 방법과 비교하여 이 법안을 쓸 때 생각을 쓰는 중이다 그래서 이것은 당신에게 buildsbt를 쓸 수있게 해줍니다 이제이 시점에서 프로젝트의 이름, 버전 의 스칼라 버전을 사용하여 당신은 의존성이 무엇인지를 사용하고 있습니다

당신은 어떤 버전의 의존성을 가지고 있는가? 당신은 예를 들어 4 개의 스파크가 있습니다 저는 152 버전의 스파크를 사용하고 있습니다 내 프로그램에서 뭐든간에 나는 무엇이든을 요구하는 경우에 쓰고있다, 스파크 작업과 관련된이 웹 사이트에서 가져 오기 org

apachespark, 다운로드하여 설치하십시오 Spark 스트리밍 프로그램에 대한 종속성이 필요한 경우 이 특정 버전 152 이 웹 사이트 또는이 링크로 이동하여 실행하십시오

가장 좋은 몫에서 비슷한 것을 말하고 있습니다 자, 일단이 작업을 완료하면 폴더 구조, 폴더 구조 SRC 폴더를 만들어야합니다 그 후에 당신은 메인 폴더를 만들 것입니다 주 폴더에서 다시 만들 것입니다 ELA라는 폴더 이제 그 안에 당신은 당신의 프로그램을 지킬 것입니다

그래서 지금 여기서 당신은 당신의 프로그램을 작성할 것입니다 그래서 너는 이걸 볼 수 있니? streamingscala, networkscala, rscala

그럼 아래의 블랙 박스로 유지합시다 그럼 당신은 달성 코드를 작성하는 것입니다 이 문제 성명서, 지금 우리가하는 것 이 일에서 나가자 기본 프로젝트 폴더로 이동하고 여기에서 당신은 sve 꾸러미를 쓸 것이다, 존경심을 가지고 다운로드가 시작됩니다 당신의 프로그램을 검사 할 것입니다 스파크 경로에 필요한 의존성 경로 스트리밍, Spark MLlib 다운로드 설치하고 다운로드하면됩니다

설치하고 실행하지 않을 것입니다 전에 이미 해 봤기 때문에 또한 시간이 걸리기 때문에 그 이유가 있습니다 나는 그것을하지 않고있다, 이제는 네가 채운 후에 이 패킷은 모든 디렉토리를 찾을 수 있습니다 직접 현장 프로젝트 디렉토리 이것들은 이것들의 나중에 만들어졌다 이제 어떻게 될 것인가? 이걸 만들었 으면, 이클립스에 갈거야

그래서 이클립스를 열고 이클립스를 열어 보겠습니다 모든 파일이 준비되어 있습니다 지금 나는 이미이 프로그램을 내 앞에두고있다 하지만 당신이 어떻게 데려 올지 말해 줄 게요 이 프로그램은 이제 너에게 갈거야

두 가지 옵션 모두에서 가져 오기를 선택하면 기존 프로젝트를 작업 공간으로 가져오고, 다음에 한 번 선택하면됩니다 예를 들어 주 프로젝트를 선택해야합니다 분화구를위한이 r2 프로젝트 좋아, 일단 그렇게하면 여기에 프로젝트 디렉토리가 있습니다 도구가 여기 올 것입니다 이제해야 할 일이 있습니다

너의 것과 같이이 프로그램을 모두 무시하라 클로렐라 만 있으면 돼 내 주요 기능 코드를 작성했습니다 이제 그 일이 끝나면 당신은 치유 사 응용 프로그램으로 실행해야합니다 코드가 실행되기 시작합니다

이제이 오류가 나를 반환합니다, 이 출력을 보자 자, 이걸 보면, 한 번 보여줄거야 실행이 끝났습니다 ROC 아래의이 영역을 자주 봅니다 그래서 이것은 모두 로우 패스 프로그램으로 계산됩니다

마찬가지로 다른 프로그램들도있다 속도를 화면에 표시하는 데 도움이 될 것입니다 나는 그 모든 것을 다 걷지 않고있다 이제 내 PPT로 돌아가서 우리가 무엇을 할 지 다음 단계는 무엇입니까? 그래서 당신은 이것을 볼 수 있습니다 엑셀 시트 나는 지금 ROC를 유지하고있다 이제 ROC를 만든 후에 우리는 그래프를 생성 할 것입니다

현재 일본에는 중요한 것이 하나 있는데, 일본은 이미 지진의 영향을 많이받는 지역이다 이제는 그 문제가 무엇이든간에 사소한 지진에도 마찬가지야 경고를 보내기 시작해야합니다 사소한 애정 때문에 모든 것을하고 싶지 않아 사실 건물과 기반 시설 일본에서 만들어진 것은 그런 식으로 여섯 가지 규모 아래 지진이 발생하면 거기에 가정의 방법으로 설계된 아무런 피해도 없으며 피해도 없을 것입니다

그래서, 이것은 당신이 일할 때 가장 중요한 것입니다 일본에있는 일본인들과 그래서 6이라는 의미는 묻혀 있지 않습니다 6 세 이상, 그들은 걱정하고 있습니다 이제 그들은 그래프 생성이 될 것입니다 네가 할 수있는 일, 너는 다시 할 수있어

이 그래프를 생성하면 너는 아무 것도 보지 않고 너는 가고있어 6 세 이상, 6 세 이상인 경우 우리는 즉시 그들을 시작해야합니다 이 프로그래밍 사이트를 알고 있다면 우리가 방금 만든 것입니다 너는이 실행 경로를, 지금 가지고 있다면 동일한 결과를 시각화하기 위해 이것은 무엇인가? 내 ROC를 보여주고 있지만 내 지진이 6보다 커지면 그때 파도 나 많은 것들만이 일어납니다 그렇지 않으면 평온을 유지하는 모든 사람들에게 배우십시오

그것이 프로젝트입니다 우리가 일반적으로하는 것입니다 우리의 공간 프로그램 디자인을 보여줍니다 이제는 우리가 친절한 유일한 프로젝트가 아닙니다 여러 개의 제품 세그먼트를 생성하는 방법 예를 들어 내가 좋아하는 모델을 만드는 것처럼 어떻게 벽을 만들지 않을 수도 있습니다

존경심으로 어떤 판매가 일어나고 있는지 스파크와 아파치를 사용하고있다 거기서 끝나고 산출물을 시각화하는 것 어떤 분석을 하든지간에 이 모든 것을 그렇게 주문하고 있습니다 우리가 세션을 할 때 우리는 당신을 걸어 간다 배운 모든 것들은 운임과 느낌 이 모든 프로젝트는 현재 사용 중입니다 당신이 화제를 알지 못하기 때문에 당신은 할 수 없습니다

그 때 프로젝트의 100 %를 얻으려면 주관적인 각 주제를 알게되면 당신은 스파크가 어떻게 생겼는지에 대한 명확한 그림을 갖게 될 것입니다 이 모든 새로운 공간을 끝내고 있습니다 그래서 우리가 토론하고 싶은 것을 선택합니다 두 번째 부분과 함께, 그래서이 세션을 바란다 여러분 모두에게 유용합니다

통찰력이 있습니다 스파크가 작동하는 방법, 왜 우리가 갈 거에요? 스파크와 무엇에 관한 이용 가능한 중요한 것들과 그게 중요해 (말도 안되는 소리) 그들 중 한 명에게서 질문이 있으면 물어보십시오 너 뭐야, 아파치 스파크 뭔가 리얼 타임에서는 아직 내가 거의 다 보통이다 실시간을 만들 수는 있지만 유용하지는 않습니다

그래서 우리가 시도하기 때문에 거의 원자로에 가깝습니다 어떤 사람들하고 너에게 말하고있어 정확히는 아니지만 심지어 내 목소리까지 도달합니다 최소한 몇 초 만에 최소한 당신에게 또는보고있는 경우에도 나노초 단위 내 화면에서 당신은 예외에서 그 데이터를 보지 못한다 스파크 리얼 타임 스쿼터에있는 것의 정의 할 수 없으므로 짝수가 될 것입니다

거의 실시간으로 불리는 사소한 지연 그것이 우리가 결정할 수있는 것입니다 일반적으로 이것이 우리가 설계하려고하는 것입니다 사실 그것은 거의 다른 질문 일 것입니다 누구든지이 세션은 매우 도움이됩니다 나는 오늘 나를 많이 고마워했다

그래서, 만약 당신이 세부 사항을 배우고 싶다면 당신은 Tilaka와 연락을 취할 수 있습니다 나도 거기있는 다른 사람이고 너에게 말해 줄께 이 시장에서 가장 인기있는 주제입니다 지금 당장 이용할 수있는 직업이 너무 많아요 내 말에 순종하지 말고 그냥 가라

당신이 최대 일자리를 볼 수있는 자신을 탐험 해보세요 큰 데이터를 가져 왔고 그 이유는 많은 사람들이 아파치쪽으로 움직이고 있습니다 드레이프 나는 그것을 배우는 많은 학생들이 머리를 가지고있다 우주선을 만드는 사람들이 많이있다 이 도메인에서 일을 성공적으로 마쳤습니다

이 모든 것을 흥미있게 만들어 주신 모든 분들께 감사드립니다 이 에드레카 세션을 좋아하길 바래 무슨 길을 다시 우리가 다시 한 번 에드레카 세션입니다 나는 너를 다시 한번보고 싶다 그래서 모두 감사합니다 이 비디오를 듣고 즐거웠기를 바랍니다

친절하게 대해 주시고 댓글을 달 수 있습니다 의심이나 의문이 생기면 우리는 대답 할 것입니다 가장 빠른 시일 내에 그 (것)들에게 더 많은 동영상을 찾아보십시오 우리의 재생 목록과 우리의 에드레카 채널에 가입 더 배우고 행복하게 배우기

Apache Spark – Computerphile

따라서 Apache spark는 MapReduce와 같은 클러스터에 분산 된 큰 데이터 처리를위한 또 다른 종류의 프레임 워크입니다 그 차이점은 그러한 계산이 어떻게 이루어 졌는지에 달려 있습니다

예를 들어 스파크로 계산에 더 많은 유연성이 있습니다 따라서 MapReduce를 사용하면 맵을 작성한 다음 스파크를 피할 수있는 방법이 없어지므로 줄일 수 있습니다 서로 다른 데이터 구조 사이의 조인과 같은 데이터에 대해 수행 할 수있는 다양한 작업로드를 제공합니다 왜 당신은이 목적을 촉발시키는 것이 많은 양의 데이터를 처리하는 것입니까? 따라서 주로 단일 노드에 맞지 않는 데이터입니다 많은 양의 데이터에 대한 계산도 있습니다 데이터를 순차적으로 이동하지 않으려 고합니다

그리고 계산의 일부분이 서로 독립적이어서 데이터 항목에서 수행 할 수 있다면 개별적으로 클러스터 전체에서 해당 데이터를 분리 할 수 ​​있습니다 그리고 그 단일 노드에 대한 계산은 데이터 지역이 인쇄 된 MapReduce와 정확히 같습니까? 데이터가 저장된 노드에서 다시 계산을 수행하고 그런 다음 그 결과를 원하는만큼 줄입니다 현재 다루고있는 주요 프로그래밍 구조를 탄력적 인 분산 데이터 세트라고합니다 보통 두 RDD보다 짧습니다 클러스터를 통해 확산되는 개체 모음의 일종입니다 그러나 프로그래머가 그 문제를 다루는 경우, 마치 단일 노드에있는 것처럼 상호 작용할 수 있습니다 그래서 이것은 여러분에게 숨겨져 있습니다

이것은 스파크 클러스터에 분포되어 있습니다 드라이버 노드가 있습니다 그런 다음 여러 작업자 노드와 드라이버 노드가 주 프로그램을 실행하고 있습니다 데이터에 수행하려는 변환 그런 다음 이러한 종류의 작업 노드는 작업자 노드로 전송되어 작업을 수행합니다

자신이 가지고있는 데이터 덩어리에 사실, 변환은 MapReduce와 유사 할 수 있습니다 따라서 여전히 동일한 맵 기능을 제공하고 기능을 축소하지만 그 위에 추가 기능이 있습니다 그래서 그들은 좋아한다 당신에게 직접 필터 작업을해라

그래서 당신은 당신이 할 수있는 것을 구현하기 위해 치과를 할 수 있습니다 RDD에서 필터 함수를 호출하고 이것이 사실 인 객체 만 반환한다고 말합니다 여기에서는 로컬 파일 시스템에서 텍스트 파일로로드하는 매우 간단한 스파크 예제를 얻었습니다 각 단어의 출현 횟수를 계산합니다 이는 MapReduce 예제와 정확히 동일합니다

우리는 지난 번에 보았지만 이번에는 이것을 실행하고 있습니다 좋아, 시작하자마자 우리는 spark 설정을 시작했다 그래서 우리는 우리가 현재 웹 UI 내에서 실행중인 작업을 점유 할 수있게하는 앱 이름을 설정합니다 그런 다음 스파크 마스터를 설정합니다 그래서 우리는 이것을 하나의 컴퓨터에서 로컬로 실행하기 때문입니다

그건 그냥 지역이야 그런 다음 스파크 컨텍스트를 설정하여 rdd를 다루는 스파크 기능과 같은 기능을 제공합니다 먼저 RDD에 데이터를로드해야합니다 그래서 우리는 필요한 텍스트 파일 기능을 사용하여이 작업을 수행하고 텍스트 파일의 내용을 RDD에 넣습니다 마치 배열과 같아지기를 원하면 배열과 같은 것으로보아야합니다

클러스터 전체에 분산 RDD의 각 요소는 텍스트 파일의 한 줄입니다 그런 다음 각 행을 분리합니다 평면 맵 기능을 사용하여 맵에서 데이터 세트의 모든 단일 항목에 대해 단일 기능을 사용합니다 그래서 모든 라인 우리는 그걸 단어로 나눈 다음 배열의 RDD에서 평면 맵을 사용하기 때문에 문자열의 RDD로 다시 그런 다음 Map Reduce 예제와 똑같은 과정을 거쳐야합니다 map 함수를 사용합니다

각 단어를 키 값 쌍으로 요약하여 키가 단어이고 값이 값 1 인 경우 그 시점에서 그 단어의 인스턴스가 하나 있습니다 그러면 새로운 RTD가 생기고 그 중 하나는 우리가 키로 축소합니다 그 대신에 Map Reduce가 줄어들 것입니다하지만 SPARC에서 줄이면 여기서 우리에게 줄 것입니다 드라이버에서 전체 RDD에 대한 단일 값은 키 테이크에 의해 줄어 듭니다

키 값 쌍의 ID D와 각 키에 대해 키 값을 결합하여 원하는 값에 적용하는 함수를 제공합니다 그래서 우리는 우리가 가지고있는 그 단어의 그 인스턴스의 수를 더하고 싶습니다 그래서 우리는 간단한 +를 사용합니다 그 값을 모아서 마침내 단어의 키 값 쌍과 인스턴스의 수를 포함하는 단어 수 RDD를줍니다 그 단어들 중

그래서 우리는 수집 기능을 호출하여이를 다시 드라이버 노드를 찾은 다음, 각 행에 대해 우리가 가지고있는 행들을 찾아냅니다 그래서 우리는 지금 당장 그 모든 말들을 계산합니다 이제는 컴퓨터에있을 수있는 코드가 작성되었습니다 클러스터에 있고 서버 팜이나 방대한 데이터 센터 또는 이와 비슷한 경우 어떻게 달라질까요? 어떻게 달라질까요? 따라서 로컬 컴퓨터뿐만 아니라 실제 클러스터에서도이 작업을 실행한다면 그때 코드 내에 master를 설정하고 로컬에서 실행되도록 설정하는 대신 당신은 당신이 클러스터에서 SPARC를 실행하게하고, 당신은 spark job을 제출하기 위해 spark submit이라는 것을 사용할 것입니다 스파크를 실행 한 다음 실행하십시오

그래서 그것은 그것들을 달리게하는 다른 방법 일 것입니다 기본적으로 클러스터에서 돈을 버는 경우에도 프로그램 내에서 하드 코딩하는 것이 아닙니다 나머지 코드는 동일합니다 그래서 내가 스파크로 해낸 작업은 다양한 종류의 텔레매틱스 데이터를 분석하는 데 사용되어 왔습니다 그들이 운전하고있는 로리와 그 데이터를 사용하여 식별 가혹하게 구석이나 가혹하게 부서지는 경우와 같은 사고가 발생하는 위치 연구 이외에 어떤 종류의 것들이 우리가 사용하는 불꽃입니다

예 그래서 Sparky는 실제 세계에서 꽤 많이 사용됩니다 처럼 당신은 많은 회사들이 대규모 일자리의 종류와 그들이 가지고있는 모든 데이터에 그것을 사용할 것이라는 것을 알게 될 것입니다 그것은 같은 분석이나 단순히 데이터를 처리하고 저장 장치에 넣을 때 사용할 수 있습니다 클러스터의 분산 컴퓨팅은 프로그램을 더 확장하려는 경우 추가하면됩니다 더 클러스터 노드와 같습니다 따라서 요점은 처리 능력을 높이고 싶지 않은 경우입니다

하드웨어 교체와 관련하여 새로운 하드웨어 구입 너는 너의 오래된 기계 설비를 지킨다 새로운 노드를 구입하고 끝에 붙이면 바로 처리 능력을 늘릴 수 있습니다 따라서 갑자기 게시해야하는 데이터를 더 많이로드한다고 말하면 오, 클러스터 크기가 그리울 것 같아 그건 좋지 않아 우리는 할 수있다

그런 다음 그것을 확장 한 다음 노드를 몇 개 더 추가하십시오 그래서 SPARC 프로그램은 자동으로 RDD로 자동 확장됩니다 이들은 불변의 데이터 구조이므로 다음과 같습니다 변경할 수 없다는 것은 변경할 수 없음을 의미합니다 권리? 그게 맞습니까? 예

네 그래, 그리고 그들은 불변이라 일단 그들이 만들어지면 바꿀 수 없다 그것들을 다른 기능에 전달할 수는 있지만 그 단일 RDD의 내용은 변경할 수 없습니다 그래서 스파크 프로그램이 끝나는 것은 일종의 사슬입니다 각각이 새로운 RDD를 생성하고 다음 RDD로 전달하는 변환 RDD의 장점은 메모리에서 지속될 수 있다는 점입니다 즉, 계산에서 나중에 다시 사용하는 것이 더 효율적이라는 의미입니다 그래서 hadoop mapreduce의 단점 중 하나는 기본적으로 MapReduce 계산 후에 디스크에 쓰고 물건을 쓸 때마다 다시 사용하고 싶습니다

그런 다음 디스크에서 다시 가져와야합니다 SPARC를 사용하면 rdd를 메모리에 유지할 수 있습니다 나중에 다시 돌아오고 싶다면 정말 쉽게 할 수 있습니다 대용량의 데이터를 말하는 것입니다 이 번호를 좀 써도 될까요? 우리가 여기서 뭘보고있는거야? 회사에 따라 달라질 수있는 이야기의 데이터 볼륨을 확인하십시오

아마도 기가 바이트에서 테라 바이트까지이며, 그 다음으로는 그러면 우리는 기본적으로 계속 올라갑니다

Hadoop Tutorial For Beginners | Apache Hadoop Tutorial | Hadoop Training | Edureka

안녕하세요 여러분, 에드레카에 오신 것을 환영합니다 초보자를위한 Hadoop 튜토리얼 비디오

이 자습서에서는 하둡의 기초와 불꽃 우리는 또한 두 가지 흥미로운 Hadoop을 사용한 대규모 데이터 활용 사례 및 스파크, 배울 수있는 더 좋은 방법 기술을 직접 습득하는 것보다 훨씬 쉽습니다 그래서 여기에 의제가 있는데 이것은 무엇입니까? 너는 오늘 훈련 안에 배울 것이다 이미 말했듯이 우리는 두 가지 큰 우리가 연구 할 데이터 사용 사례 첫 번째는 우리의 예비 선거이며 두 번째는 즉각적인 택시 시작입니다 우리가 시작할 uber 택시와 매우 흡사하다 둘 다 사용의 문제 진술 사례를 읽고 나서 배우십시오 빅 데이터 기술 및 개념 우리가이기 때문에 그들을 해결하기 위해 Hadoop을 사용하고 간단한 소개로 시작 우리가 이해할 수있는 하둡과 스파크 Hadoop의 구성 요소 이해 후 HDFS와 원사입니다

하둡 우리는 앞으로 나아갈 것입니다 스파크가 어떻게 작동하는지 배우고 우리가 갈 다른 구성 요소 K-means와 Zeplin을 이해하기 위해 k- 수단은 기계 학습 알고리즘이다 그리고 Zepplin은 우리가 갈 도구입니다 데이터를 시각화하고 마침내 우리는 사용의 해결책으로 진행할 것이다 데모가있는 케이스 우리 모두가 갈 수있어서 좋다

우리와 함께 시작하자 이 유스 케이스에서 선거 유스 케이스 우리는 2016 년에 대해 논의 할 것입니다 기본 선거 각 당의 경쟁자 선거 서로 경쟁하여 대담하다 그 자신의 정당은 최종 선거에는 두 가지 주요 미국의 정당 2 명 민주당과 공화당은 경쟁자 민주당 원은 Hillary이었다 클린턴과 버니 샌더스 외 그들 Hillary Clinton는 1 차를 이겼다 선거와 공화당의 경쟁자는 도널드 트럼프 테드 크루즈 이미 알고있는 다른 몇 가지 도널드 트럼프가 공화당은 이제 우리가 당신은 이미 분석가입니다 도널드 트럼프에 고용되어서 너 나는 무엇이 다른지 알고 싶다 이유 때문에 힐러리 클린턴 내 원정 경기를 원한다

캠페인을 통해 이길 수 있습니다 그녀를 위해 투표 한 사람들의 호의 그래서 이것이 전체 의제였습니다 당신에게 주어진 과제는 데이터 분석가 그래서 무엇이 제일 먼저 당신이 제일 먼저 할 일이 필요할 것입니다 데이터를 요청할 것입니다 나와 데이터 세트 두 개가 있습니다

이 데이터가 무엇인지 살펴 보겠습니다 세트가 포함되어 있으므로 이것이 우리의 첫 번째 데이터입니다 우리를 예비 선거로 설정 데이터 세트가 다르므로 우리의 데이터 세트에있는 필드는 첫 번째 필드는 미국이므로 우리는 알라바마 주정부의 상태 목록 알라바마의 약어입니다 알라바마에있는 다른 카운티들은 우리가 갈 볼드윈 Barbour 비트 Blount 수소 버틀러 등 우리는 Phipps 이제 Phipps 연방 정보 표준 코드를 처리하므로 기본적으로 우리는 우편 번호를 의미합니다 우리가 될 파티가있어

우리는 민주당을 분석하기 때문에 그 이유가 무엇인지 알고 싶다 우리가있을 힐러리 클린턴의 승리 민주당 만 분석 한 다음 우리는 후보자를 가지고 있고 내가 말한 이후로 버니 후보가 두 명 있었 잖아요 샌더스와 힐러리 클린턴, 그래서 우리는 후보자의 이름과 각 후보자가 얻은 득표 수 그래서 Bernie Sanders는 우리 투가에서 544를 얻었다 카운티와 힐러리 클린턴은 87에 도착했다 여기의이 분야에서 투표의 일부분 이 둘은 함께 1을 얻을 것입니다

이것은 기본적으로 백분율을 나타냅니다 각 후보자가 투표권을 얻었습니다 두 번째 데이터 집합을 살펴 보겠습니다 지금이 데이터 세트는 우리 카운티입니다 인구 통계 기능 데이터 세트 먼저 FIPS를 다시 r2 카운티 볼드윈이라는 지역 알라바마에있는 다른 다른 카운티와 다른 주들도 주 약자이다

여기 알라바마와 여기에서 볼 수있는 필드는 실제로 다른 기능들 정확히 무엇이 포함되어 있는지 알 수 없다 코드화 된 형식으로 작성 되었기 때문에 하지만 내가 이걸 어떻게 보여줄지 예를 들어 보겠다 데이터 세트에 나와 있습니다 너에게 몇 줄을 보여줄거야 데이터 세트 이것은 전체 데이터 세트가 아니므로 다음과 같은 다양한 필드가 포함되어 있습니다

2010 년 인구 2014 년 성비 몇 명의 여성이 남성인지, 그 다음에 어떤 민족성 얼마나 많은 요원이 얼마나 많은가? 흑인 미국인의 비율 얼마나 많은 아프리카 흑인이 살았습니까? 또한 연령대에 따라 아기 수 얼마나 많은 노인들이 얼마나 많은 성인인가? 우리의 데이터에는 많은 필드가 있습니다 이것이 우리를 분석하고 분석하는 데 도움이 될 것입니다 실제로 무엇을 이끌어 냈는지 알아 내라 힐러리 클린턴의 승리로 우리 데이터 세트를 보았습니다 데이터 세트 이해하기 무엇이 다른지 알아 내라

기능 또는 다른 점 열을 사용하고 당신은 전략을 생각하거나 생각해야합니다 어떻게 할거야? 분석하므로 전체 솔루션입니다 전략 그래서 당신이 할 첫 번째 일 데이터 세트가 필요하고 너와 두 데이터 세트를 가지고있어 네가해야 할 일은 그 데이터를 HDFS로 변환합니다 HDFS는 Hadoop입니다

분산 파일 시스템이므로 다음 단계는 데이터를 저장하는 것입니다 SPARC 구성 요소를 사용하여 데이터를 처리합니다 우리는 SPARC 속편 SPARC을 사용할 것입니다 M Lib 등등 다음 작업은 다음과 같습니다 SPARC 속편을 사용하여 데이터 변환 여기서 변환은 필터링을 의미합니다

데이터 및 행과 열 당신은 또는 이것을 처리하기 위해 다음 SPARC을 사용하여이 데이터를 클러스터링하는 단계입니다 em lib와 우리 데이터를 클러스터링하기 위해 k-means와 마지막 단계를 사용할 것입니다 다음을 사용하여 결과를 시각화하는 것입니다 현재이 데이터를 시각화 한 Zeppelin은 또한 매우 중요하기 때문에 시각화를 할 수 없다 주요 이유가 무엇인지 파악하고 너는 옳은 것을 얻을 수 없을거야

이제 귀하의 데이터에 대한 통찰력은 당신이 용어에 익숙하지 않으면 무서워 같은 불꽃은 Park M leg k-means와 같다 클러스터링하면 오늘 세션에서 이것들은 우리의 것입니다 전체 전략이 우리가가는거야 오늘 할 일은 우리가 어떻게 할 것인가하는 것입니다

이 유스 케이스를 구현하고 이유를 찾아야한다 힐러리 클린턴 상원 의원이 이겼다 결과를 시각화 한 것입니다 내가 가지고있는 분석을 보여 주겠다 수행 한 어떻게 보이는지 보여 줄게

내 마스터 노드에있는 Zeppelin입니다 내 Hadoop 클러스터에서 우리는 우리의 데이터를 시각화 할 것입니다 무서워하지 않는 코드가 많이 있습니다 스파크가있는 스케일러 코드 일뿐입니다 평등하고 결국 당신은 될 것입니다

이 코드를 작성하는 법을 배워서 시각화 부분으로 바로 넘어 가기 그래서 이것이 첫 번째 시각화입니다 우리는 그것을 가지고 분석했습니다 다른 인종에 따라 예를 들어 X 축에서 외국 태생의 사람들과 y 축에서 우리는 외국에서 태어났다는 것을 보았습니다 Hillary의 인기는 무엇입니까? 아시아 인들과 서클들 사이의 클린턴 가장 큰 값을 나타냅니다 우리가 가진 원이 더 큰 수입니다 이제는 좀 더 시각화를 만들었습니다

우리는 선 그래프를 힐러리 클린턴과 버니의 표결 다시 샌더스와 함께 우리는 Bernie를 비교하는 영역 그래프 샌더스와 힐러리 클린턴 투표 따라서 우리는 훨씬 더 시각화가 있습니다 우리는 막대 그래프와 마침내 우리는 또한 모든 것을 가지고있다 카운티 현명한 투표 분포 당신을 도울 이러한 시각화 답을 도출 할 결론을 도출하다 또는 도널드 트럼프에 대한 대답은 너를 원하고 너는 걱정하지 마라 내가 어떻게 설명하는지 배우는 법 내가 만든 방식의 모든 세부 사항 이제 이러한 시각화를 통해 두 번째 사용 사례를 살펴보십시오 인스턴트 택시 사용 사례 이제 택시 사용 미국에서의 시동 인스턴트 gabs 그리고 다시 한 번 우리를 분석하는 데 아주 훌륭한 직업 선거에서 다시 너를 고용했다

지금 기본적으로이 문제를 해결하십시오 회사는 수요가 무엇인지 알고 싶어한다 정확한 위치와 그 중 피크 시간과 그 시간 그들은 최대화하기를 원한다 벌집을 찾는 그들의 이익 그들이 많이 얻을 수있는 지점 픽업하고 택시를 거기에 가져 오는 중 피크 시간 동안 이것은 두 번째입니다 다시 한번 첫 번째 일 당신이 필요로하는 데이터 세트이므로 이것이 우리의 데이터 세트입니다 ~하기 위해 당신에게 주어진 분석하고 피크가 무엇인지 알아 내라

시간과 얼마나 많은 택시가 예상되는지 피크 시간대의 그 위치들 이것은 단지 날짜 / 시간 스탬프입니다 픽업 시간 및 픽업 특정 습관에 대한 날짜입니다 2014 년 1 월 8 일 자정 무렵 그리고 나서 위도와 경도 이것은 위치를 나타냅니다 픽업의 다음이 기지입니다 TLC베이스 코트에 있습니다 운전 면허증 번호처럼 이제 우리는 다시 전략을 세워야합니다

이 데이터를 어떻게 분석 할 것인가? 처음에는 CSV로 데이터를 가져 왔습니다 형식이 첫 번째 단계이며 당신은 다음에 다시 데이터를 얻었습니다 단계는 다음과 같이 HDFS에 데이터를 저장하는 것입니다 우리는 처음으로 다시해야만했습니다 이 데이터 세트 때문에 데이터를 변환하십시오

실제로 실제로 정말로 길다 행과 열이 많이 포함되어 있습니다 어쩌면 당신은 모든 것을 분석하고 싶지 않을 것입니다 한번에 필터를 다시 필터링 할 것입니다 그 후 행의 일부를 꺼내십시오

클러스터링을 다시 시작하기 위해 변형 k- 지금은 말하지 않을거야 걱정할 필요가 없습니다 시작하고 그것을하는 방법 및 클러스터에 의해 우리는 각각의 중심점을 찾을 것입니다 각각의 픽업 포인트 또는 각각의 벌집 포인트 그래서 우리가 수행하는 이유입니다 클러스터를 찾으려면 클러스터 센터는 우리가 기대할 벌집 지점 최대 픽업 회수 피크 시간이므로 이것이 전체입니다 이제 전략을 보여 드리겠습니다

이것과 같은 시각화 우리 선거를 위해 그렇게 했어 다시 도끼와 도끼 인 코드 spark 속편 코드는 나를 그냥 뛰어 내리게한다 시각화 부분에 직접 다시 이것은 우리의 x 축이고 우리는 픽업 횟수 및 y 우리는 시간이 있고 그것은 우리가 그룹으로 묶은 시간과 날 크기 및 개수에 따라 볼 수있는 픽업 수입니다 여기에서 볼 수있는 가장 큰 크기 이 것들이 있고 이것은 발견된다 네 번째 클러스터에서는 주위에있는 17 번째 시간 오후 5시 이것이 우리가 알아 낸 것입니다

우리가 분석하고 시각화 한 후에 우리의 데이터는 우리의 데이터 세트를 다시 설정하고 내가 얼마나 많은지 얘기 할거야 클러스터가 만들어지고 만드는 방법 다른 클러스터 및 찾는 방법 이 모든 것이 다시 나옵니다 uber 데이터 세트의 시각화 및 이 위치는 벌집 점을 식별하기위한 명령 다시 우리는 다른 시간에 따른 픽업 그래서 우리는 24 조각을 가지고있다 이쪽에서 너는 가장 큰 것을 볼 수있다 슬라이스는 열일곱시에 있고 4시 방향에 약 16 시간

오후 5 시이의 시각화입니다 이제 데이터 세트가 Google의 프레젠테이션을 통해 우리는 우리가 해야하지만 지금은 무엇을 이해하자 이 모든 것을 수행하기 위해서는 당신이해야 할 일은 무엇입니까? 알고 있거나 배울 필요가있다 당신이 배우기 위해 필요한 것 유스 케이스에 대한 분석 수행 소개부터 시작하겠습니다 하둡과 불꽃이 생겨서 우리가 이해할 것입니다 Hadoop은 무엇이며 스파크는 무엇이며 다음으로 우리는 깊은 잠수를 할 것입니다 하둡은 다른 것을 이해합니다

예를 들어 Hadoop의 구성 요소 저장 장치는 이미 알고있다 s DFS로하고 실을 Hadoop의 처리 단위 다른 도구를 사용할 것입니다 쉽게 할 수있는 아파치 스파크 하둡과 통합되어 더 나은 분석을 수행 한 다음 k-means와 Zeppelin을 이해할 것입니다 우리는 k-means 클러스터링을 사용했기 때문에 우리의 데이터를 클러스터하기 위해 Zeppelin을 시각화하기 위해 그것을 사용했다 그리고 나서 우리는 마침내 우리가 사용할 유스 케이스의 솔루션 직접 구현해야합니다

너가 배울 필요가있는 것 그래서 얻으 십시요 하둡으로 시작하여 우리가 할 수있는 불꽃을 일으킨다 Hadoop을 소개하고 스파크 그럼 이제 무엇을 보자 Hadoop은 무엇인가? 큰 프레임을 저장할 수있는 프레임 워크입니다 분산 방식으로 데이터 클러스터 그들을 평행하게 처리한다 Hadoop에는 다음과 같은 두 가지 구성 요소가 있습니다

스토리지에는 HDFS가 있습니다 Hadoop 분산 파일 시스템 모든 종류의 데이터를 덤프 할 수 있습니다 하둡 클러스터 전체에서 분산 된 방식으로 가공 전의 하드웨어 너는 아직 약자 야 또 다른 자원과 협상가 Hadoop의 처리 단위입니다 는 Hadoop 전체에 분산 된 데이터 HDFS의 클러스터에서 스파크가 발생했습니다

소호 파치 스파크는 아파치에 의해 인기있는 프로젝트이며 이것은 오픈 소스 클러스터 컴퓨팅 실시간 처리를위한 프레임 워크 반면에 Hadoop은 일괄 처리 스파크는 스파크로 실시간 처리 처리는 메모리에서 일어나고 에 대한 인터페이스를 제공합니다 다음으로 전체 클러스터 프로그래밍 암시 적 데이터 병렬 처리 및 오류 공차 그래서 데이터 병렬이란 무엇인가? 데이터 병렬 처리는 다중 병렬 처리 병렬 컴퓨팅의 프로세스 환경에서 많은 평행 단어 그 문장은 내가 너에게 간단히 말해 줄거야 그것은 기본적으로 에서 작동하는 노드 전반의 데이터 데이터 병렬 및 그것은 작동합니다 HDFS 및 s3과 같은 내결함성 시스템 원사 상단에 건축되어 있기 때문에 실을 사용하면 서로 결합 할 수 있습니다 아파치와 같은 도구가 더 나은 성능을 발휘합니다

데이터 처리 하둡 토폴로지를 보면 둘 다 스파크가 같아 마스터 / 슬레이브 토폴로지 고려할 경우 Hadoop의 토폴로지 용어 HDFS는 알려진대로 마스터 노드 작업 노드의 이름 메모로 슬레이브 노드는 데이터 노드 그리고 스파크에서 주인은으로 알려져있다 주인과 노예는 노동자라고 알려져 있습니다 이것은 기본적으로 데몬입니다 이것은 Hadoop에 대한 간략한 소개입니다

스파크를 치고 이제 살펴 보자 하둡을 칭송하다 항상 무엇에 관한 토론 이었는가? 브룩이 어떻게 발화할지 선택하고 완고한 사람이 있다고 말해줘 아파치가 불꽃을 일으킨다는 오해 Hadoop을 대체 할 가능성이 있습니다 Hadoop it의 시대를 끝내라 말하기는 매우 어렵다

두 명의 프레이머가 상호 배타적이지만 더 낫다 그들이 서로 짝을 지을 때 서로 다른 도전을 해봅시다 우리가 스파크를 사용할 때 우리가 다루는 Hadoop을 함께 사용하면 스파크가 데이터를 처리하는 첫 번째 지점 MapReduce보다 수백 배 빠릅니다 결과가 더 빨리 나오고 다음 시점에서 더 빠른 분석을 수행합니다 원사에서 실행할 수있는 스파크 응용 프로그램입니다

하둡 클러스터를 활용하면 Hadoop 클러스터는 일반적으로 우리가 얻는 상품 하드웨어 더 나은 처리하지만 우리는 매우 사용하고 있습니다 저가 하드웨어를 사용하면 그래서 우리의 비용도 많이 삭감했습니다 저렴한 비용 최적화 세 번째 포인트 아파치 스파크가 HDFS를 저장 장치가 필요 없으므로 다른 저장 장치가 필요하지 않습니다 아파치를위한 저장 공간은 네가 가지고 있지 않은 HDFS 자체에서 작동 같은 파일을 다시 복사하고, 그래서 스파크로 처리하고 싶다 파일의 중복을 피할 수 있습니다

하둡은 매우 강력한 기반을 형성합니다 미래의 빅 데이터 이니셔티브 및 스파크는 그 중 하나입니다 대규모 데이터 이니셔티브 강화 메모리 내 처리와 같은 기능 기계 학습 능력과 당신 Hadoop과 함께 사용할 수 있으며 너를 줄 수있는 필수품 기계 설비 최소 비용으로 더 나은 처리 이것들은 당신이 얻을 수있는 이점입니다 SPARC와 Hadoop을 함께 사용하면 큰 데이터를 분석하기 위해 일부를 보자 큰 사용 사례 – 첫 번째 큰 데이터 사용 사례 추천을 자세히 설명하는 웹입니다

엔진을 아마존이나 다른 온라인 쇼핑 사이트를 순서대로 당신이 볼 수있는 것을 사기 위해 추천 항목이 아래에 표시됩니다 화면 또는 화면 옆에 그것은 모두 큰 데이터를 사용하여 생성됩니다 분석 및 광고 타겟팅 페이스 북 너는 다른 많은 것을 본다 물건을 살 것인지 묻는 항목 검색 품질 남용을 클릭하고 사기 탐지 당신은 큰 데이터를 사용할 수 있습니다 분석 및 통신 고객 이탈을 알아 내기 위해 네트워크 성능 예방 최적화 분석 네트워크 실패를 예측하고 손실을 예방할 수있다 오류 전 또는 오류 전 실제로 그것은 또한 널리 사용되는 발생합니다

사기 탐지 및 소개하기 위해 사이버 보안 다른 복지 계획의 정의 건강과 삶에 널리 사용되었습니다 건강 정보 교환을위한 과학 유전자 시퀀싱 직렬화 건강 관리 서비스 품질 개선 및 마약 안전은 이제 내가 너에게 큰 데이터 분석은 매우 쉽습니다 특정 질병을 진단하기위한 명령 그리고 이것들도 치료법을 찾아라 더 큰 데이터 사용 사례도 있습니다 은행 및 금융 서비스에 진정한 위험 사기 탐지 모델링 신용 카드 채점 분석 및 많은 소매로 더 많이 사용할 수 있습니다

교통 서비스 호텔 및 음식 배달 서비스와 실제로 너는 아무리 이름을 지어 라 당신이 사용할 수 있다면 가지고있는 사업 귀사의 큰 데이터를 효율적으로 자라서 너는 달라질거야 큰 데이터 분석 및 따라서 비즈니스를 더욱 향상시킬 수 있습니다 요즘 모두가 큰 데이터를 사용하고 있습니다 너는 다른 분야를 보았다

모든 것이 서로 다르다 하지만 모두가 큰 데이터 분석을 사용하고 있습니다 큰 데이터 분석은 다음과 같이 할 수 있습니다 Hadoop과 같은 도구와 스파크 등 큰 데이터 분석이 대단한 이유입니다 오늘날의 수요와 왜 그것이 매우 방법을 배우는 것이 중요합니다

도구로 큰 데이터 분석 수행 이것을 좋아해 이제는 빅 데이터는 솔루션 아키텍처를 이제는 큰 데이터를 다루고 있습니다 당신이해야 할 첫 번째 일은 그 모든 데이터를 덤프해야합니다 HDFS에 저장하고 분산 된 형태로 저장 방법은 다음 단계로 처리하는 것입니다 당신이 통찰력을 얻을 수 있도록 그 데이터 원사는 원사를 사용할 수 있기 때문에 원사를 사용할 것입니다 우리가 다른 도구들을 통합 할 수있게해라

함께 우리가 처리하는 데 도움이 될 큰 데이터는 다음과 같은 도구입니다 당신은 할 수있는 존과 통합 할 수 있습니다 Apache hive pachi spark 중 하나를 선택하십시오 MapReduce Apache Kafka를 사용하려면 큰 데이터를 분석하고 아파치 스파크는 하나입니다 가장 널리 사용되고 가장 널리 사용되는 커다란 가공을 위해 원사를 사용하는 도구 데이터이므로 전체 솔루션은 우리가 소개 한 이래로 하둡과 스파크로 가보자

저장 장치 인 HDFS를보십시오 Hadoop의 HDFS가 Hadoop의 약자 분산 파일 시스템이며 이것은 하둡 (Hadoop) 저장 장치 HDFS의 아키텍처는 이미 그것은 마스터 / 노예라고 말했다 마스터 노드가 알려져있는 아키텍처 명명 된 노드이며 슬레이브 노드가 알려져 있습니다 데이터 노드로서 그리고 나서 우리는 또 다른 여기에 보조 노드로 알려진 노드 이름 노드는 이제 혼란스러워하지 않는다 2 차 이름 노드가 될 것입니다

이름 노드의 치환 그렇다고해서 제가 2 차적인 것이 무엇인지 말해주지 않을 것입니다 이름 노드는 이제 돌아가고 전체 아키텍처를 이해한다 제대로 당신은 작은 아이콘을 볼 수 있습니다 이 모든 다른 노드에서 기본적으로 이름 노드는 마스터입니다 데몬이라고 생각할 수 있습니다

왕에게 도움이되는 데몬이 있습니다 보조 이름 노드입니다 목사의 아이콘과 폰 종속 노드 또는 종속 노드를 나타냅니다 데이먼의 데이터 노드는 여기 있습니다 실제 데이터를 포함하므로 언제든지 HDFS에 파일을 덤프하면 귀하의 데이터가 데이터 노드 HDFS의 가장 좋은 점은 위에 추상화 레이어를 만듭니다

분산 된 스토리지 자원 HDFS 파일을 가져 오는 중입니다 다른 기계에 분산되어 있지만 전체 HDFS를 단일 화면으로 볼 수 있습니다 단위에 배치되기 때문에 이제 구조는 각각의 구성 요소 하나 하나씩 이름 노드를 살펴 봅니다 node는 마스터 데몬이며 데이터 노드를 포함하고 관리합니다 이름 노드가하는 일은 정보를 의미하는 메타 데이터 및 메타 데이터 어떤 파일이나 어떤 데이터라도 데이터 노드에 이름이 저장됩니다

노드가 적절한 시트를 적절하게 유지함 모든 것이 언급 된 파일 어느 데이터가 어떤 데이터 노드에 저장되는지 그것은 모든 종류의 요청을 제공합니다 고객이기도하고 이후로 그것도 수신 된 마스터 노드 작은 하트와 너는 보았다 이전 슬라이드에서 데이터 팝업 노드가 실제로 하트 비트를 보내는 중입니다 아무 것도 아닌 요일 이름 노드 이름 노드에게 데이터 노드가 살아 있고 작동 중입니다

정확히 이제 보조 이름 노드가 온다 보조 이름 노드는 매우 효과적입니다 중요한 일과 그 일은 체크 포인트는 체크 포인트이므로 편집 로그를 FS와 결합하는 프로세스 이미지로 이제 편집 내용을 알려 드리겠습니다 로그는 무엇이며 FS 이미지는 무엇입니까? 하둡 클러스터를 설치했다는 것을 알았습니다 며칠 전에 새로운 데이터 블록이있을 때마다 내 HDFS에 저장된 데이터 블록 모든 거래가 삭제됩니다

FS 이미지로 알려진 파일에 결합 FS 이미지는 디스크에 있습니다 그리고 비슷한 파일이 하나 더 있습니다 편집 로그로 알려짐 이제 편집 로그 거래 기록을 보관하지 않을 것입니다 20 일 전에는 단 몇 시간 만에 돌아 왔습니다 이제 레코드를 유지한다고 해봅시다

발생하는 거래 내역 지난 4 시간 동안 및 검사 점 편집 로그를 결합하는 작업입니다 FS 이미지 내에서 더 빠르게 장애 복구 (failover) 메타 데이터이므로 이름이 노드가 내려 가서 매트 전체 잃어버린 우리는 우리가 할 수있는 걱정할 필요가 없습니다 새 이름 노드를 설정하고 동일한 이름을 얻는다 트랜잭션 파일 및 메타 데이터 보조 이름 노드에서 업데이트 된 사본과 체크 포인팅은 매시간마다 발생합니다 하지만 구성 할 수도 있습니다

체크 포인팅 프로세스 이해 여기에 FS 이미지와 편집 로그이므로 디스크의 FS 이미지 램프에 편집 로그가 있습니다 보조 이름 노드가하는 일은 먼저 FS 이미지를 복사하고 로그 편집 및 함께 편집 업데이트 된 FS 이미지를 얻으려면 이 FS 이미지는 다시 이름 노드를 가지며 이제는 이름 노드가 업데이트 된 FS 이미지와 그 동안에는 새 편집 로그는 체크 포인트가 일어나고 있습니다 프로세스가 계속 진행되므로 이름 노드를 유지하기 위해 이름 노드를 도와줍니다 의 FS 이미지의 업데이트 된 사본 매시간 거래를 이야기하겠습니다 이들이 슬레이브 인 데이터 노드에 대해 데이먼 스와 여기가 실제 데이터가 저장되며 클라이언트가 읽기 또는 쓰기 요청에 데이터를 제공합니다

노드는 데이터가 실제로 데이터 노드에 저장됩니다 이것은 HDFS의 구성 요소에 관한 모든 것입니다 이제 전체 HDFS를 이해해 봅시다 우리가 가지고있는 아키텍처 다른 데이터 노드를 여기에 설정할 수 있습니다 랙의 랙에있는 다른 데이터 노드를 올리십시오

하나는 세 개의 서로 다른 데이터 노드를 가지고 있습니다 이라크에서 우리는 두 가지 다른 데이터를 가지고 있습니다 노드 및 각 데이터 노드 다른 데이터 블록을 포함하고 있기 때문에 데이터 노드는 데이터가 블록에 저장됩니다 그래서 우리는 그것에 대해 배울 것입니다 클라이언트가 요청할 수 있도록 오는 슬라이드 읽기 또는 쓰기 중 하나를 선택하고 클라이언트가 특정 파일은 먼저 이름 노드와 이름에 이름 노드가 정확하게 알고있는 메타 데이타 파일이있는 곳에서 우리는 IP를 줄 것이다

데이터 노드의 어드레스 다른 데이터 블록은 특정 파일을 선택하면 이 IP로 이동할 수있는 클라이언트 주소를 입력하면이 데이터 노드로 이동할 수 있습니다 파일을 읽은 다음 클라이언트는 차례로 다른 클라이언트로 이동합니다 데이터 Plock이있는 데이터 노드 현재 그리고 마지막으로 읽기 요청은 이제 고객에게 에 싶어 다시 이름 메모에 연락 할 것입니다 메타 데이터를 두 번 클릭하고 우리는 공간이 어디에 있는지 볼 것입니다 공간이 있는지 여부를 확인합니다

가용한지 아닌지 그리고 다시 한 번 데이터 노드의 IP 주소를 부여한다 여기서 클라이언트는 파일을 쓸 수 있고 마찬가지로 쓰기 메커니즘도 이런 식으로 데이터에 의해 읽기 쓰기 요청이 제공됩니다 이제 노드가 HDFS 블록에 대해 이야기 해 봅시다 복제와 내가 말한 이후 HDFS는 내결함성 시스템입니다 각 파일이 어떻게 저장되는지 봅시다

블록으로 HDFS를 덤프 할 때마다 파일을 HDFS에 넣습니다 다른 블록들과 분배 됨 Hadoop 클러스터와 각 블록의 기본 크기는 128입니다 메가 바이트는 이제 내가 380 메가 바이트의 파일이므로 첫 번째 블록 세 개 블록은 초당 128 메가 바이트입니다 128 메가 바이트이고 세 번째는 나머지 크기를 차지하라 그 파일은 124 메가 바이트 이제 파일 크기가 있다고 가정 해 봅시다

500 메가 바이트의 블록 수 알았어 AJ가 4라고 말했어 그것은 4라고 말합니다 물론 여러분들은 오른쪽 4 블록 첫 3 블록 128 메가 바이트이고 lacs 블록이 될 것입니다 남은 파일 크기 만 차지합니다

116 메가 바이트이므로 이제 언제든지 블록 복제를 논의합니다 먼저 HDFS에 파일을 덤프합니다 블록으로 나눈 다음 각각의 블록이 2 번 복사되므로 지금 당신은 원래 블록과 두 개 더있다 같은 블록 복제본 인자가 3 인 경우, 너의 hadoop 안에 3 개의 유사한 구획 당신은 내가 가지고있는 것을 볼 수 있습니다 248 메가 바이트 파일 128 메가 바이트와 120 메가 바이트 그래서 내 블록 1은 3 번, 블록 2는 그곳에도 3 번에 3 번있다

우리가 이것을 사용하는 다른 데이터 노드 복제 요소가 데이터 노드가 다운되면 우리는 서로 다른 두 개의 데이터 블록 데이터 노드이므로 데이터 블록 복제본 이제 hdfs에서 제대로 복제가 RAC로 알려진 알고리즘 인식 및 그것은 우리에게 결함을 제공합니다 관용 RAC 인식 알고리즘은 말한다 블록의 첫 번째 복제가 로컬 랙에 보관하고 다음 2 개의 복제본이 우리가 데이터 블록을 저장할 다른 랙 1 번 랙에서 대기 시간이 지금은 명령이 줄어들었다 Hadoop을 시작하는 데 사용할 것입니다 하둡 데이먼을 당신 이름처럼 저주합니다 노드의 보조 이름 노드와 슬레이브 머신의 데이터 노드 하나 모든 하둡 악마를 시작하려면 원사를 설명하지 않은 HDFS 및 원사 그러나 원사는 Hadoop 그래서 모든 원사를 시작합니다

악마는 자원 관리자와 노드 관리자는 또한 다음과 같습니다 hadoop Damons를 모두 중지하라는 명령 JPS와 함께 무엇이 있는지 확인할 수 있습니다 현재 달리고있는 악마들 너의 기계는 내가 보여 주기만하면 돼 이제 내가해야 할 첫 번째 일은 내 디렉터리를 내로 변경해야합니다

headed directory 그래서 나는 CD를 할거야 하둡, 이제는 명령을 기억하고 첫 번째를 기억할 수 있습니다 명령은 슬래시를 위해 / s 빈을위한 점이었습니다 모든 도트 쉬를 시작하도록 요청하십시오 비밀 번호가 알았어

당신은 또한 그것이되도록 구성 할 수 있습니다 당신이하지 않도록 비밀 번호 적은 과정 원할 때 암호를 입력해야합니다 특정 Damons을 실행하면 JPS를 사용합시다 여기 모든 악마들이 있습니다 내 주인을 만나고 노드 관리자 내 보조 이름은 JPS를 알고 있습니다

자체는 데이터 노드 인 데몬입니다 자원 관리자 및 이름 메모 당신은 자원 관리자와 노드에 대해 다가올 슬라이드의 관리자는 걱정하지 않아도됩니다 이것에 관해서는 이것들은 단지 악마들입니다 내 마스터 컴퓨터에서 실행중인 악마가 무엇인지 보여 드리죠 내 노예 기계에서 달리다

내 노예 기계의 터미널 난 그냥 여기에 JPS를 운영 할 예정입니다 프로세스 또는 실행중인 악마 내 노예 기계에서 노드 매니저와 데이터 노드는 우리의 노예 악마들과 그들 모두 내 노예 기계에서 뛰고있어 너가 달릴 수있는 모든 악마를 멈추고 싶다 같은 명령 시작하는 대신에 그냥 멈출 수 있습니다 여기 내 HDFS를 사용하기 때문에 그걸 막지는 않을거야

과정은 동일하므로 쓸 수있는 몇 가지 명령 원하는 경우 Hadoop에서 파일을 삭제하거나 삭제할 수 있습니다 로컬 파일에서 파일 복사 시스템을 HDFS에 연결하려면이 명령을 사용하십시오 Hadoop FS -이 이름은 당신의 이름입니다 올바른 경로를 입력해야하는 파일 파일을 복사하여 HDFS를 사용하면 HDFS의 대상 폴더 당신이 떠나고 있다면 지금 복사하고 싶습니다 비워두면 복사가됩니다 마스터 디렉토리와 Hadoop을 모든 HDFS 파일을 나열하고 싶습니다

이 명령을 사용하여 할 수 있고 if 그 파일을 제거하고 싶습니다 이 파일을 다시 사용하면이 명령을 사용할 수 있습니다 Hadoop FS – RM에 사용되는 이걸 제거하는 것도 첫 번째 단계입니다 당신이 시작할 때해야 할 일 무언가를 분석하고 이것이 길이다 데이터 세트를 우리의 HDFS를 먼저 분석 한 다음 우리는 이제 HDFS를 보았습니다

실의 처리 단위 인 실 Hadoop 그래서 원사는 무엇인지 알고 있습니다 아무것도 아니지만 MapReduce 버전입니다 Hadoop이 새롭게 등장했을 때 버전 20으로 원사 도입 새로운 프레임 워크는 아직 의미가 없습니다 또 다른 자원 협상가 비 실행 가능 MapReduce 애플리케이션 및 우리가 아파치 스파크 하이브와 같은 다른 도구 돼지 등 그것은 우리에게 제공 병렬 처리를위한 패러다임 하둡 지금 모든 것을 버릴 때

데이터가 HDFS로 분산됩니다 이 모든 분산 된 데이터는 병행 처리하고 완료된다 원사의 도움으로 볼 수 있습니다 여기 원사의 구조가 다시 마스터 / 슬레이브가됩니다 토폴로지 그래서 여기에 마스터 데몬입니다 리소스 관리자와 슬레이브로 알려진 Damon은 노드 관리자라고 알려져 있습니다

이 구성 요소를 살펴 보겠습니다 하나씩 하나씩 첫 번째 단계는 자원입니다 관리자가 마스터 데몬이므로 처리 요구를 수신하고 클라이언트가 그가 자원 관리자에게 오도록 요청한다 먼저 자원 관리자 모든 종속 노드 또는 노드를 관리 관리자가 클라이언트가 올 때마다 그는 일부 데이터를 처리하려고합니다 자원 관리자가 요청을 가져오고 해당하는 요청을 전달합니다

이제 노드 관리자는 노드 관리자 노드 관리자는 종속 노드입니다 악마와 그들은 모두에 설치됩니다 데이터 노드를 사용하면 데이터 블록으로 분할되어 저장됩니다 데이터 노드에서 처리되고 처리됩니다 같은 기계에서 그러니까 데이터 노드가 설정된 기계 노드 관리자는 또한 처리를 위해 존재합니다

모든 데이터와 해당 데이터에 표시 노드에 대한 책임이 있습니다 모든 단일 작업에 대한 작업 실행 데이터 노드 그래서 이것은 실제 어디에 데이터 처리가 시작됩니다 전체 아키텍처를 자세히 살펴보십시오 클라이언트는 자원 관리자가 처리하기 위해 데이터와 자원 관리자 요청을 노드로 전달합니다 관리자가 중요한 구성 요소이기 때문에 내가 너와 얘기 할거야

그것을주의해야한다 그래서 마디 관리자가 컨테이너와 앱을 가지고 있습니다 앱 마스터에있는 마스터가 시작되었습니다 모든 특정 애플리케이션 코드 또는 모든 작업 또는 모든 처리 작업 클라이언트는 앱 마스터의 애플리케이션 마스터는 처리하고 돌봐야 할 책임이있다 필요한 모든 리소스 해당 코드를 실행하려면 명령을 내리십시오 어떤 리소스 든 요구 사항입니다

앱 마스터가 자원 관리자의 자원 자원 관리자는 다음을 제공합니다 모든 리소스가있는 앱 마스터 노드 관리자에게 시작을 요청합니다 컨테이너와 컨테이너는 실제 실행이 이루어지는 장소 이제 원사 워크 플로우를 순서대로 보자 더 나은 것을 여기에서 이해하는 것은 클라이언트와이 클라이언트는 이 예제에서의 일자리 MapReduce 코드는 MapReduce 작업이므로 먼저 MapReduce 작업이 표시되고 클라이언트가 이걸 실행하려고합니다 특정 직업 그는 일자리를 리소스 관리자가 리소스를 요청했습니다 관리자가 리소스를 실행하려면 관리자는 클라이언트와 그의 직업에 대한 신청서 ID 자원 관리자가 컨테이너를 시작합니다

이제 앱 마스터가 시작되었습니다 앱 마스터도 특정 컨테이너 다음 앱 마스터 모든 리소스를 수집합니다 해당 작업을 실행하기위한 요구 사항 리소스 관리자에게 할당하도록 요청하십시오 그 이후의 모든 자원 자원은 노드에 제공됩니다 관리자가 컨테이너를 시작하고 컨테이너를 시작하고 이것은 작업이 실행됩니다

이제 살펴 보겠습니다 전체 원사 애플리케이션 워크 플로우에서 단계별로 첫 번째 단계는 클라이언트가 애플리케이션을 자원 관리자 다음에 자원 관리자가 시작할 컨테이너를 할당합니다 앱 마스터 다음 앱 마스터 자원 관리자에 등록하고 리소스 관리자에게 앱을 알립니다 마스터가 만들어져 준비가되었습니다 코드의 실행을 감독한다

앱 마스터는 컨테이너에 자원 관리자, 앱 마스터 노드 관리자에게 실행을 알린다 콘테이너와 콘테이너 후에 응용 프로그램 코드를 시작했습니다 용기에 넣었다 특정 애플리케이션 코드 클라이언트와 연결 한 다음 자원 관리자가 응용 프로그램 상태 여부 제대로 실행되었거나 실행되지 않았습니다 앱 마스터를 성공적으로 실행했습니다 자원 관리자와 함께 등록이 취소되었습니다

이것이 전체 워크 플로우입니다 전체 Hadoop 클러스터 살펴보기 아키텍처 HDFS 팔 여기와 함께 여기 당신은 HDFS와 얀 모두를 볼 수 있습니다 마스터 슬레이브 토폴로지를 마스터가 HDFS에서 그의 이름과 주인 원 사는 자원 관리자이다 데이먼의 HDFS는 데이터 노트와 여기가 모든 데이터가 저장되는 곳입니다 원사에서는 노드 관리자입니다

데이터가 컨테이너 및 앱 마스터가주의를 기울입니다 필요한 모든 자원의 거기서 프로그램을 실행하기 위해서 당신이해야 할 중요한 일입니다 알았어 그들이 내 눈치를 보았을거야 데이터 노드와 노드 관리자가 거짓말을합니다

동일한 머신에서이 데이터 노드 이 노드 관리자는 같은 머신과이 노드 매니저는 같은 기계에 있어야하지만 그렇지 않다 노드 이름과 자원 관리자는 같을 것이다 그들이 할 수있는 기계는 그렇지만 그렇지 않다 필요한 이름 노드가 다른 기계 및 자원 관리자 다른 컴퓨터에있을 수 있습니다 이것이 혼란스러워하지 마라

또한 같은 기계에 있어야합니다 이 사건은 이제 내가 너에게 Hadoop 클러스터 하드웨어 사양 하드웨어 사양 중 일부는 당신이 설정하고 싶다면 명심해야한다 이름 노드에 대해 Hadoop 클러스터 설정 당신은 64 기가와 RAM을 필요로 하드 디스크는 최소 하나 이상이어야합니다 테라 바이트 프로세서는 크세논이어야합니다 8 개의 코어와 이더넷이 있어야합니다

3 x 10 기가 바이트 시스템은 64 비트 CentOS 또는 Linux 여야합니다 하지만 전력은 여분의 전력이어야합니다 네가 이름을 원하지 않기 때문에 공급한다 왜 그 이유 때문에 내려갈 것인가? 노드가 내려 가서 전체 HDFS를 사용할 수 있습니다 아래로 그리고 필요한 데이터 메모를 위해 램 하드 디스크의 16 기가 바이트는 6이어야합니다 이것이 2 테라 바이트 씩 필요한 모든 데이터를 저장합니다

많은 메모리를 프로세서에 가지고있다 2 개의 코어로 Zen해야 함 이더넷 3 10 기가 바이트와 OS가 있어야합니다 다시 64 비트 CentOS 또는 Linux 및 2 차 이름 노드 Ram은 32 여야합니다 기가 바이트 하드 디스크는 1이어야합니다 4 코어의 테라 바이트 프로세서 Zen 이더넷 3 x 10 기가 OS는 64이어야합니다 CentOS 또는 Linux 비트로 다시 전원을 켭니다

예비 전원 공급 장치 여야합니다 화면을 일시 중지하고 이 이미지의 스크린 샷을보세요 이 프레젠테이션을 이보다 걱정하지 마라 녹음은 LMS에 다음과 같이 그럼이게 네가 지켜야 할거야 네 마음 춤을 Hadoop 클러스터이므로 하드웨어입니다

지금 요구되는 사양 진짜 하둡에 대해 이야기 해 드리겠습니다 클러스터 배포를 고려하면 페이스 북이므로 좋아하는 예입니다 Facebook은 21 페타 바이트의 저장 용량을 보유하고 있습니다 단일 HDFS 클러스터에서 21 개 페타 바이트는 10으로 증가합니다 15 바이트의 전력과 그들은 2 클러스터 당 1 천 대의 머신과 32 기가 실행중인 컴퓨터 당 숫양 15 MapReduce 작업 및 이러한 각 시스템 실행 15 MapReduce 작업 및 1200 대의 컴퓨터에 8 개 코어가 각각 800 개이고 16 개가 있습니다

코어는 각각 12 테라 바이트 컴퓨터 당 데이터 총 21 테라 바이트의 구성 저장 용량보다 큽니다 이전에 알려진 야후의 클러스터 가장 큰 하둡으로 알려졌다 클러스터 였고 14 페타 바이트였습니다 페이스 북은 21 야후로 패배 페타 바이트는 이제 다른 것에 대해 이야기 해 봅니다 Spotify 인 사용 사례는 얼마나 많은 너는 음악을 듣고 Spotify 괜찮아

그래서 당신 중 일부는 그렇게 보입니다 심지어 Spotify 사용자들도 Hadoop for 음악 추천을 생성하기 때문에 음악을들을 때 당신은 그것을 볼 수 있습니다 새로운 노래의 일부 음악 또한 속한 당신에게 추천했다 너와 같은 장르로 큰 소리로 듣기 위해 오른쪽으로 듣기 Hadoop 및 Spotify를 사용한 데이터 분석 16 개의 노드와 50 개의 노드가있다

저장 용량은 65 페타 바이트입니다 대략 Spotify에는 70가있다 테라 바이트 단위의 RAM으로 하둡 일자리 25,000 건에 43,000 건이있다 가상화 코어가 훨씬 크기 때문에 Facebook보다 클러스터가 Hadoop을 사용하는 두 가지 유스 케이스 처리하고 저장하기 위해 클러스터 당신이 모든 것을 배웠으니 큰 데이터 Hadoop은 HDFS와 원사 모두에 대해 저장 및 처리 구성 요소 Hadoop 그럼 아파치에 대해 살펴 보자 spark Apache spark는 오픈 소스입니다

클러스터 컴퓨팅 프레임 워크 실시간 처리 및 번성하는 오픈 소스 커뮤니티와 가장 적극적인 Apache 프로젝트 순간과 스파크 요소는 무엇입니까? 아파치를 빠르고 안정적으로 만들어라 많은 불꽃 구성 요소가 만들어졌습니다 잘린 문제를 해결하는 Hadoop MapReduce를 사용하는 동안 Apache 스파크는 다음과 같은 구성 요소를 가지고 있습니다 스파크 코어 엔진을 가지고 있습니다 코어 엔진은 전체 스파크 용입니다

모든 구성 요소의 기반이되는 프레임 워크 그것은 핵심 엔진에 배치되므로 처음에는 우리가 똑같은 불꽃을 가지고있어 sparks equal은 spark 모듈입니다 구조화 된 데이터 처리 및 기존에 수정 된 하이브 쿼리를 실행한다 hadoop 배포 후 우리는 스파크 스트리밍은 이제 스트리밍 스파크입니다 그만큼 사용 된 스파크의 성분 실시간 스트리밍 데이터를 처리하며 코스 파크 API에 유용한 추가 높은 처리량 오류를 가능하게하기 때문에 라이브 데이터의 허용 오차 스트림 처리 우리가 불꽃을 가지고있어

이 빛은 기계 학습입니다 spark 용 라이브러리를 사용하고 있습니다 머신을 구현하기 위해 활약하다 우리의 유스 케이스에서 학습 한 다음 우리는 그래프 인 그래프 X를 얻었습니다 계산 엔진 및 이것은 반점이다 그래프 및 그래프 병렬 API 계산은 세트를 가지고있다 하위 그래프와 같은 기본 연산자 공동 구매 등 당신은있어 스파크 R 그래서 우리를위한 패키지입니다 사용자가 활용할 수있는 언어 우리 껍데기의 힘을 발휘해서 사람들이 이미 우리 일을하고있는 사람들은 그걸로 편안하고 그들은 우리를 사용할 수 있습니다

쉘을 동시에 직접적으로 사용할 수 있습니다 이 특별한 것을 사용하여 스파크를 사용할 수 있습니다 우리가 할 수있는 우리의 쉘에 모든 코드를 작성하고 스파크가 당신을 위해 그것을 처리 할겁니다 현실적인 사람들을 더 자세히 보아라 그리고이 모든 중요한 구성 요소들 우리는 스파크 코어를 가지고 있고 스파크 코어는 대규모의 기본 엔진 병렬 및 분산 데이터 처리 핵심은 분산 된 실행이다

엔진 및 Java 스칼라 및 Python API 분산 된 ETL을위한 플랫폼 제공 개발 및 추가 라이브러리 상단에 구축 된 코어는 다양한 스트리밍 속편을 허용합니다 기계 학습도 가능합니다 배포 예약 책임 클러스터의 작업 모니터링 스토리지 시스템과 상호 작용 SPARC에 대해 살펴 보겠습니다 아파치 스파크가 잘 정의되고 계층화 된 아키텍처 모든 SPARC 구성 요소 및 층들은 느슨하게 결합되고 다양한 확장 기능과 도서관은 먼저 이 프로그램은 SPARC 드라이버입니다 여기에는 드라이버 프로그램과 스파크 문맥 이것은 중심점이다

SPARC 쉘의 시작점과 드라이버 프로그램은 메인 프로그램을 실행한다 기능 응용 프로그램 및 이것은 장소입니다 스파크 컨텍스트가 생성됩니다 스파크 컨텍스트 스파크 컨텍스트를 나타냅니다 전체 스파크와의 연결 클러스터를 만들고이를 사용하여 탄력적 인 분산 데이터 세트 누적 기 및 방송 변수 on 그 클러스터와 당신은 그것을 알아야합니다 하나의 스파크 컨텍스트 만 활성화 될 수 있습니다 가상 시스템을 제거하고 전에 활성 스파크 컨텍스트를 중지하십시오

새로운 것을 만들자 마스터에서 실행되는 드라이버 프로그램 스파크 클러스터의 손잡이 직업 실행과 협상 클러스터 관리자 이것은 클러스터입니다 여기의 매니저와 클러스터 관리자는 다음과 같은 외부 서비스입니다 자원 확보에 대한 책임 클러스터를 점화하고 할당 작업자 노드에서 스파크 작업에 연결 우리는 집행자에게 집행자를 두었습니다 분산 에이전트입니다

업무 수행 책임자 모든 스파크 애플리케이션에는 고유 한 기능이 있습니다 실행 프로그램 프로세스 실행자가 일반적으로 실행합니다 스파크의 전체 일생 동안 응용 프로그램 및이 현상은 또한 실행 프로그램의 정적 할당이라고하는 그러나 당신은 또한 동적 인 것을 선택할 수 있습니다 집행 할 수있는 집행자의 위치 또는 spark executor를 동적으로 제거합니다 전반적인 워크 플로와 일치하므로 괜찮습니다

이제 내가 너에게 실제로 무엇을 말해 줄까? 스파크 테이블이 클라이언트가 스파크를 제출할 때 제출 사용자 응용 프로그램 코드 드라이버 코드를 암시 적으로 변환합니다 변환 및 액션을 논리적 실리카 그래프 또는 DAG 이 단계에서 운전자 프로그램 또한 특정 종류의 파이프 라이닝과 같은 최적화 변환을 수행 한 다음 논리적 인 daj의 물리적 실행 무대 뒤 세트를 가진 계획 실제 실행 계획 작성 더 많은 물리적 실행 단위를 만듭니다 각 작업 아래에있는 작업 그런 다음이 작업들은 번들로 제공됩니다 스파크 클러스터로 보내 드라이버가 프로그램이 클러스터와 대화 매니저와 협상을 소스 및 클러스터 관리자 유언 집행자를 노동자로 데려 간다 운전자를 대신하여 노드와 이 시점에서 드라이버는 작업을 클러스터 관리자가 하루를 기준으로 유언 집행자와 유언자 앞에서 처음 등록을 시작한다

운전자 프로그램과 함께 운전자가 전체 론적 시각을 가지고 있음을 모든 집행자의 집행자 다양한 작업을 수행하고 운전자 프로그램에 의해 그들에게 배정 된 스파크가 발생할 때 어떤 시점에서든 응용 프로그램이 드라이버를 실행 중입니다 프로그램은 모니터링되지 않은 실행중인 실행 프로그램 집합 이 드라이버에서 응용 프로그램 코드를 실행하십시오 여기에 프로그램은 또한 미래의 작업을 예약 추적에 의한 데이터 대체에 기반 캐시 데이터의 위치를 ​​바란다 당신은 아키텍처를 이해했습니다 부분적으로 많은 의구심 좋아, 이제 의심 할 여지없이 스파크 속편과 그 아키텍처 그래서 스파크 사이클은 새로운 것입니다 모듈은 스파크로 스파크를 사용한 관계형 처리 함수형 프로그래밍 API 및 에 의해 데이터 쿼리를 지원합니다

속편 또는 하이브 쿼리 언어를 통해 익숙한 사람들 우리의 DBM 그래서 스파크 속편은 아주 쉬울 것입니다 이전 도구에서 전환 당신이 전통적인 관계형 데이터 처리 스파크 속편과 함께 제공됩니다 다양한 데이터 소스 및 후속 쿼리를 읽을 수있게합니다 코드 변환과 그 이유는 스파크 속편은 매우 강력 해졌다 이 도구는 스파크의 아키텍처입니다 후속편 각각에 대해 이야기 해 보겠습니다

우리가 처음으로 구성 요소를 하나씩 데이터 소스 API를 가져 와서 로드 및 저장을위한 범용 API 구조화 된 데이터이며 하이브에 대한 지원 Avro JSON JDBC CVS 포켓 등도 지원하고 있으므로 세 번째 스파크 패키지를 통한 파티 통합 데이터 프레임 API 데이터를 얻었습니다 프레임 API는 분산 컬렉션입니다 정리 된 데이터의 이름 지정 관계형과 유사합니다 저장에 사용되는 속편의 표 테이블의 데이터이므로 적용 할 수있는 도메인 별 언어 또는 DSL은 구조화 된 반 구조화 된 데이터를 처리하므로 에서 킬로바이트에서 페타 바이트까지의 데이터 단일 노드 클러스터에서 다중 노드로 클러스터 및 다른 API를 제공합니다 파이썬 자바 스칼라와 우리의 프로그래밍 그래서 당신이 가지고 있기를 바랍니다

스파크의 모든 건축물을 이해했다 속편 우리는 스파크 속편을 사용할 것입니다 우리의 유스 케이스를 해결하기 위해서 다른 명령을 시작하려면 Damon 이것들은 매우 유사합니다 HDFS를 시작하는 명령 방법 데이먼이 모든 것을 시작하는 걸 볼 수있어 스파크 데몬 그래서 스파크 악마는 우리의 주인이고 이 명령을 사용하여 모든 악마가 켜져 있는지 확인하십시오

Hadoop과 같은 JPS를 사용할 수있는 컴퓨터 그런 다음 스파크를 시작하려면 쉘 당신이 갈 수있는 이것을 사용할 수 있습니다 앞으로 이것을 시도해 보라 이것은 매우 유사하다 내가 방금 보여준 하둡 예술 더 일찍 그렇게하지 않을거야 그리고 나서 우리는이 아파치 스파크도 보았습니다

이제 k-means와 Zeppelin k-means는 클러스터링입니다 방법과 Zeppelin은 우리가 가고있는 것이다 우리의 데이터를 시각화하기 위해 k-means 클러스터링에 대해 이야기합시다 이제 k- 수단이 가장 간단한 것 중 하나입니다 감독되지 않은 학습 알고리즘 잘 알려진 클러스터링 문제를 해결합니다

그래서 k-means의 과정은 다음과 같다 데이터를 분류하는 간단하고 쉬운 방법 특정 수의 클러스터로 설정 수행하기 전에 수정 된 클러스터링 방법 그래서 주요 아이디어는 정의 된 case centroids 각각에 대해 클러스터와 centroid는 있어야합니다 ~ 때문에 매우 교활한 방법으로 배치 위치가 다른 원인으로 인해 다른 결과는 여기에 예를 들어 특정 인구의 총 모집단 위치 및 그래서 우리는 그들을 클러스터 싶어요 즉 네 개의 다른 클러스터 그룹 하나 2, 3, 4 그래서 우리가 명심해야 할 중요한 것 그룹 1의 객체는 가능한 한 비슷하지만 거기에있다 만큼 차이가 있어야한다 그룹 1과 그룹 2에있는 개체 거짓말하고있는 점들이 같은 그룹이 비슷해야한다

특성과해야한다 거짓말하는 것과는 다른 점 다른 클러스터에서 객체의 속성이 허용됩니다 어떤 객체를 그룹화할지 결정 함께 예를 들어 미국에서 사용중인 것과 동일한 샘플 카운티에서 두 번째 데이터를 고려해 봅시다 우리가 사용했던 세트가 많이있다 이미 말했던 기능 연령대가 있고 전문직에 의해 분류되며 또한 민족에 따라 분류되므로 우리가 얘기하는 것입니다 그래서 이것들은 우리가 우리의 데이터를 클러스터 할 수 있도록 k-means 클러스터링은 여기 하나 더 있습니다

예를 들어 소득과 균형이 너무 커서 x 축에서 총 월 수입과 y를 얻었습니다 축 밸런스 나는 데이터를 클러스터하고 싶다 이 두 속성에 따라 이게 내 첫 번째 집단 인 것을 알면 이것이 내 두 번째 클러스터이므로 이것이 사람들을 나타내는 클러스터 높은 소득과 낮은 균형을 가지고있다 이 계정에 많은 돈을 썼다 클러스터는 저소득이지만 높은 균형을 유지하고 그들은 안전합니다

여기에 누워있는 점들은 그들이 가지고있는 비슷한 특성 낮은 소득과 높은 균형을 가지고 있고 여기에 같은 것을 공유하는 사람들이다 그들이 가지고있는 특성 균형과 고소득이 있으며 여기 저기에 외주인이 거의 없다 클러스터를 형성하지 마십시오 k-means 클러스터링의 예는 다음과 같습니다 우리의 문제를 해결하기 위해 그것을 사용하십시오

문제는 누구도 가지고 있지 않다 여기에 질문이 하나 더 있습니다 한가지 더 문제가 있습니다 지금 내게 말해 줄 테니 문제는 나는 내 도시에 학교를 세우고 싶다 이것들은 각 학생의 삶이 내 질문에 어울리는 곳 당신에게 내가 어디에서 제 집을 만들어야합니까? 학교에 살면 학교에 다니지

이 특정 위치에있는 도시 그걸 우리가 알아낼 수 있도록 k-는 클러스터링을 의미하고 우리는 알아낼 것입니다 너가 할 수있는 경우에 중심점 권리 이렇게 이 모든 것을 묶고 그룹화하라 위치를 파악하고 학교를 각 클러스터의 중심점 그것이 최적이기 때문에 그것은 방법이 아니기 때문이 아닙니다 학생들은 덜 여행해야합니다 모든 사람의 집에 가깝고 거기에있다

그것은 그래서 우리는 세 개의 클러스터를 형성 했으므로 갈색 점이 하나의 클러스터임을 알 수 있습니다 파란색 점은 하나의 클러스터이고 빨간 점들은 하나의 클러스터이고 우리는 학교의 중심점에 학교를 세우다 각 클러스터는 여기에 하나 있습니다 그래서 여기 또 하나 있습니다 내 학교를 그렇게 설정할 필요가있는 곳

내 학생들이 여행 할 필요가 없다는 것 그렇게 많이 k-means에 관한 것이 었습니다 이제 Apache Zeppelin에 대해 이야기 해 보겠습니다 이것은 가져 오는 웹 페이지 노트북입니다 데이터 처리시 탐색 시각화 공유 및 Hadoop과 공동 작업 기능 내가 너에게 보여준 것을 기억해 Zeppelin notebook 당신은 우리가 우리가 실행 한 코드를 작성했습니다

심지어 거기에서 속편 코드를 실행하면 코드 실행으로 더 많은 시각화 거기서 이것은 상호 작용하는 방식입니다 Zeppelin은 많은 사람들을 지원합니다 통역사이며 매우 강력합니다 이를 사용할 수있는 시각화 도구 리눅스 시스템과 잘 어울린다 많은 언어 통역사를 지원합니다

우리 파이썬과 많은 것을 지원하는 다른 통역사들은 이제 계속 나아 갑시다 그래서 유스 케이스의 솔루션에 니가 뭘 기다리고 있었 니? 먼저 우리는 미국 군을 해결할 것입니다 솔루션 그래서 우리가 할 첫 번째 일 데이터를 HDFS에 저장하고 다음을 사용하여 데이터를 분석합니다 스칼라 SPARC 속편 및 SPARC ml 실험실 및 마침내 우리는 결과를 찾을 것입니다 Zeppelin so를 사용하여 시각화합니다

이것은 전체 미국 선거 해결책이었다 내가 너에게 말했던 전략과 나 내가 다시 반복해야한다고 생각하지 마라 네가 나를 원한다면 나는 모두를 반복해야 해 맞아 대부분의 사람들이 말하고있어 아니, 나는 이걸 바로 통과 할거야

다시 한번 제 VM으로 가도록하겠습니다 너를 위해 이것을 실행해라 이것이 나의 것이다 제 펠린과 나는 내 노트를 열었고 여기 우리가 내 우리 선거로 가자 노트와 이것이 처음 코드입니다

내가 할 일은 내가 특정 패키지 가져 오기 에있는 특정 기능을 사용하고있다 Sparx를 가져온 패키지들 동등한 패키지와 나는 또한 수입했다 Spark ml Lib 패키지는 k-means를 사용하기 때문에 벡터 어셈블러를위한 클러스터링 나 특정 기계 학습 기능 여기 벡터 어셈블러가 있습니다 패키지는 나에게 특정 기계를 준다 내가 배우려는 학습 기능 나는 k-means도 가져왔다

k-means를 사용하기 때문에 패키지 클러스터링 한 다음 가장 먼저하는 일 해야 할 일은 속편 문맥 그래서 나는 시작했다 SPARC 속편 컨텍스트 여기와 다음 네가해야 할 일은 네가 스키마를 정의해야 할 때 데이터 세트를 덤프하거나 우리의 데이터를 덤프해야합니다 특정 형식 및 우리 스파크와 어떤 포맷을해야하는지 우리가 여기서 스키마를 정의 할 수 있도록 코드를 통해 내가 널 데리고 가자 호출 된 변수에 스키마 저장 스키마를 정의해야합니다 적절한 구조로 구조체 유형으로 시작하십시오

우리의 데이터 세트가 다른 것을 알고있다 필드를 정의 할 열로 이 필드의 배열로 다음이 우리는 배열과 구조체입니다 지금 다른 필드를 정의합니다 첫 번째 입력란은 내부에 구조체 필드를 정의합니다 어떤 것을 언급해야하는 괄호 그 이름의 이름이어야한다

필드 그래서 나는 그것을 상태로 명명했다 문자열 유형이어야하며 true이어야합니다 다음 문자열 유형임을 의미합니다 문자열 타입의 FIPS를 얻었습니다 FIPS는 숫자라는 것을 알고 있지만 어떤 종류의 숫자도하지 않을 것입니다

우리가 할거야 엉덩이에 작업 문자열로 머무르면 파티가 열립니다 문자열 형으로서의 문자열 형 후보 정수 타입으로 투표하면 우리는 득표 수를 세 것입니다 특정 숫자가있을 것입니다 우리가 수행 할 작업 데이터를 분석하는 데 도움이 될 것입니다 그러면 우리는 분수 투표권을 얻었습니다

우리는 10 진수 타입을 알고 있습니다 다음 유형으로 두 번 입력하십시오 너는 할 필요가있는 스파크가 필요하다 HDFS에서 데이터 세트를 읽으십시오 당신은 스파크 명령을 사용해야합니다

읽기 옵션 헤더 true 헤더 true 당신이 언급 한 것을 의미합니다 내 데이터가 이미 스파크에 말했어 다음과 같은 상태로 인해 열 머리글이 포함됩니다 약자 그들은 아무것도 아니지만 그들은 기둥이다 헤더를 사용하여 명시 적으로 할 필요가 없습니다

그것에 대한 열 머리글을 정의하지 마십시오 임의의 행을 열 머리글을 선택하면 데이터 세트에있는 열 헤더 당신이 말하는 스키마에 대해 언급해야합니다 내가 정의한 바에 따라 변수 스키마 그래서 내가 가진 이유는 내 파일에 언급 된 내용은 CSV 형식이어야합니다 형식을 선택한 다음 내 HDFS에있는 파일의 경로입니다 경로와이 전체 데이터 세트를 내 변수 DF 지금 내가 할 일 내가 어떤 것을 나눌거야

내가 알기 때문에 내 데이터 세트의 행 내 데이터 세트에 공화당과 민주당 데이터와 나는 단지 민주당 원 데이터는 우리가 힐러리 클린턴과 버니 샌더스는 괜찮아 그래서 이것이 어떻게 데이터 세트를 나눈 값으로 우리가 한 일은 우리가 가진 것입니다 DFR이라고하는 변수를 하나 더 생성했습니다 우리는 Part II에서 필터를 답했다 공화당과 동등하다

민주당 데이터를 DF에 저장 D 그래서 우리는 DF를 사용할 것입니다 D는 앞으로부터 밑줄을 긋고 DF는 공화당 데이터가 너의 다음 수업을위한 과제물이되었습니다 민주당 원 자료를 분석하고 이 수업이 끝나면 난 너를 원해 공화당 데이터를 가져 가려는 사람들 이미 데이터 세트를 사용할 수 있습니다 요소와 VMS도 있습니다

언제나 모든 것을 설치하십시오 너는 자유 시간이있을 때 너는 집에있다 공화당 데이터를 분석하고 그 이유가 무엇인지 말해줘 도널드 트럼프, 네가 모든 일을하기를 원해 그 분석은 다음 수업에서 우리는 결론과 결론 분석 한 결과 공화당 데이터와 그런 식으로 당신은 또한 더 많은 것을 배우면 그것도있을 것입니다

오늘 수업 이후에 너에게 연습해라 좋아, 우리는 DF를 가져갈거야 지금 D를 강조하고 가장 먼저 우리가 할 일은 테이블보기와 나는 선거로서의 테이블보기 그 모습과 그 모습을 보여주세요 이게 내가 가지고있는 명령이다

Zeppelin에서 실행되므로 속편 코드입니다 내가 제플린에서 뛰었고 너는 할 수있어 내가 국가를 가지고 있는지 보자 밑줄을 긋고 나는 민주당 원 데이터는 지금 당장 가자 다시 괜찮아

이제는 테이블 뷰를 생성 한 후 민주당 원 자료가 내 선거에있다 테이블 그래서 지금 내가 뭘 할거야 임시 변수를 만드는 중입니다 그리고 나는 스파크를 동등한 코드로 달리고있다 나는이 코드를 작성함으로써 실제로하고있다 속편 코드를 쓰는 동기 또는 속편 질의는 내가 원하는 것이다

내 데이터를 더욱 세련되게 수정해라 여기서 분석하려고하면 특정 후보가 실제로 내가 이겼다 아무 것도 할 필요가 없다 데이터 손실 FIPS에는 잃는 것 중 하나가 포함되어 있습니다 후보자와 승리 중 하나 후보 구성원에는 데이터가 포함되어 있습니다

이기는 후보자와 잃는 사람의 내 데이터 세트 때문에 후보자 버니 (Bernie)의 데이터 샌더스와 힐러리 클린턴 Bernie Sanders가이긴 부분과 힐러리 클린턴 상원 의원 누가 누구인지 알고 싶다 특정 카운티의 우승자들은 그렇게 잘 할 수 있습니다 그 데이터를 수정하고 내가이 쿼리를 사용하고있어 선거에서 모두 선택하고 나서 내부 조인을 수행하려고합니다 그들의 쿼리 그래서 이것은 하나 더 많은 쿼리 이 쿼리 내부에 내가 알려주지 무엇보다 먼저 내가 실제로하고있는 일 우리가 한 일은 우리가 가지고있는 것입니다

선택한 Phipps가 아시다시피 Phipps마다 두 개의 항목이 있습니다 각 Phipps는 실제로 두 번 나타납니다 데이터 세트 그래서 나는 B라는 이름을 지었다 우리는 최대 분수를 세고있다 투표를 통해 각 항목에서 우리는 최대 분수 투표를 한 다음 실제로 우승자를 찾을 수 있습니다

누가 최대 분수를 가지고 있는지보기 우리는 보트를 최대 분수 투표 열의 이름이 지정됩니다 우리는 Phipps가 그렇게 그룹화하고 있습니다 이제 각각의 핍스가 선택됩니다 최대 투표 수와 Phipps에 대한 두 개의 열이 있습니다 1 0 0 1 및 1 0 0 1이므로 유일한 규칙입니다

최대가 선택됩니다 분수 투표 이제 우승자를 얻게 될 것입니다 데이터 및이 전체 표의 이름을 지정했습니다 이 쿼리 내에서 그룹 TT로 나는 우리가 선거 점이 될 때 그것을 검증하고있다 Phipps 메인 테이블 뷰 점 Phipps B 열과 동등해야합니다

그룹 TT 테이블과 선거구 분수 투표는 그룹 TT와 동등하다 그래서 의심 할 때 내가 작성한이 쿼리에 이것 또는 이제 우리가 할 일은 우리가 가진 데이터가 뭐든간에 선거에서 그 중 하나를 저에게 보냅시다 선거에 지금 무엇이 있는지 보여주세요 이건 내 선거 테이블 뿐이야 나는 두 개의 Phipp를 가지고 있음을 볼 수있다

그래서 1 제로 6 7 1 제로 6 7 선거 하나를 보여 드리죠 지금 거기 나는 반복이없는 것을 볼 수있다 Phipps Phipps에 대한 항목이 하나뿐입니다 그게 누가 누가 이겼는지 알려주는 행입니다 그 카운티 또는 특정 FIP에서 또는 FIP와 관련된 당신이 볼 수있는 특정 카운티 힐라리 클린턴은 괜찮 았어

힐러리 클린턴 체로키 알았어 힐러리 클린턴 그리고 그 다음 스테이트 하우스 지구 19는 버니 샌더스 알래스카 이건 주로 버니 샌더스입니다 우리는 지금 해본 적이 있습니다 B라는 추가 열도 있습니다 그리고 a는 최대 값을 알려줍니다

분수 투표 및 B는 FIPS에게 알려줍니다 FIPS의 데이터와 B의 데이터 분수로 투표 한 데이터와 같음 그리고 데이터는 내가 가진 것과 똑같습니다 내 칼럼은 반복하고 그들은 같은 가치를 가지고 있습니다 지금 B를 원하지 마라 그래서 내가 옳다

나는 필터를 걸러 낼거야 내가 필요로하지 않는 칼럼과 나는 B와 A를 원하지 않는다 내가 할거야 임시 변수를 다시 사용하므로 일부를 저장하는 임시 변수 데이터를 일시적으로 저장하므로 SPARC 속편 코드는 내가 원하는 상태의 열 주 약어 카운티 핍 스 파티 후보자 투표 선거 전 모든 것을 D에 보관하고 있습니다 우승자 이 새 변수를 생성했습니다

임시 직원이 있었는지간에 나는 그것은 깊은 우승자에게 그리고 지금 나는 단지 가지고있다 우승자 데이터 그래서 나는 모든 것을 얻었다 카운티와 나는 누가 그걸 얻었 는가? 특정 카운티와 투표의 분수 내가 지금하고있는 일 지금까지는 우리가 단지 데이터를 쉽게 설정할 수 있도록 설정 결론을 내리기 위해 해당 데이터의 통찰력과 항상 그렇지는 않다고 말해 줄 게요 귀하가 귀하의 데이터를 정확한 것으로 설정하다 네가 가진다면 나 한테하는거야 네가 그걸 본 후에 데이터를 이해하고 데이터를 이해하고 실제로해야 할 일을 알아 내라

당신은 할 여러 단계를 수행 할 수 있습니다 또한 이것은 단지 한 가지 방법 일뿐입니다 그게 내가하는 일이야 그냥 너에게 말하면 우리는 D 승자 테이블을 만들고 우리는 민주당 원으로 이름을 지을거야 다시 가서 내가 무엇을 보여줄 지 알려주지

민주당 원 테이블보기는 할 수있는 것처럼 보입니다 언론의 시프트 입력으로 우리가 가지고 있던 칼럼 a와 b를 가지고있다 선거 중 하나 그래서 나는 우승자 데이터를 얻었습니다 이제 우리가 돌아가서 무엇을 발견할까요? 우리는 내가 원하는 것을 찾을거야 어떤 후보자인지 알아 내라

내 상태를 원했고 날짜를 그것이 나올 때 얻을 수있는 결과는 무엇이든 때 임시 변수에 저장 나는 모든 것을 배정 할거야 임시 변수에 저장된 D 상태라고 불리는 새로운 변수 마찬가지로 나는 테이블을 만들거야 D 상태를 볼 수있는 상태입니다 내 상태 테이블보기를 보여줍니다 실제로 거기에 그렇게 포함되어 있습니다

힐러리 클린턴 국무 장관 55 개 카운티 플로리다 힐러리 클린턴 상원 의원 158 개 카운티에서 우리가 온 것입니다 지금까지의 첫 번째 데이터 세트까지 우리가 두 번째로 무엇을 할 수 있는지 보자 모든 다른 데이터 집합을 포함하는 데이터 집합 인구 통계 학적 특징은 다시 처음으로 스키마를 정의해야합니다 그 스키마 스키마의 이름을 지정할 시간 우리가 거의 가지고 있다는 것을 알기 때문에 54 열 그래서 나는 모든 것을 정의해야한다

54 열 또한 그래서 당신은 무엇을 기억합니까? 각 열에는 이것은 정확히 내가 한 일이고 나는 모든 라인을 통과 할 필요는 없습니다 이미 정의하는 법을 말한 것 같습니다 당신은 당신의 코드를 가질 수있는 스키마 LMS 그래서 당신은 그것을 볼 수 있습니다 그래서 우리가 다시하고있는 다음 일은 우리가해야 할 일이다 우리의 데이터 세트를 읽고 나는 DF라는 새로운 변수로 설정된 데이터 하나 그리고 이것은 내 HDFS의 경로입니다 내 데이터 세트가 있던 곳에서 내 데이터 세트에 대한 테이블보기를 만들었습니다

사실이라고 불리는 이제 사실이 무엇인지 보여 드리겠습니다 당신이 볼 수 있듯이 약어 상태 약어 인구 2014를 사용하는 대신 지금 코드 또는 있던 인코딩 된 양식 실제로 내 데이터 세트에 다양한 메타 이름이 주어지면 그것이 무엇을 포함하고 있는지 묘사하라 PST 214 대신 인구가 있습니다 2014는 그렇다 54 가지 인구 통계 학적 특징을 모두 포함 또는 내 기능에 있던 다른 기능 데이터 세트 왜 델론은 히스패닉이나 라티노가 아닌가? 같은 집에서 1 년 이상 외국 태생의 언어 또는 기타 고등학교에서 영어로하는 말보다 졸업생 이상 포함 기본적으로 모든 다른 기능 또는 실제로 다른 모든 열 내 데이터 세트에 있었고 내 스키마에 정의되어 있으므로 사실 나는 지금 내가해야 할 일이있다

내가 분석하지 않을거야 이 모든 다른 것을 기반으로 한 전체 데이터 기능을 선택하겠습니다 특정 기능을 분석하기 위해 나는 단지 몇 가지를 추가 할 것입니다 이것들은 저는 Phipps를 사용할 것입니다 내가 사용할 상태를 사용할거야

상태 약어 65 세 이상인 후보자 년 고령자 여성들 백인 혼자 흑인 아프리카 혼자 나 아시아계 혼자 히스패닉 또는 라티노 선택 근본적으로 내가하려는 것은 내가 인기가 무엇인지 확인하려고합니다 힐러리 클린턴의 외국인들 사이 다른 사람 또는 사람들 백인들 선택하기 때문에 민족성 흑인과 히스패닉 인 그래서 나는 그냥 분석해 보려구 나는 이것을 임시 변수를 다시 그리고 나서 이걸 실행하여 얻을 수있는 결과 나는 동등한 코드를 사용한다 dfx라는 다른 변수와 나는 그것을 저장하고 테이블을 만들거야 겨울의 사실 같은 4df의 사실보기 겨울철에 어떤 사실을 보여 드리죠

겨울의 사실처럼 보입니다 립스 주 (州)는 알라바마 주입니다 약자 알라바마 지역에 대한 에일입니다 이름은 투가 카운티와 우승자입니다 힐러리 클린턴이었고 그 특정 카운티에서 65 년이란 13 % 여성 8 % 50 퍼센트 1 포인트 4 와이드 혼자서 7 개의 7 포인트 9와 그렇게 이것들은 당신에게 검은 색 흰색의 데이터를 보여줍니다 또는 아프리카에는 18 %가 있고 그럼 나는 다른 분야를 가지고있어

나는 선택했다 아시아 혼자 히스패닉 또는 라틴계 외국 태생이므로 열네 살을 선택했습니다 그것을 분석 할 수있는 기능 이제 내가 다시하고있는 것은 내가 힐러리 클린턴 자료를 나눌 것입니다 Bernie Sanders 데이터를 사용하여 Hillary Clinton이 이겼던 이유 만 분석 할 수 있습니다 또는 Bernie Sanders가 일부에서 승리 한 이유 우리가 계획하고있는 특정 카운티들 우리가 나누는 것과 같은 방식으로 걸러 내기 위해 우리의 민주당과 공화당 데이터 초기 기본 결과 데이터 집합이므로 네가 한 짓 이라니 DF 사실에 저장되어 있으므로 후보자가있는 필터와 DFX 힐러리 클린턴과 동등 할 것입니다

HC에 저장되어 있고 Bernie의 데이터 샌더스는 B 초 후에 저장됩니다 우리가하는 일은 우리가 하나의 핫 인코딩을 추가하여 우리 데이터의 두 열 더 WBS 이 경우 우리는 할 것입니다 하나의 핫 인코딩과 우리가하려고하는 것 우리가 포함 시키거나 에 두 개의 열을 추가로 연결하려고합니다 겨울철 사실을 Wh와 WB로 하나 또는 0을 포함하므로 그런 식으로 편집 할 수 있습니다 카운티

그래서 당신이 카운티를 고려한다면 우리의 turgut 카운티는 다음과 같이 말합니다 힐러리 클린턴 상 수상자 WH C와 WB s 중 하나를 가지고있다 똑같은 카운티가있는 제로 버니 샌더스가 버니 샌더스 (Bernie Sanders) WB에서 1 ​​개를 갖게 될 것입니다 HC가 갖게 될 우리는 다른 견해를 만들고 있습니다 이 두 가지 모두 함께 WH C가 1이면 어디든 말해 줄거야

이 말은 나에게 Hillary Clinton이이긴 카운티 나에게 카운티를 보여줄 뿐이다 버니 샌더스가 이겼고 우리는 두 가지 모두에 대한보기를 만들기 위해 버니 샌더스는 WBS와 힐러리 클린턴, 그러면 우리는 마침내 우리는 함께 사용하여 두 가지를 병합합니다 유니온 그래서 모든 선택 연합에서 모든 유니온 WBS에서 선택하십시오 결과에 저장하고 우리는 결과로 알려진 테이블보기 그래서 나를 보자 이 결과에 무엇이 포함되어 있는지 보여주세요

거기에 우리가 얻는 것이 힐러리였다 클린턴 그래서 우리는 버니 샌더스를 얻었다 여기 바닥에있는 데이터와 나는 다른 분야도 모두 가지고있다 내 두 번째 데이터가 다른 설정 내 두 번째에서 선택한 기능 데이터를 분석하여 이제는 실제 분석 부분 이것은 우리가 어디에 있는지 k-means를 수행 할 예정이지만 처음에는 기능 항목을 정의해야합니다 실제로 무엇이 무엇인지 정의해야합니다

피드를 입력하면 당신은 결과물을 얻습니다 그래서 이것은 실제적입니다 피드에 입력 할 입력 기계에 연결하여 기계 학습은 계속되고 마침내 제공됩니다 너는 어떤 종류의 결과가 옳다 내가 다시 정의하는 곳에서 배열을 사용하여 모든 다른 필드 정의 내 데이터 세트에서 사람들을 사용하기 때문에 65 세살 된 여성 인 백분율 Y 대부 또는 흑인 또는 혼자의 아프리카 계 미국인 혼자 아시아 히스패닉 또는 라틴계 외국 태생 영어 이외의 언어 가정 학사 학위 이상 재향 군인 주택 소유 비율 중앙 가구 소득 수준 이하의 빈곤층 인구 밀도 평방 마일 wh c와 w BS 그리고 나서 나는 사용할거야

그래서 이것은 벡터 어셈블러입니다 다른 기계 학습 가능 우리가 k- 수단을 사용하는 알고리즘 내 입력 열은 기능 호출이므로 이것은 입력이 될 것이고 출력 열과 호출됩니다 내가 어떤 결과를 가져 왔는지 가는 get은 기능이며 변환해야합니다 결과 그래서 이것이 최종 테이블이다 우리가 창조 한 당신이 알고있는 견해 무엇을 변형 시키는가 또는 변형시키는 것 다시 우리의 전략에서 우리는 우리가 변형해야한다는 것을 이미 보았습니다 데이터를 먼저 그래서 내 업데이트 된 데이터 세트는 결과입니다

결과를 변형시키고 이 열이 될 열은 기능별 열 및 출력 테이블보기 기능이라고 부르면 우리는 k-means 클러스터링을 수행하려고합니다 그리고 우리는 그것을 k-means라는 변수가 스파크 M 라이브와 다른 기능들 라이브러리와 함께 SPARC를 선택했습니다 클러스터링 k- 평균을 의미합니다 k-는 이미 정의한 바를 의미합니다 클러스터가 필요하고 우리는 네 개가 필요합니다

우리는 네 개의 클러스터를 선택한 다음 기능 항목을 다음과 같이 설정합니다 기능을 선택하고 예측 열을 설정합니다 우리가 가고있는 그 후로 예측으로서 모델을 만들기 위해 우리는 입력 및 출력 열이 너무 커서 우리는 케인즈의 점에 맞는 행을 사용할 것입니다 그리고 우리가 얻게 될 모든 예측들 우리는 그것을 모델에 저장하려고합니다 우리는 이것을 할 것이고 우리는 클러스터 센터를 인쇄하려고합니다

각 클러스터에 대해 내 클러스터 센터는 우리가 달린 후에야 이 코드를 보면이 코드가 다른 클러스터 센터는 그렇게 단순하지 않습니다 내가 네게 이해시킬 수있는 것 우리가 k-means 후에 무엇을 할 것인가? 클러스터링 및 분석 방법 숫자는 매우 많이 배치되어 있습니다 무의식적으로 내가 한 일은 나는 각 클러스터를 골랐다 센터 포인트 그리고 나서 나는 새로운 것을 만들었습니다 테이블 예

그렇습니다 우리는 네 개의 클러스터를 가지고 있습니다 0 번째 클러스터 첫 번째 클러스터 두 번째 클러스터 및 셋째 그래서 0 1 2 3 네 개의 클러스터가 괜찮아요 우리가 찾았습니다 이 클러스터는 우리가 내게 먹인 다른 기능들 k-는 우리가 관찰 한 알고리즘을 의미합니다

여기에서 whc와 wvs는 비율 또는 승리 확률 힐러리 클린턴 상원 의원은 09 Bernie Sanders에게 기회는 01이었고 그런 다음에 차이점을 관찰한다면 각 기능의 클러스터 중심 여기서 당신은 많이 없다는 것을 알 수 있습니다 여기도 다르지 않으니 50 49 49 51 그리고 다시 잘 돌아 간다 차이점은 많이 있지만 여기를 보면 그것은 9이고 16으로 갈 것이므로 검정에 대한보다 상세한 분석을 할 수있다

또는 african-american 그래서 당신이 원한다면 흑인의 진정한지지를 아십시오 아프리카 계 미국인 그리고 너는보고 싶다 그들의 투표 패턴이나 방법은 무엇입니까? 인기가있는 사람들은 힐러리 클린턴이었다 어쩌면 이것이 아마도 좋은 분야가 될 수 있습니다 대안을 보았으므로 분석하십시오

마찬가지로 숫자를 확인해 볼 수 있습니다 다른 기능을 사용하면 체크 아웃 할 수 있습니다 여기에 16 8 9 및 36에 이렇게 어쩌면 다시 히스패닉 또는 라틴계 분야와 그것과 심지어 더 많은 분석을해라 여기 베테랑에서 볼 수 있습니다 사십 만 팔백 육십 반면에 우리는 110 ~ 80 2 천 개는 모두 너무 많아

차이점은 여기에 불과합니다 백 이십 칠백 오십 우리가 가진 수십 만 수와 심지어 백 가지가있다 수천명이 여기에 그래서 우리가 할 수있는 방법입니다 다른 분야가 우리는 그것의 주된 이유를 발견 할 수있다 그것이 만들어야하는 주요 요점 당신의 분석은 우리의 Zeppelin 노트북과 여기가 지금은 너무 우리가하려고하는 것은 우리가 먼저 결과를 시각화하려고합니다 우리는 예측에서부터 세고 있습니다

클러스터에서 예측은 예측을 의미합니다 내가 가지고 있다는 것을 알기 때문에 내 클러스터를 내 클러스터에 저장 정보와 예측이 내 k-means 이후에 출력되므로 이 많은 클러스터 그래서 이것은 카운트입니다 내 카운티 또는 다른 카운티의 내 모든 것에 속하는 여러 가지 클러스터에서 클러스터 1에서 볼 수 있습니다 나는 1917 년을 얻었고 두 번째 클러스터는 내가 가지고있다 750 원이 어쩌면 내가 더 지불해야 할지도 몰라

정렬에주의 cluster1 맞아 그래서 내가 왜 선택된 클러스터 하나와 우리가있어 다른 예측을 할 수있게 X 축에서 볼 수있다 외국 태어난 사람들과 y 축에서 나는 가지고있다 영어 이외의 선택된 언어 집에서 말하면 우리는 후보에 의해 당신이 볼 수 있도록 밝은 파란색은 Bernie Sanders와 Hillary에게는 진한 파란색이 더 많이 나타납니다 클린턴 이 모든 밝은 파란색은 버니를위한거야

샌더스와 당신은 그것을 볼 수 있습니다 외국인 수가 증가합니다 힐러리 클린턴 만 볼 수있다 여기에 산점도가 있으므로 몇 가지있을 수 있습니다 여기와 같은 특이점과 크기 검정색 또는 아프리카 계 미국인 혼자 예, 그렇습니다

이 기능이 우리는 번호 그래서 우리는 그것을 그룹화 그것에 따르면 당신은 더 큰 원은 더 많은 것을 나타냅니다 흑인 또는 아프리카 계 미국인 혼자서 그것이 우리가 찾을 수있는 결론입니다 산산이 줄기에서 나와 우리가 볼 수있다 그것은 외국 사람들의 수로서 힐러리의 인기를 높인다 클린턴은 더 큰 그룹에 속한다

외국 사람도 선택할 수 있습니다 모든 매개 변수 중에서 다른 매개 변수 선택한 다른 기능 그래서 우리는 또한 재향 군인의 편차가 있으므로 선택하겠습니다 재향 군인 및 Y 축 그래서 또한 변화 시키십시오 X 축은 흰색 만 사용합니다 여기 당신이 여기 볼 수 있습니다 흰색 만있는 x 축과 재향 군인입니다

힐러리 클린턴은 더 작은 그룹의 베테랑 인 우리가 크기를 결정했기 때문에 베테랑 그리고 흑인이나 아프리카 계 미국인 혼자서 크기는 또한 일부 값을 나타냅니다 아프리카 계 미국인들 사이에서 인기가있다 참전 용사들과 함께 실제로 볼 수있는 수가 증가합니다 그 산점도와 거의 그것 때문에 이 점이 인원수가 증가하거나 백인의 수가 증가한다 투표는 똑같이 종류가 분산되어있다

버니 샌더스와 힐러리 사이 거기 때문에 클린턴 이 산점도의 많은 점 여기에 가서 너를 끌고 갈 수있어 다른 기능을 드롭하면 그것에 다른 시각화를 만든다 우리가 한 일은 우리가 1900 년과 17 년이있다 내 클러스터 하나에 카운티 그래서 내가 갈거야 그걸 보러 갈거야 이 열 아홉 열 사이에 얼마나 많은 힐러리 클린턴에게 찬성했다

얼마나 많은 사람들이 버니를지지 했습니까? 샌더스 그래서 클러스터 넘버 1에서 당신은 볼 수 있습니다 힐러리 클린턴이 승리자임이 분명하다 버니 샌더스 만이 764를 얻었습니다 반면 그녀는 1150 3 번 클러스터와 마찬가지로 힐러리 클린턴 (Hillary Clinton) 버니 샌더스와 함께 그녀는 또한 삼백 팔십 여덟, 버니 샌더스는 363 이니까 매우 가까운 전화이고 다시 0 너는 19 세에서 30 세 사이이고 그 다음에 우리는 선을 만들었습니다

에 대한 단어 분포 차트 힐러리 클린턴과 버니 샌더스 우리가 예측 한 키즈 여기서 값은 whc이고 WBS는 우리는 여기에 너무 명확히있다 버니 샌더스는 심지어 뒤쳐져있다 네가 그 테이블을 가지고 있지는 않지만 당신은 또한에 따라 그것을 찾을 수 있습니다 이 라인 차트에서 볼 수 있습니다 클러스터 제로조차 다시 힐러리 클린턴 버니 샌더스를 앞섰다 두 개가 매우 순수한 연결이었습니다

경쟁과 그것을 볼 수 있습니다 이 그래프가 여기에 표시되어 클러스터를 나타냅니다 네가 볼 수있는 두 남자가 목 경쟁 및 다시 클러스터 3 명은 목에서 목까지 입었습니다 경쟁이 그렇게 설명 힐러리의 투표 분포 클린턴과 버니 샌더스와 확실히 힐러리 클린턴은 앞서 알고있다 그리고 그것이 물론 그녀가 다시 선거 운동을 할 수 있습니다 앞서 우리는 같은 그래프를 만들었습니다

그것은 단지 지역 그래프 대신에 여기 라인의 주요 그래프는 우리 주와 후보자 그래서 나는 미국과 후보자는 여기에 있고 값은 카운티 이 막 대형 차트 아래로 마우스를 가져 가면 너는 코네티컷 버니에서 그것을 볼 수있다 샌더스는 코네티컷에서 115 개의 카운티를 받았습니다 힐러리 클린턴 (Hillary Clinton) 플로리다 힐러리 클린턴은 58 세 플로리다 버니 샌더스는 9 살이고 여기에 너야 버니 샌더스 원에서 볼 수있다 버니 샌더스가 대다수를 차지해 메인에 투표 그래서 당신은 또한 그것을 현명하게 분류 할 수 있습니다 당신은 어느 주인지 알 수 있습니다

도널드 트럼프 (Donald Trump) 당신이 할 수있는 주 목표 바로 알기 때문에 메인에서 많은 사람들이 Bernie Sanders에게 투표했습니다 아마 힐러리 클린턴은 인기가 없을거야 그래서 앞으로 나아갈 수 있고 그렇게 이끌 수 있습니다 Donald Trump의 파티원입니다 그에게 메인에 가서 조언을 해달라고 조언한다

Hillary 때문에 다른 캠페인 클린턴은별로 인기가 없다 투표를하는 것이 조금 쉬울 것입니다 메인에있는 사람들로부터 당신은에서 결론을 내릴 수 있습니다 매우 정확하지는 않지만이 그 일은 아주 가깝습니다 당신은 다른 차트를 만들 수 있습니다

원형 차트를 만들 수있는 원형 차트 만들기 또는 어떤 카운티에서 건간에 그들의 머리가 파이에 있도록 막대 차트 차트는 좋아 보이지만 어쩌면 그렇지는 않습니다 통찰력이있어서 나는 그것을 놓았다 원형 차트를 만들 수 있음을 보여줄 수 있습니다 또한 이것들은 여러분이 우리 카운티를 분석 한 후 만들 수 있습니다 데이터 및 이것이 당신이 말할 수있는 것입니다

도널드 트럼프 (Donald Trump) 당신이 실제로 갈 수있는 제안 도널드 트럼프에게 인기가 있다고 말하라 포럼 사람들과 사람들 사이 그녀가 다른 언어를 사용하는 사람들 히스패닉계 사람들 사이에서 인기가있다 메인에서 그녀는 많은 카운티를 잃었습니다 그녀는 거의 모든 카운티를 잃었습니다 메인 그래서 이들은 서로 다른 통찰력 네가 가진 것과 너는 말할 수있다

상급자 또는 고용주가 너를 고용해서 너를 위해서 이것은 바로 표현할 수 있습니다 초보자 수준 및 몇 가지 더 있습니다 당신이해야 할 분석 너에게 갈 수있는 몇 가지 옵션을 보여줬다 앞서 민주당에서 더 많은 것을 시도해보십시오 섹션 및 또한 당신은 그 기억 당신은 공화당을 위해 그것을해야합니다

파티도 이제 네가 가진 걸 보게 해줘 오늘 배웠다 지금 당장 질문하실 수 있습니다 앞으로 나에게 묻는다 그래서 누군가는 어떤 것을 가지고 있느냐? 질문들 좋아, AJ가 내가 원하는 걸 말하고있어

그것을 시도하고 나는 당신에게 요청했다 AJ의 다음 수업은 내가 아주 좋아 당신이 그걸 흥미롭고 너는 그것을 시도 할거야 그래서 고마워요 그래서 지금 우리는 계속 전진 해 즉시 택시 사용을위한 해결책 우리가 가지고있는 것을 기억한다면 픽업이 포함 된 uber 데이터 세트 시간과 위치를 두 열 위도와 경도 그리고 우리는 또한 특정 번호의 라이센스 번호를 가지고있다

ruber 드라이버와 우리가해야 할 일은 벌집을 찾아야 해 우리가 최대 픽업을 찾은 다음 우리는 또한 무엇이 무엇인지 알아 내야 할 것입니다 오늘의 피크 시간 전체 전략 그래서 우리는 위버있어 픽업 데이터 세트를 저장 한 다음 데이터를 HDFS로 변환하면 데이터 세트를 사용하여 k-는 위도와 경도와 B 지점 또는 벌집 지점 그래서 지금 내게 열어 보자 다른 노트북 the uber notebook so 다시해야 할 첫 번째 일 uber 데이터 세트를 복사하여 HDFS 이제 우리가하기 전에 우리가 해냈어

우리에게 너를 설명하는 군 다시 코드는 일종의 분석이다 첫 번째 것은 다시 그 것이다 우리는 일부 스파크 속편을 가져오고 있습니다 패키지 및 일부 스파크 ml Lib 패키지 왜냐하면 우리는 k-means를 사용할 것이기 때문에 클러스터링 및 벡터를 볼 수 있습니다 어셈블러가 다시 spark ml 클러스터링 k- 수단 및 기타 스파크 속편 패키지 그래서 우리는 속편을 시작해야합니다 맥락과 우리는 같은 방식으로 우리가 다시 정의해야 할 첫 번째 일 지금 스키마가 많은 필드가 없습니다

기억한다면 4 개의 필드 만 있습니다 그래서 첫 번째 필드는 날짜와 시간이었습니다 우리가 머문 시간을 정의하는 우표 다음 필드를 Det로 정의하면 위도와 경도는 내가 그랬어 내 데이터 세트를 읽으려고하면 이것이 내 uber 데이터가 설정된 내 HDFS의 경로 스키마가 스키마로 정의되어 있으므로 여기 헤더는 사실입니다 왜냐하면 다시 데이터 세트에 열 헤더가 포함되어 있습니다

기능 호출을 DF에 저장하려고합니다 여기는 위도가 될 것입니다 경도는 내가 알아낼 것이기 때문에 벌집은 내가 할 지점을 가리킨다 내 최대 킥을 다시 얻을 수있어 입력 호출을 기능으로 설정했습니다

이러한 기능을 호출하고 출력합니다 어셈블러를 사용하여 데이터를 설정 한 다음 다시 사용하고 있습니다 k-means를 사용하고 동일한 엘보우 법을 사용합니다 우리는 우리가 8 이 데이터 세트에 대한 클러스터를 정상적으로 설정 한 다음 예측 열을 선택합니다 예측 열과 출력 열을 우리는 클러스터 센터를 인쇄했습니다

그래서 각 클러스터마다 뭐든간에 결과 우리는 클러스터를 찾을 것입니다 센터에서 정확한 위치를 알려줍니다 이 클러스터는 우리가 find k-means 후 실제로는 벌집이 포인트가 될 것이라고 지적했다 내가 최대 픽업에서 찾을 수있는 곳 바로 여기에서 클러스터를 인쇄했습니다 위도는 위도를 정의합니다

그리고 경도는 내 것이 될거야 내가 찾는 곳 최대 픽업과 나는 8 개의 결과를 얻었다 내가 8 개의 클러스터를 가지고 있기 때문에 그렇게 좋아 8 개 센터를 이 클러스터가 다른 클러스터 학교 문제처럼 내가 k- 수단으로 당신에게 설명했는데 이것은 우리가 발견 한 것과 정확히 무슨 일이 일어나는가? 각 클러스터의 중심에서 우리가 학교를 대체하고있는 곳 또는 새로운 학교를 이렇게 유사하게 건축하십시오 이것은 내 벌집 지점이 될 것입니다

이것이 내 최대 자리를 차지할 곳입니다 택시의 수를 알았을 정도로 우리는 벌집은 다음 일을 우리에게 알려줍니다 우리가 최고점을 찾아야 할 필요가있다 나도 알아야하기 때문에 택시를 몇시에 넣어야합니까? 위치 그래서 우리가 지금하고있는 일은 우리가하는 일입니다 queue라는 새 변수를 가져온다

우리는 타임 스탬프에서 우리를 선택합니다 열을 입력 한 다음 별칭 이름을 사용해야합니다 우리와 우리는 예측 또는 우리가 지금 내 k-means 클러스터링을 마쳤습니다 우리는 그것을 그룹화하고 있습니다 하루 중 다른 시간에 그리고 나서 그것은 단지 나에게 픽업을 보여줄 것이다

오늘의 다른 시간 우리가 알아 낸 위치는 벌집이 가리킨 다음 우리는 얼마나 많은 픽업을 할 지 계산해라 그 장소에서 우회전하면 얻을 수있어 내림차순으로 작은 픽업 카운트가 첫 번째가되고 더 큰 것은 비슷하게 바닥에있을 것이다 다시 우리는 새로운 변수를 생성하고있다 엘테, 우리도 똑같이 할거야

여기 우리가하는 일은 우리가하는 일입니다 지금 시간을 선택하는 것은 위도 / 경도 예측 시간이 아닌 필터는 null이 아니므로 우리는 null 값을 필터링합니다 이제 테이블 뷰를 만들었습니다 카테고리에 대한 설명을 드리겠습니다 두 가지 범주에 괜찮아요

내려 가서 몇 가지 작업을 했어 여기에서 다시 위로 스크롤하면 우리가 만든 테이블을 다시 보여줍니다 T와 Q에 대한 견해 역시 다시 T입니다 그리고 Q 괜찮습니다 각각에 대한 시각화 우리가 null이 아닌 값 P를 생성했습니다

그래서 다시 우리는 null을 걸러 냈습니다 시간과 우리는 새로운 시각을 창조했다 P라는 여기에 내 시간이 내 카운트 및 x 축에서 많은 픽업이 거기에 있었고 이것은 서로 다른 시간의 날짜와 그 다음 나는 예측에 의해 그것을 그룹화했다 크기는 개수에 따라 다릅니다 당신은 더 큰 원형을 볼 수 있습니다 더 많은 픽업을 의미하므로 찾을 수 있습니다

가장 큰 서클을 벗어나면 당신은 가장 큰 원을 찾을 수 있습니다 이것이 x 축을 따라 가기 때문에 개수가 늘어나면 가장 큰 원이 어디인지 알아 내라 여기 제 4 군데에 있고 너는 800 명이 있다는 것을 알 수있다 또는 8 천 9 백 15 17 시간의 픽업 오후 5 시경에있는 날 이니 최대 픽업이 주위에 있다는 것을 알아라 4시 또는 5시와 이것 네 번째 클러스터에 모두 거짓말을한다

내 피크 시간이 약 4 시간이나 저녁 5시에 그렇게 좋았어 이것이 우리가 얻은 통찰력입니다 너는 내가 가진 인스턴트 택시 CEO에게 알릴 수있어 당신의 택시가 준비되어야한다는 것을 알았습니다 그것이 약 4 ~ 5 개 정도이기 때문에 사람들이 사무실이나 그들은 저녁 식사 나 외출 중입니다

어떤 것이고 이것은 또 다른 것입니다 테이블보기는 T와 같습니다 그래서 여기 있습니다 위도와 경도가 있습니다 우리가 벌집을 찾는 곳입니다

위치 그래서 나는 이것을 가지고있다 분산 형 플롯에서의 분포 당신은 우리가 매우 조밀 한 것을 볼 수 있습니다 여기를 가리키면 벌 하이브를 대표하다 당신이 할 수있는 일은 당신이 미국지도를 넣고 크기를 조정할 수 있습니다 여기이 척도에 따르면 그럼 정확히 무엇인지 알 수 있습니다 놓을 필요가있는 정확한 위치 17 시간 경의 택시 또는 하루 16 시간 괜찮아

우리는 많은 행이 있다는 것을 알고 있습니다 결과는 10,000 행 정도면 10,000 개이지만 분명히 훨씬 더 많았고 다른 클러스터를 체크인하십시오 클러스터 0을 분석 중이므로 여기 여기이 점을 보시오 이것에 대한 클러스터는 클러스터 5에있다 이것은 클러스터 0에 놓여 있습니다

그래서 각 클러스터를 분석해서 여기 있습니다 위도와 경도를 배치했다 제 0 클러스터 때문에 볼 수 있습니다 여기서 예측은 0과 같습니다 나는 이것을 표에서 선택했다

U의 T는 여기에서 찾을 수 있습니다 정확한 위도와 경도는 여기에 있습니다 위도는 40 ~ 72 포인트입니다 경도는 음의 70이다 3 점 9시 9 분 이니까

정확한 위치를 가리킬 수있는 방법 피크 기간 동안 모자가 있어야합니다 이 배포판을 보면 또 한 시간 씩 이건 그냥 파이 차트에요 그것으로 창조 된 해당 시간의 픽업 횟수 하루는 0에서 23까지 이것에 24 개의 조각이있다 동그라미를 치면이 몇 안되는 것을 볼 수 있습니다 조각이 더 큰 덩어리이고 이것은 하루 중 19 시간 5시 6시 7시 3시 방향에 4시 방향 등등

어쩌면 아무도 자정을 볼 수 없습니다 어쩌면 당신의 택시가 안락하게 여행 할 수 있습니다 더 이상 택시를 배치 할 필요가 없습니다 이 부분에서 이들은 네가 얻을 수있는 통찰력 그것에 관한 질문들과 나는 생각한다 우리 카운티 선거를하는 것은 꽤 쉽게 할 수 있으며 이것은 또한 꽤 이해하기 쉽고 또한 훨씬 더 명확한 결과 알았어

그래서 다시 우리 집에 가자 프레젠테이션을 통해 당신이 가지고있는 가장자리 리카 LMS LMS에있는 모든 것을 이 수업은 녹음되어 이 기간에도 LMS에 있으십시오 수업을 잊어 버리면 수업 네가 이걸 좀 볼 수 있다고 했어 기록 다시 LMS에서 수업을 듣기 만하면됩니다

너 자신을 배워라 모든 과정 내용을 직접 소유하세요 기본 과정이므로 어떤 문서 든 당신은 당신의 주제와 관련이 있고 싶습니다 여기에 그것을 찾을 것입니다 그래서 그냥 보여 드리죠 너는 전체 과정조차 그렇다 내용은 여기에 있습니다

프레젠테이션과 모든 녹음은 여기에 숨겨집니다 다른 과정 코스 내용 액세스 권한이있는 모듈 당신과 관련된 다른 프로젝트들 물론 다운로드 할 수 있습니다 문제 성명서는 모두 해야 할 요구 사항 이 프로젝트를 수행하려면 그것을 다운로드하고 그것을 해결 한 후에 당신은 할 수 있습니다 여기에 다시 제출하십시오 에드가 리카 VM도 적당합니다

이것을 사용하는 방법에 관한 안내선 방법 VM 및 의심되는 점이 있으면 24/7 지원팀에 전화해도 그냥 가야할 LMS를 보여줘 내가 이미 서명 했으니 까 로그인하고 로그인하지 않은 경우 여기에 로그인 옵션이 있습니다 오른쪽 구석에 서명하면됩니다 안에 들어가서 내 코스로 가라

코스에는 다양한 코스가 있습니다 에드 유레카에서 가져 왔어 그냥 코스에 가면 모든 것이 있습니다 Hadoop을 시작하고 싶습니다 여기에 언급 된 모든 것이 있습니다

소프트웨어 또는 하드웨어 요구 사항은 다음 당신은 사전있어 여기와 하나의 녹음 세션 수업도 언제든지 볼 수 있습니다 LMS의 가장 중요한 부분은 평생 액세스 할 수 있습니다 너의 수업이 끝난 후에는 그렇지 않아 한 번 퍽을 어떻게하는지 배웠다면 당신의 일괄 처리는 끝났어 더 많은 강의에 참석하면 모든 오래된 클래스에 접근 할 수있다

당신이 참석하고 그것을 볼 수있는 언제든지 원하는 코스가 있습니다 모듈 2에 대한 콘텐츠 클래스 레코딩에는 모듈이 있습니다 퀴즈 과제 및 모든 것 그리고 다시 나는 당신은 어떻게 사용하는지에 대해 의문의 여지가 있습니다 LMS는 항상 고객 지원 팀에 전화 할 수 있습니다 아무도 질문이 없어요

참석해 주셔서 감사합니다 세션 좋은 시간 보내길 바래요 하둡에 대해 배우고 당신이 할 수있는 불꽃 놀이 우리를 평가하고 우리에게 어떻게하는지 알려주십시오 당신은 ed Eureka와 함께 즐겁게 학습했습니다 당신은 당신의 경험을 논평 할 수 있습니다

몇 가지 제안을 할 수도 있고하지 않을 수도 있습니다 이 동영상이 마음에 드시면 정말 좋습니다 우리가 도울 수 있도록 도왔습니다 우리가 무엇을 생각해야하는지에 대한 더 많은 아이디어 다음과 함께 다음 걸릴 수 있습니다 우리가 할 수 있도록 우리를 더 향상시켜 주셔서 감사합니다

이 비디오를보고 나는 당신을 볼 것입니다 다음 번에 행복하게 배울 때까지 나는 너가 이것 듣는 것을 즐겼기를 바란다 비디오는 충분히 그것을 좋아할만큼 친절해야한다 당신은 당신의 의심에 대해 언급 할 수 있습니다 검색어를 입력하면 가장 초기의 동영상은 더 많은 동영상을 찾습니다

우리의 재생 목록에 Rekha 채널 더 행복하게 배우기 배우기

Apache Spark Tutorial | What is Apache Spark | Project Spark | Spark Tutorial | Intellipaat

안녕 얘들 아 Intellipaat에 의해 또 다른 흥미로운 세션에 오신 것을 환영합니다 오늘 우리는 Apache Spark에 대해 논의 할 것입니다

오늘 세션에서 우리는 왜 아파치 스파크? Apache Spark이란 무엇입니까? 직업 기회와 실습 아파치 스파크 대 Hadoop, Apache의 다른 기능들 불꽃 스파크 아키텍처 및 구성 요소, 커리어 기회 및 실습 운동 이제 Spark의 사용 사례를 살펴 보겠습니다 세계 최고의 선구자 중 하나 전자 상거래 거인은 비즈니스와 비즈니스를 촉진하는 eBay입니다 비즈니스 판매

이베이 (eBay)는 1 억 6 천 2 백만 명의 적극적인 고객이있는 시장입니다 2500 만 판매자 eBay는 구매자와 판매자가 가능한 한 효율적으로 데이터를 작성하려고했습니다 그들은 사이트에 8 억 개의 목록과 88 개의 새로운 백만 개의 목록을 가지고 있기 때문에 목록이 매주 추가됩니다

eBay의 초기 사용자 패턴은 검색 지향적이었고, 사용자는 제품을 찾기 위해 검색 목록을 검색해야했습니다 전자 상거래가 전환됨에 따라 사용자는 전자 상거래를 탐색하고 목록에서 검색하는 대신 제품을 구입하십시오 이를 위해 eBay는 전체 데이터 모델을 전환해야했습니다 처음에는 eBay가 실시간과 호환되지 않는 Hadoop 아키텍처를 사용하고있었습니다 데이터 모델이므로 이베이는 실시간 아키텍처 도구를 찾고있었습니다

글쎄, 아파치 스파크는 그들을위한 편리한 도구였습니다 eBay는 Apache Spark를 사용하여 이전 고객을 대상으로 고객을 대상으로 오퍼를 제공합니다 경험을 향상시키고 고객의 경험을 향상시키는 데 아무런 노력을 기울이지 않는 시도 그들과 함께 이를 통해 사전 예방 적 방식으로 고객이 원하는 것을 제공 할 수있는 고객 경험을 향상시키고, 고객이 효율적으로 원활하게 고객의 시간을 처리 할 수 ​​있도록 도와줍니다 전자 상거래 사이트

eBay는 Apache Spark가 Hadoop YARN을 활용하도록하여이 마법을 적용합니다 Apache Spark이란 무엇입니까? 그게 뭔지 알아? Apache Spark는 특별히 다루기 위해 개발 된 오픈 소스 엔진입니다 대규모 데이터 처리 및 분석 비정형 데이터가 많고 실시간 분석을 수행하기 위해 속도를 높여야하는 필요성 때문에이 기술은 실제로 실현되었습니다 Big Data 전산 연습을위한 대안

실시간 데이터 분석의 경우 Spark는 다른 모든 솔루션 우리가 이미 가지고있을 때 생각하고 있을지도 몰라 데이터를 처리하는 Hadoop은 왜 Spark가 필요합니까? 스파크를 하둡보다 더 대중적으로 만드는 것은 무엇입니까? 이에 답하기 위해 우리는 개념을보아야 만합니다 배치 및 실시간 처리 일괄 처리는 일정 기간 동안 데이터를 수집하는 것입니다

그것을 처리합니다 예를 들어 급여 및 청구 시스템 실시간 처리의 경우 데이터 수집 및 처리가 발생합니다 동시에 ATM은 실시간 시스템의 한 예라고 생각할 수 있습니다

비밀번호 및 기타 세부 정보를 입력하면 원하는 금액을 받게됩니다 Hadoop은 개념을 기반으로합니다 이미 저장되어있는 데이터 블록에서 처리가 이루어지는 일괄 처리 처리 기간 동안 그러나 Spark는 실시간으로 데이터를 처리 할 수 ​​있으며 약 100 배 더 빠릅니다 대규모 데이터 세트를 일괄 적으로 처리하기위한 Hadoop MapReduce보다 스파크의 또 다른 장점은 과거 데이터와 실시간 데이터를 모두 처리 할 수 ​​있다는 것입니다

화면의 이미지는 Hadoop과 Spark With Spark의 주요 차이점은 여러 응용 프로그램을 처리 할 수 ​​있다는 점입니다 이력 데이터와 실시간 데이터를 기반으로합니다 Hadoop에 비해 Spark는 사용하기 쉽고 처리 속도가 빠릅니다 스파크의 특징을 살펴 보겠습니다 Spark 코드는 Java, Scala, Python 또는 R 언어로 개발할 수 있습니다

Spark는 MapReduce보다 100 배 빠르게 실행됩니다 Spark는 텍스트, CSV, RDBMS, JSON, Hive, 카산드라 등 Spark는 실시간 계산 기능을 제공합니다 Spark는 기계 학습도 지원합니다 (기계 학습) 이것은 Spark을 IT 분야에서 급성장하는 기술로 만든 장점입니다 이제 우리는 Spark 아키텍처로 이동합니다

스파크 아키텍처에는 드라이버 프로그램, 클러스터 관리자 및 다양한 작업자 노드가 있습니다 운전자는 중앙 및 스파크 셸의 진입 점 응용 프로그램의 main () 함수를 실행하고 Spark 컨텍스트를 만듭니다 드라이버는 모든 Resilient Distributed Databases에 대한 메타 데이터를 저장합니다 및 파티션

클러스터 관리자는 책임이 있습니다 Spark 클러스터에서 리소스를 얻은 다음 Spark 작업에 할당합니다 Spark 애플리케이션이 할당을 위해 활용할 수있는 클러스터 관리자에는 3 가지 유형이 있습니다 다양한 물리적 자원의 할당 해제 등이 포함됩니다 다음 슬라이드에서 이에 대해 논의 할 것입니다 실행 프로그램은 실행을 담당하는 분산 에이전트입니다

할 수 있습니다 모든 Spark 애플리케이션에는 고유의 Executor 프로세스가 있습니다 Executors는 일반적으로 Spark 응용 프로그램의 전체 수명 동안 실행되며 이 현상을 "집행자의 정적 할당"이라고합니다 스파크가 어떻게 작동하는지 이해합시다 Apache Spark는 독립 실행 형, Hadoop에서 세 가지 방법으로 실행됩니다

MapReduce의 YARN 및 Spark 스파크의 가장 단순한 배포 Hadoop 클러스터가 모든 리소스를 정적으로 갖추고있는 독립 실행 형 MapReduce와 병렬로 실행됩니다 스파크는 사전 설치없이 YARN 상단에서 실행할 수도 있습니다 비록 YARN이 없다면 Spark를 MapReduce와 함께 사용할 수도 있습니다 이렇게하면 배포 부담이 줄어 듭니다 어쨌든 Spark가 배포되면 구성에서 필요한 리소스를 할당합니다

Spark가 연결되는 순간 노드에서 집행자를 얻습니다 이러한 실행자는 계산을 실행하고 데이터를 보호하는 프로세스 일뿐입니다 이제 응용 프로그램 코드가 실행 프로그램으로 전송됩니다 이제 스파크 생태계를 만드는 스파크 구성 요소를 살펴 보겠습니다 Apache Spark Core는 Spark 애플리케이션의 기본 처리 엔진입니다

가장 중요한 기능에는 메모리 내 처리 및 외부에서 참조되는 데이터가 포함됩니다 데이터 소스 Spark Streaming은 고속 계산 기능을 제공합니다 실시간 데이터 분석을 제공하기 위해 스트리밍 데이터와 잘 작동합니다 데이터는 여러 배치로 분리되며 RDD 추상화를 사용하여 데이터가 스트림 데이터의 요구에 맞게 대규모 병렬 방식으로 반복 처리됩니다 처리

Spark SQL은 Schema RDD라는 새로운 차원의 데이터 추상화를 만듭니다 SQL을 배치하여 구조화 된 데이터와 반 구조화 된 데이터 모두를 독점적으로 사용하기 위해 검색어 언어 GraphX는 Apache Spark 프레임 워크의 그래프 처리 기능으로 반복적 인 그래픽 계산, 탐색 분석 및 ETL의 결합입니다 기능 스파크는 기계 학습 알고리즘 및 메모리 기반의 Spark를위한 Machine Learning 프레임 워크를 제공하는 MLlib 라이브러리 분산 환경

스파크의 이러한 기능은 다음과 같습니다 광범위한 산업 분야를 망라하는 기업들이 신속하게 채택했습니다 Netflix, Facebook 및 eBay와 같은 인터넷 강국 거대한 규모의 스파크를 배치했다 1000 여명의 기고가와 함께 큰 데이터에서 가장 큰 오픈 소스 커뮤니티가되었습니다 250 개 이상의 조직에서 PayPal은 또한 Spark 기술을 사용하여 대규모 데이터를 처리합니다

폐쇄 루프 지불 플랫폼이므로 매일 수십억 개의 데이터 이벤트를 처리합니다 위험, 지불, 웹 행동 및 신원과 관련된 정보를 수집합니다 성공적인 거래 횟수를 극대화하기 위해 상인을 돕기 위해 데이터 처리 솔루션을 사용합니다 Spark은이 분야에서 중요한 역할을 담당하며 PayPal이 대규모 데이터를 영향력있는 가맹점 솔루션을 가능하게합니다 이제 우리는 운동에 손을 가자

Aditya Riaddy – Apa itu Apache Spark dan Penggunaanya untuk Big Data Analytics | BukaTalks

모두들 안녕하세요 내 이름은 Aditya Iftikar Riaddy입니다

Adit에게 전화 해 저는 Bukalapak의 데이터 과학자입니다 Discovery of Buy 팀에서 제품을 발견했습니다 하지만 지금은 개인화 및 추천 팀에 있습니다 오늘 저녁에 Apache Spark 소개 및 Big Data Analytics 활용에 대해 설명하겠습니다

하지만 전에 이미 아파치 스파크에 익숙한 사람은 누구입니까? 아니면 이미 사용하고 있습니까? 별로? 먼저 Apache Spark에 대해 설명하겠습니다 그런 다음 스파크에는 어떤 도서관이 있습니까? 빅 데이터 분석을위한 활용은 무엇입니까? 또한 zeppelin이라는 큰 데이터 분석을 수행 할 수있는 스파크 기능을 향상시키는 도구 중 하나를 설명합니다 그리고 Bukalapak에서 그것의 실행 Spark, 짧은 버전 인 Spark는 데이터 처리 엔진입니다 그러나 데이터는 대규모로 존재합니다

수백 기가 바이트 또는 테라 바이트 페타 바이트 규모의 대규모 데이터를 전문으로합니다 또한 일반적인 목적은 기본적으로 모든 용도로 사용될 수 있음을 의미합니다 데이터 처리, 데이터 변환, 최대 기계 학습 그리고 그것은 빠릅니다 얼마나 빠릅니까? 스파크는 평행하게 달린다

어쩌면 이미 병렬로 실행되는 프로그램이 많이있을 수 있습니다 병렬 라이브러리가 많기 때문에 Spark의 다른 점은 다른 점입니까? 병렬은 분산 컴퓨팅으로 사용될 수 있습니다 그래서 보통 평행선이 코어 레벨에서만, 예를 들어 랩탑이 4 개의 코어를 가지고 있다면 병렬도 4가됩니다 그러나 스파크가 여러분에게 4 대의 랩톱을 가지고 있다고 가정하면, 4×4 코어는 16 개의 코어가 있다는 것을 의미합니다 16 개 코어로 병렬화 될 수 있습니다

따라서 수평 증감이 가능하기 때문에 고급 스러울 수 있습니다 또한 고급 API이기 때문에 사용하기 쉽기 때문에 필요하지 않습니다 보통 병렬 인 경우이를 지정해야합니다 (예 : 행 A에서 행 D까지의 데이터는 코어에 포함됩니까? 행 X의 데이터가 행 Y에 포함되어 코어에 포함됩니까? 이 기능은 자동으로 수행되므로 기능을 사용하기 만하면됩니다 또한 스칼라, 자바, 파이썬, R을 포함한 몇 가지 프로그래밍 언어를 지원합니다 보통 데이터 과학자는 파이썬이나 R을 사용 했나요? 여기에서 사용할 수 있습니다

그러나 메모로 R의 라이브러리가 가득 차서는 안됩니다 따라서 Spark의 모든 라이브러리가 R에있는 것은 아닙니다 하지만 나머지는 꽤 완벽합니다 Spark에있는 라이브러리입니다 스파크 SQL, 스파크 스트리밍, MLlib, GraphX

Spark SQL의 콘텐츠는 Dataframes와 비슷합니다 Python을 자주 사용하는 사용자는 어느 정도 동일합니다 데이터 변환을위한 것이고 Spark는 HDFS, Hive, Cassandra 및 Hbest와 같은 데이터 소스와 쉽게 통합됩니다 Spark Streaming도 있습니다 Spark Streaming은 데이터를 스트리밍하는 데 유용하므로 Kafka 또는 Flume을 사용하여 실시간 분석을 할 수 있습니다

MLlib도 있습니다이 기본적으로 기계 학습 라이브러리이며 꽤 완벽합니다 사전 처리, 기계 학습에, 알고리즘은 분류, 회귀, 모델 선택, 파이프 라인에 대한 협업 필터링까지 또한 Spark는 하둡보다 100 배 빠르며 로지스틱 회귀를 위해 사용됩니다 Spark의 웹 사이트에서 인용 했으므로 사실 일 것입니다

그런 다음 GraphX를 처리하기위한 라이브러리, PageRank 등이 있습니다 그것이 스파크 소개입니다 다음 것; 데이터 분석, 스파크로 빅 데이터 분석 그게 뭐야? 나는 또한 당신을 Zeppelin에게 소개 할 것이다 제플린이란 무엇입니까? 목성 노트에 익숙하신 분? 다소 차이는 있지만 웹 기반 노트북과 동일하지만 그 차이점은 무엇입니까? Spark를 지원합니다

Jupiter를 사용한다면 그것을 구성해야합니다 이것은 이미 통합되어 있습니다 이것은 예일뿐입니다 목성처럼, 다소 어려워 보이지만 다소 비슷합니다 우리는 기본적으로 여러 셀을 코딩하고 있습니다

그런 다음 Macdown에서 스크립팅을 추가 할 수 있습니다보고를 위해 시각화도 만들 수 있습니다 차이점은 Zeppelin의 경우 시각화가 이미 포함되어 있다는 것입니다 Jupiter를 사용하는 경우 Madlib을 사용할 수 있습니다 시각화가 이미 존재하기 때문에 프레임 목록에 대한 쿼리를 삽입하기 만하면됩니다

또한 20 명의 통역사를 추가로 지원하며 여기에서 일부를 볼 수 있으며 그 중 하나는 스파크입니다 따라서 데이터 분석을 편리하게 수행 할 수 있습니다 Zeppelin의 또 다른 장점은 협력 할 수 있다는 것입니다 googledocs와 유사하게 협업합니다

입력 할 수 있고 다른 사람도 입력 할 수 있습니다 우리가 기계 학습을 사용하여 분석을하고 싶다고 가정 해 봅시다 전 처리를하고 있습니다 친구는 기계 학습을위한 코딩을하고 있습니다 그런 팀에서 일하면 편리합니다

앞서 말했듯이 시각화도 있습니다 시각화는 이미 Zeppelin에 포함되어 있습니다 그래서 기본적으로 시각화를하는 것이 더 쉽습니다 이제 Bukalapak에서 Big Data Analytic을 구현하는 것이 어떻습니까? 첫번째; 사용자 여행 분석 그게 뭐야? 그것은 이와 같습니다

구매자가 BukaLapak에 간다면 첫 번째 페이지는 홈페이지 여야합니다 물론 꼭 그렇지는 않습니다 사실 다른 페이지가 될 수 있습니다 하지만 보통 홈 페이지를 먼저 읽은 다음 예를 들어 헤드셋에 대한 프로모션이있는 것을보고 다음을 기억하십시오 "그래, 헤드셋을 구입해야합니다

" 그런 다음 상품을 검색하는 사용자는 제품 세부 사항을 계속 열어, 아마도 그녀는 제품을 구입할 때까지 추천서를 볼 것입니다 여기서는 구매자가 구매 결정을 내릴 실제 페이지가 무엇인지 알고 싶습니다 우리는 홈페이지가 Bukalapak의 거래에 얼마나 많은 기여를하는지 알고 싶습니까? 트래픽 데이터를 사용해야한다는 것입니다 Bukalapak의 교통 정보에서 어떤 페이지가 열렸습니까? 분명히 큰 데이터 여야합니다 Bukalapak의 교통량은 하루에 최대 1 백만 개 이상이 될 수 있습니다

여기서 분석은 데이터베이스에서 원시 데이터를 가져온 다음 사용자 이동을 얻을 때까지 Spark에서 처리합니다 집에서 예를 들어 제품, 추천 등을 검색하여 프로모션을 계속 엽니 다 이 사용자 여행 분석을 위해 Spark은 사용자 여정을 생성 할 때까지 준비 연습으로 사용됩니다 왜냐하면 분석 도구는 스파크가 아닌 R에 존재하기 때문에 스파크 이후에 저장 한 다음 R에서 다시 처리합니다 두 번째 것은 실제로 분석 적이 지 않으며, 우리는 Zeppelin도 사용합니다

그것은 또한 추천 시스템을위한 개념 증명을위한 것입니다 이것은 Recommender 시스템의 예입니다 우리가 2018 붙여 넣기 테이프를보고 바닥에 권장 사항이 나타나는 것으로 가정합니다 "이 항목을 보는 구매자는 또한 관심이 있습니다 " 또 다른 붙여 넣기 테이프 어떻게 이것을 생성합니까? Bukalapak에는이 추천 시스템을위한 알고리즘이 있습니다 우리는 Zeppelin을 사용하고 Spark는 개념 증명 (Proof of Concept)을위한 것이거나 용어가 프로토 타이핑입니다 예를 들어 Zeppelin을 사용하는 경우이 단계에서 문제가 있는지 쉽게 확인할 수 있으므로 편집 할 수 있습니다

스크립트가 오류 발생시 비틀 거림을 알기 위해 스크립트가 끝날 때까지 기다릴 필요가 없으며 오류 위치가 어디인지 알 수 없습니다 먼저 프로토 타입을 작성하기 위해 작은 데이터를 먼저 사용합니다 1 일, 1 주 또는 1 개월 그런 다음 거기에서 처리합니다 예를 들어 고정 된 경우 알고리즘은 정확합니다

우리는 직접 대규모 버전을 만듭니다 따라서 전체 데이터 제품을 선탠 할 수 있습니다 어쩌면 그게 전부 일 수도 있습니다 오늘 발표에서 결론 지을 수 있습니다 스파크는 큰 데이터 처리에 적합합니다

또한 모든 데이터 처리 또는 데이터 변환, 기계 학습에 사용할 수있는 범용입니다 Spark는 데이터 분석 기능도 갖추고 있으며 Zeppelin을 사용하여 향상시킬 수 있습니다 그게다고 고마워