Spark Tutorial for Beginners | Apache Spark Architecture | Spark Components | Intellipaat

안녕하세요 Apache Spark Architecture 세션에 오신 것을 환영합니다

우리가 보자 오늘의 의제 이 세션에서 우리는 진짜를 가지고 시작합니다 스파크가 직면 한 문제를 해결하는 데 사용 된 시간 산업 유스 케이스 야후 그런 다음 스파크가 무엇인지 이해하고 그 중 일부에 약간의 빛을 비 춥니 다 풍모 그 후 우리는 다른 구성 요소를 볼 수 있습니다 스파크 아키텍처를 자세하게 다루고 마지막으로 스파크 응용 프로그램을 만드는 방법을 배웁니다

문제를 이해하도록하겠습니다 야후는 스파크에 직면하고있다 야후의 자산은 관련성을 극대화하십시오 즉, 개인화를 제공하기 위해 사용하는 알고리즘 광고를 타겟으로하고 개인화 된 콘텐츠는 정교하고 관련성 모델을 자주 업데이트해야했습니다 뉴스 피드와 뉴스는 시간이 지남에 따라 계속 바뀌었고 Yahoo도 150 개가 넘었습니다 35,000 노드 하둡 클러스터에 저장된 페타 바이트 단위의 데이터 데이터 이동으로 인한 대기 시간을 피하기 위해 효율적으로 액세스 또한 비용 효율적인 방식으로 데이터로부터 통찰력을 얻습니다

야후는 SPARK를 통해 반복 모델의 성능을 향상시켰다 훈련 뉴스에 사용 된 기계 학습 알고리즘 약 15,000 줄의 C ++ 코드가 필요한 개인화 spark로 구현 된 머신 러닝 알고리즘은 120 개에 불과했습니다 스칼라 프로그래밍 코드 라인과 알고리즘은 프로덕션 환경에서 사용 가능 1 억 개의 레코드가있는 데이터 세트에 대한 단 30 분의 교육으로 지금 그다지 놀랍지 않습니다 야후는 뉴스를 개인화하기 위해 아파치 스파크를 사용한다 웹 페이지 및 타겟팅 된 광고 야후는 기계 학습도 사용합니다 어떤 종류의 뉴스 사용자인지 알아 내기 위해 아파치 스파크를 실행하는 알고리즘 읽고 뉴스 기사를 분류하는 데 관심이 있습니다

어떤 종류의 사용자가 각 뉴스 카테고리를 읽는 데 관심이 있고 스파크의 도움으로 야후는 또한 모델 훈련의 대기 시간을 줄일 수 있었다 메모리 처리를 통해 이제 어떻게 야후를 이해했는지 스파크의 혜택 이제 스파크에 대해 간단히 이해하겠습니다 그래서 그것은 실시간 처리를위한 클러스터 컴퓨팅 프레임 워크 실제로 2009 년 UC Berkeley R & D 연구소에서 Hadoop 하위 프로젝트 도입 2010 년에 오픈 소스가되었고 2013 년에 Apache Software에 기증되었습니다

기초 따라서 모든 클러스터를 프로그래밍하기위한 인터페이스를 제공합니다 암시 적 데이터 병렬 및 내결함성 이제 우리 중 일부를 보자 스파크의 흥미로운 특징 스파크는 실시간 계산과 낮은 대기 시간을 제공합니다 메모리 내 계산으로 인해 스파크가 대규모 데이터 처리 및 SPARK도 폴리 글롯이므로 SPARK를 작성할 수 있습니다

Java, Scala, Python 또는 SQL과 같은 여러 언어로 된 응용 프로그램 불꽃 강력한 캐싱 기능을 제공하므로 강력한 캐싱 및 디스크 지속성 기능과 SPARK는 여러 배치 모드를 통해 메조, 헤 도프 경사, 또는 자체 클러스터 관리자를 시작하십시오 이제 스파크 충격도 거의 모든 단일 회사가 포춘 500 대 기업에 소규모 창업 규모를 구축하고 빅 데이터 애플리케이션을 혁신하기위한 Apache Spark 산업 미디어, 건강 관리, 금융, 전자 상거래 및 여행과 같이 거의 모두 스파크를 사용하고 있습니다 집중적으로

이제 rdd 's의 개념을 이해해 봅시다 따라서 여러 작업에서 데이터를 처리 할 때는 재사용하고 인 메모리 데이터 공유를 통해 얻을 수있는 데이터 공유 실제로 네트워크 및 디스크 공유보다 빠릅니다 이것이 바로 메모리 내 데이터 공유를 돕기 위해 rdd가 제공되는 곳입니다 그래서 rdd는 탄력적 인 분산 데이터 세트를 나타내며 기본 데이터입니다 탄력적으로 아파치 스파크의 구조는 다음과 같이 내결함성을 의미합니다 노드 장애 발생시 누락되거나 필요한 파티션을 다시 계산할 수 있습니다

rdd 연계 그래프의 도움으로 데이터 이후에 배포되었습니다 여러 노드에 상주하며 마지막으로 데이터 세트는 데이터 레코드를 나타냅니다 당신은 함께 일합니다 사용자는 외부에서 데이터 집합을 알 수 있습니다 JSON 파일, CSV 파일, 텍스트 파일 또는 데이터베이스 그래서 rdd는 불변입니다 객체 수집 및 RDD 변경 시도로 완전히 새로운 결과 rdd

이제 이것을 이해하겠습니다 수행을 위해 rdd를 고려하십시오 지도, 필터 등의 변형 그래서 이것은 완전히 새로운 RDD를 만들지 만 아무것도 계산하지 않습니다 결과를 계산하려면 카운트와 같은 rdd에 대한 작업을 수행하고 텍스트 파일로 저장하는 등 그에 따라 결과를 표시하십시오 이제 다양한 구성 요소를 이해하겠습니다 스파크 생태계 가장 스파크 코어 구성 요소부터 시작하겠습니다 기본적인 IO 기능을 담당하는 스파크 생태계의 필수 구성 요소 스케줄링, 모니터링 등

스파크 생태계 전체가 그 위에 구축됩니다 그런 다음 다른 배포 모드가 있습니다 스파크 캔 원사, 메시 또는 스파크 자체 클러스터 관리자를 통해 hadoop을 통해 배포됩니다 그런 다음 다른 라이브러리가 있습니다 이 스파크 생태계 라이브러리는 스파크 SQL, mlib, 그래픽 및 스트리밍

Spark SQL은 우리가 수행하는 데 도움이됩니다 데이터에 대한 쿼리와 SQL과 같은 쿼리를 사용하여 데이터를 저장하면 mlib가 있습니다 이 스파크 머신 러닝 라이브러리는 배포를 쉽게하고 확장 가능한 머신 러닝 파이프 라인 개발 요약 통계, 상관 관계, 기능 추출 및 기타 여러 가지 스파크의 그래픽 구성 요소는 데이터 과학자가 그래프 작업을 돕습니다 그래프에서 유연성과 탄력성을 얻기위한 비 그래프 소스 건축과 변형 그런 다음 마침내 스파크 스트리밍이 있습니다 일괄 처리 및 데이터 스트리밍을 수행 할 수있는 구성 요소 응용 프로그램에서

프로그래밍 언어로 오는 불꽃은 Scala, R, Python 및 Java에서 구현됩니다 그러나 스칼라는 널리 사용됩니다 스파크 언어로 최종적으로 HDFS 로컬 파일 시스템을 통해 데이터를 저장할 수 있습니다 그리고 구름 또한 SQL 데이터베이스를 지원하지 않고 SQL 학습을 지원합니다 그래서 지금 당신은 Spark 구성 요소에 대한 간단한 아이디어가 있습니다

이제 SPARK에 뛰어 들자 건축물 따라서 Apache spark에는 잘 정의되어 있습니다 모든 스파크 구성 요소와 레이어가 느슨하게 결합 된 계층 구조 SPARK는 마스터 / 작업자 아키텍처와 마스터 노드에서 응용 프로그램을 구동하는 드라이버 프로그램이 있습니다 드라이버 프로그램이 무엇인지 생각하기 때문에 기본적으로 작성중인 코드 드라이버 프로그램으로 동작하거나 대화식 쉘을 사용하는 경우 쉘 드라이버 프로그램으로 작동합니다

드라이버 프로그램은 이 SPARK 컨텍스트가 작성되는 위치입니다 그래서 가정 이 SPARK 컨텍스트는 모든 SPARK 기능의 관문입니다 이제 SPARK 드라이버에는 태그 스케줄러, 작업 스케줄러와 같은 다양한 구성 요소가 포함되어 있습니다 백엔드 스케줄러 및 블록 관리자는 Spark 사용자 코드를 실제 Spark 작업으로 변환 클러스터에서 실행됩니다 스파크 드라이버와 스파크 컨텍스트는 클러스터 내 작업 실행은 이제 SPARC 컨텍스트가 클러스터와 작동합니다

관리자는 다양한 작업을 관리하고 클러스터 관리자는 Spark 클러스터에서 리소스를 획득하여 Spark 작업에 할당 이 작업은 작업자에게 배포되는 여러 작업에 존재합니다 노드는 언제든지 RDD 연도 및 스파크 컨텍스트를 배포 할 수 있습니다 다양한 메모를 통해 현금으로 교환 할 수 있습니다 실제로 기본적으로 작업을 수행하는 슬레이브 노드 인 노드 작업자 노드 내부에서 스파크 컨텍스트로 결과를 다시 반환 우리는 유언 집행 인이 있으므로 유언 집행 인은 작업 실행 및 모든 Spark 응용 프로그램에는 자체 실행 프로그램 프로세스가 있습니다 따라서 실행자는 일반적으로 스파크 응용 프로그램의 전체 수명 동안 실행됩니다 스파크 컨텍스트는 작업이 작업에서 작업을 중단하고 배포합니다 작업자 노드는 이러한 작업을 파티션 RDD에서 수행하여 작업을 수행합니다

결과를 수집하고 기본 스파크 컨텍스트로 돌아가고 증가하면 작업자 수는 작업을 더 많은 파티션으로 나눌 수 있으며 병렬 I / O를 실행하십시오 여러 시스템이 훨씬 빠르며 작업자 메모리 크기의 증가 또한 증가하고 당신은 작업을 더 빠르게 실행하기 위해 캐시 할 수 있으므로 이제 Spark 런타임을 이해하겠습니다 클라이언트가 스파크 사용자 애플리케이션 코드를 드라이버에 제출할 때의 아키텍처 변환 및 조치가 포함 된 코드를 암시 적으로 드라이버 프로그램 단계에서 논리 지향 비순환 그래프 또는 태그 변환을 계획하는 등의 특정 최적화를 수행 한 다음 논리적 데이터를 이후 단계로 설정할 물리적 실행 계획으로 변환 실제 실행 계획을 작성하면 작은 실제 실행 단위가 작성됩니다 각 단계에서 작업이라고하며 작업이 번들로 전송되어 스파크 클러스터는 이제 드라이버 프로그램을 클러스터 관리자 및 클러스터 관리자 자원 협상 이 시점에서 드라이버를 대신하여 작업자 노드에서 실행자를 시작합니다 드라이버는 데이터 배치를 기반으로 클러스터 관리자에 대한 작업 감지 실행자가 실행을 시작하기 전에 드라이버에 등록합니다 드라이버가 모든 실행 프로그램을 전체적으로 볼 수 있도록 프로그램 실행자가 드라이버에 의해 지정된 다양한 작업을 실행하기 시작했습니다

프로그램 및 Spark 응용 프로그램이 실행될 때 드라이버 프로그램은 실행되고 마지막으로 실행되는 일련의 실행 프로그램을 모니터링합니다 드라이버 프로그램 기본 메소드가 종료되거나 중지 메소드를 호출 할 때 스파크 컨텍스트 모든 실행 프로그램을 종료하고 리소스를 해제합니다 이 불꽃 실행 런타임 아키텍처는 이제 클러스터 관리자를 통해 시스템이 현재 지원하는 바를 배치 할 수있는 다양한 수수료 이 클러스터 관리자는 간단한 독립형 스파크 독립형 클러스터를 갖습니다 스파크에 포함 된 클러스터 관리자를 통해 클러스터를 쉽게 설정할 수 있습니다 바 굴뚝 소스를 가지고 있는데 Hadoop MapReduce를 실행하고 Hadoop 이온을 사용하는 애플리케이션을 서비스합니다

마지막으로 오픈 소스 인 누적 위치에 배포 할 수도 있습니다 컨테이너화 된 자동 배포 확장 및 관리 시스템 SPARC 아키텍처에 관한 모든 것이므로 이제 작은 그들은 불꽃 응용 프로그램을 만드는 방법으로 이동하여 폴더를 만들었습니다 소스 코드로 구성된 환영 세계라는 이름으로 스파크 응용 프로그램 이므로이 폴더 안에 들어가서 CD를 좋아합니다 환영합니다 이제이 구성 요소가 무엇인지 보여 드리겠습니다

폴더는 두 가지 구성 요소가 있습니다 하나는 SBT 파일에 빌드 한 다음 이 청구서 SBT 파일은 기본적으로 모든 스파 응용 프로그램 jar 파일을 빌드하기위한 종속성이므로 보여 드리겠습니다 여러분은 모든 의존성을 가지고 있으므로 VI를 입력하고 이름을 얻습니다 SBT가 아닌 빌드 될 파일이므로 종속성입니다 먼저 우리는 응용 프로그램의 이름을 가지고 다음 버전의 응용 프로그램을 만든 다음 여기에 Scala 버전이 있습니다

이 SRC 폴더에 존재하는 소스 코드를 보여주세요 ced를 입력 한 다음 폴더 SRC와이 SRC 폴더의 이름을 지정합니다 이 CD 메인으로 들어갈 수있는 다른 폴더로 구성되어 있습니다 다시이 메인 폴더는 다른 폴더로 구성되어 있습니다 나도 이것 안에 들어가서 CD 스칼라를 입력 할 것입니다

Scala 폴더 안에 LS를 다시 입력하겠습니다 Scala 폴더 안에 존재하는 Scala 파일은 소스로 구성됩니다 코드를 입력하겠습니다 VI를 입력 한 다음 소스 이름을 입력 할 소스 코드를 보여 드리겠습니다 반점 스칼라를 환영하는이 클래스 이 소스 코드이므로 Falcom이라는 이름의 클래스가 있습니다 그런 다음 이름 기능 내에서 우리는 시원하게 인쇄 했으므로 인쇄 할 것입니다

환영 나무 이것은 불꽃에 대한 세션이므로 환영의 집으로 돌아갑니다 폴더 및 jar 파일 작성 바로 환영 폴더로 돌아가서 여기에 있습니다 SPD와 SRC에서 빌드하므로 jar 파일을 빌드하려면 이것을 사용해야합니다 SBT package 명령을 실행하면 jar 파일이 작성됩니다 바로 jar 파일이 성공적으로 빌드되었음을 알 수 있습니다 jar 파일 홈 교육 환영 세계의 경로와 여기에 우리는 여기에 jar 파일이 있으므로 이것은 jar 파일의 이름입니다

환영합니다 Boyd 그리고 이것은 그것의 버전이므로 이제 LS를 입력하겠습니다 처음에는 SRC 폴더와 Bell dot SBT 파일이 jar 파일을 빌드하면 프로젝트라는 두 폴더가 있습니다 대상 과이 jar 파일 이이 대상 폴더에 있으므로 이 대상 폴더 안에 CD 대상을 입력하겠습니다 이 두 폴더로 다시 구성된 Stargate 폴더는 Scala 211 폴더 안에 들어가서 CD Scala 211을 입력하고 이 안에는 jar 파일이있어서 모두 환영합니다

버전이며 이것은 jar 파일이므로 지금 jar 파일을 준비했습니다 계속해서 작업을 제출하여 응용 프로그램을 작성하십시오 그에 대한 명령은 명령이 촉발 보충 내가 죽을거야-그리고 나일 강의 수업 후 나는 연설을 할 것이다 그런 다음 파일 이름을 지정하여 파일 이름을 환영합니다 앞서 스칼라에 오신 것을 환영합니다 바로 환영받은 같은 클래스의 그리고 다시 연설을하겠습니다 type–그리고 여기에 master를 입력하겠습니다 9는 배포 모드를 지정하여 배포 모드를 지정합니다

변이가 여기에 실을 좋아하고 항아리의 일부를 가져옵니다 파일 우리는 스파크를 성공적으로 만들었습니다 처음부터이 환영 세계의 소스 코드를 보았습니다 Spa의 세션이므로 작업을 제출 한 후 마지막으로이를 생성했습니다 응용 프로그램 오른쪽 그래서 이것은 우리가 불꽃 응용 프로그램을 만들 수있는 방법입니다 세션을 마치고 참석해 주셔서 감사합니다

Hadoop Projects | Big Data Real Time Project | Hadoop Tutorial for Beginners | Intellipaat

안녕하세요, Intellipaat의이 세션에 오신 것을 환영합니다 따라서 하둡은 확장 성이 뛰어납니다

조직 운영에 도움이됩니다 수천 개의 노드를 포함 할 수있는 수많은 노드의 애플리케이션 테라 바이트 단위의 데이터 및 확장 가능한 Hadoop 특성을 이해하는 가장 좋은 방법 실습 프로젝트를 수행하는 것입니다 오늘은이 세션에 와서 다중 노드 클러스터를 구현하는 방법을 배우는 Hadoop 프로젝트 그래서 전에 계속해서 수업을 시작하고 채널을 구독하면 다음 동영상에 대한 알림 또한 수업이 끝나면 오늘 세션에서 배운 내용을 요약하는 퀴즈가 있습니다 그러니 내려 놔 당신이 정답을 알고 있는지에 대한 답, 그리고 귀하의 문의에 도움을 드리고자합니다 많은 지연없이 시작합시다

수업과 함께 이제 이것을 위해 나는 서버를 구입할 것이다 웨스트 코스트의 CentOS 63 나는 무언가를 원했다 괜찮은 RAM이 있습니다

따라서 4GB의 RAM이 필요합니다 내 생각 엔 공정한 8GB로 이동하면 너무 높습니다 그래서 나는 4GB가 내가 될 것이라고 생각합니다 보고

기본 보안 그룹으로 이동하겠습니다 이것이 Ravi라는 이름의 핵심 가치 쌍이며 은행이라고 말합니다 그래서 첫 번째 기계가 시작되었습니다 이 기계가 시작되는 동안 다른 기계를 사 드리겠습니다 세 대의 기계가 필요합니다

그건 그렇고, 모두에게 PDF를 열어달라고 부탁하고 있습니다 운동 번호 7 계속해 그런 다음 중형 기계를 원한다고 말하고 은행을 말합니다 기계 번호 2 그리고 나서 세 번째 머신을 다시 사러 갈 것입니다

다시 오리건 CentOS입니다 문제 없다 세 대의 기계가 모두 성공적으로 구매되었습니다 새로 고침하면 그들 중 몇 명은 시작했다 그래서 그들 중 하나가 시작되었습니다

나는 그 이름 노드의 이름을 바꾸겠습니다 우리는 곧 우리의 다른 기계도 시작되었습니다 여기 요 이것은 기계 번호 2입니다 저는 이것을 데이터 노드 1이라고 부릅니다 세 번째 머신이 시작되고 내 데이터 노드 2입니다

이것들은 모두 세 대의 기계입니다 잘가요 이제 한가지 간단한 질문입니다 이제 여러분은 컴퓨터를 잘 운영하고 있습니다 모두 훌륭합니다 이제 우리를위한 시간입니다 연결

이제 네임 노드에 연결하고 싶습니다 이름 노드 씨에게 연결하고 싶습니다 당신 그래서 나는 연결이라고 말합니다 내가하는 일은 내 컴퓨터에 연결할 명령을 직접 가져 오는 것입니다 복사라고 말하고 터미널에서 열어서 잇다

알다시피, 첫 아마존 머신에 로그인했습니다 그래서 나는 이미이 컴퓨터에서 루트로 로그인했습니다 이제 두 번째 컴퓨터에 연결합니다 나는 나의 연결을 도와주세요 두 번째 기계 그래서 나는 새로운 쉘 창을 열라고 말합니다

이제 연결 도와주세요 네 라고 말하다 그래서 나는 두 번째 기계에 있습니다 이제 세 번째 머신에 연결해 봅시다 나는 연결하고 명령을 받는다 이리 보자 괜찮아 그래서 저는 네임 노드 데이터 노드 1과 데이터 노드 2에 연결되어 있습니다

이제 당신이 보는 것은 이것이 내 네임 노드이고, 이것은 내 데이터 노드 2입니다 내 데이터 노드 1을 보지 못했습니다 이제 세 대의 컴퓨터가 있는데 이것이 내 이름 노드입니다 빨리 info : 당신이 엔드-투-엔드 인증 과정에 관심이 있다면 Hadoop, Intellipaat는 Big Data Hadoop 인증 과정을 제공합니다 MapReduce, Hive, Pig 등 빅 데이터의 모든 주요 개념을 배우게됩니다

Sqoop Oozie 및 Flume 따라서이 교육을 통해 스킬 셋을 구축하고 산업 준비 많은 지체없이 수업을 진행해 봅시다 모든 것이 업로드되었으므로 여러분들 여기서 모든 문제의 IP 주소를 기억해야 할 문제가 하나 있습니다 좋은 생각이 아닌, 전혀 좋은 생각이 아닌 기계를 더 의미있는 이름

제가하는 것은 이것이 나의 IP 주소입니다 vi / etc / sysconfig / network라고 말하고 호스트 이름을 namenode로 설정하고 싶습니다 그래서 저는 호스트 이름이 namenode라고 말합니다 그런 다음 vi / etc / hosts라고 말합니다 누군가 IP 주소에 대해 이야기 할 때마다이를 namenode로 변환하십시오

그래서 내 네임 노드가 끝났습니다 데이터 노드가 무엇인지 찾아야합니다 1 그리고 데이터 노드 2는 무엇입니까? 이것은 내 데이터 노드 1입니다 그래서 이것은 내 데이터 노드 1이므로 vi / etc / sysconfig / network라고 말합니다 이것은 내 데이터 노드 1입니다 그리고 내가 구성이라고 말한다 vi / etc / hosts라고 말하십시오

데이터 노드 1 이제 기계 번호로갑니다 이것은 내 데이터 노드 2입니다 vi / etc / sysconfig라고 말하고 컴퓨터 이름을 지정하고 싶다고 말합니다 네트워크로 데이터 노드 2가 모두 좋으므로 데이터 노드 1과 데이터 노드 2로 완료되었습니다 하나와 나는 내 데이터로 끝났습니다

이 기계의 ifconfig를 취할 필요가 없습니다 이걸 가져가 VI 지저분한 데이터는 이제 기본적으로 모든 호스트 이름을 변경 한 마술을 보자 내가 할 세 가지는 모두 지금 재부팅 할 것입니다 이제 모두 다시 시작하겠습니다 이 후 신호에 대한 혼동이 없으므로 모든 것을 종료했습니다 그들 모두를 다시 시작했습니다

예 가능합니다 퍼티를 사용하는 대신 브라우저 클라이언트입니다 브라우저 클라이언트를 사용할 수 있습니다 아마존은 세 대의 기계가 모두 시작 되었으니 여기서 흥미로운 것은 좋아 하나 하나 하나 가자 이것이 내가 말하는 첫 번째 기계이다 이걸 너에게 연결 시켜줘 여기에서 무엇을 볼 수 있습니까? 이름 노드 I 여기서도 같은 당신 이 사람은 데이터 노드 하나에 오신 것을 환영합니다 이 사람은 데이터 노드 번호 2에 오신 것을 환영합니다

기본적으로 IP 주소를 기억하는 데 어려움이 있습니다 씨 이름 노드 올바른 사람이므로 빠른 정보 Hadoop에서 엔드 투 엔드 인증 과정에 관심이있는 경우 인텔 PI는 Big Data Hadoop 인증 과정을 제공합니다 MapReduce 하이브 페그 스 coop 후지 및 플루와 같은 빅 데이터의 주요 개념 이 교육을 통해 스킬 셋을 구축하고 산업을 준비 할 수 있습니다 나가면 도둑질을 할 수 있습니다

데이터 노드 하나 우리 그들의 IP 또는 무언가를 다시 기억할 필요가 없으며 이것은 mr입니다 데이터 노드 두 번째는 이제 잠시 기다렸다가 모두에게 지금 확인하도록 요청하겠습니다 우리가 할 단계를 말해 줄게 우리는 빈 기계를 처음 구입했습니다 하지만 절대적으로 아무것도 없으므로 여기에 Java 설치 단계가 있습니다 그룹과이란 운동 그래서이 맑은 날은 우리가 기계를 구입 참조 절대로 비워 두지 말고 우리가 옳은 일을 지금은 내 단계 하나는 가상 머신에 java를 설치하는 것입니다 운영 체제 만 설치되어 있고이 레코딩 기능을 수행하는 머신 당신은 당신이 무엇을 알고 있기 때문에 당신은 앞서 직장에서 기본적으로 알고 그라운드 제로에서 정확히 수행하십시오

빈 머신이므로 먼저 자바를 설치합니다 우리는 하둡을 설치합니다 그리고 우리는 설치합니다 다중 노드 클러스터를 설정합니다 이것들은 간단한 3 단계입니다 시작 그래서 내 단계 하나는 Java를 설치하는 곳입니다 첫 번째 명령은 yum이 설치된 것입니다 파란색 게이트가 기본적으로 설치된 yum을 얻습니다

Linux 상자에서 인터넷에서 물건을 다운로드 할 수있는 유틸리티입니다 명령 줄을 통해 당신 그래서 m 설치 W 게이트 당신 그래서 나는 리눅스 상자에서 패키지를 설치하는 것만 아무것도하지 않습니다 그렇지 않으면 로켓 과학이 없다 그래서 w 게이트가 설치되었습니다 당신 지금 당신 Java를 다운로드 중이므로 Java를 다운로드하는 것만으로는 아무것도하지 않습니다 인터넷에서 인터넷에서 Java를 다운로드하는 것 외에는 아무것도 없습니다 Java는 인터넷에서 아무것도 다운로드하지 않습니다

당신 이제 Java를 설치할 때 우리에게 유용하지 않은 파일은 존재하지 않으므로 Java가 불평하지만 그 경고를 무시하고 계속해야합니다 당신이 말하는 설치 당신 다시 Java를 설치하는 것 외에는 아무것도하지 않습니다 자바는 설치 이것은 지금 끝났고 나는 너희들을 위해 명령을 붙이고있다 당신 좋아 내 발걸음 하나 당신 Java를 다운로드하고 설치하는 첫 번째 단계는 100 % 완료된 것입니다 당신 당신 1 단계가 완료되었습니다 2 단계에 대해 이야기하겠습니다 당신 Hadoop 용 다운로드를 설정하겠습니다

우리는 저장소에 클라우드를 설정하고 있습니다 당신 이제 클라우드 오류 저장소를 설치하고 있습니다 바로 지금 하둡을 설치하면 당신 당신 이제 저장소에 클라우드를 설정 한 가장 중요한 단계가되었습니다 이제 우리는 듀프를 설치합니다 당신 명령을 실행하면 모든 것이 자동으로 진행되므로 명령과 당신은 완료됩니다 당신 하둡은 매트릭스 영화처럼 보이게 설치됩니다 위아래로 위아래로 위아래로 설치되어 있습니다 함께 기계 당신 그래서 이것은 Amazon US 서버에 있기 때문에 여전히 시간이 덜 걸리는 이유입니다

일반적으로 인도 에서이 작업을 수행하면 둘러보기가 필요할 수 있습니다 기계는 이미 당신을 위해 실속을 열었습니다 하둡이 100 % 설치되었습니다 당신은 지금 가장 두 가지가 있습니다 중요한 질문 당신 그래서 수정 당신 명령 프롬프트에서 매우 간단한 유형 작업을 수행하면 Java 여부를 알 수 있습니다 에 설치 그래서 이것은 Java가 설치되어 있지 않다면 명령이 형성되지 않았다고 말합니다 올바른 것은 Java가 있다는 것을 의미하므로 이것이 괜찮습니다 Java가 설치되어 있는지 어떻게 확인합니까? 당신은 그냥 가고 왜 그리고 왜이 문을 여는가 이제 똑같아 이제 다음 질문으로 넘어 갑시다 예, Java 버전을 말하는 다른 방법이 있습니다

죄송합니다 당신 어떤 Java 버전이 설치되어 있는지 알려줍니다 자, 이제 Java가 어떻게 설정되었는지 확인하는 방법에 대한 귀하의 질문에 대답합니다 다음 질문에 대해 이야기합시다 당신 아니요 설치 한 후에는 이미 설정되어 있지 않아도됩니다 Java가 다음에 설치되었는지 확인하는 방법입니다 중요한 질문은 저장소에 정확히 무엇이 흐려져 있는지 간략하게 소개하겠습니다

당신에 대한 간단한 소개 여기에 필요하지 않습니다 간단히 넣어 봅시다 창문 당신 지금 동의하고 유닉스 또는 리눅스 세계 당신은 대부분 당신 간단히 말해 디렉토리 또는 저장소 서비스에 지나지 않습니다 위치 또는 주소 서비스 위치 또는 확실 나는 이것을 설명 할 것이다 예, Windows World에서는 exe 또는 MSI 인 것을 다운로드하고 두 번 클릭하면 모든 것이 Linux 세계에서 가장 적게 설치됩니다 커맨드 라인에서 물건을 설치하십시오 나는 그것에 대해 자세히 설명하지 않습니다 정확히 작동하지만 운영 체제를 주문할 때의 결과입니다

운영 체제 가이 특정 소프트웨어를 설치하고 싶습니다 리포지토리 목록 및이 소프트웨어를 사용할 수 있는지 확인 저장소에는 기본적으로이 설치 프로그램의 URL 또는 주소가 있습니다 인터넷에서 찾을 수 있으며 실제로 얌이라고 말할 때 그녀를 설치하면 저장소로 이동하고 누군가를 알고 있다고 말했습니까? 하둡이라고 부르며 일반적으로 우리가하지 않는다고 대답 할 수는 없습니다 누가 Sidhu를 알지 만 저장소에 클라우드를 설정하면 clowder Hadoop이 어디에 있는지 알고 있으므로 운영 체제에서 기본적으로 다운로드하여 설치하므로 커맨드 라인에서 컨트롤이 리포지토리 위치 및 리포지토리에 이들이 있는지 여부를 알려줍니다 소프트웨어 여부 알았어 yippee 2 단계가 완료되었습니다 모든 것이 명확 해졌습니다 감각 하둡인지 확인하려는 경우 rpm QL Hadoop이라고 말하면됩니다

오 포인트 20 단점 의사 이것은 Hadoop이 설치되었으며 이것이 구성임을 나타냅니다 방의 지금 이것은 이미 운동 번호 2 단계 번호 2에 있습니다 Hadoop이 설치되어 있는지 확인하는 방법입니다 그래서 그것은 이미 존재하는 종류입니다 맞아 엔드 투 엔드 인증 과정에 관심이 있다면 Hadoop에서 Intel PI는 Big Data Hadoop 인증 과정을 제공합니다

MapReduce 하이브 페그 스 coop과 같은 빅 데이터의 모든 주요 개념을 배웁니다 이 훈련을 통해이 기술을 익히고 실력을 쌓을 수 있습니다 너무 늦게 빠져 나오면 준비를하세요 중요한 논리적 단계와 지금 우리가 3 단계로 가면 다중 노드 클러스터를 설정하려면 PDF를 열어 두어야합니다 운동 7 괜찮아 이제 Hadoop을 설치하기 위해 설정 부분을 시작할 차례입니다

우리는 모두 설정되었습니다 당신 PDF를 열고 7 번 연습으로 가십시오 저는 2 단계에 관한 것이므로 Hadoop을 설치 했으므로 시작하지 않았으므로 서비스를 중지 할 필요가 없습니다 2 단계로 가서 몇 가지를 설명하고 싶습니다 좋아 모두가 2 단계에 있다고 생각합니다 당신 그러니 대안이 무엇인지 이해하도록 해주세요 당신이 보는 것은 모든 소프트웨어에는 두 가지가 있지만 우리에게는 많은 것이 있지만 코드가 있으며 코드는 기본적으로 실행되거나 특정 지점을 가리 킵니다 침략 이제 우리는 일반적으로 모든 소프트웨어에 약간의 코드가 있으며 특정 구성에 동의 함 자 이제이 말은 코드가 있고 특정 구성을 따르는 소프트웨어 대안 프레임 워크는 여러 가지를 가질 수 있습니다 특정 지점에서 구성을 지정할 수 있습니다 다른 아무것도 아저씨 대안 프레임 워크는 기본적으로 그것입니다 여러 구성을 가질 수 있으며 기본적으로 하나를 가리킬 수 있습니다

그들 중 내가 말하는 것은 구성 번호 1을 매우 잘 가질 수 있다는 것입니다 구성 번호 2를 아주 잘 가질 수 있습니다 괜찮아 구성 내 구성 이제 내가 할 수있는 일을 할 수 있습니다 내가 할 수있는 일을 할 수 있습니다 내 마음이 바뀌면 이걸 가리키고 그냥 놀아도 돼 대체 슬램을 통해 가능합니다

이제 이걸 보여 드리고 이걸로 뭘 만들 었는지 말해줘 이것을주의 깊게보고 이해하고있는 것이 무엇인지 말해주십시오 당신 이것으로 무엇을 만들 수 있는지 알려주세요 이것은 하둡에 두 가지가 있다는 것을 알려줍니다 이 시스템의 구성은이 시스템에서 현재 두 가지 구성이 있습니다 이 순간은 sudo dot mr을 변환합니다 바로 지금 Hadoop이 Cie Hadoop conf dot을 가리키고 있습니다

의사 점 mr 두 구성 중 하나가 비어 있으면 다른 하나는 하둡은 현재 가장 우선 순위가 높기 때문에 Hadoop 구성에 대한 현재 최고의 버전은 et Cie hadouken sudo mr입니다 다른 모든 것이 단지 개념이라는 개념을 이해하게하는 것이 합리적입니다 리눅스 명령을 실행하면 일단 그것이 케이크 워크라는 것을 아는 것은 중요합니다 개념을 이해하면 개념 개념에 집중할 수 있습니다 여러 구성 및 대안 프레임 워크 기능으로 실행할 수 있습니다 그들을 가질 수 있고 어떤 구성을 가리킬 수 있습니다 우선 순위는 귀하가 원하는 것이 우선 순위라는 귀하의 희망에 근거합니다

1 분 안에 알 수 있습니다 1 분 안에 볼 수 있습니다 내가 지금하는 일은 빈 구성 템플릿을 사용하는 것입니다 내가 말하는 것은 sudo CP-R이라고합시다 et Cie Hadoop Conn의 도트 MT 쉼표 도트 MT는 템플릿 아무것도 복사하지 않습니다

et Cie Hadoop은 count dot이 그것을 배포한다고 가정 해 봅시다 이 시점에서 등고선이라고 불리는 새로운 구성을 만들고 있습니다 분포 된 모멘트 윤곽이 비어 있습니다 스 쿼크 도트가 없다고 말한 템플릿 이제 배포되었습니다 내가하고있는 일과 당신은 모든 것을 깨달을 것입니다 당신 지금 당신은 무엇을보고 말해 당신 이제 새로운 구성을 만들었습니다

이 순간 현재 비어있는 상태이며 우선 순위를 설정했습니다 99이며 가장 높은 우선 순위를 갖기 때문에 구성은 하둡과 함께하는 것은 분명하다 굉장히 이제 우리는 설정을 원하기 때문에 세 가지 모두에서 그렇게 해 봅시다 우리가하는 일을 최우선으로하는 분산 구성 당신 그때 당신 당신이 보는 모든 것이 잘 진행되었는지 확인하기 위해 당신은 그것을 참조 우리의 구성이 가장 우선 순위가 높습니다 그래서 지금 우리는 이제 Hadoop이 우리의 선택의 구성이지만 우리의 선택의 구성은 비어 있습니다 우리는 이제 구성을 채울 것이지만 그 전에는 그 전에 가장 많이 그 전에 중요한 점은 트위스터 클러스터가 기계를 의미한다는 것을 알고 있다는 것입니다 서로 대화 할 수 있어야하고 서로 알고 있어야하지만 서로 알고 핑 데이터 노드를 말하는지 보자 이 녀석은 내가 오래된 것을 데이트조차 모른다고 말해 IP로 서로를 만나지 만 이름으로 서로를 알지 못하는 네트워크 여성 문제는 먼저 모든 사람이 서로 이름으로 알 수 있도록하겠습니다

여기서 멈추고 말하고 싶어 이 시점에서 우리 그룹은 우리가 선택한 설정을 가리키고 있습니다 그래 지금까지의 설정 선택은 비어있다 모든 좋은 수정 바로 그거죠 너무 사랑 설정이 올 바르면 이제 기계가 각각을 알고 있는지 확인하십시오 다른 이름으로 간단히 우리가 할 일을 넣는 것입니다 이것은 무엇입니까 가서 VI ATC 호스트라고 데이터 노드 1에 대해 이야기 할 때마다 이 IP 데이터 노드에 대해 이야기 할 때 마다이 IP로 번역하십시오 이제 모두가 서로를 알기 때문에 이제는 모두를 알고 있지만 먼저 그들은 서로 핑 할 수 있습니다 참조 당신 그래서 나는 분홍색이라고 이제는 그것이 누구인지 번역 할 수는 있지만 여전히 핑을 할 수는 없습니다

수정 이제 데이터 노드 하나가 나는이 IP에 대해 이야기하고 있지만 괜찮습니다 서로 대화하도록하겠습니다 핑에 대해 기본적으로 네트워크를 통해이 세 가지 값을 먼저 복사 해 봅시다 그 그래서 나는 TV i ET cie 호스트를 저장하러 간다 당신 알았어 방화벽이 작동하지 않기 때문에 여전히 서로 핑하지 않는 경우 당신이 볼 경우 불이 그들을 허용 할 수 있도록하십시오 그래서 그들을 허용하자 세 대의 컴퓨터를 모두 볼 때 보안 그룹에 속하는 것을 보자 그들은 2 천 12 7 9 인 기본값을 따릅니다 보안 그룹이므로 보안 그룹을 보여 드리겠습니다 그래서 그들 모두는 내가 말하는 방화벽 규칙에 속합니다

모든 ICMP 허용 모든 ICMP 핑은 ICMP 프로토콜에서 작동합니다 방화벽 규칙은 하둡과 아무 관련이 없습니다 모든 ICMP 통신이 활성화되어야합니다 네트워킹은 이제 데이터 노드 1을 Ping 할 수 있습니까? 지금은 MP를보고 있기 때문에 꼭 핑할 수 있습니다 데이터 노드 2는 환상적이라고 말합니다

핑크 이름 노드는 할 수 있습니다 그 자신의 이름 노드 내 철자가 잘못되었습니다 그것은 100 %라고 말할 수 있습니다 이름 참고 그것은 내가 할 수 있는지 확인 너 너 지금이 순간부터 모든 사람들이 다른 좋아, PDF를 볼 수 있고 나는 당신이 볼 PDF를 따르고 있습니다 단계 파일이 100 % 완료되었습니다 이제 모든 것이 문서화되어 있고 운동 할 때까지 완료된 것을 보게되면 일곱 번째 단계 다섯 번째는 100 %입니다 운동 7 단계 5는 100 %입니다 알았어 이제 내 컴퓨터가 내 클러스터와 대화하고 있거나 전체 클러스터가 지금까지 올바른 구성을 가리키고 있습니다

내 구성은 비어 있지만 괜찮습니다 우리는 모두 내 구성이 비어 있다는 것에 동의합니다 구성 구성이 비어 있음에 동의 모두 나와 동기화 된 상태입니다 빈 템플릿을 가져 왔습니다 구성 구성에서 아무것도하지 않았습니다

이제 구성을 변경할 차례입니다 당신이 볼 경우 그래서 나는 당신에게 모든 것을 설명합니다 Hadoop에 일반적으로 모든 구성 요소가있는 경우 구성에 대해 걱정하지 않아도됩니다 XML의 충돌로 인해 EPC 수정하자 그 갈등 그래서 당신이 볼 경우 당신 하둡에는 3 가지 가장 중요한 구성 HDFS 코어 사이트가 있으며 하나는 지금지도를 읽는 것입니다 모든 구성이 준비되면 확실히 진행할 수 있습니다 이 시점에서 클러스터가 윤곽을 가리키고있는 순간 분산되었지만 비어 있으므로 이제 일단 구성을 채 웁니다

다음 구성으로 넘어가겠습니다 이제 모든 구성을 입력 할 수 있습니다 구성은 하나씩이지만 지금은 XML로 구성되어 있으며 직접 복사 한 다음 각 구성에 대해 설명하겠습니다 당신 그래서 저는 VI라고 말합니다 물론 지금은 XML을 가르쳤습니다 당신 내가 참조 당신 이 특정 구성에서 내가 말하는 것은 구성은 FS 기본 이름입니다

구성은이 클러스터의 이름 노드이며이 클러스터의 마스터는 우리입니다 이름 노드라는 컴퓨터는 포트 80 20에서 작동합니다 당신 여기서 똑같은 일을하겠습니다 관리자가 명명 된 메모 내가 말하는 것은 당신의 이름 노드이거나 당신의 관리자는 이것이 이름 노드입니다 기계와 그것이 마스터를 가리키는 방법입니다 CD 등 '또는 누가 마약 사기 에로틱 당신 지금까지 우리가 한 일은 마스터가 설정해야 할 필요가 있다고 말했습니다 그러나 나는 두 남자에게 그가 두목이라고 말했다

그 밖의 아무것도 매니저 자 이제 다음 설정은 VI HDFS 사이드 도트 XML입니다 의 위에 기존 설정을 제거하십시오 내가 할 일은 내가 당신을 말할 것입니다 hdfs 눈 보호 당신 좋아, 모두가이 XML 파일을 필요로한다고 확신한다 세션 메모와 함께 오늘 전달하십시오 너 걱정 해 그들은 모두 당신입니다 그래서 당신이 내가보고있는 세 가지 속성이있는 경우 HDFS가 Linux 파일 시스템 위에서 작동하는 것을 볼 수 있다면 HDFS는 Linux 파일 시스템 위에서 작동합니다

그래서 일어나고있는 것은 이름 노드가 데이터를 저장할 것이라고 말하고 있습니다 디스크에 쓸 때 메타 데이터는 홈 디스크라는 폴더에 저장됩니다 하나의 DF snn과 홈 디스크 하나의 DF snn은 실제와 다를 수 있습니다 하드 디스크의 볼륨 또는 아마도 하드 디스크 자체에 데이터 노드가 데이터 블록을 쓸 것이라고 말합니다 당신이에 관심이 있다면 바로 사람에 그래서 빠른 정보 하둡의 엔드 투 엔드 인증 과정에서 인텔 PI는 Big을 제공합니다

Data Hadoop 인증 과정에서는 빅 데이터의 모든 주요 개념을 학습합니다 MapReduce 하이브 큰 국자 Busey 및 독감과 같은이 훈련은 스킬 셋을 구축하고 많은 지연없이 업계 준비 하나의 DFS 데이터 노드 홈 디스크를 DFS 데이터 노드로 디스크로 분류하는 클래스로 넘어 갑시다 세 번째로 포트 번호 5 0 0에서 이름 노드에 액세스하고 싶습니다 7 0이 세 가지는 내가 넣은 구성입니다 앞으로 -여기도 마찬가지 당신 좋아, 이제 내가 돌봐야 할 마지막 파일은 Map Reduce입니다 이들은 가장 중요한 세 파일입니다 hdfs site의 매개 변수는 괜찮으므로 첫 번째 매개 변수는 DFS name dir입니다 내 이름 노드가 하드 디스크의 데이터를 정확히 쓸 위치를 의미합니다

C 이름 노드 권한이 항상 해당 권한과 RAM에서 충족 된 후 플러시합니다 이제 플러시합니다 디스크로 플러시합니다 포인트 넘버 1은 괜찮고 포인트 넘버 2는 데이터 노드가 디스크의 블록은 데이터 노드 참조 HDFS는 Linux 상자 위에서 작동합니다 어떤 폴더가 될지에만 Linux 드라이브에 무언가를 저장합니다

데이터 노드 홈 디스크 1 DF sdn 홈 디스크 2 DF SD N에 할당 된 이름 노드에 액세스하기위한 웹 URL 이것은 내 이름 노드입니다 왜 여기에 데이터 디렉토리가 있고 이것이 내 데이터 노드입니까? 여기서 이름 노드를 실행하지 않기 때문에 여기에 이름 디렉토리가 있습니다 요점은 하둡에 대해 이야기 할 때 실제로 노드 컴퓨터 50 대와 이상 할 때 15 개 이상 기계마다 다른 종류의 설정을 원하지 않을 것입니다 그 표준을 유지하기 위해 모든 구성을 넣습니다 어디서나 어떤 악마 또는 어떤 Java 프로세스를 시작할지 선택하십시오 따라서 데이터 노드에서 이름 노드 데이터 디렉토리 설정이 필요하지 않습니다

이름 노드 디렉토리 설정은 필요하지 않지만 관리자가 쉽게 사용할 수 있다는 표준 관점 잠시만 요 이 디스크 하나는 디스크 두 개입니다 구성이 완료된 후 나에 의해 작성되었습니다 다음 단계 이제 HDFS 측면이 완료되었습니다 HDFS 사이트가 완료되었습니다 이제 이야기하겠습니다

우리는 기본적으로 MapReduce 사이트를 할 것입니다 구성은 그지도 속도를하자 그들은 내가지도 할 수 있다고 언급 VI라고합니까? 매리트 사이트 닷 XML 우리는 이것을 만들기 때문에 전체 파일을 붙여 넣어야합니다 오늘 새로운 것으로 이 최고 일곱 다섯 여섯 일곱 다섯 당신 그냥 모든 것을 복사하면 내가 말하는 것은 내가 이것을 말해 줄게 맛있어 냅킨 수정 노리스 당신 모든 좋은 지금 무엇을 이해하자 자 이제 다음 중요한 부분은 정확히지도 읽기 디렉토리에있는 것입니다 당신이지도를 읽는 쪽을 보면지도가 암송합니다 추적기 작업 추적기가 이름 메모라고하는 시스템에서 실행 중입니다 그것은 포트 감소에서 포트 21 21 초에서 실행됩니다 디스크 하나의 맵에서 로컬 세 번째를 읽는 중개 데이터 기본적으로 프로그램을 실행할 때 맵 매퍼의 루트 디렉토리입니다

사용자 교육이라고 가정 해 봅시다 현재 무엇입니까? 디렉토리 그것은 슬래시 사용자 사용자 이름이므로 귀하가하는 일을하고 있습니다 콜 맵 감소 이 구성에서이 세 가지 구성이 준비되면 이제 디렉토리를 만들겠다고 약속했습니다 그 이것들은 로컬 디렉토리를 참조하십시오 MapReduce는 데이터를 어딘가에 저장합니다를 참조하십시오 로컬 디렉토리 준비 루트 디렉토리 인 처리 중 중간 정도를 정확히 원하는 특정 작업을 실행할 때입니다 스테이징에 저장할 데이터는 스테이징 내의 슬래시 사용자 디렉토리에 있습니다

예배 규칙서 이것들은 MapReduce 특정 디렉토리이며 중간 데이터 둘째 작업에 대한 일부 정보를 저장합니다 첫 번째 위치는 확실히 로컬 디렉토리 인 HDFS는 아니지만 두 번째 위치입니다 하나는 HDFS이므로 살펴보면 따라서 두 번째 디렉토리 슬래시 사용자는 이제 로컬 디렉토리 HDFS 디렉토리입니다 첫 번째는 로컬 디렉토리이고 두 번째는 HDFS 디렉토리입니다 이제 우리가 커밋 한 디렉토리를 만들 차례입니다 내가 가기 전에 모든 권리 스테이징 con 디렉토리 Sivan a MapReduce 작업 실행의 사용법을 설명 할 수 있습니까? 알겠습니다 중간 처리 데이터가 있습니다

처리하는 동안 중간 데이터를 쓰는 위치 lib HDFS가 맵 읽기 메소드 스테이징 디렉토리를 캐시하는 위치에 작성합니다 모든 작업이 사용자 이름으로 저장된 모든 작업을 실행 한 내역을 원합니다 당신이 말하는 것은 HDFS 디렉토리 내부에 스테이징 사용자 디렉토리의 특정 데이터 기본적으로 모든 작업 기록은 특정 작업에 저장됩니다 중간 처리로 기본적으로 하나만 말해줘 당신 이제 우리는 특정 디렉토리를 만들었습니다 우리가 말하는 것은 의사라고합니다 mkdir 차 이 하나 DFS 이것도 이 죄수 데이터 노드 당신은 디스크 1 빨간 알았어 디렉토리가 만들어 지자 기계도 당신 여기에 같은 것이 있으므로 디렉토리가 생성됩니다

당신 이제 디렉토리가 만들어지고이 디렉토리는 자체 데이터를 저장하는 HDFS는 괜찮으므로 HDFS에 권한을 부여해야합니다 이 디렉토리에서 MapReduce를 사용하는 것이 좋습니다 이제 목표는 이 사람들은 우리가 sudo CH를 말합니다 나는 우리에게 전화 hdfs 알루 모든 디스크 하나 당신 그때 나는 본다 지도 요율 디렉토리의 경우 소유자는지도 요율이어야합니다 당신 모든 완료된 소유권은 이제 모든 사람에게 제공됩니다 내가하고있는 일은 필요한 디렉토리를 만드는 것입니다

로켓은 여기에서 끝나지 않습니다 당신 똑같은 것 당신 알았어 여기서 실수 했어 지도를 읽어야합니다 지역 감사합니다 그렇지 않으면 허가 문제가있을 것입니다 당신 좋아 그리고 여기에 같은 것 당신 커밋 된 모든 디렉토리는 독창적입니다 잠깐 여기서 잠깐 멈춰 보자

그리고 모든 질문을 보자 그래서 질문은 당신이 말할 때 mkdir-P 무엇입니까-P는 부모 디렉토리가 존재하지 않습니다 HDFS 허들은 무엇을 의미하므로 괜찮은지 모르겠습니다 따라서 Hadoop을 설치하면 HDFS n MapReduce와 두 명의 사용자가 생성됩니다 Hadoop이라는 하나의 그룹을 생성 하므로이 명령에서 내가 말하려는 것은 이 폴더의 소유권을 HDFS라는 사용자에게 하둡이라는 그룹 이제 커밋 한 모든 디렉토리가 지금 생성됩니다 이제 필요한 모든 디렉토리와 것들 거기서 우리는 이것을해야한다 필요한 시작 성공했습니다

이제 모든 것을 만들었습니다 이제 이름을 시작하겠습니다 데이터 노드 시스템의 이름 노드 시스템 데이터 노드에 노드가 표시됩니다 모든 것이 함께 작동하므로 기본적으로 모든 디렉토리를 만들었습니다 이제 클러스터를 설정할 차례입니다

당신이하는 일은 당신입니다 PDF를 여는 순간 이제 클러스터를 설정하고 이름 노드를 포맷하여 새로운 HDFS의 의사로서 루프 이름 노드 체재 이제 이름 노드가 포맷되었습니다 이름 노드를 강화합니다 나는 이름 노드를 시작합니다 ET c n8 ed 우리의 루프 HDFS 당신 예, 이름 노드에서만 이름 노드의 형식을 지정합니다 하나의 마스터 만 가능하므로 마스터를 형식화합니다 이 힙 크기 명령이 정확히 어떤 힙 크기인지 알려 드리겠습니다

멀티 노드 설정을 수행하는 강의실 설정을 위해 Ram이별로 좋지 않은 가상 머신이므로 여기서는하지 않습니다 램이 가득 찼습니다 힙 크기를 작게 설정하는 것에 대해 걱정할 필요가 없습니다 200 또는 무언가를 말합시다 당신 우리는 습격을 할 것이며 실제로 이름을 쓰고 있다는 사실을 습격하고 있습니다 실제 세계에서는 디스크에 데이터가 올바르게 수정되지 않습니다

내가 두 개의 다른 폴더에 쓰고 있다는 것을 시뮬레이션하기 위해 이미 백업 중 당신 지금 이름 노드와 보조 이름 노드가 시작되어 실행 중인지 확인하십시오 이름 노드가 작동 중임을 알려주는 Java 프로세스 상태 도구가 있습니다 달리고 두 번째 lien 만 노드가 작동하고 실행 중입니다 데이터 노드가 포트 80 20에서 이름 노드와 통신 할 수 있는지 확인하지 않았습니다 지금까지 포트를 열지 않은 포트를 열어야합니다

um install 텔넷과 참조 당신 이제 Nate에게 중요한 이름 노드에 알릴 수 있는지 봅시다 텔넷 이름 노드 22 22가 작동한다고 말합니다 포트 22가 열려 있다는 것을 의미합니다 80/20 포트는 내 것이기 때문에 포트 80/20이 열려 있지 않은 것을 볼 수 있습니다 그게 문제 야 이제 420 80/20이 열리지 않으면 네트워크 담당자와 대화하고 열어야합니다

그것 우리가 할 일은 간단하게 진행하여 지금은 자유롭고 모든 TCP를 열어 봅시다 좋아 너 그래서 당신이한다고 가정 해 봅시다 당신 모든 TCP가 열려 있지만 이미 말 했으므로 이미 존재합니다 당신은 여전히 ​​그것을 할 수 없습니다 때문에 이유는 이것입니다 당신 EF 그립 80/20에서 PSF를 보면 바다에서 무엇 당신이 보는 것은이 특정한 것이이 특정한 항구에서 열렸다는 것입니다 그것과 함께 그것은 이상적으로 제로 제로 제로 제로 였어야합니다 해결 방법 이제이 시스템에 연결할 수 없습니다 당신 우리가 할 일은 지금 당장 방화벽을 비활성화 할 것입니다 다시 이것은 네트워킹 개념이며 우리는 Linux에서 방화벽을 비활성화 할 것입니다 실제 네트워크에서 서로 대화 할 수있는 상자 녀석은 내가 방금 방화벽을 돌봐 줄게 따라서 Isis 서비스 iptables는 저장합니다 중지 chk 구성 IP 테이블 Oh 방금 방화벽을 사용 중지하고 있지만 실제 환경에서는 좋지 않습니다

세상에 당신은 그것을 할 수있는 방법을 찾아야합니다 네트워크 측의 관리자가 포트를 열어줍니다 이건 로켓 과학이 아니야 당신 이제 다 끝났어 내가 텔넷을 할 수 있는지 보자 당신 그래서 못된거야 당신 방화벽을 해제 한 것도 까다 롭습니다 꺼져있어 모든 암호는 멈추지 않았다 당신 그것이 작동하고 법률의 작동하기 때문에 이것은 이상합니다 당신 1 분 미친 작품입니다 당신 방화벽에서 모든 것이 종료되면 놀랍도록 감소하기 때문에 당신 모두가 2012 그룹에 속해 있습니까? 흠 내가 뭘 놓친거야 당신 음 그들은 모두 동일한 보안 그룹에 속합니다 이 하나 당신 당신 좋은 것은 단지 완료된 것을 기억하지 못한다 당신 알았어이 작품은 두 작품을 몰랐어 와우 그렇게 이상하지 않아 당신 이 작동 할 때 내가 뭔가 잘못하고있는 것 같아 아니면 어쨌든 전에 그냥 종료 했어 그래서 이것은 8020 작동합니다 그리고 이것은 작동합니다 그들은 그래서 우리는 모두를 가리키고 있습니다

이것은 다시 네트워킹 개념입니다 그냥 당신의 수직 방화벽 수준에서 수행됩니다 휴식 회사 이름표 및 보조 이름표 이제 데이터 노드를 불러 와서 내가하는 일은 그래서 내가하는 일은 데이터 노드를 시작하는 것입니다 당신은 내가 말하는 EPC 9 ITT Hadoop HDFS 데이터 시작 ET c i9 TD라고 말하고 TL Face 데이터 노드 시작을 수행합니다 나는 동일한 명령을 실행하므로 이제 데이터 노드가 시작되고 그것이 가리키는 곳을 참조하십시오 데이터 알림이 시작된 것을보고 데이터 알림이 시작되었다고 말합니다

당신 그리고 여기에도 데이터 노드가 시작된 것을 볼 수 있습니다 마스터 노드에 표시되면 데이터 노드가 지금 시작 중입니다 나의 이름 노드와 보조 이름 노드가 슬레이브 노드에 있고 데이터 노드가 켜져 있습니다 당신 이 사실을 분명히 알고 있습니까 이제 HDFS가 어떻게 대답하는지 봅시다 하둡 FS 나는 당신에게 음료 sudo를 만들거야 HDFS Hadoop FS mkdir 그래서 temp라는 디렉토리를 만들었습니다

chmod 트리플 트리플 클러스터에서 HDFS에 대해 두 개의 명령을 실행했습니다 LS는 루트의 내용을 보여줍니다 HDFS의 내용을 보여줍니다 이것이 다른 클랜에서 생성되었지만 지금은 기본적으로 분산 파일 시스템으로 일반 HDFS로 반환됩니다 어디에서나 루프 FS LS에 앉을 수 있습니다 다중 노드 커 스터가 지금 실행 중입니다

이제 멀티 노드로 파일을 만들겠습니다 하둡 FS라고합니다 mkdir 사용자 루트 sudo-새로운 HDFS 이제 나는 나 자신에게 경로의 소유권을 부여 이제 세 개의 파일을 거기에 넣었습니다 HDFS에서 3 개의 파일을 넣습니다 세 개의 XML 또는 네 개의 XML을 넣습니다 입력이라는 다른 폴더를 만들어서 좋아, 그래서 당신은 무엇을 봅니까 만들어진 당신과 입력 디렉토리는 이제 Hadoop FS라고 말합니다

내가 말한 3-4 개의 XML 파일을 넣습니다 당신 Linux 파일 시스템에서 Hadoop 파일 시스템으로 파일을 덤프합니다 당신은 여기에 참조 너희들은 파일을 보니 이것 좀 봐 분산 파일 시스템이며 누구나 Hadoop FS가 Hadoop 파일 시스템에서 실행중인 모든 명령의 접두사 당신은에 디렉토리를 만들고 있습니다 분산 파일 시스템은 모든 사람이 모든 것을 볼 수 있음을 의미합니다 분산 파일 시스템 F fs mkdir이 어떻게되는지 보여 드리겠습니다 데이터 노드에서 테스트 디렉토리 F LS는 어떻게합니까? 분산 파일 시스템입니다 이제 HDFS 또는 다중 노드 설정이 100 % 준비되었으며 갈래 이제 가자 Map Reduce 부분으로 가자 다중 노드 클러스터에서 우리는 이미 루트 디렉토리를 템플릿으로 만들었습니다

입력 디렉토리도 만들었습니다 이제 MapReduce를 만들 차례입니다 프로그램을 실행하기위한 시스템 디렉토리 인 디렉토리는 하둡 FS라고 -DFS 루프 XS 그리고 vir에게 훌륭한 시스템 당신 해당 디렉토리의 소유권을 제작자에게 제공합니다 우리는보다 CH 자신의지도 cred 그룹이므로 map red는이 특정 디렉토리를 소유합니다 알든 알덴 이제 MapReduce 프로그램을 실행할 차례입니다 이제 모두 프로그램을 실행하도록 설정되었습니다 하둡 항아리 사용자 라이브 당신 그룹 예 입력 grack book 출력 대기 작업 추적기를 연구하지 않습니까? 작업 추적기 우리는 대조 링크로 직업을 공부하지 않았습니다 PTC와 ID를 시작합시다 나는 희망 물건 마스터에서 작업 추적기를 시작했습니다 여기 보이는 것은 마스터의 GZ 이름 참고 두 번째 이름 노드 작업 추적기입니다

우리는 작업 추적기를 시작합니다 당신 JPS를 수행하면 데이터 노드이며 작업 추적기가 여기에 있습니다 여기서 JPS를 수행하면 치과 검수원이없는 데이터가 표시됩니다 이제 MapReduce도 시작되었습니다 우리가 말하는 것은 희망 jar 사용자 lib Hadoop입니다 20 하둡 예제로 잡은 그립 출력 BF들 그렇습니다 이미 여러분에게 첫 손을 내밀었던 사람들에게 용이하게 이제 작업을 실행하고 있습니다

다중 노드 설정이고이 작업을 실행하고 있습니다 나는 그것이 아무런 문제가 없다고 말하지 않는 것을 희망한다 그것이 무엇인지 보자 사용자 루트는 temp 디렉토리에 내 실수를 쓸 수있는 권한이 없다고 말합니다 내가 temp에서 chmod를하고있을 때 나는해야했다-R 나는 재귀 권한을주지 않았다 당신 당신은 죄송합니다 당신 지금 나는 이것을 시작했다

당신 괜찮은 일을 마치고 여기에서 확인할 수도 있습니다 출력에 따르면 Haru XS는 출력을 얻습니다 이 경우 BFS가있는 4 개의 변수 만 있습니다 의심의 여지가 있거나 질문이 있으면 세션이 끝날 때까지 아래에 의견을 보내 주시면 감사하겠습니다 행복한 고마움

Pig Tutorial | Apache Pig Tutorial | What Is Pig In Hadoop? | Intellipaat

안녕하세요, Intellipaat의 세션에 오신 것을 환영합니다 오늘은 2006 년 Yahoo에서 연구자들을 위해 개발 한 Pig 대용량 데이터에서 MapReduce 작업을 작성하고 실행하는 임시 방법이 있습니다

세트 다중 쿼리를 사용하여 개발 시간을 단축하기 위해 만들어졌습니다 접근 이 세션으로 이동하기 전에 채널을 구독하십시오 앞으로 나올 비디오에 대한 업데이트를 놓치지 않을 것입니다 당신이 얻고 싶다면 Biglip Hadoop Architect로 인증 된 Intellipaat는 이에 대한 과정을 제공합니다

이 설명에 제공된 링크를 통해 이동하십시오 이제 빨리 보자 의제를 한눈에 다음으로 시작하여 Pig를 소개합니다 역사와 돼지와 그 구성 요소가 정확히 무엇인지 논의한 다음 돼지의 특징을 소개함으로써 돼지의 힘에 대해 배우고 장점 돼지의 힘이 확실 해지면 사용자를 배우게됩니다 시나리오와 Pig와 Hive의 비교를 참조하십시오 또한, 당신은 일부를 볼 수 있습니다 Pig에서 복잡한 데이터 유형을 찾은 다음 Pig 및 로컬 모드와 MapReduce 모드에서 Pig를 실행하는 방법을 배우십시오

Pig에서이 스키마를 통해 다양한 연산자를 소개합니다 로드 연산자, 상점 연산자, 관계 연산자 등의 돼지 후 연산자를 소개하면서 단어 수 프로그램을 배우고 데이터를 그룹화 한 다음 날씨 데이터 분석을 수행하게됩니다 그래서, 문제는 돼지와 비슷하며 Hive와 비슷합니다 나는 가지고있다 돼지에 대해 많이 들었으므로 사용되는 곳과 사용하지 않는 곳

첫번째 내가 Pig에 대해 이야기하려고하는 것은 혼란 스럽지만 여전히 Pig와 Hive는 거의 동시에 동일한 문제, 즉 두 도구가 거의 모두 동시에이 두 도구를 사용하면 같은 문제를 해결할 수 있습니다 내가 말할 수있는 거의 같은 문제 Pig를 사용할 수있는 대부분의 경우 하이브도 사용할 수 있습니다 당신이 할 수없는 상황이 있지만 대개 그렇다면 왜 하나의 도구를 발명 했습니까? Pig와 Hive가 거의 같은 경우 왜 두 가지 도구가 있습니까? 대답은 매우 간단합니다

Hive의 사용 사례를 기억하십시오 페이스 북은 엄청난 양을 다루고있었습니다 구조화 된 데이터를 사용하여 대부분의 검색어를 암호화 된 Python을 사용하는 Oracle이 발명의 단계였습니다 하이브 페이스 북은 하둡으로 옮겨야했고 그들은 무엇을해야할지 몰랐습니다 그래서 그들은 실제로 무언가를 발명했습니다 하이브라고 동시에 야후는 같은 문제에 직면했지만 다른 방법 아시다시피 야후는 실제로 발명 된 회사입니다 하둡

그들은 하둡을 발명하지 않았다 그들은 기본적으로 Nutch 프로젝트를 인수했습니다 실제로 하둡의 첫 번째 안정적인 릴리스는 실제로 야후 야후가 하둡을 가지고있을 때 같은 문제가있었습니다 권리 하둡의 데이터로 작업하고 싶습니다

하지만 유일한 방법은 MapReduce입니다 즉, 직원들에게 Java를 배우고 MapReduce 코드를 작성하십시오 어떻게해야합니까? 그러나 야후는 실제로 다른 방식으로 생각했다 야후가 생각한 것은 스크립팅 도구를 만듭니다 사람들이 설치하고 스크립트를 작성하기 만하면 쉽게 배울 수 있습니다 그냥하세요 스크립팅 도구는 스크립트를 일련의 MapReduce 프로그램이 바로 Apache Pig입니다

야후는 나중에 그것을 발명하여 아파치에 기여했으며 최상위 수준이되었습니다 계획 2013 년과 2014 년쯤에 하둡 세계에서 임시직의 약 70 ~ 80 %가 돼지 만 사용하여 달성했습니다 돼지는 실제로 가장 인기가 많습니다 도구

글쎄, 최근에 Spark의 발명 이후 실제로는 Pig 's 오늘날 우리가 보는 것처럼 인기는 없지만 그래도 여전히 돼지는 최고 중 하나입니다 모든 프로그래머와 분석가를위한 선택 그래서 정확히 돼지 야? 우리는 당신에게 배경을 제공하기 위해, 야후에 의해 발명 된 것을 볼 수 있습니다 Hive가 Facebook에 의해 발명되었을 때와 같은 시간 유일한 문제는이 두 회사는 서로 제대로 이야기하지 않았기 때문에 같은 문제를 해결하려고했고 두 도구를 발명하게되었습니다 하나는 돼지입니다 그래서, 기본적으로 큰 데이터 세트를 탐색하는 데 사용되는 스크립팅 언어입니다

지금이야 새로운 언어로, 익숙해 지려면 시간이 좀 걸릴 것입니다 그래서, 학습 돼지의 곡선은 하이브의 곡선보다 높습니다 누군가가 가지고 있다면 다른 방법으로 Hive를 배우기 위해서는 Hive가 SQL을 따르기 때문에 훨씬 쉬울 것입니다 SQL을 알고 있다면 Hive CL을 가져 와서 바로 탐색을 시작할 수 있지만 Pig로 시작하면 Pig에는 Pig Latin이라는 고유 언어가 있습니다 따라서 Pig의 언어는 Pig Latin이라고하며 Pig Latin은 새로운 언어이므로 구문, 사용 방법은 모두 새로운 것입니다

익숙해 지려면 시간이 좀 걸립니다 돼지와 함께라면 괜찮습니다 방법을 알아낼 수 있도록 도와 드리겠습니다 Pig를 배우고 그 작업을하는 방법을 배우십시오 실제로 큰 문제는 아닙니다 좋아, 빠른 정보 : 빅 데이터 하둡으로 인증 받고 싶다면 건축가 인 Intellipaat는 Big Data Hadoop에 대한 전체 과정을 제공합니다 모든 주요 구성 요소 및 전문가가 사용하는 도구

부디 자세한 내용은 설명에 언급 된 링크를 참조하십시오 이제합시다 세션으로 돌아갑니다 따라서 Pig의 구성 요소 : 실제로 Pig는 패키지로 제공됩니다 돼지 엔진이라고 불리는 것을 가지고 있습니다 하둡은 코드를 MapReduce로 변환합니다

언어는 실제로 돼지 라틴어라고합니다 돼지 라틴어는 당신이 배우기로되어있는 당신의 언어입니다 이제 Pig의 장점은 무엇입니까? 사용자가 Hadoop을 조정할 필요가 없습니다 의미에서, 사용자 정의 MapReduce 프로그램을 작성하는 경우 프로그램을 미세 조정해야 할 수도 있지만 Pig는 기본적으로 코드를 최적화합니다 당신 최적화를 켜고 끌 수 있지만 기본적으로 코드 최적화가 켜집니다 돼지에 의해

따라서 Pig는 최적의 MapReduce 코드를 생성합니다 사용자를 Hadoop 인터페이스에서 격리시킵니다 그래서 당신은 필요가 없습니다 실제로 MapReduce 나 Hadoop 등을 배웁니다 당신이 작성해야한다면 약 200 줄의 Java 코드, 10 줄의 Pig에서 같은 것을 쓸 수 있습니다 라틴어와 같은 방법으로 4에서 Java 기반 MapReduce 코드를 개발하려고하면 약 15 분 안에 동일한 작업을 수행 할 수 있습니다

돼지 라틴어 따라서 Java 프로그래머에게 시스템을 엽니 다 이제 우리는 실제로 볼 때, 우리는 Pig 코드를 작성할 때마다 나는 빠르고 일하기 쉽다고 말합니까? 이제는 모든 스크립팅에 공통적 인 방법입니다 언어입니다 파이썬이든 루비이든 쉘 스크립팅이든 모든 스크립팅 언어는 몇 가지 장점을 더 제공합니다

언어는 짧고 달콤합니다 사용할 수있는 많은 내장 함수가 있습니다 예를 들어 Python을 보면 n 개의 패키지와 함수를 사용할 수 있습니다 파이썬 코드는 매우 작을 수 있습니다 스크립팅 언어입니다 마찬가지로 돼지도 스크립팅처럼 행동합니다 언어이지만, 당신의 SQL과는 다릅니다

따라서 SQL은 다소 비슷합니다 질문 따라서 테이블에서 특정 결과를 가져 오려면 하나의 복잡한 쿼리를 작성하고 실행하여 결과를 얻을 수 있지만 여기서는 Pig와 상호 작용하려면 스크립트로 작성해야합니다 다음은 Pig Latin 데이터 흐름입니다 언어 실제로 일반 데이터 유형을 허용하므로 사용할 수 있습니다

long, float, chararray, int 등 모든 것이 가능합니다 돼지 복잡한 데이터 유형도 지원합니다 확장 가능하며 사용자 정의 함수를 지원합니다 Pig에 몇 가지 기능을 추가하고 싶을 때 할 수있는 일은 Java와 같은 것으로 작성하고 Pig 내에서 호출하십시오 사용자 정의 함수

UDF 또는 사용자 정의 함수의 예를 보여 드리겠습니다 따라서 언어로 자신의 함수를 작성하고 Java를 말하고 다음과 같이 패키지 할 수 있습니다 Java 파일을 Pig에 등록하면 Pig가 해당 UDF를 실제로 사용할 수 있습니다 돼지 메타 데이터가 필요하지 않습니다 유형없이 메타 데이터없이 작동 할 수 있습니다 선언 또는 기타 사항이지만 Pig에 메타 데이터를 제공하면 작동합니다

같은 방식으로 하이브는 그렇지 않습니다 내가 하이브와 함께 일한다면 내 메타 스토어 서비스가 실행 중이어야합니다 '좋아요, 테이블을 만들고 메타 데이터를 사용하지 마십시오 ' 그런 식으로 작동하지 않습니다

어느 한 쪽 자체 메타 데이터 서비스 또는 HCatalog와 같은 것을 사용해야하지만 메타 데이터가 필요합니다 Pig의 경우 메타 데이터를 사용할 필요는 없지만 언제 사용할 수 있습니다 가능합니다 Hive와 같은 다른 도구와 메타 데이터를 공유 할 수도 있습니다 HCatalog를 통해

그것은 HDFS의 파일에서 작동합니다 결합, 그룹, 필터 및 정렬과 같은 일반적인 작업 따라서 Pig에는 많은 내장 기능이 있습니다 함수는 결합, 그룹, 필터 및 정렬과 같은 공통 연산자를 제공합니다 그만큼 Pig의 힘은 실제로 이러한 내장 연산자에서 비롯됩니다 조인을하려는 경우와 같은 작업을 수행하려고합니다

조인 연산자를 호출하면 가입 작업을 수행하십시오 그래서 이것은 실제로 돼지가 우리를 도와줍니다 사용 시나리오는 무엇입니까? 하나 웹 로그 처리 일 수 있습니다 나는 실제로 당신에게 돼지 프로그램을 보여줄 것입니다 웹 로그를 받아서 처리합니다 자, Pig는 문자열 연산에 매우 능숙합니다

정규 표현식을 거부합니다 그래서 이것은 매우 될 수 있습니다 웹 로그와 같은 상황에서 유용합니다 따라서 웹 서버가 실행 중이라고 가정하십시오 많은 로그 파일을 생성합니다 이제 로그 파일은 구조화되지 않은

특정 패턴을 따르지 않습니다 전화해도됩니다 반 구조이지만, 비정형 데이터처럼 넣겠습니다 만약 너라면 무언가를 추출하고 싶다면 Pig를 사용할 수 있습니다 돼지는 손질이 잘되고 부분 문자열 연산, 정규 표현식, 데이터 웹 검색 플랫폼 및 대규모 데이터 세트에 대한 임시 쿼리 처리 Hive조차도 대규모 데이터 세트에서 빠른 쿼리에 신속하게 사용할 수 있습니다 큰 데이터 세트를 처리하기위한 알고리즘 프로토 타입

그렇다면 누가 모두 돼지를 사용합니까? Hadoop을 가장 많이 사용하는 Yahoo 인 Pig 직종의 40 % 트위터는 또 다른 잘 알려진 사용자입니다 돼지의 돼지는 일종의 가장 널리 사용되는 생태계 도구 중 하나입니다 우리에게 가능합니다 Pig vs Hive : Pig와 Hive는 정확히 동일하게 보입니다 그렇다면 왜 실제로 차이점이 필요한가? 예, 차이점이 있습니다

이걸 연관시켜야한다면 가장 큰 차이점은 이것으로 시작합니다 첫 번째 요점은 Pig는 단지 클라이언트 측 응용 프로그램이므로 Pig 서버가 없습니다 그러나 Hive는 선택적 Thrift Server와 우리는 Hives Server 1, Hive Server 2 등을 보았습니다 무엇을 사용하지만 Pig를 볼 때 Pig는 단지 클라이언트 측입니다 신청

그래서, 돼지 서버 나 다른 것이 없으며 왜 그렇게됩니까? Pig는 데이터웨어 하우스가 아니며 Hive는 필요한 데이터웨어 하우스입니다 데이터 액세스 및 저장을위한 연결 생성 음, Pig는 가질 필요가 없으며 JDBC / ODBC는 없습니다 연결성 Hive는 연결성을 지원하므로 Beeline 클라이언트 또는 일반 SQL 클라이언트에서 언제든지 연결할 수 있습니다 하이브 테이블 따라서 Hive는 실제로 JDBC 드라이버를 지원하므로 Hive에 직접 연결하여 원하는 작업을 수행하지만 Pig 이후 테이블에서는 작동하지 않으며 스토리지에서는 작동하지 않으며 JDBC / ODBC가 없습니다

연결성 따라서 Pig가 데이터를 가져와야 할 경우 데이터는 Hadoop에 있어야합니다 폴더 또는 어딘가에서 데이터를 읽고 변환하여 저장합니다 하둡으로 돌아갑니다 – 그것이하는 일입니다 안에 테이블이나 물건이 없습니다 돼지

돼지는 실제로 개발자가 주로 사용하며 Hive는 대부분 분석가들이 사용합니다 그것은 당신에게 달려 있습니다 그리고 여기 스키마는 의무가 아닌 여기서 스키마는 필수입니다 Hive 테이블을 만들 때 바로 스키마가 필요합니다

당신은 어떤 종류가 필요합니다 적어도 스키마의 또한 Pig에는 웹 서버가 없습니다 여기서 할 수 있습니다 선택적인 웹 서버, 가능한 Hive를위한 웹 인터페이스가 있습니다 저는 이것이 실제로 명백한 차이점이라고 생각합니다 많이있을 수 있습니다 고려해야 할 몇 가지 사항이 있습니다

실제로 어디 시나리오에 맞는 돼지? Ok guys, quick info : 인증을 받고 싶다면 Intellipaat 빅 데이터 하둡 설계자 모든 주요 데이터를 다루는 빅 데이터 하둡에 대한 전체 과정을 제공합니다 전문가가 사용하는 구성 요소 및 도구 를 통해 가십시오 자세한 내용은 설명에 언급 된 링크를 참조하십시오 이제 다시 돌아 가자 세션이므로 Hadoop 클러스터가 있고 내 후속 데이터베이스가 있다고 가정 해 봅시다 어쩌면 여기에 웹 서버가 있고 여기에 앱 서버가있을 수 있습니다

어쩌면 내가 데이터를 수집하고 있으므로 여기에 특종을 가져올 수 있습니다 내 속편에서 Hadoop으로, 웹 서버에서 내 데이터를 가져올 수 있습니다 아마도 나는 flume 또는 무언가를 사용하여 로그 파일을 가져 와서 모두 얻습니다 여기에서 그리고 여기에서 로그는 몇 가지 로그를 가져오고 있습니다 주로 구조화되고 반 구조화 된 여러 유형의 데이터를 수집합니다

폴더에있는이 모든 데이터 확인 그래서 이것은 하둡에있는 내 폴더이므로 내가하고있는 일은 웹 서버 로그에서 DBMS 시스템의 데이터를 수집하고 있습니다 여러 곳의 데이터웨어 하우스에서 Hadoop의 폴더가 좋습니다 이제 데이터가 있습니다 이 데이터를 안녕으로 보낼 수 있습니까? 그렇습니다하지만 일반적으로 우리가하는 일은 이 폴더에 있으면 Pig를 실행하여 데이터를 읽습니다

여기에 데이터를 변환하고 Hadoop으로 다시 보내십시오 내 데이터 권한 및이 변환 된 데이터는보고를 위해 hi에 의해 액세스됩니다 그래서 돼지는 실제로 데이터로 사용됩니다 공장 운영자 또는 데이터를 정리할 수있는 무언가 웹 서버 로그 또는 원하는 데이터베이스에서 원시 데이터를 가져옵니다 데이터를 정리하여 ETL 직원이 이보다 더 잘 연관시킬 수 있습니다 원치 않는 정보가있을 수 있습니다

쿠키 관련 정보 로봇이 정보를 크롤링하는 등 이 경우 데이터를 높은 위치에 덤프하지 않을 수 있습니다 하이브는 모든 것이 저장되는 최종 목적지이고 보고 도구는 높은 테이블에 직접 연결할 수 있으므로 데이터를 변환하여 데이터를 정리하고 일단 피크가되면 데이터를 정리합니다 데이터를 구조화 한 다음 해당 데이터를 하이브 테이블에 저장할 수 있습니다 돼지가 데이터를 읽고있는 것을 저장하지 않고있는 것을 볼 수 있습니다 또 다른 예는이 센서 데이터입니다

이 날씨에서 데이터를 수집하는 경우 알고있는 날씨 데이터 온도 등의 센서 등 날씨 데이터가 일반적으로 해독하기가 매우 어려운 매우 구체적인 문자열 형식으로 제공되므로 폴더에 날씨 데이터가 있으면 쉽게 데이터를 사용할 수 있습니다 관심있는 정보를 얻는 문자열 조작 그 구조 데이터는 다른 폴더에 저장되므로 하이브가 따라서 돼지는 작업자 또는 데이터 공장 운영자를 청소할 때 사용됩니다 데이터를 구조화하여 하이브에 저장할 수 있도록 이것은 오늘날 그들이 할 수있는 모든 것을 과대 광고를 수행하는 방법 ETL 도구로 작동 할 수도 있지만 그래, 돼지는 일반적으로 하둡 위에서 거래로 간주 될 수 있습니다 돼지가 시스템에 잘 맞아서 돼지를 사용하지 않는 곳 돼지는 순수한 비정형 데이터에 적합하지 않습니다 이러한 경우 오디오 비디오 이미지 등 돼지가 적합하지 않을 수 있습니다 돼지를 가공 할 수있어 구조화 된 측면에서 반 구조화 된 데이터와 다음 요점은 이 도구에 대한 이상한 이름 Pig 아파치의 사람들이 정말 재미 있다는 것을 알고 있습니다

큰 철학이라는 것이 있다는 것을 의미합니다 원하는 경우 Apache의 Apache Pig 철학을 읽을 수 있습니다 그들이 어떻게이 도구에 Pig라는 이름을 주 었는지 아파치가 말하는 것은 우선 모든 동물 돼지는 무엇이든 먹을 수 있습니다 당신의 엉덩이 아파치 원숭이와 같은 방법으로 그들은 또한 모든 유형의 데이터를 먹을 수 있습니다 구조화 된 반 구조화 및 일종의 실행 구조이므로 돼지는 아무 말도하지 않고 동물처럼 두 번째로 먹을 것입니다 요점은 동물 돼지가 쉽게 길들여져 있다는 것을 의미합니다 집안의 돼지 돼지 내 형태의 돼지이므로 돼지는 같은 날이 아파치 서사시는 매우 잘 작동 할 수있는 도구입니다 다른 플랫폼과 아파치도 돼지가 당신과 같은 의미에서 날아갈 것이라고 말합니다 스크립트를 즉석에서 작성할 수 있으므로 이것이 큰 철학이므로 Apache Epics 철학은 Big Eight를 올바르게 본다 돼지는 가축과 돼지가 날아 다니는 큰 곳을 픽셀 철학과 거리가 멀어 돼지 돼지라고 불리는 이유는 실제로 복잡한 데이터 형식이라고 불리는 일반 데이터 형식을 지원합니다

또한 복잡한 데이터 유형을 지원하므로 복잡한 데이터 유형의 의미는 무엇입니까? 그들 중 하나는 부부 부부라고하는 매우있다 빅 더블의 세계 밖에서도 일반적인 것은 일련의 필드가 생각하는 것입니다 테이블에서 행과 같은 Apple과 튜플은 일반적으로 다음과 같이 표현됩니다 예를 들어 19 쉼표 2 이것은 커플이고 가방이라는 것이 있습니다 잘 튜플의 모음입니다 정의가 실제로 정확하지 않습니다 가방은 지갑을 포함 할 수 있기 때문에 가방은 실제로 다른 가방도 포함 할 수 있습니다 bad는 정렬되지 않은 콜렉션이므로 나쁜 것은 포함 할 수있는 복잡한 데이터 유형입니다

커플 또는 다른 가방을 포함 할 수 있습니다지도는 시작하는 방법에 대한 핵심 가치 쌍입니다 B로 작업하기 때문에 먼저 가장 먼저 알아야 할 데이터를 이해해야합니다 그렇지 않으면 작업하는 것이 옳지 않으므로 먼저해야 할 일 데이터는 이제 빅 데이터 시나리오에서 매우 일반적이라는 것을 이해합니다 데이터를 이해해야 데이터 작업을 시작할 수 있습니다 작업 할 데이터를 보여 주므로 이제 작업 할 데이터가 있습니다 2 개의 파일 세트가 있습니다

매일 뉴욕 증권 거래소라고합니다 예를 들어 첫 번째 열은 교환입니다 뉴욕 증권 거래소 이름 인 두 번째 열을 기호 또는 시세 이것은 우리가 모니터링하는 주식 이름이며 날짜가 있습니다 이것은 날짜 열이며 시작 값 마감 값이 높음입니다 총 거래량과 다른 가치가 있으므로 기본적으로 이것은 주식 데이터입니다 모든 주식은 시가 총액 종가가 높고 총 판매량이 적습니다

그리고 이것은 정말 좋은 데이터 세트입니다 공공 극장 세트입니다 이 데이터에 대해 많은 작업을 수행 할 수 있다는 것을 알고 있으므로 데이터 세트 두 번째 데이터 세트는 비슷한 데이터 세트이지만 4 개만 있습니다 이 열은 먼저 교환 이름 NYSC를 두 번째로 표시합니다 세 번째 날짜와 마지막 열은 배당이므로 네 개의 열이 있으므로 다음은 우리가 처음에 큰 것을 이해하기 위해 사용할 두 데이터 세트입니다

데스크톱으로 이동하여이 데이터 세트를 모두 사용할 수 있습니다 바탕 화면에서 볼 수 있습니다 매일 뉴욕과 뉴욕 SD 배당금 모두 데이터 세트는 내 데스크탑에서 가장 먼저 알아야 할 사항입니다 큰 것은 큰 두 가지 모드로 실행할 수 있다는 것입니다 로컬 모드이 모드에서 두 MapReduce 모드는 로컬에서 데이터를 읽습니다 파일 시스템 그것을 변환하고 로컬 파일에 다시 저장 이 모드에서 시스템 괜찮습니다

Pig는 HDFS 파일 시스템 변환에서 데이터를 읽습니다 그것을 HDFS 파일 시스템에 다시 저장하는 것은 괜찮습니다 Big Data Hadoop 아키텍트 intellibid로 인증 받기를 원합니다 모든 주요 데이터를 다루는 빅 데이터 하둡에 대한 전체 과정을 제공합니다 전문가가 사용하는 구성 요소 및 도구는 자세한 내용은 설명에 언급 된 링크로 돌아가서 세션은 두 가지 모드에서 Pig를 실행할 수 있음을 의미하며 로컬 모드와 MapReduce 모드 로컬 모드는 로컬 모드에서 Pig를 시작하면 그것을 시작하면 기본적으로 Linux 컴퓨터에서 데이터를 가져옵니다 Linux 컴퓨터의 데이터가 Linux의 데이터를 읽습니다

기계 권리와 그것은 당신이 그것을 요구하는 모든 변환을 할 것입니다 Linux 시스템에 다시 저장하면 로컬의 Hadoop에 닿지 않습니다 MapReduce 모드의 모드는 동일한 개념이지만 HDFS에서 데이터를 읽습니다 즉 Hadoop은 다시 Hadoop에 저장합니다 MapReduce 모드는 예측 로컬 모드에서 테스트 용으로 사용하는 것입니다 예를 들어, 돼지 스크립트를 작성하고 어떻게 작동하는지 확인하려는 경우 랩톱의 로컬 모드에서 Pig를 실행하여 노트북의 하드 디스크는 하드 디스크에 다시 저장하므로 로컬 모드를 사용하여 얼마나 큰 효과가 있는지 경험하십시오

MapReduce 모드를 사용하면 가장 먼저 보여 드릴 것은 로컬 모드입니다 데이터를 읽고 변환하여 로컬에 저장하는 방법을 의미합니다 파일 시스템이 바로 돼지를 시작하기 위해 Cal 모드는 B 대시 X 로컬을 입력하기 만하면됩니다 로컬 모드에서는 Hadoop 및 로컬 모드와 아무런 관련이 없습니다 방금 테스트에 사용했습니다

grunt라는이 프롬프트가 표시되는 것을 어떻게 알 수 있습니까? 그래서 grunt는 큰 프롬프트입니다 실제로 이것은 큰 권리의 프롬프트입니다 여기에 첫 번째 큰 명령을 입력 할 수 있습니다 이것이 픽업 라인의 모양입니다 코드 줄처럼 큰 스크립트 줄이 이렇게 보일 것입니다 내가 무엇을 먼저 썼는가 배당금과 같은 기호가 있으므로 언제든지 볼 수 있습니다

이 기호는 그것이 관계라는 것에 큰 관계라는 것을 의미합니다 이 기호와 같은 것을 볼 때 관계를 어떻게 식별합니까? 위반 그래서 여기에 나는 배당금이 같다고 말하는 DI 관계를 선언하고 있습니다 이 파일을 교환 기호 날짜 배당으로로드 이제이 배당금은 괜찮을 수도 있습니다 방금 배당금으로 불렀습니다 예를 들어 ragu가 여기에서 작동한다고 말할 수 있습니다

당신이주는 것은 정말로 중요하지 않습니다 변수가 아닌 방식으로 기억하십시오 돼지에는 변수의 개념이 없습니다 이것은 변수가 아닌 관계라고 불립니다 이제 우리는 ragout이 load와 같다고 말합니다 파일은로드되지 않는 일부 데이터가 있음을 의미합니다 돼지의 연산자 또는 실제로로드하는 것을 호출 할 수있는 함수는 이제 파일에 대한 포인터를 만들 것입니다

ragu ragu를 호출하면이 파일을 의미 하며이 파일은 4 개의 열과 열 이름 바꾸기 기호 날짜 및 배당 내가 말하는 모든 데이터 유형을 의미하는 스키마를 제공하지 않음을 알 수 있습니다 돼지는 라구라고 부르면 돼지를 아는 것입니다이 파일을주세요 파일의 열은 모두 내가 4 개의 열에 대한 헤더입니다 이제 실제로 관계를 작성하는 여러 가지 방법이 있지만 이것을 기억하십시오 당신은 돼지와 함께 일하기 위해 관계로 시작해야하므로 첫 번째 단계 모든 Pig 스크립트에서 실제로 데이터를로드하거나 데이터를 가리키고 있기 때문에 데이터 없이는 어떻게 작동합니까 데이터 없이는 어떻게 작동합니까 바로 지금이 데이터를 가리키는 Yahoo라는 관계를 만들었습니다

맞아 그리고 당신은 또한 내가 관계를 만들었을 때 아무것도 알지 못했다 Raghu가 이것을로드하는 것과 동일하다고 말했지만 괜찮습니다 돼지를 게으른 연산자로 부르기 때문에 아무 일도 일어나지 않습니다 동물 돼지처럼 돼지는 아주 게으르다 그래서 당신에게 예를 제공 당신이 집에 앉아 있다고 가정 해 봅시다 아내 나 여자 친구와 함께 집에 앉아 너에게 와서 내일 저녁에 오늘 저녁을 의미한다고 말해 당신은 나가서 무언가를 얻어야하고 그녀는 당신이하는 것들의 목록을 만듭니다 예를 들어 슈퍼마켓에 가서 뭔가를 사야하고 당신은 전화 교환에 가서 청구서를 지불해야 할 수도 있습니다 우유 배달원에 가서 우유를 얻습니다

당신은 당신이해야 할 일의 목록을 만들고 있습니다 집에 앉아서 아내가 옳은 일을해야한다고 당신이해야 할 일의 목록을 만드십니까? milkman은 가서 슈퍼마켓이라는 단어가 나온 후 2 리터의 우유를 얻습니다 그 단어 전화 교환 후 식료품 가게 가서 가서이 xxx 당신을 얻을 해야 할 일의 목록을 만들지 만 때가되면 할 때 실제로 당신이하는 일을 그냥 나가서 하나씩 실행하십시오 Raghu는이 데이터를로드하는 것과 같습니다 Enter 키를 누르면 아무 일도 일어나지 않습니다 내가 할 일 목록을 만드는 것처럼 돼지에게 데이터 코어 Raghu라고 말하고 있습니다

돼지는 저에게 물어볼 것입니다 만약 이것이 이것이 데이터라면 어떻게해야합니까? 내가 옳은 일을하지 않겠다고 주장하기 위해서만 계속하겠습니다 배당금으로 괜찮습니다 그래서 이렇게 변경할 수 있습니다 완전히 역동적이어서 약물에서 배당으로 바꿨으니 배당으로 읽었으니 먼저 관계를 선포합니다 스키에주의를 기울이려면 구문을 선택해야하지만 돼지에게 말합니다 당신은 기호로 돼지 그룹 배당을 알고 배당은 내 이전 관계 I 기호 열별로 그룹화하여 다른 관계에 저장하려고합니다

이제 무슨 일이 있었는지 그룹화하고 두 번째 진술이 있습니다 첫 번째 진술로 여전히 아무것도하지 않고 지불됩니다 아무것도 게으르지 않아 아주 게으르다 각 그룹에 대해 이전 관계가 있다고 말하면 그룹 번호가 생성됩니다 배당금의 평균을 AVG라는 관계에 저장하여 여기에 세 가지 명령을 입력했습니다

이들은 세 가지 또는 돼지 용어로 세 가지 관계입니다 각 줄마다 아무 일도 일어나지 않은 이유는 없습니다 빨간색과 돼지는 그것을보고 그것이 무엇을해야하는지 볼 것입니다 무언가를해야하지만 요청하지 않는 한 출력을 요구하고 있습니까? 출력 Pig는 아무것도하지 않습니다 Pig는 게으른 자세를 취합니다

알았어 데이터 두 번째 줄은 괜찮아요 세 번째 줄의 열은 모든 배당금의 평균을 계산한다고 말할 것입니다 괜 찮 아 요하지만 마지막으로 무엇을 볼 수 나는 인쇄처럼 평균을 볼 수 자바에서 문장을 마지막으로 말하면 시스템 도트 도트 println 바로 출력을 볼 수있는 곳이므로 인쇄하지 않았습니다 돼지에 대한 명세서 지불에 대한 인쇄 명세서를 어떻게합니까 나는 덤프 AVG를 말할 것입니다 그래서 dump는 기본적 으로이 관계 덤프 수단을 실행한다고 말하는 유료 키워드입니다 당신이 할 때 Pig에게 그것을 시키거나 인쇄하거나 출력을 보여달라고 요청하고 있습니다

AVG를 덤프합니다이 줄을 읽으면 AVG가 두 그룹으로 수집되어 이 그룹으로 이동 배당과 관련이 있으므로 배당으로 이동하십시오 한 줄씩 실행을 시작하고 Enter 키를 누르면 결과를 보여줍니다 MapReduce 작업이 시작되고 한 줄씩 실행되고 나에게 평균 헨리는 모든 주식 평균이 기록되어 있는지 확인해야합니다 얼마나 큰 효과를 나는 지금 당신이 구문을 이해하고 싶지는 않지만 큰 느낌 만 실제로는 그런 관계에서 배당을 계산하면 계산하는 그룹을 그룹화합니다

그런 다음 덤프 평균이라고 말하면 이것이 올바른 방법 중 하나입니다 하지만이 문제는 당신이 입력하는 것입니다 한 줄씩 명령을 입력하십시오 한 줄씩 명령을 입력하고 마지막 줄 dump AVG dump는 화면에 결과를 표시하는 데 사용하는 키워드입니다 AVG는 이전의 관계이므로이 작업을 원하지 않으면 알고 있습니다 여기서 나가면 스크립트로 쓸 수있어 새 파일을 만들 수 있습니다

이 파일을 테스트 도트 피그라고 부릅니다 파일 테스트 도트 피그의 이름 돼지입니다 돼지 스크립트를 만드십시오 흠 이 파일 안에 그냥 내 의견을 쓸 수 있으므로 그냥 붙여 넣기 만하면됩니다

방금 dot pig 테스트라는 파일을 만들었고 파일을 열면 우리가 가지고 있었지만 지금 할 수있는 것과 같은 네 가지 진술 돼지 대시 X 로컬이라고 말할 수 있습니까? 이것은 로컬 모드에서 Pig를 실행하고 있음을 의미합니다 내 파일은 데스크탑에서 파일을 읽습니다 데스크탑에는 이미 파일이 있습니다 Enter 키를 누르면 테스트 도트 P라는 스크립트를 실행하십시오 그 같은 일과 당신은 당신이 바로 다시 프롬프트 그래서 당신은 셸을 실행하여 피크와 대화식으로 작업 할 수 있습니다 명령을 한 줄씩 입력하거나 전문가가 아닌 경우 Pig를 아주 잘 사용하면 큰 명령으로 실행해야 할 모든 명령을 넣을 수 있습니다

왜 우리는 무엇을 배웠는지 우리는 그 돼지를 배웠습니다 지역에서 더 많은 일을 할 수 있습니다 로컬 컴퓨터와 내가 저장하면 다른 것을 저장하는 것을 알 수 있습니다 이 스크립트의 한 가지 문제는 스크립트가 데이터 또는 평균을 찾아 결과를 보여 주지만 결과를 저장하지 않습니다 덤프 대신 결과를 저장하려면 어디서나 store라고 말할 수 있습니다

평균 2 개는 4 월 8 일이라고 폴더 이름을 지정합니다 세 줄을 실행하고 4 월 8 일이라는 폴더에 AVG를 저장 스크립트를 실행할 경우 스크립트를 실행하면 동일한 방식으로 실행되지만 LS를 수행하면 결과를 내 컴퓨터의 폴더에 저장하십시오 4 월 8 일이라는 새 디렉토리가 있으며 4 월 8 일로 이동하면 파일이 있습니다 파일을 여기에서 열면 부분 R이라고합니다 결과는 돼지에게 화면에 결과를 보여달라고 부탁하거나 돼지에게 파일이 작동하는 두 가지 방법으로 결과가 나타납니다

4 월 8 일은 폴더 이름이됩니다 폴더 안에 파일이 생성 될 부분이 생성됩니다 4 월 8 일 폴더 안에 있습니다 돼지의 MapReduce 모드도 있습니다 바로 Pig의 math reduce 모드에서 우리가 할 일은 데이터를 읽을 것입니다

HDFS는 변환을 통해 데이터를 다시 저장하여 동일한 예제를 사용하지만 내 데이터는 하둡에 있으므로 표시하겠습니다 하둡에서도 동일한 데이터를 사용할 수 있으므로 이것이 바로 하둡입니다 휴와 당신은이 NY가 매일이고 NYC 배당은 이미 하둡이 바로 MapReduce 모드에서 돼지를 실행하려면해야 할 모든 것 돼지를 입력하고 Enter 키를 누르십시오 이전에 돼지를 입력 할 때 사용했던 기억-X 지역은 지금 당신은 돼지라고 말해야하고 당신은 같은 grunt 프롬프트를 볼 수 있지만 예를 들어 내가 쓸 것이라고 말할 수있는 것과 같은 명령의 차이가 있습니다 다시 말하면 더 낮은 사용자가 Cloudera를 슬래시한다고 말해야합니다

슬래시 그래서 여기 하둡 경로를 제공해야합니다 흠 하둡 경로를 제공해야합니다 내가 지금 저장하고 싶다면 슬래시라고 말할 수 있습니다 사용자 슬래시 Cloudera는 April end라는 폴더를 슬래시하므로 MapReduce 작업은 파일을 Hadoop에 저장합니다 jar 파일을 생성하고 실행중인 것을 볼 수 있도록 폴더에 MapReduce 작업 종료 바로 cetera 그래서 런처를 생성합니다 적절한 MapReduce 작업으로 완료율이 0 %임을 알 수 있습니다

MapReduce 달에서 실행되어 결과를 올바르게 볼 수 있습니다 내가 휴로 가면 다시 같은 디렉토리로 돌아가 4 월 8 일이라는 폴더를 만들었어야합니다 여기는 4 월 8 일입니다 결과 파일은 내 요점은 달리기 명령과 모든 호를 선택하는 것입니다 로컬 모드와 MapReduce 모드에서 Pig를 실행하려면 똑같습니다

로컬 모드 또는 MapReduce 모드에서 유일한 차이점은 아는 것입니다 로컬 모드에서는 Linux의 입력 경로와 출력 경로를 제공해야합니다 Maya 생산 모드의 Linux는 Hadoop 출력 경로의 입력 경로를 제공합니다 유일한 차이점 인 하둡 이제 우리는 스키마를 살펴볼 수 있습니다주의 깊게 관찰하면 내가 무엇을하고 있는지 볼 수 있습니다

당신은 무슨 일이 일어나고 있는지 이해할 것입니다 대화식 모드 로컬 모드 로컬 모드 선택을 시작하겠습니다 즉, 바탕 화면에 파일이 있고 파일을 읽고 올바르게 작업하고 싶습니다 로컬 모드에서 시작해서 두 가지를 먼저해야합니다 중요한 것은 배당금이 교환 캐리어로 데이터를로드하는 것과 같습니다 심볼 캐리어 날짜 캐리어 배당 플로트이므로 명시 적 데이터입니다

타입 선언은 이것이 일반적으로 데이터가 있고 열을 알고 어떤 데이터 유형을 알게 될지 피그에게이 데이터를 불러 4 개의 열이있는 NY St 배당 및 4 개의 데이터 유형 이 돼지를 사용하면 모든 데이터 유형을 고수합니다 다른 프로그래밍 언어와 마찬가지로 제공되므로 여기에서 내가 원하는 데이터 유형이며 관계의 데이터 유형을 어떻게 알 수 있습니까 설명 배당금 설명 기술 사람들이 말하는 증거 다른 배당에는 네 개의 열이 있으며 이것들은 열입니다 이제 우리는 내가 한 일을 여기에 설명하지 않았습니다 명시 적 데이터 유형을 나타내는 데이터를로드했습니다 내가 데이터 유형을 보여줄 것입니다 배당을 설명하는 데이터 유형입니다 배당에 대한 유형과 이것이 우리가 알고있는 데이터 유형을 알고 있다고 말합니다

그런 다음 배당금은 부하 NYSC 밑줄 배당금 최신이라고 말했습니까? 매일 말할 수 있으므로 다른 예를 들어 봅시다 또는 당신은 이것을 말할 수 있고 매일 설명 할 수 있습니다 파일을로드하십시오 스키마를주지 않으므로 설명을하면 돼지는 매일 알 수없는 스키마를 말할 것입니다 스키마를 언급 했으므로 이제 문제는로드하는 것입니다 스키마를 설명하지 않고 이와 같은 파일을 사용하여 작업을 수행 할 수 있습니까? 예, 당신은 그렇게 할 수 있습니다

그것은 큰 장점입니다 다른 도구는이 장점을 가지고 있습니다 이제 내가 한 일이 New York Stock이라는 파일을로드했음을 보여줍니다 매일 교환하면 열 이름이 없거나 열 이름이 없습니다 데이터 유형이나 그 외의 다른 종류의 돼지가 스키마를 알 수 없지만 데이터를 변환하여 데이터를로드 한 다음 나는 매일 매일 말하고 있으므로 매일 매일이 데이터가 올바르게 생성됩니다

7 천 달러로 7 달러는 8 열이므로 숫자가있는 열을 나타냅니다 돼지에게 여덟 번째 열의 모든 숫자를 다시 천으로 나누도록 요청합니다 돼지에게 네 번째 열의 모든 요소에 1000을 곱하도록 요청하면 돼지에게 첫 번째 열에서 첫 번째 문자를 추출하도록 요청 또한 모든 행에서 일곱 번째와 네 번째 열 요소를 빼도록 지불하도록 요청 이제 각 생성에 대해 호출 된 연산자를 사용하도록 구문을 그대로 두십시오 기본적으로 제가 돼지에게 물어 보는 것은 이봐 요

매일 오른쪽에 8 개의 열이 있으며 열 이름이 없습니다 괜찮지 만 8 열이 있으므로 데이터를로드 할 때 분명히 데이터는 탭으로 구분됨 Pig는 읽을 수 있으므로 Pig는 탭의 탭인 데이터를 예상합니다 데이터가있는 경우 모든 열을 탭으로 구분해야합니다 탭으로 분리하지 않으면 코마 또는 당신이 가진 것과 같은 인수를 줄 수 있습니다 그러나 기본적으로 내 데이터는 탭으로 구분되므로 매일 NYSC로드를 말하면 모든 열을 자동으로 식별하여 모든 열의 이름을 지정합니다 $ 0 $ 1 $ 2 $ 3 천 단위로 8 번째 열의 모든 요소를 네 번째 열의 모든 요소를 ​​천 단위로 나누어 곱할 수 있습니다

100 도트 제로 및 하위 문자열 연산은 첫 번째 달러 0부터 의미합니다 열 0에서 1까지의 첫 번째 문자를 원하며 모든 행에 대해 원합니다 빼기 달러 6 빼기 달러 3은 7 번째 코너-4 번째 열을 의미합니다 내가 당신에게 말하려고하는 것은 당신이 돼지에게 모든 요소를 ​​나누도록 요구하고 있다는 것입니다 여덟 번째 열에서 천 단위로 누군가에게 무언가를 나누라고 요청할 때 즉, 숫자는 정수 여야하므로 돼지는 자동으로 네 번째 열에 대해 일곱 번째 열을 다시 정수로 캐스트하십시오 100

0을 곱하면 1000으로 곱하면 1000은 콜론을 double 데이터 유형 double로 가정하고 캐스팅 할 때 하위 문자열이라고 말하면 추출하려는 것을 자동으로 이해합니다 이게 카테 리라는 것을 이해할 것입니다하지만 당신이 말할 때- 당신이 선택을 요청하기 때문에 달러 6-달러 3 혼란이있을 수 있습니다 빼기 작업을 지금 할 수 있습니다 빼기 작업은 개인이 할 수 있습니다 정밀도를 위해 Pig는 두 가지를 모두 가정합니다

부동 소수점이며 덤프를하면 뺄셈을 수행합니다 당신이 그것을 제공하지 않고도 결과를 보여줄 것입니다 스키마는 스키마를 이해할 수 있으므로 첫 번째 열은 정수입니다 두 번째 열은 천 단위로 나누도록 요청하기 때문에 두 번째로 두 배는 칼로리입니다 네 번째는 다시 부동 소수점입니다 이 계산을 다시 한 번 보여 드리겠습니다

결과를 봅니다 이해하면 이것이 이것이 어떻게 될지 알려줍니다 스키마를 이상적으로 언급하지 않고 스키마를 언급해야합니다 돼지가 당신을 위해 일하는 또 다른 것은 내가 의미하는 스키마를 언급해야합니다 그것이 우리가하는 일이지만 스키마가없는 경우도 있습니다

데이터를 빠르게로드하고 예를 들어 약 10 열의 텍스트 파일을 얻는 것은 모두 당신이 할 수있는 jure의 정수입니다 그냥로드하고 모든 데이터 유형을 선언 할 필요가없는 모든 작업을 수행하십시오 당신은 당신이 ok라고 말할 때 천을 나눈 것을 알기 때문에 그것이 정수를 나누고 정수로 캐스트하여 정수 연산자를 작성하는 연산자 나 구문을 지금 자세히 살펴보십시오 내가로드 운영자가 만들 것이라고 말한로드 운영자는 무엇입니까? 당신이 내 데이터를 보면 그것을 사용하면이 NY se 밑줄 배당 또는 NY s 키이므로 이 데이터가 탭으로 구분 된 데이터는 구분 기호가 탭이며 기본적으로 탭 구분 기호를 사용하는 경우 big은 데이터를 이해하지만 데이터에 탭이없는 경우 데이터에 쉼표가 있으면 어떻게해야합니까? 이 데이터를 보면 올림픽 데이터 세트입니다 쉼표로 구분 된 데이터 이제 쉼표 구분자 데이터로 무엇을 할 수 있습니까? 이 데이터를 매우 간단하게로드하려면 그림에 있습니다 동등한 부하라고 말하십시오

올림픽이라고하면 큰 저장 공간을 부르고 있습니다 올림픽이 큰 스토리지 코마를 사용하는 내 파일 이므로이 큰 말을해야합니다 스토리지 다른 유형의 데이터를 가지고 있다면 간단히 할 수 있습니다 로드 연산자이므로로드 올림픽이라고 만하면 데이터가 pic 스토리지 코마를 사용하여로드 올림픽이라고하면 탭으로 구분 된 값은 데이터가 약간 혼수 상태이므로 CSV 파일이 있으면 매우 좋습니다 또는 쉼표로 구분 된 값 등이 데이터를로드하는 방법입니다

데이터가로드되는지 확인하십시오 스키마가 없습니다 스키마가 없습니다 우리가 언급하지 않았기 때문에 데이터를 덤프 해야하는 덤프를 말할 수 있습니다 데이터를 볼 수 있으므로 데이터가 완벽하게로드 된 것을 확인할 수 있습니다 로드 연산자를 사용할 때이를 사용하여 참조하십시오 결과를 저장하려면 운영자에게 바로 저장하십시오 그러면 내가 아는 모든 것을 하둡 폴더 이름으로 저장한다고 말할 수 있습니다

여기에 폴더를 만들어야하고 덤프를 저장하여 결과를 보여줍니다 화면과 저장소는 데이터를 폴더에 저장하므로 상점 운영자를로드하거나 번호 운영자 데모 운영자가 백만 줄을 가지고 있다면 좋지 않은 화면 상점에 매장이 있다고 말하면 화면에 백만 줄을 모두 던져 그녀의 개 어딘가에 당신은 당신이 액세스 할 수있는 모든 폴더 이름을 제공 할 수 있습니다 관계 연산자 OK 우리는 관계 연산자라는 것을 가지고 있습니다 맞습니다 몇 가지 예를 보여 드리겠습니다 이것으로 저는 다른 사람을 낮추고 여기에 관계를 만들고 싶습니다 여기에 열 이름을 지정한다는 것을 알고 있으므로 매일 NYS를로드하십시오

교환 기호 날짜 열기 높은 낮음 닫기 볼륨 조정 닫기 돼지에게 익숙해야하는 첫 번째 조작자가 각 운영자가 어떻게 작동하는지는 각 운영자가 모든 행을 가지고 당신이 언급하고있는 작업을 적용하십시오 close minus open이라고 말하면 또 다른 콜론이라는 열이 있습니다 바로 연이어서 속편 루프와 같아서 무언가를 적용 할 것입니다 속편 루프처럼 모든 레코드를 교환하고 이것이 작동하는지 확인하려면 어떻게해야합니까? 따라서 gain이라는 연산자를 덤프해야하므로 관계 코드가 완료되었다고 말할 것입니다 그리고 그것이 전부입니다 훨씬 더 많은 일을하세요

이제 제가 한 일을 제가했던 바로 C라고 말할 수 있습니다 가격은 각 가격에 대해 말할 수 있습니다 이제 C 덤프를하겠습니다 제가 지금 한 일을 보았습니까? 가격은 딸을 제로 달러로 생성합니다 두 개의 열과 내가했을 때 정확히 두 개의 열을 얻었으므로 어떻게 쉽게 필터링하는 것입니다 나는 단지 당신이 알고있는 3 개의 열을 호출하고 싶습니다

당신은 그것을 캐스팅하는 방법조차하지 않습니다 방금 말한 데이터 유형을 말할 필요가 없습니다 당신이 얻는 각각에 대해로드하고 그렇게 별도의 파일로 저장하십시오 이것은 데이터 변환이므로 매우 쉽게 말할 수 있습니다 데이터 변환은 대소 문자를 구분하는 관계입니다

내가 말하는 것은 하중이 같음 하중과 같지 않다 B 0 txt를로드하고 자본에 동일한로드를 너무 작게 말합니다 대문자 a가 다르므로 관계 이름은 대소 문자를 구분하지만 말할 수는 있습니다 이 또는이 중 하나를 사용하면 작업자가로드와 같거나 각각에 대해 사용할 수 있습니다 작은 글자 또는 대문자이지만 관계 이름은 매우 구체적입니다 각 연산자마다 범위를 언급하는 데 사용할 수 있습니다 동일한 데이터 가격을 올바르게로드하고 있으며 말할 수있는 일을 할 수 있습니다 각 가격에 대해 도트 도트 오픈을 생성하여 교환 기호를 생성합니다

date open 모든 열이 열리거나 open dot dot close라고 말할 수 있습니다 높음 낮음 닫힘 또는 볼륨 및 조정을 의미하는 볼륨 도트 도트라고 말할 수 있음 밑줄을 닫으면 이와 같은 열 범위를 언급 할 수 있으므로 div라는 관계를 다시 만들었습니다 동일한로드하고 있습니다 좋아, 그래서 여기에 관계를 만들고 우리가 몇 개의 열을 가지고 있는지 이 관계이지만 큰 것은 열이라고하지 않습니다 기록 미안 그것은 실제로 필드가 아니라 우리가 얼마나 많은 필드를 기록 교환 기호 날짜와 배당에 대한 div 관계를 가지고 있으므로 네 가지 분야에서 내가하고있는 일을 살펴보고 각각에 대한 밑줄 의미 200 또는 0의 배당 코마 배당으로 100/0으로 배당을 생성 그래서 이것은 내가 올바르게 쓰는 방식을 약간 혼란스럽게합니다

그래서 저는 이전 데이브 관계인 각 데이브에 대해 말하고 싶습니다 이 필드에 배당금이라는 200을 배당금으로 곱하면 무엇이 좋을까요? 여기서 배당금으로 1000으로 배당금을 썼습니다 다시 1000으로 배당 그것은 필드 이름은 내가 무엇을 말하고 있는지 참조하십시오 배당 열을 알고있는 모든 요소에 곱셈을 알고 있거나 배당하지만 필드를 올바르게 말하면 배당이라는 이름으로 저장됩니다

새로운 열이나 배당이라는 새로운 필드를 만들고 있지만 두 번째에는 내가하고있는 일 나는 배당에 모든 요소를 ​​곱하지만 새로운 열로 저장하지 않기 때문에 자동으로 일이 일어 났을 때 내가 쓰면 열이 있습니다 두 번째 열의 배당은 두 번째 열입니다 열이 없습니다 이름과 달러로 액세스 할 수 있습니다 즉, 작업을 수행 할 때마다 그렇지 않으면 달러 표기법으로 열을 생성합니다

좋아 필터 hmm로 가자 그래서 필터 연산자에서 나는 그냥로드합니다 데이터는 먼저 교환으로 느린 배당금을 말합니다 기호 후보 칼로리와 배당금을 떠 다니면 괜찮습니다 DV로 div를 필터링 한 다음 볼 수있는 데이터가 무엇인지 모르는 것보다 큽니다 내가 무엇을 먼저 했습니까? 이 뉴욕처럼로드는 교환 기호 날짜와 배당금으로 배당금입니다 필터 수명이라고 말할 수 있습니다 포인트 4 팀보다 큰 배당 열 나는 당신이 알고있는 모든 행을 원합니다

따라서 어떤 값보다 큰 열은 어떤 값보다 작은 열보다 작을 수 있습니다 약간의 가치와 나는 D의 덤프를했다 그것은 덤프 이 열이 01보다 큰 모든 레코드를 보여주세요 연산자는 조건 필터를 사용하여 열 값은 이제 뭔가보다 작을 수 있습니다 문자가있는 경우 부동 숫자 등에서 작동합니다

이 예의 예 처음 두 열은 문자 오른쪽 세 번째입니다 날짜는 그대로 두십시오하지만 처음 두 가지는 문자열입니다 열 이름 인 기호로 cm을 필터링하는 필터 점을 말할 수 있습니다 별표는 표현식과 일치하는 것이므로 모든 레코드를 원합니다

기호 열에서 빨간색으로 C로 시작하여 C 또는 C를 덤프했습니다 오 cm ACM 참조 em K 참조 em K 필요한 것은 열을 필터링하는 것입니다 정규 표현식이거나 그보다 작은 것보다 큰 것 필터 연산자입니다 이제 필터 연산자입니다 이 연산자를 그룹화 연산자라고하는 중요한 연산자입니다

큰 경우 매우 매우 중요합니다 운영자가 너무 많습니다 실제로 어쨌든 먼저 그룹화를 살펴 보겠습니다 먼저 데이터를로드하겠습니다 다음과 같이 데이터를로드 할 수도 있습니다

여기서로드를 알고 있다고 말하고 있습니다 ny는 매일 교환 및 재고로 사용됩니다 단 두 열만 사용하고 있습니다 나는 단지 두 개의 열만 사용하므로 두 개의 열만로드합니다 그룹별로 재고를 매일 그룹화하면 그룹화가 그룹화를 보는 매우 일반적인 작업입니다

많은 장소에서 속편 그룹화하지만 그룹화는 매우 다른 방식으로 작동합니다 당신의 피크에 내가 여기에보고있는 것은 내가 이전을 그룹화하고 싶다는 것입니다 내 데이터 인 관계는 실제로 재고 이름을 구입하므로 모든 재고 이름이 함께 올 것입니다 예를 들어 함께 올 것입니다 GRP 덤프에 특정 형식이 있으면 괜찮습니다 그룹화 결과 또는 다른 데이터 세트를 얻을 수 있는지 확인하여 등가 하중이라고 말할 수 있습니다

림픽 또는 림 픽픽 빠른 스토리지 코마를 사용하면 이것이 올림픽 데이터 세트입니다 기본 스키마로로드 할 스키마를 언급하십시오 액세스 0 0 2라고 말하면 B는 그룹 a 2와 같다고 말할 수 있습니다 달러 2 4로 그룹화하므로 달러 2 달러 2가 무엇입니까? 덤프 B를 말할 때 국가를 기준으로 데이터를 그룹화하십시오 점점이게 아마 당신에게 보여주고 싶은 것입니다 당신은 국가 이름을 가지고 있으므로 매우 적은 국가를 보자 실제로 선수를 식별하기가 쉽습니다

그룹화 작업 기록 이것은 하나의 기록이므로 여기에는 두 부분이 있습니다 하나는 국가 인 그룹화 키이므로 국가를보고 있습니다 도미니카 공화국이라는 두 번째 부분은 도미니카 공화국 도미니카 공화국에있는 한 남자가 있습니다 다른 남자가 있습니다 다른 남자가 있습니다

다른 남자가 있습니다 그룹화 할 때 그룹화 결과가 어떻게 발생하는지 내 요점은 작업 결과는 키 값 쌍과 같습니다 키는 그룹화 키입니다 이 경우 내 기록 도미니카 공화국의 국가 가치는 도미니카와 일치하는 모든 기록을 포함하는 가방입니다 트리니다드 토바고와 같은 방식으로 국가 권리와 이것들은 모두 트리니다드 토바고의 가치입니다 가방에서 그룹화 키인 첫 번째 요소 트리니다드 토바고 당신은 트리니다드 토바고에있는 모든 운동 선수가 있으므로 이것은 하나의 기록입니다 트리니다드에서 하나의 콘센트가 있고 다른 하나는 아 틀렛입니다

그래서 내가 할 수있는 것은 각 B에 대한 것입니다 그룹을 생성합니다 이와 같은 것을 말하고 셀 수 있다고합시다 올림픽을 낮춘 다음 BB가이 그룹을 C는 각각의 B가 쉼표를 생성한다고 가정 할 수 있습니다 기본적으로 우리가하는 일은 실제로 데이터 수를 세는 것입니다 덤프 C 그래서이 문장은 우리가 데이터를 잘로드하고 있다는 것을 의미합니다

우리는 주문에 달러로 내 원래 데이터 인 그룹 A를 말했다 C에서 내 국가 열이 각각에 대한 그룹 이름을 생성하므로 국가 이름을 원하고 그렇게 계산하면 내 원본이 될 것입니다 데이터 오른쪽은 모든 레코드를로드하는 곳이므로 기본적으로 이것은 모든 국가 C의 수를 줄 것입니다 뉴질랜드에는 51 개의 기록이 있으며 북한에는 21 명이 있으므로 그룹화는 이 그룹화와 같은 작업을 수행하는 데 매우 유용합니다 교환 및 재고로 매일 NY NY로드 할 수있는 것과 동일한 작업을 수행 할 수 있습니다 즉, 거래소 및 주식 그룹에 매일이라는 관계를로드하고 있음을 의미합니다

재고를 구입하면 각 그룹에 대해 말할 수 있습니다 그룹으로 묶은 다음 매일 계산하여 몇 개가 있는지 계산합니다 우리가 그룹화 연산자를 어떻게 수행할까요? 이 권리를로드하고 날짜별로 매일 주문 할 수 있으므로 이것이 어떻게됩니까? 날짜 열을보고 기본적으로 오름차순으로 정렬합니다 이 결말을 올바르게 말할 수 있으므로 기본적으로 알 수 있습니다 오름차순으로 오세요

알 수있는 여러 열 주문도 가능합니다 원한다면 날짜별로 쉼표 기호로 주문하십시오 쉼표를 열고 닫으면 매일 주문할 수 있습니다 이 닫힌 필드는 내림차순이되고 다른 필드는 오름차순이됩니다 조인 연산자이므로 조인하려는 경우 데이터를 간단히로드 할 수 있습니다

Dave의 부하 교환으로 간단한 날짜로 간단한 날짜로 매일 가입 할 수 있습니다 단일 열 조인 또는 다중 열 조인을 수행 할 수 있습니다 이렇게하면 매일 호출되는 데이터를 먼저로드 한 다음 데이터를 div라고하고 조인을 수행 할 수 있으므로 정상적인 조인이됩니다 원하는 조인 유형에 관계없이 왼쪽 바깥 쪽 오른쪽 바깥 쪽을 수행 할 수도 있습니다 내가 말하면 나는 기호 코미디로 Kumar de Deus 기호로 매일 가입한다고 말하고있다

J와 D는 다중 열 결합 결과 c3을 가져야합니다 조인 연산자를 사용하면 제한을 말할 수 있으므로 여기에 데이터를로드 할 수 있습니다 나는 말할 수있는 한계를 말할 수있는 스키마를 제공하지 않는 데이터를로드한다고 말하고있다 내가 처음 10 개를 버린다면 이제 한계가 10을줍니다 나만 10이므로 제한 한 것은 10이므로 제한 연산자 내가 어떻게 말하는지 보여줄 레코드의 수를 제한 할 것입니다 무작위 선택 당신은 한계를 말할 수 없으므로 한계 연산자는 실제로 단어 카운트가 무엇인지 지금 바로 데이터를 제한합니다

내가 단어 개수 프로그램을 제대로 실행하고 단지 당신이 있는지 확인하는 것입니다 실제로 스크립트를 먼저 살펴볼 단어 수를 알 수 있습니다 스크립트를 실행하고 결과를 얻고 있는지 확인하여 스크립트 이것은 실제로 우리를 위해 단어 수를 수행 할 스크립트입니다 나중에 스크립트를 설명하자면 이제 단어 개수 프로그램을 실행하면됩니다 무슨 일이 일어날 지 봅시다 이것은이 단어 개수를 가진 스크립트입니다

선택하고 내가 주어야 할 것은 파일 이름과 파일을 아는 것입니다 이 파일이 분석되었습니다이 파일은 분석 할 파일입니다 mary 어린 양의 양털은 눈처럼 하얗고 어린 양이 가서이게 당신의 동요입니다 메리에게 단어 수를 계산할 것입니다 내가 분석해야 할 것은 내 스크립트에서 내가 할 일을 스크립트로 열어서 말할거야 이것이 내가로드하고 싶은 것입니다 그리고 나는 이것을 먼저 실행할 것입니다

돼지-X 지역 단어 수 도트 돼지라고하면이 스크립트를 실행하는 방법입니다 난 그냥 Pig가 내 말을 위해 이것을 실행하고 있다고 말할 것입니다 그게 뭔지 보여줘 내가 그냥 들어가서 우리가 볼 수 있는지 예상 결과를 얻었고 단어 개수를 매우 잘 수행 할 수 있습니다 이 스크립트를 사용하면 우리가 가지고있는 4 줄 스크립트이며 실제로 단어 개수는 이제 이것을 Java 프로그램 인 MapReduce와 비교합니까? 단어 수를하고있는 프로그램은 바로 작성하기가 매우 복잡했습니다 이것은 흠이 너무 쉽습니다 이제 알았으니 이제 무엇인지 봅시다

일어날 것입니다 나는 단지 설명하기보다는이 끊기를 설명 할 것입니다 내가 할 일은 스크립트를 방금 실행하면 한 줄씩 실행한다는 것입니다 스크립트 당신은 아무것도 이해하지 못할 것입니다 그래서 내가 뭘하려고 해요 한 줄씩 줄이려면 전분을 처리하겠습니다 스크립트를 분석해 보겠습니다 이것은 내 치마의 첫 번째 줄이며 설명이 필요하지 않다고 생각합니다

내가하고있는 일은 데이터를 단일 열로 단일 필드로로드하는 것입니다 이 전체를 호출하면 네 줄의 데이터를 단일 열 또는 단일 열로 알 수 있습니다 field 내 열의 이름은 줄입니다 내 열의 이름은 줄입니다 단어 수이기 때문에 모든 데이터 유형 또는 기타 언급 당신이 받고있는 데이터가 무엇인지 알지 못합니다

알고 있으므로이 데이터를 줄로로드하므로 line은 열 이름입니다 여기에 줄이 있거나 기본적으로 내가하는 일 이 작업을 수행하므로 각 단어에 대해 단어라는 다른 관계를 만들 것입니다 내 데이터의 모든 라인이 라인을 토큰 화하여 라인이 무엇인지를 의미합니다 line은 열이므로 line은 열을 나타내는 열을 알고 있음을 의미합니다 데이터 토큰 화는 페이지의 함수 또는 연산자로 추출됩니다

모든 단어는 기본적으로 조직이 무엇을합니까? 기본적으로 각 단어에 대해 말할 때 모든 단어에 대해 행을 생성한다는 의미입니다 평평한 토큰 화 된 라인을 생성하면 할 것입니다 모든 줄을 읽고 모든 단어를 추출하고 모든 단어에 대해 행을 형성합니다 기본적으로 모든 개별 단어를 단일 열에 정렬합니다 단어는 내 열 머리글이 될 것이므로 열 머리글처럼 생각하십시오

여기 줄은 원래 데이터의 열 머리글이며 열입니다 내가 단어 덤프를하면 변환 된 데이터의 헤더 덤핑이 끝나면 이것이 당신이 얻는 것입니다 평평한 것을 평평하게 토큰 화하면 모든 단어를 선택합니다 이 열에 정렬하여 이제 내가 원하는 모든 단어를 갖습니다 셀 수 있지만 마리아가 여기 반복되고 있다는 것을 알고 있습니다

첫 번째 행과 다시 Mary가 여기에 있으므로 Mary가 두 번 반복되므로 Mary를 세어 그룹화해야 다음 단계는 내 데이터를 그룹화하여 나는 G RPD가 단어 verts로 그룹 단어라는 것은 내 관계 단어라고 말할 것이다 열 이름이 괜찮습니다 혼란스러워하는 단어가 아닙니다 내 관계 단어는 열 이름 또는 열 머리글이므로 해당 그룹이 열 단어로 단어 지금 쿨롱 단어는 모든 데이터를 가지고이 데이터 데이터는 실제로 단어를 포함하는 열이므로 그룹화를 기억하십시오 돼지의 연산자이기 때문에 이것이 내 데이터라는 것을 알고 있습니다 나는 그룹화를하고 있다는 것을 알고 있습니다

나는 그룹화를하고 있지만 돼지라는 것을 알고 있습니다 개발자가 알아야 할 것은 그룹화 결과가 어떻게 표시되는지입니다 이를 위해 G RPD라는이 관계 덤프를 수행하고 덤프를 수행합니다 이것과 이것이 Mary라는 요소를 보는 것처럼 보입니다 요소 또는 Mary라는이 레코드에는 두 개의 열이 있습니다

첫 번째 열은 그룹화입니다 메리 두 번째 열인 키는 튜플을 포함하는 가방입니다 Mary의 반복이 아닌 커플이므로 먼저 그룹화 키입니다 두 번째는 양고기와 동일한 Mary의 실제 반복 횟수입니다 눈이 떨어져도 딱 한 번만 반복하십시오 그러나 이것은 당신이해야 할 일입니다

내가 지금해야 할 일은 gr gr마다 각 gr PD에 대한 나의 이전 관계는 그룹을 생성합니다 그룹 여기에 그룹이 첫 번째 열이 될 것입니다 단어를 계산 단어가이 칼럼이 될 것입니다 이것을 적용하면 어떤 일이 일어날까요? Mary라는 그룹을 생성 한 다음 Mary의 반복하는 것은 단어가 원래의 관계라는 것을 기억하십시오 단어 열이라는 단어는 열이있는 곳에 여기에는 데이터를 올바르게 알고 있으며 그룹화 한 다음 말하는 것입니다 이 단어들을 세는 것입니다

기본적으로이 마리아가 아는 단어는 실제로 단어의 일부이므로이 단어를 너무 세고 싶습니다 그리고 이것은 그룹이므로 여기를 보면 각 단어를 그룹별로 단어별로 볼 수 있습니다 그룹을 생성하므로 그룹 생성은 그룹화 키를 생성하고 당신이 C와 PD의 덤프를하면 지금 계산 최종 결과가 있으므로 항상 그룹화 결과를 기억하십시오 작업에는 두 부분이 있습니다 한 부분은 그룹화 키이며 두 번째 부분은 이 경우 Mary가 반복되는 요소는 그룹화 키가됩니다

Mary 쉼표 Mary는 결과가 될 것이므로 알아야 할 것은 각각의 성장을 생성 한 다음 그 관계를 계산하여 어떻게 계산합니까? 여러 번 그것이 일어 났으므로 이것이 단어 카운트 프로그램을 작성하는 방법입니다 Pig를 이용한 기상 데이터 분석 실제로 우리가 지금 할 일은 먼저 데이터를 보여 드리도록하겠습니다 우리가 무엇을하는지 설명 할 것입니다 이것은 우리가 할 데이터입니다 분석하고 멋지게 보이지 않습니다

왜 데이터가 좋지 않습니까? 날씨 데이터이므로 날씨 데이터가 무엇을 의미합니까? 이것들은 센서에서 얻는 데이터의 유형입니다 기본적으로 온도 측정 값과 그 이상이 있지만 실제로는 데이터를 보면 현재 온도 측정에 관심이 있습니다 구조가 없다고 생각하지만 구조는 맞지만 당신은 실제로 그것을 coelom 형식으로 넣을 수 없다는 것을 알고 있습니다 당신은 그것이 우리가 무엇인지 매우 재밌는 방식으로 제공되는 방식을 알고 있습니다 이 데이터에서 할 것은 구조화되지 않은 데이터와 비슷합니다

구조화되지 않은 데이터 우리는 돼지를 사용하여 로컬 모드에서 돼지를 시작한 다음 명령을 보면 내가하고있는 첫 번째 일은 파일 이름이 무엇입니까? 그 다음에 우리는 그것이 돼지 점 txt인지 여부를 확인합니다 가장 먼저 할 일은 내가 말할 데이터를로드하는 것입니다 텍스트 로더를 데이터와 칼로리로 사용하여이 데이터를로드하는 것은 기본적으로 하위 문자열 작업을 수행하려고하기 때문에 이것을 칼로리로 선언합니다 하위 문자열 작업을 수행하고 싶습니다 시간이 지남에 따라 칼로리 그래서 내가 할거야 내가 말할거야 각각의 생성 트림에 대해 트림은 돼지에서 사용할 수있는 연산자입니다 기본적으로 트림하고 data 6이라는이 열에서 부분 문자열을 말할 수 있습니다

14 14 38 45 45 46 53 이것은 이것이 무엇을 의미합니까? 기본적으로 추출하고 싶습니다 문자 위치 6 ~ 14이므로 6 ~ 14 0 1 2 3 4 5 6 6 ~ 14는 kateri로로드 했으므로이 데이터가 무엇인지 알 수 있습니다 이게 맞을 것이고 이것은 날짜 열이 될 것입니다 실제로 볼 수있는 날짜는 2013 년 1 월 1 일과 같은 방법으로 추출하는 것입니다 38 ~ 45이지만 최소 온도 46 ~ 53이며 최대 이제 온도가 자연스럽게 나에게 이것이 데이터라는 것을 어떻게 알 수 있습니까? 데이터를 제공하는 사람에게 데이터를 이해하도록 요청해야합니다

내가 추출한 후에는 기본적으로 실제로 이것을 버리고 바보 같은 공기를 어떻게 보았는지 볼 수 있습니다 데이터가 지금처럼 보이므로 이제 데이터가 날짜로 추출됩니다 날짜는 코마 최소 온도 코마 최대 온도이므로 내 데이터에 대해이 형식이 있지만 사용하지 않으려는 것은 아닙니다 내가 지금 할 일이 다르기 때문에이 데이터를 저장하려고합니다 폴더에 데이터를 올바르게 저장하면 폴더가 있는지 여부를 어떻게 알 수 있습니까? LS를 만들면 data 9라는 새 폴더가 있습니다

데이터라는이 폴더에 LS를 사용하면 공원과 파일이 있습니다 이 부분 M 파일에 데이터가 있으므로 기본적으로 폴더에 데이터를 저장했습니다 데이터가 폴더에 저장되면 할 수있는 일은 데이터에 대한 구조 나는 이것이 아마도 데이터 9가 될 것이라고 말할 수있다 pick storage coma를 사용하여 방금 추출한이 데이터를로드합니다 스키마를 생성 할 때 쉼표로 구분하여 날짜를 최대 값으로 지정합니다

이 데이터를 호출하고 관계에로드 이제 s라는이 관계에는 세 개의 열이 있습니다 원시 데이터에서 추출 되었으며이 세 열은 특정 소와 같은 데이터 유형이 두 배로 증가하므로 이제 날짜가 최대가됩니다 온도와 최저 온도 그리고 내가 원한다면 아주 간단하게 할 수있는 일 내가 할 수있는 더운 날을 찾으려면 x는 filter s를 Max만큼 큽니다 어떤 사람들은 이전 관계를 걸러 낸다고 말합니다 최대 25라는 열에 의해 어떤 날이든 가정하고 있습니다 25 이상의 온도를 갖는 것은 더운 날이므로 이제 XI를 덤프하면 내 더운 날 흠 그래서 마지막 열에서 이것 좀 봐 최대 온도가 25보다 높고 최소 0보다 작을 수도 있습니다

추운 날을 실제로 찾아서 x는 filter ss라고 말할 수 있습니다 XI 덤프를하면 min colum에 의한 관계가 0보다 작습니다 이 결과의 두 번째 열을 볼 수 있습니다 모두 0보다 작습니다 바로 기본적으로 그것은 내가 준 조건입니다

당신도 많은 일을 할 수 있습니다 다른 것들의 지금은 통계 자료를 알고 당신을 향해 더 맞습니다 이것은 통계 자료에 더 가깝기 때문에 기본적으로 찾으려면 오늘 가장 인기있는 것은 당신이 그룹을하는 것입니다 그래서 나는 말할 것입니다 그래서 일반적으로 당신은 날짜 열에 의해 그룹을 최소 열에 의해 최대 열이지만 여기에 group s라고 말하거나 매우 특별한 그룹화입니다 내가 여기보고있어 이것이 내가 당신에게 보여주고 싶은 것입니다 일반적으로 그룹 Y라고 말하면 H 1 덤프를하면 결과는 다음과 같습니다

매우 흥미 롭기 때문에 이것이 실제로 그룹 s를 보는 결과입니다 여기에 하나의 결과 만 생성됩니다이 키는 모두 볼 수 있습니다 모든 가치는 당신이 가진 전체 데이터입니다 그래서 당신이 group s라고 말할 때 당신은 모든 것에 의해 성장하도록 요구하고 있습니다 불가능한 것처럼 돼지가하는 일이 핵심 가치를 창출 할 것입니다 그룹화 키의 조합은 모든 수단이 될 것입니다 모든 것과 가치 부분은 관계의 모든 요소가 될 것입니다 이것이 일어나는 일이고 내가하고있는 일은 각각의 h1에 대해 알고 있다고 말하고 있습니다

즉, 각 h1에 대한 이전 관계는 최대 s 최대 값을 최대로 생성하므로 여기에 새 열을 선언하면 이것이 내가 말하는 것입니다 max와 max 함수를 사용하면 괜찮습니다 최대 값을 찾을 수 있으므로이 관계를 덤프하면 II가 표시됩니다 최대 값이 34 점 하나이므로 이것이 내가 가진 최대 값입니다 지금 더운 날을 찾고 있어요 그래서 내가해야 할 일은 필터 ss는 쿨롱과 같은 max에 의한 나의 원래 관계라고 말해야합니다 최대 도트 수 그래서 최대 도트 수 이렇게 기본적으로 최대를 찾는 것입니다 이 34 개의 포인트가 발생하는 레코드를 원하는 데이터 필터링 기본적으로 그렇게한다면 X 덤프를하면 가장 뜨거운 날이 가장 뜨거운 날입니다 2013 년 6 월 12 일 어쩌면 그것은 조금입니다 이해하기가 복잡하지만 먼저 이해해야 할 것 같습니다

내가 모든 H에 대해 말하는 모든 것에 의해 그룹 s는 당신이 알고있는 최대를 생성하지 않을 것입니다 max를 최대 hmm으로 점으로 지정하면 최대 값을 얻을 수 있습니다 s by max는 i dot maximum과 같으므로 가능한 한 같은 방식으로 만 표시됩니다 당신이 할 수있는 것과 같은 가장 추운 날을 찾아 무선 하루도 찾아보세요 쿨롱의 최대를 말한 다음 할 수 있습니다

여기 필터링 또한이 그룹을 보여주고 싶었습니다 이 방법을 그대로 유지하면이 대신에 당신이 알고있는 각각의 최대 쿨롱에서 최대를 생성하고 내가 그것을 필터링 s 최대 값은 실제로 s 최대 값을 의미합니다 관계 당신은 관계에서 최대 열을 알고 최대 열 그래서 여기서 우리가하고있는 유일한 일은 group s 또는 결과입니다 그룹화 키에서 모두가되고 값은 모든 것이됩니다 당신은 당신이 알고있는 s s는 당신의 기본 데이터이며, 나는 각각의 H에 대해 말하고 있습니다

최대 최대 생성은 내 연산자입니다 s 최대 최대 도트는 최대 열입니다 최대 바로 그때 나는 최대의 필터가 i 도트 최대와 같다고 말하고있다 바로 이것이 내가 쓴 방식이므로 조금 시도해 볼 것을 제안합니다 또한 다른 방법으로 결과를 얻는 방법을 참조하십시오 빅 데이터 하둡으로 인증 받기를 원한다면 빠른 정보를 얻으십시오 architect intellibid는 Big Data Hadoop에 대한 전체 과정을 제공합니다

전문가가 사용하는 모든 주요 구성 요소 및 도구 자세한 내용은 설명에 언급 된 링크를 참조하십시오 질문이 있으시면 세션이 끝납니다 의견 섹션에서 아래에 의견을 보내 주시면 최대한 빨리 연락 드리겠습니다 채널을 구독하는 것을 잊지 마십시오 다가오는 비디오를 놓치지 않고 시청 해 주셔서 감사합니다

noc19-cs33 Lecture 1-Introduction to Big Data

빅 데이터 소개 이 강의의 서문, 내용,이 강의에서 논의 할 간단한 소개 빅 데이터, 왜 빅 데이터가 어디서 왔는가? 빅 데이터의 도전과 응용, 빅 데이터의 특성, 그것은 부피, 속도, 다양성 및 더 많은 V에 관한 것입니다 우리는 강의의이 부분에서 볼 것입니다

빅 데이터 란 무엇입니까? 따라서 빅 데이터는 데이터 세트 모음에 대한 용어이므로 기존의 데이터 처리를 사용하여 처리하기가 어려워지는 크고 복잡한 응용 프로그램 지금,이 특정 그림을 보려면 컨설턴트가 말합니다 3 대륙의 데이터가 있으며 조직에서 매일 생성되고 있습니다 위키피디아의 책에 따르면 모든 것을 아는 모든 곳에서 나옵니다 이름은 빅 데이터입니다

따라서이 특정 그림을 사용하여 빅 데이터를 설명하는 간단한 방법입니다 볼륨 또는 크기라고하는 하나의 측면 만 나타냅니다 이 특정 강의에서 빅 데이터 측면에서 이러한 과제를 더 많이보십시오 따라서 엄청난 양의 특정 데이터는 다음과 같은 다양한 문제를 야기합니다 이렇게 많은 양의 데이터를 캡처하려면 어떻게 치료해야합니까? 그렇게 많은 양의 데이터를 어떻게 저장합니까? 어떻게 검색 할 수 있습니까? 이 정보를 어떻게 공유합니까? 이 방대한 양의 데이터를 전송하는 방법은 무엇입니까? 또한 분석, 분석 및 종종 Lee 인 시각화는 많은 응용 프로그램에도 유용합니다

빅 데이터가 사용될 것입니다 이제 더 큰 크기의 데이터 세트에 대한 추세는이 추가 정보로 인해 발생합니다 이는 하나의 큰 관련 데이터 세트의 분석에서 비롯된 것입니다 데이터의 전체 크기가 같은 더 작은 세트,이 큰 크기는 상관 관계를 허용합니다 현물 비즈니스 동향 측면에서 악용 할 수있는 다양한 기회를 찾아서 연구의 질, 질병 예방, 법적 인용을 연결하고 다시 범죄와 실시간 도로 교통 상황을 결정합니다

빅 데이터 또는 대용량 데이터로 다양한 기회와 도전을 제기합니다 새로운 종류의 응용 프로그램과 사회 복지 서비스가 가능하며 그렇기 때문에 빅 데이터가 대중화되는 이유입니다 이 특정 크기의 데이터 또는 빅 데이터의 일부 사실과 수치 예를 들어 Walmart는 1 백만을 처리하는 회사입니다 시간 당 고객 거래

so, 그냥 볼륨 또는 이러한 거래 또는 고객이 처리되는 비율, 두 번째 회사는 Facebook이라고하며 사용자 기반에서 4 천만 ~ 400 억 장의 사진을 처리합니다 따라서 여기서 의미하는 사진을 말할 때 데이터는 다른 형식으로되어 있으며 큰 사이즈 이제 복잡성의 차원에 추가되는 페이스 북은 여기에 500 테라 바이트를 삽입합니다 매일 새로운 데이터 따라서 이것은 기본적으로 볼륨 문제, Facebook 상점, 액세스, 분석, 30 이상이됩니다

매일 페타 바이트의 사용자 생성 데이터 이제 유사하게 비행은 6 ~ 8 시간의 비행 시간 동안 240 테라 바이트의 비행 데이터를 생성합니다 고객을 안전하게 비행하고 기본적으로 편의를 보장합니다 비행 여행 그래서이 특정 비행이 분석을 위해이 정보를 생성하고 사용하는 이유입니다 50 억 명이 넘는 사람들에게 전화, 문자 메시지, 전 세계 휴대 전화에서 트윗, 탐색하기 여기서 사람들은 빅 데이터 생성에 관여합니다

또 다른 것은 인간 게놈의 해독에 관한 것입니다 원래 처리하는 데 10 년이 걸렸습니다 이제 일주일 만에 달성 할 수 있습니다 즉, 빅 데이터의 계산이 이제는 시간 안에 완성 될 수있는 또 다른 회사가 하나의 데이터베이스에서 많은 양의 데이터를 포함하여 타이틀을 부팅하는 AT & T 데이터베이스 고유 한 데이터베이스에서 312 테라 바이트와 두 번째로 큰 행 수입니다 8 포인트에 광범위한 통화 기록을 포함하는 1 포인트 9 조입니다

따라서이 특정 회사는이 예입니다 큰 데이터베이스를 사용하는 상점에있는 데이터이며 수행하고 계산을 수행해야합니다 이 대규모 데이터 세트에서 통찰력을 얻고 기본적으로 비즈니스를 추진하기 위해 그 회사의 이제, 우리가 abite가 쌀 1 알과 킬로바이트 (10 ~ 3)는 쌀 1 컵, 그다음 메가 바이트 10에서 6까지의 쌀은 8 봉지가되고 기가 바이트 10에서 9까지의 힘을 볼 수 있습니다 우리는 그것을 확장 할 수 있고 3 개의 반 트럭 쌀을 이해할 수 있습니다

1 기가 바이트입니다 따라서 쌀 2 컨테이너 선은 12의 1에 10 인 1 테라 바이트가되고 그것은 인터넷에 흐르는 정보의 양을 나타냅니다 15의 전원을 켜면 15는 우리 도시 자이푸르의 담요 절반입니다 그 크기는 빅 데이터라고 불리며 여기에서 우리는 그것을 구성하거나 이 담요의 1/4 크기로 나라에 있고 zettabyte는 10입니다 전력 21과 기본적으로 태평양과 그 양의 데이터를 채울 것입니다 제타 바이트 (Zettabyte)라고하며, 미래의 빅 데이터 볼륨이며, 계속 확장 zettabyte는, 지구력이있는 밥 그릇이되는 10의 힘 24 인 zettabyte가됩니다

그리고 그 이상으로 천체가되는 10의 힘 27 인 갈색에서 Bide입니다 특정 데이터의 크기 그래서 우리는 천문학적 인 거대한 양의 데이터를 향해 나아가고 있습니다 크기, 이런 종류의 데이터를 처리하는 방법을 빅 데이터 계산이라고합니다 그리고 우리는이 과정의이 부분에서 이러한 특정 참가 사례를 보게 될 것입니다 이제 데이터를 너무 많이 만드는 것은 무엇입니까? 자, 여기서 우리는 세 가지 다른 출처가 있다고 생각합니다

너무 많은 데이터? 첫 번째는 사람들이라고 불립니다 예를 들어 Facebook 또는 휴대 전화를 들고있는 사람들은 데이터를 생성 할 때마다 휴대 전화를 사용하는 경우 텍스트, Facebook 또는 GPS로 기본적으로 카메라가 사진을 찍고 있기 때문에 이러한 종류의 데이터가 많은 양의 데이터를 생성하는 다른 유형의 데이터 소스 인 사람들이 센서를 사용하고 있습니다 따라서 센서는 일반적으로 스마트 시티 조직이나 산업 또는 많은 곳에서 시계열 데이터를 계속 생성합니다 세 번째 유형의 데이터 인 세 번째 소스는 조직이라고합니다 거래와 다른 서비스, 거래와 고객 거래 이 모든 것이이 조직의 데이터 소스가 될 것입니다

유비쿼터스 컴퓨팅을 형성하므로 인터넷의 데이터는 기본적으로 때때로 필요합니다 기본적으로 실시간 통계에 대한 분석을하기 위해 강의의이 부분에서 제가 말씀 드렸듯이 세 가지 다른 소스가 있습니다 하나는 사용자입니다 따라서 기본적으로 서비스를 사용하는 사용자 나 Facebook, Twitter, Google은 그들은 많은 양의 데이터를 생성하고 있으며 기본적으로 빅 데이터의 소스 중 하나입니다

여기서 볼 수있는 두 번째 종류의 데이터 소스는 기본적으로 장치가 센서가 많은 장치는 많은 양의 데이터를 생성합니다 예를 들어, 스마트 미터는 데이터와 RFID 태그를 생성하고, 개체는 생성합니다 휴대 전화 안에있는 데이터와이 카메라와 센서가 있습니다 데이터를 생성 중입니다 또한 오늘날의 모든 장치는 IOT 장치라고하는 장치와 동일합니다

센서는 지속적으로 데이터를 생성합니다 또한 웹상의 20 억 명 이상의 사람들과이 특정 웹 크기는 엄청난 양의 데이터를 제공합니다 이제 모든 종류의 소스가 있으며 데이터를 생성하면 큰 크기의 데이터 직장에서 빅 데이터의 또 다른 예는 crowdsourcing을 사용하는 것입니다 이 특정 데이터를 가져 오거나 캡처하여 계산을 수행합니다

기본적으로 도로에서 교통 혼잡에 대한 통찰력을 얻으려면 구급차가 움직이고 있으며 녹색 경로가 필요하며 그것은 수행하거나지도에 경로를 제공하고 경로는 다음을 사용하여 계산됩니다 이 특정 상황은 특정 시간에 동적으로 변경됩니다 따라서 빅 데이터의 특정 환경에서 문제는 어디에 있습니까? 이제 우리는 전통적인 RDBMS에서 이러한 쿼리가 유용하기에 충분하지 않다는 것을 알았습니다 방대한 양의 데이터 중 정보 즉 기존 RDBMS 쿼리는 이러한 종류의 빅 데이터를 처리하고 통찰력을 얻는 데 충분하지 않습니다 특정 도구가 추세인지 또는 기존 도구를 사용하여 검색하는지 또는 시간이 오래 걸리므로 결과가 의미가 없을 수 있으므로 실시간이 필요합니다 특정 지점에서 필요한 특정 데이터의 계산 또는 검색 시간

그리고 검색이 느리고 그렇지 않은 전통적인 RDBMS 작업 많은 응용 프로그램에 유용합니다 그래서 우리는 과정 의이 특정 부분, 치료법 또는 해결책을 볼 것입니다 이 정보를 저장하고 훨씬 더 빠르게 검색을 제공하는 것과 관련하여 빅 데이터 최고 이런 종류의 빅 데이터에 대한 분석을 수행 할 수있는 속도와 최신 방법 번개 같은 속도 그래서 도전 과제는 여기에 요약되어 있습니다 다른 응용 프로그램의 빅 데이터는 캡처, 저장, 검색, 공유, 분석, 그리고 시각화 따라서 IBM과 Gartner는 빅 데이터에 3 개의 서로 다른 3V가 있다고 생각합니다

빅 데이터의 특성은 이러한 다른 3V로 제공됩니다 여기에서, 설명을 얻거나 설명했거나 IBM도 3 개의 가장 중요한 3V를 고려했습니다 빅 데이터를 특징 짓는 V는 볼륨, 속도, 다양성입니다 이것들은 무엇입니까? 이 특정 데이터를 빅 데이터로 어떻게 의미할까요? 따라서 이러한 특정 기능의 특성, 즉 부피, 속도 및 다양성은 데이터를 빅 데이터로 특성화 할 것입니다 우리는 그것이 크기, 즉 페타 바이트를 넘어서는 볼륨이라고 말합니다

우리는 이미 그 크기가 있다면 기본적으로 빅 데이터에 들어가는 것을 보았습니다 도메인과 마찬가지로 다양한 수단을 말하면 데이터는 텍스트뿐 아니라 데이터이지만 이미지, 비디오, 3D 개체 등의 형태로 기본적으로 제공됩니다 크기뿐만 아니라 다른 차원의 데이터 다양성도 있습니다 복잡성 so, 기본적으로 속도라고하는 다른 차원은 생성되는 데이터를 탭핑하고 처리해야하는 비율입니다

따라서 이것은 속도 또는 속도가됩니다 따라서 세 가지 방법은 함께 기본적으로 데이터를 빅 데이터로 특성화합니다 따라서 빅 데이터는 거래 형태, 상호 작용 형태 또는 형태 관측치 또는 함께 데이터 세트 인 큰 크기의 데이터 생성 분석해야합니다 여기서 우리는 빅 데이터, 그들이하고있는이 빅 데이터를 사용하는 시나리오라고 말할 수 있습니다 전체 중심, 고객 중심에 대한 더 많은 통찰력을 이해하기위한 감정 분석 정서 인 기업, 정서가있을 때 정서에는 두 가지 유형의 정서가 있습니다

개별 감정, 즉 비즈니스가 기본적으로 특정 대상을 대상으로하는 경우 개별 또는 기본적으로 전체 고객 기반 개별적이지 않지만 전체 인구와 기업은 감정을 이해하고 새로운 계획을 세우려고 노력하고 있습니다 기본적으로 가능한 비즈니스 따라서 RFD, RFID 및 다른 장치와 마찬가지로 센서는 서로 다른 많은 것을 생성합니다 데이터와 마찬가지로 사용자 클릭 스트림도 많은 데이터를 생성합니다 이러한 특정 데이터는 모바일 웹과 실시간으로 분석되어 다양한 통찰력을 얻습니다

예를 들어, 스마트 도시 또는 기본적으로 교통 상황을 이해하기 위해 재난을 처리합니다 예를 들어, 한 곳에서 화재가 발생하거나 트리거되는 경우 화재가 발생합니다 따라서 재난이라고하는 것은 통제되어야합니다 따라서 이러한 모든 분위기는 내부 분위기가 얻어 져야한다는 것을 의미하며 더 좋습니다 지역 사회 또는 기본적으로 대중에게 봉사

이것이 바로 빅 데이터가 여기에있는 이유이며 매일 인기가 높아지고 있습니다 이제 이러한 특성에 대해 자세히 살펴 보겠습니다 따라서 빅 데이터의 첫 번째 특성은 볼륨이라고하며 이는 아무것도 아닙니다 규모 따라서 기업은 기본적으로 모든 유형의 데이터를 성장 및 생성하고 크기는 일반적으로 테라 바이트를 넘어 서면 큰 볼륨으로 분류되며 기본적으로 빅 데이터와 계산을 위해 다른 기술이 필요합니다 예를 들어, 매일 생성되는 12 테라 바이트의 트윗이 있고 어떤 트윗이 감정 분석을 위해 분석해야합니다

따라서 때로는 큰 데이터입니다 분석을 위해 스마트 미터에서 연간 3,500 억 건의 연간 미터 값을 전력 소비를 다시 예측하여 볼륨이 관련된 큰 데이터 문제가 됨 빅 데이터 문제로 과매도 그리고 Applications, 여기서 우리는 그 특정의 양이 44 배 증가한다는 것을 알 수 있습니다 빅 데이터는 2009 년 2020 년부터 증가하고 있으며 08 제타 바이트에서 235 제타로 증가하고 있습니다 바이트

따라서 데이터 양이 기하 급수적으로 증가하고 있으며 빅 데이터 플랫폼이 필요합니다 이 특정 고려 사항에 사용됩니다 대량의 데이터를 생성하는 또 다른 예는 CERN의 Large Hadron Collider입니다 여기서 15 페타 바이트의 데이터가 생성됩니다 빅 데이터를 생성하는 또 다른 소스는 Aarthi 범위이며 여기에서 67 테라 바이트의 데이터 생성 및 분석 중 이제이 순서의 다음 특성은 속도, 즉 속도라고합니다

때로는 2 분이 너무 늦습니다 기본적으로 신발은 여기에 시간이 하나의 요소이며 모든 것이 특정 시간과 계산의 특정 측면 내에서 수행 이를 실시간으로 생성되는 데이터를 의미하는 속도라고합니다 다양한 목적에 대해 분석하고 이해합니다 예를 들어, 온라인 거래의 사기를 원한다면 전체 거래 거래가 사기 거래인지 아니면 거래인지를 분석하고 감지해야합니다 그것은 그 속도로 정상적인 거래입니다

따라서이 특정 시나리오에서는 빅 데이터가 스트림 데이터를 사용해야합니다 따라서 속도는 기본적으로 흐르는 특정 데이터의 스트림입니다 응용 프로그램에서 분석되고 사용되어야하는 응용 프로그램 우리는 매일 5 백만 건의 무역 행사를 면밀히 조사해야합니다 실시간으로 5 억 개의 일일 통화 세부 정보를 분석하는 잠재적 사기 고객 이탈을 더 빨리 또는 덜 보호합니다 따라서 이러한 종류의 응용 프로그램은 현재 다른 회사 나 조직을 주도하고 있습니다

고객을 유지하고 향후 비즈니스를 운영 할 수 있습니다 따라서 빅 데이터의 이러한 측면은 또한 매우 필요하고 볼륨과 속도가 함께,이 빅 데이터 계산에서 도전을 만들고 있습니다 우리는 이미 속도로 표시되는 데이터가 내가 생성 한 것을 의미한다는 것을 이미 알고 있습니다 매우 빠른 속도로 그 속도로 처리해야합니다 자,이 속도의 또 다른 사용은 온라인 데이터 분석에 관한 것입니다 또는이 분석을 수행 할 경우 비율로 인해 기회가 누락 될 수 있음을 의미합니다

이러한 작업은 실시간으로 수행되며 일부 마감 시한은 실시간으로 처리됩니다 그 결정은 쓸모가 없습니다 따라서 늦은 결정은 빠진 기회를 사용하며 이는 속도가 해당 응용 프로그램에 적용됩니다 따라서 이러한 사례의 예로는 E 프로모션 및 건강 관리 모니터링과 같은 곳이 있습니다 센서는 당신의 활동과 신체를 모니터링하고 있으며 비정상적인 측정 : 즉각적인주의 또는 반응이 필요합니다

따라서 이것은 실시간 또는 기본적으로 첫 번째 데이터를 제공 할 것입니다 네트워크가이 특정 차원에 기여하고 있으며 캡처되었지만 과학에 대한 모든 데이터와 유사하게 실시간으로 계산해야 함 모바일 기기, 센서 기술 및 네트워크 장비 따라서 이것은 실시간 인 이런 종류의 차원을 요구할 것입니다 분석 또는 의사 결정 따라서 고객 중심의 결정을 내려야하는 대부분의 비즈니스에서 제품 추천을 제공하고 고객이 기본적으로 만드는 이유를 배우기 위해 또는 그 사업을 중단하거나 친구 초대를 보내어 함께 참여하는 방법, 기본적으로 더 많은 비즈니스를 얻는 것과 비슷한 방식으로 사기? 그리고 마케팅을 개선하는 방법? 고객의 행동이나 감정을 이해하는 것은 모든 고객 중심이며 실시간 분석을 수행하면 비즈니스를 운영하는 매우 좋은 방법이 될 것입니다 모든 비즈니스는 기본적으로 고객 중심으로 이루어져야합니다

따라서 실시간 분석이 매우 필요하며 의사 결정이 사용되고 있습니다 다음 측정 기준을 다양성이라고하며 X를 다른 수준의 광고에 적용합니다 복잡성 따라서 다양성은 데이터를 의미합니다 빅 데이터는 한 형태가 아니라 여러 형태의 형태입니다

예를 들어, 기본 데이터가 호출 될 때 구조화 된 데이터로 구성됩니다 테이블 형태로 저장된 데이터가 인식된다 구조화되지 않은 데이터라고하는 테이블이나 양식에 완전히 저장할 수없는 구조화되지 않은 데이터 기본적으로 텍스트 센서 데이터 오디오 및 비디오 인 data 다양한 유형의 구조화 된 데이터로 불릴 수없는 데이터 유형 데이터가 구조화되지 않습니다 반 구조화는 예를 들어 XML입니다

따라서 XML 형식으로 캡처 된 웹 데이터는 반 구조화 된 데이터를 형성합니다 이러한 다양한 다양성, 구조화, 비 구조화 및 반 구조화 데이터는 기본적으로 빅 데이터가 복잡하기 때문에 다양성이라고합니다 빅 데이터에 대한이 다양한 차원의 예는 나오는 데이터입니다 실시간 데이터, 트랜잭션 테이블 및 레거시 데이터 중 텍스트 데이터 웹에 있고 캡처 된 XML 데이터 인 반 구조화 된 데이터에 있습니다 웹, 소셜 네트워크 데이터 시맨틱 웹, 스트리밍에 불과한 그래프 데이터 데이터는 한 번만 스캔 할 수 있으며 온라인으로 제공되는 공개 대규모 공개 데이터 날씨 데이터 또는 재무 데이터 등 서로 다른 다양한 데이터 빅 데이터 계산에있어 다른 복잡성을 더할 수 있지만, 결정에 매우 많이 필요합니다 조직으로 만들기

따라서 이러한 다양한 데이터 중에서 지식을 추출하면 이러한 모든 유형의 데이터가 서로 연결되거나 서로 관련이 있어야하며이 중 의미있는 통찰력을 얻을 수 있어야합니다 관련 이벤트 또는 활동 따라서 여기서 우리는 테라 바이트를 의미하는 데이터 인 볼륨을 요약 할 수 있습니다 또는 기존 데이터의 엑사 바이트 (exabyte)까지 처리해야하며 이것이 V가됩니다 즉, 빅 데이터의 3 개의 V, 빅 데이터의 3 개의 V 중 하나입니다

두 번째는 볼륨 또는 속도라고하며, 속도는 모션에이 특정 데이터를 스트리밍 데이터라고하며 기본적으로 응답하는 시간 (밀리 초에서 초까지) 및이 속도가 제약 조건 인 경우 데이터가 첫 번째 데이터라고하는 속도가됩니다 세 번째 유형의 데이터, 세 번째 유형의 특성이 있습니까? 그만큼 다양성은 데이터가 여러 형태, 즉 구조, 비정형 및 반 정형, 즉, 데이터는 텍스트 멀티미디어 형태이므로 다양한 데이터가됩니다 네 번째는 세 가지 중 하나를 의미합니다 우리가 이것을 취하면 하나 더 속도라고합니다 따라서 Velocity는 의심의 여지가있는 데이터, 즉 불확실성이 포함 된 데이터를 의미합니다

불일치, 완전성, 대기 시간, 속임수에 대한이 X는 큐레이터되어야합니다 데이터에서 사용될 내용보다 먼저 따라서이 정확성은 기본적으로 다음과 같은 종류의 오류, 소음 및 불확실성입니다 데이터에 존재하는 데이터를 처리해야합니다 그리고 밸리 DT와 같은 더 많은 V가 있으며, 따라서 그 특정 시간이 데이터는 유효성, 가변성 및 점도, 변동성, 생존력을 나타낼 때 당신은 어휘, 모호함,이 모든 것, 더 많은 V를 더할 것입니다 그래서 3이 아닙니다

V는 빅 데이터이지만 n 개의 영화가 있습니다 이제 가장 중요한 V와이 부분에서 논의 할 V를 요약하겠습니다 물론 다음과 같습니다 즉, 빅 데이터를 의미합니다 빅 데이터의 첫 번째 중요한 특징은 볼륨입니다

크기 측면에서 차원 측면의 복잡성, 두 번째는 다양성이라고하며 추가됩니다 빅 데이터에 측정 기준을 추가 할 첫 번째는 빅 데이터에서 크기라고하는이 측정 기준을 추가하려고합니다 두 번째 차원을 복잡성이라고합니다 이것은 빅 데이터의 차원이기도합니다 다양성의 관점에서

그래서 제가하는 일은 계속 복잡성을 더할 것이므로 다양성은 또 다른 차원입니다 따라서 이러한 다양한 복잡성은 다양한 데이터로 인해 발생합니다 필요한 경우 속도 측면에서 3 차원이 제공되며 속도 속도와 관련된 속도는 다른 차원과 차원은 빅 데이터 계산에서 더 복잡해집니다 마지막으로 원자가는 원자가가 가을을 의미하며 화학에서 추출됩니다

즉, 데이터가 연결 될수록 폭력성이 높아집니다 따라서 연결성은 빅 데이터에 차원을 한층 더 추가 할 것입니다 그렇다면이 연결성이 중요한 이유는 무엇입니까? 머신 러닝 알고리즘을 설계하고 데이터가 덜 연결되어 있으면 기계 학습 알고리즘보다 잘 작동하지만 데이터가 더 연결되어 있으면 머신 러닝 알고리즘은 새로운 방식으로 다시 방문해야합니다 기계 학습 알고리즘이 필요한 경우가 있습니다 따라서 기본적으로 빅 데이터의 다양한 특성에 따라 달라집니다 기술인 분석이 수행되어야하고, 다시 개정 된 수단이 필요하다

이러한 복잡성은이 빅 데이터를 처리 할 때 매우 중요합니다 마지막으로 또 다른 다공성은, 많은 소음과 함께 많은 소음이 존재한다고 말했듯이 불완전 성, 불일치, 데이터 및이 특정 데이터 그것은 분명히 결정의 질이 떨어질 것입니다 그래서 이것은 차원입니다 데이터를 치료해야하는데 품질 데이터가 필요했기 때문에 결정은 정확하고 정확한 의사 결정에도 도움이됩니다 이것은 기본적으로 특성이 다른 차원의 복잡성을 추가합니다

계산 또는 Anneli 또는 데이터 분석에서 빅 데이터 분석은 이러한 복잡성을 해결하기 위해이 부분에서 이러한 모든 측면을 살펴 보겠습니다 물론 이러한 모든 차원의 중심에있는 이것들은 마지막에이 특정한 다른 특성을 사용한다는 의미입니다 그리고 그들의 치수는 마침내 그로부터 어떤 가치를 추출하기 위해 어떤 가치를 얻어야합니다 특히 빅 데이터이며 응용 프로그램에 유용합니다 그래서,이 가치는 왜 그렇지 않으면 가치를 주어야 하는가? 이 데이터 빅 데이터는 점점 더 중요 해지고 있습니다 따라서 최종적으로 가치가 창출 될 것이며 다양한 응용 분야에서 사용될 것입니다

따라서 가치는 이러한 다른 차원이나 특성을 통합하여 도출됩니다 그 특정 데이터 예를 들어 때로는 데이터 복잡성을 줄이고 데이터 가용성을 높이고 데이터 스트림을 통합하면 위의 모든 데이터 협업이 증가합니다 또한 빅 데이터에 가치를 더할 것입니다 따라서 가치를 더하는 가치는 다른 데이터에 대한 빅 데이터에서 가치를 추출합니다

응용 프로그램은 중심이나 중심에있을 것입니다 이제 특성에 대해 더 자세히 살펴 보겠습니다 이를 속도라고합니다 따라서 진실성은 편향 또는 소음 또는 이상을 의미합니다 데이터 및 기본적으로 때때로 데이터의 신뢰성에 대한 의구심

예를 들어, 비즈니스 리더 3 명 중 1 명은 자신이 사용한 정보를 신뢰하지 않습니다 결정을 내립니다 예를 들어 특정 사람이 연령을 묻는다고 말하면 사람이 잘못된 나이를 주므로 기본적으로 이것은 소음이나 때로는 사람들은 나이를 지정하지 않고 때로는 나이가 중요 할 경우 결정 특정 비즈니스에서 기본적으로이 특정 측면은 진실로 그렇다면 정보를 믿지 않으면 어떻게 정보를 활용할 수 있습니까? 예를 들어 누군가가 잘못된 연령 정보를 제공하고 그 정보에 따라 행동하면 정확하지 않을 것입니다

따라서 진실성은 중요한 요소가 될 것이며 결정에 영향을 미치므로, 데이터의 품질이 그렇게 보장되므로 빅 데이터에 대한 신뢰가 확립됩니다 이러한 소스의 다양성과 수가 증가함에 따라 큰 도전이되고 있습니다 또 다른 특성은 원자가라고도하며 종종 빅 데이터 예를 들어 네트워크 그래프 형태의 그래프는 그래프의 밀도는 밀도가 낮습니다 따라서 알고리즘에는 서로 다른 분석이 적용됩니다 다른 역동적 인 상황, 다양하고 원자가는 그 측면에서 유용 할 것입니다

다음으로 우리는 유효성, 즉 데이터의 정확성과 정확성을 특정 용도로 따라서 특정 유스 케이스에 따라 정확성과 정확성 인 유효성이 결정됩니다 데이터 중 유용한 것입니다 예를 들어, 품질 대 소셜 미디어를 예측하기위한 상상의 위성에서 포스트, 인간의 영향이 중요한 부분이 될 것입니다 우리는 빅 데이터의 이러한 특성에 대한 더 많은 유스 케이스 또는 예제를 보게 될 것입니다

특성을 가변성이라고합니다 즉, 데이터의 의미가 어떻게 바뀌는 지 시각? 또한 속도와 관련된 점도 및 휘발성 특성도 있습니다 점도는 연구중인 이벤트의 시간 척도에 대한 데이터 속도입니다 변동성은 데이터 손실률과 데이터의 안정적인 수명을 의미합니다 비자가 많고 어휘 수단, 구조를 설명하는 메타 데이터, 모호함은 특정 애플리케이션에서 빅 데이터가 무엇을 의미하는지에 대한 혼란입니다

해당 응용 프로그램에 대해 이제 다가올 방법은 무엇입니까? 이러한 특성과 복잡성 주위에,이 다른 특성은있는 경우에 큰 데이터 그래서 경우 볼륨 큰 경우 데이터를 병렬로 계산할 수있는 방법을 개발해야합니다 이 특정 빅 데이터를 증류하여 해당 정보의 요약을 얻습니다 이 특정 데이터를 어떻게 처리해야합니까? 즉, 그는 형식, 표준, 구조가 무엇입니까? 그리고이 모든 것을 다루는 측면 에서이 모든 것이 가르쳐 질 것입니다

마찬가지로 빅 데이터의 활용에 대한 한 가지 방법은 더 일찍 전통적인 접근 방식은 모든 회사가 데이터베이스를 가지고 있던 운영 데이터베이스를 사용하는 것이 었습니다 고객의 이름과 모든 세부 사항이 저장된 위치 그렇기 때문에 관계형 데이터베이스가 매우 강력 해지며 처리 할 많은 고전적인 기술을 개발했으며이를 OLTP라고합니다 다음 단계는 OLAP이라는 또 다시 전달되었습니다 그리고 이것은 데이터웨어 하우스를 다룹니다 다른 데이터베이스에서 지팡이를 가져 와서 관련 정보를 가져 와서 데이터를 형성합니다 요즘 결정을 내리기위한 창고, 우리의 탭이며 여기에 데이터 스트림의 형태로, 즉 데이터가 작동 중이며 호출되어야합니다

의미있는 통찰력을 추출하려면 스트림 계산을 적용해야합니다 RTAP는 비즈니스, 응답 및이를 개선하기위한 실시간 분석 처리라고합니다 최신 트렌드이며 빅 데이터에서 스트림 계산에 대해 살펴 보겠습니다 따라서 OLTP는 온라인 거래 처리를 의미하며 DBMS 및 OlAP 날짜와 관련이 있습니다 데이터웨어 하우징 및 RT AP를 다루는 온라인 분석 처리를 나타냅니다

빅 데이터 아키텍처를 처리하는 실시간 분석이라고하는 기술 따라서 경쟁 모델이 상당히 변하고 있음을 알 수 있습니다 모델 인 경우 DBMS, OLTP 및 OLAP를 기반으로하는 경우 이전 모델이었으며 새로운 모델은 실시간 데이터를 기반으로합니다 이는 우리 모두가 데이터를 생성하고 있음을 의미합니다 우리 모두가 데이터를 소비하는 것은 데이터를 소비하고 있습니다

따라서 새로운 모델이 필요하며 다른 비즈니스, 의사 결정에 통합되어야합니다 해결책을 찾기 위해이 특정 그림을 보면 입니까? 빅 데이터의 원동력은 무엇입니까? 추가 개발과 연구 및 사용 사례는 여기에 표시되어 있습니다 비즈니스 인텔리전스 였음을 의미하는 그림, 우리는 smotret의 가치입니다 복잡성도 적당했지만 요즘에는 예측 분석과 여기에서 데이터 마이닝, 최적화 및 예측 분석은 쉽지 않으며 계산이 필요합니다 빅 데이터의 그리고 실시간으로 이루어져야합니다 이제 모든 복잡성이 존재하고 예측이라는 분석이 비즈니스 분석, 비즈니스 분석, 인텔리전스의 분석 및 초기 분석 규범적이고 서술적인 분석을 사용하지만 오늘날에는 예측 분석을 사용합니다 실시간 또는 스트림 계산 처리가 필요한 큰 데이터 세트

따라서 빅 데이터 분석은 이러한 다양한 비즈니스를 주도하고 있으며 통찰력이 필요합니다 우리는이 과정에서 다루어야 할 빅 데이터 계산에 대해 설명합니다 그렇다면 빅 데이터를 본다면 어느 것이 움직이고 있습니까? 따라서 빅 데이터는 먼저 첫 번째 데이터, ETL 및이 모든 것입니다 우리는 이미 보았고, 다른 빅 분석 빅 데이터 분석을 제공합니다 도구? 어떤 것이 있습니까? 빅 데이터 기술을 기반으로하는 것은 무엇입니까? 그리고 오늘날보다 심층적 인 통찰력, 다양한 머신 러닝 및 예측 분석을 얻을 수 있습니다

우리가 보게 될 빅 데이터에 적용됩니다 이제 이런 종류의 의미는 이제 분석, 분석, 요구, 컴퓨팅을위한 기술입니다 테라 바이트, 페타 바이트, 엑사 바이트 및 제타 바이트 측면에서 볼 때 엄청난 양입니다 이번 강의에서 우리는 빅 데이터를 정의하고 도전 과제와 다양한 빅 데이터의 응용 프로그램, 우리는 또한 특성에 대해 더 자세히 설명했습니다 빅 데이터와 빅 데이터의 가장 중요한 세 가지 특성, V는 우리가 체적 속도와 다양성 인 아주 자세하게 다루었습니다 또한 우리는 빅 데이터를 중심으로 진화하는 다른 V도 보았습니다

시간이 지남에 따라이 특정 빅 데이터 영역이 더욱 성숙해집니다 우리는 빅 데이터 분석에 대해서도 조금 보았습니다 우리가 방금 만졌던 빅 데이터 환경과 다양한 용어 및 기술 에 고맙습니다

Hive Tutorial | Hive Architecture | Hive Course For Beginners | Intellipaat

안녕하세요, Intellipaat의이 세션에 오신 것을 환영합니다 그래서, 이것들이 어떻게 궁금해 한 적이 있습니까? 거대 IT 조직은 데이터를 저장합니다

이 조직들은 다른 트랜잭션 데이터를위한 Oracle과 같은 데이터베이스, 제품을 저장하기위한 MYSQL 다른 작업에 대한 데이터 및 기타 여러 가지 따라서 데이터 저장만으로는 충분하지 않습니다 사용 가능한 데이터를 분석하고 의미있는 통찰력을 추출해야합니다 고객 행동을 이해하기 위해 그래서, 조직은 하둡을 사용하기 시작했습니다 2006 년 Facebook은 Oracle에서 전환 SQL 쿼리를 사용하여 데이터베이스를 Hadoop으로 처리하는 데이터베이스 MapReduce 만 이해합니다

그래서 이것은 그들에게 중복 작업이되었습니다 데이터베이스를 처리하십시오 그래서 그들은 SQL을 변환 할 수있는 인터페이스가 필요했습니다 MapReduce 프로그램에 쿼리하여 클러스터에서 실행하고 결과를 표시합니다 이것이 Hive가 그림에 나오는 곳입니다 그것은 페이스 북에 의해 만들어진 인터페이스입니다 SQL 쿼리를 MapReduce 프로그램으로 변환합니다 이 세션에서 우리는 Hive를 포괄적으로 배울 것입니다

계속 진행하기 전에 채널 구독자와 다가오는 비디오를 놓치지 않도록 벨 아이콘을 누르십시오 또한 Big Data Hadoop에서 인증 된 전문가가되기를 원합니다 intellibid의 Big Data Hadoop 인증 과정을 제안하십시오 건축가 포스트 이제 우리가 시작할 의제를 한 번 살펴 보겠습니다 과대 광고가 무엇인지 이해하면 MapReduce와 그 후에는 서로 다른 유형의 차이점을 살펴 보겠습니다

과대 광고의 기능을 살펴본 다음 과대 광고 인터페이스로 넘어갑니다 광고로 이동하면 파티션과 색인이 하이브로 표시되고 마지막으로 우리가 당신을 도울 의견 섹션에 모든 질문을 아래로 많은 지연없이 클래스와 함께 시작하자 파이프의 요구 사항 당신은이 사람이 DBMS라고합니다 그래서 당신이 있다고 가정 해 봅시다 내 속편을 사용하면 MS와 Microsoft가 같다고 가정 해 봅시다 바로 후편이며 오라클도 보유하고 있으므로 조직에서 지금 세 개의 데이터베이스를 사용하는 이유 그중 세 가지를 사용하면 트랜잭션을 위해 Oracle을 사용하고 있을지 모르겠습니다 당신이 지불을 알고있는 데이터 Exeter 나가기 진입로에서 내 속편을 사용하고있을 것입니다 제품 카탈로그 excetera 다른 사용자를 위해 Microsoft 속편을 사용하고있을 수 있습니다 목적에 따라 실시간으로 3 개의 데이터베이스가 있다고 가정합니다

데이터베이스는 이제이 사람들을 DBMS 또는 데이터베이스라고하며 그들에게 OLTP라는 이름이 있습니다 그들은 이제 온라인 거래 처리 시스템입니다 이것이 너무 기본적이라는 것을 알지만 나는 단지 당신에게 아이디어를 주려고 노력하고 있습니다 조직에는 여러 개의 OLTP 시스템이 있으며 충성도 P 시스템을 부를 수도 있습니다 전 세계에 배치 된 관리자가 귀하에게 와서 그래서 저는 직원입니다

제 이름은 Raghu입니다 Raghu 우리가하고 싶은 우리가이 모든 것에서 데이터를 수집하려는 것을 알고있는 것 데이터베이스를 작성하고 멋진 보고서를 작성하고 CEO에게 보여주고 싶습니다 무료 휴일을 보내서 좋은 보고서와 함께 내 CEO에게 깊은 인상을 남길 수 있도록 무료 휴가를 받으시거나 급여 인상을 받으실 수도 있습니다 이 시스템의 모든 데이터를 제자리에 넣고 실제로 그것을 지금보고하십시오 당신은 비즈니스 인텔리전스 녀석으로 알려진 녀석이 있습니다 비즈니스 인텔리전스는 데이터를 얻고 이해하는 부분입니다 파이 다이어그램을 아는 멋진 차트를 만들 수있는 모든 유형의 데이터 비즈니스 인텔리전스를 사용하여 성공을보고하십시오

BI 도구가 많이 있습니다 예를 들어 펜타 호 바이는 많은 도구를 알고 있습니다 괜찮아 생각 했으니 한 가지만하겠습니다 좋은 보고서와 모든 것을 만들 수있는 비즈니스 인텔리전스 도구 Oracle에 설치하고 Microsoft sequel에도 도구를 설치하겠습니다 내 속편 세 데이터베이스 모두 있지만 이것이 왜 그렇지 않은지 이해가되지 않습니다

모든 데이터베이스가 실시간 데이터베이스임을 알기 때문에 의미가 있습니다 그렇기 때문에 OLTP라고 부르며 고객에게 실제 서비스를 제공하고 있습니다 시간 나는이 데이터베이스에 불필요한로드를 원하지 않기 때문에 설치하면 그 위에보고 도구를 사용하여 데이터를 파기 시작하십시오 이 데이터베이스의 성능에 영향을 줄 수 있으므로 그렇게하고 싶지 않습니다 내가하는 일은 방에있는 코끼리를 데려 오는 것입니다

데이터웨어 하우스를 DW라고 부르며 OLAP 또는 온라인 분석 처리 시스템을 통해 ETL을 사용하여 데이터웨어 하우스에 DBMS 시스템이 있으므로 기술적으로 발생하는 것은 ETL 도구 사용하기 ETL은 변환로드를 추출하여 AR DBMS 시스템을 신속하게 데이터웨어 하우스라고하는 장소에 덤프 인증 된 Big Data Hadoop 아키텍트가되고 싶다면 telepath는 모든 Big Data Hadoop 설계자 과정을 제공합니다 자세한 내용은 아래 설명을 확인하십시오 이제 세션을 계속하겠습니다 데이터웨어 하우스는 실제로 멋진 용어입니다 멋진 용어가 아니라 기술 용어입니다

데이터웨어 하우스 란 데이터가 아닙니다 창고는 방대한 양의 데이터를 먼저 저장하는 장소입니다 포인트 번호 1 포인트 번호 2이 데이터는 액세스 준비가되어 있습니다 내 bi 도구에 bi가 있으면 내 컴퓨터에 직접 설치할 수 있습니다 데이터웨어 하우스와 훌륭한 보고서 전문가 등의 데이터와 데이터를 생성 할 수 있습니다 창고는 회사 내부에 있으며 공개 액세스 권한이 없습니다

이것은 개인 스토리지이기 때문에 모든 데이터를 수집하고 덤핑합니다 이 녀석으로이 녀석이 전체 데이터를 보유하고 있습니다 아주 간단한 조직이 내 데이터를 원합니다 이것은 꽤 오랫동안 당신이 알고있는 엔터프라이즈 조직에 간다 그들은 계속해서 수집하는 여러 OLTP 시스템을 갖게 될 것입니다 매일 밤 cron 작업 또는 원하는 모든 데이터를 데이터로 덤프 웨어 하우스는 지금 데이터웨어 하우스가 이력 데이터를 보유하므로 과거 데이터가 있음을 의미합니다 올해 데이터가 손실되었습니다 작년에는 많은 데이터를 알고 있고이 데이터를 통해 할 수있는 데이터 데이터웨어 하우스는 원하는 분석이 매우 간단하므로 분석 할 준비가 된 방대한 양의 데이터 저장 당신이이 일에 대한 공개 접근권을 말하면 데이터웨어 하우스의 플레이어에는 많은 회사가 있습니다

테라 데이터라는 사람이 있습니다 또한 corracle XR 데이터를 가지고 있습니다 이들은 모든 데이터웨어 하우징 회사입니다 si P Hannah Hannah Netezza greenplum 추가 트랙은 모두 데이터입니다 웨어 하우징 회사를 조직에서 구현하려는 경우 데이터웨어 하우스는 데이터가 있다고 말하고 내 데이터웨어 하우스를 구현하려는 데이터를 알고 있습니다

Tara 데이터에 따르면 이걸 가져 가서 실제로 회사에 설치하는 상자와 같은 라인을 그런 다음 데이터를 저장 한 데이터로로드하여 질문을 왜 내가 이것에 대해 이야기하고 있습니까?이 C에 대한 큰 문제는 무엇입니까? 이것에 대해 다루지 만 지금까지 내가 논의한 것은 세상이 어떻게 지금 일하면 모든 것이 여기에 좋아 보입니다 우리는 데이터를웨어 하우스에 덤프하여 보고서를 훌륭하고 행복하게 만들지 만 한 가지 중요한 문제는 문제는이 달러 달러 달러 돈 돈입니다 문제는 비용 측면 데이터웨어 하우징은 비용이 많이 드는 일입니다 예를 들어 Tara 데이터 솔루션을 구현하려는 경우 정직합니다 실제로 말하기에는 수백만 달러의 비용이 듭니다 또한 데이터웨어 하우징에서 일하는 사람들은 그렇게 싸지 않습니다 배경은 이것에 대해 논평 할 수있을 것입니다

그러나 그들은 그들의 주택이 있습니다 비용이 많이 드는 사건이므로 우리가 지금 이야기하고있는 역사가 들어갑니다 여기 허들 클러스터가 있습니다 조직에 하둡 클러스터가 있습니다 조직은 이미 하둡 클러스터를 가지고 있습니다 하둡 클러스터는 분명히 빅 데이터를 저장할 수는 있습니다

2006 년 어딘가 페이스 북이라는 회사가 하둡에 관심을 보인 페이스 북은 기본적으로 페이스 북이 있던이 큰 데이터 문제를 처리했다 2005-2006 등의 성장 단계 등 Facebook이 많이 증가하고 있음을 알고 있습니다 그 시점에서 사용자와 페이스 북은 당신이 무엇을 알고 생각 모든 것이 잘 작동하지만 실제로 큰 저장을위한 솔루션이 없습니다 데이터 및 빅 데이터 분석 및 Facebook은 Oracle Oracle에서 완전히 실행되었습니다 실제로 주요 백엔드 였고 Python Python plus Oracle이었습니다 페이스 북의 초기에 당신은 2006 년 어딘가에서 건축을 알고 있습니다 누군가 페이스 북에 왜 당신이 왜 그렇게 걱정하는지 알고 있습니다 데이터 저장 시장에는 하둡이라는 새로운 것이 있습니다

하둡 클러스터를 구현하면 사실상 무제한 데이터를 저장할 수 있습니다 하둡은 당연히 빅 데이터를위한 솔루션이므로 Facebook은 이 아이디어와 그들은 즉시 하둡 클러스터를 구현했습니다 실제로 페이스 북이 저장하고 분석 한 전체 데이터를 말하기 그들은 하둡으로 옮겼지만 2006 년에 어떤 문제가 있었습니까? 하둡 버전 강 또는 오래된 하둡 또는 원래 하둡에서 강 원래 Hadoop에 MapReduce 만있는 것이 무엇인지 알고 있습니다 Hadoop 클러스터의 데이터와 상호 작용할 수있는 유일한 방법은 MapReduce 프로그램을 작성하십시오 MapReduce를 작성해야합니다

페이스 북에 문제가되었습니다 매일 페이스 북 때문에 프로그램 Facebook의 요구 사항이었던 70,000 개의 쿼리 후속 쿼리를 실행해야했습니다 매일 데이터에 대해 7 만 건의 속편 쿼리를 실행해야했습니다 비록 그들이 느릴지라도 그들이 Oracle을 가질 때 일하고 있었다 오라클은 쉽게 작성할 수있는 전형적인 DBMS이기 때문에 어떻게 든 관리 할 수 ​​있습니다 7 만 건의 쿼리가 갑자기 전체 데이터가 하둡은 더 이상 오라클이 아니기 때문에 페이스 북 개발자들은 심각한 문제에 직면했다 문제는 광고가 이제 데이터가 Hadoop에 있고 Hadoop이 끝이 아닌 속편 이해 Hadoop 속편 이해 Hadoop은 MapReduce를 이해하고 MapReduce를 작성하려는 경우 당신이 해야하는 프로그램을 작성해야 자바를 배워야하는 프로그램 컴파일하면 jar 파일이 생성됩니다

속편이라면 쉽지 않습니다 개발자는 Java를 배우는 것이 당신을 위해 너무 재미있을 것이라고 믿습니다 속편 개발자 여러분, 우리는 속편쪽에 대해 더 많이 알고 싶어합니다 우리가 실제로 프로그래머가 아닌 스펙트럼은 갑자기 직원들과 페이스 북은 그들이 어제 우리의 속편 쿼리는 오늘 후속 쿼리 나는 무슨 일이 있었는지 쿼리를 실행할 수 없습니다 그래서 페이스 북은 당신에게 말했다 우리가 방금 모든 것을 하둡으로 옮겼습니다 Hadoop에서는 속편 쿼리를 실행할 수 없거나 우리가 할 수 없습니다

후속 쿼리를 실행하는 대안은 대안을 작성하는 것이 었습니다 속편 쿼리에 대한 MapReduce 프로그램이며 실제로는 광기입니다 간단한 선택 카운트 스타 쿼리를 위해서는 수백 줄의 코드를 작성해야합니다 자바를 컴파일하고 70,000 개의 쿼리를 상상해보십시오 그들은 우리가 해결책을 필요로한다고 생각했습니다 하둡에는 많은 구조 데이터가 있지만 불행히도 개발자는 그렇지 않습니다 우리가 할 수있는 데이터에 접근 할 수 있고이 하이브는 나중에 페이스 북에 의해 생성 그들은 최상위 레벨로 아파치에 하이브를 기부했다 프로젝트이지만 첫 번째 하이브 버전은 Facebook에서 출시되었으므로 다음 큰 정확히 무엇이 높은지 질문하십시오

데이터를 저장하고 있다고 상상하십시오 하둡 구조 데이터 저장은 영업이라는 데이터를 저장한다고 가정 해 보겠습니다 dot txt sales라고하는 텍스트 파일 dot txt이 텍스트 파일에 쉼표로 구분 된 값을 알고있는 구조는 주문 번호 제품 ID가 있습니다 blah blah blah 당신은 그것이 매우 큰 파일이라는 것을 알고 있습니다 이 파일을 분석하려면 실제로 하둡에 저장하십시오

MapReduce 프로그램을 작성하거나 지금 설치할 수있는 것은 안녕하십니까? 가장 높은 명령 행에 속편을 작성하는 쉘 또는 명령 행을 제공하십시오 바로이 테이블에서 카운트 스타를 선택하면 높은 속편을 씁니다 명령 줄 적중 반환 의미를 사용하여 쿼리를 실행하십시오 쿼리를 MapReduce 프로그램으로 변환하여 클러스터에서 실행하고 표시합니다 당신은 높은 결과는 속편 인터페이스 자신의 hadoo이며 그것은 아파치 hadoop 위에 기본 데이터웨어 하우징 프레임 워크 웨어 하우스 데이터웨어 하우스는 후속 인터페이스로 저장하는 것이 아닙니다

데이터웨어 하우스는 이제 이미 후편 인터페이스를 갖춘 거대한 스토리지입니다 설치하는 거대한 스토리지 인 Hadoop은 후속 인터페이스를 얻습니다 실제로 투자가 전혀없는 데이터웨어 하우스를 하이브 하이브의 장점은 무료입니다 속편 작성을 시작하면 할 수있는 속편을 사용하여 구조화 된 데이터에 액세스 할 수 있습니다 모든 정규 작업 테이블 생성 왼쪽 외부 조인 오른쪽 외부 조인 쿼리로 그룹화 blah blah blah 당신이 원하는 경우에 단지 빠른 정보 사람입니다 Telepath에서 인증 된 Big Data Hadoop 아키텍트가되어 모든 주요 데이터를 다루는 완전한 빅 데이터 하둡 아키텍트 과정 자세한 내용은 아래 설명을 확인하십시오 계속하겠습니다

이제 세션과 함께 하이브와 HBase의 차이점은 무엇입니까? 하이브는 지금 우리가보고있는 것입니다 HBase는 기본적으로 속속 데이터베이스가 아닙니다 그녀 위에 있지만 기억해 하둡 위에 기본 아파치 또는 속편 데이터베이스입니다 문제는 왜 누군가가 하이브를 사용해야하는지 예를 들어, 저는 배우고 싶지 않은 Java를 배우고 싶지 않습니다 MapReduce 배우기 나는 속편을 알고 프로그래머가 아닙니다

그것은 속편을 이해하기 때문에 자동으로 변환합니다 앉아서 Java와 MapReduce를 배울 필요가 없도록 MapReduce 속편의 논리와 그것이 작동합니다 당신이 Android라고 말한 것이 있다고 생각합니다 지금 휴대 전화는 Android 휴대 전화에서 당신은 분명히 휴대 전화를 구입하고 당신은 당신이 말하는 기본을 얻을 바로 전화 옵션 메시징 옵션 등 당신은 당신이 사람들에게 문자 메시지를 보낼 수 있습니다 Android 휴대 전화로 많은 일을 할 수 있지만 다운로드 할 수도 있습니다 예를 들어 택시를 타려면 앱을 다운로드하여 설치합니다 WHATSAPP을 확인하고 WHATSAPP을 다운로드 설치합니다 마찬가지로 하이브는 하둡 위에 설치 해야하는 도구이므로 생태계를 향한 생태계라고 불리는 이유는 말할 수있는 도구를 의미합니다

Hadoop 위에 설치되어 Android 운영과 같은 Hadoop에 대해 생각하십시오 시스템과 높은 flike uber 앱을 설치하십시오 그녀와 대화 할 수 있습니다 지금 하둡 보이 맨 위에 설치되었습니다 하이브가 올바른 또 다른 지점이므로 첫 번째 질문은 하이브를 얻는 곳입니다

클러스터 내부에 설치되어 있습니까? 클러스터 외부에 있습니까? 머리 나는 당신이 어디에 하이브를 설치하고 있는지 모르겠다 지금 당장 이해해야 할 점은 하이브에 스토리지 하이브에는 스토리지가 없습니다 예를 들어 거래 점 XLS라고합시다 거래 점 XLS라는 파일을 복사하는 스프레드 시트입니다 내 Hadoop에서 발생하면 데이터 노드에서 블록으로 나뉩니다

데이터를 복사 할 때 데이터에 발생하는 일 내 하둡에서 블록으로 나뉘어 있으므로 테이블을 만들 때 하이브 데이터를로드합니다이 데이터를 참조하십시오 데이터 노드 자체 스토리지가 매우 중요하지 않습니다 하이브는 원본 데이터가 누워있는 데이터를 투영합니다 데이터 노드의 블록으로 그리고 하이브에서 테이블을 만들 때 데이터 구조를 제공하여 데이터를 테이블이 깨끗하므로 하이브는 필요한 두 번째 지점에서 스토리지를 사용하지 않습니다 내가 여기 앉아 있고 랩톱이나 데스크톱 하이브는 클라이언트 쪽 응용 프로그램입니다 당분간 아내가 설치되었다는 의미에 대해 더 설명하겠습니다 Hadoop 클러스터가 아닌 랩톱에서 이제 약간의 변형이 있습니다

그러나 당분간은 이렇게 가정하고 노트북은 분명히 클러스터에 연결되어 Hadoop 클라이언트 라이브러리가 있으므로 랩톱에서 Hadoop 클러스터에 액세스 할 수 있습니다 하이브는 클라이언트 측 응용 프로그램이므로 노트북은 하이브 셸을 열고 테이블을 생성한다고 말하면 일부를 줄 것입니다 원하는 스키마를 스키마로 지정하면 데이터를 탁자 이제이 데이터를 삽입하는 것은 무엇입니까?이 블록은 내가하는 것입니다 당신이 할 때 아무것도 삽입하지 않는다고 말하는 하둡에서이 블록을 참조 할 데이터를 삽입하면 내가 할 일을 쿼리 또는 일부 후속 쿼리로 그룹화한다고 말하십시오 jar 파일을 바로 Hadoop 클러스터에 보냅니다 하둡에게는 하이브라는 것이 없습니다

하둡의 경우 그것은 단지 MapReduce 프로그램입니다 랩톱에 하이브를 설치하고 MapReduce를 모르기 때문에 왜 노트북에 하이브를 설치합니까? 그리고 당신은 속편 개발자이며 구조 데이터가 있음을 알고 있습니다 하둡 데이터에서 테이블을 만들고 쿼리를 수행하여 설치하려는 경우 노트북에 하이브라고 말하십시오 MapReduce 프로그램과 동일한 기능을 자동으로 작성합니다 jar 파일은 Hadoop의 관점에서 클러스터로 보냅니다 클러스터 그것은 일반적인 MapReduce 프로그램입니다

이해합니다 저는 MapReduce를 이해합니다 MapReduce를 쓸 수 있습니다 jar를 실행하십시오 항아리를 만들고 동일한 저장소를 실행한다고 말하십시오

즉, 자체 저장소가 없거나 하둡의 데이터에 액세스하고 프로젝션을 제공하는 모든 것 지금 작업하기가 쉽도록 블록 작업을하거나 전체 데이터를 테이블에서 볼 수 있으면 쉽게 데이터 또는 샌드 바로 쿼리를 작성하는 방법입니다 하둡에 저장된 구조 데이터 하이브 언어는 하이브라고해도 하이브는 당신의 속편을 이해합니다 쿼리 언어 또는 HQ라고 부르는 것은 SQL과 매우 유사하므로 속편 개발자라면 속편 쿼리를 쉽게 알 수 있습니다 하이브 하이브 도입 작업은 데이터웨어 하우스 인프라입니다 하둡 위에 구축되어 있습니다

하이브 QL 안녕하세요 사용이라는 언어와 같은 속편을 사용하여 데이터의 구조 데이터 처리 및 스토리지 검색을위한 MapReduce 및 HDFS 데이터가 HDFS 처리이며 MapReduce 및 여기에는 작은 점이 있습니다 정확히 MapReduce가 아니지만 시간은 MapRe로 유지합시다 하이브 사용의 장점 하이브 테이블에 데이터를 가져올 수 있다는 의미에서 ETL 도구로 사용할 수 있습니다 데이터 저장소를 영구적으로 수정하여 쿼리 기능을 제공하고 하이브는 실제로 분석 전문가 커뮤니티에서 잘 사용합니다 sequel은 큰 데이터 세트를 처리 할 수 ​​있으며 이러한 모든 필터 그룹에 필터 조인을 수행 할 수 있습니다 지도 위에 속편을 추가하고 지금 물어 보면 줄이십시오

에 의해 생성 된 MapReduce 코드 안녕히 볼 수 없으므로 MapReduce 코드가 생성되었습니다 하이브에 의해 당신은 단지 항아리를 볼 수 없습니다 단지 항아리 파일을 얻을 것이다 파일 당신은 당신이 지금 가장 중요한 파일을 실행하는 것을 볼 수 있습니다 당신이 기억해야 할 점은 하이브가 느릴 것으로 예상된다는 것입니다 궁극적 으로이 MapReduce는 Oracle 또는 내 속편과 같지 않습니다 일반적으로 쿼리를 작성할 때 모든 DBMS 시스템에서 당신은 초 안에 결과가 마이크로 초에서 높지 않은 것을 기대할 것입니다 당신은 때때로 쿼리를 작성 왜 4 시간 5 시간 걸리는 쿼리를 보았 을까 당신은 그것이 단지 환상이라는 것을 알고 있기 때문에 그들은 과대 광고를 사용하지 않기 때문에 이것은 매우 과대 광고를 사용하지 말아야 할 중요한 점은 데이터가 기가 바이트를 닫지 않습니다 이는 빅 데이터가없는 경우를 의미합니다

오 그래 왜 하이브를 사용 하는가? 스키마를 찾지 못하거나 스키마를 가져 오는 것이 어렵다 또는 지금 불가능한 점은 하이브에 접근 할 때 테이블 hi는 데이터베이스와 테이블의 생성자에 대해 언제든지 작동합니다 데이터가있는 경우 테이블에 스키마가 있어야하는 테이블을 정의하고 있습니다 데이터를로드 할 때 포인트가 없다고 가정 해 봅시다 어떤 유형의 데이터를 얻는 중 텍스트 데이터를 얻는다고 가정 해 봅시다 지금은 그 데이터에서 데이터에 대한 구조를 찾을 수 없습니다 그리고 나는 당신이 원시 데이터를 일반 자유형으로 얻는다고 상상한다고 말하고 있습니다

자유 형식의 텍스트 데이터에서 텍스트를 찾을 수 없으므로 찾을 수없는 구조를 어떻게 찾을 수 있습니까 해당 데이터 위에 하이브를 사용할 수 없으므로 구조해야합니다 데이터에 대한 구조를 찾을 수있는 곳에 하이브를 사용하십시오 쉼표로 구분 된 값 공백으로 구분 된 값 열으로 구분 된 값 또는 JSON 파일 XML 파일은 반 구조화 된 데이터까지 모두 포함 할 수 있습니다 인증 된 Big Data Hadoop이 되려면 간단한 정보를 입수하십시오 Telepath의 아키텍트는 완벽한 Big Data Hadoop 아키텍트를 제공합니다 모든 주요 개념을 다루는 코스이므로 자세한 내용을 확인하십시오

아래 설명은 이제 세션을 계속하겠습니다 이제 다음 경우는 우리는 몇 초 안에 응답이 필요하며 대기 시간이 짧은 응용 프로그램은 속도가 느릴 것으로 예상되며 더 빠른 솔루션을 찾고 있다면 사용하지 마십시오 우리의 DBMS가 해결할 수 있다면 우리의 하이브 매우 중요한 포인트에 시간을 투자하지 마십시오 하이브는 DBMS를 대체하지 않으며 DBMS 때문에 괜찮습니다 시스템은 실시간 시스템이며 하이브는이를 대체 할 수있는 것이 아닙니다 DBMS가 대부분의 문제를 해결할 수 있다면 하이브를 사용하지 마십시오 하이브는 특히 방대한 양의 구조 데이터를위한 것으로 테이블의 테이블 크기는 3 테라 바이트입니다 속편은 시간이 걸리더라도 매우 쉽습니다

결과는 다음과 같습니다 집 사용 사례가 나오는 곳이므로 통역사처럼 하이브에 대해 생각하십시오 그것은 당신이 Hadoop에 피크 MapReduce의 속편을 쓰는 번역기입니다 하둡은 개발자에게 우리에게 테이블을 보여주는 결과를 제공합니다 하둡에 대한 모든 것이 테이블에 동일합니다

모든 것이 MapReduce이고 높음 속편과의 차이점과 차이점은 무엇입니까? 속편 하이브에서 속속 같은 쿼리와 유사합니다 실제로 SQL 92 프레임 워크를 기반으로하며 다음과 같이 말하는 것이 안전합니다 기능은 주로 전공의 속편과의 차이점을 말하고 있습니다 차이점은 하이브 쿼리가 전통적인 것이 아니라 하둡에서 실행된다는 것입니다 데이터베이스는 하둡 외부에서만 하이브를 설치할 수 없음을 의미합니다 HDFS를 통해 하이퍼 스케일로 수행 할 수없는 대규모 데이터 세트를 처리 할 수 ​​있습니다

우리의 DBMS는 높은 쿼리의 내부 실행은 일련의 자동으로 MapReduce 작업을 생성하여 다음 질문을 자연스럽게 나는 안녕을 이해하지만 하이브를 미세 조정할 수 있습니까? 퍼포먼스를 향상시킬 수 있습니까? 하이브로 무언가를 할 수 있습니까? 예, 이제 모든 하이브 쿼리가 MapReduce 작업으로 변환됩니다 왜 우리가지도를 쓸 수 없다 모든 것을 MapReduce로 변환하고 있으므로 MapReduce를 작성하지 마십시오 왜 하둡의 내부를 잘 이해하고 있는가? 프레임 워크는 MapReduce를 작성해야합니다 속편 엔지니어는 신속하게 하이브를 작성할 수 있습니다 MapReduce를 작성하려면 이제 스크립트를 사용해야합니다

Java를 배워야합니다 또는 Python 또는 Ruby 또는 c-sharp를 사용하면 논리를 구현하거나 MapReduce 프레임 워크를 사용하면 커스텀 매퍼 커스텀 리듀서를 작성해야합니다 패키지에는 단지 모든 복잡성 오류를 해결하는 jar 파일이 있습니다 여기서는 아무 것도 디버깅 할 필요가 없으므로 테이블을 작성하여 쿼리를 작성하십시오 그리고 그것은 그것이 작동하는 방식입니다

그래서 다음 요점은 지금 말하는 것입니다 현실 세계에 대해 알았으니 안녕하세요 배운다고 가정 해 봅시다 텔레파시 과정에 참여하고 마스터하면-내가 가르친 것은 내가 가르쳤다 하이브는 하둡의 후속 인터페이스입니다 당신은 그 점을 이해하고 나서 실제 프로젝트로갑니다 당신은 프로젝트에 가서 내가 하이브 전문가인지 알고 하이브 전문가 나는 하이브를 잘 알고 있습니다 이 사람들은 당신이 하이브를 사용할 수 있거나 할 수있는 것을 알고 있다고 말할 것입니다

hi +를 사용하십시오 impala를 사용할 수 있습니다 spark sequel을 사용할 수 있습니다 Phoenix를 사용할 수 있습니다 내가 방금했을 때 나는 당신의 마음을 비례 적으로 불렀습니다 실제 프로젝트에서 실제 프로젝트를 확인하고 하둡에 대한 데이터가 있는지 확인하십시오 그들이 당신에게 높은 것을 주거나 당신에게 더하기 일을 줄 속편 도구를 줘 또는 임팔라에게 똑같이 불꽃을 주거나 피닉스와 당신은 오 세상에 비밀 인터페이스 인 하이브 만 있습니다 이 사람들은 간단한 불꽃에 대해 이야기하고 있기 때문에 지금 딜레마에 있습니다 피닉스와 동일하고 후속 쿼리를 작성하면 실행됩니다 이 모든 플랫폼에서 같은 방식으로 쿼리로 그룹을 작성합니다

높은 플러스 일은 실행됩니다 Impala는 동일한 실행을 발생시킵니다 피닉스는 또한 그것을 실행할 것이므로 실제 질문은 이것들이 무엇입니까? 도구 바로 당신에게 실제 정보입니다 그래서 하이브 참조 원래 도구는 처음부터 왔으므로 하이브는 첫 번째 복수 자이므로 첫 번째 복수자는 세상에 온 최초의 사람이므로 하이브가 왔을 때 사람들이 행복했기 때문에 사람들은 지금 환상적이라고 말했습니다 후속 인터페이스가있어 쿼리를 작성할 수 있으며 쿼리가 무엇을 실행하는지 알고 있습니다 끔찍하지만 시간이 지남에 따라 사람들은 정말 좋아하지 않았습니다 5 명이 높거나 높았다 고 말했지만 문제는 당신이 다른 날에 내가 하루에 걸린 쿼리를 쓴 알고 알고 쿼리가 느려 내가 정말 하이브를 좋아하지 않는 결과를 줘 그때 Hortonworks라는 회사가 하이브를 제안하기 시작했고 지금 여기서 일어나는 일은 Hortonworks hadoop 클러스터에 액세스하면 하이브 쿼리를 작성하면 높은 쿼리가 장소 참고 MapReduce 원래 고속도로 고 유량 MapReduce Hortonworks 하이 플러스 더하기 고속도로 그래서 이것은 무엇입니까 이것은 프레임 워크 아파치 프레임 워크입니다 아마도 당신이 관심이 있다면 더 깊이 파고들 것입니다 MapReduce가 더 빠르므로 자세한 내용을 알고 싶지 않습니다

나는 당분간 당신에게 몇 가지 추가 정보를 제공하고 있습니다 단계는 문제를 극복하기 위해 만들어진 프레임 워크임을 이해 MapReduce에서 mapreduces는 정말 느립니다 MapReduce는 일반적으로 느립니다 사람들은 일과 일이라는 것을 만들고 매퍼와 감속기를 사용합니다 기름이지만 이것은 MapReduce보다 훨씬 빠르므로 단계는 힌디어 단어 속도를 나타내며 인디언에 의해 만들어졌습니다 MapReduce의 레벨을 통해 Hortonworks가 무엇을했는지 말할 수 있습니다

Hortonworks는 클럽 하이브와 지불금을 지불하여 당신이 Hortonworks 클러스터에 있다면 그들이 당신을 맛보고 직업을 볼 수 있다고 실행 하이브 쿼리를 작성 Hortonworks가이 작업을 홍보하더라도이를 사용하여 MapReduce 작업 실행을 볼 수 없음 이것은 오픈 소스를 첨부하고 있습니다 Hortonworks는 이것을 홍보하고 그들은 거기에 그들의 쿼리가 빠르기 때문에 첫 번째 복수 자라고 말합니다 오리지널 하이브는 느리게 지내고이 남자는 대화식입니다 쿼리는 더 빠르지 만 실시간은 아니므로 하이브를 쓰는 경우 사용하는 쿼리 또는 Hortonworks 클러스터는 실행 엔진으로 유지되며 더 빠르지 만 실시간이 아니거나 더 빠르지 않습니다 Hortonworks가 다른 회사가 있기 전에도 이것을 시작했을 때 클라우드 시대라고 불리는 클라우드 시대의 회사 또는 그들이 그들은 임팔라 임팔라라는 것을 발명 했습니까? 하이브 위에 다시 지어졌습니다 Impala는 얼굴 속편입니다

임팔라 위에 속편 쿼리를 작성하면 Empire Rd라는 악마를 사용하여 실행하며 MapReduce를 사용하지 않습니다 이것을 사용하지 않고 독점적 인 Impala 억제제를 사용합니다 그래서 이것은 Cloudera에 의해 홍보되며 이제 대화식입니다 Hortonworks는 안녕하세요 플러스 이것은 더 빠른 clowder라고합니다 Impala가 더 빠릅니다 지난 4 년 동안 전쟁이 계속되고 있음을 아무도 모르지만 그것은 플러스 플러스 일이거나 조종사에서 다시 당신을 위해 찾는 사람 인터페이스입니다 Houghton이 클러스터를 사용하지 않으면 차이가 있습니다 클라우드에 있거나 클러스터 실행이라는 악마에 의해 수행되는 경우 임팔라와 스파크 스파크라는 사람이 있는데 얼굴에 속편이 있습니다 spark sequel에 쿼리를 다시 작성하면 spark sequel이라고합니다

속편이 스파크로 변환되고 거의 실시간이므로 이 속편이 더 빠릅니다 체재하지만 Hortonworks에서는 내가 원하지 않는다고 말할 수 있습니다 MapReduce를 원하면 엔진을 전환 할 수 있으므로 모두 추가됩니다 추가 정보가 있지만 정보를 잘 알고 있으므로 Phoenix가 속편이없는 속편 인터페이스 즉, HBase는 속속 데이터베이스가 아니며 HBase는 그렇지 않습니다 속편을 이해하므로 HBase의 언어를 모른다면 시작할 수 있습니다 피닉스 당신은 그것의 언어로 변환 될 속편 쿼리를 작성합니다 HBase는 원래의 고급 Map Reduce가 배치 결과를 보여줍니다 매우 느린 날을 처리하고 Impala는 비슷한 대화 형이지만 임팔라는 Cloudera라는 특정 구절이 있습니다

클라우드 시대의 가장자리와 Hortonworks의 Impala 패스는 동일하게 두 번째로 통과합니다 SPARC 프레임 워크 피닉스는 다른 안녕 사이에 친구가 있으면 잘못된 기반입니다 예를 들어 아내라는 것이 있고 하이브라는 것이 있습니다 서버 하나에 하이브 서버 2 + B 라인이라는 것이 있습니다 이 용어는 순수한 무엇입니까 하이브 서버 1의 의미는 무엇입니까? 하이브 서버 2와 B 라인 C를 의미하므로 이것이 당신이해야 할 일입니다 기술적 인 관점에서 볼 때 원래 하이브 만 있었고 이 대화 형과 함께 클라이언트 쪽 응용 프로그램입니다 쉘은 원래 하이브라고 부르는 원래 하이브를 의미합니다

개발자 인 경우 랩탑 설치를하는 응용 프로그램 하이브 당신은 명령 줄에 명령 줄을 얻는다 쿼리에 대한 테이블 blah blah blah 그냥 작동합니다 서버 전용 클라이언트가 없으며 이것이 내 그림에서 설명한 것입니다 또한 나는 당신에게 하이브가 단지 클라이언트 측 애플리케이션이므로 공급 업체 직원의 Huiber가 정말 행복했을 때 맙소사, 정말 대단해서 껍질을 얻을 수 있고 명령과 우리는 좋은 하이브와 함께 일할 수 있지만 나중에 사람들이 시작했습니다 당신의 데이터베이스를 어떻게 연결합니까? Oracle 데이터베이스 Oracle 데이터베이스는 어떻게 연결합니까 Oracle 데이터베이스 또는 Microsoft sequel 데이터베이스와 함께 사용하는 대상 내 것과 같은 클라이언트 쪽 도구를 연결 후속 워크 벤치 또는 바로 연결하려면 클라이언트 쪽 도구가 필요합니다

JDBC 또는 ODBC를 올바르게 사용하십시오 예, Oracle이 실행되는 서버가 있고 Oracle 클라이언트가 필요합니다 사람들이 생각하는 것이 괜찮아서 모든 것이 멋지다 왜 하이브에 대해 속편 클라이언트에서 너무 높게 연결할 수 없습니까? 하이브 서버 하나가 왔을 때의 명령 줄입니다 guy는 일반적인 후속 클라이언트에서 JDBC 또는 ODBC 연결을 허용합니다 PI 서버 1은 Hadoop 클러스터에서 서버가 실행 중임을 의미합니다

hi-oh server 1은 현재 Hadoop 클러스터에서 실행중인 서버입니다 노트북을 높이 설치하면 명령 프롬프트를 열고 쿼리를 입력 할 수 있습니다 또는 일반 속편 클라이언트 도구를 사용하여 하이브에 연결할 수 있습니다 서버와 모든 활동을 올바르게 수행하므로 서버 1 옵션은 다음과 같습니다 후속 클라이언트에서 직접 하이브로 JDBC 연결을 작성할 수 있습니다 원하는 쿼리를 수행 할 수있는 테이블에 삽입 할 수 있습니다 다시 클라이언트를 매우 쉽게 직접 실행하면 명령을 사용할 필요가 없습니다

프롬프트 명령 프롬프트를 사용할 수 있으므로 사람들이 정말 기뻤습니다 접속할 수있는 서버가 많고 쿼리를 실행할 수 있습니다 동시성 부족은 높은 동시성 또는 일관성이 없음을 의미합니다 서버 하나는 여러 사용자가 세션을 생성하여 세션을 만든 경우를 의미합니다 세션 데이터 지속성 데이터 동시성 문제를 처리 할 수 ​​없습니다 PI Server 2의 상위 서버 2가있는 곳도 있습니다

허용 JDBC ODBC 연결은 동시성을 제공하며 새로운 클라이언트 측이 있습니다 명령 줄 도구 인 beeline은 서버입니다 서버 1의 기본적인 차이점은 JDBC ODBC이지만 다중 JDBC ODBC를 의미하는 동시성을 제공합니다 연결은 가능하지만 하이브로 작업 할 수는 있지만 하이브 CLI와 새 CLI를 여전히 beeline이라고하며 이전 CLI를 지원합니다 새로운 CLI를 beeline이라고합니다

beeline은 실제로 고객입니다 컴퓨터 설치 beeline 클라이언트로 갈 수 있도록 속편 클라이언트처럼 설치할 수 있습니다 거기에서 나는 하이브 서버에 연결 요청을하고 시작할 수 있습니다 하이브 서버에서 클러스터 내부에 설치되도록 하이브에서 작업 아내의 질감은 이제 사람을 볼 수 있고 그는 하이브 쿼리를 사용하고 있습니다 지금 당신이 사람이라면 당신은 안녕 승무원 CLI와 상호 작용할 수 있습니다 이것이 바로 CLI 광산이 B 라인이 될 수 있음을 의미합니다 클라이언트 또는 일반 명령 줄 안녕 셸 안녕하세요 쉘을 보여 드리겠습니다 후속 클라이언트가 있음을 의미하는 대화식 쉘 또는 JDBC ODBC 거기에서 당신은 연결할 수 있습니다 또는 웹 UI 안녕하세요 또한 웹 UI 등을 제공합니다 CLI를 직접 사용하는 경우 화살표를 살펴보십시오

CLI를 사용하는 경우 하이브를 칠한다는 의미입니다 JDBC etc를 사용하는 경우 테이블 등을 직접 작성하십시오 세션은 높은 서버에 의해 처리되므로 서버도 높습니다 상위 서버 2의 주요 목적은이 다중 세션을 처리하는 것입니다

JDBC woody PC를 통해 사용자가 만든 이유는 화살표 CLI는 높은 JDBC ODBC를 직접 호출하고 있음을 의미합니다 거짓말을 보거나 JDBC를 사용하도록 하이브 서버를 통해 연결 ODBC는 이제 어디에 하이브 서버를 설치할 것인가? 하둡 클러스터 내부에 설치해야합니다 하둡 클러스터는 또한 하이브 서버가 외부에있는이 그림을 참조하십시오 이 그림에서 하둡 클러스터는 당신이 ODBC를 사용하거나 하이브를 통해 남용하는 경우 CLI 직접 하이브입니다 서버이지만 다시 세션은 하이브 서버에 의해 처리되지만 궁극적으로 그림에서 지금 안녕 그것은 하둡이라는 것을 분명히 보여줍니다 클러스터가 분리되어 내부에 PI Server를 설치할 필요가 없습니다 대부분의 경우 외부에있을 수있는 하둡 클러스터 이제 하이브 아키텍처 내부에서 컴파일러를 볼 수 있습니다

옵티 마이저 실행 프로그램이지만 데이터가 어디에 있는지 어떻게 알 수 있습니까? 메타 데이터는 데이터베이스 또는 데이터웨어 하우스 또는 필요한 시스템에 대해 무엇을 메타 데이터를 저장하여 메타 데이터에 대한 내용을 저장합니다 메타 스토어 서비스 란 메타 스토어 서비스 란 메타 데이터를 처리하기 위해 서비스가 실행 중입니다 메타 데이터 란 무엇입니까? 테이블 정의 데이터베이스의 정의 테이블의 스키마 메타 데이터를 저장하면 메타 데이터를 어딘가에 저장해야합니다 이 메타 스토어 서비스에서 기본적으로 하이브는 포함 된 메타 스토어로 메타 데이터를 표시합니다 Derby 데이터베이스에 내장되어 있으므로 기본적으로 높은 다운로드 및 설치는 Apache라는 데이터베이스와 함께 제공됩니다

Derby Apache Derby는 데이터베이스이며이를 사용하여 저장할 데이터베이스가 있습니다 ember dead meta store 내장 메타라고하는 메타 데이터가 지워짐 저장은 기본적으로 다운로드하고 설치하면 기본적으로 의미합니다 메타 데이터를 저장할 장소는 기본적으로이 Apache Derby와 함께 제공됩니다 데이터베이스와 B를 사용하여 필요하지 않은 메타 데이터를 저장하기 시작합니다 모든 것이 정상적으로 구성 되므로이 임베디드 메타 스토어가 좋습니다

당신이 말하고 있기 때문에 내가 다운로드하고 바로 설치하면 데이터베이스와 함께 제공되며 데이터베이스에 메타 데이터를 저장합니다 모든 것이 좋지만이 Derby에는 Derby 데이터베이스가 하나의 단점이 있습니다 인스턴스 데이터베이스는 한 번에 하나의 연결 만 허용합니다 내장 된 hive 메타 저장소를 사용중인 경우 단 한 사람 만이 hi에 액세스 할 수 있으므로 단점은 모자이므로 하이브 예제를 위해 자신의 데이터베이스를 메타 데이터 스토리지로 구성 할 수 있습니다 속편 그래서 이것은 우리가 생산에서 무엇을하는지 우리가 생산에서 의미하는 것 우리는 지금 안녕을 다운로드하고 설치할 것입니다

B를 사용하여 메타 데이터를 저장하지만 자동으로 작동하지만 B를 사용하여 메타 데이터를 올바르게 저장하면 한 번에 하나의 연결 만 허용합니다 여기서 B는 하나만 허용합니다 우리가하는 일은하지 않습니다 내 속편처럼 내 속편에 메타 데이터를 저장하는 방법을 묻습니다 최신 버전의 하이브는 업데이트를 허용하지만 다른 모든 사용자는 hi에 액세스 할 수 있습니다

버전 또는 파일은 기본적으로 업데이트를 허용하지 않습니다 Hadoop Hadoop은 Hadoop에서 많은 시스템을 한 번 읽은 쓰기입니다 업데이트가 없습니다 데이터를 바로 복사하십시오 데이터를 삭제하십시오

데이터를 다시 복사하십시오 그것은 모두 데이터를 쓰고 여러 번 읽는 것이지만 최신 버전입니다 하이브를 사용하면 선택적으로 업데이트 할 수 있습니다 데이터 노드에서 블록의 위치를 ​​참조하여 기본적으로 할 수있는 방법 그것은 당신의 데이터가 어디에 있는지 이해할 수 있고 따라서 그에 따라 할 수 있는가 클라우드에서 하이브를 연습하고 있다면 클라우드 RVM에서 하이브를 연습하는 경우 IBM에서 임베디드 메타를 사용하고 있습니다 즉, 내부에 더비가 있고 모든 메타 데이터를 저장한다는 의미입니다

매우 간단하지만 회사에 가서 높은 일을 시작하면 메타 데이터는 내 속편과 같은 별도의 데이터베이스에 저장됩니다 두 가지 유형의 메타 데이터 저장소가 가능하므로 사용자가 작성하는 경우 드라이버는 드라이버라는 사람이 쿼리를 받아들입니다 그림에는 표시되지 않지만 드라이버가 있으며 드라이버가 컴파일러라는 컴파일러라는 사람은 메타 저장소를 확인하여 메타 데이터와 쿼리를 컴파일하면 옵티마이 저가이를 최적화하여 실행 된 실행 프로그램은 MapReduce이고 MapReduce는 클러스터 1 단계 사용자를 현명하게 쿼리하면 쿼리가 확인되고 첫 번째 단계는 쿼리를 컴파일하는 것입니다 이제 쿼리를 컴파일하지 않습니다 메타 데이터가 필요하므로 메타 스토어 메타 데이터를 확인하십시오

쿼리를 컴파일하는 메타 데이터를 얻은 후 메타 데이터에 대해 저장하고 옵티 마이저라는 구성 요소가있어 MapReduce 코드를 최적화하므로 더 나은 성능을 발휘 한 다음 executor라는 다른 구성 요소에 제공 할 수 있습니다 executor는 일반적으로 MapReduce 프로그램입니다 MapReduce 엔진을 의미하며 쿼리를 실행하고 결과를 표시합니다 다시 두 가지 상황이 있습니다 이것은 대부분 실용에서 나옵니다 소규모 Hadoop 클러스터가있는 경우 3 개의 서버 나는 3 개의 데이터 노드 4 개의 데이터 노드 등을 의미하므로 매우 작습니다

클러스터 권한이며 일반적으로이 클러스터 클러스터는 몇 사람 그래서 당신이 여기 앉아 있다면 당신은 컴퓨터 전체 하이브가 하이브 서버에 여기에 설치되어 모든 것이 실행됩니다 왜 작은 클러스터이기 때문에 여기에서 실행 중입니까? 여기에 설치 한 다음 연결하는 데 아무런 의미가 없습니다 일반적으로 다른 사용 사례를 이야기하고 있습니다 다른 사용 사례를 이야기하고 있습니다 주문에 대한 3-4 개의 데이터가있는 소규모 하둡 클러스터 왜 당신은 작은 리프팅 흠을하지 않을 것입니다 왜 작은 하둡을 생성합니까 클러스터는 개념 증명을위한 것일 수 있습니다

이 경우에는 모든 작업 부하가 발생하므로 Hadoop 클러스터 전체 하이브 패키지 또는 컴퓨터에 있음 안녕 서버 안녕 CLI 하이브로 시작하는 무엇이든 잡은 것은 컴퓨터 클러스터에 아무것도 없습니다 왜 또는 내 유일한 친구인가 이것에 액세스하면 별도의 클라이언트 서버가 필요하지 않습니다 클러스터가 매우 작기 때문에 모든 패키지를 컴퓨터에 설치해야합니다 컴퓨터에 sequel client를 설치하고 여기에서 JDBC 연결은 등을 연결하지만 모든 것은 작은 Hadoop 클러스터이기 때문에 컴퓨터에서 매우 큰 Hadoop 클러스터의 큰 Hadoop 클러스터 흠 하둡 클러스터는 수천 개의 데이터 노드에 게이트웨이 노드 여러분, 게이트웨이 노드가 무엇인지 들어 보셨나요? 당신들은 이것에 대해 들었습니다 이 사람은 Hadoop 흠과 연결되어 있고 Linux 시스템입니다 여기에 리눅스 머신이 있다고 상상해보십시오

하둡 등반 여기에 당신이 말한 것을 여기 서버에서 가질 것입니다 그리고 어쩌면 돼지 모든 것이 여기에 설치 될 것이고 당신이하는 일은 당신이 여기에 앉아 있다면 바로 여기에 앉아 있다면 랩톱에 여기에 설치하지 않은 랩톱은 랩톱입니다 이 사람이 여기 앉아 있어요이 사람이 여기 할 수있는 것은 이 기계에 SSH로 연결할 수있는 여러 가지 작업을 수행 할 수 있습니다 그는이 기계에 로그인하고 여기에서 그는 입력 할 수 있습니다 그는 명령을 얻을 프롬프트는 이제 다른 사람이 여기에 앉아 클러스터에서 작업을 시작합니다 노트북 확인 여기에 속편이 두뇌 작업대라고 말 했어요

이제 SQL 클라이언트가 후속 워크 벤치를 열면 여기에 연결됩니다 게이트웨이 노드 게이트웨이 통지는 무엇입니까? 아무것도 아니라 서버입니다 그것은 당신과의 중간 역할을합니다 직접 로그온하지 않는 대규모 Hadoop 클러스터의 Hadoop 클러스터 당신은 당신의 클러스터를 볼 수 없을 것입니다 그것은 엄격히 금지되어 있습니다

이 게이트웨이에 연결하지 않은 것만으로 클러스터에 액세스 할 수 없습니다 여기에서 CLI를 선호한다면 무엇이든 할 수 있습니다 이 Sergei에 SSH를 생성하여 로그온하면 게이트웨이에 있습니다 CLI는 어떻게 당신이 CLI를 좋아하는지 또는 당신이 후속 클라이언트를 가지고 있으면이 게이트웨이와 이것에 대한 세부 정보를 제공합니다 거기에서 게이트웨이에 연결하고 오른쪽으로 nazca lester에 연결합니다 모든 클라이언트 패키지는 실제로 게이트웨이 노드에 설치되어 있습니다

당신이 로고 중 하나를 선택할 수 있도록 포인트 게이트웨이 노드에 로그인하여 게이트웨이 노드에 로그인하고 명령을 엽니 다 프롬프트하고 hit hi라고 말하면 작업을 시작하는 하이브 셸이 표시되거나 하이브 서버가 실행되는 후속 작업 워크 벤치가 있습니다 게이트웨이 노드 양호 후속 워크 벤치가 Ohio 서버와 클러스터를 연결합니다 안녕의 인터페이스는 그냥 입력 hi를 입력하고 이것은 하이브 쉘이므로 하이브의 명령 행 인터페이스입니다 당신이보고있는 하이브의 대화 형 쉘은 이제 일단 쉘에 있습니다

입력 한 대부분의 명령은 하이브 셸로 소개 할 필요가 없습니다 명령은 속편 명령이고 대부분은 속편에 익숙하기 때문에 예를 들어, 아마 당신이에 로그온하면 아마도 첫 번째 명령을 말할 수 있습니다 이 시스템은 가장 먼저 입력 할 명령은 show database입니다 코드가 작성된 모든 데이터베이스를 참조하십시오 하이브 작업을 시작해서 내가하려는 것은 create라고 말할 것입니다 데이터베이스 Belle이라고 말하면 데이터베이스를 표시하면 거기에 있습니다

당신이 그것을 사용하려는 경우 지금 데이터베이스 Cordell del을 사용한다고 말하면 del을 사용한다고 말하면 데이터베이스가 변경되어 이제는 지금까지 델 파인이라는 데이터베이스를 사용하여 이제 이것들은 규칙적인 것들입니다 지금 샘플 시나리오를 보시고 우리는 단지 벌집에 대해 말하기보다는 문제를 해결하는 방법을 사용할 수 있습니다 샘플 시나리오를 보도록하겠습니다 작업 할 데이터를 보여 드리겠습니다 그래, 내 바탕 화면에 거래라는 파일이 있습니다 이 파일을 TX n s1이라고합니다

이 파일을 열면 트랜잭션 데이터입니다 이것은 당신에게 아이디어를 제공하기 위해 데이터가 어떻게 보이는지입니다 이제이 데이터를 설명해야 할 경우 하나의 레코드를 선택하여 하나의 레코드이므로 모든 레코드가 쉼표로 구분 된 값임을 알 수 있습니다 그래서 이것은 첫 번째 열의 구조를 가지므로 이것은 거래 데이터입니다 소매점의 스포츠 상점에서 첫 번째 열은 거래 ID이며 4이면 거래 날짜가 2011 년 12 월 17 일이고 고객 ID라고 함 4 0 2 6 1 3 고객 ID 또는 고객 번호 지출 한 금액은 $ 98 81 센트이고 해당 카테고리 팀 스포츠 하키 도시 내쉬빌과 테네시 주정부는 거래 데이터는 다음과 같습니다 여러 고객이 스포츠 상점에서 품목을 구매했습니다 그게 너무 큰 날짜이며 실제로 이것의 라인의 주 데이터가 맞으므로 이것은 하나의 파일입니다

여기에는 또 다른 파일이 있습니다 이 파일을 열면 고객 데이터입니다 예를 들어 첫 번째 열에 한 줄 또는 한 레코드는 고객 ID입니다 zero zero zero 1 5 그러면 이름과 성이 줄입니다 Julia -49 세의 직업은 대부분의 음악가이므로 2 개의 데이터 세트가 있습니다 1 데이터 거래는 고객이 수행 한 것이며 두 번째 데이터는 데이터입니다

고객에 대한 정보 고객 이름 연령 고객 ID 연령 직업이라고 말하면 데이터를 설정해야하며 고객 ID를 볼 수 있습니다 내가하고 싶은 것은 내가하고 싶은 일입니다 이 데이터를 분석하고 싶습니까? 제가 실제로 원하는 것은 어떤 종류의 분석입니까? 할 일은 내 젊은이들이 돈을 얼마나 쓰는지 이해하고 싶다는 것입니다 내 매장에서 중년층이 소비 한 총 금액과 내 가게에서 노인들이 얼마나 많은 금액을 소비하는지 그래서 기본적으로 나는 원한다 고객을 3 개의 그룹으로 분류하는 것 다른 그룹보다 30에서 50 개의 다른 그룹 그들에 의해 소비 된 금액의 합계를 계산합니다

어떻게해야하는지 첫 단계로 어떻게 할 수 있는지 봅시다 나는 테이블을 만들거야 이것은 테이블을 생성하는 구문이며 이것은 내가 말하는 속편을 이미 알고 있다면 놀라지 마라 이 테이블을 내 테이블 이름 트랜잭션 레코드라고합니다 카테고리 간 스키마 매우 간단한 트랜잭션 번호 날짜 고객 번호 제품 도시 상태가 소비하고 하이브는 다음과 매우 유사한 스키마를 부과합니다 데이터 형식과 모두가 하루 하루와 매우 유사합니다 문자열에서 지원하는 것처럼 일상 생활은 거의 모든 것을 두 배로 부양합니다

바로 데이터에 스키마를 부여 한 다음 행 형식을 말합니다 기본적으로 행을 식별한다는 것을 의미하는 행 형식의 데이터를 기대합니다 개행 문자를 사용하고 사용하면 모든 레코드 D를 분리합니다 제한된 필드는 쉼표로 끝나며 개별 필드는 쉼표입니다 여기에 세미콜론을 제공하면 입력 데이터에 있어야합니다

세미콜론 다음 기본적으로 텍스트 파일로 저장되었다고 말합니다 안녕 누가 데이터를 텍스트 파일로 저장하면 시퀀스 파일 또는 다른 원하는 경우에도 형식을 지정하지만 텍스트 파일을 입력하지 않으면 저장할 것입니다 텍스트 파일로 입력하면 Enter 키를 누르면 구문입니다 안녕하세요, 괜찮습니다 데이터가 올바르게 생성되었음을 증명합니다 다른 테이블이 있음을 의미합니다 이제 다음 지점에 테이블을 만들었습니다

어떻게 데이터를로드합니까? 테이블 이제 데이터를 하이브 테이블에로드하는 여러 가지 방법이 있습니다 먼저 모든 사람이하는 일반적인 방법을 보여줍니다 데이터는 내 리눅스 컴퓨터의 바탕 화면에 있습니다 내 로컬 파일 시스템에 있으므로 경로 /에 데이터 컬을로드하지 않아도됩니다 Cloudera에 구멍이 생겼으므로 이것이 데스크탑이 X 테이블로 향하는 경로입니다

실제로 삽입 할 수있는 데이터를로드하지만 일반적으로 데이터를 알고 있음 웨어 하우징 대량 데이터를로드하여 엄청난 양의 테이블을 얻고로드하려는 텍스트 파일을 알고 있습니다 일반적으로 삽입 인서트를 일반적으로 말하지 않을 것입니다 당신은 이와 같은 데이터를 덤프 할 것입니다 local in path 이것은 내 데이터가 로컬 파일 시스템에 있으며 이것이 테이블 트랜잭션 레코드에 대한 내 데이터 경로 이제 테이블에서 select star를하면 limit 20이라고 말하거나 데이터를 볼 수 있어야합니다로드했기 때문에 데이터를 볼 수 있습니다

데이터를 테이블에 표시하므로 이제 데이터도 종이에 있지만 하둡에서 한 장면 뒤에 무슨 일이 일어나고 있는지 바로 설치할 때마다 무대 뒤에서 일어나는 일을 보여 드리겠습니다 어떤 플랫폼에서든 과대 광고는 HDFS에웨어 하우스라는 폴더가 있으므로 HDFS DFS를 수행하는 경우-LS high high를 설치할 때마다 이것을 자동으로 생성합니다 Hadoop HDFS에서웨어 하우스라는 폴더 이름 이 창고 폴더 안에 무엇이 있는지 확인하면 창고입니다 당신이 만든 데이터베이스는 데이터베이스 델 도트 DB입니다 어떤 데이터베이스를 만들고 있는지 어떤 데이터베이스를 만들고 있는지 실제로이 창고 디렉토리 안에 저장되어 있습니다

데이터베이스 ok 데이터베이스가이 부분 사용자 하이브웨어 하우스에 생성 된 다음 지금 생성 한 DB는 Hadoop DB의 폴더 일뿐입니다 Hadoop Q의 폴더는 Hadoop에 대한 웹 인터페이스입니다 색조에서 다른 것은 없습니다 브라우저로 갈 수 있고 오히려 오히려 볼 수 있습니다 먼저 HDFS를 입력하면 여기에 와서 파일이 무엇인지 알 수 있습니다

웨어 하우스라는 폴더를 만들면 높음 설치시 하둡에서 웨어 하우스 폴더입니다웨어 하우스 폴더를 볼 수 있습니다 이 창고 폴더를 열면 창고라는 폴더를 만듭니다 창고 폴더는 당신이 이렇게 만든 모든 데이터베이스를 볼 수 있습니다 Dell dot DB라는 데이터베이스는 Hadoop의 폴더 일뿐입니다 데이터베이스이며 데이터베이스라고 생각합니다

데이터베이스가 아니라 폴더 일뿐입니다 이 폴더를 열면 Dell dot DB 참조 트랜잭션 레코드 생성 한 트랜잭션 레코드 테이블은 단지 폴더를 열면 여기에 무엇을 표시하는지 알려주세요 내가 복사 한 파일은 테이블 구조를 보라 여기에서 데이터베이스를 본다 도트 DB는 단지 폴더 거래 기록입니다 이 파일은 하둡에서 발생하는 파일이므로 데이터를 하이브 테이블에로드하면 Linux에서 데이터를 복사하는 것입니다

하둡의 폴더는 분명합니다 물론 아래쪽 명령을 사용하십시오 경로에 로컬 데이터를 기록하지만 비하인드 스토리는 테이블에 삽입하는 데이터는이 위치로 복사됩니다 HDFS에서이 데이터가 매우 많은 경우 블록과 일반 Hadoop 파일과 마찬가지로 데이터가 저장되는 위치이므로 또한웨어 하우스를 수행하고 델 닷 DB를 수행하면 명령 줄에서 이것을 보여줍니다 트랜잭션 레코드라는 다른 폴더가 표시되고 다시 말해 px 및 레코드 파일을 볼 수 있습니다 그렇기 때문에 고속도로에서 실제 데이터를 투영하는 것입니다

방금 하둡에 누워 있습니다 더 많은 테이블에 저장해야 할 고객 데이터가 있기 때문에 고객이라는 테이블에 고객 번호 이름 성 등이 있습니다 다른 테이블과 데이터를로드하여 데이터가 테이블에 고객에게 전화를 걸었습니다 이제 고객에게 데이터를 보내지 만 궁금 할 것입니다 지금까지 나는 MapReduce 프로그램을 보지 못해서 그녀에게 데이터를 쿼리하면 MapReduce 작업이 표시됩니다 실제로 쿼리를 실행하지 않았기 때문에 아무것도 보지 못했습니다

거래 기록에서 별표 수를 계산하면 올바른 쿼리이므로 테이블에서 count star를 선택하면 기본적으로 행 수를 알고 싶습니다 Enter 키를 누르면 MapReduce 작업을 시작합니다 적절한 쿼리이므로 생성 할 결과를 보여줄 수 없으며 작업을 시작하고 jar 파일을 작성하면 여기에 결과가 50,000입니다 쿼리 결과는 50,000입니다 어떻게했는지는 50,000입니다

방금 검색어를 작성하고 Enter 키를 누르면 자동으로 동등한 MapReduce 작업으로 결과를 표시하고 결과를 지금 얻습니다 이걸 더 분석해서 내가하고 싶은 것을 하나 만들어 보겠습니다 더 많은 테이블이 있으므로이 테이블이 가지고있는 테이블 하나를 만들어 보겠습니다 고객 번호 이름 연령 직업 금액 및 제품 기본적으로 내 생각은 내가 가지고있는 고객 데이터가있는 조인 작업을 수행하는 것입니다 두 거래 데이터 모두 고객 ID라는 공통 열을 가지고 있으므로 아이디어는 간단한 내부 조인 작업과 조인 작업을 수행하는 것입니다 조인 작업은 테이블에 저장되어 있어야하므로 이미 테이블을 만들었습니다

그래서이 테이블은 하나라고 부르며 어떻게 하이브에서 조인 작업을합니까? 간단한 삽입 오른쪽 테이블 하나 밖으로 그래서 하나는 우리가 만든 새 테이블은 도로 고객 화살표를 선택합니다 조인 작업의 구문을 보면 정확히 Enter 키를 누르면 정상적인 속편 조인 작업이 MapReduce를 시작합니다 직업은 이제 조인이 끝났고 내가 별에서 별을 선택하면 이것은 우리의 조인의 결과이며 내가 20을 제한하거나 뭔가를 본다면 이것이 이 결과가 새 테이블 인 경우 새 테이블의 새 테이블 결과 고객 관련 데이터 및 거래가 있음을 확인할 수 있도록 조인 작업 관련 데이터 이것은 매우 간단합니다 저는 동일한 논리를 따르고 있습니다 여기의 유일한 차이점은 MapReduce로 변환한다는 것을 알고 있다는 것입니다

지금 할 수있는 일은 이것 이후에 하나 더 테이블을 만들 것입니다 내가 지금하고 싶은 것은 지금 내가 한 일을 볼 수있는 테이블을 만들고 있습니다 가입 작업이지만 고객을 고객으로 분류하고 싶습니다 나이가 다르므로 age라는 열이 있는데 여기를 보면 어떻게 간단하게 할 수 있습니까? 너무 끔찍하게 덮어 쓰면 결과 가이 테이블에 있음을 의미합니다 마지막 단계에서 스타 쉼표 선택을 선택했습니다 케이스를 여는 중입니다 여기에 a가 30보다 작을 때의 경우는 낮음으로 표시됩니다

나이가 50 세보다 30 세에서 50 세 사이 인 경우 이 쿼리가 수행하는 작업은 이전 테이블에서 모든 행을 선택합니다 연령 열과 내 기준에 따라 모든 레코드를 중간에 표시합니다 이전에 다시 입력하면 MapReduce 작업이 다시 실행되므로 모든 쿼리가 MapReduce 작업을 실행하면 걱정할 필요가 없으므로 맵을 볼 수 있습니다 이미 0 등이고 이제 끝났습니다 지금하면 쿼리가 끝납니다 나는 밖으로 별을 선택합니다-내가 20을 제한하거나 모든 것을 보는 경우 레코드는 이제 오래된 중간 중간 오래된 등의 범주를 가지고 있습니다

이제 고객을 분류 할 수 있습니다 제가해야 할 일은 매우 간단합니다 하나 이상의 테이블을 만들면 쿼리로 그룹을 만들 것이므로 여기서하는 것은 매우 간단한 사람들은 insert overwrite table out 3 그래서 3은 최신 테이블입니다 선택 레벨을 만들었으므로 레벨 열이 중간보다 낮습니다 레벨별로 그룹화하는 방법의 분류 합계이므로 매우 간단합니다

쿼리별로 그룹화이 쿼리의 결과에는 최종 답변이 표시되므로 이름이 3 이상이고 내가 선택할 스타를 선택하면 쿼리가 끝납니다 최종 답변이 여기에 있습니다 최종 답변이므로 젊은이들이 이 많은 양의 중년 소비 지출 플러스이 많은 양의 오래된 지출 HP와이 금액을 더 많이 소비하기 때문에 이것이 높은 일을 시작하는 방법입니다 인생에는 두 가지 유형의 테이블이 있으며 관리되는 테이블이라는 것이 있습니다 외부 테이블이라는 것이 있으며 기본적으로 생성 한 테이블이 있습니다 관리되는 테이블이므로 차이점이 무엇인지 알려 드리겠습니다

당신이 만들 수있는 하이브의 두 가지 유형의 테이블 나는 두 가지 유형의 테이블을 의미합니다 관리 테이블이라는 것이 있고 외부라는 것이 있습니다 테이블 이제 기본적으로 이러한 것들이 무엇입니까? 탁자에있는 사람은 무엇 이니까요 벌통에 가면 show show 테이블이라고 말하면 거래 레코드라는 테이블이 있습니다 이 명령을 묶으면 X와 레코드에 대해 설명합니다 관리되는 테이블 테이블 유형이라고 표시되며 위치는 테이블 관리 테이블은 테이블이 아내에 의해 관리됨을 의미합니다 즉,이 테이블은 사용자 hi웨어 하우스에 저장되며 변경할 수 없습니다

관리 테이블이라고도합니다 관리 테이블 인 경우 안녕하세요, 내가 할 수있는 일을 말할 수있는 외부 테이블입니다 외부 테이블을 만들 수 있다고 말하면 외부 테이블을 만들 때 외부 테이블 만들기라는 외부 테이블이 무엇인지 알려줍니다 글쎄, 구문이 맞지 않아 아시아 슬래시 사용자를 한 가지 더 추가하겠습니다 슬래시 Cloudera 슬래시 사용자 Cloudera 나는 그것이 사용자라고 생각 구름 주위에 다음과 같이 내 고객을 말할 수 있습니다 이것을 먼저 입력하겠습니다

그러면 이해하겠습니다 이 사람은 세금 세율입니다 나는 당신이 외부를 만들 때마다 외부 테이블 만들기를 말하고 있습니다 테이블 외부 테이블이라고 구체적으로 언급해야합니다 그냥 create table이라고하면 관리 테이블이되므로 create라고 말하면됩니다 외부 테이블이며 이것은 테이블 이름이며이 스키마와 행을 보면 형식이 모두 동일합니다 스키마 나 형식에 차이가 없습니다

또는 고객과의 위치 사용자 클라우드의 차이점 이것은 이것이 Hadoop의 위치임을 의미합니다 당신이 당신의 색조에 갈 경우이 테이블 당신은 당신에게 간다 구름 시대 테이블이있다 내 고객이라고 불리는이 테이블이 방금 생성 된 것을 볼 수 있습니까? 이 안에는 데이터가 없습니다 이점의 장점은 이 테이블에서 별표를 선택하면 XM 외부 테이블을 만들었습니다 레코드-채우지 않은 데이터 테이블을 방금 만들었으므로 데이터가 없습니다 데이터로 채우고 싶다면 데이터로 채우십시오

고객 사본 인 외부 테이블에 언급 된 폴더로 이동 해당 폴더의 데이터가 이제이 데이터를 고객 폴더 Hadoop I의 고객 폴더에서이 폴더를 볼 수 있습니까? 다시 여기에 와서 별을 선택하면이 데이터를 업로드했습니다 20으로 제한 데이터가 있으므로 관리 테이블의 차이점은 무엇입니까? 그런데 기본 테이블 인 관리 테이블의 외부 테이블 테이블을 작성할 때 테이블은 항상 사용자 하이브웨어 하우스에 작성됩니다 그 위치를 찾은 다음 수동으로 데이터를 테이블 외부에로드합니다 table은 외부 테이블을 만들 때 위치를 언급하는 것을 의미합니다 데이터가이 줄을 보면 데이터가 이것에서 나올 것이라고 말합니다 폴더 및이 폴더에 덤프 한 모든 데이터는 관리되는 테이블과 테이블의 차이점이 정확히 무엇입니까? 외부 테이블은 위치만의 차이입니다

예, 차이가 있습니다 위치이지만 실제 질문은 관리되는 테이블을 어디에서 사용할 것인가입니다 외부 테이블을 어디에서 사용할 것입니까? 내가 쇼 테이블을하면 여기라는 테이블이 있습니다 트랜잭션 레코드 이것은 드롭 테이블 pxn 레코드라고 말할 수있는 관리 테이블입니다 그래서 내가하고있는 일은 거래 기록이라는 테이블을 삭제하는 중입니다

이 관리 테이블은이 관리 테이블의 데이터에 어떤 일이 일어날까요? 테이블을 삭제할 때 알기 때문에 삭제 이유가 삭제됩니다 해당 폴더는 hadoop에서 삭제되며 폴더 구조 데이터를 기억하십시오 관리 테이블을 삭제하면 데이터가 사라졌지 만 x10 레코드 삭제 테이블을 수행하면 외부 테이블이 테이블은 사라졌지 만 클라우드 시대와 꼬리와 폴더는 내 고객 데이터입니다 당신이 드롭하면 차이가 차이가 거기에 남아 관리 테이블 테이블이 데이터를 가져 가고 외부 테이블을 작성합니다 테이블 만 공유하므로 데이터를 동일하게 유지하므로 테이블을 공유하려는 경우 다른 사람들과 함께 프로젝트에서 작업한다고 가정 해 봅시다

테이블을 만들고 당신은 당신이 다른 사람과 당신과 테이블을 공유하고 싶다고 생각 누군가 실수로 테이블을 삭제했을 수 있습니다 누군가 실수로 테이블을 훔치면 데이터가 안전하기 때문에 그렇지 않으면 관리 테이블을 작성하여 b-line을 사용하는 방법을 사용하여 b-line이 새 CLI 및 기본적으로 클라우드 VM을 사용하는 경우 서버에 하이브 서버가 있습니다 실행 중이며 기본 포트 번호는 10,000입니다 B 라인에 연결하려는 경우 필요한 모든 것을 보장하는 설명서 먼저 B 라인을 시작해야합니다 이것이 B 라인을 시작하는 방법입니다

사용자 링크 하이 빈 B 라인이라고 말할 것입니다 이것은 기본적으로 B 위치입니다 라인이 설치되어 있지만 배포판마다 다를 수 있지만 클라우드 시대 하둡은 항상 가볍기 때문에 이제 B 라인 CLI를 볼 수 있지만 여기에 표시하면 B 행의 테이블 표시가 발생한다고 말할 때 오류가 발생합니다 연결이 없음을 나타내는 오류 B Line은 안녕하세요 서버와 연결해야하는 클라이언트 B Line은 이제 클라이언트입니다 내가 hi를 누르면 hi를 열었을 때의 차이점 전체 패키지 하이브 그것은 내 고객이 아니지만 내가 라인이라고 말하면 그것은 클라이언트라고 B 라인에서 show table을 말할 때 연결할 수 없다고 말합니다 필요한 서버에 연결하는 경우 서버 해야 할 것은이 녀석들이 당신이 같은 것을 사용할 수있는 연결 문자열입니다 JDBC에서 이미 바쁘거나 이것이 무엇이든 연결 문자열 연결 JDBC 5-2 5-2는 높은 서버 권한을 나타냅니다

기본적으로 숫자 사용자 이름 비밀번호를 지원하는 localhost 로컬로 실행하고 JDBC 대여 드라이버를 사용하므로 바로 연결할 수 있습니다 내가 쇼 테이블을 말하면이 지금 미안 데이터베이스를 표시하면 모든 데이터베이스가 나열되므로 시작 방법입니다 beeline 그래서 당신은 당신에게 당신에게 lib 안녕 beeline 말할 수 있도록 beeline을 시작합니다 beeline은 고객이며 show table을 말하면 아무것도 표시되지 않습니다 서버 연결이 필요하고 연결 문자열이므로 localhost에서 실행중인 localhost에 JDBC 하이브 서버와 연결한다고 말하고 포트 번호 username password hit 입력하면 연결되고 확인되면 연결하면 일반 명령을 입력 할 수 있으므로 어디에 두 번째 man show 데이터베이스에 대한 명령이므로 입력 한 명령입니다 여기 데이터베이스 목록이 있고 명령 행은 거의 높은 천장과 비슷하므로 B 라인 작업을 시작하는 방법입니다

B 라인을 유지하고 싶다면 느낌표 Q라고 말하십시오 귀엽고 매우 중요한 느낌표 q에 대한 명령 이제 Y로 돌아 왔으므로 기울기에서 하이브 서버로 연결하는 방법입니다 당신은 또한 바탕 화면이나 무언가에 기울어 다운로드하고 만들 수 있습니다 모든 명령을 입력하지 않으려면 이제 하이브 서버에 연결하십시오 또는 당신은 당신이 테이블을 만드는 명령을 싫어하고 당신이 할 수있는 모든 올 너에게 괜찮아 그럼 내가 할 일은 여기에 작업 할 데이터를 보여 드리겠습니다 데이터가 있습니다

의료 샘플 데이터에 환자 ID가 있습니다 환자 이름 환자 이름 병원 데이터 이메일 주소 사회 보장 번호의 날짜 질병 당뇨병 발열 감기 ㅋ ㅋ ㅋ ㅋ 그래서 이것은 내가 샘플 데이터입니다 이 데이터를 hi에 업로드하고 기본적으로 데이터를 쿼리하려면 어떻게해야합니까? 감기에 걸리지 않는 모든 사람들의 목록을 얻으려고 물론 명령 줄을 사용할 수 있지만 사용할 수도 있습니다 GUI는 색조로 이동하는 것을 보여줍니다이 데이터 브라우저로 이동합니다 메타 스토어를 클릭하면 메타 스토어 테이블이라는 것이 클릭됩니다

표를 선택하면 데이터베이스를 선택할 수 있으므로 데이터베이스이 데이터베이스를 선택할 수 있습니다 가능한 파일에서 테이블을 생성한다고 말할 수 있습니다 테이블 이름 테스트 테이블을 괜찮게하고 파일을 선택할 수 있다고 말할 수 있습니다 이 의료 데이터가 다음에 말하는 테이블을 만들려는 위치 자동으로 데이터가 표시됩니다 네 데이터는 예처럼 보입니다

다음에 말할 것입니다 또한 자동으로 데이터 유형을 선택합니다 create table이라고 말하면 업로드 한 파일에서 테이블을 만듭니다 하둡에게 지금 나는 진술이나 무엇이든 입력해야합니다 이제 테이블이 생성되면 테이블을 만들 수 있습니다

GUI의 표는 당신에게 필요하지 않은 것을 보여줍니다 이 쿼리 편집기로 이동하여 하이브라는 것이 있습니다 당신은 여기 안녕에 갈 수 볼 수 있습니까 하이브에서는 데이터베이스를 사용해야합니다 테스트 테이블이라는 데이터베이스가 있습니다 이 표를 바로 선택하십시오

그래서 이것은 표입니다 그래서 테스트에서 별을 선택할 수 있습니다 7 번 열이 콜드 인 테이블에서 쿼리를 실행하여 GUI에서 쿼리를 실행하고 결과를 올바르게 볼 수 있는지 보여줍니다 멋진 차트를 만들 수 있고 원하는 경우 차트가없는 것처럼 만들지 않고 모든 바다 스택과 그룹 및 기본적으로 원하는 경우 만들 수있는 모든 것 나는 당신이 파티션에서 쿼리를 실행할 수 있다는 것입니다 하이브 그래서 정확히 하이브의 파티션은 무엇이며 왜 우리가 이것을 올바르게하고 있습니까? 칸막이의 배후에있는 아이디어와 우리가해야 할 일 그냥 당신이 높은 괜찮을 사용하는 프로젝트에서 작업하고 있다고 상상해보십시오

물론 Apache hive를 사용하는 프로젝트에 있고 행복합니다 행복하게 일하고 있고 모든 것이 잘되고 있습니다 관리자가 당신에게 와서 말하기를 상상해 봅시다 Raghu는 당신의 하이브에서 나를 위해 테이블을 만드는 한 가지 일을 모든 판매 데이터를 업로드하여 테이블을 만들었습니다 테이블 판매 데이터 판매 데이터라는 테이블을 만들었습니다

관리자가 영업과 관련된 일부 데이터를 업로드해야한다고 말했기 때문에 그래서 일부 스키마를 사용하여 sales data라는 테이블을 만들었습니다 열과 우리가 지금 상상하고있는 모든 것 당분간 우리는 우리가 관리 테이블에 있다고 가정하고 기본적으로이 테이블을 만들면 테이블이 사용자 하이브웨어 하우스에 저장되고 데이터베이스를 새로운 DD라고합니다 / sales data sales data라는 테이블을 만들면 기본적으로 위치하므로 기본 항목이므로 만들 때마다 관리되는 테이블 테이블 위치는 이제 다음과 같습니다 관리자가 Rahu에게 데이터가 하나 있습니다 관리자가 제공하는 데이터를 테이블에로드하지 않는 이유 파일을 가져 와서 판매 데이터 테이블에로드하도록 요청했습니다

일반적으로 데이터를로드하는 방법을 알고 있으므로 데이터를로드 할 때 데이터를로드 한 다음 관리자가 이 1 월 데이터이므로 1 월 도트 txt라는 파일을로드했습니다 매우 간단합니다 판매 데이터라는 테이블을 만들었습니다 파일을로드했습니다 1 월 도트 txt라고하며 월의 모든 판매 거래가 포함됩니다 1 월은 매우 간단해서 관리자도 행복합니다 무슨 일이 있었는지 당신은 프로젝트에서 작업을 계속 알고 다음 달에 관리자가 와서 우리가 아는 데이터가 더 많은 사람이 싫어서이 데이터는 2 월 왜 테이블에 데이터를로드하지 않습니까 이제 파일이 February dot txt이므로 그러나 2 월 달 데이터는 동일한 테이블에로드되기 때문에 이것은 이제 판매 데이터 폴더 안에있는 구조가 될 것입니다 파일 1 월과 2 월이 맞습니다 아마 이렇게 작성하겠습니다

이해하기 쉽기 때문에 이렇게 말하면 관리자가 Decco라고합니다 데이터가 더 있습니다 데이터가 더 있습니다 March dot txt 그러면 4 월 도트 txt가 어떻게되는지, 그리고 무슨 일이 있었는지 또는 txt가오고, June dot txt가 제공되므로 매월 여기에서 발생하는 일을 매월 데이터를 가져오고 데이터를로드하고 있습니다 판매 데이터라는 테이블이 있지만 데이터가 저장되는 방식은 모두 다르다는 것입니다

1 월 2 월 3 월 4 월 5 월 6 월 모든 파일이 같은 폴더 안에 있습니다 테이블 이름이므로 영업 데이터라고합니다 괜찮다고 생각하지만 문제가 무엇인지 지금 상상해보십시오 이런 식으로 쿼리를 작성하면 쿼리를 작성한다고 상상할 수 있습니다 이 별 선택과 같은 것 월과 같은 판매 데이터 테이블은 4 월에 예, 쿼리하려는 테이블을 쿼리한다고 가정 해 보겠습니다

당신이 말하는 채석장은 무엇입니까? 4 월과 같다는 것은 4 월의 모든 데이터를보고 싶다는 의미입니다 기본적으로 하이브 문제는 4 월 데이터가 어디에 있는지 알지 못합니다 그래서 내가 할 일은 먼저 판매 데이터라는 폴더에 올 것입니다 이 1 월 행 txt 전체를 스캔 한 다음 2 월 행 txt 전체를 스캔 한 후 대량 도트 txt 다음 4 월 도트 txt 다시 일치 한 항목을 찾거나 6 월 txt를 다시 찾습니다 도트 txt는 전체 데이터가이 단일 쿼리 및 쿼리가 정말 느리게 진행되므로 문제는 하둡의 테이블은 폴더와 같으며 계속로드합니다

데이터를로드 할 때마다 데이터가 파일로 저장되므로 이제 단일 파일 안에 6 개가 있습니다 이제 단일 폴더 안에 6 개가 있습니다 파일 1 월 2 월 3 월 4 월 5 월 5 월 6 월 6 개의 파일을 모두 스캔 할 데이터가 어디인지 알고 있습니다 6 개의 파일 모두 최종 결과를 보여줍니다 테이블에 매월 매달 데이터를 계속 추가한다고 상상해보십시오

100 개의 다른 파일을 보여주기 전에이 전체 파일을 어떻게 견뎌야하는지 쿼리 결과의 출력과 분명히 쿼리는 실제로 실제로 정말 느리므로 실제로 데이터가 어디에 있는지 말하지 않습니다 그것은 간단한 문제이며 Kyle은 전체 파일을 스캔하여 결과를 생성해야합니다 이상적으로는 쿼리 속도가 느려질 것입니다 질문은 내 쿼리를 원하지 않는 그런 상황에서 무엇을 할 수 있는지입니다 나는 파티션의 개념이 오는 곳에서 쿼리가 더 빨라지기를 원합니다

하이브에는 파티션이라는 것이 있습니다 정확히 파티션은 파티션입니다 열에서 데이터를 나누도록 하이브에게 알려주는 파티션은 무엇입니까? 열을 기준으로 데이터를 분리하십시오 예를 들어 여기서 말할 수있는 것은 나는 안녕 내가 말할 수있는 파티션을 작성하는 테이블을 기반으로 달 열 그래서 이것은 당신이 하이브에게 말할 수있는 것이므로 안녕하세요 안녕하세요 말할 수 있습니다 한 가지만 내 테이블을 파티션으로 분할하십시오 내가 할 것을 말하면 달 열은 그것이 보일 것입니다

이제 이것을 작성하면 전체 데이터를 먼저보고 1 월에 분명히 전체 데이터의 월 열을 살펴볼 수 있습니다 도트 txt 파일 월 열은 내가 무엇을 할 것인가 1 월 것입니다 Jan이라는 폴더를 만들고이 파일을 팹이라는 것을 만들어 여기에 배치하고 3 월에 배치합니다 여기 미안하고 4 월 여기에 둘 수 있습니다 여기 6 월 여기에 놓으세요 파티션과 월 열을 기준으로 파티션을 만들고 싶습니다 내가 할 일은 전체 데이터에서 열을 선택하고 내 예제에 몇 개의 값이 있는지 이해하고 6 개월의 데이터가 있습니다 자동으로 6 개의 폴더를 생성합니다

1 월 2 월 3 월 4 월 5 월 6 월 모두 1 월 달 데이터는 2 월 동안이 폴더에 복사됩니다 동일한 쿼리를 작성하면 데이터 가이 폴더 등에 복사됩니다 4 월에 해당하는 월이이 항목 만 스캔하는 판매 데이터에서 별표를 선택하십시오 4 월 데이터가 ap라는 폴더 안에 있다는 것을 알고 있기 때문에 쿼리 속도가 훨씬 빠릅니다 파티션은 아무것도 아닙니다

실제로 테이블의 구분입니다 파티션을 만드는 것은 매우 간단합니다 파티션 열을 기반으로 많은 폴더가 생성되며 무엇이든 해당 폴더와 일치하는 기준은 데이터가 해당 폴더로 매우 이동 됨 간단하게 하나 더 이해해야 데이터가 표시 될 수 있습니다 그러면 내가 사용할 데이터라는 것을 쉽게 이해할 수 있습니다 이 데이터에 대한 하나의 레코드를 가져 오면 분할을 위해 이 데이터는 먼저 데이터가 무엇인지 보여 드리고 먼저 데이터를 분석하겠습니다

여기를보십시오 레코드 흠 이것은 하나의 레코드이므로 이름 gerardo 성 보드카 다음 6 9 번 2 번 또는 6 번 잭슨 애비뉴는 국가 다음 주 기본 전화 번호 보조 전화 번호 이메일 아래로 스크롤하면 데이터 인 주소와 웹 사이트 주소가 689 s 스틸 인 janeshia aloe vera를보십시오 캘리포니아 1 번 8 8 7 번 캘리포니아 캘리포니아라고 생각합니다 기본적으로 데이터에 실제로 포함 된 다른 세부 정보가 있습니다 사용자 이름은 괜찮습니다

데이터의 마지막 부분을 보여 드리겠습니다 데이터의 마지막 부분을 보여주세요 예, 여기 있습니다 여기를 보면 길마 류코와 우리에게 다시 주소 전화 번호 이메일 주소 웹 사이트를 통해 이제 두 가지 유형의 파티션이 있으며 정적이라는 것이 있습니다 정적 파티션 분할 및 동적이라는 것이 있습니다

정적 분할은 무엇입니까 동적 분할은 무엇입니까 정적 파티션에서 파티션하기 파티션을 수동으로 만들어야합니다 동적 파티셔닝에서 데이터를 자동으로로드합니다 자연스럽게 생각할 수 있도록 데이터를 감지하고 파티션을 만듭니다 동적 파티셔닝이 정말 좋기 때문에 이것이 적용 가능한 곳 동적 파티셔닝 하이브에서 자동으로 파티션 왜 정적 파티셔닝을 사용해야합니까 바로 이런 데이터가 있다고 가정 해 봅시다 ragu coma 당신은 당신이 알고있는 전화 번호를 알고 당신은 이메일 주소를 가지고 그런 다음 abccom에서 ROM을 알 수 있습니다

자 이제 더 많은 데이터가 있습니다 Tina에게 전화 번호를 말하십시오 abccom의 Tina 이제 aj IJ의 전화 번호가 있습니다 abccom은 당신이 이것을 가지고 있다고 가정하자 현재 데이터는 Raghu와 Ron이 인도에 있고 Tina와 AJ는 미국에 살고 있지만 데이터에서 인도와 미국에 대한 엄격한 열이 없습니다

전화 번호보다 이름이 있고 이메일 주소와 웹 사이트가 없습니다 나라이지만 Raghu와 Ram은 이 경우 인도와 Tina, Ajay는 미국에 속합니다 두 개의 파티션과 파티션을 수동으로 생성 우리는 인도와 우리가 될 것이고 인도의 첫 두 파일과 마지막 두 파일을로드합니다 우리 파일은 정적 분할입니다 정적 파티셔닝의 경우 정적 파티셔닝은 데이터가 집계되어 있음을 알고 데이터 절반을 알고 있음 이 데이터의 국가는 인도 국가에 속하며 데이터의 절반은 미국에 있지만 해당 정보가 데이터에 존재하지 않으므로 귀하가하는 일 정적 파티션을 만들려면 정적 파티션은 데이터를로드하면 인도라는 높은 파티션을 요청할 것입니다

USA라는 파티션을 생성하여이 데이터를 저장하면 데이터를 쿼리 할 수 ​​있습니다 국가와 인도가 같은 내 테이블에서 별을 선택한다고합니다 확실히이 파티션을 쿼리하면 열을 정의하는 것과 같습니다 이제 데이터를로드하는 것이 가장 좋은 방법 인 파티션을 보여줍니다 이 작업을 수행하려면 먼저 VM에 연결해야합니다 그럼 파티셔닝이 어떻게되는지 보도록하겠습니다

이제 제가 할 것은 알았어 내가 먼저 시작 할거야 알았어 내가 먼저 할거야 내가 할거야 하이브를 시작하고 방금 데이터를 보여준 데이터가 있습니다 가장 먼저 할 일은 정적 분할을 보여줄 것입니다 이제 데이터 기반을 보여주십시오 데이터베이스 데이터베이스를 가져와야합니다 휴는 귀하의 웹 인터페이스이므로 기억해야 할 첫 번째 사항임을 기억하십시오 당신은 내 폴더 구조가 그녀의 튜브에 어떻게 보이는지 그래서 내 루트로 갈거야

디렉토리 및 사용자 디렉토리와 하이브 디렉토리가 있습니다 창고 및 Dell DB가 있으며 Dell DB 내부에 이러한 폴더가 있습니다 이제 두 개의 DUI를 진행할 예정입니다 파티션 된 사용자라고하면 테이블 이름을 지정하고 내가 어떻게 있는지 볼 수 있습니다 파티션 테이블을 생성하면 이것이 내 스키마입니다

스키마 후 국가 및 국가별로 파티션을 말하고 있습니다 파티셔닝에 사용하는 모든 열은 외부에 있어야합니다 for 테이블을 생성 할 때 create a 표는 스키마에 문제가 없습니다 하지만 국가와 주별로 나뉘어져 있다는 말은 하이브를 말하는 것입니다 안녕하세요, 저는 테이블을 만들고 있는데 이것은 내 스키마이며 두 개의 열을 사용하여 파티션 국가와 상태를 입력하면 Enter 키를 누르면 하지만 신발을 새로 고침하면 여기가 테이블입니다

테이블 안에 들어가면 파티션 된 사용자가 없습니다 파티션이 없습니다 파티션이 없으므로 파티션을 만들 때 테이블이 없습니다 나누기 그것은 정상적인 테이블입니다이 테이블을 열었습니다

이것을 열면 테이블 파티션 사용자입니다 이제 정적을 생성하기 위해 정적 파티션을 매우 간단하게 작성하는 방법 파티션 당신이해야 할 일은 우리가 이것을 복제 할 데이터를 보여 드리겠습니다 sudo su Cloudera를 부팅하는 세션 괜찮습니다 이 파일을 static이라고하겠습니다 이제 파일을 보여 드리겠습니다

이 파일에는 세 개의 행이 있습니다 데이터와이 파일을 내 테이블에로드하고 지금 파티션을 만들려고합니다 알고있는 파일이 원본에서 복사 된 것임을 완전히 이해합니다 우리가 가진 파일이지만 이것은 시연을 위해 사용할 파일입니다 파티션을 보시면 지금 당장 세 개의 레코드 만 있습니다 그래서 당신은 이름을 가지고 있고 당신은 주소를 가지고 있고 당신은 전화 번호와 이메일 주소 웹 사이트는 내가 할 것입니다

경로에 데이터를 로컬로로드한다고 말하면이 폴더를이 폴더에로드합니다 캘리포니아와 동일한 미국 주와 동일한 테이블 파티션 국가 정적 파티션을 만들고 있는데 이미 테이블이 있고 그 테이블에는 이제 모든 스키마는이 파일을로드하지만이 파일을로드하는 동안 내부에 us라는 폴더를 만들거나 California라는 폴더를 만든 다음 데이터는 현재 미국입니다 내 국가는 캘리포니아입니다 그 안에 여기에 테이블을 만든 다음 내가 말한 데이터를로드했습니다 국가는 미국이고주는 캘리포니아입니다

지금 폴더를 표시하는 방법을 보여 드리겠습니다 델 DB로 가면 색조가 새로 고쳐지면 색조처럼 보입니다이 파티션이 있습니다 그 안에있는 사용자는 Country America라는 폴더가 있고 내 데이터가 있고 내부에 State California라는 폴더가 있습니다 데이터를 보면 데이터가 없습니다 국가가 없습니다

데이터에 열이 있지만 쿼리를하면 여기에 빠지도록 이것을 만들었습니다 data 나는 국가가 우리와 같고 주가 캘리포니아는이 데이터에 착륙하여이를 더 빨리 쿼리해야합니다 이것들은 먼저 테이블을 만들 때 사용되는 명령이며 스키마를 제공합니다 스키마 외부에 파티션 열을 정의하면 이것이 내가하는 일입니다 바로이 스키마 외부의 파티션 열을 찾은 다음 데이터를로드하는 동안 데이터 확인이 데이터가 속해 있다고 말해야하는 데이터 공급 업체에서 국가를 제공해야하는 국가는 매우 간단합니다

state name ok 이제 동적 파티셔닝에 대해 논의 해 봅시다 내가 지금하고 싶은 것은 역동적으로 행동하기 전에 파티셔닝 당신은 우선 몇 가지 일을해야한다 동적 분할 동적 분할을 수행하는 방법을 보여 드리겠습니다 정적 파티션을 사용하도록 설정 한 상태에서 기본적으로 참조하십시오 즉, 하이브는 동적 파티셔닝을 수행 할 수 없으므로 이 명령 집합 하이브를 입력하면 동적 파티션이 실행됩니다

true 즉, 동적 파티셔닝이 가능하다는 것을 의미합니다 노드 당 최대 동적 파티션은 1,000이며 이는 최대 파티션을 의미합니다 당신이 원하는 경우 더 많은 숫자를 줄 수있는 수천이 생성됩니다 난 그냥 천을 사용하여 좋은 소리 ok 당신은 또한 파티션 모드가 엄격하지 않다고 말하고 있습니다 엄격 모드와 비 엄격 모드라는 것이 있으면 OK입니다 동적 파티셔닝을 수행하기 위해 파티션 모드 nonce를 알고 있음 내가 할 일은 내가 당신을 보여줄 것입니다 동일한 데이터 세트로 동적 파티셔닝을 수행하면 정적 및 동적 파티션 지금은 기본적으로 동적 파티션을 사용하도록 설정했습니다

정적 파티션 만 있습니다 이제 내가 뭘할지 봅시다 매우 간단합니다 임시 테이블을 만들겠습니다 이제 임시 테이블입니다

하이브의 개념은 정상적인 임시 테이블과 정확히 유사합니다 임시 테이블을 만드는 방법 임시 테이블은 세션은 임시 테이블을 생성한다고 말하고 이번에는 나는 아무것도하지 않습니다 파티셔닝 당신은 내가 여기에 완전한 스키마를보고있다 참조 일반 임시 테이블을 만들면 아무 파티션도 간단하지 않습니다 임시 테이블 과이 테이블은 임시 밑줄 사용자라고하므로 임시 밑줄 사용자 일반 테이블 임시 테이블 없음 임시 테이블을 만들면 데이터를로드하고 싶습니다 이번에는 데이터를 불러옵니다

어떤 파일을로드하고 있습니까? 고객 데이터 도트 txt이며이 파일은이 파일에 국가 및 주가 있습니다 이 파일에서 작업하고있는 열이 파일에는 국가 및 주에 대한 콜론이 있습니다 좋아, 그래서 나는 파일을 만들고 나서 임시 테이블을 만들고있다 방금 원하는 첫 번째 단계로 데이터를 임시 테이블에로드했습니다 검색어를 작성하고 검색어에 시간이 걸리는지 여부를 확인합니다 이름을 쉼표 전화로 선택합니다

국가가 미국과 동일한 임시 테이블에서 쉼표 1 번으로 전화하십시오 도시 제한 5에 의해 캘리포니아 주문과 동일한 상태는 매우 간단한 쿼리이지만 유일한 조건은 내가 국가를 사용하고 있다는 것입니다 내가 아닌 경우 시간이 얼마나 걸리는지 보거나 보여주기 위해 내 테이블을 파티션하기 때문에 지금은 파티션이 없습니다 쿼리와 쿼리는 물론 실행되는데 시간이 얼마나 걸리는지 봅시다 이번에는 MapReduce 작업이 끝났습니다 85 초가 걸렸습니다 그래서 우리는 그것이 더 빠른지 알 수 있습니다 이제 VM에 ​​앉아서 실행하는 것이 하나 더 있습니다 파티셔닝은 큰 영향을 미치지는 않지만 이제 보여 드리겠습니다

신발에 갈 때 동적 파티션을 만드는 방법 나는이 델 D에 간다 그리고 지금 이것은 내 델 DB입니다 지금하고 싶은 것은 파티션 테이블 그래서 내가 무엇을 할 것인가라는 테이블을 만들 분할 된 사용자는 괜찮습니다 이것은 내 테이블 오른쪽 파티션의 스키마입니다 국가 및 국가별로 시퀀스 파일로 저장됩니다

이것은 선택 사항입니다 텍스트 파일이나 시퀀스 파일 또는 선택 사항이지만 저장할 수 있습니다 이것은 언제든 정적 파티션을 만들 때 사용한 것과 같은 명령입니다 정적 파티션 테이블을 만들고 있었지만 동일한 명령을 사용하지만 여기서 차이점은 데이터에 이미 주와 국가가 포함되어 있다는 것입니다 열은 이제 내가 할 일을 보았으므로 partitioned라는 테이블을 만들었습니다 사용자가 지금 할 일을 봅니다

표에 삽입을 말할 것입니다 파티션 밑줄 사용자 하나의 파티션 국가 쉼표 상태 그래서 내가 말하는 하이브입니다 안녕하세요 임시 테이블의 모든 데이터를 복사하고 이 새 테이블에로드하고 국가 및 주로 분할하십시오 이미 어떤 국가를 결정했는지는 알 수 없습니다

열이 이제 나타납니다 무슨 일이 일어날 지 봅시다 하이브가하는 일은 임시 테이블의 데이터를 들여다 볼 것입니다 국가 상태 열은 국가가 식별 한 국가를 식별합니다 그 많은 폴더와 그에 따라 데이터를 넣으십시오

화면을주의 깊게 살펴보면 하이브를 만드는 것을 볼 수 있습니다 폴더를 만들었으므로 지금 파티션을 작성하고 있습니다 팝업이 나타날 때까지 잠시만 기다리십시오 로딩을 볼 수 있습니까? 파티션 로딩 파티션 로딩 파티션 당신은 그 나라를 볼 수 있습니다 국가 국가 국가 상태이 파일과 폴더를 만드는 것을 볼 수 있습니다 내 휴를 보면 테이블을 분할 밑줄 사용자라고합니다

이 표를 열면 5 개국이 있습니다 오스트레일리아 캐나다 영국 미국 좋아요 폴더를 열면 마지막으로 네 나라가 남습니다 모든 국가는 당신이 데이터를 가지고 있다면 어디서나 생성됩니다 이 상태 중 하나를 열면 해당 상태 데이터 만 가진 파일이 생깁니다 물론 파일은 올바른 형식으로 볼 수 없습니다 시퀀스 파일로 저장하지만 상태 평가 기 데이터가있는 경우에만 여기에 일치하여 국가를 생성하고 있음을 알 수 있습니다

그런 다음 국가 내부에서 오래된 상태를 만들고 파일 내부에 동적 파티션이므로 이제 쿼리 여부를 확인할 수 있습니다 지금은 더 빠릅니다 그래서 내가 할 일은 동일한 쿼리를 작성합니다 파티션 테이블이 더 빨리 실행되고 있는지 확인하므로 동일한 내용을 작성 중입니다 여기에 쿼리하고 마지막 시간에 85 초가 걸렸을 때와 동일한 시간 쿼리하지만 새 테이블에서 발생하는 상황을 확인하십시오

많은 차이가 있지만 시간이 다소 걸릴 수 있습니다 마지막으로 파티셔닝하지 않고 41 초라고 말할 수 있습니까? 이제 쿼리 시간이 쿼리 시간에 영향을 미치는 41 초 밖에 걸리지 않습니다 당신이 빠른 정보 녀석이 될 경우 파티션을 사용할 때 Telepath의 인증 된 빅 데이터 하둡 아키텍트는 완벽한 빅 데이터를 제공합니다 모든 주요 개념을 다루는 하둡 아키텍트 과정 자세한 내용은 아래 설명을 확인하여 종료하십시오 세션이 있으시면 아래에 의견을 보내주십시오 즉시 감사합니다

Azure Databricks for data engineers and data developers – BRK3313

>>> 좋은 아침, 모두 나는 당신이 큰 저녁을 가졌기를 바랍니다 지난 밤

MICROSOFT IGNITE, DAY에 오신 것을 환영합니다 이벤트 중 2 개 내 이름은 바누 프라 카시이고 저는 수석 프로그램 관리자입니다 AZURE 데이터 브레이크 팀 시작하기 전에 많은 사람들의 손길을 얻으십시오 여러분 중 데이터 엔지니어입니다 괜찮아 그리고 당신의 많은 사람들이 데이터 과학자? 괜찮아

그래서 오늘, 나는 그것이 작은 것을 알고 있습니다 데이터 생성을위한 도전 특히 큰 파이프 라인 데이터, 구조 데이터 및 오늘 우리는 당신이 얼마나 쉬운 지 보여줄 것입니다 큰 것을 만들려면 데이터 관로 일관된 파이프 라인 사용하기 쉽고 사용 가능 다른 시나리오 아시다시피, 데이터는 핵심이었습니다 어디에서 전략적 자산 온라인 쇼핑 또는 당신은 어디에 소매점으로 이동하십시오 모든 곳에서 데이터가 추적됩니다 조직이 만들어졌습니다 결정을 내리기 위해 데이터 사용 새로운 비즈니스 모델을 경쟁에서 앞서 나가십시오 그래서 그것은 더 이상 과대 광고가 아닙니다

큰 데이터가 있었고 시도한 조직 모든 데이터를 활용하기 위해 가능한 방법 사실, 당신이 보면 그만큼 통계, 년의 한 쌍 과제에 집중하기 전에 데이터 엔지니어링 및 데이터 분석, 조직에 $ 16를 생성 할 수있게되었습니다 조 그리고 당신은 이 숫자로 인한 서프라이즈 2 년이 지났습니다 그러나 세계 단체는 단지 데이터를 처리하는 데 집중되었습니다 공학 및 데이터 분석 활동 각각의 조합 된 가치 이 단체들은 100 달러와 같은 발전 가능 백만, 다시 한 번 키스톤 2 년 전

그래서 우리 모두는 그 데이터를 이해합니다 더 이상 과대 광고가 아닙니다 더 많은 데이터를 가지고 놀다 마지막 몇 년 그리고 지금 큰 데이터와 모든 탐험과 향상 AI와 다른 기술 다가오는 IT 많은 가치 예를 들어, 어떻게 살펴 보자 쉐브론은 데이터를 사용할 수 있습니다 에 큰 데이터 앞서 가자 에이 보기 >> 일 넥타이 도움 전달 인간의 발전의 에너지

파트너십은 핵심 비즈니스입니다 값 모든 것의 중심에 글로벌 비전 에너 지 회사에 가장 적합한 에너지 회사 사람들과 성과 우리는 전략적으로 이 가치를 공유하는 파트너 작년 10 월에 MICROSOFT는 최고입니다 쉐브론 및 공급 업체 공급 업체 긴 파트너십이있었습니다 목표는 자신을 활용하는 것입니다 TEKT CAL

완벽한 자동화 솔루션 및 제어 제공 밸브 및 최적화 소프트웨어 식물 가동을 돕는 방법 안전하고 최적의 상태 생산 작업하는 것이 문제가되는 경우 쉐브론, 마이크로 소프트는 자연이되었습니다 그들이 많이 건설했기 때문에 선택 AZURE에 대한 훌륭한 기술 구체적으로 타겟팅 산업 IOT 쉐브론에는 많은 검열 기가 있었고 시설을 정리하는 데이터 그러나 에너지에 대한 더 많은 데이터가 필요합니다 소비 식물이 오는 곳 놀이로 >> 첫 번째 부분은 우리는 사용했었다 에머슨 센서 그래서 허용 분석을 수행하기 위해 미국

IOT 정보는 사용할 수있는 데이터 세트 우리의 모든 가치 체인을 최적화하십시오 우리는 5,000보다 더 많은 것을 넣습니다- >>이 통지에 따라 비디오, 그것은 단지 아닙니다 쉐브론, 그것은 어디에 있든 산업 어디에서든 제조 건강 관리, 어디에 있든 어디에서나 뱅킹 새로운 것을 만들기위한 새로운 데이터 세트 사업 모델 건강 관리에 대해 이야기하면 IT AI와 데이터가 치료를 치료하는 데 사용되었습니다 질병과 창조의 새로운 약제 뱅킹에 대해 이야기하는 경우 사기를 찾아라, 그게 다야 데이터에 대해 IOT에 대해 생각한다면 쉐브론의 사례, 귀하는 스트림 소스 데이터가 있습니다 오는 IOT 센서

마찬가지로, 그것이 어디에 있든 교육, 소매업, 전자 상거래, 데이터가 사용되고 있으며 그 방법 조직이왔다 돈을 버는 시간과 시간 를 통한 데이터 사용 사용 가능한 기술 이제 60 분 안에 또는 65 분, 우리 을 통해 걷는 것 무엇에 관한 약관 당신이해야 할 도전 이 데이터를 작성하여 확인 파이프 라인과가는 방법 뒤로,이 기술들 AZURE에서 사용할 수있는 곳 당신이 그 일을 단순화하는 데 도움이 될 것입니다 문제와 창조하고 만드십시오- 이 데이터를 작성하도록 도와주세요 쉬운 방법으로 파이프 라인 권리? 무엇보다도, 무엇보다도 데이터 엔지니어링 하드? 우리는 모두 데이터가 있음을 이해합니다 그 자신의 값 비즈니스 가치를 창출 할 수 있습니다 그러나 데이터 엔지니어링은 아닙니다 쉬운

데이터가 있기 때문에 쉽지 않습니다 하나의 소스에서 오지 않습니다 여러 개의 데이터를 보유하게됩니다 출처 당신은 당신의 데이터를 가지고 온 프레미스, 클라우드, 데이터 입력 다른 시스템 그리고 거기도 있습니다 사용 가능한 데이터-귀하가 좋아하는 경우 생각 실시간 데이터, JSON 형식은 다른 형식 일 수 있습니다 따라서 데이터가 표현됩니다 다른 방법들

날짜 / 시간을 생각하면 필드, 데이터가 될 수 있습니다 여러 가지 방법으로 나타납니다 데이터에 대해 생각하면 IT 또한 좋아하지 않음-모든 데이터가 아닙니다 권리 그리고 당신은 할 수 있어야합니다 파일을 손상시키는 핸들과 데이터 데이터에 대해 생각하면 그것은 구조 데이터가 아닙니다 구조화되지 않은 데이터와 세미 구조화 된 데이터

그것이 어떤 규모인지 성장 크다 당신이 생각하는 경우에 특히 그것은 단지 데이터를 일괄 처리하지 않습니다 스트리밍 및 실시간 데이터 자주 변경되는 데이터 체계 IT STREAMS IN 우리는 A를 가질 수 있어야합니다 만약 그렇다면 계획 변경, 파이프 라인 여전히 튼튼하고 파이프 라인은 여전히 일관성이 있습니다 당신은 방법이 필요합니다 전체 데이터 모니터링 관로

당신은 그것을 확인해야합니다 데이터 파이프 라인의 모든 단계에서 그것이 어디로의 변환인가 의 데이터 또는 분석 데이터, 모니터 가능 이 끝까지 그리고 당신은 조직으로서, 당신은 이봐, 만약에 누군가가 변화를 일으킨다 파이프 라인, 누군가 접근 그들의 데이터, 당신이 만들고 싶어 자동 제어 기능이 있는지 확인하십시오 무엇을했는지 보는 시스템 그리고 다른 곳도 있습니다 전체 종단의 조각 파이프 라인, 당신이 원하는 이용 약관의 원활한 경험 중앙 집중식 영역 확보 모니터 및 작성 A에서 다른 활동 유리의 단일 패널 마지막으로, 당신은 원하지 않습니다 책임에 대한 걱정 인프라 관리 이 파이프 라인 어디에, 당신은 초점을 원하는 비즈니스 문제와 방법 비즈니스 가치에 집중하기 그리고 논리적 인 래더 인프라 관리

따라서 귀하는 약관에 대해 생각할 때 데이터 엔지니어링 시스템 요구 사항, IT 기본적으로 끓는점 세 부분으로 아래로 A에서 자료 관리 관점, 시스템 요구 사항 스트리밍 처리 가능 데이터 및 체계 관리 데이터가 변경됩니다 당신이 있는지 확인하고 싶어 여러 독자와 집필자 같은 데이터의 경우 데이터는 일관된 일관된 견해를 제공합니다 당신은 그것을 확인하고 싶어 데이터는 안전합니다

당신은 그것을 확인하고 싶어 데이터를 만들 수 있습니다 빠른 방식으로 시간을 보내거나 일 몇 초 또는 몇 달 동안 MICROSECONDS가 데이터를 읽습니다 에서 플랫폼 관점, 당신 확실히하고 싶습니까? 책임감있게 리소스 용량 제공 업그레이드를 제공함으로써 쉬움? AN 선을 확인하십시오 인프라는 항상 최신 소프트웨어를 사용할 수 있습니다 올바른 도구가 있어야합니다 통합하여 프로그램 할 수 있습니다 전체 엔드 투 엔드 관로

필요에 따라 변경되는 경우 인프라는 처리 할 수 ​​있습니다 스케일 또는 필요가있는 경우, 인프라가 흔들릴 수 있습니다 그래서 당신은 무엇을 지불하고 있습니다 당신은 사용하고 있습니다 그리고 그것은 가능할 필요가있다 분산 컴퓨팅 처리 광대 한 금액을 처리하기 위해 데이터 그리고 마지막으로, 당신이 원한대로 핵심 비즈니스에 집중하기 관리하는 동안 발생하는 문제 인프라 서비스에 대한 방법 귀하와 그 이후의 관리자를 위해 관리 당신은 돌보는 관리 및 지출 시간 서비스가 확실한지 확인 작동합니다

두 가지 유형의 데이터가 있습니다 엔지니어링 시나리오 고객과 대화하기 첫 번째는 현대의 날입니다 사업을위한 창고 지성 살펴보면 시작 수집 한 데이터에서 수집 다른 출처 데이터가 제공됩니다 구조화 된 시스템

데이터가 제공됩니다 구조적 시스템 귀하는 귀하의 데이터를 이용할 수 있습니다 전제 시스템과 당신은 다른 데이터에서 사용 가능 CLOUDS 첫 번째 단계는 데이터 엔지니어링 파이프 라인 데이터와 조정을 이동하고 싶음 데이터 링크로의 데이터 당신은 만들고 싶지 않아 다른 당신은 어떤 서비스를 원했습니다 이미 이러한 내용을 이해 차이 시스템과 수 이것들로부터 데이터를 조정 다른 시스템과 그 콜드 애자일 데이터 팩토리 75 PLUS에서 데이터 조정 가능 다른 출처 그래서 SQL, IT의 데이터 75 개 이상의 소스를 이해할 수 있음 그리고 그것은 매주 성장하고 있습니다 그때 당신 데이터 착륙 데이터가 손상되고 착륙 한 다음 데이터

그리고 당신이하는 길 AZURE를 통한 변환 서비스가 제공되는 데이터 브릭 하늘빛 데이터가 변환 된 후 그리고 준비하고, 당신이 원하는- 그런 다음 당신은 의미를 만들고 싶어 데이터에서 벗어난 것 데이터를 이용할 수있는 곳 귀하의 데이터 분석가 및 사업 SQL 데이터 창고에서 분석가 그들이 사용할 수있는 곳 심상 변환 부분 같은 것을 유지하십시오 이제 일어날 수있는 일 고급 기계 학습 및 어디서나 SaaS 앱 만들기 변환 된 데이터를 가지고 움직이는 A로 서비스 할 수있는 DB에 SaaS 앱의 소스 하나의 예는 ADOBE 마케팅입니다 실제로 누가 클라우드인가-누가 같은 일을 해왔다 시나리오 데이터가있는 곳 다른 소스에서 조정 AZURE 데이터 팩토리를 통해 데이터가 조정되면 그들은 변환을 시작합니다 활동

변환 후 완료, 데이터 이동 비즈니스 라인 제공 SaaS APPS 이 모든 방법으로 끝까지 끝, 될 수있다 오케스트라 AZURE 데이터 팩토리 수동으로 보관하지 마십시오 데이터가 어디에 있는지 눈으로보고 흐름과 상태 이 모든 것이 자동화되고 예약 및 오케스트라 그리고 만일의 경우에 그것이 실패하면, 당신은 얻을 수 있습니다 알림 및 알림을 받음 그 실패들 그래서 우리가하려고하는 것은 일반적으로 우리가 한 일 우리가 여기로가는 것처럼 다른 주제와 우리 엔드-투-엔드 데모를 가지고 전체를 기다려야한다 65, 의사록 나는 진짜를 보여줄거야 방법에 대한 고객 사례 고객은 할 수 있습니다 엔드-투-엔드 데이터 구축 견해와 그에 따른 파이프 라인 이 방법을 정확히 따르십시오 이야기에 의한 작품 기술 부분 그래서 앞서 가자 AN 예

이 사례에서 문제는 내가 여기에 표시하려고하는 것은 보험 회사 소개 보험 회사, 그들은 이 주장을 자주받습니다 그리고 그들을 위해, 그들은 만들고 싶어 그들이 처리하고 있는지 확인하십시오 청구는 신속하고 매우 빠른 고객에게 행복하고 미국처럼 보여 내 청구가 승인되었습니다 보험 회사에서 또한, 그들은 또한 만들고 싶어 사기가 있는지 확인하십시오 클레임, 탐지 가능 제 시간에 IT가 나오지 않아 사업의 권리? 내가 개인적으로 신청 한 것처럼 지난 5 년간의 청구 그리고 한 번에 아주 행복했습니다

경험과 기회 달과 달처럼 청구를 승인하십시오 그리고 그것은 좋지 않았다 경험 그리고 코스의 우리는 이해합니다 보험 회사에서 원근법, 그들은 만들고 싶다 클레임이 유효하고 부정한 주장이 아닌 진실함 이제이 사례에서 예, 우리가하는 길은 청구 회사는 기존 그들이 알고있는 데이터 셋 이 매개 변수 및 주제 다른 가치, 정책 메신저, 이 클레임은 진짜입니다 최신 데이터 셋을 보유 실시간으로 또는 온다 매주마다 배치 기준 그들은 기반으로 점수를 매기고 싶다 이 기존 데이터 세트, 그들은 기계 학습 모델 만들기 기계 학습을 사용하십시오 A를 예측하기위한 모델 특별한 클레임은 사기입니다 또는 아닙니다

지금해야한다면 상상해보십시오 IT는 한 번뿐입니다 수동 또는 수동으로 수행 할 수 있습니다 어떤 방법을 통해 그러나 보험을위한 상상 회사가 큰 회사 특히 데이터가오고있다 매일 거의 그리고 광대 한 청구의 위엄은 있고 너무 많은 돈이 관련되어 있습니다 당신은 비즈니스가되고 싶지 않아 이 창조의-지출 관리 시간 이것을 만드는 인프라

그러나 당신이 원하는 것은 엔드-투-엔드 시스템 이미 작성 가능 예정된 방식으로 최신 데이터 세트 당신은 기계를 사용합니다 예측할 수있는 학습 모델 데이터 세트, 새로운 데이터 세트 생성 그것은 가능합니다, 예,이 청구는 사기입니다 이 청구는 사기가 아닙니다 그리고 마지막으로, 당신은 이것을 가지고 있습니다 가능한 데이터 변환 A에서 사용 가능하게 만들기 관계 분석 가나 사람들을 그렇게 저장하십시오 클레임에 대한 노력 청구 부서, 가능 결정에 기초하여 결정하십시오 그래서 이것을 통해 가자 이 경우에는이 데이터가 있습니다 내가 말한 것에 대해

이렇게 열어주세요 데이터 세트 이것이 보험 보험 청구입니다 데이터 세트 당신이 보는 것처럼, 그것은 달, 나이, 정책 번호와 다른 가치 그리고 그대로 알다시피 없다 예측 된 데이터 바로 지금처럼, 그것은 단지 새로운 오는 데이터 셋과 나는 내가있는 기존 데이터 세트 청구가있는 가치 사기 또는 아닙니다

그래서 나는 그 데이터 세트를 사용할 것입니다 기계 학습 모델을 만듭니다 내가 기계를 만들 방법 학습 모델은 으로 AZURE 사용 데이터 브릭 제 1 자 완전 관리 운영 할 수있는 서비스 통합 된 스파크 AZURE 에코 시스템 그래서 우리는 그것에 대해 이야기 할 것입니다 세부 묘사 그러나이 목적을 위해 데모, 내가하려고하는 것은 데이터 세트를 사용하여 MA 만들기 린 학습 모델 데이터 과학자로서의 길 그것을 할 것인가, 당신은 AD HOC를한다 분석과 마지막으로, 당신 모델을 평가 한 다음 모델을 출력하십시오

이 사례에서 내가하고있는 일 내 데이터는 AZURE에서 사용 가능합니다 스토리지 및 데이터 활용 탐험, 마지막으로 나는 해요 데이터가있는 방법을 볼 수 있음 교차 분할 및 나는 일을 해요 시각화 및보고 있습니다 이 분석 및 수행 데이터 가공 당신이보고있는 것처럼 통해, 나는 또한 사용 중입니다-나는 이 모델 만들기 라이브러리로도 사용 가능 기계를 다루는 스파크 배우고 싶은 지금 속도 측정 및 모델 수행 마지막으로, 나는 할 수있다 만들어진 모델 만들기 수출 내 시스템 이 목적을 위해, 나는 내 로컬 워크 스페이스에서 내보냈습니다 그런 다음이 전체를 실행합니다 엔드 투 엔드 노트북

이거 먹어 바로 여기에 그러나 데이터 과학자는 시간을 보냈으며 시간이 없다 관리에 대한 걱정 인프라 및 지속 시스템이 작동 중입니다 그들이 걱정해야 할 것은 논리와 그 역시 스파크에서 사용 가능 머신 러닝 라이브러리 이미 사용 가능합니다 그래서 내가 한 일은 내가 가진 것 이 노트를 A에 첨부 실행중인 클러스터 기본적으로 데이터 브레이크 스파크 그리고이 모델은 작성 중입니다 그래서 가자 이제 와서 노트북으로 돌아 가기 이제 저는 그 모델을 가지고 있습니다 내가 원하는 것은 내가 만든 것 기본적으로 점수를 매기고 싶다 모델을 통한 최신 데이터 세트 이전 단계에 있습니다

이전 단계에서 나는 만들었습니다 새로운 모델과 지금 데이터의 흐름이 온다 모델과 예측 청구가 허위이거나 아니 제가 여기있는 방식은 저입니다 다시, 내 데이터 소스에 연결 그리고 내가 연결될 때 내가 갈 데이터 소스 데이터를 표시합니다 이것이 모든 가치입니다 당신이 새로운 것을보고있는 것 우리는 데이터 세트입니다 이

그건 그렇고, 가지고 있지 않습니다 청구가 허위 인 경우 또는 아닙니다 그리고 당신이 보는대로, 나는 사기 탐지 모델 I 이전 노트북에서 작성 그리고 나는 그것을 다시 채점하고 있습니다 최신 데이터 세트 그런 다음 나는 모델과 마지막으로 AZURE DATABRICKS, 우리가 무엇을 공개 미리보기입니다 AZURE DATABRICKS 델타 우리는 우리가 갈 때 세부 사항을 이야기 할 것입니다 을 통하여 그러나 아이디어는 그 것이다 계속하다 데이터 일관성 및 보유한 경우 실시간 배치 데이터, IT가 취할 수있는 통합 된 방식으로 둘 다 관리 따라서 동일하게 사용할 수 있습니다 API의 SORT 이 사례에서 내가하고있는 일 스파크 테이블 생성 및 델타 테이블 생성 후 프레데터 출력 저장 이 델타 테이블

그리고 나는 몇 가지 일을 해요 에 대한 최적화 쿼리의 성능 양육 그리고 지금 내가하고있는 일은 이 단계에서 AS는 말하겠습니다 최신 데이터 제공 그리고 나는 역할을 업데이트하고 싶다 내가 가고 싶지 않은 데이터 돌아온 다음 내 전체를 다시 시작하십시오 관로 래터, 난 그냥 행을 업데이트 할 수 있습니다 같은 보다 빠른 데이터 세트 같은 행 업데이트 데이터 세트 그리고 지금이 데이터 세트를 가지고 어떤 구조로되어 있고 어떤 것이 있는가 가치, 나는 이것을 통해 이것을 강요 할 수있다 클라우드 지원 처리 SQL 데이터 AZURE 창고

그래서 나는이 데이터를 푸시하고 있습니다 스파크에서 데이터로 직접 이것들을 실행함으로써 단지 창고 단계 내가 말하고있어, 이건 내 꺼야 연결 STRING 그래서 SQL에 대한 DATABRICKS 런타임 당신이 할 수있는 데이터 창고 데이터의 이동 및이 간단한 명령이 필요한 곳에 스파크 테이블에서이 데이터 복사 창고 테이블과 IT에 그 데이터를 앞서 가고 움직입니다 데이터가 이동 된 후에는 할 수 있습니다 Power BI를 사용하여 IT에 연결하십시오 그래서 앞서 가자 운영 이

내 스토리지에 연결하겠습니다 사용한 경우 DATABRICKS, 모든 것이 안전합니다 내가 여기서하고있는 일은 사용되는 키 저장 내 AZURE의 스토리지 표시 키워드를 공유 할 경우 데이터 과학자, 그들은하지 않습니다 열쇠를 볼 수 있습니다 그런 다음 저는 앞서 가서 창조합니다 스파크 테이블 이 데이터 프레임을 만들고 그런 다음 나는 앞서 가서 이것을 보여줍니다 여기에 데이터 프레임이 있습니다

그리고 당신이 볼 때, IT는 이들을 보여줍니다 다른 가치 최신 데이터 세트 그리고 마지막으로, 나는 앞서 갈 것이다 그런 다음 실행 이 모델과 지금 나는 모델로 데이터 세트 점수 내가 가져 왔던 것 이 최신 수첩 미리 가서 이것을 실행하십시오 A로 델타 테이블, 내가 말하는 약

따라서 DATABRICKS도 옵션입니다 모든 것을 실행하지만 나는 앞서 갈 수있다 노트북을 만들면서 데이터 엔지니어로서 나는 갈 수있다 이 코드를 미리 작성하고 작성하십시오 단계별로 IT를 실행할 수 있습니다 하지만 기본적으로이 시점에서 저는 그것이 보여 질 준비가 되었습니까? 조작이 완료되었습니다 내 노트북 모두 깨끗하며이 작업을 수행 할 수 있습니다 예정된 방식으로 당신이 볼 수 있듯이, 나는 가능했습니다 이 델타 테이블을 업데이트하려면 내가 얻은이 새로운 기록 그리고 마지막으로 다 했어요 이 데이터를 SQL 데이터에 푸시 창고

그래서 나는 계속해서 연결됩니다 이동의 일부로 스토리지에 스파크에서 SQL 로의 데이터 데이터 창고, 나는 A를 사용한다 임시 저장 계정 및 우리는 우리가 진행하는 건축 슬라이드 연결을 설정 중입니다 계정을 저장하고 다시 저장 비밀 키를 사용함으로써 SQL 데이터에 저장됩니다 창고 그리고 이것이 데이터 프레임입니다 SQL 데이터로 이동하고 싶습니다 분석가를위한 창고 IT 사용 그래서하자 미리 가서 이것을 실행하십시오 내가 여기서하는 일은 데모 목적

기계 학습 모델 당신이 원하기 때문에 창조되었습니다 어셈블러와 같은 입력 사항 또는 내가 A에 넣을 때 인덱스를 STRING 기계 학습 모델, 원하는 고가의 구조로 이동 DATA to SQL 데이터 창고 당신은 이것을 움직이고 싶지 않거나 기계에 사용 된 다른 입력 학습 모델 그래서 저는 기본적으로 그것을 삭제합니다 이 높은 가치를 창출하는 가치 데이터 그리고 마지막으로, 나는 앞서 갈 것이다 그런 다음이 데이터를 SQL로 이동 데이터웨어 하우스

그래서 나는이 명령을 가지고 있습니다 여기서 일어나는 일은 전부입니다 생성 된이 스파크 테이블 SQL 데이터로 이동 창고 이제 내 노트북이 전부입니다 달리기 벌금, 나는 가고 싶다 이 엔드 투 엔드 오케스트라 보험 회사이기 때문에 내가하고 싶은 일은 확실합니다 최신 데이터 세트가 등장함에 따라 저는 새해 점수를받을 수 있음 모델 기반의 데이터 셋 나는 이것을 실행할 수 있습니다 일반적인 기초 그래서 앞서 가자 AZURE 데이터 확인 공장 죄송합니다

일어난 일 이보기? 따라서 AZURE 데이터 공장은 완전히 통합 관리 서비스 미리 보자! 보기에서 괜찮아 그래서 난 당신을 조심하고 싶지 않아 이 파이프 라인을 사용하면 간단한 파이프 라인으로 시작하십시오 이 사례에서 무엇을 나는 일을 해요 내 데이터가 있습니까? 다른 출처와 데이터 복사했습니다

일부 시작하고 싶습니다 나의 변신 활동 당신이하는 길은 당신이 창조하는 것입니다 연결과 주제 연결은 원래 컴퓨터 구축 우리가 이야기 한 데이터와 AZURE를 사용하는 AZURE 데이터 공장 데이터 공장, 연결할 수 있습니다 75 가지 다른 소스 새로운 연결을 만들어 보자 서비스 당신이 볼 수 있듯이, 당신은 스크롤 할 수 있습니다 모든 데이터를 통해 다운 지원되는 출처 및 귀하의 의견에 따라 출처 또는 목적지 그리고 컴퓨팅, AZURE의 일부로서 DATABRICKS를 통해 사용 가능 트리거 할 수있는 위치 AZURE의 노트북 활동 데이터 팩토리가 없어서 데이터 엔지니어처럼 가려면 이 노트북을 얻은 후에는 당신은 갈 필요가 없습니다 IT 오케스트레이션을위한 데이터 브릭 래터, 넌 할 수있어 IT 오케스트라 AZURE 데이터 공장에서

그것은 최초의 패리티 서비스이며 연결을 만들어 봅시다 AZURE BLOB STORAGE 서비스 당신이 여기서 무엇을 볼 수 있는가 데이터로 사용할 수 있습니다 엔지니어, 말하지 말자 비밀을주고 싶다 스토리지를 보호하기위한 인증 당신은 관리되는 것을 사용할 수 있습니다 서비스 아이덴티티 및 IT는 할 수 없습니다 블록 스토리지를 보호하기위한 지표 AZURE에 대한 주어진 액세스 권한이 있습니다 의 데이터 공장 서비스 스토리지와 그 다음에 나아갈 것입니다 특정 지점을 사용한 다음 그냥 가서 시험 해봐 그만큼 연결 그리고 당신이하는 일, 그것은 만들어 질 것입니다 이 링크 된 서비스 이 경우 귀하는 연결이 있었다 성공과 나 연결된 링크를 만들 수 있습니다 서비스

이 링크 서비스는 만든 다음 사용할 수 있습니다 보관 끝점은 A로 작동 나의 출처 또는 목적지 데이터 이동 마찬가지로, 나는 앞서 갈 수 있고 AZURE를위한 링크 서비스 생성 트리거 할 수있는 위치 노트북 활동 내가 다시 돌아 가면 말해봐 내가 보여준 파이프 라인, 이 경우-이 경우 복사 데이터 당신이 볼 수 있듯이, 나는 볼 수 있습니다 출처 이 경우 소스는 세 가지 목표

목적지는 AZURE BLOB입니다 저장 이것은 내가 링크 서비스를했다 내가 만든 다음 통과 할 수 있습니다 일부 매개 변수 또는 기능 이진인지를 지정하십시오 복사 또는 전체 데이터 복사 및 사용자 속성 DATABRICKS 사이트에서 내가 무엇을 링크를 만들 수 있습니까 A를 통한 서비스 및 활동 이것과 연결된 파이프 라인 서비스와 당신이해야 할 길 연결되어 있습니다 서비스

설정으로 이동하면 무엇을 당신은 할 수 있습니다 AZURE 데이터에 연결 해제 Workspace, 브라우징 가능 당신의 노트북을 통해 데이터 과학자들은 그냥 노트북에서 선택하십시오 이리 이 사례에서 다시 돌아 가면 내 DATABRICKS 워크 스페이스에 이것들은 모든 디렉토리입니다 및 노트북 이용 가능 나는 URL을 복사하지 않아도됩니다 제 1 자 서비스로서, 저는 모든 브라우징 가능 노트북 및 선택 A 특별한 노트북과 나는 할 수있다 AZURE에서 노트북 실행 데이터 공장 ITSELF 이제이 것이 만들어졌습니다

앞서 나가고 도망 칠 수있다 파이프 라인이 미세한 지 확인하고 그런 다음 트리거를 사용하여 스케줄하십시오 이제 이것이 가능합니다 앞서 가자 실행하자- 실제로 실제 파이프 라인 실행 만들어진 그래서 가자 앞뒤로 줌 작은 비트 볼 수 있습니까? 괜찮아

그래서 내가하고있는 일, 이건 사례,이 데이터를 사용할 수 있습니다 내 온 프레미스 시스템 이것은 네트워크에 연결되어 있습니다 공유 및 모든 내 데이터는 이 원본의 시스템에서 착륙 데이터 폴더 마지막 10 일 동안 내 폴더로 이동, 나는이 원본을 가지고있다 폴더와 최신 보험 청구 파일을 사용할 수 있습니다 그래서 나는이 남자로 돌아가서 내가 확인해야 할 것은, 이봐, 나 데이터 세트가 있는지 확인 내 원본 폴더에서 사용 가능 이 특별한 날짜 그런 다음 데이터 집합이 사용 가능합니다

복사 작업을 시작하십시오 내 데이터를 복사하고 있습니다 보호 및 전제 전제 또한 내 일부를 가지고 싶어 경쟁사 데이터, 파트너 데이터 다른 스토리지에서 사용 가능 체계 그래서 BLOB STORAGE에 연결 그리고 데이터 세트가 아니라고 말하자 유효한 파이프 라인을 채우고 데이터 세트를 사용할 수 없으며 나를 통지 일부 실패 활동 데이터를 사용할 수있는 경우 활동과 트리거 시작 그만큼 EPL 파이프 라인과 IT 완료되면 이동하고 싶습니다

BLOB 스토리지에 대한 데이터 및 데이터를 다시 내 위치로 이동 전제와 실천 전제로 시스템 전제 그러니 앞서 가자 디버그를하자 운영 AZURE와 관련된 것 중 하나 데이터 공장, 통과 가능 매개 변수와 당신은 할 필요가 없습니다 수동으로 IT를 전달하십시오 시스템, 데이터가 있다고합시다 일부 날짜 형식으로 착륙 특정 형식 당신은 계속해서 읽을 수 있습니다 폼 메이 츠

그리고 통과 될 수있는 다음 세트의 매개 변수 활동 9시 25 분이라고합시다 앞서 나가서 달려 가자 전날 그래서 나는 계속해서 23 번째를 사용할 것이다 그리고 입력 폴더에 BLOB 스토리지, IT는 923을 만들 것입니다 출력 폴더를 만듭니다 이것은 청구서 파일입니다

그런 다음 이메일을 제공합니다 신분증 파이프 라인에 관한 것 전자 메일을 보내주십시오 그런 다음이 소스 부분입니다 내가 할 것이다 몹시 떠들어 대다 그리고 그것은 실제로 실행하고 실행이 시작되면 이 모니터는 직접 실행됩니다 데이터 공장에서 데이터를 벗어나지 않습니다 공장 나는 단지 데이터 공장 IT 찾아보기 및 사용 중 진행 상황, 일부 말하자 포인트 수동으로 IT를 트리거하고 있습니다

그리고 나는 달리기를 판매 할 수 있고 앞으로 나아갈 것입니다 복사 활동 복사 활동을 시작했습니다 이제는 실행되는 동안 그대로 두십시오 달리고 나는 당신을 보여줄 수 있습니다 당신이하는 다른 기능들 AZURE 데이터 공장으로 할 수 있습니다

당신은 앞서 가고 트리거 할 수 있습니다 당신이 이것을 가지고 싶다고합시다 파이프 라인은 스케줄대로 실행 기초 새로운 트리거를 만들고 기본적으로 이것처럼 트리거를 생성 한 사례 A에서이 작업을 실행할 위치 매일 기초하지만 당신은 가지고 새로운 트리거를 생성하는 옵션 그리고 심지어 A로 돌아갑니다 텀블링 창 그것은 사용할 수 있다고 말해 보자 마지막 두 달 동안 실행 가능 마지막 2 일 동안 매일 달과 그때부터 시작 최신 데이터 세트 또는 잘 스케줄대로 넣어 두십시오 IT가 실행되는 동안 가자 모니터링 부분으로 돌아 가기 우리는 어떻게 하드에 대해 이야기 엔드 투 엔드 모니터링 파이프 라인과 모니터하고 싶다 일부 시스템을 통한 IT IF의 경우에 귀하에게 통지 고장 또는 뭔가 잘못되면 이벤트 파이프 라인

그래서 이것들은 내가 실행 한 것이 었습니다 DID 과거와 당신이 봤 듯이 실패 또는 성공을 봅니다 잘 통지 전적으로 그리고 기본적으로 갈 수 있습니다 활동에 따라 드릴 다운 우연히 있다 알다시피, 이것은 룩업 활동 및 IT 출력으로 잘 입력하십시오 또는 당신이 모델을 볼 경우, 내가 가면 미리, 그것은 나를 보여줄 수 있습니다 산출 이걸 클릭하면 IT 의 URL을 취할 것입니다 발생한 데이터 브릭 사이트 실행되었습니다

이것은 당신에게 정확한 것을 보여줄 것입니다 모델 제작 파이프 라인 및 모델 제작 노트 이를 위해 만들어진 과학자 특별한 달리기 아시다시피, 이것은 동일합니다 우리가 간 노트 내가 여기로 돌아 오면 파이프 라인, 이것이 변형 된 노트북 그것은의 링크를 제공합니다 URL 당신이 그것을 복사하고 있다고 말합시다 이 BLOB를 볼 수 있다는 점 보관 및 복구 온 프레미스 파일 시스템 따라서 달리기를 살펴 보자

그리고 그것은 약간의 시간을 실행하는 것입니다 그러나 나의 이전을 위해 기본적으로 런, 다시 돌아 갑시다 온 프레미스 시스템 그래서 내가 다시 내 모험으로 돌아 가면 스토리지, 내가 여기있는 것은 폴더가 생겼습니다 만들어진 데이터가 가장 먼저 파악 된 다음 출력 폴더는 어디에 프로세스 데이터가 사용 가능한 후에 가능했습니다 DATABRICKS가 모델을 예측했습니다 최신 데이터 셋을 예측하고 그리고 이것은 출력입니다 유효한 같은 데이터 셋도 있습니다 온 프레미스에서 사용 가능 내가 오케스트라했기 때문에 데이터를 이동시키는 시스템 나의 전제에 체계 당신이 볼 수 있듯이, 분명히 특별한 경우의 선구자 청구는 허위이거나 아닙니다 이 방법으로 모든 작업을 수행 할 수 있습니다 자동화 된 주자의 하루 당신없이 행동에 대한 걱정 수동으로

사용 가능한 경우 내 SQL 데이터 창고 및 당신이 본 것처럼 노트북 데이터를 SQL로 옮기고 있습니다 데이터웨어 하우스 쳐다 보자 수첩 그리고 당신이 볼 수 있듯이, 나는 움직입니다 데이터는 SQL 데이터 창고 명령 실행 명령 사용 이 노트의 일부 나는 내 앞에 가서 연결할 수 있습니다 POWER BI 및 A에 연결 SQL 데이터 창고

로드하고이 상태로두기 내 SQL 데이터 창고 따라서 서비스를 사용하십시오 이제는 계속 될 것이며 데이터 창고에 연결 예 이것은 당신이 보는 것처럼 어디에 있습니까 정확한 테이블은 이동의 일부로 생성 스파크에서 데이터로 없이 직접 창고 데이터를 이동하기 위해 필요 링크 및 데이터 창고 이 경우와 마찬가지로 IT 직접 연결 및 이동 스파크에서 데이터 창고까지

그리고 이것은 통해 오케스트라됩니다 JDBC 그러나 모든 움직임 자료 통해 발생 데이터 창고에 대한 기술 대지 그리고 그 때문에 데이터 무브먼트는 훨씬 빠릅니다 마찬가지로, 나는 앞서 갈 수있다 내 SMS 스튜디오에 로그인하고 앞서 가서 결과를보십시오 비즈니스 분석가로서 더 길고 가야 변환 엔진에 래터, 나랑 연결 중이 야 데이터 창고 계정 및 수 결정을 내리고 창조하십시오 내 힘에 대한 시각화 차트 BI 실습으로 돌아가겠습니다 로딩 중 프리젠 테이션 그리고 각각의 주제에 대해 이야기하십시오 다른 기술이 사용되었습니다 당신을 위해 그렇게 쉽게 만들기 최종 사용자가이 내용을 작성 엔드 투 엔드 빅 데이터 파이프 라인 다른 사람을 통해 우리가 할 수있는 기술 다음 30에 관한 이야기 의사록 이 최신 데이터를 제공합니다 보관

세 단계가 있습니다 먼저 데이터를로드하십시오 데이터가로드 된 후 데이터를 처리합니다 데이터를 처리 한 다음 그런 다음 데이터를 제공하고 수행하십시오 일부 분석

그리고 이것은 실제로 실제입니다 산업 및 일부 루비 클라우드와 같은 고객 이 예는 같은 일을하고 있습니다 의회 그들은 데이터를로드 할 수 있습니다 그것을 변환하고 어떤 일을 분석 그리고 그들은 이것을 A로 만들었습니다 소매상을 통한 플랫폼 그들의 회사 기계를 제공하는 고객 그들이 배우는 플랫폼 고객에게 다음과 같은 통찰력이 있습니다 고객 활동 및 그들이 할 수있는 것에 기초 동작 카니발에 대해 이야기하는 경우 순항, 그들은 언제 예측할 수 있습니다 장비에는 어떤 것이 필요합니다 교체 또는 수리 동일한 데이터 활동 사용

또는 우리는 이야기 제품과 같은 제품 LYSOL 그리고 그들은 실시간을 갖고 싶어 특별한시기에 대한 분석 SKEW가 잘 수행되고 있는지 여부 실행할 수 있는 그리고 그들은 통찰력을 갖고 싶어 그와 그들에게 또 다시 이 현대 창고 사용 다른 사람을 통해 제작에 도움이되는 기술 어떤 의미와 제공 통찰력 이제 이야기 해 봅시다 자세한 내용은 다른 단계 우리는 데모를 통해 갔다 첫 단계로서 우리는 이야기 데이터 섭취에 대해

구조화되지 않은 데이터가 될 수 있습니다 그런 다음 구조화되지 않은 데이터 구조와 토지를 할 수 있습니다 SQL 데이터베이스의 구조 이것이 정확히 의미하는 것 AZURE 데이터 공장으로서, 그것은 완전 관리 형 데이터 통합 서비스 데모에서 알 수 있듯이 오케스트라 엔드-투-엔드 파이프 라인 UI를 클릭하십시오 프로그램도 가능합니다 IT와 사용 파워 쉐어 및 오케스트레이션 전체 종단 간 흐름 사용 아피스 우리가 말했듯이 다른 데이터를 사용할 수 있습니다 출처가 아닌 온 프레미스, 다른 것도 마찬가지 단단함과 욕심

당신은 이것을 설립하고 싶습니다 데이터가있는 하이브리드 모델 사용 가능한 온 프레미스 및 클라우드 AZURE 데이터 공장이 제공하는 것 당신이 할 수있는 역량 하이브리드에이 파이프 라인이 있습니다 사용 가능한 데이터가있는 모델 다른 시스템과 당신은 할 수 있습니다 앞뒤로 이동 다른 시스템 75 개 이상의 커넥터와 성장하고있는 사실, 당신 걱정할 필요가 없습니다 다른 커넥터 생성 당신 자신 래터, 당신은 이것을 사용할 수 있습니다 과학 기술 완벽하게 도움이되는 데이터 육성 그리고 당신의 누구를 위해 AZURE SI에 투자했습니다 패키지, 같은 것을 사용할 수 있습니다 SSI 패키지 및 AZURE로 실행 걱정하지 않고 데이터 공장 기본 구조에 대해

그리고 마지막으로, 당신은 모든 것을 할 수 있습니다 모니터링 파이프 라인은 쉽게 끝납니다 A를하는 것에 대해 걱정하지 않고 수동 모니터링 서비스 모니터를 종합적인 파이프 라인 에 대한 당신 지금, 당신이 무엇을 보면 AZURE 데이터 공장의 핵심 건축에서 관점, 당신이 사용하는 경우 아주 중요한 데이터 이 AZURE 통합 생성 엔진이있는 실행 시간 실제 데이터에 대한 책임 운동 그리고 당신은 걱정할 필요가 없습니다 약 생성 및 로딩 소프트웨어 IT는 당신을 위해 그것을합니다

지금 시나리오가 있다면 데이터 이동이있는 곳 온 프레미스 또는 뒷면 및 앞뒤 그렇다면 당신이 가진 것은 통합 실행 시간 및 그 데이터 이동에 대한 허용 하이브리드 모델과 IT 지원 IT와 당신 기술은 안전하다 그리고 마지막으로 중요한 것 여기에서 언급하는 것은 A와 같습니다 준수 관점, IF 당신은 움직이는 것에 대해 생각하고 있습니다 한 지역의 데이터 다른 지역의 호주 호주, IT는 같은 지역 명령은 기반이됩니다 당신이있는 곳 호스트와 명령은 그러나 거기에서 올 수 있습니다 실제 데이터는 남기지 않습니다 지리학 적 경계 당신은 원하지 않습니다 이제 우리가 얘기 한 내용 데이터 당신을 위해, 섭취 다시 돌아 가면 알려드립니다 차트, 우리는 데이터를 시작했다 섭취 및 기계 학습 모형 또는 도표 분석과 지금 당신은 당신이 그것을 사용하고 싶어 엔드 투 엔드 파이프 라인 AZURE 소개 DATABRICKS 그래서, 우리가 말한 것에 대해 대부분의 나쁜 시나리오 시나리오 매주, 매일 또는 사용할 수 있습니다 어떤 기초

당신은 또한 실시간 데이터를 가지고 있습니다 그것에서 스트리밍되는 것 IOT 센서, 같은 쉐브론 AZURE DATABRICKS로 IT 손잡이를 기반으로 할 수 있습니다 같은 기술을 사용하십시오 뿐만 아니라 배치 스트리밍 및 당신은 통해 데이터를 섭취 할 수 있습니다 AZURE 이벤트 허브 또는 AZURE IOT 바퀴통 데이터가 수집되면 귀하는 AZURE DATABRICKS를 사용하여 데이터를 변환하십시오 그래서 당신의 많은 부분이 있습니다 AZURE DATABRICKS가있는 가족? 괜찮아

AZURE DATABRICKS는 제 1 자 완전 관리 AZURE에 대한 분석 서비스 사용 가능한 GS 서비스입니다 이 년의 시작부터 그리고 우리가 한 것은 SPARK의 창조자, 회사 전화 DATABRICKS와 우리 그들과 함께 만들기 이 제 1 자 제공 이것이 귀하의 데이터에 제공하는 것 과학자 및 비즈니스 분석 데이터를 처리하기위한 단일 플랫폼 분석 및 데이터 공학 그리고 비즈니스 분석을하기 위해 결과를 살펴보십시오 퍼스트 파티 서비스로서 귀하는 통해 갈 필요가 없습니다 다른 회사 래스터, 당신은 단지 이 서비스를 받기위한 MICROSOFT

그래서 당신은 통해 청구 MICROSOFT, 지원을 통한 지원 마이크로 소프트 최초의 패리티 서비스로서 IT 아주 잘 통합 너의 에코 시스템 데모에서 알 수 있듯이 데이터와 추적을 할 수있다 데이터 브레이크에 대한 노트북 활동 AZURE 데이터 팩토리를 통해 데이터를 이동하려는 경우 일러스트레이션, 당신은 연결할 수 있습니다 이벤트 허브를 확보하고 그대로 사용되는 스트리밍 데이터 AN 입력 또는 이동하려는 경우 데이터 변환 및 사용 가능 SQL을 연마하기위한 AZURE 데이터 브릭 창고 의미하는 바 퍼스트 파티 서비스, 당신은 용도 시나리오 현대 데이터 창고 또는 현대 고급 분석 현대 앱

그리고 그 통합으로 인해 최종 사용자로서 귀하에게 아주 완벽한 경험 그래서 당신은 당신의 사업에 집중 제목과 필요가 없습니다 인프라 스트럭처 관리 서비스 개최 중요한 것 중 하나 퍼스트 파티에도 제공 서비스와 통합 직접주의하십시오 당신의 팀이 걱정하는 이봐, 어때? 인증이 발생합니까? 새로운 것을 만들어야합니까 아이덴티티 공급자? 로컬 사용자를 만들어야합니까 그것에? 아니 AZURE DATABRICKS로 AZURE 디렉토리와 통합 AZURE에 사인온 할 수 있습니다 데이터 브레이크 노트 AZURE 활성 디렉토리

그리고 그건 그렇고, 이것은 아닙니다 단일 사용자 귀하의 데이터 과학자들은 공동 작업 및 제작 알고리즘과 데이터 공학과 그 모든 것 사용하여 공동 작업 가능 동일한 자원, 동일한 설정 노트북의 동일한 클러스터와 올바른 설정 액세스 제어 따라서 인증 빌딩이 있습니다 그래서 모두가 가지고 있지 않은 모든 데이터 또는 모든 관리 옵션 이것이 무엇을 다루는가 데이터 변환, 변형 데이터를위한 엔진 도움말 공학 예를 들어 봅시다

이 사례에서 LENOX는 어떤 다시, 데이터를하고있다 그것들이 사용될 때의 분석 분석을위한 데이터 브레이크 6 시간 동안해야 할 일 14 세 미만을 가져 가지 않아야합니다 보다 많은 시간을 처리 할 수있는 시간 8,000 그리고 이것은 포함되지 않습니다 배치 데이터는 물론 실시간 보는 바와 같이 스트리밍 데이터 이 예에서 우리가 다른 사람에 대해 이야기했듯이 개인, 데이터 엔지니어 및 비즈니스 분석, 이들은 세 가지 다른 사람 노트북으로 데이터 브레이크를 사용할 수 있습니다 그들의 활동을 위해 이제는 데이터 브릭이 어떻습니까? 다른? 실행, 스파크 생성 온 프레미스 시스템 우리가 사용하고 있기 때문에 DATABRICKS는 스파크, 데이터 브릭의 창시자 지속적으로 추가되었습니다 최적화 된 기능 클라우드를위한 최적화 에 대한 조직의 사용 사례 분석 및 데이터 공학

예를 들어 이야기하면 성능, AZURE 정보 스파크와 비교 한 데이터 브릭 매우 빠르며 훨씬 빠릅니다 10 배 이상 우리는 AZURE 델타에 대해 이야기했습니다 AZURE에서만 사용 가능 DATABRICKS 우리는 앞뒤로 움직입니다

그리고 그것은 또 다른 능력입니다 AZURE와 함께 사용 가능 DATABRICKS 그리고 우리는 그것에 대해 이야기했다 AZURE를 통한 인증 예배 규칙서 AZURE를 통해 사용 가능한 DATABRICKS 다른 모든 것 통합, 모든 사용자 주변의 경험 경험은 다음의 역량입니다 확장 성, 공연, 독립적 인 확장 성 AZURE 데이터 브레이크에서 확장 가능 무엇을 찾아야합니까? AZURE의 일부로 불꽃 완전히 관리되고 있지 않습니다 관리에 대해 걱정해야합니다

인프라 스트럭처 당신은 지원합니다 그래서 당신의 데이터 과학자들과 엔지니어는 걱정할 필요가 없습니다 IT 관리에 대해 인프라에서 관점, 두 가지가 있다면 같은 것을 사용하는 데이터 엔지니어 클러스터에 따라 지불, 계산은 자동 일 수있다 당신이 통지 한대로 건축, 컴퓨터 또는 변신은 어려워 DATABRICKS 둘 다 독립적이기 때문에, 그들은 독립적으로 둘 수 있음 스케일

사실, 클러스터는 자연의 가족 당신은 아래로 규모를 줄일 수 있습니다 ONENOTE 또는 당신은 그것을 일시 중지하거나 그냥 종료하거나하자 클러스터를 종료합니다 그래서 당신은 걱정할 필요가 없습니다 그것이 있다면 계산을 위해 사용하지 않습니다 자동 스케일에 대해 생각하면 가장 중요한 스토리지 당신 알다시피, 알다시피 특히 기술 AZURE DATABRICKS, 우리가하는 일 보관 및 가져 오기 지역 컴퓨팅으로 로컬 컴퓨팅에서는 데이터가있는 로컬 SSD 작업량에 따라 결정 기계 학습처럼 또는 분석, 데이터가 사용됩니다 에서 성과는 아주 많고 더 빠릅니다 그리고 로컬 SSD는 용량이 부족한 경우 A 후에 자동으로 스케일 가능 임계 값은 미터입니다

따라서 AZURE 데이터 브레이크가있는 곳 데이터로 당신에게 가져옵니다 약관의 과학자 성능과 기능 그리고 우리는 스파크를 알고 있습니다 노드가 다운되면 작업이 종료되지 않습니다 직업 수 다음 서비스 당신의 직업은 여전히 ​​보장됩니다 운영

이제 AZURE 데이터 팩토리와 함께- 미안, AZURE DATABRICKS, IT 당신의 언어와 형식 그리고 당신의 데이터 노트북을 만들 수 있고 당신을 위해 그 노트북 분석가에게서 나오는 배경, SQL 또는 SPARK를 사용하거나 비둘기 우리가 이야기 한 것처럼 DATABRICKS, 당신은 연결할 수 있습니다 다양한 출처 데이터가 COSMOS DB 또는 BLOB에 있음 데이터의 저장 또는 위치 AZURE 데이터 SQL 창고에서 이용 약관 형식, 스파크 사용 강화 된 형식 성능 이유 의미하지 않는 것 DATABRICKS는 지원하지 않습니다 다른 형식

데이터가있는 경우 CSV 또는 JSON, 모든 형식을 사용할 수 있습니다 이제, 가져 가자 의 예 파이프 라인에서 제공되는 방법, 이 사례의 JSON 데이터 및 IT 당신이 할 수있는 것 그렇게 구체적으로 가치를 부여합니다 데이터 프레임에서 사용 가능하지만 새로운 칼럼을 만들 수 있습니다 제공 할 수 있습니다 선택 사항- 당신이 말할 수있는 곳이 있다면 불량 데이터 또는 컷업 데이터 생성 나쁘지 않은 데이터 프레임 데이터 또는 특정 실패 빠른 경우 잘못된 데이터가 오면 실패 예외를 맡거나 제공하십시오 실행 중에 잡을 수있는 것 타임 매너 어떻게 예를 들어 보자 이 SCHEMA MISMATCH와의 거래

이 경우에는 말할 수 있습니다 데이터와 스파크 및 주제 값이 길다 또는 가치가 변하면 입력하십시오 이 모든 스키마는 파일을 열려면 이렇게 당신이 할 수 있도록 성능이 내려갑니다 SPARK, HEY, 사용자가 정의 할 수 있음 그들의 자신의 스키마와 스파크 스키마 입력을 재사용 할 수 있음 데이터가 들어옵니다 이 사건에서, 나는 말하고있다 이봐, 이건 스키 마야 그리고 지금 나에게 가치를 보여줘 이제 우리처럼 이야기 하나의 시나리오가 있습니다 배치 관리자와 공유하지 않음 인증을받을 수없는 특정 조직 시나리오 인 경우 시나리오 데이터, 당신은 만들고 싶지 않아 결정

래터, 당신은 사용하거나 만들고 싶어 실시간 관리자의 결정 이를 위해이 소개는 미국을 소개합니다 환상적인 시나리오로 우리는 AZURE에 대해 이야기했습니다 DATABRICKS, 당신은 사용할 수 있습니다 핸들링 구조화 멋진 시나리오 그리고 실제로 미국에 가져옵니다 AZURE DATABRICKS 델타 많은 사람들이 어떻게 들었 는가 델타? 괜찮아

세 손 또는 네 손 그래서 우리는 알리다 이 우리는 이것을 시작했습니다 QUITE A ALE의 미리보기 그것은 단지 능력입니다 AZURE 데이터 브레이크가있는 기존 및 스파크가 아닙니다 원한다면 IT가 허용하는 것 A를위한 더 나은 성과를 얻으십시오 데이터 파이프 라인 및 엔지니어링, 당신이 견고한을 만들고 싶다면 파이프 라인 및 일관성 유지 파이프 라인 및 단순화 된 파이프 라인 실시간으로 다루는 것 잘, 대답으로 굳은 데이터 브레이크 델타입니다 지금, 우리가 생각하면 당신이 볼 수있는 문제 여러 독자가있는 경우 작업중인 여러 작성자 같은 데이터 셋이 될 수 있습니다

한 작성자가 썼을 가능성 데이터가 있고 변경됨 독자가 같은 것을 읽고 있습니다 데이터 세트 그것은 업데이트되지 않았으므로 결과가 일치하지 않거나 다음과 같은 경우 가능할 수 있습니다 당신은 실시간 스트리밍 데이터입니다 IT에 화제가되고있는 것 작은 파일의 수천을 만듭니다 그리고 당신이 이해해야 할 것은 소규모의 수천이있는 경우 시간이 걸리는 파일 그리고 작은 사람들 각각을 읽고 파일 단일 파일 인 경우 래스터 또는 더 큰 파일 일 경우 증가합니다 소량 당신이 그것에 대해 생각하면 스트리밍처럼 다른 논리 모델 생성 단일 모델로 만드는 것 될 수있다 배치 그대로 사용 잘 스트리밍합니다

이것이 데이터 브레이크가 가진 것입니다 일관성있는 경우 IT 보장 그냥 거래 당신은 A에서 사용해야 거래 로그, 로그가 있습니다 기능 따라서 모든 권리 거기에도 독자가 있습니다 여러 독자가있는 경우 그리고 작가, 그들은 거래 데이터 및 IT 일관된 에 대한 공연 이유는, 당신은 할 수 있습니다 추가 색인 작성 DATABRIX를 통한 기술 또는 런타임 사용 통계 당신이하지 않아도 전체 파일을 검사하십시오 래터, 그것은 단지 스캔 할 것이다 필요한 특정 열 데이터를 쿼리합니다 결과적으로 만 특정 열이 쿼리되고 검색됩니다

당신의 성과는 훨씬 빠릅니다 우리는 스트리밍에 대해 이야기했습니다 과학 기술 작은 파일이 들어옵니다 다시 할 수있는 너무 복잡한 RATHER에서만 발생합니다 더 작고, 더 적은 파일들 성능은 훨씬 빠릅니다

같은 파이프 라인을 사용할 수 있습니다 당신의 꿈을 위해 배치 데이터 그래서 우리는 이것에 대해 이야기했습니다 시나리오 그것은 아니다 메가 바이트 또는 기가 바이트 우리는 스트리밍에 대해 이야기했습니다 시나리오를 사용할 수있는 곳 같은 스트리밍을위한 파이프 라인 잘 했어

우리는 제공하는 방법에 대해 이야기했습니다 손상 및 누락 된 데이터 및 우리 당신이 적응하는 방법에 대해 이야기 개요 이제 기능 중 하나 델타와 함께라면 같은 기록을 할 수 있습니다 데이터 벽돌 델타 및 사양 스키마를 강화할 수있는 최신의 스키마라면 레코드는 스키마와 일치하지 않습니다 기본 데이터 브레이크 델타 테이블, IT가 실패합니다 권리와 당신은 제공 할 수 있습니다 에 적응하는 옵션 스키마 변경하기 실패하지 않았습니다 DATABRICKS 델타와 함께 그 능력을 얻으십시오 마지막으로, 우리는 방법에 대해 이야기했습니다 데이터 엔지니어를위한보다 빠른 IT 통해 데이터를 쿼리하려면 추가 기술 인덱싱과 캐싱 데이터 브릭 및 사용 가능 DATABRICKS 델타 이것은 어디에서나 예입니다 CSV에서 데이터를 읽고 있습니다 파일 및 기타 소스 연결 및이 사례 POST-SQL과 그 이후의 일 변환과 마지막으로 당신은 델타로 저축하고 있습니다 표

자, 당신을 위해 그냥 일반적인 스파크 사용 테이블, 유일한 변화 사용을 시작해야한다면 탄탄한 델타 기능 단순화 된 파이프 라인 델타와 같은 특정 점 형식 그러면 당신의 논리는 SPARK TABLE TO DATABRICKS 테이블 그래서 우리는 이야기했다 데이터 섭취와 지금 우리는 데이터의 마지막 섹션 분석 및 사후 처리 원하는 데이터 분석가- SQL을 사용하거나 SQL을 사용하는 사람 데이터 창고, 그들은 원한다 POWER BI 도구에 연결 또는 우리의 시각화 도구 및 특별히있을 때 더 많은 사용자가 질문을 받음 이 변환 된 데이터 이것이 미국에 미치는 영향 마지막 단계는 어디입니까? SQL 창고 여러분 중 많은 사람들이 들었습니다 SQL 데이터 창고 또는 정보 SQL 데이터 창고를 사용하십니까? 괜찮아

그래서 30 어쩌면 그래서 쳐다 보자 건축물 AZURE SQL 데이터 창고를 사용하면 당신의 계산과 저장은 디커플링 그렇게, AZURE와 마찬가지로 데이터 브릭, 디커플링 및 계산을 일시 중지하거나 컴퓨팅은 그렇게 확장 될 수 있습니다 당신은 걱정할 필요가 없습니다 의 계산 부분을 지불 SQL 데이터 창고 당신은 컨트롤러에 연결 AZURE SQL 데이터 창고를 사용하는 창고 가공 건축 IT 질문에 대한 배급 계산 노드와 전송 원격 스토리지의 데이터

AZURE SQL 데이터 창고 우리가 4 월에 한 발전 이 해에 우리는 인텔리전트의 기능 캐싱 뭐 그것은 튼튼하다 A에서 쿼리-쿼리 훨씬 더 빨리하십시오 이걸 살펴보면 이 다이 퍼 다이브 건축, 당신이 여기에 무엇을 볼 계산 노드에 있고 SSD 및 TEMP 파일 및 은닉처 귀하의 데이터가 원격 스토리지 데이터를 전달하고 푸시합니다 컴퓨팅 노드에 대한 IT 마지막으로 질문을 할 때 에서 데이터를 쿼리합니다 컴퓨팅은 그다지 중요하지 않습니다

더 빠릅니다 그리고 그것이 무엇을 사용 하는가 자동화 된 스토리지 하드 데이터는 메모리의 일부입니다 다시 말해, 400GB 플러스입니다 여러 노드가있을 때 용량에 의해 다중화되는 기능 노드 수의 요인

15 명의 테라 바이트와 당신을 위해 원격이있다 저장 내가 의미하는 바는 데이터 액세스 변경, 캐시 및 메모리가 업데이트되었습니다 가장 최근의 데이터 질문을 받고 있습니다 무엇을 이해 하는가 사용자는 기술의 일부로 사용 가능한 기술 계산 노드

단일 노드 또는 단일 스레드 생성, IT 여러 스레드를 생성합니다 앞서 나가고 데이터를로드하십시오 어디에서나 AZURE 스토리지 A에서 데이터의 이동 SQL 데이터 창고는 매우 많고 더 빠릅니다 지금, 우리는 움직이는 것에 대해 이야기했습니다 데모 노트의 데이터 우리는 데이터 이동에 대해 이야기했습니다 스파크에서 데이터 창고까지 그리고 이것이 작동하는 방식입니다

연결을 설정하십시오 데이터 브릭에서 스트림 SQL 데이터에 클러스터 창고 그래서 녹색이 여기 있습니다 DAIT TA BRIX CLUSTER 및- DATABRICKS 클러스터 IT가 승인 한 것을 의미합니다 데이터 창고 인스턴스 하지만 당신이 할 때 데이터 프레임 도트 발생하는 내용 저장 또는 읽기 DATABRICKS 사이트, IT 이동 데이터 또는 스파크 테이블 스파크 스토리지 형식 대량 이동의 일부로 사용 자료 데이터 창고 측면에서 IT 우리와 같은 폴리베이스 사용 이전의 질문에서 대량의 데이터

데이터의 빠른 이동 없는 완벽한 성능 당신은 사용에 대해 걱정 저장 후 데이터 데이터 쿼리 및로드 거기에서 래스터, 모두 그리고 당신은 당신의 데이터를 지정 창고 연결 스트림 형식 이제 우리는 배치에 대해 이야기했습니다 부품 우리는 발표 할 것으로 기대된다 다른 기능 공개 같은 스트리밍의 미리보기 커넥터와 IT가 깨끗해질 것입니다 이 슬라이드에서, 우리가 여기에서 보는 것처럼

그래서 우리는 정적 데이터에 대해 이야기했습니다 배치 데이터 배치 데이터는 그대로 사용할 수 있습니다 스파크 테이블 및 BLOB 저장 및 그런 다음 데이터 창고로드 셋 이 정보는 데이터로서 창고 테이블 스트리밍에 대해 이야기 할 때 데이터가 들어 오면 데이터 실시간, 무슨 일이 사용하려는 동일한 데이터 브레이크 데이터를 변환 한 후 데이터가 변환되었습니다 데이터와 정보를 보호하기 위해 이동했습니다 보관 및 보관 IT에 저장하면 A에로드됩니다

SQL 데이터 창고 이건 또 다시 건축이야 이행 최종 사용자로서 귀하에게 이 의미는 커넥터가 아닙니다 데이터 이동 권한 만 허용 DATABRICKS에서 데이터로 배치 데이터를위한 창고 그러나 또한 허용 데이터의 이동 실시간 스트리밍 데이터 이것은 새로운 우리입니다 능력 우리가 공개하는 것은 오늘 미리보기 당신은 앞서 가고 당신을 가질 수 있습니다 실시간 시나리오 데이터 브릭으로 변환 그런 다음 실시간 관리자와 IT SQL 데이터에로드 된 GETS 걱정하지 않고 창고 창조에 대하여-당신없이 생각하는 방법에 대한 걱정 스트리밍 처리 방법에 대해 비즈니스 분석가를위한 데이터 그리고 데이터 분석가

그래서 마지막으로 SYNTAX, 우리가 언급 한대로 사용 같은 신택스와 같은 모델 뿐만 아니라 당신의 배치를 위해 실시간 사용 사례 우리가하는 일은 커넥터는 부품으로 사용 가능 DATABRICKS 런타임의 SO 당신은 설치하거나 할 필요가 없습니다 구성 커넥터가 있습니다 내장 그래서 당신은 형식을 구체적으로 지정합니다 그리고 이것이 당신이 제공하는 곳입니다 오케스트레이션의 URL입니다 그런 다음 TEMP를 지정하십시오 디렉토리 중 일부인 디렉토리 AZURE BLOB STORAGE

그리고 마지막으로, 안녕하세요, 당신이하는 자격 보관을 위해 제공 SPARK의 회계도 마찬가지입니다 데이터 창고 증명 SO DATA 창고에서 데이터를로드 할 수 있음 BLOB 스토리지 및 그 이후 마지막으로 데이터를 저장합니다 귀하의 데이터 창고 테이블 그리고 당신이에서 보면 스트리밍 시나리오, 정확히 같은 곳에있는 신택스 스트림과 스펙 지정 당신은 체크 포인트를 지정 위치 귀하가 원하는 위치 당신은 그 층에 통지 데이터의 스트림을 가지고 스트림에 들어 와서 데이터가 변환되면 그런 다음 데이터를 이동하십시오 이것이 당신이 특정하는 곳입니다 이를위한 체크 포인트 위치 부품 스키마의 조건에서 이제는 IT 그러나 데이터 이동은 아니지만 또한 우리는 지능을 더했습니다 이 커넥터에서 의미하는 바, 당신이 있다면 스파크에서 테이블을 읽으려면 커넥터 자체 입력 가능 무엇을 조건으로하는 스키마 데이터는 무엇이며 스키마는 무엇인가 DATABRICKS 측면에서

그리고 다른 지능 우리는 당신이 만들 때 추가했습니다 데이터에 대한이 표 폴리를 통한 창고 측 베이스, 당신이 창조를 돌보는 경우 당신이 할 수없는 물건 IT에 대한 걱정 당신이 열을하고 있다면 프로젝션, 내가주는 예 특정 열 스캔 전체 테이블 또는 파일, 같은 지능 커넥터에서 사용 가능 잘만 스캔 할 것입니다 특별한 기둥 그것은 단지 첫 번째를 선택합니다 천 규칙 또는 세 번째 규칙 규칙 동일한 제한이 푸시됩니다 SQL에 대한 커넥터 다운 데이터 창고 따라서 한계가 있습니다 당신이 쿼리 할 때 강화 데이터 그리고 마지막으로, 당신이 원한다면 이용 약관에서 일부 디버깅 무슨 일이야, 얼마나 데이터가 이동되었습니다

넌 할 수있어 빠른 데모를 보여주세요 실시간의 끝은 무엇인가 이 방법의 스트리밍 시나리오 손입니다 데이터 브레이크로 돌아갑니다 노트북과 나는 A에 연결 클러스터 스트리밍 데이터를 시뮬레이션합니다

이 스트리밍 데이터 될 수있다 이벤트 허브를 통해 이 사례에서는 A를 만들고 있습니다 두 번째 및 IT 당 수천 규칙 파티션으로 생성 중입니다 이것이 데이터인지 확인하자 스트림 또는 아닙니다 그래서 나는 아래로 내려갑니다

데이터 스트림 그리고 나는 앞서 가서 이것을 실행 데이터 조건의 스트림 를 통해 읽은 프레임 스트림이 들어옵니다 스트림 시작되었고 생성되는 스트림입니다 매초마다 그리고 줄기가 다가올 때 나는 커넥터에 대해 이야기했다 실시간 관리자의 IT 변형 된 스트림을 푸시 내 데이터 창고 사이트를 통해 그래서 앞서 가자 대체-당신은 스트림을 참조하십시오 온다

지금, 내가 사용하는 것에 대해 이야기했듯이 내가 사용해야 할 동일한 신택스 배치 시나리오를 위해, 나는 지금 해요 실시간 시나리오 사용 나는 앞서 가고 움직일 것이다 변환 된 데이터를 내 SQL 데이터로 창고 스트리밍이 시작될 때 그것을 통해 읽히고있다 데이터 벽돌과 변형 이 커넥터를 사용하여 지금 IT 같은 것을 시작하고 움직일 것입니다 데이터를 통한 데이터 창고 나는 당신이 할 수 있도록 그것을 지정했습니다 15 초 이상 또는 그 이상 당신이 원하는 이것은 단지 내가 추정 한 것입니다 무엇을 제공 할 수 있습니까? 체크 포인트 위치, 좋아요, 안녕하세요, 15 년마다 스트림 이동 초 이 사례에서 저는 IT를 움직이고 있습니다

30 초마다 아시다시피, 스트림은 읽고 여기에서 시작하십시오 데이터를 SQL 데이터로 이동 창고 마지막으로 돌아 가자 데모에 관한 섹션 우리가 말한 것 우리는 일부를 가지고 싶어 특기 사항 우리는 노트북에서 본 것을 보았다 사용하는 기능이 있습니다 저장 키워드를 저장 DATABRICKS

당신은 더 이상 유지할 필요가 없습니다 노트북의 비밀 RATHER, 당신은 비밀을 유지합니다 AZURE 키워드 기미 에서 가져올 수 있습니다 예어 당신이 주위에 놀고 싶어하는 경우 AZURE DATABRICKS에는 14 일 동안의 평가판 VM을 지불해야합니다 우리는 매우 빠르게 성장하고 있습니다

우리는 지금 24-PLUS에서 가능합니다 AZURE 지역과 우리는 추가 중입니다 새로운 달마다 지역 우리는 공개를 시작했습니다 AZURE 데이터 브레이크 미리보기 델타와 당신은 A를 만들 수 있습니다 파이프 라인과 우리가 추가 한 것 인증이 발생합니다 AZURE 활성 디렉토리를 통해 그 외에도, 특정 고객 말해봐, 난 원해 조건부 AZURE를 사용하려면 제약 조건을 넣는 디렉토리 인증 방법 약관 이 사용자 만 해당됩니다 네트워크 위치는 그것을 만들 수 있습니다 일반적으로 사용 가능한 기능 우리는 또한 최고가되기를 기대합니다 당신은 지금 당신이 배포 할 수 있다는 것을 알고 있습니다 AZURE DATABRICKS 워크 스페이스 자신의 가상 네트워크에서 지금까지 우리가해야 할 일은 DATABRICKS 워크 스페이스 생성 그리고 그것을 배치 할 수 있습니다

이 기능을 사용하면 자신의 가상 환경에 배치 당신이 가질 수있는 네트워크 원한다면 유연성 일부 사용자 정의 라우팅 그래픽과 같은 것들 서비스 종료 지점 저장 그리고 마지막으로, 우리는 우리가 꿈꾸는 커넥터 공개 미리보기 가능 그것으로, 나는 일시 정지를 줄 것이다 나의 논스톱 75 분 그리고 마이크를 사용하기 위해 자유롭게 느끼십시오 질문이 있으니까 사용 가능한 각자 모두 그래서 질문은 스트리밍 사용법 커넥터, 아직 진행 중 스토리지 계정을 통해? 예

그것을 통해 여전히 간다 스토리지 계정 그러나 일 발생하는 것 스토리지 계정이 사용되었습니다 그러나 데이터 이동은 데이터가 이동하여 SQL로 이동 데이터 창고, 데이터 스토리지에서 삭제 계정 >> [불분명] >> 질문은 무엇인가 스트림의 주파수 지금은 15 년처럼 두 번째로 15로 시작할 수 있습니다 당신을 특정하기위한 초 체크 포인트 위치

시나리오에 따라 당신은 30 초, 당신은 잘 그와 함께 갈 수 있습니다 >> 당신이 가진 자신의 슬라이드에서 DATABRICKS는 할 능력이있다 작업 자동화 및 파이프 라인 모니터링 및 그 모든 것 물건 AZURE 데이터를 사용해야하는 이유 와 결합 된 공장 데이터 브레이크 DATABRICKS가 자체 관리합니까? >> 스케쥴링을 할 수 있습니다 직접 왜 데이터 공장을 사용해야합니까? 대답은 그대로 데이터 공장입니다 우리는 통지, 그것은 단지 아니에요 데이터 브레이크에 연결하지만 전체 엔드 투 엔드 관로 그래서 당신은 파이프 라인에서 일하고 있습니다 데이터 당신이 있다면 섭취 시나리오에 대한 생각 당신은 너무 많은 다른 데이터 소스 및 원하는 그냥 데이터 브레이크를 사용하지는 않지만 다른 사용을 원하는 RATHER 소스와 당신이 원하는 지속적으로 단일 패널을 사용합니다 모니터 유리의 당신은 데이터 팩토리 사용 당신이 알고 있다면, 나는 단지 스토리지 계정은 어디에 있습니까? 데이터 소스가 존재하며 노트북 또는 일부 일정 그렇게함으로써 활동 -사용 가능 DATABRICKS 노트북 예약

>> SQL 데이터 보관, IS 스케일 가능? >> 아니요 오늘은 사용할 수 없습니다 수동으로 규모를 줄일 수는 있지만 I

Introducing the modern data warehouse solution pattern with Azure SQL Data Warehouse

(신나는 전자 음악) -올라가서 Azure를 살펴 보겠습니다 최신 데이터웨어 하우스 솔루션 패턴 강력한 기초를 제공합니다 SQL 쿼리에 걸친 모든 엔터프라이즈 분석 머신 러닝과 AI를 통해 이제부터 살펴 보도록하겠습니다 Azure의 SQL Data Warehouse에 대한 핵심 업데이트 주변의 세분화 된 보안에서부터 행 및 열 수준 보안까지 줄어 듭니다

쿼리 성능을 크게 개선 새로운 워크로드 중요 기능으로 더 많은 기능을 제공합니다 그리고 우리는 또한 당신을 안내합니다 실제 현대 데이터웨어 하우스 예 Microsoft Digital Crimes Unit의 시추 방법 최신 데이터웨어 하우스를 활용하고 있습니다 트랙에서 기술 사기꾼을 중지합니다 (신나는 전자 음악) 오늘 Charles Feddersen과 함께합니다 Azure Data Team에서 쇼에 오신 것을 환영합니다 -여기있어 좋네요 저를 주셔서 감사합니다

몇 달 전에 존 매킨타이어를봤을 때 실제로 Azure의 데이터웨어 하우징을 살펴 보았습니다 Data Warehouse Gen 2의 이점을 보여주었습니다 그리고 당신이 정말로 혜택을 줄 수있는 방법 쿼리 성능 측면에서 높은 쿼리 동시성, 저렴한 비용 그 쇼를 놓치면 표시된 링크에서 확인할 수 있습니다 -맞아,하지만 다이빙하기 전에 최신 데이터웨어 하우스에 다른 것들을 보여 드리겠습니다 이는 Azure Data Warehouse Service를 통해 더욱 향상되었습니다

현재 진행중인 초점 중 하나는 쿼리 성능, 당신은 너무 빠를 수 없기 때문에, 그렇지? 맞습니다 속도는 항상 좋은 것입니다 -우리가 얼마나 멀리 왔는지 보여 드리겠습니다 존이 공연을 시작한 이래 여기에 간단한 데모가 있습니다 여기에 두 개의 쿼리가 설정되어 있습니다 내가 시작 할게요 왼쪽에있는 것은 마지막 쇼의 Data Warehouse Gen 2 오른쪽에있는 것은 현재 버전입니다 고객이 사용할 수 있습니다

이제 정확히 같은 쿼리, 집계, 조인, 실제로 일반적인 데이터웨어 하우스 및 쿼리 유일한 차이점은 기본입니다 서비스 버전 여기 오른쪽에있는 것은 우리는 이것이 비교적 빨리 끝나기를 기대합니다 거기에 약 16 초가 있습니다 왼쪽에있는 것이 여전히 실행 중입니다

다시 한 번, 성능이 향상되었습니다 지난 몇 달 동안 만 우리는 이것을 실행 시키도록하겠습니다 잠시 후에 다시 확인하겠습니다 하지만 우리가 진행 한 모든 진전을 보는 것이 정말 좋습니다 짧은 시간 동안 성능에 그러나 성능을 넘어 셀프 서비스 분석 및 민주화 회사 내부의 데이터가 점점 일반화되고 있습니다 그러나 여전히 모든 사람의 마음에 가장 중요한 것은 보안입니다

네, 맞습니다 성능이 훌륭합니다 생산성에 매우 중요합니다 그러나 보안은 항상 최고입니다 이 데모로 돌아가서 확인해 봅시다

여기에서 우리가 끝났고 59 초가 걸렸음을 알 수 있습니다 -[Jeremy] John의 유사한 검색어 세트는 약 4 배 더 빠릅니다 -맞습니다 기본 서비스 일뿐입니다 오늘날 고객은이 혜택을 누릴 수 있습니다

그러나 보안으로 돌아가 봅시다 보안이 없으면 다른 것은 중요하지 않습니다 분석을 위해 더 많은 데이터를 중앙 집중화하면 이 데이터의 잠재적 통찰력 더 많은 사람들에게 흥미로워집니다 조직에서 Power BI와 같은 최신 시각화 도구 모든 사람이 데이터 분석가가 될 수 있도록했습니다 그러나 조직 전체의 가치 충분히 세분화 된 액세스가 가능한 경우에만 실제로 실현 될 수 있습니다

데이터에 적용 할 수 있습니다 데이터에 대한 청중이 증가함에 따라 가능성도 커집니다 모든 사람이 모든 데이터에 액세스 할 수있는 것은 아닙니다 우리는 보안에 대해 매우 전체적으로 생각합니다 그리고 엔터프라이즈 급 기능 세트를 구축했습니다 당신이 호스팅 할 수 있도록 Azure에서 가장 중요한 데이터까지도 여기에는 모든 것이 포함됩니다 위협 보호, 네트워크 보안, Azure Active Directory를 사용한 인증 액세스 제어 및 데이터 보호

그러나 가장 최근에 액세스 제어에 추가 기본 행 수준 보안 나는 우리가 빠른 데모를 줄 수 있다고 생각 이것이 오늘날 어떻게 작동하는지 여기 쿼리가 있습니다 국가 분석가로 로그인 한 것을 볼 수 있습니다 여기부터 시작하겠습니다 53 행의 결과 집합을 반환합니다 모든 상태를 나타냅니다 미국의 몇몇 영토

따라서 이것은 전체 테이블의 집계를 나타냅니다 하지만 다른 사용자가 있다면 어떨까요? 다른 권한을 가진 다른 수준의 데이터로? 이제 다른 분석가를 살펴 보도록하겠습니다 우리가 여기있는 것을 봅니다 하단에서 볼 수 있습니다 서버 이름이 정확히 같습니다 양쪽 상단에 내가 정확히 같은 데이터베이스를 가지고 있음을 알 수 있습니다

여기서 유일한 차이점은 왼쪽의 워싱턴 주 로그인 오른쪽에 뉴욕 주 로그인이 있습니다 양쪽에서 똑같은 쿼리를 실행 해 봅시다 워싱턴과 지금 뉴욕, 서로 다른 결과를 반환한다는 것을 알 수 있습니다 이것들은 상황에 민감합니다 사용자가 가진 보안 해당 테이블의 행 -심지어 같은 쿼리 언어가 있습니다 국가 분석가를 위해 좋은 점이 여기 있습니다

사용자는 기본적으로 자신이 모르는 것을 모릅니다 동일한 쿼리 구문입니다 많은 변경이 필요하지 않았습니다 하지만 과거에 어떻게 이런 일을 했습니까? -몇 가지 일반적인 방법이 있습니다 일반적으로 필터링 된보기 또는 시스템 기능을 사용했습니다

쿼리가 실행될 때 사용자 이름을 결정하기 위해 그러나 이것들은 관리하기가 정말 어색했습니다 기본 행 수준 보안은 관리를 단순화합니다 또한 데이터 모델의 소비 모든 사람에게 일관성이 있기 때문입니다 -이게 정말 강력 할 것 같아요 멀티 테넌시가 발생한 시간에 대해 생각하고 특정 규정 준수 요구가있을 수 있습니다 다른 데이터웨어 하우스를 가동시키고 싶지 않을 수도 있습니다 지역 또는 다른 부서 또는 액세스 요구에 따라 다른 사업부

여기서 정말 멋진 또 다른 것은 공급 업체, 심지어 해외 개발자가 있다면 그 사람들은 액세스 할 필요가 없습니다 다른 모든 데이터 세트 데이터의 모든 행과 열 거기에서도 차별화 된 액세스가 필요합니다 네, 이것들은 모두 좋은 예입니다 행 수준 보안이 매우 강력한 곳입니다 그러나 방금 보여 드린 성능과 보안 외에도 또 다른 중요한 영역이 있습니다 이것이 플랫폼이 지원하는 방식입니다 다른 작업 부하의 변동성

중요한 시나리오가 있습니다 주어진 쿼리 또는 쿼리 세트 항상 예측 가능하게 실행하십시오 -전에는 분석가 그룹이 있었을 겁니다 아마도 자원을 놓고 경쟁 할 수도 있습니다 그리고 당신은 그것이 어떤지 알고 있습니다 다른 모든 쿼리 대기열이 있습니다 100 개의 검색어가있을 수 있습니다 다음에 오는 것은 줄의 뒤로 대기열의 뒷면 어쩌면 먼저 실행해야 할 수도 있습니다

-때로는 다음 번의 쿼리 즉시 실행해야합니다 정말 중요한 질문 일 수 있습니다 제출 될 때 예측 가능하게 실행되어야합니다 이를 위해 개념을 소개했습니다 작업 부하의 중요성과 분류 여기 내가있어 두 가지 작업 분류 기준 첫 번째는 정상보다 중요도가 높고 이것이 기본값입니다 모든 것이 정상일 때 그것은 선착순으로 운영됩니다

우리는 모든 것을 처리합니다 도착한 순서에 따라 그러나 이제 쿼리의 중요성을 계획 할 수 있습니다 이전에 국가 분석가가 그들의 쿼리가 도착하고 우리는 그들의 쿼리를 알고 있습니다 아마도 주 수준보다 더 중요 할 것입니다 이 할당 된 것을 볼 수 있습니다 더 높은 중요도 시스템이 자동으로 팝업 즉시 실행하기 위해 대기열의 전면에 세분화 된 제어가 가능합니다 워크로드의 중요성보다 모든 리소스를 효율적으로 활용할 수 있습니다

-이 모든 것은 정말 멋진 혁신입니다 Azure에서 엔터프라이즈 데이터웨어 하우스를 실행하는 사람들에게 하지만 생각할 때 어떻게 지금 진화합니까 Modern Data Warehouse와 그 솔루션 패턴에 대해 -응, 방금 봤어 정말 Azure SQL Data Warehouse입니다 데이터웨어 하우스 자체는 실제로 초석이었습니다 수년 동안 엔터프라이즈 분석을 그러나 데이터의 다양성이 계속 증가함에 따라 수행하려는 분석 유형이 발전함에 따라 우리는 만날 수있는 기능이 필요합니다 이러한 진화하는 요구 사항 Azure에서 Modern Data Warehouse는 솔루션 패턴입니다 모든 분석을 수행 할 수있는 SQL 쿼리에서 고급 기계 학습에 이르기까지 데이터의 충실도를 손상시키지 않으면 서 또는 초과 프로비저닝 프로비저닝 리소스 낭비

-맞아, 우리는 이런 것들을 전에 본 적이있어 실제로 여기의 기본 더 많은 데이터를 가져오고 싶다는 것입니다 과거에 필요하다고 생각했던 것보다 또는 당신은 그것을 필터링했습니다 다른 일을하거나 원래 형태로 나중에 더 많은 유연성을 제공합니다 미래에 원하는 통찰력을 끌어 내기 위해 지금 당장 필요하다는 사실조차 모릅니다 -맞습니다, 제레미 온 프레미스 데이터웨어 하우스를 통해 특히 기기 폼 팩터, 스토리지 대 계산 비율이 실제로 고정되었습니다 더 많은 스토리지에 컴퓨팅 비용을 추가하고 필요 여부에 관계없이 그것은 그들이 실제로 어떻게 설계되었는지입니다 과거 또는 매우 세분화 된 데이터를 유지하고 있습니다

그것은 귀중하지만 자주 사용되지는 않았습니다 정말 빨리 비싸졌습니다 이 문제를 해결하려면 섭취 데이터를웨어 하우스에 저장해야했습니다 또는 원격 스토리지에 보관 전략 고용되었다 다른 도전은 그것은 매우 행과 열에 집중되었습니다 반 구조화 된 데이터 많은 선행 변형이 필요했습니다

이미지와 같은 것은 전혀 맞지 않았습니다 그럼 어떻게 바뀌 었습니까? 최신 데이터웨어 하우스 패턴 측면에서? -Azure는 게임을 완전히 바꿔 놓았습니다 이러한 유형의 워크로드 공간이 정말 혼란 스러웠습니다 Azure를 사용하면 정말 비용 효율적이며 분석 최적화 스토리지 플랫폼 Azure Data Lake Store Gen 2라는 이는 모든 컴퓨팅 엔진과 완전히 독립적입니다 이것은 플랫폼을 제공합니다 데이터 축적 및 구성 시작 그런 다음 이러한 분석 응용 프로그램에 연료를 공급할 것입니다

그러나 거대한 데이터 레이크를 사용하려면이를 채우는 방법이 필요합니다 이를 위해 완벽하게 관리되는 서비스를 제공했습니다 Azure Data Factory라는 대규모 데이터 통합이 가능합니다 80 개가 넘는 즉시 사용 가능한 커넥터를 제공합니다 SaaS 애플리케이션의 모든 것에 연결 Salesforce 또는 Google AdWords와 같은 S3와 같은 다른 구름, SQL 또는 Oracle과 같은 하이브리드 연결 온 프레미스 데이터 센터에 존재합니다 데이터에 많은 시간을 보냈다면 섭취는 실제로 전투의 절반에 불과하다는 것을 알고 있습니다

일단 착륙하면 정말 방법이 필요합니다 목적에 맞게 변환합니다 그리고 확장 가능한 컴퓨팅 엔진이 등장합니다 Azure Databricks Spark 클러스터는 필요에 따라 프로비저닝 할 수 있습니다 그리고 그들은 매우 강력한 도구입니다 대규모로 복잡한 변환을 수행합니다 또한 Databricks가 발생합니다 환상적인 플랫폼이되기 위해 데이터 과학으로 예측 모델을 생성합니다 -[제레미] 맞습니다

그러면 실제로 탐험 할 수 있습니다 Azure Data Warehouse로 이동하기 전에 -[찰스] 데이터웨어 하우스에서 한 번 이것은 당신에게 데이터를 제공하는 방법을 제공합니다 그 소비자들과 우리가 보여준 것처럼 Azure SQL Data Warehouse 확장 가장 까다로운 워크로드 지원 성능, 동시성, 그리고 물론 보안 마지막으로 Power BI와 같은 시각화 도구를 사용하면 우리는 모두에게 힘을 실어주었습니다 스스로 데이터를 분석 Azure SQL Data Warehouse는 엔진입니다 그것은 이러한 통찰력을 강화합니다 그러나 이것은 단순한 선형 프로세스가 아닙니다

데이터가 데이터 레이크에 도달하면 매우 반복적입니다 따라서 클라우드 모델처럼 보입니다 현대 데이터웨어 하우징 더 유연하고 확장 가능할뿐만 아니라 하지만이 경우에도 그것으로부터 얻을 수있는 많은 비용 절감 네, 독특한 탄성이 있다고 생각합니다 클라우드는 매우 잘 알려져 있습니다 그러나 분석 워크로드는 특히 하나의 시나리오입니다

신축성이 실제로 빛나는 곳 데이터 과학은 매우 다양한 작업량입니다 필요한 컴퓨팅 용량과 관련하여 주어진 시점에 대화식 SQL 분석은 일반적으로 항상은 아니지만 일반적으로 이러한 플랫폼은 근무 시간 동안 지속적으로 바쁩니다 최신 데이터웨어 하우스 스토리지와 컴퓨팅을 완전히 분리 계산은 조정될 수 있습니다 귀하의 요구 사항에 가장 비용 효율적인 방법으로 -이거 정말 좋은데 그러나 실제 사례를 볼 수 있습니까? – 당연하지

이에 대한 좋은 예는 디지털 범죄 부서입니다 또는 Microsoft DCU라고합니다 디지털 범죄 부서는 전 세계적으로 사이버 범죄와 싸우고 있습니다 기술, 법의학, 민사 소송, 형사 소개 등 보안을 보호하면서 고객의 프라이버시 여기에는 다음과 같은 범죄가 포함됩니다

기술 지원 사기, 더 취약한 인구에 영향을줍니다 문제를 해결하기 전에 Microsoft는 전세계 14,000 건의 고객 불만 기술 사기에 대해 매월 이 중 일부를 들어 보셨을 것입니다 기술 사기꾼이하는 일 그들은 당신의 장치에 문제가 있음을 확신 시키려고 노력하고 있습니다 사기는 종종 전화로 시작됩니다 발신자의 신원 확인 Microsoft를 대신하여 전화 또는 다른 잘 알려진 보안 공급 업체

그들은 심지어 웹에서 팝업으로 당신을 유혹 할 수 있습니다 피해자로서 당신은 확신합니다 기기에 심각한 보안 문제가 있음 범죄자에게 기술 지원의 필요성을 강조 그런 다음 불필요하게 지불하게됩니다 이 기술 지원 우리는 그런 일이 일어나기를 원하지 않으며,이 경우에는 이 사람들을 추적하기가 정말 어렵다고 생각합니다 트랙을 쉽게 덮을 수 있기 때문에 그리고 사기꾼은 자주 아마도 IP 주소 또는 전화 번호를 변경하십시오 여기에 많은 증거가 있습니다 며칠, 때로는 몇 시간 동안 만 살 수 있습니다 이 신호는 매우 작을 수 있습니다

보안과 함께 플랫폼은 데이터를 해결하는 데 필요한 규모를 제공합니다 가장 세부적인 수준으로 이 원시 데이터는 충실도를 유지하기 때문에 데이터에서 신호의 -고객이 이러한 유형의 기술 사기를 신고함에 따라 실제로는 구두로만 설명 할뿐입니다 그들의 기억에서 무슨 일이 있었는지 사기꾼이 PC에 원격으로 연결되었을 수 있습니다 그리고 그들은 사라 졌을 수도 있습니다 커피 나 커피를 마시고 돌아와서 그들의 기계에서 실제로 무슨 일이 일어 났는지 전혀 알지 못합니다 -많은 것이있을뿐만 아니라 처리 할 여러 유형의 데이터 그러나이 많은 데이터는 지저분합니다

관계가 정확하지 않습니다 가입하기가 어렵습니다 데이터 내에서 패턴을 분리합니다 DCU에서는 구조화 된 데이터와 구조화되지 않은 데이터를 활용합니다 40 개 이상의 소스에서 그리고이 데이터는 Azure 및 비 클라우드 플랫폼에서 생성됩니다

따라서 하이브리드 연결은 성공에 중요합니다 기술 사기 사례를 생각하면 데이터가 형태로 올 수 있습니다 고객이 사기를 신고하기 위해 보고서를 작성했음을 자동화 된 소스에서 온 것일 수도 있습니다 웹에 나타나는 이미지 사용자에게 기술적 인 문제가 있다고 생각하게합니다 -너무나 많은 데이터 소스 그러나 DCU는이 모든 데이터를 어떻게 캡처합니까? 정말 이해가됩니다 이러한 유형의 사기로부터 사람들을 보호하기 위해? -그들이 한 것은 그들이 갔다는 것입니다 Azure에서 솔루션을 구축했습니다 전체 파이프 라인을 처리하는 섭취부터 시각화까지, 방금 설명한 많은 시나리오를 사용합니다

오늘날에는 현대 데이터웨어 하우스 전략을 사용합니다 호수에 데이터를 수집 그런 다음 다른 컴퓨팅 엔진을 해당 데이터로 가져옵니다 여기서 볼 수 있듯이 처리는 전적으로 Azure Data Factory를 사용하여 구축됩니다 다양한 소스에서 데이터 흐름을 오케스트레이션 데이터 레이크에 착륙시킵니다 -[제레미] 그러면 어떻게 다음 단계로 넘어가나요? -데이터 레이크에서 한 번 DCU 분석가는 데이터를 탐색하고 준비 할 수 있습니다

기계 학습 모델 교육 이 의심스러운 활동을 실제로 찾고 있습니다 여기의 과정은 정말 혼합입니다 대규모 기계 자동화, 인간의 조사와 결합 Databricks를 사용할 곳입니다 여기에서 볼 수 있듯이 다양한 Python 스크립트를 실행하고 있습니다 텍스트 분류와 같은 일을 또는 다른 통찰력을 얻습니다 그런 다음 데이터도 데이터웨어 하우스로 흐릅니다

그런 다음 DCU 분석가에게 제공됩니다 이러한 사례를 전 세계적으로 조사하고있는 -좋아요, 그래서 그들은 할 수있었습니다 실제로 데이터를 가져 와서 탐색합니다 그러나 어떻게 쿼리하고 모든 것을 이해할 수 있었습니까? 그리고 데이터에서 무슨 일이 있었습니까? -그 기술 사기 사건에서 그들이하고 싶은 것은 리버스 엔지니어링이 가능한지 확인하는 것입니다 사기꾼이 사용자를 어떻게 타겟팅했는지 SQL 기반 분석을 수행했습니다 사기 탐지를 수행하기 위해 그들이 이미지 분류에 합류 한 곳 텍스트 분류 표 그리고 이것들은 출력이었습니다 방금 살펴본 Python 스크립트 중 여기서 볼 수 있듯이 SQL Data Warehouse를 위해 우리가 변화시킨 멋진 기능 중 하나 그래픽 실행 계획을 볼 수있는 능력 이렇게하면 문제를 디버깅하는 데 도움이됩니다

쿼리에 매우 빠르고 효율적일 수 있습니다 -그럼 다음 부분으로 어떻게 가나 요? 실제로 실행 가능한 통찰력을 얻는 곳은 어디입니까? -내가 전에 언급 한 기억 이 고전적인 위치 식별자는 매우 자주 변경 될 수 있습니다 그러나 어떤 것이 더 어렵습니다 실행중인 코드를 수정하고 있습니다 또는 사용자 인터페이스와 같은 것을 변경하고 있습니다 또는 물리적으로 이동하는 콜센터도 훨씬 오래 걸립니다 스크린 샷을 분석하면 URL, 리디렉션, IP 주소, 그들은 실제로 패턴을 삼각형으로 시작할 수 있습니다 이 사기를 저지르는 나쁜 행위자에게 오 탐지와 정확성을 확인할 수 있습니다 통찰력의 질을 이해하기 위해 우리는 매우 타깃 된 방식으로 연락합니다 이러한 활동을 중단하기 위해 현지 법 집행 기관에

-DCU가하는이 모든 작업이 얼마나 효과적입니까? 실제로 기술 사기꾼을 중지하고 있었습니까? -전반적인 효과는 DCU의 자체는 말합니다 Microsoft 사기 불만이 삭제되었습니다 2017 년 한 달에 14,000에서 2018 년 말에는 한 달에 8,400 개만 따라서 법 집행 기관과의 훌륭한 파트너십입니다 예를 들어, 약 16 개의 콜센터 공격이 있습니다 인도에서 63 명이 체포되었습니다 지난 3 개월 동안 만 -이것은 정말 훌륭한 구현입니다 정말 개선을보고있는 다른 사람들을 도울 것입니다

미래의 데이터웨어 하우징 증거 하지만 사람들이 더 많은 정보를 얻기 위해 어디로 가라고 추천 하시겠습니까? -가장 중요한 것은 모든 구성 요소를 제공한다는 것입니다 완벽한 분석 솔루션을 구축해야합니다 하지만 당신은 작은 시작할 수 있습니다 진화에 따라 기능을 추가 할 수 있습니다 최신 데이터웨어 하우스에 대해 자세히 알아 보려면 Azure의 솔루션 패턴 표시된 링크를 클릭하십시오 고마워, 찰스 기술 사기의 피해자라고 의심되면 지금 Microsoftcom/reportascam에서보고 할 수 있습니다

Microsoft Mechanics를 계속 시청하십시오 최신 기술 업데이트 시청 해 주셔서 감사합니다 다음에 see겠습니다 (신나는 전자 음악)

Big Data Revealed Platform Demo

CCPA 및 GDPR에 필요한 내용에 대한 11 페이지 슬라이드 공유를 게시했습니다 개인 정보 보호 규정 준수를 제공하는 데 필요한 내용과 2 년에서 5 년 동안 말하는 이유를 보여주는 비디오 기술이없고 포괄적 인 기술로 3 개월에서 2 년

더 간단한 DPIA (Data Protection Impact Assessment) 구성 요소로 시작하겠습니다 Hadoop HDFS 파일 시스템에서 IP 주소의 이메일을 검색합니다 나는 처음보고있다 이 경우 IP 주소의 패턴이 발견 된 위치에서 파일 1 2 및 3 및 세 파일 모두에 대해 6 열 다음으로 확인하기 위해 파일의 작은 하위 집합을 살펴보고 있습니다 그들은 실제로 IP 주소 대 오 탐지이며 주변 데이터를 보는 것입니다

올바른 결정을 내리는 데 도움이됩니다 이제이 개인 정보를 보호하기 위해 치료 절차를 밟기로 결정했습니다 몇 가지 선택 방법이 있습니다 전체 파일을 암호화하여 파일을 암호화 된 파일로 옮길 수 있습니다 IP 주소가있는 열을 영역 화하거나 암호화합니다 열을 암호화하도록 선택하고 있습니다

6 IP 주소가 발견되었으며이를 위해 파일 1에 대해서만 그렇게하는 경우 데모 작업이 완료되었으므로 파일 1에서 IP 주소 열을 볼 수 있습니다 예상대로 암호화되고 파일 2도 3이 아닙니다 이제 JDBC RDBMS 호환으로 주로 재구성 된 연결을 설정하고 있습니다 데이터 소스

이제 카탈로그 연결을 통한 응용 프로그램은 데이터베이스에 테이블을 나열하여 선택합니다 그리고 가공 이제 이메일, IP 주소와 일치하는 패턴을 발견 할 것입니다 그리고 사회 보장 번호 데이터베이스에만 데이터를 쓰지 않습니다 광범위한 협업 메타 데이터 카탈로그에 검토를 위해 여기에 여러 스파크 매개 변수 중 두 개가 있으며 나중에 사용할 수있는 다른 스파크가 많이 있습니다

프로세스를 조정하고 속도를 높입니다 여기서 사용자는 미리 결정된 키를 선택할 수 있습니다 파일을 선택하거나 메모리 처리를 위해 파일을 선택하고 레코드 수를 제어하십시오 한 번에 탄원서에 실 렸습니다 이 두 가지만으로 프로세스 속도를 50으로 높일 수 있습니다 75 % 여기서 우리는 어떤 개인 데이터를 발견하고 있는지 검토합니다

여기에서 우리는 빨리 작업의 결과를 살펴보면서 지금 발견 한 파일의 데이터 메타 데이터가 생성되면 작업에서 찾고 있던 값의 패턴을 발견 한 위치를 볼 수 있습니다 열 및 행 레벨에서 발견 된 위치 및 위치 및 각 수 철저한 DPA의 모든 부분 이제 다른 RDBMS 데이터베이스에 대해 실행을 설정하여 Social의 패턴을 찾습니다 보안 및 애플리케이션에서 해당 값을 암호화 할 패턴이 발견 된시기 각 열과 행에, 그리고 완료되면 메타 데이터 카탈로그에 해당 정보를 저장 그런 다음 전체 파일을 새 이름으로 원래 데이터베이스에 다시 씁니다 원본 파일에서 볼 수 있듯이 처리 할 DBA는 사회 보장이 암호화되지 않습니다

새로 고침하면 사회 보장국에 새 파일 이름을 가진 새 파일이 나타납니다 암호화 된 번호와 사회 보장 번호가 의심되는 다른 열 [00:03:10] 또한 데이터베이스의 다른 파일은 영향을받지 않습니다 이제 데이터베이스의 다른 파일은 몇 가지를 사용하여 시민의 소거 권한을 실행합니다 쉼표로 구분 된 값 응용 프로그램은 값을 검색하고 물리적으로 삭제합니다 파일에서 데이터베이스에 다시 쓰고이 정보를 메타 데이터에 저장합니다

카탈로그 여기서 우리는 시민 데이터가 이것에서 나가는 것을 원본 파일에서 볼 수 있습니다 시간이 지나면 새로 명명 된 파일에없는 것을 볼 수 있습니다 이것은 메타 데이터입니다 요청에 의해 삭제 된 시민 데이터가있는 곳 앞에서 설명한 바와 같이 실행 시간을 단축하기 위해 튜닝 할 수있는 spark 매개 변수 이 시간은 약간의 조정만으로 총 실행 시간에서 12 시간에서 2 분까지 이 매개 변수 중 이제 우리는 시민들의 삭제 요청에 대해 실시간 삭제를 실행합니다

우리는 그녀의 정보를 볼 수 있습니다 데이터베이스의 원래 파일에 여전히 존재합니다 이제 그녀의 이메일을 복사하고 갈 것입니다 새로 생성 된 파일에 삽입하면 정보가 더 이상 존재하지 않습니다 후 삭제 프로세스 권한을 실행하는 경우 파일 유틸리티에서 검색을 수행하여이를 확인합니다 파일에 대해 결과가 반환되지 않습니다 이제 우리는 원본 파일에 대해 이메일 값으로 동일한 검색을 수행하고 반환됩니다

파일에 기존 이메일이 있으면 삭제 프로세스가 예상대로 작동하고 있음을 보여줍니다 이제 응용 프로그램의 일부 생체 인식 기능의 결과를 보여주고 있습니다 이리 나는 C 프로그래밍 책을 찾고 있었고 그 사이의 그림에서 성공적으로 발견되었습니다 C 프로그래밍 책과 함께 몇 가지 다른 그림 이제 생체 인식 응용 프로그램의 안면 인식 부분을 검색하고 있습니다

나는 나와 내 Elvis의 큰 데이터베이스를 통해 내 자신의 사진을 찾고 있습니다 다른 사람 숫자가 낮을수록 사진 일치 가능성이 높아집니다 그래서, 이 제로 일치는 내 그림을 반환해야합니다 사진을 일치 시키려고합니다 자체 학습 설정에 대한 자가 학습 데이터베이스의 그림은 얼굴 사진의 가장 정확한 일치 항목입니다

여기에 더 높은 숫자가 표시됩니다 또는 일치하는 사진이있을 확률이 낮으며 엘비스처럼 보 였으면합니다 60 경기로 여기에서는 응용 프로그램에서 pst 파일 전자 메일 파일을 읽고 보는 방법의 예를 보여줍니다 그것 먼저 실제 이메일을 읽고 스캔하여 값과 패턴을 찾습니다

패턴 및 값 라이브러리의 다른 파일 또한 강조 표시된 찾은 값 모든 첨부 파일을 표시하고 첨부 파일도 동일하게 스캔합니다 감지 요청 또한 이메일을 열고 다운로드 할 수 있습니다 첨부 파일로

감지 엔진은 애플리케이션의 핵심 구성 요소 중 하나입니다 패턴 인식 및 가치 발견의 협업 BigDataRevealed 기본 라이브러리 삭제 권한이있는 DPIA 위치 및 이의 더 중요한 구성 요소 포괄적 인 GDPR 및 CCPA 빅 데이터 가속기 기술 이것은 DBA가 나중에 다른 사람이 쉽게 사용할 수 있도록 데이터베이스의 기본 매개 변수입니다 메타 데이터 내보내기를 통해 이러한 모든 개별 카탈로그를 내보내고 선택할 수 있습니다 다운로드 할 날짜와 패턴 및 값 표준 다운로드 형식은 Excel입니다

데이터는 데이터베이스에 저장됩니다 또한, 대부분의 모든 거래는 응용 프로그램 메타 데이터 트랜잭션은 파일 열 행 레벨에 저장됩니다 이상치 발견이 레벨 또는 수신 IOT를 초과 할 때 애플리케이션이 시계를 설정합니다 지명 된 사람에게 SMS 문자 또는 이메일 알림이 즉시 전송됩니다 사용자가 개인 데이터를 입력하면 암호화되어 새로운 ID를 생성합니다

향후 기업과의 커뮤니케이션을위한 암호화 된 키, GDPR에 따른 권리는 다음과 같습니다 곧 CCPA 및 기타 규제 기관 이 섹션에서는 시민이 문서를 업로드 및 다운로드하고 양방향 텍스트를 공유 할 수 있습니다 회사와 통신하고 요청하려는 회사를 선택합니다 한 번에 하나씩 또는 전체 그룹 이제 회사가 로그인하여 새로운 요청을 찾고 있습니다

시민 요청 우리가 이전에 Jennifer가 그녀의 일부를 가지고있는 것을 보았을 때 그것은 Jennifer에서 하나를 발견했습니다 암호화 된 데이터 이것은 암호화되지 않은 데이터에 대한 데이터 검색을 어렵게 만듭니다 데이터

회사는 패턴 발견 아이콘 위로 끌어서 발견 실행을 준비합니다 Jennifer의 데이터 위치를 찾기 위해 회사는 Jennifer의 시작 요청을 선택합니다 우리가 응용 프로그램을 볼 수있는 제니퍼의 개인 데이터에 대한 검색 제출 자동으로 채워진 Jennifer의 개인 데이터는 다시 검색됩니다 이것은 암호화되지 않았습니다 일치하더라도 동일한 파일 마스터 키를 사용해야합니다 이 키들은 그리드에 숨겨져 있습니다 이제 회사는 데이터 검색을 실행하기로 선택했습니다 사용자가 Jennifer의 결과를 드릴 할 수 있도록 메타 데이터 카탈로그를 수집 또는 다른 패턴 발견 작업

이 메타 데이터는 레거시 또는 기타에서 내보내고 사용할 수 있습니다 메타 데이터 카탈로그 경로 및 파일 정보 내의 위치가 필요한 영역 이제 사용자는 원형 차트 이미지 위로 마우스를 가져 가서 발견 된 값을보고 각각 몇 개나 암호화 된 값까지 찾아서 계산했습니다 이것은 알고리즘을 사용하여 백그라운드 프로세스의 애플리케이션에 의해 자동으로 수행됩니다 일치하는 파일을 찾기 위해 즉시 데이터를 변환하는 기능인 파일 암호화 키에 대한 지식 시민이 만든 정확하고 완전합니다 이 능력이 없으면 회사는 CCPA와 GDPR에 위배됩니다 이제 사용자는 표시 할 Jennifer의 데이터를보고 있습니다 일반적으로 찾을 수없는 암호화 된 필드가 있습니다

이는 삭제 권한과 같은 규제 요청을 올바르게 준수하기위한 주요 기능입니다 여기 요약 및 데이터 과학자, 데이터 관리자 및 관리에서 볼 수 있습니다 툴킷 인터페이스 암호화되지 않은 시민과 시민의 가치를 발견했습니다 암호화 된 다른 것

우리는 이제 파일, 다른 레코드 및 행을 실제 메타 데이터로 볼 수있는 메타 데이터 카탈로그 시스템 기록 소스 이 경우 Apache 31 HDFS에 저장됩니다 이는 올바른 사람에 대한 올바른 기록이 있고 허위가 아닌지 확인하는 데 도움이됩니다 긍정적이며 주변 데이터를 사용하여 확인할 수도 있습니다

여기에서 우리는 요청자의 암호화 된 값 우리는 이제 다른 레코드의 파일을 보려고 드릴링하고 있습니다 이 다른 값에 대한 실제 시스템 레코드 소스까지 줄까지 다시, 이것은 올바른 사람에 대한 올바른 기록이 있고 허위가 아닌지 확인하는 데 도움이됩니다 긍정적이며 주변 데이터를 사용하여 확인할 수도 있습니다

이제 사용자는 원형 차트 위로 마우스를 가져 가서 발견 된 값을보고 각각 몇 개나 암호화 된 값까지 찾아서 설명했습니다 우리 엑셀 스프레드 시트 내에서 우리가 찾은 행과 값의 파일 수를 볼 수 있습니다 우리의 검색에서 이를 통해 검색 할 때 필요한 정확한 값을 식별 할 수 있습니다 그들의 요청에 대한 시민 규제 권리

또한 동일한 정보를 표시합니다 전화 번호, 이메일, 주민등록번호 및 무제한과 같은 패턴 검색 다른 사람 이 정보는 기존 메타 데이터 및 ETL과 함께 사용할 수 없게됩니다 레거시 데이터베이스 수준에서 치료를위한 도구 이 메타 데이터는 또한 귀하의 행동, 교정의 증거로 귀중한 것이며 Data Protection Impact Assessments를 실행 한 후 사용하십시오 새로운 게이지, 그래프 및 차트 및 드릴 기능의 응용 프로그램 중 일부를 보여 드리고자합니다 이 모든 것이 와일드 플라이 10 D3

JS 및 앵귤러 JS 오픈 소스입니다 Amazon AWS S3 클라우드에 공개 된 빅 데이터에 오신 것을 환영합니다 이 릴리스는 S3 및 아파치 하둡 폴더 파일 트리에 AWS S3 및 Hadoop의 파일이 있습니다 이 EU GDPR 및 기타를 충족하기 위해 검색하려는 데이터 자산을 선택하는 위치 정부의 규제 요건

Big Data Revealed는 결과를 보는 두 가지 방법을 제공합니다 기술자 대시 보드 및 그래프 및 드릴이 포함 된 전체 요약 먼저합시다 빠른 분류에서 일부 발견 결과를 봅니다 먼저 왜 그런지 물어 보자 우리는이 칼럼의 데이터 자산 중 2 %에서 9 % 만 사회 보장국이 있습니다 이 열은 일부 사회 보장 번호가 실수로 입력 된 IP 주소처럼 보입니다

남거나 실수로 여기에 넣습니다 패턴의 열 데이터 자산을 검색 한 후 사회 보장 우리는 우리가 발견 한 소수의 사회 보장 번호 만 볼 수 있습니다 하나로 드릴하면 파일의 주변 데이터를 볼 수 있습니다 이제 패턴의 길을갑니다 사회 보장국으로 가서 11 번 열을보고 오 탐지가 아닌지 확인하십시오 후 열 값을보고 사회 보장 기록 중 하나에 드릴 그것이 거짓 긍정이 아닌 것을보십시오 사회 보장으로 확인 했으니 이 데이터를 보호하기로 결정

격리 버튼을 선택하고 확인란을 선택하면 기록 및 기존 파일이 삭제되고 암호화하려는 열을 선택하고 선택하십시오 실행 버튼 암호 해독 열기 버튼을 클릭하여 암호화 프로세스가 시작되었습니다 열 11이 암호화되었음을 나타냅니다 이를 확인하기 위해 파일 내용 뷰어를 살펴 봅니다

사회 보장 데이터 자산이 기술자 대시 보드로 암호화되었음을 참조하십시오 데이터 검색 실행 결과를 선택하고보고 추가 정보를 모두 확인합니다 사회 보장 데이터 자산이 암호화되었습니다 다른 데이터 자산 통계도 볼 수 있습니다 감지 실행에서 또한 데이터 자산 중 하나를 드릴 다운하여 시스템 레코드 소스에

이 경우 S3 버킷 열에서 예상대로 암호화됩니다 이제 GDPR을 준수하기 위해 회사가 가장 어려움을 겪을 것이라고 생각하는 것을 살펴 보자 이 단어“간접 식별자 ''를 기억하십시오 이 과정에서 먼저 하나 또는 여러 개를 선택합니다 하나의 파일로 다른 파일에 결합 할 수있는 파일을 찾기위한 주요 직접 식별자 더 많은 키들 이 간단한 예에서는 이메일 키 식별자 만 선택했습니다

이 선택한 모든 파일에서 상관 관계를 찾고 파일을 백분율로 저장합니다 찾은 일치 중 그런 다음 빅 데이터가 공개 된 두 번째 단계에서 사용됩니다 모든 조인트에 걸쳐 모든 순열에서 각각의 모든 고유 한 데이터 자산 가치를 취합니다 사용자가 선택한 간접 식별자를 찾는 파일 이 값은 성별 우편 일 수 있습니다 합당한 백분율 내에서 결합 될 수있는 코드 날짜 및 기타 값 개인 또는 소규모 그룹의 개인 데이터 자산을 파일에 나열합니다 열과 행에

그들은 발견되었고, 발견되고 교정되지 않으면, 이것은 GDPR입니다 위반 이와 동일한 과정을 통해 시민의 소거 권을 찾거나 개선 할 수 있습니다 잊혀 질 권리와 요청 된 특정 요청에 대한 동의를 취소 할 수있는 권리 전자 메일과 같은 다른 사람을 사용할 수 있도록 개인 식별 정보 할인을 받으십시오 이제 특정 이메일의 경우 IP 주소 값의 확인란을 클릭하고 암호화를 클릭하십시오 단추

파일 열 행과 패턴 유형으로 표시되는 데이터 자산 값이 암호화됩니다 암호화 작업이 완료되었으므로 파일 내용에서 결과를 볼 수 있습니다 선택한 시민 이메일의 IP 주소가 암호화되어 있는지 확인하십시오 이것이 잘못되었거나 시민이 동의를 변경 한 경우 가치를 쉽게 얻을 수 있습니다 해독되었습니다 여기서 우리는 해독이 일어 났음을 볼 수 있으며 여기서 우리는 암호화 된 값 이제 IOT 스트리밍 데이터 작업을 실행하는 프로세스를 살펴 보겠습니다

먼저 우리는 소위 스트림 데이터와 자격 증명 및 기타 정보를 식별하는 생산자 파일 필요합니다 완성 된 스트림 결과를 보면 어떤 패턴 발견이 사용자가 선택한 패턴은 사용자가 선택한 패턴을 하나 이상 선택할 수 있습니다 스트림 때 데이터는 데이터 자산 가치가 암호화 될 하나 이상의 패턴과 일치하는 것으로 밝혀졌습니다 이 데이터를 안전하게 저장하고 암호화 된 파일에 즉시 기록합니다 이 암호화 오류가있는 경우 암호를 해독 할 수 있으며 저장된 스트림을 검토 한 후에도 해독 할 데이터 열을 선택하고 암호화 할 새 열을 선택할 수 있습니다 또는 아닙니다 데이터 검색에는 기본 데이터 프로파일 링 결과와 이상치 검색이 있습니다

부품이 마모되거나 뱅킹 활동을 할 수있는 경우를 알려주는 알림 자금 세탁을 감지 할 수 있습니다 제어판은 서버 설정 보안 설정을 허용합니다 사용자 권한 및 훨씬 더 큰 데이터 공개로 보안 및 추적 성을위한 로그 파일 제공 작업 및 프로세스 실행 [00:17:44] 첫 번째 예에서는 고객 파일에 첫 번째 파일에 암호화 된 값이 없습니다 이메일 및 신용 카드 번호뿐만 아니라 성도 암호화되지 않습니다 이제 우리는 이 값을 입력하여 빅 데이터 공개 애플리케이션 인터페이스를 호출하고 시합 회사는 사용자 데이터를 입력하고이 데이터를 다시 가져 와서 회사의 운영 시스템 또는 분석 시스템

정상적인 처리 이제 신청하겠습니다 이메일 및 신용 카드 열에 대한 규정 준수 개선 암호화 빅 데이터 공개 응용 프로그램 인터페이스가 여전히 고객을 찾을 수 있음을 보여줄 수 있음 POS (Point of Sale) 담당자가 입력하거나 분석에서 전달한 암호화되지 않은 데이터를 기반으로 함 또는 연구 시스템 이제 이메일과 신용 카드 열 값이 암호화되어 있음을 알 수 있습니다 고객 및 시민의 개인 데이터를 해커 및 내부로부터 안전하게 유지해야합니다 데이터 도난 이제이 값을 다시 한 번 일반 영어로 입력합니다

이메일 및 신용 카드는 이제 암호화되어 저장되며 빅 데이터 공개 응용 프로그램을 호출합니다 인터페이스와 여전히 일치합니다 회사는 사용자 데이터를 입력하고 올바른 고객을 다시 불러옵니다 회사의 운영 시스템 또는 분석 시스템에 사용 가능 빅 데이터의 정상적인 처리는 응용 프로그램 인터페이스가 사용자 입력을 찾을 수 있음을 밝혀 사용자가 생성 된 일체형 인터페이스 값으로 입력 한 경우에도 암호화되지 않은 값 또는 암호화 된 값 모두에 의해 회사에서 제공합니다 올바른 답례로 처리를 계속하는 고객 기록 우리가 돌아와도 명확히하기 위해 요청 된 데이터에 대해서만 암호화되지 않은 데이터로 처리를 계속할 수있는 메모리 고객 또는 시스템 고객은 시스템 레코드 소스를 해독하지 않습니다 따라서 원본 레코드는 안전하고 준수 상태를 유지합니다

마지막으로 GDPR 및 CCPA 및 모든 데이터 규제 요구 사항을 진지하게 고려하시기 바랍니다 기업과 고객에게 위험과 결과가 끔찍할 수 있기 때문입니다 또한 우리 우리가 느끼는 것을 구축하기 위해 우리의 전문 지식과 시간과 노력을 믿기를 바랍니다 업계 유일의 완전하고 포괄적 인 GDPR 및 CCPA 완전 준수 솔루션 BigDataRevealed와 같은 포괄적 인 솔루션이 없다면 몇 년 동안 준수 및 오류 가능성이 가장 높거나 BigDataRevealed and cut 사용 연중 무휴 배송 시간을 단축하고 많은 경우 24x7x365를 실행하는 달까지 단축됩니다 우리의 주요 구성 요소와 생태계는 전 세계에서 가장 많이 사용되는 기술입니다

Spark 243, Java, Apache 3, Angular JS, D3JS, WildFly 10, Kafka 211, JDBC 등 질문, 데모, 시험 기간에 대해서는 Steve에게 직접 연락하십시오

개념 증명, 화이트 라벨링, 심지어 작은 천사 기금 847-791-7838로 연락하거나 steven@gdprcompliancymastercom으로 이메일을 보내십시오 이 비디오를 시청 해 주셔서 감사합니다

Bigdata – hadoop in tamil (2019)

안녕 당신은 명확하게들을 수 있습니다? 누구든지 채팅에서 확인할 수 있습니까? 네 들려요 승인 승인 고마워 고마워 이 세션은 타밀어의 빅 데이터 하둡 전용입니다

나는이 타밀어 에서이 빅 데이터 세션을 가지고 매우 기쁘게 생각합니다 우리는 bigdata hadoop에서 주제를 시작할 것입니다 요즘 왜 유명한 지

What is Data Science ? | Why Data Science ? | Data Science Tutorial | ZaranTech

알았어요 제 이름은 앨리스입니다

저는 변호사의 선임 데이터 과학자입니다 인도의 조직과 우리는 여러 사람과 인공 지능 변태를 보았다 기본적으로기도의 욕망은 여러 회사에서 일하고 있습니다 7 년간의 디자인 경험과 현실적인 교육 지난 몇 년간의 일로이 세션에서 우리가 할 일은 더 도입 클래스를 추가하면 획득에 더 적합 할 것입니다 물론 우리가하는 일이 적지 만 대화식 세션에 가깝습니다 여기서 정확히 무엇을 제대로 받고 있는지 알게됩니다

데이터 과학이란 무엇이며 기회와 모든 사람들이 어디에 사용됩니까? 맞습니다 가능한 한 대화식으로 유지하여 질문이 전달되고 내가 유지해야 할 것을 내게 올 것입니다 세션 오른쪽 나는 그래, 그래, 첫 번째로 먼저 생각 왜 데이터 과학 또는 Anita angular가 AI를이 모든 일에 사용한다고 생각합니까? 확실히 지금 호황을 누리고 있거나 왜 지금 어떤 생각을하고 있습니까? 누구든지 앞으로 나아갈 수 있고 토론에 참여할 수 있습니다 그것이 좋을 것입니다 왜 우리가 갑자기 우리가 가지고 있다고 생각합니까? 트렌드 작업 또는 기회 우리가하는 일 그것이 현재 추세라고 생각합니다 인도는 모든 생각에 대한 작업 모듈을 종료했습니다 이 오 어쨌든 잘 모르겠습니다

그래서 기본적으로 여러 우리가 지금 그 피치를 보는 이유는 평균 때문입니다 두 개의 다운 Nikita는 매우 많은 양의 데이터가 이 정도 나쁜 일이 아니라 인터넷과 소셜 미디어 및 수많은 XYZ 데이터가 모든 것을 의미합니다 조직은 또한 너무 오래 비즈니스 데이터를 수집하기 시작 수집 우리는 당신이 무슨 일이 일어나고 있는지 알고 싶어하는 데이터를 원합니다 그런 다음 데이터의 내부 정렬을 찾으려고 노력하십시오 모두가 다른 결정을 내리려고 노력하고 있으므로 우리는 데이터와 약탈 적 의사 결정과 다른 두 가지 중요한 것은 컴퓨팅 능력 자체입니다

우리가 CPU GPU와 CPU를 좋아하는 구글과 아마존을 보아라 쿼리를 더 빠르게 실행할 수 있도록 내부로 들어가서 그 이유 중 하나를 알 수 있습니다 나는 그것이 무엇인지 알 수 있습니다 괜찮아 그래 난 다른 사람을 몰랐어 존 안전 해 안녕 안녕 안전 안녕 Amira의 Sapphira 소파가 안전하다고 들으십니까? 당신은 괜찮아 실제로 실제로 가서 그래 그래 그래 그래 그래 그리고 우리는 심지어 구조화되지 않은 데이터가 많다는 것을 보지 못했습니다 통찰력을 얻는 데 사용될 수 있습니다 그는 할 수 있다면 할당 된 치아에서 나오는 작업을 볼 수 있습니다 그것은 다양한 데이터 과학자들의 미스터리 라인입니다

그렇기 때문에이 시대의 데이터 과학 시대에 실제로이 권리의 일부가되기 위해 필요한 기술은 무엇입니까? 이 기술을 습득하고 데이터 과학자가되기 위해 여러분을 간첩하지 않습니다 그래서 필요한 기술은 무엇입니까? 그 여정이 더 쉬워 지므로 데이터 과학은 학제 간입니다 숄 권리 그것은 단지 하나의 기술이 아니라 실제로 그룹의 조합입니다 기술이 바로 그렇게 간단하지 않은 예금을 얻기 어려운 이유입니다 수학과 함께 제공됩니다 통계라고도합니다 수학 선형 대수와 통계의 필요가있다 수학적 관점에서봤을 때 당신은 무엇을 알고 있을까요? 고갈이 무엇인지 상관 관계를 알고 완료에 이르는 것은 우리가 많은 것들의 수학 부분에서 알아야 할 측면 물론 우리는 컴퓨터 과학 지식이 필요합니다 그때 상식 지식을 말할 때 그것은 깊이가 아니라는 것을 의미합니다 지식은 기본적으로 프로그래밍 언어이므로 파이썬 크기이므로 이러한 종류의 도구를 사용하지만 C는 필요하지 않습니다

C ++ 또는 Java이므로 고급 프로그래밍 도구에 가깝습니다 언어와 작업이 아닌 도구로서 우리는 그것들을 사용하여 데이터가 맞기 때문에 필요한 두 가지가 있지만 가장 중요한 것은 도메인 전문 지식 그 자체입니다 사람들이 도메인 자체를 모르는 문제를 해결할 수 없습니다 예를 들어, 데이터 과학자를 뱅킹 도메인에서 일하고 있으므로 당신의 정신이 어떻게 작용하는지 모르는 문제 당신이 할 수있는 다른 일은 무엇입니까 당신은 바로 살아남을 수 없습니다 또한 도메인 전문 지식이되기 위해 중요한 역할을 수행해야합니다 데이터 과학자입니다 이것이 중요한 세 가지 중요한 기술입니다

필요하지만 물론 더 많은 기술이 있지만 이러한 기술의 일부가 될 것입니다 그렇습니다 다시 한번 그래요 사람들이 일반적으로 가지고있는 분류는 서로 다른 역할 사이에 데이터 분석과 비즈니스가 있으며 데이터 과학 ml 머신 러닝 바로이 점의 차이점은 무엇입니까 세 가지는 일반적으로 학생들이 저에게 묻는 것입니다 추가하려고하면 세션에서 설명하려고 시도하여 개발자가 기본적으로 데이터 분석은 무엇을 이해하려고하는 것입니다 과거에 일어 났으므로 기본적으로 hiv-2가 있습니다

그는 당신이 가기 전에 무의미한 동물원입니다- 알았어 요 세프 확실 할 수 있으면 들려줘 그래 그래 그래 그래 그래 그래 그래서 우리는 지금 당신이 말하는 것의 차이점을 말해 줄 수 있습니까? 이 두 가지에 대해 청소를 취소 할 수 있다면 커패시터가 있지만 당신은 과학을 알고 있습니다 나는 그것에 대해 모르지만 기계 학습은 돈을 알고 있습니다 이전 델타에서 이전 데이터 학습을 얻는 무언가 배우기 거기에 무언가가 있고 지식을 지불했거나 세타가 음수라는 것 규제와 로지스틱 회귀 그렇지 않으면이 모든 사령관이 과거에 신발을 신지 않도록 데이터를 가지고 있고 당신은 단지 과거에 있었을 이해하려고 노력하고 있습니다 예를 들어 지난 몇 년 동안 발생한 일을 이해하면됩니다 해는 무엇을하고 있 었는가 제품 기본적으로 롤업하려고하는 모든 종류의 데이터 및 진행 상황 이해 우리가 알고 싶었던 Utterson과 Louie입니다

예를 들어 수익이 제대로 하락하는 이유 지난 1 년 동안 당신은 왜 수입이 질문 와인을 움직이는 지 알고 싶어합니다 우리가 이유를 묻기 시작했습니다 약간의 통계와 나는 교사와 내가 시도하는 비즈니스 지식을 의미합니다 그 행동이 왜 일어나는지 이해하려고 노력하고 괜찮아 내 임대료가 떨어지고 배달 소년이 큰 일을하거나 저의 선생님은 우리가 데이터 미안 사업에서 주로하는 일입니다 그것이 무엇이고 ml가 우리에게 무슨 일이 일어나고 있는지 예측하려고 시도하는 곳입니다 미래에 맞아 무슨 일이 일어날 지 우주 기계 학습을 사용하세요 알고리즘과 나는 그의 미래가 당신이 방정식을 실행하는 곳에서 무엇을했는지 인정을 잃고 이러한 머신 러닝과 세 가지에 추가 우리가 이해해야 할 것들이 우리가 배울 것입니다

가는 것 그리고 이것도 있습니다 예, 구조화 된 데이터는 열이 필요하고 규칙이 있고 어떤 데이터라도 간단한 예를 들어 쓸 수 있습니다 Excel에서 유치하는 섹스 리더도 올바르게 구성되어 있으므로 열이 있고 행이 있으며 데이터 세트 또는 데이터 또는 데이터를 저장할 수 있습니다 비정형 데이터는 예제 텍스트를 쓰는 인덱스의 무언가를 구체적으로 가리킬 수 없습니다 얼굴과 이미지 파일 오디오 비디오 모든 것이 모든 것에 빠질 것입니다 구조화되지 않은 데이터 (예 : 임의의 데이터에서 검토를 수행) 웹 사이트에 구조가 없지만 내부를 찾아야합니다 이 모든 것이 비즈니스 분석을 할당하고 데이터 과학은 이것이 구조와 사티 타 모두에서 사실이어야하고 그것이 잠재 구조 I로 시작하는 방식으로 우리가 추진할 것입니다

통찰력을 이끌어 내고 최신 텍스트 및 이미지 데이터를 그리고 그것을 처리하고 모델을 구축하는 방법과 실제로 비정형 데이터뿐만 아니라 여기에 게시 할 두 가지 사항이 있습니다 나는 어떤 질문이든 계속 이해하려고 노력할 것이다 그래, 난 그놈처럼 데이트 했어 우리는 이미 기술에 대해 이야기했고 런던 아이 (London Eye)와 함께 필요한 도구 여기에 그들은 배우지 않을 것이고 여기에 있지만 중요한 것은 우리가 진실을 알아야 할 도구는 그의 얼굴이 파이썬에 있으며 기본적으로 SAS를 탭하십시오 오래된 것이기 때문에 아무도 알 수 없습니다 이제 우리가해야 할 중요한 일을 금식했습니다

시장에서 두 가지는 SQL입니다 이 모든 것들을 청소한다고 말한 것처럼 다른 사람들을 변화시키기 위해 댓글이 많이 있습니다 감사합니다 예, 도구입니다 우리가 세션에서 배우게 될 것입니다 앞서 우리는 파이썬이 상호 작용을하고 있다는 것을 알았습니다

사용자가 그렇습니다 IJ가 증가하고 있습니다 그것은 다시 한 번 미안한 이중 세트의 기술과 데이터에 있습니다 지금까지 몇 가지 질문을 진행하기 만하면됩니다 데이터 과학 과정에 몇 분 그렇지 않다면 기본적으로 모든 데이터 과학 문제 그것은 무작위로 사물에 뛰어 드는 과정과 함께 제공됩니다

과학 문제에서 해결하기 위해 취해야 할 구조화 된 부분 비즈니스 지식은 이미 언급했듯이 다시 시작합니다 정말 중요해서 비즈니스 지식을 가져오고 데이터 과학 지식과 함께 모여 정의하고 번역하려고합니다 그 문제를 데이터 과학 문제로 비즈니스 사람과 당신은 당신이 어떤 문제에 대한 결정을 내려야 제대로 해결해야 할지도 모르는 성숙한 문제를 해결하고 싶을 수도 있습니다 회사에서 내 회사 또는 플랫폼을 승인하는 이유를 알고 싶습니다 그것은 문제 세트와 그들의 정신이 간단하고 당신이 변환하고 싶습니다 이것은 이것을 데이터 과학 문제로 해석하고 어떻게 회의적인가? 가나 카는 어떻게 해결할 수 있을지 고민하고 기본적으로 기계 지식 알았어

첫 회귀를 사용하고 싶을 수도 있고 이탈 모델을 만들고 아마도 이유를 알 수 있으므로 시도해보십시오 문제를 클릭하고 실제로 접근하기 전에 접근 방식을 만드는 것 다가오는 장소가 있고 시작하면 솔루션 자체에 뛰어 들기 데이터를 수집하여 그 문제를 해결하십시오 예를 들어 집안일과 같은 문제에 영향을 줄 기능 quiet 100이 좋지 않거나 서비스가 좋지 않기 때문에 100이 맞습니다 사실 어떤 것이라도있을 수 있으므로 데이터 수집을 시작하고 그가 전처리의 종류를 언급했듯이 추가 단계에서 한 번만 사용할 수있는 올바른 변형 청소 또는 브리핑이 완료되면 기능이라고하는 것을 수행합니다 엔지니어링은 기본적으로 새로운 기능이나 미디어를 만드는 것입니다

기존 데이터 세트의 청구서를 다시 그것들은 우리가 볼 것입니다 우리가 볼 것입니다 수업에서 그러나 이것은 다시 높은 수준에서 한번만 너를보고 난 후에 우리는 건물을 조사 할거야 알고리즘은 그래야 기계 학습이 이 프로그램에 사용할 수있는 다른 머신 러닝 알고리즘 성명서 및 조정 방법 및 평가 단계 정확성과 생산에 들어가기에 충분합니다 모델 구축 과정과 마지막 단계에 있기 때문에 매트리스는 가장 과학적으로 통찰력을 얻을 수 있습니다 특정 문제를 알고 배포 배포를 줄이면됩니다

추천 시스템이라면 어떤 홍수 나 압박이라도 이 로봇은 되돌아 가서 햇빛 아래에서 음모를 꾸미고 프론트 엔드의 권장 사항은 다음과 같은 특정 문제입니다 이것이 우리가 확인하기 위해 따르는 일종의 과정이라는 것을 의미 할 수 있습니다 좋은 사실에서 우리는 확실히 몇 가지를 논의 할 것이다 이 모든 것을 수행하는 방법에 대한 아이디어를 얻을 수 있도록 응용 프로그램 다시 머리를 움직이기 전에 다시 그래 기회 조각 그것은 누구든지 질문이 있습니다 괜찮아요 우리가 볼 수있는 기회 부분으로 다시 돌아 오는 메모가 있다고 생각하십시오 첫 번째 슬라이드에서 보았 듯이 많은 데이터가 생성되고 데이터가있는 한, 아마추어에서도 같은 과장 기쁜 마음으로 통찰력을 얻고 더 많은 사람들이 필요합니다 그래서 우리는 더 많은 데이터 과학자가 필요합니다

그래서 그것은 매우 간단합니다 그래서 우리는 주변에 기회가 없으며 할당합니다 데이터가 틀 렸기 때문에 많은 연구에서 우리는 우리가 정말로 데이터 과학 및 분석 기술이 부족하고 이것이 2021 우리는 우리 모두가 실제로 산업이 요구하는 것을 변화시키고 있습니다 그래서 모든 사람들이이 방향으로 나아가고 있습니다 업 스케일하고 그것은 그들의 아이입니다

그래서 우리는 과학자가 필요로하는 다른 역할은 신의 천재를 작동시킨다 시스템 분석 데이터 마이닝 분석가 제품 관리자 데이터 분석에 적합한 재무 분석가는 차원을 분석하므로 현재 존재하는 다른 역할은 공정하게 이 모든 경로에 대해 거의 동일하게 유지되지만 약간 그것이 바로 우리가 두 가지 주요 역할을 수행하는 이유입니다 데이터 속도를 짧게하여 데이터가 손실되지 않도록 입이 맞아 맞아 그래 그래도 우리는 여전히 틈이 있고 성장하기 위해 기회와 직업뿐만 아니라 기술의 차이도 많기 때문에 사람들이 나중에 친절 해지지 만 그들은 실제로 구입해야 할 것들을 알지 못합니다 그러나 그것은 충분하지 않기 때문에 기술을 가지고 있어야합니다 기술 격차가 채워지도록 요구되므로 NLP 처리 텍스트를 학습하는이 단계에서 이것을 작성하십시오 데이터 애니메이션을 통해 모든 것을 알아야합니다

그렇지 않다면 우리는 컴퓨터 과학자를 만들 것입니다 그렇지 않으면 기술 격차는 포르투갈 측에서 오는 큰 문제입니다 간단히 말해서 고기는 많지만 문제는 있지만 아직 많은 사람들을 인터뷰하는 많은 사람들이 있고 같은 나라 때문에 고용되지 않고 과학자들이 알아야 할 모든 측면이나 모든 것을 알지 못한다 그래서 나는 모든 것을 알고 나서 가서 소개하기 정말 쉬워요 그 후에는 정말 쉽지만 그런 종류의 추세는 일이 가고 상상해서는 안된다는 것을 모르고있다 바로 그것이 다시 한 번 기회의 측면을 보았습니다 여기서 잠시 멈추고 질문 당신 더 많은 질문이 있습니다 목표에있는 모든 사람이 괜찮습니다 산토스 제발 당신이 아는 바도 의심합니다 알았어요 알겠습니다 언제든지 질문이 있으시면 알았어 알았어 그래서 우리가 할 일은 몇 가지를 빠르게 논의 할거야 합병증 바로 내가 다시 몇 분 동안 믿고 열 질문 당신이 대답 할 수있는 질문 당신은 나에게 관련 문자 그대로 요청할 수 있습니다 정의하고 나는 바로 대답하기 위해 노력합니다 세션 우리는 데이터 과학의 몇 가지 응용 프로그램을 빠르게 볼 수 있도록 당신은 당신이 옳은 일을 알고 있습니다

데이터 과학 Viloria 비즈니스에 실제로 참여할 때 해결됩니다- 그리고 당신은이 모든 것들을 알고 있어야하지만 정확히 무엇을 모른다 Mac에서 일어나거나 AI가 맞다는 것을 알지만 이 응용 프로그램에서 이미 진행 중이어야합니다 바로 페이스 북 과세의 예입니다 페이스 북 이미지를 업로드하면 자동으로 추천 함을 알 수 있습니다 사람에게 태그를 지정하려면 괜찮습니다이 사람이나이 이름을 오른쪽으로 드래그 할 수 있습니까? 기본적으로 안면 인식 시스템으로 감지 하고이 이미지를 분류하는 Facebook 특정 단계에 맞습니다 그러면이 권리를 공격 할 수 있습니다 netflix 추천 나는 그것이 인기가 있다고 생각합니다

경쟁이 있었고 인기있는 조합 시스템이 등장하면 무엇이든 사진이 바로이 모든 명성이 돌아가고 있습니다 백엔드 뒤에는 기본적으로 유사성 매트릭스 머신이거나 깊은 의미가 있습니다 기본적으로 비교하는 자연어 처리를 의뢰하고 미안합니다 넷플릭스와 같은 종류의 것들에 대해이 말키를 찾아보세요 아마존 추천 시스템은 순전히 스 랭크 처리 및 머신 러닝과 특정 통계 측정법이 응용 프로그램 및 예를 들어 홍수 탐지 권리 이것은 가장 큰 것입니다 은행 및 금융 산업의 문제로 기계 학습을 사용하고 있습니다 특정 고객이 사기인지 여부를 감지하는 알고리즘 맞습니다

분류 문제이므로 두 종류의 문제가 있습니다 연속파를 사용하여 새로운 것을 예측하기위한 회귀 및 분류 그렇지 않으면 분류를 제출하면 영화 수업에서 알게되지만 당신은 방정식 중 하나는 기본적으로 예측하는 사기 탐지입니다 이 고객은 부정한 사기라고 또한 스팸 필터 스팸 분류와 마찬가지로 특정 수신 이메일이 스팸이며 당신이 가진 경우 특정 스팸 ming-lee 폴더와 함께 것 관찰 이름과 폴더가 있고 많은 힘이 거기에 있음을 확인하십시오 당신이 면밀히 관찰하면 실제로는 불필요한 스팸 수단입니다 그것이 자연어 처리라는 것입니다 직물이 스팸인지 여부를 기본적으로 분류하는 행동 클래스 배열에서 해결할 정확한 사용 사례입니다

다가오는 수업과 웹 검색이 실패했을 때의 세분화 그것의 조상의 권리와 분석을 보여주었습니다 당신은 모든 조직이 사람들이 왜 떠나고 있는지 알고 싶어합니다 회사 권리 (예 : 분석이 표시된 차트) 특정 직원이 조직을 떠날 때 그는 옳았어요 이런 종류의 기부는 괜찮아요 다음 달에 떠날 것입니다 액티비티에 관한 것입니다 물론 세포에 대해서도 우리가 정확하게 훈련 자체를하지 않을 것입니다 카드를하고 있지만 이것은 중 하나입니다 인공 지능과 과학의 응용에 대한 설명만으로 모든 것이 가장 똑같으므로 스마트 스피커가 있습니다

감정도 제대로 생성하므로 감정 분석이 가장 중요합니다 텍스트 데이터를 읽거나 처리 할 때 데이터를 가져 와서 오디오를 처리하고 소음에 대한 정서가 무엇인지 알아 내려고 노력하십시오 분석은 그들이 사람들의 감정을 이해하는데 정말 유용한 곳입니다 특정 제품 예를 들어 아마존에서 새 제품을 출시하면 당신이 별이되는 법을 알고 싶어합니다 기본적으로 프로세스의 일종 인 고정 장치의 모든 리뷰를 긁어냅니다 스케치 이미지 분석 또는 패키지로 푸시하고 기본적으로 그 애완 동물과 구두 감정을 알아 제품 괜찮아 당신은 긍정적이고 예를 들어 휴대 전화라면 배터리가 좋지만 좋은하지만 내 화면이 좋지 않다 나는 갑자기 그 사람들은 제대로 할 수있는 것들과 큰 붐이 있습니다

커미션 산업도 마찬가지입니다 인간은 변호사가 모범을 보이기 때문에 기계를 교체했습니다 법적인 질문을하고 그것에 대해 할 수 있어야합니다 답변 당신은 변호사가 당신의 인생에서 온 것입니다 시각적 분석도 있습니다 물론 이것은 초 인간적인 구조입니다 연구 결과에 따르면 인간이나 인간 의사의 실수는 특정 질병의 엑스레이를 판독하기 위해 기계로 인한 오류 이상 당신은 당신이 질문에 대한 결과가있을 것이다 질병이있다 엑스레이 서비스를받을 자격이 있으며 인간은 한 두 가지를 놓칠 수 있습니다 그로 인해 문제가 발생했지만 기계가 지금은 인간이 옳아 요 아직 시작에 많은 것들이 있습니다

물론 다시옵니다 내가 어떻게 넣어야하는지에 대한 아이디어를 얻을 수 있도록 특정 문제를 해결할 때의 모습 우리는 여러 사례 연구를 통해 사용할 것입니다 여기에서 몇 가지 때문에 우리는 참가자로 n으로 구현됩니다 제품 키트 추천 시스템 또는 제품과 같은 프로젝트 보호에 대한 카테고리 분류 또는 감정 분석 주춧돌 프로젝트와 같은 특정 프로젝트 및 흐름은 정확히 이런 일들이 백엔드에서 이루어지고있는 것입니다 어쩌면 나는 적어도 모든 일이 어떻게 될지 아이디어를 얻었을 것입니다 그래서 나는 여기서 잠시 멈출 것이다 알았어 미안해 여기 질문이 그리워 한가지 질문은 클라우드에서이 모든 일을 할 수 있습니까? 네, 우리는 모두 할 수 있습니다 클라우드에서 이러한 것들이 시작될 수도 있습니다

복잡하지는 않지만, 물론 모든 것을 할 수는 없습니다 구름과 하나의 질문에 더 대답하기 위해 물론 예라고 말할 것입니다 우리가 다루게 될 사이트이지만 우리가 잠깐 동안 할 것들 알았어 그래서 여기서 흐름을 충분히 설명해 하지만 다시 한 번 말씀 드리지만 저는 예술과 SQL의 집안일을 다룰 것입니다 주황색 내 차례와 통계 또는 어느 스위치 정말 중요한 구성 요소이며 줄기 데이터베이스와 데이터를 다룰 것입니다 데이터 과학에 대한 과학 중단 물론 파이썬과 머신 러닝의 통계적 추론 알고리즘과지도 학습은 기계 학습의 일부이며 또한 클러스터링을 수행하는 방법에 대한 감독 학습 그리고 당신은 모든 것들이나 다른 유형의 감독되지 않은 최고를 볼 수 있습니다 키르 스틴 및 물론 권장 시스템 및 흡입 땅콩 예를 들어 감정과 같은 텍스트 데이터 권한을 처리하는 방법에 대한 언어 처리 우리는 NLP도 다루고 우리는 또한 차 계획을 다루어 컨볼 루션 신경망이 무엇인지 또는 물리적 인 단위 작업은 이미지 문제를 해결하는 방법 텍스트를 수행하는 방법 요약과이 모든 것들이 그렇기 때문에 이것은 고대의 일종입니다 커리큘럼 그것이 어떻게 보이는지 나는 그것이 여러분에게 보내질 것이라고 생각합니다 그것은 틀리지 않지만 그래, 우리는 모든 것을 배우게 될 것입니다 기본적으로 데이터 과학자들에게 그리고 우리의 관점에서 우리가 배우게 될 것들이 당신의 질문에 대답하기를 바랍니다 다른 질문은 소매점을 제공하고 있습니까 제품도 예 예 우리는 소매 프로젝트를 할 것입니다 그것은 실제로 웹 사이트로 이동하여 언급했는지 여부를 알지 못합니다

헬스 케어의 전자 상거래 프로젝트에 관한 프로젝트 뱅킹과 4 개의 헤드 그래 그래 그게 다야 그래 네가 전자 상거래 뱅킹에 주로 도메인 간 프로젝트 토론 특정 요구 사항이 있으면 필요합니다 이 산업에 대한 프로젝트를 진행해 나갈 것입니다 Santos가 은행 업무를하고 싶어하고 다른 누군가가 소매업을하고 싶어 할 수도 있습니다 라탄이 소이에 대한 특정 프로젝트를 수행한다고 말할 수는 없습니다 그래, 그래 다른 질문에 액세스하거나 질문하는 것 같아요

또는 코스 기간을 따라 코스를 완료하면 4 개월에 가까운 코스이므로 약 4 개월이 소요됩니다 이 모든 것들을 배우는 데 몇 달이 걸리기 때문에 물론 모든 악인이 될 것이며 또한 사울에게 많은 임무가 주어질 것입니다 우리는이 모든 것들을 올바르게 다루어야합니다 3 개월에서 4 개월 동안 다른 질문들 감사합니다 궁금한 점이 있으면 알려주세요 그렇습니다 우리가 튀김을하거나 방해하는 수업은 당신은 하인에게 체인을 요청할 수 있지만 내가 아는 한 그것은 온라인 수업이라고 생각합니다

수업은 우리가 수업에서 충분히 얻습니다 이 데모는 메인 세션 아이디어를 따른 것 같습니다 다른 질문이 있으시면 질문이 있으시면 계속 진행하여 트레이너 나는 더 이상 질문이 없다고 생각합니다 물론 코스에서 기대하는 급여는 얼마입니까? 그것은 당신이 인도에서 요구하는 경험에 달려 있습니다 지난 몇 년간의 경험과 어떤 종류의 회사에 당신은 모든 것들에 들어가고 있지만 시장 동향으로 나는 당신에게 하나를 보여줍니다 그래 지금 시장은 당신에게 새로 고침 또는 0-3 경험 그래서 6-7 세금은 급여입니다 X와 7 ~ 10 년의 휴가를 3 년에서 7 년 정도주고 계속해서 기본은 모두 6-5-6 정도입니다 데이터 과학을위한 lakhs는 hello를 알고 있습니다

질문을 내 쉰다 당신은 왜 더 신선한 지에 적용 할 필요가 없다 업계 지식과 여기서 중요한 부분은 비즈니스 지식이기도하므로 계속해서 비즈니스 지식과 이러한 모든 것을 배울 수 있으며 계속 진행할 수 있습니다 다른 통신 산업에 지원하거나 특정 절차를 수행 할 수 있습니다 이러한 것들에 노출되어있는 것처럼 보여줄 수 있습니다 들것 또는 파슬리로 간주되므로 다음 역할을 수행하게 될 것입니다

그 자체로 그것은 짧은 대답입니다 네, 마지막 비행기를 반복 할 수 있습니다 알았어 짧게 아냐 아 그래 그래