Apache Kafka Tutorial | What is Apache Kafka? | Kafka Tutorial for Beginners | Edureka

안녕하세요 여러분! Edureka의 Subham입니다 오늘 세션의 주제는 카프카 자습서입니다

따라서 아무런 지체없이 오늘 세션의 의제를 살펴 봅시다 이해하는 것이 중요하다고 생각합니다 기술의 필요성 이제 메시징 시스템의 필요성부터 시작하겠습니다 그런 다음 Apache Kafka와 그 기능을 이해할 것입니다 Kafka 튜토리얼을 더욱 발전시켜 우리가 다른 것에 대해 배울 것입니다

Apache Kafka의 구성 요소와 아키텍처 마침내 우리는 Apache Kafka를 설치하고 배포 할 것입니다 단일 노드 단일 브로커 클러스터

BTS FAKE LOVE EXPLANATION | What do the items and rooms mean? [SOLVED]

제가 이번에 페이크러브 뮤비해석을 준비해왔습니다! 방탄소년단과 빅히트가 데뷔초부터 준비해 온 이야기입니다 모든 자료들은 화양연화 노트와 하이라이트 릴에서 찾았습니다

영상자료들은 뮤비, 티저, 하이라이트등에서 가져온거구요 다 정확하다고 말할 순 없지만, 지금까지 제가 찾아내고 이해해보려 했던 것들 입니다 페이크 러브 뮤비해석 마술 가게는 두려움을 긍정적인 태도로 바꾸는 심리극의 기법입니다 마술 가게는 상상 속에 존재하는 정신적 재활입니다 심리극은 누군가의 삶을 조사하고 통찰력을 얻기 위해 심리 치료로 자주 사용되는 수법입니다

방탄소년단은 자신들을 행복하게 만드는 무언가를 위해 과거의 두려움을 교환합니다 그 물건들은 방탄소년단 멤버들의 충격적인 기억을 상징합니다 진 – 이어피스 진은 항상 아버지나 교장 선생님의 꼭두각시였죠 고등학생 시절, 진은 교장선생님께 그들의 비밀 은신처가 어디에 있는지 말했죠 그로인해 슈가는 퇴학을 당했구요

BTS memories of 2015 한 장면에서 진은 과연 무엇을 위해 이어피스를 교환한걸까요? 뮤비에서 보여주진 않았지만, 빨간 다이어리, 스메랄도 꽃, 아님 카메라를 받았다 짐작해봅니다 호비 – 스니커즈 초코바 스니커즈 초코바는 그의 엄마가 호비를 버리기 전 두고가신 초코바를 상징합니다

호비는 과연 무엇을 위해 초코바를 교환한걸까요? 케이크 – 십년지기 친구 지민 – 숲의 사진 저도 아직은 이 사진에 담겨있는 뜻이 무엇인지 잘 모르겠습니다 하지만 지민이가 8살때 일어난 사고와 관련있는것 같습니다 그때 수목원에서 일어난 일은 지민이에게 많을 상처를 주었고 그의 발작을 일으키며 그가 거짓말을 하게 만들었다 추리해봅니다 지민이는 과연 무엇을 위해 사진을 교환한걸까요? 바로 우산입니다 그러나 아직까진 우산의 좋은영향은 보지못했네요

알엠 – "살아 남아야 한다"가 써있는 거울조각 알엠이 "살아 남아야 한다"라고 쓴적은 과거에도 많이 있죠 알엠은 가난하게 자랐습니다 알엠이 제일 힘들때 자신을 위해 쓴 메모입니다 알엠은 과연 무엇을 위해 거울조각을 교환한걸까요? 바로 여자한테 줄 머리끈이었습니다 "우리는 한달 가량 같은 도서관에서 공부하고 같은 버스 정류장에서 같은 버스를 탔다

하지만 우리는 서로 한마디도 하지 않았다 머리 끈은 아직도 내 주머니에 있었다 저는 그녀가 전단지를 나눠 줄 것인지, 그녀가 어떤 것들을 견디고 있는지 궁금했다" 슈가 – ????? 슈가가 무엇을 교환했는지는 아무도 모릅니다 근데 그물건이 피아노 건반일 가능성이 크다고 생각합니다

화양현화 노트에서 슈가가 책상에서 피아노 키가 들어 있는 봉투를 꺼냈었습니다 그 피아노 건반은 슈가의 어머니를 죽인 화재 때문에 불에 탄 어머니의 피아노에서 나온 것이었습니다 슈가는 과연 무엇을 위해 그 물건을 교환한걸까요? 막대사탕입니다 바로 하이라이트 릴의 여자와 관련있는 막대사탕이죠 태형 – ????? 태형이가 무엇을 교환했는지는 아무도 모릅니다 근데 그물건이 핸드폰일 가능성이 크다고 생각합니다

그 핸드폰은 태형이가 아버지랑 있었던 사건 후에 알엠형한테 전화하려던 핸드폰일 것 같네요 태형이는 과연 무엇을 위해 그 물건을 교환한걸까요? 가방이네요 하이라이트 릴에서 태형이랑 관련된 여자의 가방이죠 같이 지내면서 친해진 것 같은데요 정국 – ????? 정국이가 무엇을 교환했는지는 아무도 모릅니다

설마 자기자신일 수 있을까요? 형제들이 슬플 때, 아플 땐 내가 아플 때보다 더 아프다 (Begin 정국 솔로곡) 정국인 과연 무엇을 위해 그 물건을 교환한걸까요? 바로 열쇠입니다 무엇을 여는 열쇠일까요? 형들의 행복? 자신을 위한 행복? 결국 정국이는 자기 자신을 마주하게 됩니다 진은 스메랄도 꽃을 지키려고 했죠 하지만 끝내 지키지 못했습니다 진이 하이라이트 릴의 여자를 지켜주지 못했다는 걸 보여주네요

그녀는 길 한복판에 누워 있었다 그녀의 머리카락 사이로 피가 흐르고 있었다 붉은 피가 거리를 따라 흘렀다 나는 생각했다 내가 시간을 돌려놓을 수만 있다면

(석진 notes – 830 Year 22) 컨테이너는 알엠의 은신처를 상징합니다 가난해서 컨테이너에서 살았죠 왼쪽에 메달린 손잡이는 하이라이트 릴의 여자를 항상 만나는 버스를 상징합니다 이 방은 호비가 엄마와의 마지막 추억인 놀이공원을 상징합니다

호비는 두려움을 이겨 내기 위해 노력했죠 끝까지 두려움에 맞서야 했습니다 지민이는 화장실/연습실 안에 있네요 친구와 연습하며 심하게 부딪친 사건을 기억하는거 같네요 거울을 보니 비를 맞으며 도망 간 8살때 자신이 보였다

(지민 notes – 704 Year 22) 지민이가 무슨 일이 일어났는지 깨달았을 때, 호비는 이미 그 소녀를 병원으로 옮겼갔죠 "할 수 있는 일이 없었다 내가 할 수 있었던 것은 넘어져서 누군가를 다치게 하고, 홀로 남겨 두고 가서 내 고통에 벌벌 떠는 것이였다" 태형이의 방은 핸드폰으로 가득하네요 ㅎㅎ 그 핸드폰은 태형이가 아버지랑 있었던 사건 후에 알엠형한테 전화하려던 기억을 상징하는거 같네요

"save me" 그래피티는 하이라이트 릴의 여자를 상징하는데요 슈가의 방은 옛날의 불에 탄 집을 상징하는데요 피아노는 엄마를 상징하는 것 같네요 정국이의 방은 깜깜하죠 하지만 형들을 항상 찾구 돌보고 있죠? 그리고 다른 멤버들은 정국이가 지켜보고 있는 사실을 알구요

과연 정국이가 '오멜라스를 떠나는 사람들'의 아이일까요? 정국이가 도시 아래에 갇혀 끔찍한 환경 속에서 오멜라스의 도시사람들의 행복을 위하여 고통받으면 살아야 하는 아이를 상징하는것일까요? 결국, 정국이는 무엇을 열쇠로 열었을까요? 자신의 행복이 아닐까요? 그래서 다른 멤버들이 다시 두려움을 맞이하게 된 것이 아닐까요? 그 때서야 방탄소년단 멤버들은 교환한 물건들이 단지 일시적인 행복을 위한 것이라는 것을 깨달았습니다 페이크 러브 (거짓된 사랑) 진이 있던 방으로 들어간 정국 멤버들은 이제 더 이상 상처를 감추기 위해 마스크를 쓸 수 없었습니다 이러한 가면들 때문에, 그들은 더 이상 자기도 자기자신이 누구인지도 알지 못하게됐죠 결국 멤버들은 자기 자신을 마주 해야 했습니다 진심으로 자기 자신을 사랑하기 위해서 그래야만 했습니다

BTS 타임라인에 대해 자세히 알아보구 싶으시면 모든 노트와 정보를 연대순으로 정리한 비디오도 만들어 보았습니다 끝까지 봐주셔서 감사합니다

What is Avro?

Avro는 Hadoop을 위해 두 가지 서비스를 제공하는 Apache 오픈 소스 프로젝트입니다 데이터 직렬화 및 데이터 교환

이러한 서비스는 함께 또는 독립적으로 사용할 수 있습니다 프로그램은 데이터를 파일이나 메시지로 효율적으로 직렬화 할 수 있습니다 Avro는 작성된 프로그램간에 빅 데이터를 저장하고 교환하기위한 프레임 워크를 제공합니다 어떤 언어로든 Avro는 데이터를 작고 효율적인 형식으로 저장합니다 두 데이터 정의를 저장합니다

및 데이터를 하나의 메시지 또는 파일로 함께 표시합니다 데이터 정의는 JSON 형식으로 저장됩니다 데이터는 2 진 형식으로 저장됩니다 Avro 파일에는 MapReduce 처리를 효율적으로 분할 할 수있는 마커가 포함되어 있습니다 Avro는 코드 생성 단계가 필요 없기 때문에 langauges 스크립팅에 이상적입니다

Avro는 숫자, 바이너리 및 문자열을 포함한 다양한 원시 데이터 유형을 지원합니다 배열,지도, 열거 및 레코드를 비롯한 여러 복잡한 유형이 있습니다 Avro 데이터에 대해서도 정렬 순서를 정의 할 수 있습니다 Avro의 핵심 기능은 시간이 지남에 따라 변하는 데이터 스키마에 대한 강력한 지원입니다 "스키마 진화"라고도합니다

Avro는 누락 된 필드, 추가 된 필드 및 변경된 필드와 같은 스키마 변경 사항을 처리합니다 너무 오래된 프로그램 새로운 데이터를 읽을 수 있고 새 프로그램은 오래된 데이터를 읽을 수 있습니다 Avro에는 Java, Python, Ruby, C, C ++ 등을위한 API가 포함되어 있습니다 Avro를 사용하여 저장된 데이터는 한 언어로 작성된 프로그램에서 다른 언어로 작성된 프로그램, 심지어 C와 같은 호환 언어에서 스크립팅까지 돼지 같은 언어 Avro의 데이터 교환 서비스를 통해 프로그램간에 데이터와 정보를 쉽게 전달할 수 있습니다

원격 프로 시저 호출 사용 Avro 원격 프로 시저 호출 인터페이스는 JSON에 지정됩니다 인터페이스에는 프로토콜 선언과 유선 형식이 있습니다 프로토콜 선언은 교환 될 메시지를 정의합니다 메시지는 Avro 데이터 스키마로 정의됩니다

유선 형식은 다음 세 가지를 정의합니다 1 요청 및 응답 메시지가 전송되고 수신되는 방식 완충 된; 2 통신을 수립하기위한 핸드 셰이크 프로토콜 및 3 요청 및 응답 메시지 교환

What is Data Governance?

안녕하세요 저는 Jared Hillam입니다 컴퓨터를 구입했다고 상상해보십시오

귀하의 회사에 비용을 지불했습니다 지출 보고서를 작성하고 절차를 따르십시오 조만간 수익금을받을 것으로 기대하고 있습니다 당신 회사의 회계 측에서, 누군가 당신에게 전화를 할 것을 요구하는 비정상적으로 높은 비용 보고서를 봅니다 상상할 수 있니 그 전화에 대한 당신의 반응은 "당신이 달러 사람 이니까요, 그래서 당신이 알아 낸 것입니까?" 회계사가 "달러 녀석"이라는 사실은 그렇습니다

당신이 돈을 돌려 받기가 더 힘들지 만, 회계사는 단순히 이야기를 가지고 있지 않습니다 왜 그 컴퓨터를 사야하는지 뒤에 데이터에서도 마찬가지입니다 "데이터 녀석"은 IT에 있지만 그들은 그렇지 않습니다 그 데이터를 만듭니다

따라서 데이터가 시스템간에 일관성이없고 잘 롤링되지 않는 경우, 누가 전화 할 것 같니? 그것이 바로 비즈니스 사용자입니다 하지만 불행히도 데이터 문제는 우리 지출 시나리오와 같은 추세와 털이에 오지 않고 대량으로옵니다 애플리케이션 시스템 내부의 트랜잭션 및 상호 작용의 양 그래서 설정 1 회성 전화 또는 회의는 문제를 해결하지 않습니다 그리고 이것은 많은 조직들이 무인도로 끝나는 곳입니다

IT 부서에는 없다 데이터를 수정하기에 충분한 컨텍스트와 비즈니스 사용자가 이것이 IT 문제라고 생각합니다 이 교착 상태는 다양한 방법으로 자신을 드러내는 많은 문제를 일으 킵니다 • 데이터가 올바르지 않기 때문에 보고서가 올바르게 롤업되지 않습니다 • 서로 다른 시스템에는 자체 고객 레코드가 있습니다

• 새로운 시스템을 세우려면 많은 작업이나 재 작업이 필요합니다 비즈니스 규칙은 누군가가 부서별 스프레드 시트에 넣는 것으로 끝납니다 • 교차 판매는 거의 불가능합니다 회사와의 고객 상호 작용에 대한 통합 프로필이 없습니다 • 목록이 계속 켜져 있습니다

이 문제를 해결하려면 cat herder가 필요합니다 그것은 많은 것을 얻을 수있는 누군가를 필요로합니다 사람들은 바쁜 일정에 추가하고 싶지 않은 것을 할 것입니다

어느 것이 사례는 데이터 거버넌스입니다 이 비디오에서 우리는 데이터 거버넌스 프로그램은 무엇이며, 사람들이 가져야 만하는 역할 데이터 거버넌스 프로그램은 조직이이 무인도에 착수하도록 돕기 위해 고안된 것입니다 에 머리 그리고 이것은 관련된 모든 중요한 이해 관계자들을 조직함으로써 이루어집니다

운수 나쁘게 많은 조직에서는 이것이 결국 도넛 회의가됩니다 그 모임을 알지? 다들 무료 도넛을 사러 갈거야? 따라서 데이터 거버넌스 프로그램을 작동 시키려면 당신은 몇 가지 기본 지침을 따라야합니다 1 IT가 데이터 거버넌스 프로그램을 소유해서는 안됩니다 에이

그들은 데이터를 만들지 않습니다 !!! 비 IT는 다음에 대한 참여 회원이어야합니다 거버넌스 팀이 있지만 게이트를 소유하고 있으면 게이트에서 잘못된 인상을 남깁니다 2 IT 부서는 데이터 거버넌스 프로세스를 반복 할 수있는 프레임 워크를 개발해야합니다

그리고 확장 성 a 여기에는 마스터 데이터 관리 소프트웨어 배치 b 데이터 품질 소프트웨어 배포 기음 데이터 은퇴 소프트웨어 배포 d 보안 소프트웨어 배포 이자형

Etc 3 이것은 비즈니스 이해 관계자가 데이터 거버넌스 프로그램을 소유하고있는 이유는 무엇입니까? 에이

그들은 사람들에게해야 할 모든 변화를 평가하는 요점이 될 것입니다 데이터 b 그리고 프로세스 변경이있을 수 있습니다 데이터 품질 문제가 계속 발생하지 않도록 보장해야합니다 기음

또한 비즈니스 프로세스 소유자는 용어에 동의하기 위해 함께 모일 필요가 있습니다 나는 예를 들어, 창고 관리 팀은 "배송"이란 제품이 도크를 떠날 때 그러나 판매 팀은 그것은 고객의 문앞에 도착합니다 지원 팀이 "배달" 제품이 설치되었을 때 ii

우리가 필요로하는 기준을 정할 경우 명명 규칙을 유지하기위한 규칙이나 논리를 바꾸는 것에 동의해야한다 IT 팀이 주변에 프레임 워크를 구축 할 수 있도록 디 그리고 마지막으로, 자리에 있어야 할 규칙 중 일부는 정치적 후원으로 막대한 결정을 내림 나는 어떤 사람들은 이러한 시스템을 구축하는 데 자신의 삶의 일을 보냈다는 것을 잊지 않겠습니다 프로세스를 통해 많은 조직에서 다루는 많은 개인 투자가 있습니다

4 데이터 거버넌스 회의는 6-12 개월 계획으로 진행되어야합니다 원하는 최종 상태에 대한 진행 a 이것은 회의가 도넛이되는 것을 막아줍니다 회의 b

그리고 전술적 인 과제와 모든 사람들의 마음에 분명히 드러나는 최종 목표와의 관련성 5 비즈니스 참가자가 명확한 역할을 수행하는지 확인하십시오 예 : 에이 소유주는 정착에 관한 정치적 단점과 IT 교육을 제공해야합니다 또는 MDM 도구 내의 정책 변경 b

데이터 스튜어드는 소유주에게 정책에 대해 조언해야합니다 결정 및 사용자에 의한 데이터 변경 승인 기음 사용자는 MDM 도구가 자동으로 해독 할 수없는 레코드 수정을 결정합니다 또한 Data Stewards에 대해 권장되는 규칙이나 업데이트를 제공하여 필요한 수동 업데이트 수 데이터 관리 팀을 구성하는 쿠키 방법은 없습니다 Intricity가 빌드를 도왔습니다

다양한 정치적 기업 환경에서의 데이터 거버넌스 프로그램 나는 추천한다 Intricity의 웹 사이트를 방문하여 전문가와 상담하십시오 우리는 당신의 디자인을 도울 수 있습니다 오래된 도넛 더미에 쌓이지 않는 데이터 거버넌스 프로그램

What is Zookeeper?

ZooKeeper는 중앙 집중식 인프라를 제공하는 오픈 소스 Apache 프로젝트입니다 클러스터를 통한 동기화를 가능하게하는 서비스 등이 있습니다

ZooKeeper는 대규모 클러스터 환경에서 필요한 공통 객체를 유지합니다 예제들 여기에는 구성 정보, 계층 적 이름 공간, 동기화 정보 등등 애플리케이션은 이러한 서비스를 활용하여 대규모의 분산 처리를 조정할 수 있습니다 클러스터 500 개 이상의 서버에 걸쳐있는 Hadoop 클러스터를 상상해보십시오

데이터베이스를 관리 해본 적이 있다면 10 대의 서버로 구성된 클러스터를 사용하면 전체 서버에 대한 중앙 집중식 관리가 필요합니다 클러스터링 : 이름 지정 서비스, 그룹 서비스, 동기화 서비스, 구성 관리 및 기타 Hadoop 클러스터를 활용하는 많은 오픈 소스 프로젝트에는 이러한 유형의 교차 클러스터가 필요합니다 서비스 동물원 (ZooKeeper)에서 해당 프로젝트를 사용할 수있게되면 이러한 프로젝트 각각을 임베드 할 수 있습니다

ZooKeeper는 처음부터 동기화 서비스를 만들 필요가 없습니다 그럼, 어떻게 작동합니까? ZooKeeper는 노드 간 동기화를위한 인프라를 제공합니다 응용 프로그램이 클러스터 전체의 작업을 직렬화하도록 사용할 수 있습니다 또는 동기화 ZooKeeper와의 상호 작용은 Java 또는 'C'인터페이스를 통해 발생합니다

사육사는 상태, 구성 및 동기화 정보를 메모리에 유지합니다 ZooKeeper 서버에서 ZooKeeper 서버는 상태의 복사본을 보관하는 컴퓨터입니다 전체 시스템 및 로컬 로그 파일에이 정보를 유지합니다 매우 큰 Hadoop 클러스터 여러 ZooKeeper 서버에서 지원할 수 있습니다

이 경우 마스터 서버는 최상위 서버 각 클라이언트 시스템은 ZooKeeper 서버 중 하나와 통신하여 검색 및 업데이트합니다 그것의 동기화 정보 ZooKeeper에서 응용 프로그램은 znode라는 파일을 생성 할 수 있습니다 ZooKeeper 서버의 메모리에 저장하십시오 z 노드는 클러스터의 모든 노드에서 업데이트 할 수 있습니다

클러스터의 노드는 해당 znode에 대한 변경 사항을 알리기 위해 등록 할 수 있습니다 동물원에서 용어를 사용하면 특정 z 노드를 "감시"하도록 서버를 설정할 수 있습니다 우리가 3 분 안에 커버 할 수있는 것보다 분명히 더 많은 것이 있지만, 기본적으로 어플리케이션 이 znode 인프라를 사용하여 클러스터 전체에서 작업을 동기화합니다 상태를 ZooKeeper znode에 저장하면 클러스터의 나머지 부분에 특정 노드의 상태가 변경되었습니다 이 클러스터 전반의 상태 중앙 집중화 서비스는 관리 및 직렬화에 필수적입니다

대규모 분산 된 서버 세트에서 작업을 수행 할 수 있습니다

Hadoop Tutorial | What Is Hadoop | Big Data Hadoop Tutorial For Beginners | Intellipaat

안녕하세요, 하둡 세션에 오신 것을 환영합니다 그럼 아주 작은 이야기부터 시작합시다

우리는 잘 가야한다 그래서 나는이 전자 상거래 사이트의 CEO 인 Jeff Bezos입니다 Mamazon와 너희들은 내 기술자 야 그래서 오늘 우리의 조직은 다음과 같이 보입니다 우리는 전자 상거래 사이트와 오라클에서 실행됩니다

우리는 인벤토리를 가지고 있고 그것은 MY SQL에서 실행됩니다 그래서 인생은 여기에서 아주 쉽게, 모든 것이 굉장합니다 그래서 지금 내가 대답하기를 원한다면 의문 다음 달에 얼마나 많은 iPhone을 주문해야하는지 말해 보겠습니다 아주 단순한 지금해야 할 일을하는 전형적인 비디오는 모든 것을로드하는 것입니다

이 데이터를 데이터웨어 하우스에 저장하고 테라 데이터를 말한 다음 기본적으로 귀하의보고 이것이 바로 tableau 및 Qlikview와 같은 도구가있는 곳입니다 그래서 데이터가 생성되면웨어 하우스에로드하고 생명은 매우 간단합니다 하지만 한 가지 문제가 있습니다 이 전체 설정의 실제 문제 보게 될 때까지 이것이 잘 돌아갔을 것입니다

2000 또는 2005 오늘 우리는 2018 년에 있으며 질문은 그렇게 간단하지 않습니다 우리가보고있는 데이터의 양이 매우 거대하기 때문에 간단한 예를 들자 이제 내가 질문을 바꾸고 얼마나 많은 말을했는지 고객은 iPhone을 구입하고 좋아했지만 배달이 싫었습니다 지혜로운 말로 트위터에 분노를 터뜨렸다

이제 가장 먼저 Twitter와 같은 출처에서 오는 데이터 및 귀하의 다른 소스 센서, 클라우드의 네트워크 로그 따라서 생성되는이 deta는 실제로 정말 거대하고 전통적인 데이터베이스 시스템에 잘 들어 가지 않을 것입니다 그래서 마이클은 여기에 질문이 있습니다 그는 Big Data에 대해 이야기하고 있습니까? 예 마이클 당신은 절대적으로 옳다 따라서이 엄청난 양의 데이터가 다른 출처와 다른 형식으로 존재하는 것은 귀하의 빅 데이터 (Big Data)와 우리는이 큰 데이터를 저장하고 처리하기 위해 새로운 것을 필요로합니다

그래서 그것이 우리가 다른 시스템을 도입하기로 결정한 곳이며 시스템은 Hadoop은 이제 Hadoop을 다음과 같이 생각합니다 매우 큰 데이터웨어 하우스로서의 매우 원유가 많은 조잡한 방식으로 데이터를 가져올 수 있습니다 어디서나 쉽게 단일 마스터를 호스트 할 수 있으며 이론적으로 수십 개의 수천 개의 노드 또한 두 가지 서비스를 제공합니다 저장소 및 프로세스이므로이 사람 전통적인 데이터베이스 및 기타 소스에서도 데이터를 가져올 수 있습니다

이제이 사람 데이터를 저장하고 데이터를 처리 할 수 ​​있습니다 하둡을 누군가로 생각하십시오 일반적으로 많은 데이터를 저장하고 처리하기 위해웨어 하우스를 보완합니다 이제 최종 처리가 완료된 후에 데이터를 저장하고 처리합니다 그 마지막 물건을 창고에 넣을 수 있습니다

분석 도구를 사용하면보고 도구에 직접 연결할 수 있습니다 또한 가능한 사람들은 당신의 패턴을 기반으로 당신이 정말로 당신이 무엇을 선택할 수 있습니다 Hadoop의 아이디어입니다 그래서 모든 데이터를 한 곳에서 처리하고 처리합니다 웨어 하우스에로드하거나 직접보고 도구에 연결할 수 있습니다

이 인스턴스를 오라클에로드하면 다른 인스턴스가됩니다 추천 엔진 그래서 우리가 가진 모든 근원에서 이런 식으로 생각하십시오 우리는 아이폰을 사는 사람들의 85 %가 스크린을 원한다는 것을 알았습니다 경비원과 아이폰을 사는 81 명도 뒤 표지를 샀다

이제 한 번 우리는 Hadoop 내에서 이것을 배울 수 있습니다 Oracle에 다시로드 할 수 있으며 다음 고객이 우리 전자 상거래 사이트에 오면 언제든지 iPhone을 구입하여 스크린 가드와 백 커버를 구입하여 Hadoop을 생각해보십시오 매우 큰 데이터 저장소로 데이터를 저장하고 데이터를 처리 한 다음 당신이 좋아하는 방식으로 그것을 사용할 수 있습니다 그래서 저는 Hadoop이하는 일에 대해 모든 사람들이 분명히 희망하기를 바랍니다

그러니 내가 앞으로 나아갈 수 있도록 빨리 확인해주세요 좋아, 램이 분명하다는 것도 확인해 줬어 앤도 마찬가지야 좋아, 모두의 것 같아 좋은

이제 사람들은 하둡의 스토리지 및 프로세싱 부분을 이해하게 될 것입니다 하지만 프로세스의 이름을 거치지 않고 우리가 전체 이해를 가질 것이기 때문에 작은 이야기 그래서 이것은 타마 컨설팅 서비스의 CEO 인 카일 라쉬 (Kailash) 전 세계 150여 개 국가와 지역에 회사가 있습니다 회사를 사랑했습니다 그래서 어제이 회사의 페이스 북 페이지는 10 억 좋아, 이제는 CEO가 거대한 대시 보드를 만들고 싶어

전체 지구본 및 각 국가의 마우스를 가져다 대면 얼마나 많은 사람들이 좋아하는지 표시합니다 그 나라 이제이 작업은 프로젝트 인 Ajay에게 할당됩니다 그는 4 일 동안 대시 보드를 만들 예정입니다 이제하자

Ajay가 이것을 위해 Hadoop을 사용하려고하며 Ajay가 두 팀원을 보유하고 있음을 확인하십시오 MrAdmin과 Mr Developer 이제 Ajay가 말합니다

MrAdmin 하둡 클러스터를 설정하고 개발자에게 알려줍니다 그가 대시 보드 전체를 개발하기로되어 있다고 들어 보았습니다 지금 당장 일어난다 그래서 첫 번째 관리자가 오면 그는 5 대의 기계를 구입하고 하나는 마스터되고 4 명은 노예가 될 것이라고 결정합니다

그래서 Mr Mr 관리자 가 작동하게되었고 그는 하나의 마스터와 4- 노드가있는 5 노드 클러스터를 설정하고 있습니다 노예와 하둡은 모두 저장과 가공에 관한 것입니다 저장소 마스터라는 누군가를 설치하고 마스터에 다시 설치합니다

처리 마스터를 설치합니다 이제 그는 노예에 스토리지 노예와 슬레이브를 처리하여 모든 노예에게이 작업을 수행합니다 이제 관리자가 제프 보스에게 알려줍니다 설정이 진행되고 데이터를 수집하고 프로그램을 작성합니다 이제 Ajay가 호출합니다

개발자 Mr 그리고 Mr 개발자는 계속해서 데이터를로드하고 코드 그래서 개발자는 페이스 북이 JSON으로 파일 크기는 약 640MB입니다 따라서 저장소 마스터에 파일을 쓸 때 실제로 128 MB의 블록으로 세분화됩니다

따라서 640을 128로 나눈 값은 5 블록을 의미합니다 각 블록은 세 번 복제됩니다 그래서 그것이 15 블럭이됩니다 좋아요 Deepak의 질문이 있습니다

그는 왜 블록이 세 번 복제되었는지 묻습니다 좋은 질문입니다 그래서 우리는 실제로 결함의 개념을 가지고 있습니다 Hadoop의 내성 원래 블록이 손상 되더라도 블록을 두 개 더 복사하면 데이터를 검색 할 수 있으며 이것이 Hadoop을 만듭니다 신뢰할 수 있습니다 그래서 당신 질문 인 Deepak에 대답합니까? 좋아, 디팍이 좋다

이제 원본 파일의이 15 개의 블록이 서로 다른 슬레이브 노드가 있으므로이 블로그 중 네 개가 첫 번째 노드에 저장되어 있다고 가정 해 보겠습니다 노예 두 번째 노예는 4 명, 세 번째 슬리브는 4 명, 두 번째 및 세 명은 마지막 것 이제 데이터가 준비되었습니다 그것은 이미 블록으로 분해되었지만 스토리지 마스터의 경우 메타 데이터 만 갖게됩니다

그래서 메타 데이터는 다음과 같이 보입니다 이제 FacebookJSON은 1 2 3 4 5 차단하고 블록 1은 슬레이브 1 2에 있습니다 세 개, 두 번째 블록은 두 번째 세 번째 블록과 네 번째 블록에 있습니다 무엇이 메타 데이터에 저장되어 있는지

스토리지 마스터에는 아무런 문제가 없습니다 마스터는 메타 데이터 만 저장하고 전체 데이터는 저장하지 않기 때문입니다 지금 그 이유 때문에 메모리가 아무리 큰 파일 일지라도 문제가되지는 않습니다 당신은 메타 데이터에 대해서만 이름 노드의 메모리를 사용하지만 원본 데이터 실제로 슬리브에 기록됩니다 아줌마들, 너에게 단순하게 해줄거야

예를 들어, 우리가 볼 수있는 것은 프로젝트 관리자입니다 이 팀은 이제 프로젝트 관리자가 사람들이하는 일이 무엇인지 알지만 모든 작업이 실제로 슬레이브에 의해 수행되므로 관리자가 병목 현상이없는 것입니다 여기에 어떤 데이터가 어디에 저장되어 있는지 알 수있는 능력도 없습니다 어느 매니저가 아무 것도하지 않는 곳에서 실행중인 작업 메타 데이터 이제 좋아요 데이터가 저장되면 데이터가 표시됩니다

그것을 저장 영역에 썼고 모든 데이터가 퍼져 나갔다 이제는 개발자가 앞서 가서 프로그램을 쓴다 국가 별 좋아요 수를 찾으려면 프로그램 이름이 Java 프로그램 이제이 Java 프로그램이 제출되어 처리 마스터가됩니다 모든 컴퓨터에이 코드를 복사합니다 이제 마스터는 기본적으로 알맞을 것입니다

너 네 개의 슬리브가 하나의 블록을 처리하고 두 개의 블록을 처리합니다 너에게 노예가 너에게 노예가 너를 노예처럼 너에게 처리 블록 3 세 및 프로세스 블록 네 당신과 노예에 대한 로컬 프로세스입니다 당신에게 국부적으로 싸우는 블록 싸움은 당신의 사업을 국부적으로 네트워크와 작업이 완료되어야하고 최종 출력을 얻을 수 있습니다 보고 도구에 직접 표시하거나 창고 및 분석 기능을 수행하므로 Hadoop이 실제로 이러한 방식으로 작동합니다 지금 Hadoop입니다

이제 지금까지 우리는 hulu가 두 가지 서비스를 제공한다는 것을 알았습니다 프로세싱을 제공하여 스토리지를 제공하는 팀을 HDFS라고하며 팀 이것이 MapReduce를 마스터 처리하기 때문에 다시 처리 할 수 ​​있습니다 마스터와 HDFS가 이름 노드로 호출되고 슬리브가 다음과 같이 호출됩니다 MapReduce의 데이터 노드는 마스터가 작업 추적자로 불리고 슬리브가 tasktracker 간단한 물건으로 불리는 삶은 여기에 매우 쉽습니다 이제이 특별한 설정에는 당신이 쓸 수있는 매우 심각한 제한이있었습니다 MapReduce의 프로그램을 좋아하든 좋아하든 쓸 수 있습니다

프로그램 만 MapReduce 또는 MapReduce에서 실행되는 다른 프레임 워크이지만 다른 것을 가질 수 있으므로 간단한 예를 들어 봅시다 내가 평신도라는 것을 보자 적절한 리 남자처럼 지금 내 아이폰 나쁜 나무에 문제가있다 그래서 난 그냥 새 배터리를 구입하고 내 아이폰에 넣어 그래서 정상적인 사람이 들어갈 수 있습니다 상점과 아이폰을위한 배터리를 구입 분명히 옳지 않아 이것은 애플은 당신이 내 전화기를 사용하고 싶다면 내 전화기 만 사용해야한다고 말한다 배터리가 마음에 들거나 좋아하지 않는다면 배터리와 플러그를 구입할 수 없습니다 당신이 Hadoop을 사용하고 싶었던 것과 매우 비슷하게 전화에 넣었습니다

친구는 그것을 사용하지만 당신은 Maya에서 자신을 표현해야합니다 이는 매우 심각한 한계이며, 이것이 하둡 (Hadoop) 원 포인트로 불리는 이유입니다 X하지만 당신이 정말로 원했던 것이 더 나은 것이 었습니다 그래서 우리는 거기에 MapReduce 대신 저장소가 있지만 다른 버전의 Hadoop 리소스 관리자와 노드 인 새로운 구성 요소 충돌이었습니다 매니저가 지금 원사가 어디에서 할 것인가? 나는 누구에게나 자원을 줄 것이다 MapReduce plunk or storm 하둡 (Hadoop)의 한 지점에서 MapReduce가 유일한 주일뿐입니다

Hadoop에서 MapReduce가 X를 가리키고있는 방법 중 하나입니다 이것을 Hadoop의 한 지점에 집중하십시오 X MapReduce만이 유일합니다 우리는 Hadoop에서 두 포인트 X MapReduce를 사용하는 방법 중 하나입니다 모든 약 2 점 X와 우리는 전혀 한 점 X에 대해 논의하지 않을 것입니다

내가 IX의 한 가지 점을 설명한 이유는 내가 좋은 것을 설명 할 수 있기 때문이다 우리가 나쁜 건강을 설명하고있는 건강은 아마 그렇게 힘들어 질 것입니다 마찬가지로 X 점을 설명해야만한다면 먼저 X 점 하나를 보여 주어야합니다 저기서의 심각한 한계와 그것이 내가 두 점 X를 가져올 때입니다 두 포인트 X는 기본적으로 귀하의 성별 주름 소스 관리자입니다 리소스가 필요한 모든 사람들이 리소스를 제공하므로 X를 실제로 가리키는 방법 인 작업을 수행하십시오

이제는 Hadoop의 처리 능력으로 X를 가리키며 여기서 Y는 마스터를 나타냅니다 자원 관리자라고 불리는 우리는 또한 잠자기 상태에서 전자를 가지고있어서 내 기억 장치 층이 남아있다 DITA를 쓰고 처리 한 것과 거의 같지만 일을 제출하면됩니다 Yancy에게 Yancy에게 안녕하세요, MapReduce를 실행하는 방법을 모르겠지만 앱 마스터로 불리는 사람이 나를 위해 MapReduce를 할 수 있으므로 리소스입니다 매니저 나는 사람들에게 자원을 제공한다

나는 어떻게 처리해야할지 모르지만 나는 앱 마스터로 불리는 다른 사람을 알면 그는 그 일을 할 것입니다 이제 얀은 이제 누군가가 잠자기 할 때 앱 마스터를 초기화 할 것입니다이 앱 마스터는 다음과 같습니다 기본적으로 처리되는 사람은 일을 할 것이므로 누가 그 일에 책임이 있는가? 그것은 앱 마스터들입니다 그래서 얀 마스터는 헤이 앱 마스터를 봅니다

나는 당신을 위해 새로운 직업을 가지고 있습니다 왜 그렇게하지 않는가? 지금은 앱 마스터가 좋다 Gurion 마스터 NC 보스 당신이 나를 위해 일을하고 싶다면 나에게 다음과 같은 것들을주세요 그래서 슬리브에 두 자원을 하나 소매에 하나의 자원을 두 자원에 슬리브 3 개 및 슬리브에 하나의 리소스가있는 이유는 데이터 지역이 중요한 것은 마스터에게 보이고, 알았어 리소스와 마스터를 가져 가라 전진 할 수 있고 모든 곳에서 일을 해낼 수 있습니다

그래서 여기의 아이디어는 실 마스터입니다 이것이 자원을 제공하는 직업을해라 그래서 이것은 당신을위한 원사이다 이 모든 세부 묘사가 한 점에서 중요하다면 더 많은 것 X MapReduce는 두 점 X에서 유일한 방법입니다 Maya는 그 중 하나를 생산합니다

그렇다면 왜 그렇습니까? 인생에서 더 많은 옵션이 필요하기 때문에 우리는 두 점 X에 가야합니다 그 사람들처럼 나는 아주 간단한 예를 들어 줄 것이다 그래서 이것은 회사라고 불린다 발 팬더 그래서 음식 팬더는 지금 당신을 위해 발 배달을하는 회사입니다 당신은 피자 헛 (Pizza Hut)에 전화를 걸 수 있습니다 당신은 정말 좋아하는 나머지 서랍에서 주문할 수 있습니다

발 바지 레슨을 보는 방법 나는 발을 들이지 않지만 항상 음식을 제공 할 수 있습니다 사람들에게 서비스를 제공하여 원하는대로 주문할 수 있습니다 Hadoop의 전체 풍경과 건축 작업에 대한 설명 관점은 회의에 참석해 주셔서 감사합니다 다음 수업에서 영화 보러 주셔서 감사합니다 질문이 있으시면 아래에 답변 해 주시면 최대한 빨리 답변 해 드리겠습니다

가능하면 텔레 패스 채널에 가입하여 계속 유지할 수 있습니다 당신은 또한 갈 수있는 최신 기술에 대한 자신의 업데이트 기타 관련 미리보기 및 oculus 및 자세한 내용은 당사 웹 사이트를 방문하십시오 계속해서 학습을 향상시킨다 오

What is SAS Programming | SAS Certification | SAS Tutorial | Intellipaat

안녕 얘들 아, Intellipaat의 또 다른 흥미로운 세션에 오신 것을 환영합니다 우리는 SAS가 무엇인지 이해함으로써 시작합니다

그런 다음 몇 가지 응용 프로그램을 살펴 봅니다 SAS 프로그램 구조를 살펴보고 마지막으로 우리는 데모 부분으로 넘어가십시오 그렇다면 SAS는 무엇입니까? 그것은 분석 도구입니다 그래서 SAS는 기본적으로 "통계 분석 시스템"의 약자입니다 SAS의 도움으로 다양한 분석 작업을 수행 할 수 있습니다

"시계열 분석", "예측 모델링"및 "데이터 관리" SAS는 시각화 도구이기도합니다 SAS 덕분에 아름다운 그래프를 만들 수 있고 놀라운 대시 보드를 만들 수 있습니다 분석 된 데이터를 나타냅니다 이제 SAS가 정확히 무엇인지 이해 했으므로 이제 그 응용 프로그램 중 SAS는 금융 분야에서 광범위한 응용 프로그램을 보유하고 있습니다

은행, 신용 조합 및 기타가 제공하는 대출에 대한 "신용 위험"계산에 사용됩니다 FinTech 회사 SAS는 또한 트랜잭션을 지속적으로 모니터링함으로써 사기 예방에 사용될 수 있습니다 실시간 의사 결정을 가능하게하는 행동 분석을 적용합니다 현재 SAS는 의료 분야에서 사용되고 있습니다 다양한 데이터 소스를 분석하여 잠재적 인 문제가 현실화되기 전에 식별 환자 안전 신호를 예측하고 의학적으로 조사합니다

또한 다양한 조건에서 환자 치료에 대해보다 포괄적 인 시각을 얻는 데에도 사용됩니다 방대한 양의 구조화 및 비정형 임상 데이터를 분석하여 절차를 수행합니다 SAS는 자동차 산업에서도 사용됩니다 "보증 청구 분석"및 "서비스 부품 최적화" 이제 SAS 프로그래밍 구조를 살펴 보겠습니다 모든 SAS 프로그램은 기본적으로 다음 두 부분으로 구성됩니다

데이터 단계 & Proc 단계 데이터 단계는 데이터를 작성하고 관리하는 데 사용되며, 프로 시저 단계는 데이터를 작성 및 관리하는 데 사용됩니다 데이터 분석 및 시각화를위한 다양한 절차 맞아, 우리 머리에 ~로 데모 이제야

What is Hadoop and Parallel Processing? | Hadoop Tutorial for Beginners | Big Data | Great Learning

하둡 (Hadoop)이 무엇인지 이해하기 전에 우리는 공정해야합니다 이 배포판에 대한 이해의 비트 모두에 대해 컴퓨팅

이것은 실제로 우리에게 어디서의 견고한 이해를 줄 것입니다 Hadoop은 실제로 Hadoop이있는 곳부터 시작합니다 그것의 뿌리는 분산 컴퓨팅에서 온 것이거나 단순히 컴퓨팅 서클에 대한 병렬 처리 현실적인 예를 들고 생계를 유지하려고합시다 그려야 할 방 너는 무엇을 할 것인가? 약 2 시간이 소요됩니다 페인트 작업을 끝내라

이제 하나의 표면에 5 개의 표면이 그려집니다 그 사람이 네 네 벽과 한 천장이야 직행을 위해 10 시간이 걸릴 것입니다 페인트 작업 완료하기 3 시간 안에 완료 될 페인트 작업 경험적 접근법 또는 단순한 상식 접근법 더 많이 고용하겠다는 5 개의 다른 화가를 고용하여 각 개별 표면에서 페인트 작업 페인트 작업은 3 시간 이내에 완료됩니다 그래서이 사건은 컴퓨터 과학에서의 문제 해결

문제가 있다고 가정하자 데이터 세트는 실제로 숫자가 될 것입니다 쉼표 또는 CSP 파일로 구분됩니다 파일 크기는 1GB입니다 그런 다음 PC가 있거나 일반적으로 PC 또는 노트북에 모든 숫자를 스캔 할 수있는 소프트웨어 이 파일에서 하나씩 차례로 프로그램은 일반적으로 모든 숫자를 더할 것입니다

그 파일에 있었어 이 토론을 위해 단일 시스템에서의 작동이 이루어질 것입니다 모든 숫자의 합계를 산출하는 50 초 이 10GB 파일의 모든 숫자는 1000 개의 숫자입니다 이제 동일한 문제가 실제로 해결 될 수 있습니다 어디 우분투 또는 일부를 설치하여 실행할 수있는 노트북 리눅스 또는 일부 Windows의 풍미 운영 체제 또는 일부 사과 기반 운영 체제 또는 이것은 이제 컴퓨팅 클러스터입니다

수백 대의 기계와 각 기계로 이루어져있다 운영 체제와 같은 것을 가질 필요가있다 소프트웨어의 또 다른 조각이 될 필요가있다 모든 기계를 조정하고 말하고 전체 클러스터는 단일 단위로 작동합니다 그래서 이것은 실제로 분산 된 것으로서 많이 불립니다

운영 체제 쉽게 구할 수있는 것이 없다 또는 분산 운영 체제 최소한 커스텀 화가 필요하다 배포 된 오픈 소스가 있더라도 완료됩니다 시장에서 사용 가능한 시스템이므로 많은 실제로 슈퍼 컴퓨팅 클러스터를 소유 할 필요가 있습니다 빌드 할 자체 소프트웨어 엔지니어링 팀 이 맞춤형 분산 운영 체제가 이것을 유지하기 위해 전체 클러스터 가동 및 실행, 하드웨어가 있음 투자 측면에서 전면적 인 인프라 비용 슈퍼 컴퓨터를 조달하고 거기에 그것을 유지하기위한 네트워크 기술자 군대 지속적으로 소프트웨어 엔지니어 팀이되어야합니다

계속해서 버그를 적용하고 패치가 계속 발생하는 경우 패치가 수퍼 컴퓨터의 운영 운영 체제, 운영 체제 맞춤 디자인이어야하며 버그 수정 또한 유지되어야합니다 측면에서의 도전 유지 수퍼 컴퓨터와 그것을 가동시키는 것 우리가 실제로 논의하는 모든 과제는 슈퍼 컴퓨팅 환경 이 소프트웨어로 꽤 많이 돌 보았다 하둡 (Hadoop)이라고 불리는이 때문에 대부분의 사람들은 실제로 적어도 들었을 것입니다 이 용어는 하둡 (Hadoop)이라고 불렀습니다이 하둡은 무엇입니까? 이 Hadoop은 기본적으로 여러 시스템에 설치해야하는 소프트웨어 네트워킹 인프라를 통해 이미 상호 연결 그래서이 Hadoop은 비용이 들지 않고 개방되어 있습니다

출처 그리고 병렬 환경을 제공합니다 처리하는 것은 분산 된 느낌을 준다 그러나 분산 운영 체제이지만, Hadoop은 본격적인 분산 운영 체제가 아닙니다 이미 운영중인 호스트에 위치한다 Windows 또는 Linux가 될 수있는 시스템 이미 사전 설치된 운영 체제 기반 운영 체제 클러스터의 일부에 속하는 모든 컴퓨터에서 그래서 이점은 무료이기 때문입니다

오픈 소스 인 많은 중규모 조직 자신의 클러스터를 구축 할 수 있습니다 클러스터 의미 그것은 여러 개의 상호 연결된 일련의 구성입니다 컴퓨터들 그래서, 작은 수퍼 컴퓨터처럼 강력하고 빠르지 않다 전공에서 판매되는 상업용 슈퍼 컴퓨터 IBM, Fujitsu, Cray 's와 같은 거대 기업 귀하의 필요에 따라 예산에 따라 유스 케이스를 사용하면 작은 클러스터를 만들 수 있습니다 적어도 10 배 또는 몇 백 배 더 강력 함 독립형 시스템에서 동일한 문제를 해결하는 것보다 그리고 실제로 hadoop의 일부로 오는 소프트웨어 업데이트 다시 자유롭게 유지되므로 유지 관리 할 필요가 없습니다

자격을 갖춘 소프트웨어로 구성된 자체 팀 엔지니어가 버그 수정 및 소프트웨어 패치 처리 거의 모든 것이 무료로 제공되므로 그 이유가 무엇입니까? hadoop은 실제로 꽤 인기가 있습니다 업계의 사람들은 많은 소음을 만들기 시작했습니다 hadoop 주위에, 당신은 데이터를 가지고 있기 때문에, 데이터를 저장할 수 있고 이제는 실제로 당신이 아는 아주 경제적 인 방법입니다 데이터를 분석하고 hadoop은 요구하지 않는다 당신은 실제로 하드웨어 인프라를 조달해야합니다

당신이 100을 갖고 싶다면 단일 공급 업체로부터 시스템을 상호 연결하거나 클러스터에 수백 개의 노드를 설치해야합니다 여기서 노드라는 단어는 클러스터의 개별 시스템, 클러스터는 기본적으로 서로 연결된 여러 기계 그래서, 하둡 (Hadoop)이란 무엇입니까? 실제로 모든 컴퓨터를 구입해야한다고 말합니다 한 공급 업체에서, 당신은 꽤 많이 만들 수 있습니다 자신의 하드웨어 및 여러 공급 업체에서 올 수 있습니다 이 경우 회사는 단일 공급 업체에게 막대한 금액의 프리미엄 지불 무언가가 깨져서 Hadoop이 꽤 많이있는 곳 이죠 에서 하드웨어 인프라를 쉽게 설정할 수 있습니다

소프트웨어 측면에서 보면 같은 시간에 비용이 전혀 들지 않습니다 실제로 하둡의 근원은 실제로 무엇입니까? Hadoop은 분산 형입니다 patal 프로세싱 프레임 워크 또는 단순히 분산을 용이하게하는 patal 처리 프레임 워크 실제로 시작된 뿌리를 사실 인터넷 검색 엔진은 하둡의 아이디어입니다 인터넷 수색 엔진에서 기인했다 그래서, 나는 희망한다 많은 사람들이 이런 종류의 회사에 대해 들어 보지 못했을 것입니다 Jeeves com 또는 또는 AltaVista, 이들은 모두 매우 인기있는 검색이었다

요즘 엔진 기억 검색 엔진은 실제로 브라우저에 탭이지만 이전 검색 엔진은 실제로 분리되어 있었다 다운로드하고 설치해야하는 파일 Windows 운영 체제와 이들이 예제 였고 지금은, 야후 만 많은 사람들이 기억할 수있는 나는 많은 사람들이 야후를 사용하지 않을 것이라고 확신한다 검색 엔진 목적으로 구글이라는 단어라면 구글 검색 엔진과 동의어이므로 초기에 다시 방문하십시오 2000 년대와 90 년대 후반 인터넷 실제로 블록 단위로 구축되고있었습니다 이들은 실제로 엄청난 돈을 벌어들이는 회사들이었습니다

꽤 인기가 있기 때문에 야후는 당시 매우 인기가 있었고 Google은 사진에서 그 무엇도 결코 보지 못했고 어떤 일이 일어 났는지 살펴 봅니다 2000 년 이후 10 년 만에 Google이 독점하고 있습니다 이 인터넷 검색 엔진 공간 및 검색 엔진 인 경우 Google은 검색 엔진 공간과 거의 동의어입니다 2000 년대 초반에 꽤 많이 돌아 왔습니다 두 사람이있을 때 더프 커팅과 마이크 카르텔 라 그들은 nuch라고 불리는 인터넷 검색 엔진 프로젝트에서 일하고있었습니다

그리고 그것은 구글이 실제로 초기 단계에 있었던 때였 다 그들은 자신의 검색 엔진을 구축하기 위해 노력하고있었습니다 꽤 많은 백서와이 두 사람 출판 몇몇 아이디어에 영감을 받았다 구글의 백서에서 볼 수있다 그리고 컷 한 남자들 중 하나가 야후와 2006 년 공식적으로 야후 안정 버전의 Hadoop을 출시했습니다

2006 년부터 2007 년까지 그것은 오픈 소스 프로젝트가되었다 Apache Software Foundation 또는 Apache dot 또는 자신의 공식 웹 사이트 또는 Hadoop 복사본을 다운로드하여 다운로드 할 수 있습니다 무료로 그래서, 여기 있습니다 2006 년부터이 시점까지 3 가지 주요 Hadoop 릴리즈 인 Hadoop 10, 2

0 시장에서 30을 사용할 수 있습니다 가장 안정된 하나는 Hadoop 버전 2이며 mr2라고도합니다 또는 양 요약하면 우리는 매우 기본적인 것을 이해하려고 노력한다 병렬 처리 란 무엇인가? 실제로 어떤 종류의 문제가 될 수 있습니다

왜 병렬 처리가 필요한가? 인프라 스트럭처를 처리하고 얼마나 오래되었는지 슈퍼 컴퓨터의 측면에서 병렬 처리 개념 슈퍼 컴퓨터의 도전과 방법 Hadoop은 실제로 두 가지면에서 구출에 이릅니다 하드웨어 인프라뿐만 아니라 무료입니다

Apache Spark Tutorial | What is Apache Spark | Project Spark | Spark Tutorial | Intellipaat

안녕 얘들 아 Intellipaat에 의해 또 다른 흥미로운 세션에 오신 것을 환영합니다 오늘 우리는 Apache Spark에 대해 논의 할 것입니다

오늘 세션에서 우리는 왜 아파치 스파크? Apache Spark이란 무엇입니까? 직업 기회와 실습 아파치 스파크 대 Hadoop, Apache의 다른 기능들 불꽃 스파크 아키텍처 및 구성 요소, 커리어 기회 및 실습 운동 이제 Spark의 사용 사례를 살펴 보겠습니다 세계 최고의 선구자 중 하나 전자 상거래 거인은 비즈니스와 비즈니스를 촉진하는 eBay입니다 비즈니스 판매

이베이 (eBay)는 1 억 6 천 2 백만 명의 적극적인 고객이있는 시장입니다 2500 만 판매자 eBay는 구매자와 판매자가 가능한 한 효율적으로 데이터를 작성하려고했습니다 그들은 사이트에 8 억 개의 목록과 88 개의 새로운 백만 개의 목록을 가지고 있기 때문에 목록이 매주 추가됩니다

eBay의 초기 사용자 패턴은 검색 지향적이었고, 사용자는 제품을 찾기 위해 검색 목록을 검색해야했습니다 전자 상거래가 전환됨에 따라 사용자는 전자 상거래를 탐색하고 목록에서 검색하는 대신 제품을 구입하십시오 이를 위해 eBay는 전체 데이터 모델을 전환해야했습니다 처음에는 eBay가 실시간과 호환되지 않는 Hadoop 아키텍처를 사용하고있었습니다 데이터 모델이므로 이베이는 실시간 아키텍처 도구를 찾고있었습니다

글쎄, 아파치 스파크는 그들을위한 편리한 도구였습니다 eBay는 Apache Spark를 사용하여 이전 고객을 대상으로 고객을 대상으로 오퍼를 제공합니다 경험을 향상시키고 고객의 경험을 향상시키는 데 아무런 노력을 기울이지 않는 시도 그들과 함께 이를 통해 사전 예방 적 방식으로 고객이 원하는 것을 제공 할 수있는 고객 경험을 향상시키고, 고객이 효율적으로 원활하게 고객의 시간을 처리 할 수 ​​있도록 도와줍니다 전자 상거래 사이트

eBay는 Apache Spark가 Hadoop YARN을 활용하도록하여이 마법을 적용합니다 Apache Spark이란 무엇입니까? 그게 뭔지 알아? Apache Spark는 특별히 다루기 위해 개발 된 오픈 소스 엔진입니다 대규모 데이터 처리 및 분석 비정형 데이터가 많고 실시간 분석을 수행하기 위해 속도를 높여야하는 필요성 때문에이 기술은 실제로 실현되었습니다 Big Data 전산 연습을위한 대안

실시간 데이터 분석의 경우 Spark는 다른 모든 솔루션 우리가 이미 가지고있을 때 생각하고 있을지도 몰라 데이터를 처리하는 Hadoop은 왜 Spark가 필요합니까? 스파크를 하둡보다 더 대중적으로 만드는 것은 무엇입니까? 이에 답하기 위해 우리는 개념을보아야 만합니다 배치 및 실시간 처리 일괄 처리는 일정 기간 동안 데이터를 수집하는 것입니다

그것을 처리합니다 예를 들어 급여 및 청구 시스템 실시간 처리의 경우 데이터 수집 및 처리가 발생합니다 동시에 ATM은 실시간 시스템의 한 예라고 생각할 수 있습니다

비밀번호 및 기타 세부 정보를 입력하면 원하는 금액을 받게됩니다 Hadoop은 개념을 기반으로합니다 이미 저장되어있는 데이터 블록에서 처리가 이루어지는 일괄 처리 처리 기간 동안 그러나 Spark는 실시간으로 데이터를 처리 할 수 ​​있으며 약 100 배 더 빠릅니다 대규모 데이터 세트를 일괄 적으로 처리하기위한 Hadoop MapReduce보다 스파크의 또 다른 장점은 과거 데이터와 실시간 데이터를 모두 처리 할 수 ​​있다는 것입니다

화면의 이미지는 Hadoop과 Spark With Spark의 주요 차이점은 여러 응용 프로그램을 처리 할 수 ​​있다는 점입니다 이력 데이터와 실시간 데이터를 기반으로합니다 Hadoop에 비해 Spark는 사용하기 쉽고 처리 속도가 빠릅니다 스파크의 특징을 살펴 보겠습니다 Spark 코드는 Java, Scala, Python 또는 R 언어로 개발할 수 있습니다

Spark는 MapReduce보다 100 배 빠르게 실행됩니다 Spark는 텍스트, CSV, RDBMS, JSON, Hive, 카산드라 등 Spark는 실시간 계산 기능을 제공합니다 Spark는 기계 학습도 지원합니다 (기계 학습) 이것은 Spark을 IT 분야에서 급성장하는 기술로 만든 장점입니다 이제 우리는 Spark 아키텍처로 이동합니다

스파크 아키텍처에는 드라이버 프로그램, 클러스터 관리자 및 다양한 작업자 노드가 있습니다 운전자는 중앙 및 스파크 셸의 진입 점 응용 프로그램의 main () 함수를 실행하고 Spark 컨텍스트를 만듭니다 드라이버는 모든 Resilient Distributed Databases에 대한 메타 데이터를 저장합니다 및 파티션

클러스터 관리자는 책임이 있습니다 Spark 클러스터에서 리소스를 얻은 다음 Spark 작업에 할당합니다 Spark 애플리케이션이 할당을 위해 활용할 수있는 클러스터 관리자에는 3 가지 유형이 있습니다 다양한 물리적 자원의 할당 해제 등이 포함됩니다 다음 슬라이드에서 이에 대해 논의 할 것입니다 실행 프로그램은 실행을 담당하는 분산 에이전트입니다

할 수 있습니다 모든 Spark 애플리케이션에는 고유의 Executor 프로세스가 있습니다 Executors는 일반적으로 Spark 응용 프로그램의 전체 수명 동안 실행되며 이 현상을 "집행자의 정적 할당"이라고합니다 스파크가 어떻게 작동하는지 이해합시다 Apache Spark는 독립 실행 형, Hadoop에서 세 가지 방법으로 실행됩니다

MapReduce의 YARN 및 Spark 스파크의 가장 단순한 배포 Hadoop 클러스터가 모든 리소스를 정적으로 갖추고있는 독립 실행 형 MapReduce와 병렬로 실행됩니다 스파크는 사전 설치없이 YARN 상단에서 실행할 수도 있습니다 비록 YARN이 없다면 Spark를 MapReduce와 함께 사용할 수도 있습니다 이렇게하면 배포 부담이 줄어 듭니다 어쨌든 Spark가 배포되면 구성에서 필요한 리소스를 할당합니다

Spark가 연결되는 순간 노드에서 집행자를 얻습니다 이러한 실행자는 계산을 실행하고 데이터를 보호하는 프로세스 일뿐입니다 이제 응용 프로그램 코드가 실행 프로그램으로 전송됩니다 이제 스파크 생태계를 만드는 스파크 구성 요소를 살펴 보겠습니다 Apache Spark Core는 Spark 애플리케이션의 기본 처리 엔진입니다

가장 중요한 기능에는 메모리 내 처리 및 외부에서 참조되는 데이터가 포함됩니다 데이터 소스 Spark Streaming은 고속 계산 기능을 제공합니다 실시간 데이터 분석을 제공하기 위해 스트리밍 데이터와 잘 작동합니다 데이터는 여러 배치로 분리되며 RDD 추상화를 사용하여 데이터가 스트림 데이터의 요구에 맞게 대규모 병렬 방식으로 반복 처리됩니다 처리

Spark SQL은 Schema RDD라는 새로운 차원의 데이터 추상화를 만듭니다 SQL을 배치하여 구조화 된 데이터와 반 구조화 된 데이터 모두를 독점적으로 사용하기 위해 검색어 언어 GraphX는 Apache Spark 프레임 워크의 그래프 처리 기능으로 반복적 인 그래픽 계산, 탐색 분석 및 ETL의 결합입니다 기능 스파크는 기계 학습 알고리즘 및 메모리 기반의 Spark를위한 Machine Learning 프레임 워크를 제공하는 MLlib 라이브러리 분산 환경

스파크의 이러한 기능은 다음과 같습니다 광범위한 산업 분야를 망라하는 기업들이 신속하게 채택했습니다 Netflix, Facebook 및 eBay와 같은 인터넷 강국 거대한 규모의 스파크를 배치했다 1000 여명의 기고가와 함께 큰 데이터에서 가장 큰 오픈 소스 커뮤니티가되었습니다 250 개 이상의 조직에서 PayPal은 또한 Spark 기술을 사용하여 대규모 데이터를 처리합니다

폐쇄 루프 지불 플랫폼이므로 매일 수십억 개의 데이터 이벤트를 처리합니다 위험, 지불, 웹 행동 및 신원과 관련된 정보를 수집합니다 성공적인 거래 횟수를 극대화하기 위해 상인을 돕기 위해 데이터 처리 솔루션을 사용합니다 Spark은이 분야에서 중요한 역할을 담당하며 PayPal이 대규모 데이터를 영향력있는 가맹점 솔루션을 가능하게합니다 이제 우리는 운동에 손을 가자