Hadoop Tutorial For Beginners | Apache Hadoop Tutorial | Hadoop Introduction | Intellipaat

따라서 Hadoop은 프레임 워크입니다 우리는이 모듈에서 Hadoop과 Hadoop의 다른 구성 요소를 이해할 것입니다

그런 다음 HDFS라고하는 첫 번째 중요한 구성 요소로 이동합니다 또는 Hadoop 분산 파일 시스템 따라서 Hadoop은 다음을 구성하는 프레임 워크입니다 여러 도구와 객체가 합쳐져서 Hadoop이됩니다 생태계

이제 이들은 Hadoop의 중요한 구성 요소 중 일부입니다 나는 이것이 모든 구성 요소라는 말은 아닙니다 따라서 전체 프레임 워크로 구성된 Hadoop의 다양한 구성 요소가 있습니다 그 중에서 중요한 핵심 구성 요소가 있습니다 그들 없이는 우리가 실행할 수없는 구성 요소없이 Hadoop 시스템

핵심 구성 요소에 대해 말하면 기본적으로 HDFS입니다 Map Reduce 및 Yarn 이를 통해 시스템에 데이터를 저장하고 처리 할 수 ​​있습니다 Hadoop은 기본적으로 클러스터입니다 우리는 현실 세계에서 클러스터를 정의 할 것입니다

여기서 우리는 여러 노드에 데이터를 저장할 것입니다 그래서 클러스터는 단지 하나의 그룹에 지나지 않습니다 의 기계 단일 노드 클러스터는 아니지만 함께 작동하는 시스템 그룹입니다 거대한 저장이 불가능하기 때문에 데이터를 저장하고 처리 할 수 ​​있습니다

단일 노드의 데이터 양 그래서 대체 무엇입니까 가장 좋은 대안은 데이터를 여러 노드로 나누어서 데이터를 HDFS에 저장하는 방법을 확인하십시오 저장 레이아웃으로 스토리지 레이아웃에 데이터를 저장하는 방법

그래서 그 목적을 위해 HDFS를 사용합니다 주로 HDFS가 그 이유입니다 데이터를 저장하고 모두 HDFS에 데이터를 저장합니다 플랫 파일 시스템으로 사용하기 때문에 파일 시스템과 유사합니다 linux 파일 시스템으로 특정 폴더를 계층 구조 형식으로 정의하고 해당 폴더 안에 파일을 저장하십시오

오늘 우리는 HDFS에 대해 배우게 될 것입니다 HDFS에서 데이터를 읽고 쓰는 방법 어떤 금액을 저장할 수 있도록 HDFS에 데이터를 저장하는 방법 우리의 Hadoop 클러스터에있는 데이터의 HDFS 위에, 우리는 원사라는 메커니즘을 가지고 있습니다 원사는 기본적으로이 도표에 표시되지 않습니다 그래서 HDFS, 이것은 기본적으로 2

X 용 apache hadoop 생태계가 말할 수있는 것입니다 이전 다이어그램은 이전 버전의 Hadoop과 더 관련이 있습니다 그래서 현재, 우리는 HDFS를 저장 계층으로보고 있습니다 아래쪽 레이어는 HDFS입니다 데이터

그런 다음 Yarn이라는 또 다른 프레임 워크가 있습니다 자, 원 사는 프레임 워크입니다 사용할 수있는 데이터에 대한 데이터를 처리 할 수 ​​있습니다 HDFS의 여러 노드에있는 다른 노드 그래서 말뚝으로, 나는 하나의 단일 서버에 전체 더미

제가 말씀 드렸다시피, HDFS는 기계 나는 하나의 노드에 전체 데이터 나 파일을 보관하지 않고 배포 할 것입니다 여러 노드에서 내 데이터 예를 들어, 1000 개의 프로필 레코드가있는 경우, 그 4 서버에 1000 기록 어떤면에서는 250 개의 레코드를 넣을 수 있습니다

각각은 각 데이터 노드 또는 각 데이터 서버에 있습니다 그래서 나는 내 데이터와 그 이유를 배포 할 것이다 나는 각 데이터 블록에서 프로세스를 실행할 수 있기 때문에 데이터를 배포하고 있는데, 이 데이터의이 조각의 각 블록에 병렬로 간단한 질문을하면, 원한다면 프로세스 (1000)는 순차적으로 그리고 모든 4 블록의 모든 4 블록 레코드는 평행으로 각각 250 개씩 있습니다 어떤 데이터를 할 수 있습니까? 프로세스가 훨씬 빨라 집니까? 4 개의 블록 데이터 또는 1000 개의 단일 블록 데이터를 기록합니다 이 네 개의 데이터 블록은 우리는 각 블록을 병렬로 처리 할 수 ​​있습니다

따라서 전체 데이터를 4 개의 블록으로 나누고 나는이 네 가지 블록에서 같은 과정을 진행하고있다 간단한 비유는 내가 너에게 100 임무를 부여한다면 사람은 일을 끝내기 위해 거의 백일이 걸릴 것입니다 하지만 그 일을 10 명의 사람들로 나눌 수 있다면, 나는 대략적으로 일을 끝낼 수 있습니다 10 일에서 12 일 동일한 논리가 여기에 적용됩니다

우리는 처리 시간을 훨씬 빠르게 달성하기 위해 데이터를 나누어서 내 데이터를 처리하는 데 걸리는 시간 그래서 우리는 Hadoop에서 어떤 양의 데이터라도 저장할 수 있다고 말합니다 데이터를 처리하는 데 걸리는 시간을 줄일 수 있습니다 모든 데이터를 여러 블록으로 병렬 처리 할 수있는 방법 그래서 계획 메커니즘 및 처리 메커니즘은 원사에서 처리합니다 털실은 분산이다 프로세싱 프레임 워크의 방식 map과 같은 다른 도구에서 작성하는 쿼리가 무엇이든간에, 돼지, 그 모든 메커니즘은 데이터를 처리하기 위해 원사의 도움을 필요로합니다

원사는 우리의 데이터를 처리하고 일을 마무리하는 촉진자입니다 이제 여러 도구에서 작성해야하는 쿼리 그래서 map reduce에 코드를 작성할 수 있습니다 코어 자바에서 또는 하이브를 쿼리 도구로 사용할 수 있습니다 돼지를 스크립팅 언어로 사용할 수 있습니다

우리는 쓸 수있다 스파크, 떼기와 같은 여러 가지 다른 형식의 코드 그들의 hadoop 스크립트에서 사용할 수있는 다양한 도구입니다 우리는 하나의 언어로만 코드를 작성할 수있는 그러한 단일 메커니즘에 제한되지 않습니다 사라는 우리가 자바였던 한 언어에만 의존했던 시대입니다 이제 Hadoop에서 사용할 수있는 도구와 옵션이 너무 많습니다

우리가 익숙한 언어 예를 들어 파이썬으로 코드를 작성하고자한다면 파이썬으로 코드를 작성할 수도 있습니다 자바, Python 모든 언어를 코딩 언어로 지정하고 모든 코딩 언어는 Hadoop에 쉽게 적용 할 수 있습니다 코드를 작성하고 코드와 나머지 코드를 실행하기 만하면됩니다 Hadoop 프레임 워크 자체가 관리합니다

그것은 정상적으로 하이브, SQL로 코드를 작성할 수 있습니다 따라서 데이터는 플랫 파일 시스템에 저장됩니다 그러나 구조화 된 방식으로 쿼리를 작성할 수 있습니다 그래서 하이브를 사용하여 쿼리를 작성할 수있었습니다 구조화 된 방식으로 구조화되지 않은 데이터에 적용됩니다

또한 우리는 당신의 SQL 쿼리를 깨뜨릴 수있는 매우 중요한 도구 인 Pig를 가지고 있습니다 매우 작은 단계로 SQL 쿼리의 개별 단계 매우 정상적인 데이터 흐름 형식으로 데이터를 처리하는 방법을 이해할 수 있습니다 그래서 돼지, 하이브는 우리가 데이터를 쉽게 처리 할 수있는 곳에서 배워야 할 중요한 도구입니다 또한 로컬 시스템과 HDFS에서도 작동합니다 큰 일을하고 더 많은 일을하십시오

또한 로컬 파일 시스템에 입찰 할 수 있으므로 논리를 테스트 할 수 있습니다 작은 데이터 세트 중 일부는 사용자가 가기 전에 나타납니다 노력은 무엇입니까 데이터는 오픈 소스와 함께 모여 있습니다 내가 그렇게하지 않으면 그들은 거기에서 무엇을하고 있는지

그것으로 구멍을 파는 것은 기존의 소금입니다 그러고 나서 자신의 패키지를 얻습니다 그렇다면 관련 장소에서 통합 솔루션으로 루프를 찾을 수있는 패키지가 될 수 있습니다 다른 하나와 나는 당신과 같은 모든 회사를 사용하기 위해 돌아왔다

많이 IBM은 다른 회사입니다 그는 자신의 제품과 통합되어 공장으로 만들었습니다 공을 했어 나를 멈춰 줘

나는 당신이 모든 시스템을 통합하고 그들이 통신하고있는 곳에서 페이팔을 만들었습니까? 서로에게 그래서 나는 또한 마이클 회사들이 자사 제품을 통합하기 위해 사용 해왔다 완전한 패키지로 끝낸다 그들이 노조에 주어 졌던 것뿐만 아니라 접혀진 패키지로 작업했을뿐만 아니라 수면에 그리고 나서 우리는 우리가 사는 다른 음식을 걷고 있습니다

내 큰 입은 기계 학습 응용 프로그램입니다 다른 인공 지능 브랜드를 얻을 수있는 시스템 나는 사람들을 내 농산물에 사로 잡았습니다 우리는 그것을 바꿀 수 있습니다 우리는 그것을 빨리 할 수 ​​있습니다 또는 기계 학습 응용 프로그램에있는 양을 피드백 할 수 있습니다

그래서 우리는 몇 가지 예측 분석을 사용할 수 있고 다른 클러스터링을 할 수 있습니다 기술은 우리와 다르게 할 수 있지만 입으로는 삶으로 움직일 수 있습니다 그게 정치적으로 큰 일이라 할지라도 그들이 할 수있는 일이기 때문에 그 일을해야합니다 우리는 너무 많이 읽을 수 있습니다 또한 감사 서비스를 사용할 수 있으며 일부는 그렇게 할 수 있습니다

자동 기능은 일반적으로 데이터 집합에 기본은 그 간단한 데이터베이스 중 하나입니다 또는 하단 섹션에서 우리는 N 평등 테이블로 그것에 대해 이야기 할 것입니다 테이블은 아무것도 아니지만 우리가 하나의 테이블에 모든 데이터를 유지하는 우화를 보여줍니다 당신이 처리 할 수있게하고 니콜 유물을 평상시보다 훨씬 빨리 알아 데이터베이스 시스템 데이터베이스 및 마찬가지로 다른 적은 테이블이 웹 애플리케이션에서 널리 사용되고있다 읽어

우리는 비 국방 주식을 많이 필요로합니다 예를 들어, Amazon 또는 다른 응용 프로그램에 들어간 사례를 예로들 수 있습니다 고객의 바이오스를 다시 한번 정보를 찾는 사람들을 만날 수 있습니다 애플리케이션에서 정보를 매우 빨리 얻어야하므로 사용할 수 있습니다 이러한 데이터베이스를 저장하고 우리는 매우 빨리 그 정보를 추출 할 수 있습니다 정상적인 데이터베이스

그것의 기반 외에도 우리는 한 쌍의 데이터 풀을 가지고 있습니다 이것은 증명 되었기 때문에 다른 데이터베이스의 모든 물건 데이터를 내 사무실로 가져올 수 있습니다 예를 들어 내가 좋은 품질의 데이터베이스에서 무엇을 가져올 지 알고 싶다면 다른 메커니즘을 주문할 수 있습니까? 나는 그것을 줄 수있는 사람들이 쉽게 데이터를 수정할 수 있습니다 그리고 다른 데이터베이스에 들어가기 만하면 그 날을 가져올 수 있습니다 생각 해봐

이 비디오를 얻으십시오 영화는 디아블로 시스템의 대상에 관한 좋은 책이며 하나의 스트리밍 날짜입니다 우리는 그 데이터를 매우 쉽게 수정할 수 있습니다 어쩌구 저쩌구 그 다음 우리는 그것을 처리 할 수 ​​있습니다 그래서 한 가지는 분명합니다

내가 열 필요가 있거나 그 모든 데이터를 고칠 필요가있을 때마다 나는 그것을한다 데이터를 처리 할 수 ​​없기 때문에 데이터를 처리하는 날짜와 우리가 사용하기에 앞서 모든 노드를 끄는 것이 허용되는 재미있는 사육사입니다 내 환경 그래서 모든 노드 사람들이 시스템을 원활하게 잠그기 위해 데이터를 수집하는 방법

그러나 그것은 가난한 봉사를 위해 싸운 사람들이 논쟁 중입니다 나는 중산층이다 우린 좋은 친구 야 그래서 모든 추론과 관리는 누군가에 의해 이루어집니다 나는 당신이 관리 할 수있는 것을 인정했다

세상에 더 많이 추가 할 수 있습니다 시스템의 노드 아래에있을 수 있습니다 그리고 당신은 할 수있는 일에 대해 약간의 변화를 줄 수있는 한 가지 모습이 있습니다 신체 아주 쉽게

그래서 이것은 큰 루프 시스템이고 우리 파티는 기본적으로 제품입니다 그 회사에 모회사인데 내가 다른 사무실과 모든 오픈 소스지만 나는이 모든 회사를하지 않습니다 자살 폭탄 테러로이 모든 오픈 소스 제품들이 하나의 패키지를 작성한 다음 제공하십시오 그래서이 두 가지 패키지 모두에 직접 또는 두 가지 방법으로 설치하는 두 가지 방법이 있습니다 하느님 감사합니다 전화 배급 회사는 다시 적재까지 적극적으로 사용할 수 있습니다 시스템 밖으로 또는 밖으로 그리고 우리는 우리가 할 수 있도록 길고 피 묻은 차이가있을 것입니다 적자와 왜 시간을 마주 치기 위해 IP 비즈니스에 참여하십시오

그래서 뭐야 그래서 내가 할 수있는 것은 모든 것을 가져올 수 있습니다 나는 직접적으로 수비를 했는가 아니면 내 지퍼를 돌릴 수 있었는가? 그래서 그것은 무엇입니까 가져 오기 내보내기는 데이터베이스에만 사용되며 다른 용도로는 사용되지 않습니다 윤활유를 사용하지 않고 모델을 선택하려면 하나만 있습니다

당신이 고칠 생각을 길들인 사람은 먹을 수있는 음식을 사 먹는다 귀하의 시스템은 모두 청취자 데이터베이스 관리 시스템에 속하지만 기록됩니다 귀하의 데이터베이스에서 그들은 서로 큰 비즈니스 플랫폼 플랫폼 나는 적어도 데이터베이스 관리 시스템이 없다는 생각이 들지 않으면 다윈 언어를 볼 수있다 또는 어쩌면 다른 언어로 죽을 수도 있습니다 주요 우선 순위

안경을 읽을 수 있고 직장에 갈 수 있습니다 그런 다음 가져올 수 있습니다 너는 그들에게 간다 내 말은 네가 그걸 네게 줄 수 있다는 뜻이야 당신이 일할 수있는 사람들에 의한 창

그래서 당신은 당신이 주문했을 때 파이썬을 사용할 수있는 방법으로 하나님 께 확장 할 필요가 있습니다 다른 기술 우리는 Ondo에 살기 때문에이 시간 내에이 시간 내에 수정할 수 있습니다 그 모든 데이터가 그것을합니다 스포크를 사용하여 이것을 얻으십시오

음,하지만 그건 데이터에 나쁜 영향을 미칠 것입니다 여러분이 IBM과 플랫폼으로 협력하고 있고 가장 좋은 친구를 원한다면 이걸 얻으면 우린 특종을 사용하여 Blue가 9 월에 영향을 미칠 수 있습니다 스트리밍 데이터를 참조하십시오 그래서 당신은 아무것도 느끼지 않지만 당신은 많은 것을 의미하지 않습니다 그래서 그들은 좋은 데이터가 아니지만

점에 사람을 연결하면 아무런 멈추지 않고 눈을 먹일 수 있습니다 그래서 그들이 원하는 음식이 아닌 것처럼 느끼는 것에 먹이를 줄 누군가는 아닙니다 가져 오기 위해 다른 데이터를 선택할 것입니다 그래서 나는 무엇을 했는가 그러나 나는 그렇다고 생각하는 사람을 선택하지 않았고 그것을 얻었습니다

어떤 기계도 그 과정을 자동화하는 것은 유용하지 않습니다 기계 학습은 별도의 메커니즘이므로 독자가 읽을 수있는 기술 방식입니다 새로운 모델을 좋아하고 만든 데이터로부터 데이터를 이해할 수 있습니다 이것들은 당신이 파는 모든 모델이 아닙니다 특정 두뇌 전부 당신은 떨어져 뛰어 오르지 않을 무언가를 알아낼 수있다 새로운 것의 모형 데이터

예를 들어 내가 최고 상을 찾고자한다면이 데이터 시장에 이미있다 데이터 그 기계 돈을 사용하는 것입니다 20 30 개의 데이터를 정리하면 해당 추세를 쉽게 예측할 수 있습니다 그들이 무엇을 또는 ​​다운로드가 안정 될지를 알아 내고 있는지 하지만 그것은 학습이 너무 많아서 우리가 예전의 데이터를 이해하는 데 도움이되지 않습니다

데이터 따라서 우리는 두 시스템에 데이터를 더 많이 공급할 것입니다 우리는 그 가능성을 이해하고, 너무 많은 돈이 갈 것이라는 것을 정말로 나쁘게 느끼고 있습니다 그들 따라서 두 번째 메커니즘을 사용하여 모든 다른 끝을 찾을 수 있습니다

우리는 그걸 예측할 수 있습니다 이 모든 것들은 모두 꺼져 있지만, 느끼는 모든 과정을 자동화 할 수 있습니다 더하기 같은 우리 모두 했어 네가 그의 변호에 대해 죄책감을 느낀다면 나는 니콜라스에게 기뻐 언제 데이트 할 필요가 있는지 알기 위해 이것을 얻을 수있었습니다

그런 다음 해당 데이터 곰팡이에 개를 실행하여 데이터 내에서 다른 곳으로 작업을 업로드해야합니다 골프 기술 및 골프 그리고 나서 사진은 골프를 치기는하지만 두 가지 방법이 있습니다 수동으로 또는 모든 시스템에서 모든 골프를 워크 플로의 단일 파일로 메커니즘을 사용하면 내 아기에게 모든 프로그램을 주문하기 쉽습니다 첫 번째 두 번째와 세 번째가 완료되면 다른 하나가 순서대로 아마도 당신은

그러나 그것은 당신이 알고있는 하나씩 골프 코스를 운영 할 수있게 해주는 것입니다 당신은 그것을 할 Leslie는 또한 어떻게 그녀가 그렇게했는지 확신 할 수 있도록 자신의 직업을 수행합니다 아무에게도 한 발을 내주기가 어렵습니다 종종 나는 갭 분석이 가능해질 것이라고 생각합니다

너도 알다시피, 이것이 큰일이다 나는이 모든 것을 다 통과했습니다 그래서 나는 다시 매우 긍정적으로 변했습니다 자동화 할 수 있다고 생각할 때 사용할 수있는 모든 도구가 있습니다 당신은 그것과 별개로 분석을 할 수 있습니다

Spock과 공과 같은 다른 많은 그룹이 있습니다 Spock 로컬 박스와이 상자와 같은 다른 도구에 시간을 할애해야합니다 당신은 메모리 프로세싱에서 어떤 것을 할 수 있습니다 우리 아빠는 Spock과 Moffat을 Spock과 비교하려고했는데 내 부스보다 훨씬 빠릅니다 왜냐하면 그것이 기억에 남을 것이기 때문입니다

그러나 Bob과 Spock을 잡는다면, 더 많은 메모리가 필요하거나 더욱 더 그래서 우리가 누군가를 목표로 삼을 수 있다면 Spock에서 뛰고 싶을 것입니다 나중에 어느 날 그것을 전달하고 싶습니다 나는 가제트와 메모리 또는 유령 기계를 방해하는 메커니즘을 남기지 않을 것입니다 너는 그 자리에 앉는다

그러나 바그다드에 우리가 기획하고지도 작성하거나 할 수있는 것을 얻을 수있는 것만 큼 크지는 않습니다 우리는 그 벌금을 줄 였지만 두 번째 지연의 한 부분을 인쇄했습니다 우리가 한 수학에서 2 분만에 100 분이면, 나는 그것을 할 수 있습니다 2 분 또는 3 분 후에 꺼집니다 그래서 종이에서 제 생산물을 시작하는 강렬한 양입니다

내 생산물이므로 사용할 수있는 많은 도구가 있습니다 Amazon Web Services 아무에게도 선이있을 것입니다 우리가 계산할 수있는 모든 것은 아마존에서 관리합니다 누군가는 당신이 관리 할 수 ​​있고 지배 할 수있는 도구입니다

그래서 넌 할 수있어 그리고 저는 그 시스템의 일부분이었습니다 관리자와 제목은 어떻게 운영됩니까? 그들은 원한다 당신이 할 수있는 한 가지는 당신이 시스템을 찾을 수 있도록해야합니다

당신은 누군가의 누군가를 그렇게 할 수 있습니다 그것은 그것이 보였던 것처럼 주문받습니다 이상 주의적 불평등이란 얼마나 오래 서로 알고 지내는 데 소비했는지에 관한 것이 었습니다 다른 좋은 몸 내가 돈이나 돈을 버릴 사람이 아닐지라도 내파 된 몸에 당신의 주요된다

나는이 비디오를 통해 당신이 즐겁게 배웠을 것이라고 확신합니다 동영상을 좋아하시겠습니까?이 동영상에 대한 의문 사항이 있으면 의견을 남기십시오 우리는 코멘트 섹션에 그리고 우리의 채널을 구독하는 것을 잊지 말고 더 많은 유익한 비디오를 보게하십시오 우리의 재생 목록에있는 다른 관련 동영상

자세한 내용은 당사 웹 사이트를 방문하십시오 이제는 인텔에 대해 계속 배우십시오

Splunk Tutorial | What Is Splunk | Splunk Tutorial For Beginners | Splunk Careers | Intellipaat

안녕하세요 여러분, Intellipaat의 또 다른 재미있는 세션에 오신 것을 환영합니다 오늘 세션에서 우리는 Splunk가 왜 토론 하는가? Splunk 및 그 구성 요소 란 무엇입니까? Splunk 및 유스 케이스의 작동 메커니즘은 무엇입니까? 로컬 컴퓨터에서 데이터를 입력하는 실전 연습

Splunk의 커리어 기회? Splunk가 필요한 이유로 이동하기 전에? Splunk은 무엇입니까? Splunk라는 단어를 들었습니까? Splunk는 머신 데이터를 분석하는 데 사용되는 소프트웨어 또는 도구입니다 그러나 당신은 기계 데이터를 분석해야하는 이유가 무엇인지 생각 해본 적이 있습니까? 당신은 지수 함수를 알고 있어야합니다 지난 10 년간 기계 데이터의 성장 이것은 주로 증가하는 기계의 수와 IoT 장치 그리고 다른 문제에 대한 해결책이 숨겨져 있기 때문에 데이터를 분석해야합니다

머신 데이터에서 이 머신 데이터를 분석하면 고객 행동 및 요구 사항 이는 우리에게 더 나은 서비스를 제공하는 데 도움이 될 것입니다 이 컴퓨터 데이터는 시스템 관리자에게 보안 문제 및 시스템 오류에 대해 설명합니다 기계 데이터를 분석하면 기계 기능을 향상시키는 데 도움이됩니다

그러나 머신 데이터를 분석하는 것은 간단한 작업이 아닙니다 그럼, 어떻게해야합니까? 우리가 어떻게 보는지 보자 당신이 시스템으로 일하고 있다고 생각해보십시오 일부 조직의 관리자 조직에서 센서와 같은 다양한 출처에서 데이터를 생성 할 수 있습니다

네트워크 장치, 클라우드 서비스, 사물의 인터넷 및 모바일 서비스 그리고 이러한 자원에서 생성 된 데이터는 비 구조화 된 시스템의 형태로 나타납니다 데이터 예를 들어 머신 데이터는 이런 식으로 하나의 시스템에서 장애가 발생했으며 솔루션을 찾아야한다고 가정 해 보겠습니다

그것을 위해 하드웨어를 어느 단계에서 실패했는지 알아내는 것은 매우 어려울 것입니다 프로그램 머신 데이터 : 이해해야 할 복잡한 구조화되지 않은 형식으로 분석 / 시각화에 적합하지 않음 그래서 어떻게 생각합니까? 어떻게 해결할 수 있습니까? 이 경우 기계 데이터를 이해하고 어디에서 식별 할 수 있는지에 대한 도구를 필요로합니다 정확히 하드웨어 나 소프트웨어가 실패했습니다

이미 논의한 광고는 해결할 수 있습니다 Splunk를 사용하여 Splunk는 기계 데이터를 처리하여 인간을 추출하는 도구입니다 읽을 수있는 형태의 데이터 이렇게하면 문제를 분석하는 데 도움이됩니다 소프트웨어 나 하드웨어의 상태를 찾고있을 때마다 소프트웨어의 상태를 이해하는 데 도움이되는 로그 파일입니다

Splunk는 Google 로그 파일로 정의 할 수 있습니다 즉, Splunk는 IT 인프라에 머신 데이터를 제공합니다 Splunk의 주요 구성 요소는 다음과 같습니다 전달자, 인덱서 및 검색 헤드가 있습니다 전달자는 데이터를 수집하여 다른 사람에게 전달해야합니다 Splunk 인스턴스 또는 인덱서

인덱서는 데이터가 저장되는 장소입니다 그러나 인덱서에서 데이터에 액세스 할 수는 없으며 검색을해야합니다 데이터를 분석, 시각화 및보고하는 데 도움이되는 정보를 제공합니다 Splunk는 사용자가 시스템 데이터 분석 : 시스템 성능 분석 시스템의 장애 상태 식별 비즈니스 매트릭스 모니터링 이유 검색 및 조사 데이터 시각화 및 결과 대시 보드 생성에 도움을줍니다 또한 나중에 참조 할 수 있도록 데이터를 저장할 수도 있습니다

이제 Splunk가 어떻게 작동하는지 보겠습니다 우리는 로그 형태의 머신에 저장된 데이터를 가지고 있습니다 데이터베이스, 뷰 또는 API 절 다른 한편, 우리는 정보 분배 자 역할을하는 사용자를 다양한 출처 비즈니스 운영에는 그래프, 이미지, 피벗 및 대시 보드가 필요합니다

비즈니스를 위해 더 나은 결정을 내린다 따라서 데이터와 사용자 간의 가교 역할을하는 것은 무엇이라고 생각하십니까? 예, 데이터 색인입니다 아니면 데이터베이스의 테이블이라고 생각할 수도 있습니다 이것이 데이터가 기계에 저장되는 방법입니다 데이터를 저장하면 추출 할 수 있습니다

데이터는 검색 처리 언어 또는 SPL을 사용합니다 머신의 모든 데이터는 이제 이벤트 형태로 저장됩니다 컴퓨터에서이 데이터를 검색하면 편집, 계산 또는 콘서트를 할 수 있습니다 필요에 따라 이 기술은 구현하기 쉽습니다 또한 사용자에게 다양한 서비스를 제공합니다

그 중 일부는 데이터 인덱싱입니다 검색에 대한 지식 매핑 및 검색을 용이하게합니다 경고 예약 Splunk 보고서 준비 및 공유 요즘 우리는 저장 장치를 보았습니다 몇 년 동안 더 좋아지고 나아졌으며, 우리는 프로세서가 더 많아지는 것을 보았습니다 모든 노화 방지 효과는 있지만 데이터 이동은 아닙니다

Splunk는 이것을 수행하는 데 유용한 도구입니다 왜 조직이 Splunk를 선택합니다 Splunk의 장점 중 일부는 다음과 같습니다 그것은 로그 파일을위한 "구글"로 일하기 시작했습니다 즉, 더 간단한 방법을 사용하여 Splunk 검색 형식으로 데이터를 입력 할 수 있습니다 검색 처리 언어 (SPL)의 도움으로 어떤 백엔드 나 데이터베이스도 데이터를 직접 저장하므로 필요하지 않습니다

Splunk 파일 시스템에서 단일 실패 지점이 발생하지 않습니다 위에서 언급 한이 기술의 주요 특징 외에도 많은 기능이 있습니다 빠른 설치, 쉬운 확장 성, 세분성 손실없이 유지, 이 기술에 특유의 경쟁력을 부여합니다 Splunk의 주요 고객은 Vodafone, 도미노 스, ING 은행 및 뉴욕 에어 브레이크

Vodafone은 엄청난 양의 고객 데이터가 생성되는 통신 회사입니다 따라서 Vodafone은 Splunk를 사용하여이 큰 데이터를 최적화하고 제공합니다 더 나은 고객 지원 Domino는 Splunk가 고객 행동을 이해하기로 결정했습니다 ING 은행은 Splunk를 사용하여 주요 앱 문제를 해결하고 고객 행동에 대한 통찰력을 얻고 있습니다

뉴욕의 에어 브레이크는 Splunk를 구현하여 한 달에 거의 10 억 달러를 절약했습니다 이제 사례를 사용하고 어떻게 사용하는지 살펴 보겠습니다 Splunk는 조직이 기술적으로 문제를 해결할 수 있도록 도와줍니다 도미노의 피자가 전자 상거래 용 패스트 푸드 거인이라는 사실을 알고 있을지 모르지만, 그러나 그들이 직면 한 어려움과 도전에 대해 알고 계십니까? 고객의 요구 사항을 이해하고보다 효과적으로 고객에게 제공하고자했습니다 빅 데이터를 사용합니다

많은 것을 생성하는 데 사용 된 Dominos 데이터베이스 구조화되지 않은 데이터로 인해 유지 관리가 어려워집니다 수동 검색의 오류, 기본 설정의 차이 및 기타 등등 이것은 Splunk가 해결했습니다 Splunk는 도미노가 데이터를 더 빨리 검색하고 성능을 모니터링하며 더 나은 통찰력을 얻도록 도왔습니다 그것은 도미노가 다른 대화 형지도를 설정하는 것을 도왔습니다 고객으로부터의 실시간 피드백, 다양한 지불 방법 분석, 사내 판매 팀의 성과를 모니터링 할 수 있습니다

Splunk의 폭 넓은 응용 프로그램과 설치 용이성으로 인해 응용 프로그램이 엄청나게 다양해졌습니다 빅 데이터 분석 분야에서 널리 사용됩니다 로우 프로파일의 대용량 데이터 회사에서 가장 보편적 인 기술 중 하나에 이르기까지 첨단 기술 기업에 대한 탄탄한 영향력을 창출하는 데 성공했습니다 이제 실전 연습을 살펴 보겠습니다 데이터 추가 방법 Splunk 도구에서? 먼저 Splunk 관리에 로그인해야합니다

당신의 방식으로 오는 기회 이 기술을 배우면 가까운 장래에 성공할 수 있습니다 뭘 기다리고 있니? Intellipaat Splunk Training 과정에 참여하여 Splunk 전문가가 되십시오 이 과정은 웹 로그 분석, 디자인 보고서 및 차트를 이해하는 데 도움이됩니다 또한 Splunk 배포에서 서버 구성이 수행되는 방법을 배우게됩니다

우리가 토론 한 내용을 요약 해 보겠습니다 오늘 세션 : 우리는 Splunk의 필요성에 착수했습니다 Splunk과 그 구성 요소는 무엇입니까? Splunk의 작동 메커니즘과 사용 사례에 대해서도 논의했습니다 Splunk에서 사용 가능한 다양한 직업 옵션, Splunk를 사용하는 다양한 조직 기술 및 실무 연습은 데이터를 입력합니다 이 비디오를 시청 해 주셔서 감사합니다

문의 사항은 언제든지 문의하십시오

How to Become a Data Scientist in 2019? | Learn Data Science | Data Science Tutorial | Intellipaat

데이터 과학의 세계에 오신 것을 환영합니다 데이터 과학은 최근 몇 년간 연구의 트렌드 분야였습니다

이는 우리가 지속적으로 생성하는 데이터의 양과 컴퓨팅 성능 이는 기술 발전으로 가능합니다 그러나 데이터 과학이란 무엇입니까? Uber에서 타는 것을 예약 할 때 어떤 일이 일어나는지 생각해보십시오 휴대 전화에서 Uber 앱을 열고 어디로 가고 싶은지 앱에 알립니다 우버는 가장 가까운 택시를 찾으려고합니다

그 이후로가는 길은 당신을 데리러 목적지로 데려다줍니다 간단했다 그러나 배경에서는 겉으로보기에는 단순한 작업이 산을 모아서 수행됩니다 다양한 소스의 데이터 전화기,지도 및 교통의 역사적인 흐름과 놀이기구에 대한 수요와 마찬가지입니다 이 데이터로 현대 컴퓨터는 가장 가까운 운전자를 계산하도록 프로그래밍되어 있습니다

귀하의 위치와 목적지로가는 가장 좋은 경로 그것이 걸리는 시간과 당신이 지불해야 할 시간 즉 이것은 데이터 과학으로 가능하게됩니다 데이터 과학에는 수많은 다른 응용 프로그램도 있습니다 그것은 통계의 교차점에 있으며, 데이터 분석 및 기계 학습

함께 일하는 과학적 방법, 모델 및 알고리즘의 조합입니다 데이터에서 실행 가능한 비즈니스 통찰력을 추출합니다 미국은 140000 ~ 190000 명의 사람들이 부족한 상태에 처해있다 분석 기술 효과적인 의사 결정을 내리기 위해 큰 데이터를 분석 할 수있는 500 만 명의 관리자가 있습니다

데이터 과학자의 평균 급여는 약 118000 달러입니다 그래서 직업으로서의 데이터 과학에 여전히 관심이 있습니다 계속해서 누가 데이터 과학자가 될 수 있는지에 대해 자세히 알아보십시오 데이터 과학자가 중요한 이유

데이터 과학 라이프 사이클이란 무엇입니까? 얼마나 큰 데이터가 데이터 과학 혁명을 주도하고 있습니다 데이터 과학 경력 전망 데이터는 우리 세대의 석유입니다 데이터 과학은 오늘날의 디지털 기반 세계에서 필수 불가결 해지고 있습니다 기업이 소비자 행동을 이해하고 메시징을 미세 조정하며 새로운 시장을 확보하도록 지원 몫 데이터 과학자가되기

데이터 과학자가되기 위해 기술적 배경을 가질 필요는 없습니다 당신이 필요로하는 것은 심층적 인 지식과 수학, 분석적 추론 능력 많은 양의 데이터로 작업 할 수 있습니다 그것은 또한 강한 지적 탐구를하는 데 도움이 될 것입니다 데이터 엔지니어링, 시각화 능력 및 훌륭한 비즈니스 통찰력에 대한 지식 기술적이지 않은 배경에서 왔을 경우 R을 사용할 것입니다

기술적 인 배경을 가진 사람이라면 python과 r을 사용할 수 있습니다 가능성을 이해하고 올바른 질문을하는 것입니다 최고의 답을 찾으십시오 모든 회사에 데이터가 넘쳐납니다 그리고 그들은 그들이 무엇을 해야할지보다 많은 데이터를 가지고 있습니다

따라서 업계의 업종에 관계없이 데이터 과학은 조직의 미래 성공 데이터 과학자들은 비용 절감, 새로운 시장 진출 및 고객 인구 통계에 대한 새로운 방법을 모색합니다 새로운 제품 또는 서비스 출시 데이터 과학은 또한 아동 복지 및 예측과 같은 사회적 및 의학적 응용을 발견했습니다 진단 그래서

일반적인 데이터 과학 라이프 사이클은 어떻게 생겼습니까? 데이터 발견 단계는 관련 데이터의 다른 소스에 대한 검색을 포함합니다 구조화 된 데이터 또는 구조화되지 않은 데이터 그런 다음 특정 데이터 세트를 분석에 포함시키는 결정을 내립니다 데이터 준비에는 서로 다른 소스의 데이터를 공통 형식으로 변환하는 작업이 포함됩니다 데이터를 표준화합니다

이상 징후를 조사하고 함께 작업하는 것이 더 적절하도록하십시오 데이터 과학 모델은 통계, 물류 및 선형 회귀를 사용하여 작성됩니다 다른 수학적 기술들 사이의 미분 적분 적분법 R, Python, SRS, SQL, Tableau 등의 도구를 사용할 수 있습니다 실전 단계에서 일을 얻는 것은 데이터 모델의 효율성 및 결과를 제공 할 수있는 능력

모델을 다시 작성해야하는 경우 모델 작동 여부를 확인해야합니다 데이터 과학자는 다양한 팀과 연락하여 원활하게 의사 소통 할 수 있어야합니다 조직의 핵심 이해 관계자 및 의사 결정권자들에 대한 그의 발견 데이터 과학의 또 다른 중요한 요소는 일련의 규칙 과정 인 알고리즘입니다 특정 문제를 해결할 수 있습니다 중요한 데이터 과학 알고리즘에는 회귀 분석, 분류 및 클러스터링 기법

결정 나무와 임의의 숲 감독, 감독 및 보강 학습과 같은 기계 학습 기술 이 외에도 조직이 자신의 서비스를 제공하기 위해 개발하는 많은 알고리즘이 있습니다 독특한 필요성 빅 데이터는 데이터 과학 혁명에 의해 주도됩니다 빅 데이터는 데이터 과학의 부상을 주도하는 엔진입니다

Hadoop은 대부분의 조직에서 널리 사용되는 큰 데이터 프레임 워크입니다 Hadoop은 데이터의 처리와 저장이 모두 분산 된 방식으로 작동합니다 범용 하드웨어에 분산되어 있습니다 Hadoop은 쉽게 확장 가능하고, 경제적이며, 내결함성이 있으며 안전합니다 Hadoop은 데이터 저장 및 사용을위한 Hadoop 분산 파일 시스템 또는 HDFS로 구성됩니다

데이터 처리를 위해 map reduce 또 다른 새로운 프레임 워크는 Apache Spark입니다 Apache Spark는 최대 100 배 빠른 속도로 선전되었습니다 지도 축소보다 불꽃

반복 처리가 빠르고 효율적으로되도록 데이터와 RAM을 저장합니다 또한 데이터 처리를 위해주기적인 그래프 또는 DAG를 직접 배치합니다 데이터 과학자들에게는 엄청난 수요와 공급 불일치가 있습니다 이로 인해 데이터 과학자들의 급여가 업계 최고입니다 아마존, 구글, 페이스 북, 마이크로 소프트와 같은 최고 기업들은 다른 사람들과 기술 공간을 같이한다

엑손 모바일 Visa, Boeing, General Electric 및 Bank of America는 적극적으로 데이터 과학자를 고용하고 있습니다 이제 데이터 과학, 왜 데이터 과학이 필수적인지에 대해 배웠습니다 데이터 과학 라이프 사이클, 빅 데이터와의 관계 이 유망한 영역에서 여행을 시작하고 경력이 크게 성장할 때입니다 Intellipaat은 선도 산업의 도움으로 설계된 데이터 과학 교육 과정을 제공합니다

데이터 수집, 탐험, 논쟁의 핵심 기술을 배우는 데 도움을주는 전문가 및 데이터 시각화 또한 통계 분석, 예측 모델링, 기계 학습을 마스터하게됩니다 데이터 과학자에게 필요한 모든 기술이 필요합니다 고맙습니다 문의 사항

언제든지 저희에게 연락하십시오

Big Data Vs Data Science Vs Data Analytics | Data Science vs Machine Learning | Intellipaat

데이터 세계에 오신 것을 환영합니다 오늘날의 데이터는 그 어느 때보 다 빠르게 증가하고 있습니다

데이터와 같은 도메인의 기본 사항을 알아야합니다 과학, 빅 데이터 및 데이터 분석 그래서 대부분의 사람들은 실제로 이 용어들 사이에 혼란 스럽다 그래서 세션에서 저는이 구별에 대해서 이야기 할 것입니다 데이터 과학, 대용량 데이터 및 데이터 분석간에 무엇이 사용되고, 어디에서 사용되는 것입니다

전문가가되기위한 역할과 책임을 살펴볼 것입니다 현장에서 자신의 기술과 각 분야의 급여 전망과 함께 아마존의 사례를 통해 각자의 직무를 살펴볼 것입니다 그래서 이들의 기본 개념을 이해하는 것으로부터 시작하겠습니다 너무 큰 데이터는 거대합니다 구조화, 반 구조화 및 구조가 없으며 다양한 디지털을 통해 멀티 테라 바이트 단위로 생성됩니다

모바일, 인터넷, 소셜 미디어 등의 채널이 있으며 이러한 채널은 될 수 없습니다 전통적인 응용 프로그램을 사용하여 처리됩니다 이제 기존 기술과는 다른 Big Data는 RDBMS와 마찬가지로 대규모 데이터를 실제로 처리합니다 빠른 속도로 데이터를 저장할 수있는 기회를 제공합니다 다른 도구, 기술 및 방법론

지금 빅 데이터 솔루션 실제로 검색을 캡처, 저장 및 분석하는 기술을 제공합니다 통찰력과 관계를 쉽게 찾을 수있는 초 단위의 데이터 혁신 및 경쟁 게임 따라서 적절한 분석을 통해 큰 데이터를 사용할 수 있습니다 비즈니스 실패의 원인, 비용 절감, 시간 절약, 더 나은 의사 결정과 새로운 제품 창출 지식이있는 개인 빅 데이터는 빅 데이터 전문가 (Big Data Specialist)이므로 빅 데이터 전문가 (Big Data Specialist) Hadoop, Mapreduce, Spark, NO SQL 및 DB에 대한 전문 지식을 갖습니다

HBase, Cassandra 및 MongoDB 등의 도구를 사용하므로 데이터 과학은 실제로 큰 문제를 해결합니다 데이터를 추출하여 정보를 추출합니다 그래서 모든 것을 포용하고있는 분야입니다 로 시작하는 구조화 된 데이터와 구조화되지 않은 데이터가 연관되어 있습니다 유용한 통찰력을 준비, 정리, 분석 및 유도하고 다시 수학, 통계, 지능형 데이터 캡처의 결합 프로그래밍 등 여러 가지 기술의 조합과 지식 축적이 가능한 비즈니스 통찰력을 얻기 위해 대량의 데이터를 처리하는 프로세스

그래서 처음에는 별개의 분야에서 데이터 세트를 수집 한 다음 그것을 컴파일하고 컴파일 한 후에 그들은 예측 분석을 적용한다 학습 및 정서 분석 결국 데이터 과학자들은 실제로 그것으로부터 유용한 정보를 추출하십시오 이제 데이터 과학자들은 비즈니스 뷰를 제공하고 정확한 예측 및 요금을 제공합니다 미래의 손실로부터 사업자를 보호합니다

따라서 데이터 과학자들은 전문 지식, 통계, 물류 및 선형 회귀 분석 다른 수학적 기법들 사이의 미분 적분 및 미적분학 이제 너 R, Python, Sas, SQL, Tableau 등의 도구를 사용할 수도 있습니다 그래서 우리 중 대부분은 데이터 과학과 데이터 분석이 유사하다는 의견 경우 그렇습니다

그들은 실제로 몇 분의 순간에 차이가 있습니다 깊은 집중을 통해 알려졌다 이제 데이터 분석이 기본 수준입니다 데이터 과학은 데이터 활용도를 높이기 위해이를 알아야합니다 분석 된 데이터의 패턴을 발견하기위한 광업 및 기술 및 도구 세트

그래서 여기에 우리는 실제로 역사적인 데이터를 조사하고 있습니다 완전히 현대적인 관점과 더 나은 방법론 적용 해결책 이제이 데이터 분석뿐만 아니라 데이터 분석도 회사가 이용할 수있는 다가오는 기회 그래서 데이터 과학은 실제로 전략적 및 실행 가능한 통찰력을 제공하기 위해 데이터 분석을 활용합니다 그래서 여기 데이터 분석가가 중요한 역할을합니다

그래서 그는 R을 말하자 통계 계산, 데이터 마이닝 기술, 데이터 시각화 파이썬 프로그래밍 이제 우리는 각각의 응용 프로그램 중 일부를 살펴 봅니다 그래서 소매업 분야에서는 소매업에 큰 데이터를 사용하고 경쟁력을 유지하라 여기에서 중요한 열쇠는 이해하고 해결하는 것입니다

고객이 더 좋습니다 따라서 이것은 실제로 모든 고객 트랜잭션의 데이터와 같은 다른 데이터 소스, 웹 잠금 로열티 프로그램 데이터, 소셜 미디어 데이터 등이 있으며 쉽게 수행 할 수 있습니다 큰 데이터 이제 우리 모두는 통신 서비스 제공 업체가 고객 유지의 우선 순위, 새로운 고객 확보 및 현재 고객 기반 이제 그렇게하기 위해서 결합과 매일 생성되는 고객 및 기계 생성 데이터의 용어 분석 큰 데이터로 수행 할 수 있습니다

이제 큰 금융 서비스 제공 소매 은행, 신용 카드 회사, 보험 회사, 벤처 펀드와 같은 형태 또한 금융 서비스를 위해 큰 데이터를 활용합니다 그래서 전공 모두가 경험하는 도전은 다량의 구조화 된 여러 다른 시스템에 내장 된 데이터로 이제는 가져올 수 있습니다 빅 데이터의 관심 따라서 큰 데이터는 실제로 다음과 같은 다양한 방법으로 사용됩니다 사기 분석, 고객 분석, 운영 분석 및 준수 해석학

이제 데이터 과학은 가장 보편적 인 것 중 하나입니다 응용 프로그램은 추천 시스템입니다 예,이 시스템은 사용자에게 많은 것을 추가합니다 사용자가 관련 추천을 쉽게 찾을 수 있도록합니다 그리고 그들의 관심사의 선택

이제 관련 채용 정보와 같은 것이 될 수 있습니다 관심있는 영화, 추천 동영상, Facebook 친구 또는 구입 한 사람들 이것도 이것 등을 구입했습니다 그래서 여러 회사가 실제로 이것을 사용하고 있습니다 권장 사항 및 제품을 권장하기위한 추천 시스템 사용자 관심 및 정보 및 요구의 관련성 그래서 추천은 항상 사용자의 이전 검색 결과에 따라 다릅니다

지금 다른 하나는 인터넷 검색입니다 그래서 여기 많은 검색 엔진이 데이터를 사용합니다 과학 알고리즘을 사용하여 단 몇 초 만에 최상의 결과를 제공합니다 과 전체 디지털 마케팅 생태계는 데이터 과학을 활용합니다 알고리즘을 사용하면 디지털 광고가 클릭률 (CTR)이 더 높은 주된 이유입니다 전통적인 광고 형태

당신에게 데이터 과학에 대해 말하게하겠습니다 응용 프로그램은 이것들에 국한되지 않습니다 예, 웹에서 구현할 수 있습니다 개발, 전자 상거래, 금융, 통신 등 기타 데이터 분석 건강 관리 확인 해보자

그래서 오늘의 주요 도전 과제는 직면하는 것은 환자를 치료하기 위해 극복해야 할 비용 압박입니다 효과적으로 여기 기계 및 계측기 데이터가 점점 더 많이 사용되고 있습니다 추적 및 최적화 치료 그렇다면 게임의 측면에서 그래서 이점 분석은 데이터 수집을 비롯하여 여기에서 중요한 역할을합니다 게임을 통해 최적화하고 지출하십시오

따라서 이들을 개발중인 회사 좋아요, 싫어함 및 관계에 대한 좋은 통찰력을 얻을 수 있습니다 그들의 사용자 그리고 여행 산업을 가정 해 봅시다 다시 데이터 분석 모바일을 통해 구매 경험을 최적화 할 수 있습니다 소셜 미디어

여행 사이트는 고객의 욕구와 환경 설정 따라서 제품은 실제로 현재 판매를 상호 연관시켜 판매 될 수 있습니다 브라우징 습관의 증가와 개인 여행 추천은 소셜 미디어를 기반으로 한 데이터 분석에 의해 전달 될 수도 있습니다 이제 데이터를 통해 중요한 역할과 책임을 살펴 보겠습니다 각 분야에서 큰 데이터 전문가는 중단없는 근무를 보장하는 전문가입니다

서버와 응용 프로그램 간의 데이터 흐름으로 실제로 작동합니다 통과 수집에 초점을 맞춘 대규모 데이터 프로젝트 충돌 구현 더 큰 데이터 세트를 분석하고 시각화하여 정보를 전환하는 작업 통찰력을 발휘하여 실제로 또는 그렇게 결정할 수 있어야합니다 필요한 하드웨어 및 소프트웨어 디자인은 이제 큰 데이터 엔지니어가되어야합니다 프로토 타입 및 개념 증명을 할 수있는 데이터 과학자로 고용 된 전문가로서 의미있게 추출 할 수있는 기술 및 분석 기능 데이터에서 얻은 통찰력을 바탕으로 비즈니스 관점의 데이터를 실제로 이해할 수 있습니다 기업이 도움이 될 수 있도록 예측을하는 책임을 맡았습니다

정확한 의사 결정을 통해 데이터 과학자들은 컴퓨터의 탄탄한 토대를 갖추게됩니다 통계 및 수학을 모델링하는 응용 프로그램은 다시 효율적입니다 조직에 다시 가치를 부여 할 올바른 문제를 선택합니다 그것을 해결 한 후 DTI 분석가에 대해 말하면 그들은 또한 데이터 과학의 주요 역할을 수행하여 조직화 된 데이터를 수집하고 그로부터 통계 정보를 얻는다 차트 그래프 및 표의 형태로 데이터를 표시 할 책임이 있습니다

같은 것을 사용해 관계형 데이터베이스를 구축 할 수 있습니다 조직 이제 우리는 필요한 스킬 세트 중 일부를 살펴 봅니다 이 분야에서 전문가라면 계획을 세우거나 계획을 세우고 있다면 전문적이며 도시를 유지한다면 수학과 통계학을 가져야합니다 기술은 대용량 데이터를 포함하는 모든 데이터 영역에서 매우 필요합니다 데이터 과학 및 분석에 이르기까지 모든 작업이 바로 시작됩니다

그렇다면 분석 능력이 있어야합니다 수많은 데이터 중에서 의미를 지니고 있으며, 컴퓨터는 그 힘을 발휘하는 엔진입니다 일상적인 데이터 전략 및 따라서 컴퓨터 과학 또는 컴퓨터 감각 기술 큰 데이터 전문가에게 가장 중요하며 귀하는 또한 새로운 방법을 창의적으로 해석하여 통역을 수집하고 데이터를 분석하고 그 후에 데이터 과학자가되고 싶다면 매우 중요한 비 구조화 된 데이터로 작업 할 수 있어야하며 쐐기와 상관없이 나는 그것이 오디오 소셜 미디어 또는 동영상 피드를 제작 한 다음 Hadoop에 대한 지식이 있어야합니다 플랫폼 및 그로 인해 추가 이점도 있습니다 fightin이 가장 많이 알려져 있기 때문에 바이트 Perl Java C ++ 등을 제외하고 데이터 과학에 사용되는 일반적인 코딩 언어 우리의 프로그래밍은 다음과 같기 때문에 이제는 우리 자신에 대한 깊은 지식을 가질 수 있습니다

또 다른 바람직한 프로그래밍 언어 및 데이터 과학 및 당신에게 말해 보겠습니다 Hadoop과 SQL은 데이터 과학의 주요 부분이지만 다시는 SQL에서 복잡한 쿼리를 작성하고 실행하는 방법을 알고있는 것이 더 바람직합니다 그럼 당신은 비즈니스 기술을 알고 다양한 이해를해야합니다 비즈니스를 수익과 함께 성장시키는 비즈니스 목표 그리고 데이터 분석가가되기를 원한다면 매우 좋은 결과를 가져야합니다 Python과 Art와 같은 프로그래밍 언어에 대한 지식 이 분야에서 정말로 중요한 분야이며, 그 다음 주목받는 데이터 분석가 인 통계 기술과 수학은 예일 때와 또 다시 데이터가 필요하기 때문에 애널리스트는 원시 데이터를 매핑하여 다른 형식으로 변환해야합니다 그것을 소비하기에 더 편리하게 만든 다음 좋은 의사 소통으로 데이터 시각화 기술을 다시 요구해야하며 데이터가 있어야합니다

직감이란 데이터 분석가처럼 생각하고 추론해야 함을 의미합니다 네가 원한다면 네가 실제로 가져야 할 일종의 전제 조건이었다 이 각각의 영역에 당신의 경력을 쌓은 다음 모두의 프로필을 바칩니다 셋은 완전히 다른 예입니다 서로가 그렇듯이 이제는 데이터 과학이 호황을 누리고 있습니다 무엇 때문에 데이터 과학이 맨 위에 서게하는 이유는 약 2 만 2 천 달러에 달하는 급여를 받는다

1 년 내 수입을 올릴 수있는 거대 데이터 전문가는 다음과 같습니다 연간 1 억 5 천 5 백만 달러의 데이터 분석가 연간 9 만 2 천 달러의 소득으로 이제 우리는 우리가 아마존의 예를 토론 할 지점 그들과 관련이 있고 그 이점을 제공하므로 큰 데이터로 시작해 보겠습니다 그래서 여기서 엄청난 양의 비정형 데이터가 처리하기 어려운 다양한 소스에서 생성됩니다 기존의 데이터베이스를 사용하면 Big Data 전문직이 환경에서 다양한 대형 데이터 생태계 도구를 사용하여 저장 및 처리 데이터를 효율적이고 적시에 데이터 과학자의 역할이 무엇인지 봅시다 아마존 예제에서 아마존이 어떻게 최적화하는지에 대해 이야기 할 것입니다

비즈니스는 데이터 과학을 사용하므로 데이터 과학자가 될 수 있습니다 의도 제품 추천을 통해 판매를 유도 한 다음 그는 또한 각 고객이 귀하의 비즈니스에 가져올 미래의 수익 예측 주어진 기간과 또한 그들이 얼마나 자주 그럴 가능성이 있는지 예측할 것입니다 고객의 평생 구매와 각 구매의 평균 가치를 산출 가치 모델링을 통해 현재 어떤 고객이 새로운 고객 확보 및 유지 관리 기존 연구와의 관계는 데이터 과학자가 대개 모델을 만들어 리뷰 및이 정보를 사용하여 유용한 정보를 자동으로 추출합니다 Amazon은 제품 우선 순위 지정을 통해 사용자 만족도를 효율적으로 극대화 할 수 있습니다 가장 긍정적 인 영향을 줄 수있는 업데이트 이제 아마존 예제에서 데이터 분석가의 규칙이 무엇인지 보게 될 것입니다

애널리스트는 실제로 다음을 포함하는 공급망 관리를 담당합니다 Amazon의웨어 하우스에서 고객까지 제품에 대한 데이터 관리 데이터를 광범위하게 사용하여 인벤토리를 관리하고 최적화하는 데 도움이됩니다 운송 및 운송의 가격 결정은 데이터 분석가들도 참여하게됩니다 사용자 경험 분석에는 주로 제품 검색이 포트폴리오 또는 투표는 특정 제품에 대한 제품의 순위를 결정합니다 검색 또는 페이스 북에서 오는 고객에게 가장 적합한 방문 페이지는 무엇입니까? etc

Lindy diner list는 판매자를 식별하는 책임이 있습니다 고객 사기 탐지 이렇게 아마존이 데이터 과학 큰 데이터를 활용하는 방법입니다 고객 경험을보다 즐겁게 만들어주는 데이터 분석 그 페놀은 당신이 생각하는 세 가지 사이의 차이점입니다 옵션이있는 곳에서 가장 적합합니다 당신은 데이터 과학이나 큰 데이터 또는 데이터 분석에서 당신의 현재를 만들 수 있습니다 전체 배치에는 여기에 수천 개의 데이터 과학 빅 데이터 및 데이터 분석이 있습니다

빅 데이터 및 데이터 과학 분야의 통합 프로그램을 포함하여 온라인 과정 데이터 과학이나 큰 데이터의 전문가가되고 싶다면 확인하십시오 큰 데이터 데이터에 서명 한 우리의 마스터 인증 교육 과정을 밖으로 나와 인증 석사 과정 및 데이터 과학 석사 과정 및 빅 데이터 건축가 마스터 코스와 함께 우리는이 비디오의 끝 부분에 와서 나는 정말로 지금 쯤이면 당신은 더 명확한 생각과 구별을 가져야 만 할 것입니다 이 모든 조건들과 당신은 실제로 적합한 특사가 무엇인지 알아야합니다 그게 너에게 해 줄 수있어 너의 소중한 시간을 우리에게 주셔서 너무 많은 친구들에게 고맙다 언제든지 질문이 있으시면 언제든지 연락주세요 유익한 당신을 위해 비디오를 좋아하시기 바랍니다 의심되는 의견이 있으면 아래에서 우리가 가장 먼저 응답 할 것입니다

그러한 정보 비디오를 우리 채널에 구독하는 것을 잊지 마십시오 자세한 내용은 재생 목록의 관련 감소를 참조하십시오 정보를 우리의 웹 사이트를 방문하여 지금은 좋은 하루와 경력을 가지고

Hadoop Tutorial | What Is Hadoop | Big Data Hadoop Tutorial For Beginners | Intellipaat

안녕하세요, 하둡 세션에 오신 것을 환영합니다 그럼 아주 작은 이야기부터 시작합시다

우리는 잘 가야한다 그래서 나는이 전자 상거래 사이트의 CEO 인 Jeff Bezos입니다 Mamazon와 너희들은 내 기술자 야 그래서 오늘 우리의 조직은 다음과 같이 보입니다 우리는 전자 상거래 사이트와 오라클에서 실행됩니다

우리는 인벤토리를 가지고 있고 그것은 MY SQL에서 실행됩니다 그래서 인생은 여기에서 아주 쉽게, 모든 것이 굉장합니다 그래서 지금 내가 대답하기를 원한다면 의문 다음 달에 얼마나 많은 iPhone을 주문해야하는지 말해 보겠습니다 아주 단순한 지금해야 할 일을하는 전형적인 비디오는 모든 것을로드하는 것입니다

이 데이터를 데이터웨어 하우스에 저장하고 테라 데이터를 말한 다음 기본적으로 귀하의보고 이것이 바로 tableau 및 Qlikview와 같은 도구가있는 곳입니다 그래서 데이터가 생성되면웨어 하우스에로드하고 생명은 매우 간단합니다 하지만 한 가지 문제가 있습니다 이 전체 설정의 실제 문제 보게 될 때까지 이것이 잘 돌아갔을 것입니다

2000 또는 2005 오늘 우리는 2018 년에 있으며 질문은 그렇게 간단하지 않습니다 우리가보고있는 데이터의 양이 매우 거대하기 때문에 간단한 예를 들자 이제 내가 질문을 바꾸고 얼마나 많은 말을했는지 고객은 iPhone을 구입하고 좋아했지만 배달이 싫었습니다 지혜로운 말로 트위터에 분노를 터뜨렸다

이제 가장 먼저 Twitter와 같은 출처에서 오는 데이터 및 귀하의 다른 소스 센서, 클라우드의 네트워크 로그 따라서 생성되는이 deta는 실제로 정말 거대하고 전통적인 데이터베이스 시스템에 잘 들어 가지 않을 것입니다 그래서 마이클은 여기에 질문이 있습니다 그는 Big Data에 대해 이야기하고 있습니까? 예 마이클 당신은 절대적으로 옳다 따라서이 엄청난 양의 데이터가 다른 출처와 다른 형식으로 존재하는 것은 귀하의 빅 데이터 (Big Data)와 우리는이 큰 데이터를 저장하고 처리하기 위해 새로운 것을 필요로합니다

그래서 그것이 우리가 다른 시스템을 도입하기로 결정한 곳이며 시스템은 Hadoop은 이제 Hadoop을 다음과 같이 생각합니다 매우 큰 데이터웨어 하우스로서의 매우 원유가 많은 조잡한 방식으로 데이터를 가져올 수 있습니다 어디서나 쉽게 단일 마스터를 호스트 할 수 있으며 이론적으로 수십 개의 수천 개의 노드 또한 두 가지 서비스를 제공합니다 저장소 및 프로세스이므로이 사람 전통적인 데이터베이스 및 기타 소스에서도 데이터를 가져올 수 있습니다

이제이 사람 데이터를 저장하고 데이터를 처리 할 수 ​​있습니다 하둡을 누군가로 생각하십시오 일반적으로 많은 데이터를 저장하고 처리하기 위해웨어 하우스를 보완합니다 이제 최종 처리가 완료된 후에 데이터를 저장하고 처리합니다 그 마지막 물건을 창고에 넣을 수 있습니다

분석 도구를 사용하면보고 도구에 직접 연결할 수 있습니다 또한 가능한 사람들은 당신의 패턴을 기반으로 당신이 정말로 당신이 무엇을 선택할 수 있습니다 Hadoop의 아이디어입니다 그래서 모든 데이터를 한 곳에서 처리하고 처리합니다 웨어 하우스에로드하거나 직접보고 도구에 연결할 수 있습니다

이 인스턴스를 오라클에로드하면 다른 인스턴스가됩니다 추천 엔진 그래서 우리가 가진 모든 근원에서 이런 식으로 생각하십시오 우리는 아이폰을 사는 사람들의 85 %가 스크린을 원한다는 것을 알았습니다 경비원과 아이폰을 사는 81 명도 뒤 표지를 샀다

이제 한 번 우리는 Hadoop 내에서 이것을 배울 수 있습니다 Oracle에 다시로드 할 수 있으며 다음 고객이 우리 전자 상거래 사이트에 오면 언제든지 iPhone을 구입하여 스크린 가드와 백 커버를 구입하여 Hadoop을 생각해보십시오 매우 큰 데이터 저장소로 데이터를 저장하고 데이터를 처리 한 다음 당신이 좋아하는 방식으로 그것을 사용할 수 있습니다 그래서 저는 Hadoop이하는 일에 대해 모든 사람들이 분명히 희망하기를 바랍니다

그러니 내가 앞으로 나아갈 수 있도록 빨리 확인해주세요 좋아, 램이 분명하다는 것도 확인해 줬어 앤도 마찬가지야 좋아, 모두의 것 같아 좋은

이제 사람들은 하둡의 스토리지 및 프로세싱 부분을 이해하게 될 것입니다 하지만 프로세스의 이름을 거치지 않고 우리가 전체 이해를 가질 것이기 때문에 작은 이야기 그래서 이것은 타마 컨설팅 서비스의 CEO 인 카일 라쉬 (Kailash) 전 세계 150여 개 국가와 지역에 회사가 있습니다 회사를 사랑했습니다 그래서 어제이 회사의 페이스 북 페이지는 10 억 좋아, 이제는 CEO가 거대한 대시 보드를 만들고 싶어

전체 지구본 및 각 국가의 마우스를 가져다 대면 얼마나 많은 사람들이 좋아하는지 표시합니다 그 나라 이제이 작업은 프로젝트 인 Ajay에게 할당됩니다 그는 4 일 동안 대시 보드를 만들 예정입니다 이제하자

Ajay가 이것을 위해 Hadoop을 사용하려고하며 Ajay가 두 팀원을 보유하고 있음을 확인하십시오 MrAdmin과 Mr Developer 이제 Ajay가 말합니다

MrAdmin 하둡 클러스터를 설정하고 개발자에게 알려줍니다 그가 대시 보드 전체를 개발하기로되어 있다고 들어 보았습니다 지금 당장 일어난다 그래서 첫 번째 관리자가 오면 그는 5 대의 기계를 구입하고 하나는 마스터되고 4 명은 노예가 될 것이라고 결정합니다

그래서 Mr Mr 관리자 가 작동하게되었고 그는 하나의 마스터와 4- 노드가있는 5 노드 클러스터를 설정하고 있습니다 노예와 하둡은 모두 저장과 가공에 관한 것입니다 저장소 마스터라는 누군가를 설치하고 마스터에 다시 설치합니다

처리 마스터를 설치합니다 이제 그는 노예에 스토리지 노예와 슬레이브를 처리하여 모든 노예에게이 작업을 수행합니다 이제 관리자가 제프 보스에게 알려줍니다 설정이 진행되고 데이터를 수집하고 프로그램을 작성합니다 이제 Ajay가 호출합니다

개발자 Mr 그리고 Mr 개발자는 계속해서 데이터를로드하고 코드 그래서 개발자는 페이스 북이 JSON으로 파일 크기는 약 640MB입니다 따라서 저장소 마스터에 파일을 쓸 때 실제로 128 MB의 블록으로 세분화됩니다

따라서 640을 128로 나눈 값은 5 블록을 의미합니다 각 블록은 세 번 복제됩니다 그래서 그것이 15 블럭이됩니다 좋아요 Deepak의 질문이 있습니다

그는 왜 블록이 세 번 복제되었는지 묻습니다 좋은 질문입니다 그래서 우리는 실제로 결함의 개념을 가지고 있습니다 Hadoop의 내성 원래 블록이 손상 되더라도 블록을 두 개 더 복사하면 데이터를 검색 할 수 있으며 이것이 Hadoop을 만듭니다 신뢰할 수 있습니다 그래서 당신 질문 인 Deepak에 대답합니까? 좋아, 디팍이 좋다

이제 원본 파일의이 15 개의 블록이 서로 다른 슬레이브 노드가 있으므로이 블로그 중 네 개가 첫 번째 노드에 저장되어 있다고 가정 해 보겠습니다 노예 두 번째 노예는 4 명, 세 번째 슬리브는 4 명, 두 번째 및 세 명은 마지막 것 이제 데이터가 준비되었습니다 그것은 이미 블록으로 분해되었지만 스토리지 마스터의 경우 메타 데이터 만 갖게됩니다

그래서 메타 데이터는 다음과 같이 보입니다 이제 FacebookJSON은 1 2 3 4 5 차단하고 블록 1은 슬레이브 1 2에 있습니다 세 개, 두 번째 블록은 두 번째 세 번째 블록과 네 번째 블록에 있습니다 무엇이 메타 데이터에 저장되어 있는지

스토리지 마스터에는 아무런 문제가 없습니다 마스터는 메타 데이터 만 저장하고 전체 데이터는 저장하지 않기 때문입니다 지금 그 이유 때문에 메모리가 아무리 큰 파일 일지라도 문제가되지는 않습니다 당신은 메타 데이터에 대해서만 이름 노드의 메모리를 사용하지만 원본 데이터 실제로 슬리브에 기록됩니다 아줌마들, 너에게 단순하게 해줄거야

예를 들어, 우리가 볼 수있는 것은 프로젝트 관리자입니다 이 팀은 이제 프로젝트 관리자가 사람들이하는 일이 무엇인지 알지만 모든 작업이 실제로 슬레이브에 의해 수행되므로 관리자가 병목 현상이없는 것입니다 여기에 어떤 데이터가 어디에 저장되어 있는지 알 수있는 능력도 없습니다 어느 매니저가 아무 것도하지 않는 곳에서 실행중인 작업 메타 데이터 이제 좋아요 데이터가 저장되면 데이터가 표시됩니다

그것을 저장 영역에 썼고 모든 데이터가 퍼져 나갔다 이제는 개발자가 앞서 가서 프로그램을 쓴다 국가 별 좋아요 수를 찾으려면 프로그램 이름이 Java 프로그램 이제이 Java 프로그램이 제출되어 처리 마스터가됩니다 모든 컴퓨터에이 코드를 복사합니다 이제 마스터는 기본적으로 알맞을 것입니다

너 네 개의 슬리브가 하나의 블록을 처리하고 두 개의 블록을 처리합니다 너에게 노예가 너에게 노예가 너를 노예처럼 너에게 처리 블록 3 세 및 프로세스 블록 네 당신과 노예에 대한 로컬 프로세스입니다 당신에게 국부적으로 싸우는 블록 싸움은 당신의 사업을 국부적으로 네트워크와 작업이 완료되어야하고 최종 출력을 얻을 수 있습니다 보고 도구에 직접 표시하거나 창고 및 분석 기능을 수행하므로 Hadoop이 실제로 이러한 방식으로 작동합니다 지금 Hadoop입니다

이제 지금까지 우리는 hulu가 두 가지 서비스를 제공한다는 것을 알았습니다 프로세싱을 제공하여 스토리지를 제공하는 팀을 HDFS라고하며 팀 이것이 MapReduce를 마스터 처리하기 때문에 다시 처리 할 수 ​​있습니다 마스터와 HDFS가 이름 노드로 호출되고 슬리브가 다음과 같이 호출됩니다 MapReduce의 데이터 노드는 마스터가 작업 추적자로 불리고 슬리브가 tasktracker 간단한 물건으로 불리는 삶은 여기에 매우 쉽습니다 이제이 특별한 설정에는 당신이 쓸 수있는 매우 심각한 제한이있었습니다 MapReduce의 프로그램을 좋아하든 좋아하든 쓸 수 있습니다

프로그램 만 MapReduce 또는 MapReduce에서 실행되는 다른 프레임 워크이지만 다른 것을 가질 수 있으므로 간단한 예를 들어 봅시다 내가 평신도라는 것을 보자 적절한 리 남자처럼 지금 내 아이폰 나쁜 나무에 문제가있다 그래서 난 그냥 새 배터리를 구입하고 내 아이폰에 넣어 그래서 정상적인 사람이 들어갈 수 있습니다 상점과 아이폰을위한 배터리를 구입 분명히 옳지 않아 이것은 애플은 당신이 내 전화기를 사용하고 싶다면 내 전화기 만 사용해야한다고 말한다 배터리가 마음에 들거나 좋아하지 않는다면 배터리와 플러그를 구입할 수 없습니다 당신이 Hadoop을 사용하고 싶었던 것과 매우 비슷하게 전화에 넣었습니다

친구는 그것을 사용하지만 당신은 Maya에서 자신을 표현해야합니다 이는 매우 심각한 한계이며, 이것이 하둡 (Hadoop) 원 포인트로 불리는 이유입니다 X하지만 당신이 정말로 원했던 것이 더 나은 것이 었습니다 그래서 우리는 거기에 MapReduce 대신 저장소가 있지만 다른 버전의 Hadoop 리소스 관리자와 노드 인 새로운 구성 요소 충돌이었습니다 매니저가 지금 원사가 어디에서 할 것인가? 나는 누구에게나 자원을 줄 것이다 MapReduce plunk or storm 하둡 (Hadoop)의 한 지점에서 MapReduce가 유일한 주일뿐입니다

Hadoop에서 MapReduce가 X를 가리키고있는 방법 중 하나입니다 이것을 Hadoop의 한 지점에 집중하십시오 X MapReduce만이 유일합니다 우리는 Hadoop에서 두 포인트 X MapReduce를 사용하는 방법 중 하나입니다 모든 약 2 점 X와 우리는 전혀 한 점 X에 대해 논의하지 않을 것입니다

내가 IX의 한 가지 점을 설명한 이유는 내가 좋은 것을 설명 할 수 있기 때문이다 우리가 나쁜 건강을 설명하고있는 건강은 아마 그렇게 힘들어 질 것입니다 마찬가지로 X 점을 설명해야만한다면 먼저 X 점 하나를 보여 주어야합니다 저기서의 심각한 한계와 그것이 내가 두 점 X를 가져올 때입니다 두 포인트 X는 기본적으로 귀하의 성별 주름 소스 관리자입니다 리소스가 필요한 모든 사람들이 리소스를 제공하므로 X를 실제로 가리키는 방법 인 작업을 수행하십시오

이제는 Hadoop의 처리 능력으로 X를 가리키며 여기서 Y는 마스터를 나타냅니다 자원 관리자라고 불리는 우리는 또한 잠자기 상태에서 전자를 가지고있어서 내 기억 장치 층이 남아있다 DITA를 쓰고 처리 한 것과 거의 같지만 일을 제출하면됩니다 Yancy에게 Yancy에게 안녕하세요, MapReduce를 실행하는 방법을 모르겠지만 앱 마스터로 불리는 사람이 나를 위해 MapReduce를 할 수 있으므로 리소스입니다 매니저 나는 사람들에게 자원을 제공한다

나는 어떻게 처리해야할지 모르지만 나는 앱 마스터로 불리는 다른 사람을 알면 그는 그 일을 할 것입니다 이제 얀은 이제 누군가가 잠자기 할 때 앱 마스터를 초기화 할 것입니다이 앱 마스터는 다음과 같습니다 기본적으로 처리되는 사람은 일을 할 것이므로 누가 그 일에 책임이 있는가? 그것은 앱 마스터들입니다 그래서 얀 마스터는 헤이 앱 마스터를 봅니다

나는 당신을 위해 새로운 직업을 가지고 있습니다 왜 그렇게하지 않는가? 지금은 앱 마스터가 좋다 Gurion 마스터 NC 보스 당신이 나를 위해 일을하고 싶다면 나에게 다음과 같은 것들을주세요 그래서 슬리브에 두 자원을 하나 소매에 하나의 자원을 두 자원에 슬리브 3 개 및 슬리브에 하나의 리소스가있는 이유는 데이터 지역이 중요한 것은 마스터에게 보이고, 알았어 리소스와 마스터를 가져 가라 전진 할 수 있고 모든 곳에서 일을 해낼 수 있습니다

그래서 여기의 아이디어는 실 마스터입니다 이것이 자원을 제공하는 직업을해라 그래서 이것은 당신을위한 원사이다 이 모든 세부 묘사가 한 점에서 중요하다면 더 많은 것 X MapReduce는 두 점 X에서 유일한 방법입니다 Maya는 그 중 하나를 생산합니다

그렇다면 왜 그렇습니까? 인생에서 더 많은 옵션이 필요하기 때문에 우리는 두 점 X에 가야합니다 그 사람들처럼 나는 아주 간단한 예를 들어 줄 것이다 그래서 이것은 회사라고 불린다 발 팬더 그래서 음식 팬더는 지금 당신을 위해 발 배달을하는 회사입니다 당신은 피자 헛 (Pizza Hut)에 전화를 걸 수 있습니다 당신은 정말 좋아하는 나머지 서랍에서 주문할 수 있습니다

발 바지 레슨을 보는 방법 나는 발을 들이지 않지만 항상 음식을 제공 할 수 있습니다 사람들에게 서비스를 제공하여 원하는대로 주문할 수 있습니다 Hadoop의 전체 풍경과 건축 작업에 대한 설명 관점은 회의에 참석해 주셔서 감사합니다 다음 수업에서 영화 보러 주셔서 감사합니다 질문이 있으시면 아래에 답변 해 주시면 최대한 빨리 답변 해 드리겠습니다

가능하면 텔레 패스 채널에 가입하여 계속 유지할 수 있습니다 당신은 또한 갈 수있는 최신 기술에 대한 자신의 업데이트 기타 관련 미리보기 및 oculus 및 자세한 내용은 당사 웹 사이트를 방문하십시오 계속해서 학습을 향상시킨다 오

SAP HANA Training | SAP HANA Tutorial For Beginners | SAP HANA Architecture | Intellipaat

안녕하세요 다른 동영상으로 돌아 오신 것을 환영합니다

Intellipaat 오늘의 비디오에서 우리는 SAP HANA 이 비디오의 의제는 다음과 같습니다 1 SAP HANA 란 무엇입니까? 2 SAP HANA 고유 기능은 무엇입니까? 3

Sapa HANA 대 전통적인 데이터베이스 4 SAP HANA는 어디에서 사용할 수 있습니까? 5SAP HANA 유스 케이스 6 SAP 한나 채용 동향 SAP HANA는 정확히 무엇입니까? SAP HANA는 선도적 인 기술로 진화하고 있습니다 플랫폼을 제공합니다

이 통합 된 IT 시스템은 서버에서 실행되며 실시간으로 데이터를 처리하여 운영을 제공합니다 텍스트 분석 및 예측 분석과 같은 통찰력 SAP HANA는 또한 분석 된 데이터를 시각화하는 기능을 제공합니다 SAP는 재무 분석에서 제품에 이르기까지 모든 것을 수행하는 애플리케이션 제품군을 보유하고 있습니다 개발이지만 IT 부서는 특정 목표를 염두에두고 자체적으로 만들 수도 있습니다

그래서 그것을 탐험 해 봅시다 우리가 MS-SQL을 서버는 전통적인 RDBMS 데이터베이스이므로, 주요 구성 요소는 다음과 같습니다 CPU, RAM 및 디스크 Customer_Name의 4 개 열로 된 20 억 개의 데이터를 포함하는 테이블이 있고, 제품 _ 이름, 수량 및 금액 전통적인 RDBMS에서이 테이블은 디스크에 위치 할 것이고 데이터는 저장 될 것입니다 파일 시스템 형식의 형태로

이제 비즈니스가 상위 50 위 고객을 확보해야한다는 요구 사항이 있다고 가정 해보십시오 그들에게 할인 쿠폰을 제공합니다 정기적 인 RDBMS 서비스에서이 쿼리를 해결하기 위해 첫 번째 CPU가 쿼리를 트리거하고 그것을 RAM에 전달하여 데이터를 CPU로 가져옵니다 그러면 CPU가 디스크에 요청을 보냅니다 디스크는 모든 20 억 데이터 레코드를 검색하고 결과를 배치 단위로 RAM에 보냅니다

그러면 RAM이 결과를 CPU에 전달합니다 이 20 억 개의 데이터를 처리하는 데 얼마나 많은 시간이 걸릴지 알고 있습니까? 이 간단한 쿼리를 실행합니다 약 1 ~ 2 시간 그러나 SAP HANA에서 동일한 테이블 및 동일한 데이터를 가진 동일한 쿼리를 실행하면 약 1 ~ 2 초 아시나요, 왜 SAP HANA에서 성능 향상이 그렇게 많이 일어나고 있는지 알고 계십니까? 디자인 덕분입니다

SAP HANA는 인 메모리 컴퓨팅 엔진, 열 기반 데이터 저장소, 대규모 병렬 처리 데이터 고성능을 제공하는 데이터 압축 복잡한 데이터 저장소의 실시간 컴퓨팅 분석 따라서이 모든 기능에 대해 자세히 논의 할 수 있습니다 이 예에서 실행하는 것으로 보았 듯이 약 1-2 시간이 걸렸습니다 높은 컴퓨팅 장치가있는 경우에도 약 45 분이 소요됩니다 1 시간 이는 쿼리 실행에 소요되는 시간의 90 %가 읽기, 페치 기기 간 통신 및 처리 및 프리젠 테이션에 소요 된 시간은 불과 10 %였습니다

데이터 그리고 여기에서 각 행과 열을 스캔해야합니다 그래서이 문제를 극복하기 위해 SAP HANA의 설계가 변경되었으며 In Memory 플랫폼을 기반으로합니다 여기서 디스크는 RAM 내부에 배치되므로 20 억 데이터 특수 설계된 RAM에서 사용할 수 있으며 특수 설계된 통합 CPU 따라서 쿼리가 SAP HANA 상자에서 실행되면 RAM 내부에서 실행되므로 디스크와 같은 장치 간의 통신에 소모되는 시간을 피할 수 있습니다

및 데이터는 모두 RAM 내부에서 사용할 수 있으며 특수 설계된 통합형 CPU는 RAM과 CPU 사이에서 너무 많은 시간을 소비하므로 무시할 수 있습니다 그리고 모든 데이터가 RAM 내부에서 사용 가능하므로 처리 및 실행 쿼리가 매우 빠릅니다 따라서이 메모리 내 데이터베이스는 왜 메모리 내 데이터베이스에 완전한 향상이 있는지 이유 중 하나입니다 SAP HANA의 성능 이제 Disk가 왜 필요한지 궁금 할 것입니다

우리가 알고 있듯이, RAM은 비 휘발성 메모리로, 전원이 차단되면 아무 것도 의미하지 않습니다 "RAM"에 포함 된 데이터가 손실됩니다 따라서 우리가 가지고있는 데이터의 백업을 원한다면 디스크를 얻고 전원이 다시 공급되면 데이터가 RAM에 다시로드되고 처리가 수행 될 수 있습니다 이제 다른 기능을 살펴 보겠습니다 SAP HANA, 즉 Columnar Database의 성능을 향상시킵니다

데이터에서 알 수 있듯이 파일 시스템 형식의 형식으로 저장되지만 여기서 칼럼 형식 데이터베이스에는 "데이터"가 저장됩니다 행 대신 열 이유를 이해합시다 여기서 우리는 동일한 20 억 테이블 데이터와 전체 데이터베이스를 취할 것입니다 크기는 약 10GB입니다

행 저장 개념에서와 같이 CPU 연속 메모리 위치에 저장됩니다 John / Pen / 1 / 10 그러면 두 번째 행이 계속됩니다 마지막 행이 저장 될 때까지 Mary / Pencil / 2 / 20 등 또한 SAP HANA에서는 테이블 레코드를 열 순서로 저장합니다 열의 엔트리는 John, Mary, 하나의 파일에, Pen, Pencil 등등 다른 파일에 있습니다

더 명확하게하기 위해 먼저 Get Top Top 50에 대한 쿼리가 있다고 가정 해 봅시다 Customer_Name 및 Amount 열만 필요한 고객 행 저장소 개념에서는 첫 번째 행, 첫 번째 열 매 20 억 개의 모든 레코드에 매번 하나씩 데이터베이스 10GB 여기에 우리가 제품 이름과 수량 열을 스캔하고 싶지는 않지만 여전히 스캔 모든 데이터에서 일어나고 있습니다 데이터를 저장하는 SAP HANA에서 동일한 쿼리를 수행하는 경우 여기서 열 데이터는 다른 파일로 분리됩니다

따라서 Customer_Name 열 파일 및 Amount 열만 처리합니다 파일 전통적인 RDBMS에서 전체 테이블을 스캔했는데 이는 SAP에서와 같이 완전한 10GB 데이터베이스를 의미합니다 HANA는 4GB 데이터를 읽을 수있는 열을 2 개만 읽습니다

57 % 증가하고 쿼리 성능이 최대 5 배 향상되었습니다 이제 우리는 또 다른 중요한 기능을 살펴볼 것입니다 데이터의 방대한 병렬 처리입니다 SAP HANA를 사용하면 여러 데이터를 병렬로 지원하므로 여러 데이터를 처리 할 수 ​​있습니다 처리는 효과적인 데이터 분석의 중심입니다

SAP HANA는 수행 할 수있는 것을 활용하여 원주 형 데이터 저장을 지원합니다 인접한 메모리 위치에있는 배열의 루프에서 다양한 작업을 수행 할 수 있습니다 특정 레코드를 검색하고 데이터를 결합하는 등의 작업을 수행합니다 예를 들어, 카드를 분류 할 카드가있는 바구니를 받았다고 가정 해 봅시다 양복들

혼자서이 GROUP BY 수트 쿼리에 응답하는 데 1 시간 정도 걸릴 수 있습니다 바구니를 4 등분으로 나누어 카드를 배포 한 경우 4 명에게 바구니를 나누기 위해 쿼리에 15 분과 1 분이 소요될 수 있습니다 분을 눌러 병합합니다 바구니의 크기가 두 배로 늘어나면 쿼리 시간은 30 분 플러스가됩니다 사람 수가 많아지면 15 분 내에 응답을 유지할 수 있습니다

즉, 병렬 처리의 수준은 직접적이고 즉각적인 방법 마찬가지로 4 분이 걸리는 쿼리를 실행하려면 하나의 프로세서이지만 4 개의 프로세서를 사용하여 완료하는 데 단 1 분이 소요됩니다 둘 이상의 열을 검색하여 병렬 처리로 결합하는 것도 고려할 수 있습니다 컬럼은 공정 속도를 높이고 운반하기 위해 여러 부분으로 나뉘어져있다 한 열에서 병렬로 작업을 수행하면 각 열은 다양한 프로세서 코어

SAP HANA의 다음 중요한 기능 데이터 압축입니다 정규 RDBMS에 20 억 개의 레코드 데이터 세트 테이블을 저장할 때 크기가 어떻게됩니까? 대략 10 GB 정도가되어야합니다 동일한 데이터 세트로 동일한 테이블을 저장할 때 SAP HANA에서 약 1GB가 될 것입니다 왜 이것이 10 % 원래 금액 SAP가 일반 RDBMS에서 SAP HANA 데이터베이스로 데이터를 이동할 때마다 데이터 압축은 서로 다른 압축 기술을 사용하여 이루어지며 원래 데이터의 약 7 %에서 10 %로 줄어들 것입니다

10GB 데이터는 약 압축됩니다 ~ 1GB 실시간 시나리오 에서처럼 테라 바이트와 페타 바이트로 엄청난 양의 데이터가있을 것입니다 SAP HANA는 특별한 기업이므로이 테라 바이트와 페타 바이트의 데이터를 SAP HANA에 넣을 수는 없습니다 설계된 하드웨어이므로 일반 메모리보다 비쌉니다

개념 우리는 모든 데이터를 RAM에 저장해야하므로 여기 테라 바이트가 필요한 모든 데이터를 저장해야합니다 매우 비쌀 페타 바이트 RAM이 필요합니다 SAP가 10GB의 데이터 압축 기능을 추가 한 이유 다양한 압축 기술을 통해 구현됩니다 그 중 중요한 기술 중 하나가 사전 인코딩입니다 FirstName 열이 있고 우리가 정의한 테이블을 생각해 봅시다

이 테이블은 varchar (50)입니다 즉, 각 행의 첫 번째 이름에 대해 50자를 예약한다는 의미입니다 기존 RDBMS에서 1 천만 행의 데이터를 50 문자를 예약합니다 1 천만 번, 2 천분의 1 비트로 50 비트로 디스크의이 공간을 차지합니다 SAP HANA에 동일한 열을 넣으면 SAP HANA가 동일한 열을 나눕니다

첫 번째 열 데이터 형식이 정수이고 다른 열의 데이터 형식이 정수가 될 2 열로 Varchar의 데이터 유형이 50입니다 여기서 Varchar 50은 연구에서와 마찬가지로 이름의 고유 한 가치를 포함합니다 이름의 10 % 만 별개이고 다른 하나는 동일하다는 것을 의미합니다 1 천만 건의 데이터 중에서 Varchar에 저장되는 고유 한 이름은 백만 가지입니다 열에 다른 위치에 메모리 위치가 있습니다

우리가 FirstName 메모리 위치 테이블에서 볼 수 있듯이, John 메모리 위치 23 일, Mary 메모리 위치는 45이고 Peter 메모리 위치는 60이므로 정수 테이블 요한에게는 1, 23은 마리아, 23은 요한, 26은 피터 등입니다 그래서 여기에 우리의 천만 가지 레코드가 정수 형태와 1 백만 가지 형태로 저장됩니다 이름 그래서 우리가 정수 값으로 계산하는 경우 2 바이트를 포함하므로 4 비트를 의미합니다 10 만, varchar 열에는 1 백만 데이터가 있습니다

이는 1을 의미합니다 50 만분의 2 비트로 즉, 정규 RDBMS에서 총 1 억 비트의 데이터가 있음을 의미합니다 SAP HANA에서는 4 백만 비트의 데이터와 1 억 데이터의 비트가 합계로 10400 만 비트이므로 1000을 비교할 때 백만 비트가 1 억 4 백만 비트이므로 원본의 약 10 %입니다 데이터 이제 SAP HANA가 어떻게 다른지 살펴 보겠습니다

전통적인 데이터베이스에서? 우리는 비즈니스에서 모든 것을 알고 있습니다 Suite는 ERP, CRM 및 SCM과 같은 완전히 통합 된 응용 프로그램 세트로 기업 핵심 비즈니스 기능을 실행합니다 여기에 모든 작업 응용 프로그램이 여기에 통합되어 있으며 이러한 모든 응용 프로그램이 생성됩니다 많은 데이터와이 데이터에 대한 액세스 권한은 쉽지 않으므로 ETL을 추출하고 변환 및로드 도구를 사용하여이 데이터를 다른 데이터베이스로 이동하고이 데이터베이스를 호출합니다 ODS – 운영 데이터 저장소로

이제 우리의 모든 데이터가 ODS로 옮겨져 영향을주지 않고 모든 데이터를 평가할 수 있습니다 우리의 비즈니스 스위트 좋습니다 이제 문제는 데이터 저장소에서 우리는 많은 정보를 갖고 싶어하지 않는다는 것입니다 모든 세부 정보를 확인하십시오

아마도 몇 년 또는 다른 치수 이제이 데이터를 요약 할 수있는 무언가가 필요합니다 집계 집계를 통해 요약 정보에 액세스 할 수 있습니다 그러나 빠른 액세스를 위해 많은 집계를 가질 가능성이 높습니다

우리는 Indexes를 구축해야하지만, 여전히 우리는 데이터에 없기 때문에 복잡한 키 성능을 정의해야하므로 복잡한 계산 이러한 계산은 핵심 성과 지표를 정의하는 데 도움이됩니다 이제 데이터웨어 하우스를 실행할 준비가되었습니다 아래의 모든 내용을 통해 우리는 매우 큰 큐브를 구성하여 데이터를 저장하고 그것은 데이터웨어 하우스 또는 비즈니스웨어 하우스입니다 그러나 문제는 우리 부서가 다르다는 것입니다

다른 사람과 HR은 다른 사람과 함께 사용하므로 사용자 정의 데이터를 빌드해야합니다 데이터 마트 여기에 더 큰 큐브에서 더 작은 큐브를 만듭니다 이를 통해 우리는 서로 다른 보고서를 사용할 수 있다는 보고서를 작성할 준비가되었습니다 tableau, SAP Business Objects, Pantaho 등과 같은 도구를 사용하여 대시 보드를 만들 수 있습니다

통찰력을 봐 멋지다! 환경에 훌륭한 도구가 있지만이 설정의 문제는 다른 비즈니스 스위트를 추가하려는 것처럼 요구 사항에서 변경이 발생하거나 우리는 스택에서 무엇이든지 바뀌 었습니다 무슨 일이 일어 났는지 보죠? 완전한 환경은 붕괴 될 것입니다 이것은 전체 환경이 충분히 강하지 않았기 때문에 일어 났으며 그 이유는 비록 우리가 좋은 도구를 가지고 있음에도 불구하고 너무 복잡했다 그러나 우리는 그것을 유지할 수 없다

기업들은 위기에 처할 것입니다 이 문제를 극복하기 위해 SAP HANA를 사용할 수 있습니다 따라서 SAP HANA의 작동 방식은 다음과 같습니다 비즈니스 응용 프로그램 및 Business Suite에 대해 알고있는 것처럼 우리가 Business Client를 가지고 있다는 것에 대한 트랜잭션 및 운영 데이터 Business Suite에 액세스 할 수 있습니다 이제는 SAP HANA 플랫폼이 그림으로 나오고 우리는 다음으로 설정했습니다

비즈니스 스위트 이를 통해 비즈니스 스위트에서 전환 데이터를 선택할 것입니다 실시간으로 기본으로 SAP HANA 플랫폼으로 복사하므로 동일한 테이블 복제 세트를 갖게됩니다 비즈니스 스위트와 SAP HANA 모두에서 이를 통해 수익성과 같은 일부 전환을 가속화 할 수 있습니다 분석 (CO-PA) 또는 재무 회계 (FI-CO)를 사용하여이를 액셀러레이터라고합니다 SAP HANA의 빠른 시작입니다

필요할 때마다 액셀러레이터를 전환 할 수 있습니다 SAP HANA에서는 가속기를 사용하여 필요한 정보를 복사합니다 Accelerator는 필요시 SAP Hana 플랫폼으로 전환을 리디렉션합니다 가속화 된 방식으로 SAP HANA 플랫폼에서 얻을 수있는 흥미로운 점 중 하나는 SAP HANA 플랫폼 상단에 필요할 때 언제든지보고 할 수 있습니다 우리는 Accelerator를 보유하고 있으므로 언제든지 신속하게보고 할 수 있습니다

여기서 더 나아갈 수 있습니다 데이터웨어 하우스가 전통적인 시스템 우리가 그걸 어떻게해야합니까? 여기서는 SAP HANA 플랫폼에서 실행하고 밑줄을 긋습니다 데이터웨어 하우스는 SAP HANA 플랫폼이됩니다 이제 데이터웨어 하우스 / 비즈니스웨어 하우스가 SAP HANA 플랫폼에서 실행되고 있으며 SAP HANA 플랫폼에서 비즈니스 스위트를 실행할 수 있습니다

그리고이 설정의 가장 중요한 부분은 우리가 직접 실행할 수 있다는 것입니다 비즈니스 클라이언트는 SAP HANA 플랫폼의 상단에 있습니다 따라서 모든 트랜잭션은 SAP HANA 플랫폼에서 원활하게 실행되며 쉽게 실행할 수 있습니다 SAP HANA 플랫폼에 대한보고 또한 사전 데이터 마이닝을위한 기능을 제공하며 예측 적 알고리즘을 SAP HANA 플랫폼 위에 추가합니다

이는 SAP HANA가 메모리에 있음을 보여 주지만 병렬 처리도 제공하므로 SAP HANA 플랫폼에서 모든 복잡한 알고리즘을 직접 실행할 수 있습니다 또한 최상위 SAP HANA 플랫폼에서 <Click Event> 모바일 애플리케이션을 구축 할 수 있습니다 우리의 데이터에 신속하게 액세스하십시오 특정 산업 응용 프로그램 SAP HANA 플랫폼의 최상위에서 실행할 수도 있습니다 SAP HANA는 어디에서 사용할 수 있습니까? 어디서나 많은 양의 데이터 SAP HANA를 구현할 수 있습니다

일부 지역은 항공 우주, 국방, 자동차, 금융, 소매, 건강 관리, 통신, 보험과 더 많은 데이터 사용이 실시간 경험을 필요로하는 모든 기능 영역에 적용 가능합니다 이제 우리는 유명한 용도 중 하나를 살펴볼 것입니다 SAP HANA의 경우 아시나요,보다 폰은 세계에서 가장 약 30 개국에서 운영되는 최대 통신 회사 및 네트워크 파트너 50 개 이상의 국가에서 모바일, 유선 및 광대역 서비스를 제공합니다

경쟁 증가 및 통신 환경의 악화로 매출이 감소했습니다 및 마진 이 시장에서 경쟁하기위한 노력의 일환으로 통신 회사들은 관세와 서비스는 물론 더 많은 복잡성과 데이터를 창출한다 따라서 어느 고객과 어떤 관세가 공헌하고 있는지를 판별하는 것이 점차 어려워지고 있습니다 긍정적 또는 부정적으로 어떤 핵심 요소 또는 요소를 차별화하는지 다른 사람들로부터 이 수익 누출은 관세 오용, 고객 할인 쌓기, 수익성에 대한 이해 부족 개인 고객 및 관세에 대한 그러나 SAP HANA를 통해 Vodafone은 여러 데이터 소스의 모든 데이터를 분석 할 수 있습니다 실시간으로 제공되며 위의 문제를 해결할 수있는 솔루션을 제공합니다

Vodafone을 통해 고객 수익성에 대한 상세한 뷰 확보 및 ARPU (Average Revenue Per User) 중요성을 제공하기 위해 신속한 세부 분석 기능 제공 가치를 창출하십시오 Vodafone으로 하여금 수 천만개의 이전에 확인되지 않은 것을 식별 할 수있게 함 수익 누출 모든 사람에 대한 실시간 시각화 및 반복 분석 기능 제공 데이터 (초 / 분 단위가 아닌 주 단위) 수십억의 마진 드라이버 조합 (분 단위 – 현재 현재 불가능 환경에 막대한 투자를하지 않아도됩니다) 비즈니스 프로세스와 적절하게 통합되는 산업별 애플리케이션 이제 SAP의 채용 동향을 살펴 보겠습니다

하나 전문가들은 SAP HANA가 최고를 보장한다고 말합니다 경력 성장 SAP는 HANA를 전체 응용 프로그램의 플랫폼 및 데이터베이스로 출시했습니다 기능을 제공합니다

최근 SAP HANA 경험이있는 지원자는 가장 높은 봉급으로 지급됩니다 SAP Consultants의 평균 급여는 "연간 약 98,541 달러 Enterprise Architect에 대한 SAP 컨설턴트의 연간 136,814 달러 그래서 우리는이 비디오의 끝으로갑니다 여기서는 SAP HANA의 정의와 처리 방법에 대해 알아 보았습니다 실시간 통찰력을 제공하는 실시간 데이터 그런 다음 고유 한 기능과 설계 방법을 살펴 보았습니다

나중에 SAP HANA가 기존 데이터베이스와 어떻게 다른지 살펴 보았습니다 우리는 또한 SAP HANA가 어디에나있는 것을 보았습니다 그런 다음 SAP HANA를 사용하여 Vodafone에서 모든 데이터를 분석하는 방법을 살펴 보았습니다 여러 데이터 소스를 실시간으로 분석하고 문제를 해결할 수있는 솔루션을 제공합니다 그런 다음 SAP HANA의 경력 성장을 살펴 보았습니다

SAP HANA에서 커리어를 가속화하기 위해, Intellipaat에서 SAP HANA 온라인 교육에 가입하십시오 우리는 당신이 배우는 데 도움이되는 최고의 온라인 수업을 제공합니다 : SAP HANA 인 메모리 컴퓨팅, HANA Studio 개발 및 관리, SAP의 데이터 프로비저닝 SAP의 HANA, ABAP 프로그래밍 HANA, SAP HANA 데이터 모델링 고맙습니다!

What is SAS Programming | SAS Certification | SAS Tutorial | Intellipaat

안녕 얘들 아, Intellipaat의 또 다른 흥미로운 세션에 오신 것을 환영합니다 우리는 SAS가 무엇인지 이해함으로써 시작합니다

그런 다음 몇 가지 응용 프로그램을 살펴 봅니다 SAS 프로그램 구조를 살펴보고 마지막으로 우리는 데모 부분으로 넘어가십시오 그렇다면 SAS는 무엇입니까? 그것은 분석 도구입니다 그래서 SAS는 기본적으로 "통계 분석 시스템"의 약자입니다 SAS의 도움으로 다양한 분석 작업을 수행 할 수 있습니다

"시계열 분석", "예측 모델링"및 "데이터 관리" SAS는 시각화 도구이기도합니다 SAS 덕분에 아름다운 그래프를 만들 수 있고 놀라운 대시 보드를 만들 수 있습니다 분석 된 데이터를 나타냅니다 이제 SAS가 정확히 무엇인지 이해 했으므로 이제 그 응용 프로그램 중 SAS는 금융 분야에서 광범위한 응용 프로그램을 보유하고 있습니다

은행, 신용 조합 및 기타가 제공하는 대출에 대한 "신용 위험"계산에 사용됩니다 FinTech 회사 SAS는 또한 트랜잭션을 지속적으로 모니터링함으로써 사기 예방에 사용될 수 있습니다 실시간 의사 결정을 가능하게하는 행동 분석을 적용합니다 현재 SAS는 의료 분야에서 사용되고 있습니다 다양한 데이터 소스를 분석하여 잠재적 인 문제가 현실화되기 전에 식별 환자 안전 신호를 예측하고 의학적으로 조사합니다

또한 다양한 조건에서 환자 치료에 대해보다 포괄적 인 시각을 얻는 데에도 사용됩니다 방대한 양의 구조화 및 비정형 임상 데이터를 분석하여 절차를 수행합니다 SAS는 자동차 산업에서도 사용됩니다 "보증 청구 분석"및 "서비스 부품 최적화" 이제 SAS 프로그래밍 구조를 살펴 보겠습니다 모든 SAS 프로그램은 기본적으로 다음 두 부분으로 구성됩니다

데이터 단계 & Proc 단계 데이터 단계는 데이터를 작성하고 관리하는 데 사용되며, 프로 시저 단계는 데이터를 작성 및 관리하는 데 사용됩니다 데이터 분석 및 시각화를위한 다양한 절차 맞아, 우리 머리에 ~로 데모 이제야

Apache Spark Tutorial | What is Apache Spark | Project Spark | Spark Tutorial | Intellipaat

안녕 얘들 아 Intellipaat에 의해 또 다른 흥미로운 세션에 오신 것을 환영합니다 오늘 우리는 Apache Spark에 대해 논의 할 것입니다

오늘 세션에서 우리는 왜 아파치 스파크? Apache Spark이란 무엇입니까? 직업 기회와 실습 아파치 스파크 대 Hadoop, Apache의 다른 기능들 불꽃 스파크 아키텍처 및 구성 요소, 커리어 기회 및 실습 운동 이제 Spark의 사용 사례를 살펴 보겠습니다 세계 최고의 선구자 중 하나 전자 상거래 거인은 비즈니스와 비즈니스를 촉진하는 eBay입니다 비즈니스 판매

이베이 (eBay)는 1 억 6 천 2 백만 명의 적극적인 고객이있는 시장입니다 2500 만 판매자 eBay는 구매자와 판매자가 가능한 한 효율적으로 데이터를 작성하려고했습니다 그들은 사이트에 8 억 개의 목록과 88 개의 새로운 백만 개의 목록을 가지고 있기 때문에 목록이 매주 추가됩니다

eBay의 초기 사용자 패턴은 검색 지향적이었고, 사용자는 제품을 찾기 위해 검색 목록을 검색해야했습니다 전자 상거래가 전환됨에 따라 사용자는 전자 상거래를 탐색하고 목록에서 검색하는 대신 제품을 구입하십시오 이를 위해 eBay는 전체 데이터 모델을 전환해야했습니다 처음에는 eBay가 실시간과 호환되지 않는 Hadoop 아키텍처를 사용하고있었습니다 데이터 모델이므로 이베이는 실시간 아키텍처 도구를 찾고있었습니다

글쎄, 아파치 스파크는 그들을위한 편리한 도구였습니다 eBay는 Apache Spark를 사용하여 이전 고객을 대상으로 고객을 대상으로 오퍼를 제공합니다 경험을 향상시키고 고객의 경험을 향상시키는 데 아무런 노력을 기울이지 않는 시도 그들과 함께 이를 통해 사전 예방 적 방식으로 고객이 원하는 것을 제공 할 수있는 고객 경험을 향상시키고, 고객이 효율적으로 원활하게 고객의 시간을 처리 할 수 ​​있도록 도와줍니다 전자 상거래 사이트

eBay는 Apache Spark가 Hadoop YARN을 활용하도록하여이 마법을 적용합니다 Apache Spark이란 무엇입니까? 그게 뭔지 알아? Apache Spark는 특별히 다루기 위해 개발 된 오픈 소스 엔진입니다 대규모 데이터 처리 및 분석 비정형 데이터가 많고 실시간 분석을 수행하기 위해 속도를 높여야하는 필요성 때문에이 기술은 실제로 실현되었습니다 Big Data 전산 연습을위한 대안

실시간 데이터 분석의 경우 Spark는 다른 모든 솔루션 우리가 이미 가지고있을 때 생각하고 있을지도 몰라 데이터를 처리하는 Hadoop은 왜 Spark가 필요합니까? 스파크를 하둡보다 더 대중적으로 만드는 것은 무엇입니까? 이에 답하기 위해 우리는 개념을보아야 만합니다 배치 및 실시간 처리 일괄 처리는 일정 기간 동안 데이터를 수집하는 것입니다

그것을 처리합니다 예를 들어 급여 및 청구 시스템 실시간 처리의 경우 데이터 수집 및 처리가 발생합니다 동시에 ATM은 실시간 시스템의 한 예라고 생각할 수 있습니다

비밀번호 및 기타 세부 정보를 입력하면 원하는 금액을 받게됩니다 Hadoop은 개념을 기반으로합니다 이미 저장되어있는 데이터 블록에서 처리가 이루어지는 일괄 처리 처리 기간 동안 그러나 Spark는 실시간으로 데이터를 처리 할 수 ​​있으며 약 100 배 더 빠릅니다 대규모 데이터 세트를 일괄 적으로 처리하기위한 Hadoop MapReduce보다 스파크의 또 다른 장점은 과거 데이터와 실시간 데이터를 모두 처리 할 수 ​​있다는 것입니다

화면의 이미지는 Hadoop과 Spark With Spark의 주요 차이점은 여러 응용 프로그램을 처리 할 수 ​​있다는 점입니다 이력 데이터와 실시간 데이터를 기반으로합니다 Hadoop에 비해 Spark는 사용하기 쉽고 처리 속도가 빠릅니다 스파크의 특징을 살펴 보겠습니다 Spark 코드는 Java, Scala, Python 또는 R 언어로 개발할 수 있습니다

Spark는 MapReduce보다 100 배 빠르게 실행됩니다 Spark는 텍스트, CSV, RDBMS, JSON, Hive, 카산드라 등 Spark는 실시간 계산 기능을 제공합니다 Spark는 기계 학습도 지원합니다 (기계 학습) 이것은 Spark을 IT 분야에서 급성장하는 기술로 만든 장점입니다 이제 우리는 Spark 아키텍처로 이동합니다

스파크 아키텍처에는 드라이버 프로그램, 클러스터 관리자 및 다양한 작업자 노드가 있습니다 운전자는 중앙 및 스파크 셸의 진입 점 응용 프로그램의 main () 함수를 실행하고 Spark 컨텍스트를 만듭니다 드라이버는 모든 Resilient Distributed Databases에 대한 메타 데이터를 저장합니다 및 파티션

클러스터 관리자는 책임이 있습니다 Spark 클러스터에서 리소스를 얻은 다음 Spark 작업에 할당합니다 Spark 애플리케이션이 할당을 위해 활용할 수있는 클러스터 관리자에는 3 가지 유형이 있습니다 다양한 물리적 자원의 할당 해제 등이 포함됩니다 다음 슬라이드에서 이에 대해 논의 할 것입니다 실행 프로그램은 실행을 담당하는 분산 에이전트입니다

할 수 있습니다 모든 Spark 애플리케이션에는 고유의 Executor 프로세스가 있습니다 Executors는 일반적으로 Spark 응용 프로그램의 전체 수명 동안 실행되며 이 현상을 "집행자의 정적 할당"이라고합니다 스파크가 어떻게 작동하는지 이해합시다 Apache Spark는 독립 실행 형, Hadoop에서 세 가지 방법으로 실행됩니다

MapReduce의 YARN 및 Spark 스파크의 가장 단순한 배포 Hadoop 클러스터가 모든 리소스를 정적으로 갖추고있는 독립 실행 형 MapReduce와 병렬로 실행됩니다 스파크는 사전 설치없이 YARN 상단에서 실행할 수도 있습니다 비록 YARN이 없다면 Spark를 MapReduce와 함께 사용할 수도 있습니다 이렇게하면 배포 부담이 줄어 듭니다 어쨌든 Spark가 배포되면 구성에서 필요한 리소스를 할당합니다

Spark가 연결되는 순간 노드에서 집행자를 얻습니다 이러한 실행자는 계산을 실행하고 데이터를 보호하는 프로세스 일뿐입니다 이제 응용 프로그램 코드가 실행 프로그램으로 전송됩니다 이제 스파크 생태계를 만드는 스파크 구성 요소를 살펴 보겠습니다 Apache Spark Core는 Spark 애플리케이션의 기본 처리 엔진입니다

가장 중요한 기능에는 메모리 내 처리 및 외부에서 참조되는 데이터가 포함됩니다 데이터 소스 Spark Streaming은 고속 계산 기능을 제공합니다 실시간 데이터 분석을 제공하기 위해 스트리밍 데이터와 잘 작동합니다 데이터는 여러 배치로 분리되며 RDD 추상화를 사용하여 데이터가 스트림 데이터의 요구에 맞게 대규모 병렬 방식으로 반복 처리됩니다 처리

Spark SQL은 Schema RDD라는 새로운 차원의 데이터 추상화를 만듭니다 SQL을 배치하여 구조화 된 데이터와 반 구조화 된 데이터 모두를 독점적으로 사용하기 위해 검색어 언어 GraphX는 Apache Spark 프레임 워크의 그래프 처리 기능으로 반복적 인 그래픽 계산, 탐색 분석 및 ETL의 결합입니다 기능 스파크는 기계 학습 알고리즘 및 메모리 기반의 Spark를위한 Machine Learning 프레임 워크를 제공하는 MLlib 라이브러리 분산 환경

스파크의 이러한 기능은 다음과 같습니다 광범위한 산업 분야를 망라하는 기업들이 신속하게 채택했습니다 Netflix, Facebook 및 eBay와 같은 인터넷 강국 거대한 규모의 스파크를 배치했다 1000 여명의 기고가와 함께 큰 데이터에서 가장 큰 오픈 소스 커뮤니티가되었습니다 250 개 이상의 조직에서 PayPal은 또한 Spark 기술을 사용하여 대규모 데이터를 처리합니다

폐쇄 루프 지불 플랫폼이므로 매일 수십억 개의 데이터 이벤트를 처리합니다 위험, 지불, 웹 행동 및 신원과 관련된 정보를 수집합니다 성공적인 거래 횟수를 극대화하기 위해 상인을 돕기 위해 데이터 처리 솔루션을 사용합니다 Spark은이 분야에서 중요한 역할을 담당하며 PayPal이 대규모 데이터를 영향력있는 가맹점 솔루션을 가능하게합니다 이제 우리는 운동에 손을 가자