Introduction to Big Data, Data Science and Predictive Analytics

그래서 우리는 내가 말했듯이, 우리가있어, 갈거야 일반적인 생각에 대해 이야기 할 것 빅 데이터, 예측 분석, 데이터의 과학 오늘 이제이 시작하자,의 주위를 살펴 보자 볼려고 어디에서 빅 데이터가 일어나고 어디 데이터 과학은 무엇입니까? 그래서 우리 주변 정말이다

우리 모두는 검색 엔진 알고 있습니다 이 보면 그래서, 이러한 검색 엔진, 그들은 빅 데이터와 데이터 과학을하고있다 이 잘 유행어가되었다 전에도 작동합니다 그래서 검색하면 볼 수 있다는 결과, 그들은, 추천인 또는 순위 알고리즘의 일종 또는 광고는 당신 때 보여 것을 그들은 당신의 쿼리가 로컬 쿼리 것을 감지합니다 당신은 피자와 다음 또는 다른 쿼리에 대해 검색하는 경우 당신이 검색하고 그들이 그것을 로컬 쿼리의 감지 것을, 그들은 당신에게 일부 지역의 광고를 게재 할 것입니다 당신이 뭔가에 입력하면 그게 당신을 표시 할 수 있습니다 일부 주식 시세

그래서 그들은 실제로 빅 데이터와 데이터를하고있다 이제 나이를위한 과학 이십년 지금, 나도 몰라,하고있다 보험 companies– 보험 회사 아마 전에 데이터 과학을하고있다 데이터 과학 및 빅 데이터, 그들은 그것을하고있다 나는 잘 몰라요 의미 다시, 빅 데이터는 주관적이다 뭔가 의미 나는 큰 얼마나 큰 의미? 그리고 우리는 부트 캠프 동안 그 논쟁에 얻을 것이다 또는,이 웹 세미나 기간 동안 어느 정도에

그러나, 당신은 보험 회사를 보면, 보험 회사는 어떤 인구 통계를 사용합니다 당신이 사는 당신의 나이와 같은 정보, 성별, 소득, 그들은 그것을 알고있는 경우 그들은 그것을 추정 한 경우 나, 얼마나 많은 사람들이 당신을 그래서 당신의 가정에서해야합니다 그리고 그들은 당신에게 보험 비율, 또는 자동차를 제공 할 것입니다 보험 비율, 또는 건강 보험 요금, 등등 나는 우리 중 일부는이를 관찰 할 수있다 생각한다, 그리고 나는 그것이 유럽에서 얼마나 잘 모르겠어요 나는 생각하지만, 미국 내 주소를 변경하는 경우 거니 내가 자동차 보험료는 변경 될 수 있습니다 그것은 정확히 같은 사람입니다 나는 여전히 같은 사람이야, 더 이상 사고, 난 아직도 난 아직도이 항아리 해요, 결혼 해요 내 나이는 여전히 동일합니다, 나는 새로운 사고가없는 역사

하지만, 내 주소를 변경, 내 보험 change– 변경 그래서 내가 자동차 보험료는 변경합니다 누구나 와서 그 일이 될 수 있습니다 이유를 알 수 있습니까? 이견있는 사람? 어쩌면 지역의 위험 인자 몇 가지 일 것입니다 무슨 예, 그래서 무엇을 이따가 것 위험 또는 위험 인자? 너희들이 내 새 주소가있을 수 있다고 생각합니까 가능성이 더 위험한 교차로, 십자가가있다 street– 거리 내 새로운 집 근처 더 많은 사고가있다 즉,이 일이? 당연하지 그래, 어쩌면 더 강도가있다, 또는 여기에 사고 차량 강탈

즉 오른쪽 가능합니다 따라서 보험 회사는 실제로 많은 요인 걸릴 것 계정에 게다가 그래서 당신의 own–에 대해 엄격하지 않을 수 있습니다 그것은 당신에 관한 단지 요인이되지 않을 수 있습니다 그들이 변경 될 수 있습니다 주변 환경에 관련된 요인의 경우, 그들은 사실상 것 자신의 예측 모델 또는 모델 그들은 그들에게 다른 결과를 줄 것이다 그리고 그들은 정말 시행 것 그 다른 보험료 등등 이제 여기에 또 다른 예를 보자 나는 통신 사업자의 통신 회사로 이동하는 경우, 나는 우리가 T 모바일, AT & T, 버라이즌, 스프린트가 미국에서 생각합니다 나는 우리가보다 폰이 유럽에서 생각 우리는 내가 유럽에서 몇 가지 큰 사업자가 무엇을 생각 오렌지 있나요? 그래서 아무도 말해 마음 것입니다 무슨 telephony– 통신에서 몇 가지 큰 사업자는 유럽에서 회사? 네,보다 폰은 그들 중 하나입니다

오렌지보다 폰은 OK, 그래,가,가있다 그래서 및 Mobilestar 예 그래서 모두가 어떻게 생각하십니까? 무엇 your– 당신의 생각은 무엇입니까 왜이 빅 데이터와 데이터 과학을 사용하는 것입니다에? 또는 무슨 일이 몇 가지 이유가 될 수 그들은 이러한 기술을 사용하고있을 수 있습니다 또는 도구 나 기술이 세트 그래서, 그 확인을 잘못 될 수 있습니다 나는 매우 인터랙티브가되고 싶었 의미한다

그래서 그냥 몇 가지 피드백을 제공하시기 바랍니다, 하고 OK 잘못 될 수 있습니다 하지만 난 당신이 바로 그 확신 선율 해요 일부 직관 또는 왜 일부 이해를 할 것이다 그들은이를 사용하는 것입니다 그럼 왜 통신사가 사용하는 것입니다 생각하십니까 데이터 과학, 또는 예측 분석, 또는 빅 데이터? OK, 수익 보증, 확실하지만, 어떻게 당신은 당신이 수익을 보장 것을 확신 것? 그래서 우리는 우리 모두가 동의 할 것이라고 생각 이 회사 것을, 그들은 모두 전화를 할 것이다 로그, 통화가 하락했을 때, 얼마나 오래했다 많은 사람들이 주어진 시간에 호출 된 방법을 호출, 네트워크가 과부하 될 때, 때 네트워크는 상대적으로했다 덜 사용 그래서이 회사는 실제로이 모든 데이터를 사용합니다 그들은 거의 매 초마다 우리로부터 수집있다 그리고 그 기반으로, 그들은 실제로 네트워크를 계획 할 수 있습니다

셀룰러 타워를 배치하는 방법 네트워크를 확장하는 방법과 장소 바로, 등등 그래서 한 가지입니다 그리고 또 다른 매우 중요한 것은 그들이 일을 할 수 있음 고객 이탈을 예측한다 그리고 때 고객을 예측하는 말 그 수단이 난 경우에 것을 무엇 때문에 휘젓다 은 T – 모바일 고객, 당신이 볼이 회사, 당신이 그것을 들어 본 적이없는 경우, T 모바일 나는 T – 모바일 고객 오전 그래서 아마 매일 또는 매주 T-Mobile은 자신의 예측 모델을 실행 하고있는 고객을 참조하려고 그들을 떠나거나 AT & T 나 스프린트, 또는 버라이존로 전환 할 가능성이 높습니다

그리고 그들은 내가 그들을 떠날거야 것을 감지하면, 그들은 실제로 제안을 마련하려고 또는 나를 행복하게하고 나 T 모바일 떠날 수 있도록하려고합니다 그래서 다시 같은 생각 나는 여러분 모두에게 무슨 여러분 모두 would– 생각 하는가 우선, 당신은이 생각 그것은 가능한 특정 고객임을 예측하는 서비스를 떠날 것? OK 그래서 호세 그래, 그래 그것이 가능하다고 생각한다 승인 그래, 난 확신 해요 나는뿐만 아니라 확신하지만 난 그 이유를 모른다

그래서 너와 얼마나 나는 당신의 모든 관심이 있기 때문에 믿고 that– 가정 그래서 우리 모두 agree– 우리 모두는 전적으로 가능 바로 동의합니다 자, 문제는 그들이이 예측 가겠어요 어떻게? 이게 뭐야의 일부 무엇 that–있는 작업은 무엇입니까 및 예측 모델링 및 기계 학습 세계 이 바로 신호라고합니다 그래서 그들은 will– 용어입니다 그들은 사용할 수 있습니다 그래서 신호, 또는 무엇의 일부는 무엇인가 그들이 선택할 것 몇 가지 기능은 무엇입니까? 내가 하란 경우 내 말은 예 결정 그들은 모두를 수집한다고 가정 의 짓이야 당신에 대한 정보의 모든 조각, 사용에 따라 있는 작업은 무엇입니까 그 것 이 고객이 우리를 떠날 것입니다 플래그 텔레콤 제공자? 어쩌면 다른 사람의 하나의 웹 사이트를 방문

하지만 당신은 그들이 그것을 추적 할 수 있습니다 생각하십니까? 나도 그렇게 생각해 그래, 그래, 그래 나는 채팅 창에 이렇게 좋은 점을 의미 게다가 내가 변화하고있어 경우, 서비스를 추가 또는 제거 네트워크이다 내 가족 캐리어는 변경된 경우 그렇게하지 않으면 내가, 다른 생각 자주 휴대 전화를 사용합니다

경우 내 사용 패턴이 변화하고있다 네,이 모든 생각, 마르코 요점, 그리고 다른 점, 그들은 유효한 권리입니다 혹시 그래서 당신은 다른 무엇을 생각하십니까? 그래서 당신이 그들에 의해 그리고 통신 사업자 중 하나에 의해 취직한다고 가정 그들은 확인을 말하고 싶어,이 백만 고객은 그리고, 나에게 응용 프로그램을 제공 우리에게 우리가 제공하는 예측 모델을 제공 순위 주문 점수, 또는 여부 누군가의 휴식 점수 우리를 떠나거나하지 않을 것입니다 그래서 그래, 또 다른 하나는, 고객 서비스 말해 그렇게 안 부르 겠는데를 호출 고객 서비스는 바로 호출합니다 그래서 비슷해는 고객 서비스는 것 호출은 사람이 떠나려고하고 있다는 것을 의미한다 또는 고객의 서비스 요청에 대해 무엇? 아마 호출의 결과, 그들은 만족합니다 예를 선택하고 어떻게 만족을 측정 할 것인가? 나는 그들이 항상 질문을 끝낼 생각 당신이 그래 당신이 알고 있다면 물론 것 답변을 부탁합니다 예 있는지, 나는 그러니까

의미하지만, 우리가 얼마나 많은 사람들이 실제로 제공 명시 적 피드백 맞죠? 그래서이 정확하게 포인트 권리입니다 그래서 난 당신이 부팅에 올 때 우리가 원하는 것을 생각 캠프 당신은 얼마나 쉽게 실제로 놀라게 될 것입니다 그것 예측 모델을 구축하는 것입니다 그리고 나는 과장하고 있지 않다

그래서 것이다 도서관이있다, 구문의 단일 라인, 당신은 실제로 수 예측 모델을 구축 할 수 있습니다 그러나 이렇게 사람이 실제로 빨리 배우고 구축 할 수 있습니다 예측 모델과 많은 사람들이 그들은 기계 학습을 알고 있다고 생각합니다 그러나 우리는 부트 캠프 동안 강조합니다 생각의이 종류에 있습니다 어떻게 당신은 몇 가지 특징을 추출합니까? 그래서 이들은이라고 무엇으로 죠 특징 또는 신호는 오른쪽 실제로 OK, 나는 건

이 그 사고 방식에 어떻게합니까 데이터가 하는거죠 주어되지 않은 경우에도 어떻게 더 많은 데이터를 추출 할 수 있습니까? 어디 가서 찾아야한다? 그래서 이것은 strong– 될 것입니다 우리는이에 많이 강조합니다 내가 채팅 창에서 볼 수 있도록 몇이 있음 우리는 권리가 전화를 떨어졌다 그래서 또 다른 요소가 될 것입니다

그리고 누군가가 명시 적으로 불평하지 않습니다 아마도 경우에도, 하지만 어쩌면 길이 그들은 호출시 호출의 길이 또는 지속 기간은 무엇입니까? 그 불만에 대한 프록시 수 있습니다 그리고 우리는 미국의 통신 사업자 중 하나에 의해 도달했다 그리고 그들은 실제로 만족도를 측정하기 위해 원 통화 성적에 따라 그래서 호출하는 경우와 T-Mobile은 실제로 나에게 반응했다 나는 T – 모바일 고객 서비스 말하고 있었다 과에 따라 그들이 나에게 말했다와 내가 그들에게 말했다 그리고 그들은 텍스트 성적 증명서 변환합니다 그리고 그 성적 증명서 후 결국 당신이 이해 몇 가지 기술을 기반으로 그이 만족 세션인지? 이 세션 아니라면 곳 고객 경험 불만 그들은 같은 세션을 치료하는 것입니다

그래서 우리는이 모든에 갈거야, 부트 캠프 동안 우리가 얘기하자 뿐만 아니라 대한 텍스트 분석 매우 간단하지만, 그러나 우리는 그것에 대해 얘기하자 의 진행을 계속합시다 온라인 교육 애플리케이션도있다 예상 수 있듯이, 아마도 컨텐츠를 추천 모두가 수업을하지 복용 (10 명) 학생이있는 경우 같은 배경에서 작동해야합니다

어쩌면, 나는 잠시 후, 수학 코스를 수강하고있어 경우 이 자동화 된 시스템은 파악 내 대수가 이길 것을 할 때마다 때문에 내가 실수를 질문에 대수 개념이있다 그래서 좀 치료를 권장 할 수 또는 대수에 대한 몇 가지 전제 조건 작업 대수 및 누굴 더 많은 운동 다른 사람은 다른 추천받을 수 있습니다 함유량 그래서 온라인 교육이 큰 지역은 물론이다 여기서 사람들이 using–된다 또는 빅 데이터와 데이터 과학에 대한 많은 잠재력이있다 온라인 소매 업체, 이들은 미국에서 큰 유통 업체의 일부입니다

당신은 미국에서하지 않은 분들을 위해,에 매핑 할 수 있습니다 당신은 당신의 국가에있는 다른 어떤 큰 소매에 매핑 할 수 있습니다 소셜 네트워크, 친구 추천, 작업 추천, 따라 누가, 누가 작업 등을 찾아하고 어떤 친구가 될 수 있습니다 이 모든 것은 우리가 우리 주위에 모든 시간을 참조하십시오 추천 엔진 엔터테인먼트 당신은 넷플릭스, 유튜브, 판도라를 볼 수있다 우리는 모든 시간을 참조하십시오

그리고 우리는 실제로 다루려고하고있다 깊이와 우리의 부트 캠프 동안이 우리는 추천 엔진을 통해 이동합니다 그래서 우리는 추천 엔진을 구축하는 얘기하자 상세히 그리고 건강 관리, 나는 건강을 생각 매우 흥미로운 영역입니다 좋은 데이터 과학 및 빅 데이터의 전체 약속의 많은, 응용 프로그램 당신은 아마 다른 약을 추천 할 수 있습니다 환자의 이해를 기반으로

당신은 환자, 나이, 자신의 민족에 대한 지식, 그 어떤 배경 이 약물은 도시 어쩌면이 항아리 이 시대의 사람들에 작동하지 이 약물에 비해 이러한 배경 이러한 배경 오른쪽에 더 작동합니다 건강 관리에 많은 응용 프로그램이 있습니다 즉, 우리는 사이트가 있습니다 의 올해 온라인 쇼핑 살펴 보자 아마존은 나는 우리 모두 우리가 이것을 본 생각합니다

당신은 가서 책 아마존 예측 모델을 구입하기로 결정, 그들은 그래 나는이 사람이 무슨 의미 말할 것이다 우리는이 두 번째 책을 추천에 대해 어떻게이 책을 구입하는 이 사람에게 5 % 할인 제공? 그리고 아마존 예측 모델, 그들은 이미 그들이 있음을 경우 알아 낸 두 번째 책에 명중 수익이 사람도 그렇지 않을 수도 그렇지 않으면이 책을 구입, 그래서 수익 타격을하자 이 책을 제공하고 돈을합니다 그래서 여기에 높은 수준의 생각이다 그리고 유사하게, 우리는이 누구를 따라가 보았다 또는, 링크드 인을 아는 사람들이, 내가 가입 할 수 있습니다 원합니까 그룹, 모든 작업은 내가에 관심이있을 수 이 모든 것은 어떤 예측 모델에서오고있다 무대 뒤에서 OK,의 여기 계속하자

온라인 엔터테인먼트, 우리는이를 보았다 내 대기열에 동영상을 추가 한 경우 또는 나의 과거 행동, 넷플릭스에 따라 다른 영화를 추천 할 것입니다 이러한 영화를보고 나 한테 물어 그래서 난 그냥 지출하면된다 싶은 것이 두 개 또는 세 분은 지금 당신은 당신이 생각하는 모든 응용 프로그램이있는 경우 가 있어야한다, 또는 어쩌면 당신은에 관심이있는, 또는 어쩌면 당신은 당신의 회사가 작동하는지 알고, 또는 당신의 친구가 다른 것, 노력하고 있습니다 당신은 브레인 스토밍, 아니면 그냥하고 싶은 것을 뭔가를 언급? 우리는 지금 까진되고 싶어 그래서 우리는 무언가를 배우기 시작하기 전에 우리는 마음의 상태에 있어야 여기서 우리가 실제로 열정적에 대한 생각 우리 주변에서 일어나고있다 그래서 너희들은 일부 응용 프로그램을 공유 할 수있는 경우에 그 중 하나를 당신에게 내 옆 갑판에보고 좋아하거나 생각하는 것 그들은 존재 또는 다른 것 당신이 생각할 수있는 모든 다른 응용 프로그램? 그리고 다시, 당신은 올바른 될 필요가 없습니다

잘못된 것에 대해 걱정하지 마십시오 나는 도움이 될 것되는 능동적 인 사고 방식에있는 것 같아요 승인 나를 건 해보자 당신은 은행, 금융 기관을 생각 finance– 모든 응용 프로그램이 있습니다 신용 카드 회사가 사용하는있을 수 있습니다 빅 데이터, 또는 데이터 과학, 또는 예측 모델링? 당신은 금융이나 신용에 생각할 수있는 모든 응용 프로그램 카드 업계? 은행은 몇 가지 추가 크레딧처럼 당신을 제공 할 수 그들이 볼 때 당신은 돈이있는 or– 물론, 어떻게 비슷해 그래서 난 마르코 확실하지 않다, 예 신용 카드 사기의 개념이있다 그게 내가 듣고 싶었던거야 그래서 신용 카드 사기는 응용 프로그램의 권리입니다 그래서 우리는 가끔 전화 통화 또는 이메일을하거나, 우리 신용 카드는 그냥 거래 때문에 차단받을 수 있습니다 일어난

호세 네, 위험과는 개념이있다 유럽의 신용 점수의? 그래서 미국에서 우리는 신용 점수가 내가 200 850 또는 뭔가 모르는 이르기까지 그래서 당신은 그 다음이며, 어떻게 신용 가치의 개념이있다 점수가 당신과 관련된지고, your– 우리는 우리가 미국의 사회 보장 번호를 호출 잔 마셔요 나는 너희들이 그것을 부르는 모른다 마르코는, 그래, 앞서하십시오 이동합니다 각 은행은 자신의 규정이있다 월에 그들은 그래 그들은 당신이 얼마나 신용 할 확인하십시오

예를 선택하고 당신은 무엇을 생각 하는가? 그들은 예측할 때 당신은 그들이 정확하다는 생각하십니까? 희망 그렇게 생각합니다 그들이 모든 것을 알 수 있도록 All– 모든 대출 등록 당신은 그래서 당신의 소득을 가지고있다 네, 그래서 기본적으로 이러한 예측 모델입니다 그들은 실제로 당신을 기반으로 점수를 할당 다른 요인에, 얼마나 오래된 당신은 어떤 종류의 일, 또는 당신은, 당신의 성과 무엇 이었습니까 당신이 그렇게에 있었고, 이전의 대출이다 이 봐,이이 개념입니다 그래서 만약 우리에게 새로운 것이 아니다

지금은 오랜 시간 동안 계속되었다 그래서 무슨 일이 일어 났는지 이제 데이터 수집이 become– 가지고 있다는 것입니다 너무 쉽게되고있다 그리고 우리는 톤과 데이터의 톤을 수집하는 대한 기계의 모든 부분, 모든 개인, 모든 차, 일 장치의 모든 인터넷, online–의 모든 제품 온라인 상점에서, 모든 고객은 식료품 점에가는 저장 당신은 내가 데이터의 양을 의미하는 상상 단지 단지 우리가 수집되는 그래서 이러한 기술은 오랜 시간이 지금과 거기에 있었다 갑자기 센서의 폭발과 가능한 것으로 센서 용이하고 가능성 쉽게 클라우드에 연결되어, 다음 스토리지는 저렴한되고 갑자기 우리는이 새로운 시대에으로 죠 우리는 우리가 너무 많은 데이터를 원합니까하지만 어디서 많은 companies– 당신은 실제로 놀랄 것입니다 우리는 매일 회사와 거래 당신은, 와우,이 큰 회사입니다 생각 될 수있다 그들은 스마트 데이터 과학 사람이 있어야합니다

그러나 당신은 실제로 놀라게 될 것입니다 많은 대기업, 그들은 단서가 없다 데이터로 무엇을 할 수 있습니다 그리고 심지어 나에게 때때로에 놀라운 일이 나는 당신이 이름을 명명하지 않고, 이야기 의미, 당신은 그들이있어,이 큰 회사 이야기 나는 우리가이 일을하는 것을 의미하지만, 우리는이 데이터를 가지고 그래 말 그러나 우리는 이것으로 무엇을 해야할지하지 않습니다 그리고 당신은 놀랄거야 난 당신이 외부에서 생각 의미 그들은 억 달러 회사 있음 왜 그들은이 일을 할 수, 사용되지 않을 것 효율적으로 데이터입니다

OK 그래서이 계속하자 그래서, 당신이 생각하는 경우, 어떤 우리가 여기에 모든 친구 추천, 또는 작업을 볼 수 있습니다 추천, 영화 추천, 또는 사기 탐지, 고객이 종료 것입니다 여부, 여부, 사고가 일어날 것인지, 아닌지 실제로이 모든이의 뒤에 기본 마술, 인 빅 데이터입니다 우리는 많은 및 모든 것에 대해 많은 데이터를 가지고 그 일이 일어나고 및 예측 분석이다 정말 도움이 알고리즘의 일부 몸은 예측하고있다

나는 내가 한 일을 언급해야한다고 생각 아마존은 실제로 특허를 신청한다는 것입니다 대한, 불과 몇 달 전 재 – 배송 예상하지 년 경우 전에 그리고 어떤 것을 의미하는 것은 그들이 실제로 것입니다 누군가가 주문 것이라는 것을 예측하고있다 어쩌면 노트북이나 특정 제품 그것은, 플레이 스테이션이 될 수 마이크로 소프트, 또는 말할 수 델 노트북, 또는 HP 노트북, 특정 모델의, 그리고 그들은 실제로 포장 및 받기 시작 것 그것은 배송 준비 심지어 순서가 도착하지 않고

나는 그렇게 정교한 얻었다 의미한다 물론, 모든 단일 제품에 대한 수 없습니다 제품에 대한 그들은 충분한 데이터를 가지고 실제로 예측할 수에 대해서도 그 사람 이 예측하는 것입니다 나는 특정 우편 번호에 시애틀에 살고 그래서 그들은 알고있을 그 우편 번호에서 누군가 주문 예정은 HP–는 HP 노트북 말한다 그들은 특정 노트북을 포장 시작할 것 심지어 순서가 도착하기 전에 그것은 뭔가처럼 들릴 수도 very– 일부 공상 과학 소설은 그러나 지금 일어나고있다

그래서,이 모든, 그것은 때문에 기술이다 그 일반적으로 기계 학습라고 및 예측 분석 기법 그리고 그것은 단지 우리 후 가능 해졌다 많은 우리가 빅 데이터를 호출 할 수있는 데이터를 많이 가지고있다 우리는 많은 및 모든 것에 대해 많은 데이터를 가지고 그리고이 가능한 모든하고 있습니다 그래서 내가하고 싶은 것이 우리 앞에있다 어떤 예측 분석으로 이동 나는 살펴보고 실제로 우리 모두를 가지고 싶은 것이 큰 데이터 파이프 라인이 생겼는데? 이 보면 OK 자, 아마존의 예를 들어 보자 아마존 나는, 우리의 모든 것을 믿고있어 우리는 쇼핑 엔진의 권리, 그래서 아마존이 무엇인지 알고있다

제품과 그들이 수백억 동행입니다 수백만 많은 나라에서 정말 존재한다 그래서 일반적인 빅 데이터 파이프 라인은 같을 것이다? 그리고 정확히 같은 될 필요가 없습니다, 이것은 당신에게 개념적인 이해를 제공하기 위해 단지이다 모든 것이 빅 데이터 파이프 라인에서 발생 방법 그래서이 볼 수 있습니다 그래서 첫 번째 단계 여기 내 레이저 포인터를 넣어합니다 그래서 첫 번째 단계의 데이터 유입이다

나는 내 브라우저를 열고, 내 컴퓨터를 열고 am– 내가 가서 amazoncom을 입력합니다 내가 HTTP 요청 Amazoncom로 이동하는 순간 다음 아마존 서버, 아마존에 간다 서버는 나에게 페이지를 반환합니다 나는 아마존하는 새로운 사용자입니다 경우 그리고 지금, 기반 알다시피, 나는 돌아 사용자를 생각하면, I 브랜드 new– 새로운 사용자입니다

나는 같은 시간에 그들은 수도 사용자를 반환하고있어 경우, 그 밀리 초 시간 창에서, 그들은 실제로 빠르게 볼 수 있습니다 내가가 검색되었다 무엇인가? 우리는 더 많은 권장 사항을 생성 할 수 있습니까? 그리고이 모든 데이터가 올 것입니다 당신이에서 페이지를 보면 그래서 I 그것은 조밀 한 페이지이다가, 내가 보는 아마존 페이지를 참조하십시오 나는 재료의 많은 페이지에 의미, 하지만 페이지가 아마 100 다른 서버에서 오는 될 수 있습니다 혹시 하나 개의 서버는 나에게 모든 권고를주고있다 나는 옷을 탐색했기 때문에 옷에서 그러나 나는 또한 책을 구입, 그래서 책을 추천있다 서버뿐만 아니라 일부 전자 제품 추천이 있습니다 다음 일어나고있는 일들 만 톤이 그리고이 모든 오면 나에게 표시됩니다

내가 가서 뭔가를 클릭합니다 이제 클릭 간다, 적절한 페이지 것을 기반으로 돌아오다 그런 다음 다시 클릭하면, 다른 클릭, 맞아 그래서 나는 당신이 경우,이 일을하고 같은 시간에 계속됩니다 실시간으로 그들은 또한 생성하는 것으로, 이것 좀 봐 예측은, 때문에 내가 찾고 있어요 어떤 제품에 따라 에서, 그들은 제품을 나에게 돌아 오게 것이다 나에게 권장 또는 다른 사람이 무엇을 구입해야합니다 지금 이것은 많은 양의 데이터입니다

그것은 arriving– 톤과 데이터 톤이다 당신은 그들이 수집하는 데이터의 양을 상상할 수 사용자로부터 각 세션에서 지금 당신은 무엇을해야하는지 생각하십니까? 그들은 실제로 가서 시작해야 정확한 데이터를 수집? 그들은 아무것도 할 수 없을 것 때문에 이것의 실행 가능한 밖으로 그들이하지 않는 한 이 데이터를 수집하기 시작합니다 그래서 그것은 그 전적으로 가능하며, 이것은 실제로 일을 수행하는 방법, 그 모든 페이지, 무엇을 페이지의 내용이었다, 그것은 가서 가서 얻을 얻을 수 있습니다 다른 서버에 저장됩니다 그런 다음 그들은 모든 클릭을 다른 서버로 가고있다

그럼 당신은 내가 볼 때 제품이 어쩌면 내가 옷에서 본 제품의 목록입니다 그들은 다른 서버로 이동 할 수 있습니다 내가 looked– 제품 전자에서 바라 보았다, 그들은 다른 서버로 이동 할 수 있습니다 그래서이 모든 데이터를 다른 곳으로 가고 와, 하드 드라이브 또는 어떤 저장 장치에 저장하기 그들은있다 확인을 나와 함께 모두가 지금까지 무엇입니까? 나는 내가 여기 너무 빨리하지 않을거야 바랍니다

질문을하시기 바랍니다 그건 내가 remote– 생각 유일한 방법 당신은 내가 당신의 얼굴을 볼 수없는 원격되는 세션 이 만드는 경우 정말 나에게 어떤 피드백을 제공해야 의미 지금까지 이런 질문을 문의하시기 바랍니다 이것은 분명 지금까지 Is–입니까? 그래 좋아 감사합니다 마르코, 감사 Joeri 그래서 지금이 내가 보면 said– 나는 클릭이가는 저장되어 있음을 언급 다른 곳

나에게 보였다 제품, 그들은 다른 곳으로 가고 있었다 어쩌면 나의 정체성, 나의 정보, 누구 나는, 물론 그들은 on– 기반을 anonymise 그래서 그들은 정말 share–하지 않습니다 로그 어딘가에서 내 이름을 저장합니다 그러나이 모든 데이터가 다른 장소에서입니다 would– 그래서 더, 항상 아닙니다오고 액세스하는 사람 인간 자신의 웹 사이트 때때로 일부 회사입니다 다른 제품에 대한 자신의 웹 사이트를 긁어하려고 물가

일부 자동화 된 컴퓨터 프로그램이 단지 모든 링크를 클릭하려고 자신의 웹에 존재하는 어떤 제품 얻을 수 있습니다 페이지 또는 웹 사이트 그래서, 그래서이 자동 traffic–있다 실제로 이따가해야이 자동화 된 트래픽 그것은, 같은 표시해야 당신이 만약 때문에 이 정말 인간의 트래픽이 아니라고, 이것에 대해 생각 그것은 확인되어야한다 나는 우리가 로봇을 호출 의미한다 온라인 서비스 업계에서 우리는이 모두를 호출, 봇들이 정말 되지 않기 때문에 그들은 일반적인 인간의 행동을 표현하지 않습니다 그래서 전처리가 많이있다 그런 일 것입니다 당신은 어쩌면 몇 번의 클릭을 정리합니다 때문에 코드의 일부 버그했다 그들은 두 개의 클릭을 기록, 대신 한 번의 클릭으로 were– 아니면 약간의 클릭으로 인해 네트워크 문제로 끊어졌습니다

그래서 일부 데이터 정제가 발생합니다 그런 다음, 그 후, 당신은 변환 단계를해야합니다 여기서 당신은 모든 데이터를 변환합니다, 아마도 서로 다른 소스에서 데이터를 병합 단일 데이터 소스로합니다 경우에 따라서는 몇 가지 큰 데이터웨어 하우스에 넣어 것입니다 어떤 경우에는, 당신이 그들을 밀어 버린다 일부 기존의 데이터베이스에 다른 표현 그래서 다른 종류의 모든 사람은 같은 형식의 데이터를 필요로하기 때문이다

그리고, 단지 그 이후에 데이터가 변환되면 그리고이 모든 변환 완료 실제로 일부 데이터 마이닝을 할 것입니다 당신은 당신이 이러한 패턴을 발견 할 것 잔 마셔요 것입니다 OK 뭐 같이 OK 패턴 누가 어떤 컨텐츠를 추천해야 하는가? 누가 어떤 영화 나 제품을 추천해야 하는가? 누가 실제 인간 대 로봇 될 가능성이 높습니다? 이 사람은 무엇 뉴스 항목을 참조해야합니까? 누가이 제품을 구입 가능성이 높습니다? 다른처럼 어떤 제품을입니까? 어떻게 수익을 예상 할 수 있습니까? 등등 그래서 당신은 데이터 마이닝 그리고 통합을 기반으로 평가 당신의 사업 목표는 무엇인지에 그것은 전형적인, 큰, 회사의 수, 아마존과 같은, 또는 페이스 북, 또는 트위터는 많은 팀이있다 동일한 데이터를 다른 일을 그래서이 방법 빅 데이터 일반적으로 파이프 라인은 같을 것이다

이에 대한 질문? OK, 그럼 계속하자 이 봐,이 단지 일부 경우에 따라서 전체 풍경 너와 나를 단지 할 경우 나는 여기에 메모를 복용하고 있습니다 여기 작은 오타를 확인할 수 있습니다 당신이 보면, 거기에 따라서 어떤 도구를 사용하면 수도 있고 또는 모두 들어있을 수도 있고 없을 수도 있습니다 그러나 로깅에 사용되는 몇 가지 도구이있다 순수 로깅 그래서 누군가가 내 웹 사이트에 와서 그들은 클릭 할 때 그리고 그들은 어떻게 쿼리를 발행하는 나는 그 모든 데이터를 수집합니까? 그래서 인 Splunk 및 수로는 그것을위한 도구 중 일부입니다, 즉, 기록을 위해 사용된다

이 보면 그리고, 수로도 수집하기 위해 사용된다 그래서 그것은 수집하는 데 사용됩니다 그리고 당신은 y 축에서 보면,이 데이터 처리에서의 각 단계이다 그리고 이들은 다른 기술입니다 x 축에, 이들은 당신이 다른 기술이다

그래서 수로 is– 나는 지금 여기 어디에 내 레이저 포인터 해요 이 수집하고 로그를 유지하는 데 사용됩니다입니다 그리고 인 Splunk는 저장을위한 것입니다 당신이 플랫 파일로 생각할 수 있다면이는있다 그것에서 오는 모든 그냥 같은 로그 파일에 덤프 그러나, SQL이있는 경우 당신이 원하는 경우 좀 더 SQL 형식으로 더 많은 데이터를 저장하기 데이터베이스 형식으로, 기존의 데이터베이스 형식, 당신은 몇 가지 도구를 사용하는 것보다 그래서에서 MySQL, 오라클, 테라 데이타, SQL Server 및 DB2하고있다 그리고 마찬가지로 데이터가 들어오는 경우 당신은 데이터를 수집하고 있지만 정말 아니다 데이터베이스 테이블의 형태로, 그 그 방식으로 표준화되지 않은, 당신은 실제로 저장할 것 노 SQL 형식으로 더있다

그리고 어떤 SQL is– 당신은 여전히 ​​언어와 같은 SQL을 사용하는 것이 말할 수있는, 하이브 돼지, 이러한 데이터베이스에 액세스 할 수 그러나 이들은 빅 데이터에 있습니다 그래서 당신은이 같은 빅 데이터베이스 생각할 수 있습니다 그리고 우리는 부트 캠프 동안이에 대해 이야기합니다 지금 당신도이 모든 그것에 대해 생각해야한다, 그것은 더 명확하게 이해 될 수있을 것이다 그것은 단지 당신에게 전체 풍경의 아이디어를주고있다

우리는 이러한 것들의 대부분에 대해 깊이에로 갈거야 부트 캠프 동안 그런 다음 맵리 듀스는 맵리 듀스 당신은 생각할 수 있습니다 당신은 하나의 컴퓨터에 뭔가를 실행해야하는 것처럼 당신은 단순히 명령을 실행할 수 있습니다 그리고 당신의 데이터는 4 기가 말을이었다 당신은 8 기가가 컴퓨터의 RAM 이 처리를 실행 한 다음 당신은 정상입니다 그러나 데이터 경우, data– 당신은이 약이 가지고있는 모델 데이터 테라 바이트의 데이터 또는 데이터의도 1백기가바이트 말 당신은 당신의 램은 단지 8 기가 바이트 잔 마셔요하지? 당신은 무엇을 할 건가요? 그것에 대해 지금 까진가는거야 그래서 맵리 듀스라는이 기술을 사용하지만,이 지금 등장했다 다른 패러다임이다

당신은 스파크 들어있을 수 있습니다 그래서 스파크는 지금 존재한다 그리고 신흥 다른 패러다임이있다 그러나, 일반적으로, 맵리 듀스는 더 일반적으로 알려진 것입니다 그래서 맵리 듀스, HartonWorks, 그리고 매퍼 및 클라우 데라, 그들 모두 그들은 잔 마셔요 그들은 당신의 데이터를 맵리 듀스 작업을 수행하는 도구를 가지고

그리고 당신은 예측 모델을 구축해야하는 경우, 또는 그건 에 대한 몇 가지 분석 작업을 당신은 y 축 부분 우리를 보면 , 예측을 탐구 추천한다 , 내가 가서 여기이 겹치는 경우에 따라서 그래서 이것은 모든 도구입니다 당신 분석을하고, 맵리 듀스 작업을 수행하기위한 사용하고있을 수 있습니다, 예측 및 시각화 추천 맵리 듀스를 사용하여

그리고 우리는, 구체적으로 R을 어떻게 할 건데 우리는 구체적으로 하이브를 어떻게 할 건데 우리의 부트 캠프 중에있다 우리는 우리가 두싯을 포함하지 않습니다 잔 마셔요 그러나 우리의 교육 과정을 우우, 우리 교과서 일단 당신이 R 및 하이브를 알고 흥미 실험실이있다 조련사는 것입니다 뭔가 될 것입니다 매우 간단합니다 실험실은 당신의 자신의 당신에게 약 2 시간이 소요됩니다 부트 캠프 후 그리고 두싯는 분산 기계 학습 라이브러리이며, 우리는 잔 마셔요 우리는 우리가 우리의 교육 과정이있을 것이다 이따가 것입니다 우리는 오일 중에 포함되지 않습니다 하지만 당신은 실험실을하고 그 후속 할 수 있습니다

지금 당신이 보면 그래서, 실시간, 당신이 back– 가면 그래서 나는 생각한다 십년 전에에 decade– 이동, 그것은 큰 문제였다 누군가가 맵리 듀스를 알고 있다면 그것은 큰 문제로 당신이 빅 데이터를 처리 할 수있는 경우 하지만 말아요 – 더 더 이상 큰 거래이다 없다 아주 간단한 도구가 있기 때문에 실제로 것 당신이 큰 데이터를 처리 할 수 ​​있습니다 그들은 부트 캠프에 올 때 사람들은, 실제로 그들은 실제로 놀라 그들이 알고하지 않은 경우, 충격이야 실제로 빅 데이터를 처리하는 방법을 배울 수있다 다만, 처리 나는 여기에 깊은 이해를 말하는 게 아니에요 난 그냥 확실하게 분명히 만들고 싶어

그러나 실제로 빅 데이터에 대한 쿼리를 실행 시작할 수 있습니다 당신은 SQL의 기본적인 이해가있는 경우, 만에, 또는 당신은 당신이 프로그램에 몇 가지 배경을 가지고, 이해가있는 경우, 이 3 시간에 당신은 실제로 자신의 하둡을 만들 수 있습니다 클라우드에서 클러스터는 다음 하이브 쿼리를 실행 시작합니다 그래서 테라 바이트 또는 10을 처리 할 수있는 테라 바이트의 데이터는 더 이상 심지어는 큰 문제가 아니다 누구나 그렇게 할 수 있습니다 그러나 지금, 지금의 신흥 것은 그게 당신이 처리 할 수있다 실시간이 빅 데이터? 가있을 수 있습니다 이전 그래서이 사건이었다 당신은 하루 종일 데이터를 수집하는 것 그리고 하루의 끝에 처리합니다 그러나,의 트위터의 예를 보자 생각, 그래서 트위터는 이러한 추세 트윗 또는 추세를 제공합니다 해시 태그입니다

무엇 트위터는 당신에게 사람들을 준 경우에 대한 다음날 해시 태그 동향? 당신의 경험이 얼마나 어떻게 that– 것? 그러나, 실제로, 트위터를 보면 당신은 쿼리하고 동향 부여합니다 매우 자주 업데이트됩니다 내가 얼마나 자주 모르는, 어쩌면 5 분 10 분 하지만 그들은 당신에게 줄 경우 after– 심지어 네다섯 시간 후에, 그들은 더 이상 추세되지 않습니다 그래서 그들은 분에 얻을 것 트윗의 수를 상상, 30 지금 분,이 모든에 매우 효율적으로 처리되어야한다 우리는 데이터의 실시간 처리에 대해 얘기하고 그리고 우리는 실시간으로

대해 얘기 우리는 여기에서 실시간 분석에 대해 얘기하고 당신이 기대하는 수 그것은 정말 정확하게 실시간으로하지 않습니다 때로는 실시간 분석 근처라고 그러나 실시간으로 데이터를 처리 몇 가지 도구가 있습니다 또는 실시간에 가까운 그리고 우리는 한적 다룰 것입니다 도구 중 하나 다음 실제로 것입니다 자신의 실시간 분석 파이프 라인을 구축 부트 캠프의 끝에

그리고 여기 요, 분석 Analytics– 분석을 위해 우리는이 다른 도구의 무리, 전원 BI, Microsoft에서, 그뿐만 아니라 여기에 있어야한다 이 및 기타 도구가 가상화를 위해 존재하는 그래서 소련 문서 분석을보고 우리 때 가상화에 대해 이야기하고 있습니다 그래서이 의미입니다

나는 그것의 하나의 슬라이드에 응축 물질을 많이 알고, 그것은 will– 부트 캠프는 사실이 신비를 벗기는 것이다 그러나 생각은 너와 얻기 위해 실제로있다 당신이 그것을보고하고 감상을 시작합니다 무엇을 정확하게 일어나고있다 그리고 부트 캠프 실제로 것입니다 당신이 전체 생태계의 확실한 이해를 제공합니다 이 부트 캠프는이 알아서 것이다 이 보면, 과학 부분, 그래서 우리는 과학 부분에 더 많은 시간을 보낼거야 그러나 우리는 또한 엔지니어링 및 관리를 많이 할 것 부품

그리고 당신은이 말에 will– 난 당신이 이따가 생각 당신은이 항아리 무엇에 대해 잘 알고 있어야합니다 다섯 번째 하루의 끝에서 당신은 좋은 이해를해야합니다 의 확인이 모든 것은 무엇인가? 심지어 우리 그래서 우리가 가르 칠 수있는 방법이 없습니다 이러한 기술의 모든하지만, 여기에서 이렇게 하나의 기술에 이렇게 주머니를해야합니다, 거기에서 하나의 기술을, 등등 그래서 당신은 이해하지만, 당신이 이해하면 하나 개의 기술을 다른 기술은 정말 몇 가지 더 많은 기능을 일부 덜 기능, 하지만 그들은 같은 생각입니다

따라서 목표는 당신에게 더 크고, 더 높은 수준을 제공하기 위해 실제로 끝을 이해하는 것은 당신이 의사 결정을 할 수있다 그래서 종료합니다 귀하의 비즈니스에 대한 귀하의 회사에 대한, 자신에 your–합니다 그리고 당신은 종료에 대한 기본적인 이해 말을해야합니까 이것에 대해 질문이 있습니까? 내가 말했듯, 나는 어떤 질문을 주시기 바랍니다 생각합니다 이것은 매우 중요합니다 질문을하는 것은 매우 중요합니다

OK의가 계속하자 그래서 우리는이 whole– 보았다 빅 데이터와 어떤 뒤에 전체 아이디어 큰 데이터 파이프 라인이 생겼는데, 그리고 존재하는 기술의 일부는 무엇인가 수있는 작업의 일부 무엇인가가 큰 데이터를 처리 이제 우리는 실제로 데이터를 향해 움직이기 시작합니다 광업 및 기계 학습 및 예측 모델링 쪽 그리고 데이터 마이닝 작업의 다른 유형이있을 수있다 이러한 작업 생각할 수 as– 또는 우리는 그들이 설명하는 방법이 될 수 사용하는 몇 가지 방법 그들은 예측 방법이 될 수 있으며 규범적인 방법이 될 수 있습니다

그리고 대신 정의를 거치지 뭐 내가 부트 캠프 동안 계속 반복되므로, 나는 정의의 큰 팬이 아니에요, 사실 일이 예제를 사용하여 설명하려고 것, 그들 자신과 정의는 의미를 그럼 실제로 예를 살펴 보자

당신은 당신이 트래픽을 관리하는 할까 이 당신의 목표는 실제로 건 그래서 당신의 목표는 당신이 원하는 것을, 트래픽을 관리하는 것입니다 교통 체증이 일어난 때를 알고, 또는 당신은 교통 체증을 피하기 위해합니다 그래서 설명 방법은 트래픽이 있다는 것 잼은 이미 일어났다 그래서 그들은 상황을 설명하고 있습니다 용지 걸림이 had–하는 교통 체증은 이미 일어났다 그리고 암시 것은 지금 그것에 대해 뭔가를 할 수있다 우리는 일어난이 교통 체증에 대해 무엇을 할 수 있는가? 이와는 반대로, 내가 예측 방법으로 이동하는 경우, 당신은 지금 변화가 설명에서가 있음을 알 경우 예측에, 그것은 알리는 경고 목표이기도하다

그게 무슨 뜻 이죠? 교통 체증 다음 30 분 안에 발생하는 것입니다 그리고 지금 당신은 갑자기 것을 볼 당신을 이게 뭐야 후이 반대로 무언가가 다가오고 알고 그것은 hindsight– 아니다 돌이켜 보면 정보를 제공합니다 실제로이 정보를 얻고있다 심지어 일이 일어난 전에 그리고 물론, 암시 그것에 대해 뭔가를 할 것입니다 이런 일이 발생하기 전에 그리고 또 다른 하나는 규범적인 방법의 더 그 어떤 알리는를 포함 할 수있는, 및 경고 및 자문 역할

그게 무슨 뜻 이죠? 이 데이터의 동작은 교통 체증 때문에, 발생하지 않습니다 그래서 규범 행동이다 우리의 교통 체증은 다음 30 분 일어날 것입니다 그리고 당신은 아마도, 행동의 다음 과정을 수 트래픽을 라우팅은 I-5 근처 도로를 서비스합니다 그리고 I-5은 유사하게, 시애틀에서 고속도로이며,, five– 유입 트래픽을 차단 워싱턴 (520) 다리입니다 지금은 제가했습니다 때문에 실제로 일시 정지 싶습니다 오랜 시간 동안 말하기되었다

이게 말이 돼? 우리는 우리가 이것이 가능하다고 생각합니까? 우리는 어떻게 든 지난 5 년 동안의 모든 데이터를 수집하는 경우 트래픽에 대한 트래픽 패턴 방식을 had–가 그 주어진 아이디어에왔다, 당신은 모든 것을 생각 하는가 것이 가능에 대해 우리가 얘기하는 것을? 아니면 공상 과학 소설처럼 보이나요? 나는이게 뭐야 가능 확실 해요 그것을 어떻게하면 나를 위해 공상 과학 소설이다 그래서 우리는 절대적으로 그 살펴 보겠습니다 그리고 어떻게 부분이 예, 그것은 절대적으로 가능하다 그리고 실제로 지금 얼마나 쉬운 지 놀랄 것입니다

우리는 회사의 교육을 제공하고 그 아우디, BMW, 메르세데스가 소유하고, 나는 그것은 지리적 매핑 회사의 추측 그리고 이들의 모든 데이터는 그래서는 하나이고 소스의 그들은 다른 소스에서 나오는 데이터를 가지고있다 그래서 모든 자동차, 그들은 실제로, 모든 데이터를 다시 보내 가까이 대고 때 자동차는 어디에 있습니까? 어디 차는 설정 했습니까? 위치는 무엇입니까? 때 휴식을 맞았? 날씨는 무엇입니까? 온도는 무엇입니까? 그래서이 회사의 모든 이들 기업을으로 죠 수집 톤과 데이터 톤이다 그리고 어떻게 부분은 우리가 will– 우리는 우리가 시간을 보낼 것이다 5 일 50 시간을 보낼 것입니다 어떻게 '부분에 하지만, 제일 먼저 들어, 하나의 생각 우리는 그것도 가능하다 OK 볼 필요가있다? 그것은 일어나고 있습니까? 그래서 그래, 우리가 자세하게 방법 부분을 다룰 것이다, 특히 트래픽이 없습니다 관리

좀 다른 응용 프로그램이있을 것이다 우리가 모두 통과하지만 일단 당신은 어떤 도메인에 매핑 할 수 있습니다 OK의가 계속하자 예를 들어, 나는 카약 미국의 외부에 존재하는지 확실하지 않다 나는 아무 생각이 없습니다

그러나 카약 그러니까 만약 내가이 찾고 있어요 경우 웹 사이트입니다 내가 Kayakcom에서했던 검색 중 하나입니다

그래서 나는 시애틀에서 티켓을 찾고 있었다 특정 날짜에 샌프란시스코에 그리고 카약은 나에게이 일을했다 그것은 나에게 이런 가격 동향을 주었다 당신이 생각하는 것은, 자연이 예측이다 또는 자연 규범, 또는 자연의 설명? 당신이 내게 말하고 어떻게 생각하십니까? 이 예측하거나 설명 또는 처방인가? 나는 그것을 설명 생각합니다 그것은 설명이다

우리는 왜 그렇게 생각합니까? 이미– 네 그것은 역사를 가지고 있습니다 네, 그것은 기록 데이터의 is– 그리고 이것은 전통적인 BI입니다, 이것에 대해 생각 우리는 지금 바로 오랫동안에서 살고있는 것이다 보고서의 고객은 이미 우리를 떠났다 이것은 우리의 수익이었다

우리는 의류에서 많이 판매 있었다 스포츠에서 많은 판매 및 많은 판매 전자의 권리 그래서 자연의 설명이다 나 방금 건 이동하게되는거야 방법에 대한 방법이 사각형에 대해? 가격은 7 일 이내에 일어날 수 있습니다 이 예측은 규범, 설명,인가? 그것은 자연의 예측이다 네, 올바른 권리입니다 그래서 다음 규정 요소가있다 나는 그들이 처방을하는 방법을 모르겠어요

예측이해서 아마 처방이며, 그래서 조언을 구입합니다 하지만 당신에게 어떻게 아이디어를 제공합니다 이 회사는 실제로 모든 데이터를 활용하고 있습니다 그리고 다시, 당신은 가능한 카약이 무엇을하고 있는지 생각 하는가? 그리고 가끔 emphasizing–을 유지하려면 나는 명백한 부탁 해요처럼 내 질문은, 것처럼 보일 수 있습니다 하지만 난 그냥 안심하고 우리가 이해 안심하고 싶습니다 카약이 작업을 수행 할 수 있습니다 당신이 생각하십니까? 어떻게 당신은이 작업을 수행 할 수 있습니다 생각하십니까? 당신은 그들이 모든 데이터에 액세스 할 수 있습니다 생각하십니까 모든 역사적 가격의? 물론,이 all–입니다 나는 한적 일부 API를 얻을 수 있는지 확인 해요 나는 국제기구가 있다고 생각, 여행사 또는 기타의 IATA 국제 협회 내가 어딘가에서 쉽게 데이터를 얻을 수 있다고 생각 돈을 지불 한 후

그리고 그 후, 나는 약간 seasonalities 볼 수 있습니다, 날짜 무엇인지 도시의 이름, 무엇을 일주일의 날, 달의 날 무엇 이었습니까 주변의 모든 이벤트가 있었다? 그리고 나는 나에게 줄 수있는 모델을 구축 할 수 있습니다 가격이 상승 또는 감소하는 것입니다 여부의 아이디어 등등 그럼 다시 한번 살펴 보자, 설명 및 예측 및 규정의 모든 생각 해석학 그리고 그 순간, 진단 및 선제 무시 해석학 자, 내가 말했듯이, 설명 분석 우리의 전통적인 BI이었다 그리고 지금, 나는 관객의 배경이 무엇인지 확실하지 않다 바로 지금,하지만 당신은 그것이 얼마나 어려운 생각, 요즘, 실제로이 설명 분석을 얻으려면? 기업의 대부분은, 데이터베이스 패키지의 대부분, 데이터베이스 소프트웨어가 정말해야 이 파이 차트 및 막대 그래프와 추세 차트의 모든 박스 플롯과 내장이 모든합니다

그래서 질문을 할 경우 어떻게 지난 6 개월 동안의 마찰은? 어떤 고객이 우리가 잃어버린? 나는 비즈니스 소유자 해요, 나는 customer– 알고 싶다면 고객의 어떤 우리가 잃어버린? 다시 큰 문제로 (20)를 사용 almost–됩니다 이십오년 전에,하지만 지금은 대부분의 짓이야 오프 선반 데이터베이스 소프트웨어 오프 그들이 이 이러한 시각화의 모든 것이다 당신이 생각하는 것은, 지금 어려움의 수준 이 하시나요? 훨씬 잘하지 않습니다 그래서 어떤 선반 소프트웨어 끕니다 모든 데이터베이스 개발하는 것과 매우 빠르게 당신을 위해 이것을 설정합니다 그리고 비즈니스 가치, 물론, 매우 중요하다 일어난 후를 알고, 하지만 우리는 더 많은 일을 할 수 있습니다

그리고 예측 분석으로 이동합니다 바로 이전에도 진단에 가고 나는 그게 뭔지 다시 올 것이다 하지만 내가 무슨 일이 일어날 지 알 수 있다면 무엇 혹시 ? 어떤 고객은 향후 6 개월 만에 떠날 가능성이? 이제 설명에서 그 이상 여기, 이것에 대해 생각 나는 누군가가 이미 떠난 것을 이야기하고 있어요 이 경우, 나는 누군가이라고 말했다되고있어 계획 서비스를 남길 수 있습니다 누군가는보다 폰이나 오렌지로 전환 할 계획이다 또는 누군가는 아마존에서 할 계획이다 누군가가, 푸른로 전환 할 계획이다 또는 다른 회사입니다 그래서 분명히 더 많은 비즈니스 가치가 여기에있다 there–, 하지만 동시에, 난이도가 증가합니다

나는 규범 분석으로 모든 길을 갈 경우에, 그것은 – 또한, 그것은 나를주고있다 할뿐만 그것은 그 아이디어 might– 그것은 나에게 말하고, 발생할 수 이는 우리가 시도하는 경우 고객이 중지 될 수 있습니다 더 만약에 시나리오

우리가이 작업을 수행 할 경우? 이것은 우리가 상황을 완화 할 것인가? 당신이 보면, 서술 분석 그래서 대부분의 정보에 관한 것입니다 그리고, 우리는이 라인을 따라 이동, 우리는 통찰력에 대해 얘기하고 우리는 우리가 무슨 일이 있었는지에 더 많은 통찰력을 가지고으로 죠 그리고 어떤 일이 일어날 수 있습니다 우리가 넘어 가면 그 다음, 난이도가 올라가고 유지 하지만 비즈니스 가치는 올라가고 유지합니다 당신이 진단 분석을 보면, 그것은은

– 당신은 진단 분석을 생각하면 그것은 우리의 전통 깊은 데이터 분석 뭔가 및 비즈니스 분석 할 것이다 뭔가 지금 왜, 이미 일어난 우리는 고객을 잃지 않았다? 우리가 모르는 비록 우리가하지 않았다 customers–하는 사전에 알아,하지만 적어도, 우리는 이해한다면 우리가 고객을 잃은 이유는, 우리는 아마 수 미래에 그 일을 피하십시오 그래서,이 경우, 예측 경우에, 우리는 사전에 알고 있습니다

이 경우, 우리는 이해하고, 우리는 이유가 무엇인지 진단합니다 그것은 의미가 있습니까? 그것은 모든 사람에게 의미가 있습니까? OK, 너무 큰 당신이 볼 수 있으며, 우리는으로 죠 우리의 초점은 엄격 on– 될 것입니다 나는 우리가 과정에서 대부분의 시간을 보내는 것 같아요 우리는 몇 가지 진단 측면을 배울 수 있습니다 그리고 설명, 나는 초점의 대부분을 우리가 볼 수있을 거라 생각하지만, 예측 분석 주위 될 것입니다 이따가 예정 과정 동안 그리고 우리는 또한 실제로 진단 분석을 이해하게 될 것입니다

우리는 대부분 그 이해하지만 것 I 보다 일반적인 용어는 예측 분석 생각 그것은 우리가 집중해야거야 그래서, 다음 슬라이드에, 나는 몇 가지에 대해 이야기하는거야 나는 데이터 마이닝에 사용하는 기술 및 예측 분석 그리고 목표는 당신을 알리기 위해 실제로 이러한 기술이 존재한다는 것을 우리는 깊이에서이 모든 것을 다루려고 다섯 일 부트 캠프 동안 당신은 질문이있는 경우에 그래서, 물어 주시기 바랍니다

그러나이 기술의 모든 것을 가정하지 않는다 우리는 실제로 시간 다이빙을 많이 보낼 것입니다 이러한 기술의 각각의 미세한 세부 사항에 그것은 단지 지점을 통해 얻을 수있다 당신은 이미, 그래서 그들을 보이게 그들에 대해, 시간으로 생각하기 시작, 두 개 또는 네 개의 6 주마다 당신의 부트 캠프에 참석한다 당신이 올 때, 당신은 이미 알고 그것이 무엇이고 당신은 그것에 대해 생각 그것은 당신을 위해 뭔가 새로운 브랜드가 아닙니다

지금,이 예를 살펴 보자 우리는 지금 분류에 대해 얘기하고 그리고 분류는 간단한 데이터입니다 광산, 또는 기계 학습, 또는 예측 분석 작업 그리고 무엇을합니까 분류하는 것은, 그것이 너와 말할 것입니다 그것은 당신에게 몇 가지 서로 다른 결과를 줄 것이다 예를 들어, 예측하려는 경우 신용 카드 거래 여부 사기, 또는하지 사기, 그것은 분류 문제입니다

당신이 감지하려는 경우 예를 들어, 당신은 will– 그 카메라를 볼 수도 있습니다 그 얼굴 주위에 경계 상자를 만듭니다 당신이 얼굴을 가지고 때 카메라 앞에 온다 어떻게 그 카메라는 얼굴인지 아닌지를 감지합니까? 즉 분류 문제이다 그래서 분류 모델이있다 기반 뒤에서 실행 이미지의 모든합니다 얼굴 화상의 유무를 검출한다 그리고 결과의 불연속이있을 때마다 분류라고하여 예측 모델 문제

그리고 분류가 작동하는 방식입니다 의 여기이 예제를 보자 그리고 이것은 장난감 예이다 정부 기관 미국 그래서 그 모든 세금과 세금 환급을 처리 국세청, 국세청라고합니다 그래서 당신은 납세자의 수백만이 그리고 IRS는 실제로 감사 할 자원이없는 모든 세금 지금, 나는 당신을 요구하는 경우에, 당신은 어떻게 당신의 납세자을 감사 할 것 잠재적 인 사기? 어떤 사람 여부를 검출하기위한 전략을 것 잘못된 반환을 제기하거나 의도적으로했다 또는 실수로 사기 반환? 그래서 당신은 어떻게 생각하십니까? 이게 뭐야의 일부를 무엇입니까 당신이 사용할 수 would– 일부 기술? 그리고 내가 바로 당신을 부탁 해요 의미, 슬라이드 잊어

그래서 당신은 10,000,000 납세자가 있고이 자원을 가지고 단지 확인 만 납세자를 말한다 납세자가 너와해야하는 너와 것입니다 방법 당신은 테스트를 위해 선택해야하는 경우들이 사기를 저지르고 여부, 또는 자신의 소득 신고는 오류가있다 여부? 이견있는 사람? 모든 해킹? 모든 기본 기술? 당신이 올 수있는 건? 아 그래, 절대적으로 멋진 무작위 표본 추출 그래서 당신은 무작위로 10,000 명의 사용자, 10,000 납세자를 선택합니다, 납세자의 모든 중 그래서 그래서 마르코는 무작위 표본 추출을 제안했다, 이는 일 것입니다 그러나 무작위 표본 추출의 잠재적 인 약점? 그리고 나는 일하는 것이 임의 말하는거야 그러나 잠재적 인 약점? 누군가? 우리는 무작위 표본 추출이 사기를 많이 잡을 것이라고 생각, 우리는 10 %의 무작위 샘플을 채취하는 경우 또는 그 것이다? 우리는 단지 사기의 10 %를 캡처 것이라고 생각하지 않습니까? 아니면 할까

할 경우 OK, 호세 내 댓글 또는 무작위 표본 추출의 경우 응답 없음 이 좋은 여부? 예 OK, 그것은 is– 그래서 무작위로 작동합니다하지만 이것도 아니고 합니다 그것은 단지 small–를 캡처합니다 잠재적 인 사기의 작은 부분 집합

많은 당신이 할 수 없기 때문에 작동합니다 그래서 무작위로 그러나, 더 나은 예 패턴을 검색하고, 전적으로 옳습니다, 선택적 샘플링의 일종 그래서 내가 이렇게하면? 나는 올해의 세금을보고하고있다 그러나 지난 20 년 동안 나는 사기 누구인지 오른쪽 그렇지 않은 그래서 일부 기록 데이터를해야합니다

그래서 가정이 내가 여기이 가지고이 큰 테이블 내 기록 데이터이며, 히스토리 데이터는 나에게 말한다 누군가가 환불을 요청하는 경우, 그들은 의미 세금을 냈어요, 그들의 결혼 상태는 하나였다 과 과세 소득은 125K이었다 그들은 속임수하지 않았다 그래서이 과거에 납세자 중 하나였다 그럼, 환불을 요청하지 않은 다른 납세자가 그는 결혼을하고, 100,000했다 그는 속임수하지 않았다

그리고 나는 계속 그리고 다섯 번째 납세자, 그는 속였 어 보다 여섯 번째 사람은하지 않았다 일곱 번째 사람은하지 않았다 여덟 번째 사람은 실제로 세금 속임수 않았다

그래서 내 기록 데이터입니다 당신이 보는 경우에, 환불은 범주 형 변수, 결혼 여부 하는 범주 형 변수이며, 과세 소득은, 다시입니다 연속 변수입니다 정말 숫자가 아닌 범주입니다 그리고 누군가가 사기 여부 I 클래스 어떤 분류에 기인하기 때문에 호출 할 수 있습니다, 그러나 그것은 범주 형 변수이다 이 보면 지금, 나는 패턴을 찾을 수 있습니다 환불이 인 경우 즉, 말해 줄 수 와, 결혼 상태이이며, 과세 소득이입니다 사람이 속임수 것입니다? 이것은 우리가 분류 부릅니다

이 범주가 될 수있는 몇 가지 역사적 자료에 의하면, 이 연속 될 수 있습니다 나는 것을, 모델, 예측 모델을 함께 올라오고 있어요 미래의 데이터를, 저를 줄 것이다, 그것을 나에게 누군가가 속이려고하고 있는지 아이디어를 줄 것이다 여부 이 보면 그래서,이 모든 데이터는이 우리는이 데이터를 밀어 버린다 into– 우리는 훈련이 기록 데이터를 호출 데이터 또는 트레이닝 세트 그리고 우리는 훈련 세트가되면, 우리는 기계 학습 알고리즘에 나타납니다 즉,이 모든 데이터를 받아 학습 기계 학습 모델이라고 뭔가 그리고 우리는 내가 모르는 새로운 데이터에 대한이 모델을, 일단 나는이 걸릴 수 있습니다에 대한 아무것도, 테스트 세트에 전화 나는 모델을 줄 것이다, 우리는 모델을 제공하면 사람이 사람인지 모델은 나에게 말할 것이다 부정 행위 여부 것으로 보인다

그래서이 분류의 예입니다 그리고 우리는 깊이 분류 처리됩니다 우리는 부트 캠프 동안 그것을 할 때 우리는 분류에 많은 시간을 보낸다 이것은 단지 높은 수준의 생각이다 트레이닝 세트는 무엇입니까? 테스트 세트는 무엇입니까? 모델은 무엇인가? 그리고 -이 분류는 무엇입니까? 우리는 부트 캠프 동안이 들어갈 수 있습니다

이에 대한 질문? 확인의 확인을 큰의를 계속 할 수 있습니다 그리고 나는, 내가 당신에게 언급 않았다고 생각 나는 정의의 큰 팬이 아니에요 난 당신이 정의를 떠날 것입니다 그들은 공식적으로 정의를 사실상 내가 당신을 위해 그것을 떠나 그래서 난 그냥 가서 무엇을 설명합니다 이것은 당신이 슬라이드 덱을해야합니다 slide– 학습 포털 어제 약간의 변경을 그래서 객체 슬라이드 데크는 학습 포털에 있어야합니다 곧 따라서 응용 프로그램은 무엇인가? 직접 마케팅, 그래서 나는 확실하지 않다 어떻게 다른 나라에 있습니다

그러나 미국에서, 우리는 정크 메일을 많이 가지고 그것은 매일 우리의 사서함에 도착한다 온 종이의 많은입니다 회사 그래서 그들은 실제로 분류를 사용 직접 마케팅 대신 가능한 모든 고객에게 보내는 거기에, 우리는 사람들에게 보내 대해 어떻게 사람 자신의 연령에 따라 우리의 제품을 구입할 가능성이 성별에 따라, their–에 따라 그들은 이해를 바탕으로, 사는 곳 의 그들이 가정에서이 어쩌면 얼마나 많은 사람들이, 등등? 우리는 그렇게 할 수 있습니까? 사기 탐지, 우리는 어부가 사기 사건을 예측할 수있다 신용 카드 거래? 나는 그것에 대해 이야기했다 고객 이탈하거나 이탈, 우리가 할 수있는 고객이 될 가능성이 있는지 여부를 예측 경쟁 손실? 이 모든 분류의 예입니다

기술의 또 다른 시체가있다 우리는 부트 캠프에 올 때 우리는 깊이 다룰 것 알고 있기 때문에 난 그냥 그들을 언급 그들에게 중요하다 그래서 우리가 클러스터링 할 것은 우리가 동행입니다 생각입니다 그래서 컴퓨터는 숫자 만 이해합니다 텍스트가있는 경우이를 숫자로 변환되어야한다 내 남녀의 특성이있는 경우, 그것은 숫자로 변환해야합니다 내 차의 색깔 경우, 숫자로 변환해야합니다

컴퓨터 그래서 그들은 숫자를 이해합니다 그래서 이것들이 우리가 가지고있는 일부 데이터 포인트는 것으로 가정합니다 그들 각각은 뉴스 기사 수 있습니다 그것은 인간, 고객 수, 그것은 자동차 수 있습니다 그냥 아무것도 될 수 있습니다

그래서 이러한 개체의 동일한 종류가 있습니다 우리는 숫자로 변환 이제 우리는있어 X, Y, 및 이들에 의해 제시 오른쪽 Z 좌표 그래서 X는 자신의 나이 수 있습니다 Y는 소득이 될 수 z는 돈의 액수가 될 수 그들은 우리의 웹 사이트에 보냈다 OK 이제 클러스터링의 생각은 한 번입니다 당신은이 숫자 표현을 마련 당신을 어떻게 어떻게 너와을 당신은 서로 가까이있는 사람을 결합 어떻게 또는 1에서 서로 유사하다는 것을 그룹과 서로 유사하지 않은 사람 다른 그룹에? 그래서 클러스터링의 높은 수준의 생각이다

그리고,이 경우, 당신은 모든 생각을 볼 수 있습니다 이러한 점들이 하나의 클러스터로 온 것을 볼 수있다 여기에,이, 그들은 여기에 다른 클러스터로했다 그리고 이러한 점은 다른 클러스터로했다 그리고 그 생각은 우리가으로 죠 포인트를 원하는 것입니다 또는 고객, 또는 자동차, 내 말은 각각의 점은 일부의 엔티티를 나타냅니다 우리는에 관심이있다 그것은 제품, 자동차, 인간, 동물이 될 수 아무것도 막 그래서 서로 가까이 모든 것을, 그들은 가까이에 머물 와서 모든 것을 서로 같지 않다, 그들은 멀리 떨어져로 분리 가능한 한 그래서이 클러스터링의 생각이다

왜 우리는 그것을 할 것인가? 우리는 우리의 고객을 세분화 할 고객의 subset– 별개의 부분 집합에 나는이 예제를 가지고 그래서, 나는 아홉 명 고객이 하지만 모든 고객은 동일합니다 어쩌면이 두 고객, 그들은 내 고 가치 고객입니다 나는 spend– 할 어쩌면 나는 그들에게 더 많은 관심을주고 싶어 고 가치 고객하지 않습니다 이러한 고객 대 어쩌면 이러한 고객들은 사람들은 그 이러한 대 의류에 더 관심이있다 그 전자보다 더 관심 어떤 스포츠에 관심이 고객을 대 및 기타 제품, 같은 생각

우리는 여기에서 정의를 가지고있다 난 당신이 정의를 살펴 보자됩니다 우리는 때 부트 캠프 동안 세부에서 클러스터링을 다룰 것이다 그러나 이것은 당신에게 제공하기 위해 여기 있습니다 클러스터링이 무엇인지 생각 그래서 우리는 어떻게 비슷있는 점을 알 수 있습니까? 그래서 유클리드 거리의 멋진 방법입니다, 당신이 거리 공식을 기억한다면, 그것은 실제로 유클리드 거리 그래서 당신은이 두 점 사이의 거리를 가지고가는 경우 2 배 마이너스 1 개 제곱처럼, Y2 마이너스 (Y1)의 제곱, Z2 및 마이너스 Z1 제곱

전체 square– 그의 제곱근 즉 유클리드 거리라고합니다 그래서 한 가지 방법은 실제로이 두 가지가 얼마나 유사한 볼 수 그들이 메트릭 거리의 관점에서 얼마나 가까운 거리에 있습니다 확인을 유감 진행하시기 바랍니다 [마르코 질문] 아니, 난 that– 말했다 그래 그들은 훌륭한 마르코, 질문에 대한 감사입니다

아니, 그냥 있기 때문에 나는 할 수 없었다 종이에보다 입체적으로 그릴 그러나 이론적으로, 그래서 약이 항아리를 생각한다 당신이 아마존에 대해 어떻게 생각하십니까,이 해 보자? 그들은 얼마나 많은 속성 수 있습니다 각 고객에 대해 수집? 수백 수천하지 않을 경우, 어쩌면 수백 권리? 이 명확인가? 그래서 각 회사, 예를 넷플릭스를 들어, 당신은 넷플 릭스에 대해 어떻게 생각하십니까? 그들은 얼마나 많은 영화를 클러스터링하려면 그들은 특정 영화에 대해있을 수 있습니다 속성? 또는 아마존은, 얼마나 많은 그것은 수 속성 하나의 제품에 대한 있나요? 아마 수백 맞죠? 그래서 100 개 기능이 의지가 있다면 100 차원 공간이된다 이따가 것입니다 하지만 아이디어는 동일합니다 당신은 여전히 ​​같은 방식으로 거리를 취할 것입니다

마르코는 당신의 질문에 대답합니까? 네, 그것은 않습니다 그리고 당신은 또한 강력한 클러스터링을 찾을 수 있습니까? 지금 당신은 강한 클러스터링 어떤 것이라고는 말할 때? 가장 좋은 예측 예, 그것은 임시을하는 경향이 클러스터링 난 당신이 여부를 두 개의 클러스터를 참조하고 생각하는 것 충분되었습니다 또는 세 개의 클러스터는 더 잘 될 것입니다? 그래, 우리는 실제로에 대해 이야기합니다 얼마나 많은 클러스터는 좋다

그리고 우리는 자체 클러스터링에 약 2 시간을 보낼 것이기 때문에 거기에 일부 운동 우리가 실제로 클러스터링에 도착하면 그래서 그래, 우리는 들어갈 수 있습니다 우리는 수업 시간에 K-수단을 사용할 것이다 OK 그래서이 살펴 보자 예를 들어, 당신은 클러스터링를 보면, 그래서 Google 뉴스의 생각

Google 뉴스는 실제로는 see– 때 또는 야후 뉴스, 또는 아마존 뉴스 바로, 그래서 지금 그들은 모든 문서를 클러스터링 할 때 실제로 직접 가서 아무도 각 문서를 입력하지 않습니다 다른 카테고리입니다 그러나 그들이 일을 할 수있는 각 문서가 수도 있다는 것입니다 단어의 수를 기반으로 변환하는 발생, 다른 일을 기준으로, 다른 언어 기능, 당신은 벡터로 변환 할 수 있습니다, 일부 X, 일부 Y, 일부 Z 일부 X1, X2 등 일부 일부 Z2, 및 그래서 당신은 당신이 무엇을 할 것 인 지금이 숫자를 가지고 있고, 가까운 건 이 모든 문서입니다 그래서 당신은이 클러스터링을 만듭니다 다음 새 문서가 들어 오면 당신은 문서의 거리를 계산합니다 각각의 클러스터에서 그리고, 그 기반으로, 당신은 결정한다 문서의 종류 여부입니다 그리고이 이해가됩니다 우리는 텍스트 분석에 시간을 보낼거야 우리는 또한 클러스터링에 시간을 보낼 것입니다 그래서 훨씬 더 의미가 있습니다

그러나, 높은 수준에서, 우리는이를 시각화 할 수 있습니까? 그리고 가끔은 당신이있을 때, 생각 처음이보고, 나는이게 뭐야 생각 나의 이해는 그 사람입니다 become– 텍스트 수있는 방법은 하드 실제로 시각화 찾을 텍스트 문서는 숫자로 변환? 그러나 이것은 내가 전달하고자하는 것입니다, 여기 의사 소통을합니다 너와는 당신이 볼합니까? 이 일이 일어날 수있는 방법에 어떤 의미가 있습니까? 그래서 대답은 '예입니다 있으리라 믿고있어 의 이동 계속하자 네, 감사합니다 호세 그래서 연관 분석하는 다른 형태가있다

그리고 당신은 식료품 점에 가면, 식료품 매장마다 누군가가 구입 볼 것입니다 그래서 그들은 각 체크 아웃시 볼 것 각 체크 아웃 당신은 우유, 계란을 가지고 있고, 우유, 빵 그리고 아마도 몇 가지 체크 아웃 누군가에 구입 우유, 계란, 빵 그리고 누군가가 화장실 롤, 달걀을 샀다 그리고 지금 그들이 할 것 그들이이다 일부 협회 분석을 수행하려고 할 것입니다

그리고 우유있을 때마다 그들은, 그래 내 말은 말할 것이다, 항상 빵이 포함되어 있습니다 계란이있을 때마다 그리고, 43 %가있다 – 우유를 구입 한 사람들의 43 %는, 또한 계란을 샀다 그래서 그들은 실제로 지속적으로이 항아리를 할 그들의 재고를 최적화하고 이러한 분석, 다음 선반에 자신의 위치를 ​​최적화 등등 그냥 고객을 위해 쉽게 만들려면 그리고 스스로가 더 많은 수익을합니다 예를 들어,이 경우, 당신은이 항아리를 보면 이 보면 어떻게 너와을 당신은 어떻게 규칙을 발견 할 수 있습니까? 예를 들어, 빵, 콜라, 우유, 맥주, 빵, 등 맥주, 콜라, 기저귀, 우유합니다

당신이 자세히이 보면, 규칙 그래서 발견 된 우유가있을 때마다, 콜라가 있다고합니다 이 보면, 첫 번째 트랜잭션에서 우리는 우유를했다, 코크스가 있었다 그리고 거기 우유, 그리고 콜라가 있었다 그리고 우유, 콜라는 없었다 그리고 우유, 콜라가 있었다

그래서 세 우유가 있었다 때마다 네 번, 중, 콜라가 있었다 그리고 마찬가지로 우리가 함께 기저귀와 우유를 볼 때, 그래서 기저귀, 우유 기저귀와 우유가있는 경우, 당신은 맥주가 있습니다 당신은 기저귀와 우유가있을 때, 당신은 맥주가 있습니다 그리고 기저귀, 우유, 코크스가 권리입니다

그래서이 규칙의 일부 그들이 learning– 식료품 가게 될 것이다, 그들은 모든 시간을 학습 할 수있다 그냥 그들의 재고를 최적화 유지 선반에 배치 그리고 실제로이 같은 일을 볼 수 있습니다 때 가끔 식료품 점에서 완전히 관련이없는 몇 가지를 볼 것 하지만 그들은 이유가 건 상점, 그들은 실제로 넣어하는 이유가 그들은이 일을 함께 배치되는 것을 알고 있기 때문이다 그리고 그들은 쉽게 액세스 할 수있는 경우, 사람들은 그들을 살 것입니다 그래서 전체 좋습니다 그리고 여기에 몇 가지 더 많은 애플리케이션이있다

난 당신이 통과 할 것이라 생각합니다 우리는 남은 15 분을 그리고 내가 다섯 개 가지 이상의 슬라이드가 있다고 생각 내가 전에 완료 할 필요가있다 그래서 나는 당신이 실제로이 슬라이드를 통해 이동하게됩니다 또 다른 예는 회귀이다 대신에 우리가 예측하는 때 회귀입니다 동행입니다 그래서 당신은 분류를 알고있는 경우, 우리는 몇 가지 변수, 몇 가지 기능을 사용하고 그리고 예, 아니오 대답 여부를 예측, 얼굴 또는 비 얼굴의 대답

그러나,이 경우, 우리는 연속 번호가 예측된다 그래서이 로우 (Zillow)에서 예입니다 나는 그것을 축소됩니다 너희들이 집에 숫자를 볼 수 있을까요? 큰 OK, Zillow를 실제로 us– 제공하는 웹 사이트입니다 있도록 그리고 그것이 유럽에서 생각하지 않습니다 우리가 여기 미국에서 그것을 가지고 있습니다

그래서 그들이하는 일은 그들이 어쩌면 범죄를 취할 것입니다 집의 속도, 가능성이 얼마나 좋은 학교입니다 그 인근 지역에있는 시스템 어떤 압류가 있었 여부? 대중 교통은 (는) 사용 가능 여부? 집의 이전 판매 가격은 무엇입니까? 그리고이 많은 양의 데이터를 기반으로, 히스토리 데이터 이웃에 대한, 집에 대한, 일반 경제, 경제 상태에 대해 그리고 그들은이 사이트를 가지고, 그것은 Zillow를 COM라고 그리고 그들은 실제로 집의 가격을 예측하는 것이다

그래서 이것은 regression–의 예입니다 회귀 모델 그래서 당신은 변수의 무리를 복용하고 그리고 집의 가격을 예측 나 정말 숫자를 예측 그리고 미래의 주가 될 수 있습니다 그것은 당신이 할 것입니다 얼마나 많은 돈이 될 수 있습니다 그것은 당신이 임대 얼마나 많은 자전거가 될 수 있습니다

그것은 당신이 임대 얼마나 많은 차량이 될 수 있습니다 그것은 your–에 표시됩니다 얼마나 많은 고객이 될 수 상점이다 그래서 당신은 할 때마다이 할까 당신은 얼마나 많은 문제에 직면하고 있습니다 또는 얼마나 당신은 회귀 알고리즘을 사용하지 않습니다 분류 알고리즘

분류 가능성의 고유 집합이므로 와 연속 번호 등이 그리고 우리는 회귀 분석의 세부 사항을 얻을 것이다 뿐만 아니라, 단지 확인합니다 그냥 알려합니다 그래서 회귀는이 권리만큼 간단합니다 예를 들어, 과거에 알고, 그래서 어떤 변수로로 X의 생각, , 집에서 객실의 수의 숫자를 말한다 그리고 집의 가격은 Y입니다

그래서 역사적 패턴을 기반으로, 당신은 어떻게 보이는지 예측하기 위해 노력하고? 집의 가격은 무엇을 할 것인가? 그러나 현실 세계에서 그것은 단지, 객실의 수하지 않을 수 있습니다 그것은 another– 수 집의 영역을 커버 할 수있는 또 다른 요인 너무에 집의 가장 큰 판매 가격, 그리고 수 있습니다 우리는 부팅하는 동안이의 세부 사항에 얻을 것이다 We'll– 캠프 그리고 또 다른 예를 들어, 당신이 보면 그래서 당신은 웹 사이트에 가서 당신은 검색 엔진에서 검색 할 때 당신은 search– 그리고, 이러한 검색 엔진 실제로을 검색 쿼리를 수행 , 클릭의 가능성을 예측 광고가 클릭하거나되지 수 있는지 여부

그리고 클릭의 그 확률에 따라, 일부 다른 요소는 우리가 들어갈 싶지 않아, 그들은 실제로 당신에게 특정 순서에 따라 광고를 게재합니다 그래서 그들은 클릭의 가장 높은 가능성을 가진 광고를 유지합니다 상단, 등등 그 다음 하나, 그 다음 하나, 그리고에 나는 당신에게이 질문을하면 어떤 일이 무엇 비슷해 기능은이 광고에 대해 고려할 것? 그래서 만약 내가 개 음식을 찾고 있어요, 어떤 광고 클릭의 가장 높은 확률을해야합니까? 이 예측 모델을 구축한다면, 바로 아무것도 모른 채 그래서 아직 회귀를 모르는 이것도 아니고 거 알아, 하지만 당신이 걱정하는 것입니다 것들 중 일부는 무엇인가? 어떤 광고의 강력한 예측 인자가 될거야 클릭 할 것입니다? 그냥 your–가 가지고 있지 않는 것을 사용 바로 기계 학습 할 수 있습니다 나는 your– 않습니다 단지 무엇을 의미 직관적 인 대답은 여기에 무엇입니까? 클릭하거나되지 않을 것입니다 등의 여부를 어떻게 결정할 것인가? 아마도, 굵은 텍스트, 확인합니다 그 밖의 무엇? 정확한 일치, 예 그래서 예를 들면, 나는 개 사료를 찾고 있어요 경우 그리고 그것은 나를 보여, 나는, BBC

com을 모르는 그것은 감지 권리를하지 것이다 그래서 쿼리 사이의 의미 적 일치이 있어야한다 및 광고 자체 당신이 위치를 결정하는 경우 그러나 호세 기반 클릭의 확률 그래서 위치가 실제로 결정됩니다 우리가 예측하고자하는 수에 따라 광고가 더 자주 클릭 한 경우에 그래서 당신이 생각, 과거에 기회가있다 그것은 그 뿐만 아니라 미래에 더 자주 클릭 할 것인가? 당신은 좋은 지표가 될 수 있다고 생각하십니까? 좋아, 그럼 네 그래서 우리는 아마이 예제에 들어갈 것 같아요 우리는 regression– 볼 때 다시 우리는 나중에 회귀의 예를 볼 때

하지만 지금, 당신에게 아이디어를 제공합니다 우리가 어디는이 측면에서입니다 또 다른 기술과 사용을 많이 가지고있다 그리고 회귀 및 분류 지금까지 가장 일반적으로 사용되는 기술로 있습니다 우리는 당신이 아주 잘 그들을 이해하고 있어야합니다 수 있습니다 자, 타 카테고리가 존재하는 사기처럼 이상 또는 편차 탐지라고 감지, 신용 카드 사기 탐지, 네트워크 침입 감지 및 봇 탐지 및 봇 트래픽 그래서이 모든 응용 프로그램의 또 다른 몸 우리는 잘 부트 캠프 동안 그것에 대해 이야기 할 것이다 지금 그래서 여기에 몇 가지 과제는 무엇인가? 그래서 나는 모든 기술하지 끝났어요 모든 기술,하지만 몇 가지 기술 나는 제한된 시간에 언급 할 가치 선언 것이다

그래서 몇 가지 과제는 무엇인가? 이 때 다시 내 대학원 학교 일이 너무 밝혀 내가 작업 한 가장 큰 데이터 세트 약 500메가바이트했다 내가 joined– 때 내가 빙에 대한 작업을하는 데 사용되는, 내가 제대로 자신을 소개합니다 부트 캠프 동안 다시,하지만 난 시작했을 때 빙을 찾고 우리는 실제로 테라 바이트의 수십를 수집했다 매일의 데이터 그래서 지금 많은 알고리즘들이 작업 할 수 있다는 것을, 이것에 대해 생각합니다 그들은 작은 데이터 세트 작업을 완전히 잘 될 수 있습니다 그러나 갑자기, 당신은 큰 데이터 세트가있을 때, 갑자기 큰 도전이된다

그래서 확장 성이 큰 문제입니다 그리고 그 처리 될 필요가있다 그리고 솔기 기계 학습 알고리즘, 그것은 작은 데이터 세트를 작동 할 수 있지만 그렇지 않을 수도 큰 데이터 세트에서 작동합니다 차원은 일반적으로 어떤 일이 발생 입니다 당신은 IRS 예 곳을 기억한다면 우리는 누군가가 커밋 여부를 예측했다 세금 사기 여부, 당신은 우리가 talk–했다 그들이 결혼 여부, 혼인 상태보고 여부가 환불 여부를 파일, 또는 여부, 및 소득 것이었다 그래서 충분히 쉽게,하지만 현실 세계에서, 우리는 세 개의 열을 고려하지 않는다 또는 데이터의 세 가지 기능을 제공합니다

그리고 당신은 더 많은 기능을 가지고, 당신의 다시 기계 학습 알고리즘 그들은 어려운 실제로 올 발견 좋은 예측 모델 그래서 기능의 수입니다 또는 다른 요인 당신이 고려하고 그 뭔가를 예측 그것도 사실상이다 영향을 것을 즉 데이터 마이닝에 큰 도전입니다 그리고 세 번째 것은 복잡하고 이질적인 데이터입니다 모두는 아닙니다 당신이 좋아하는 형식의 데이터를 저장하고있다 어떤 사람들은 당신이 사용하고있을 수 있는거야 텍스트 데이터를 읽고있는 일부 블로그, 당신은 어떤 트윗을 얻고 소식

어쩌면 일부 데이터는 비디오 또는 오디오 형식으로되어 있습니다 일부 데이터는 일부 데이터는 SQL 데이터베이스에있는 모든 숫자입니다 일부 데이터가 아닌 SQL 데이터베이스에 앉아있다 그래서 당신은 variety–이 복잡성을 처리 어떻게 데이터의 이질성 데이터 품질, 당신의 가치는 누락, 당신은 당신이 아니라는 것을 확인해야 데이터에 봇을 복용 품질은 큰 요소이다

그리고 당신은 당신의 dataset–에 대해 걱정하지 않는 경우 데이터의 품질, 다음 너와 당신이 당신의 데이터에서 배울 무엇이든, 오해의 소지가 될 것입니다 데이터 소유권 및 유통, 많은 양의 데이터 때때로 당신은 당신이 그것을 유용 할 것입니다 수 있다고 생각합니다, 하지만 당신은 그것을 보유하고 있지 않습니다 어떻게 데이터를받을 수 있나요? 그것은 다른 부서 또는 다른 팀이 될 수있다 회사 내, 또는 완전히 될 수있다 다른 어떤 자 어떻게 너와는 어떻게 데이터에 액세스합니까? 당신은 비용을 지불해야합니까? 얼마나 지불해야합니까? 그리고 그것은 자신의 회사 내에서 사람의 경우, 당신은 어떻게 데이터에 대한 액세스를 얻을 수 있습니까? 그래서 이들은 진짜 도전은 사용자가 액세스 것이다 개인 정보 보호, 몇 가지 정보는 당신이 할 수있는 것입니다 또는 데이터를 사용할 수 없습니다? 때문에 당신이 포기하는 여러 가지가있다

그들은 매우 유용 할 수 있지만, 당신은 할 수 정보를 수집하거나하지? 또는 당신은 당신을 수 있습니다 수집하는 경우 이 정보를 사용하거나하지? 반응 시간은 확인 당신은 멋진 기계를 가지고 사기를 예측 알고리즘을 학습 하지만 당신의 회사는 사기를 감지하고 싶어 오 일어나고 그 분하지만 컴퓨터에서 학습 알고리즘, 방법은이 설정 그것은이 마련하는 일을한다, 뭔가 여부 봇 여부입니다 반응 시간은 중요한 권리입니다 그래서 께 다시 원하는 그것은 당신이 그것을 할 수 있는지 여부 만이 아니다 당신은 얼마나 빨리 할 수 ​​있습니까? 그래서 또 다른 도전 때문에 지금의 우리 하나 또는 두 개의, 또는 데이터의 다섯 메가에 대해 이야기하지 않습니다

우리는 어쩌면 수백 테라 바이트 나에 대해 얘기하고 데이터의 가능성 페타 바이트 어떻게 데이터를 처리하고 반응 할 일정한 시간에? 그리고 많은 다른 도메인 특정 문제가 있습니다 there– 우리는 실제로 이러한 얘기를 유지합니다 모든 오일에 걸쳐 나는 전에 이것에 대해 질문이 건 이동 나는 다음 슬라이드는 마지막 슬라이드 생각? 그리고 우리는 할 수 있습니다 질문? OK, 좋은 OK 따라서 빅 데이터의 다섯 대의 개념이있다 그래서 당신은 속도와 볼륨과 그 모든 말을 들었 그래서 다섯 빅 데이터의 대 무엇인가? 그래서 볼륨, 너무 오래 전에 우리가 had– 데이터를하지 생각 나는 가장 큰 데이터 세트 기가 바이트 수 있습니다 의미, 하지 백메가바이트 경우, 이제 우리는있어 거대한, 거대한 데이터 세트에 대해 이야기

그래서 우리는 데이터의 엑사 바이트에 테라 바이트가 우리는 처리 할 필요가있다 그리고 그것의 속도 측면이있다 그 데이터는 동작이다 아직 서 있지 않습니다 그것은 지속적으로 이동 도착한다 생각해 당신은 주가 말을 예측하고 있음 다른 많은 요인에 따라

또한 현재의 재고를 통합하는 가격 및 소셜 미디어 활동, 그 재고 주변에있는 페이스 북 활동, 또는 트위터 활동 데이터는 고속, 고속에서오고있다 어떻게 너와는 어떻게 섭취하고 데이터를 처리해야합니까? 다양한 데이터의 일부가 구성된다 일부 데이터는 텍스트입니다 그 중 일부는 오디오 같습니다

그들 중 일부는 숫자와 멀티미디어입니다 데이터의 서로 다른 형태의 다양한 있습니다 당신은 어떻게 처리하나요? 그리고 데이터의 정확성 데이터는 의문이다 임의 수, 클릭 수, 자동화 된 트래픽, 어떤 로봇을 잃었다 어떤 불완전, 어떤 지연, 일부 데이터 시간에 도착하지 않았다

당신은 무엇을해야합니까? 그리고 데이터의 data– 값 모든 데이터가 같거나 아닌가? 일부 데이터는 추가 정보가있을 수 있습니다 일부는 적은 정보를 가질 수있다 일부는 더 통찰력을 가질 수있다 일부는 덜 통찰력을 가질 수있다

따라서 빅 데이터 주위에 다른 많은 도전이있다 우리는 실제로 이러한 모든 논의 많은 시간을 보낼 것입니다 이 모든 주위 토론을 가진 그래서 오늘의 아이디어는 실제로이었다 이 모든에 노출 얻을 수 있습니다 당신은 당신이 나타날 때까지 생각하고 우리가 무슨 말을하는 건가요의 좋은 감각을 가지고있다 그리고 그것에 대해입니다 나는 이것이 할까 생각 그게 내가 오늘이 전부입니다 당신은 질문이있는 경우에는, 나는 이상입니다 질문에 답변을 드리겠습니다 당신은 앞으로 몇 웹 세미나를 가져야한다 당신이 직접 참석할 수 있는지 확인하십시오 그들에 참석 않습니다 당신은 데이터 마이닝의 기초가 오는 것 R과 푸른 기계 학습 스튜디오 소개 아마존 기계 학습

그들 모두는 발생합니다 그리고 경우에 당신은, 어떤 이유로, 그것을 할 수 없습니다 사람을 만들려고하지만, 당신이 만족 할 수없는 경우 반드시 당신을 비디오를 시청 그리고 그 세미나의 일부, 일부 퀴즈가 있습니다 뿐만 아니라 당신이 가지고 있다는 건 나는 당신이 필요하지만 them– 일을하지 않는 의미 우리가 당신을 귀찮게하겠습니다, 우리가 생각 나게하겠습니다 당신은 퀴즈를 할 수 있습니다 그것은 우리에게 좋은 이해를 제공 그래서 당신이 오기 전에 당신이 자료를 검토 한 것으로, 당신이 모든에 가면 훨씬 더 도움이 될 것이기 때문에 오는 전에 내용 내가 어떤 질문에 대답 왔어요 그래서 알려 주시기 바랍니다 그리고하지 않으면 것은, 난 그냥 끊고 비디오 것 학습 포털 나중에 오늘로 사용할 수 있습니다 OK 그래서 그래, 우리는 실제로 당신에게 다섯 번째 웹 세미나를 보내드립니다

나는 질문이 다섯 번째 웹 세미나 초대가 아니라고 생각 그곳에 예, 모든 너와의 어쩌면 당신의 많은은을받지 못했습니다 그래서 나는 그것이 곧 발송해야합니다 OK, 고마워요, 여러분 그것은 당신을 가진 좋은 한 후 나는 사람이 당신을 볼 수 있습니다

Google Cloud Platform Live: Big Data, Open Source and Google Cloud Platform

나는 우리가했습니다 작품에 대해 이야기 할 것입니다 빅 데이터 오픈 소스 소프트웨어가 실행되는지 확인하기 위해 수행되었다 원활하고 효율적으로 구글 클라우드 플랫폼에 지금, 나는 큰 문제가 기본으로 시작하려면 그것은 무엇을 정확하게있는이 모든, 구글의 빅 데이터 오픈 소스 소프트웨어를 실행하는 것을 의미합니다 클라우드, 둘째, 그 이유는 당신에게 중요한

지금, 당신은 웹 애플리케이션을위한 멋진 아이디어가 상상한다 어쩌면 당신은 점심 식사 시간이 그것에 대해 얘기했습니다 당신은 그것을 위해 가기로 결정한다 당신은 주말까지 코딩 당신은 발사 버튼을 누르십시오 그것은 세계의 나머지 부분을 밝혀 아니라 당신이 뭔가에있어 생각한다 그래서, 당신은 누군가가 레딧에에서 기사를 게시 알고, 당신이 그것을 알고 전에 Slashdot의 기사가 나타나고, 당신은 하룻밤 만 새 사용자를 가지고있다

그래서 무슨 일이? 음, 모든 너무 자주, 이야기는 바로 거기에 끝납니다 서버가 녹아하고 사용자 신속하게 서비스를 사용할 수없는 사이트에 대한 관심을 잃게됩니다 그러나, 가정의 실행 취소 버튼을 눌러 보자 당신은 구글 앱 엔진으로 가서, 앱 원활하게 확장 당신이 의도 좋아한다 그래서 지금 당신은 만 행복 새로운 사용자를 가지고있다 그래서 다음 단계는 무엇인가? 알고 보니 글쎄, 인생은 좋아 당신을 커브 공을 던져

그래서 당신은, 봇 및 스팸이 표시 참조 정크로 포럼을 홍수 멀리 사용자를 운전 이제 10 사용자처럼했을 때, 그냥 로그를 안구 꽤 쉬웠다 그리고 몇 IP 주소를 금지하고 그것을 함께 할 수 그러나 그것은 단지 시선을 밝혀 든로 지금 만 사용자 및 컴퓨터에 확장되지 않는다 지금이 로그 파일의 테라 바이트를로드 거부합니다 그래서 당신은 바퀴를 개혁하고 자신을 찾을 수 있습니다 당신은 빠른 프로그램을 작성할 수 있습니다 자동으로 이러한 로그를 처리하기 위해, 이러한 스팸을 잡으려고

어쩌면 당신은 찾을 수 여러 컴퓨터에서 실행해야합니다, 그래서 당신은이 작업을 자동화하는 컨트롤러 프로그램을 작성할 수 있습니다 그래서 작품의 하루의 가치로 시작 빨리 당신이 방금 발견과 끝 작품의 주 가치 그리고 일주일 후, 당신은 뒤에 한 달에있어, 그리고 그 사이에, 당신의 웹 사이트는 손실의 원인이되고있다 음, 다시 실행 취소 버튼을 눌러 보자 당신은 바퀴를 재발견하기 위해 무엇을 가지고 있지 않은 경우? 어떤 버튼 만 클릭하여 경우, 당신은 모든 도구 당신은 당신의 스팸을 해결하기 위해 필요했다 문제 점심 전에 당신은 할 수 다음 킬러 애플리케이션을 구축하는 하루의 휴식을 보내고, 향후 10 만명의 사용자를위한 다음 기능을 구축? 당신은 정말 구글에 차고 크기에서 무엇을 확장 할 수 있다면 데이터 센터 크기의 하룻밤? 그것이 나오는 것에 따라, 그것이 정확히 무엇을의 구글의 클라우드에 오픈 소스 빅 데이터 소프트웨어를 실행 모두에 관한 것입니다

이제 막 역학의 일부에 들어가 여기서 실제로 구글의 클라우드에서 실행, 이 퍼즐에 두 개의 큰 조각이있다 한편, 우리는 최대한 활용 한 구글의 인프라 오퍼링 이제 전통적으로, 당신은 크게 선행 투자를 한 경우 하드웨어의 많은, 당신은 될 겁니다 특정 크기의 모든 기계에 고정 된 모양, 모든 너무 일반적으로, 당신은 찾을 수 있습니다 자신은 끝없는 시간을 낭비하고 돈 소프트웨어를 구축 그들에 맞게 노력이 금형에 맞게 시도 이 고정 된 형태로 클라우드, 우리는 다운이 거꾸로 돌립니다 그래서 당신은 그러나 소프트웨어를 작성해야 그것은 자연의 느낌, 응용 프로그램에 대한 귀하의 소프트웨어를 작성 논리, 그들은 자원을 얻을 완벽하게 사용 사례와 일치합니다

일정한 형상의 아마도 가장 악명 예 당신은 시간 차원을 하드웨어를 구입하면 될 것이다 매우 단단하다 이 연속 블록으로 끝날 온 – 프레미스 하드웨어 시간의 당신이 그것을 구입 시간 사이 깨지지입니다 그리고 시간이 당신이 그것을 버릴 준비가 된 것입니다 그럼 클라우드, 왜 단지 여러 일회용 클러스터를 얻을 수 없습니다 대신? 오늘 할 일부 데이터 분석을 얻을 필요가있는 경우, 이유는 여러 클러스터를 실행하지, 각 분석 자신의 클러스터가 스스로 사용하는됩니다, 및 워크로드 대신 이제 끝내야 라인에서 기다릴 필요 퍼즐의 두 번째 작품이다 반드시 단지보다는 구글의 플랫폼을 최대한 활용 함께 덕트 테이프로 작은 부품들을 잔뜩 가지고 그리고 이것은 어디 우리가 일을 해왔입니다 당신은 모든 도구를 가지고 있는지 확인하기 필요한 라이브러리는 하나의 원활한 경험을 확인합니다

우리는뿐만 아니라, 당신이 당신의 오픈 소스 도구를 사용할 수 있도록하려면 높은 값 Google 서비스로, BigQuery를 같은, 와 믹스 앤 매치하고 원활하게 상호 운용이 동일한 데이터에 그냥 어떤이의 아이디어를 제공합니다 매우 높은 수준의보기에서처럼 보인다 의 데모 시스템으로 가자 여기 무슨 일이 일어나고 있는지에 대해 좀 더 설명하겠습니다 후드 아래,하지만 당신은 단지 그것이 어떻게 생겼는지 볼 수 있습니다 내가 가서의 88 코어 클러스터를 배포하는거야 완벽하게 모든 큰 데이터가로드 분석 오픈 소스 소프트웨어는있다 그리고 – 나는 실제로 command–를 입력해야 우리는 조금 나중에 어떻게되는지 볼 수 있습니다 그럼 이제 슬라이드로 돌아 가자

그래서, 당신은 눈치 챘을 수도 하둡 마지막 슬라이드의 제목이었다 우리는 정말 모든 빅 데이터 오픈 소스에 대해 얘기 여기에 소프트웨어 그러나, 단지, 하둡 환경의 조금을 제공합니다 하둡은 인에 중요한 역할을하고있다 최초 오픈 소스 중 하나 맵리 듀스 패러다임 구현 그리고 최초의 널리 사용되는 소프트웨어 프레임 워크 중 하나, 이는 궁극적으로이 내결함성을 제공 필요한 기계는 정말 낮은 장벽을 제공합니다 시작하는 항목은 큰의 사용이 분산 만들려면 범용 하드웨어 클러스터 그리고 이것은 정말 갈 빅 데이터를 사용할 것을 정말 주류는 오늘날 무엇을 성숙 도움이됩니다 최근에, 우리는 하둡 봉사 참조 수렴 점으로 중요한 능력이다 그래서 나는이 의미하는 것은 확실히 아니다 아래 앉아 RFC를 쓸 수 있지만 무엇 우리는 몇 가지 유기 지역 사회의 합의가 구동이 특정 행동 위에 수렴 하둡에서 나온 특정 인터페이스

그리고이 중 하나의 특정 예를 들어, 하둡 분산 파일 시스템이며, 우리가 볼 경우 데이터 및 분석이 성장함에 따라 그, 생태계 도구의 다양한 세트로 성장함에 따라, 이러한 모든 도구는 상호 운용성을 약속 할 수 있습니다 단순히 데이터 구현의 미덕과 하둡 분산 파일 시스템 그리고 그 하나 개의 제품으로 우리를 제공합니다 지금 사용하는 오늘날 우리가 사용 가능하고 사용할 수 있는지, 이는 하둡에 대한 Google 클라우드 스토리지 커넥터입니다 이는 상기 표준화 위에 구축 하둡 파일 시스템 인터페이스를 구현하여 그래서이 허용하면이 커넥터를 설치하는 것입니다 당신의 하둡 클러스터 위에 및 교체 데이터 액세스의 적어도 일부, 또는 전부, 구글 클라우드 스토리지 대신 하둡 HDFS를 사용해야합니다 우리는 자동 설치를위한 도구를 제공합니다 및 중,이 같은 당신이 할 수 구성 하이브리드 모드에서 실행 그래서 자연스럽게 그 데이터가 의미가 무엇인지 마이그레이션 시간이 걸릴 수 있습니다 함께 HDFS와 Google 클라우드 스토리지에 넣어, 또는 새로운 배치 작업을 위해, 그것은 단지 적합 할 수 있습니다 모두 어떤 HDFS없이 실행합니다

우리는 스크린 샷을 가지고 있지만의 데모 시스템으로 가자 라이브는 항상 낫다 그래서 앞서 가자, 우리는 여기에 열린 하둡 클러스터가 GCS 커넥터가 설치되어 있어야합니다 그래서 우리는하자 여기 왕자님과 같은 정보가 표시됩니다 단지 file–하자 반향을 만들 here– 우리는 단지거야 클라우드에 인사 및 작성 "hellotxt를

" 그래서 우리는이 파일을 내 로컬 노트북에 작성되었다고 볼 수있다, 우리는 Google 클라우드에 여기에 갈 수 있습니다 콘솔 그리고 – 아니, 아니 새로운 folder– 우리는 우리의 친숙한 GUI를 통해이 "안녕하세요"파일을 업로드 할 인터페이스를 제공합니다 우리가 볼 수 있듯이,이 구름 부분이다, 우리가 의도 한대로 모든 것이했습니다 이제 우리가 할 수있는 것은 우리가 우리가 하둡 파일을 찾을 것입니다 시스템 쉘이이 하둡 클러스터에서 사용할 수 있습니다 우리는 그냥 똑같은 file– OK 것을 줄일 수 있습니다 나는 here– 뭔가를 잘못 입력 우리 우리는 그 같은 파일에게 우리가하는 것과 같은 방식으로 액세스 할 수있는 참조 하둡 파일 시스템 쉘을 통해, 우리가하는 것처럼 GCS GUI를 통해,로 우리는 GCS 명령 줄을 통해 것 도구 인 gsutil 그럼 슬라이드로 돌아가 보자 그래서 우리가 본 것을 요약하는 우리 여기 상호 운용성의 두 축이있다

한편, 우리는 클라우드 상호 운용성을 가지고, 우리는 동일한 액세스와 같은 동작을 경우 모든 다른 클라우드 서비스에서 중요한 것은,이 또한 다른 Google에 대한 동일한 액세스 권한을 의미한다 BigQuery에 같은 클라우드 서비스하는 공통의 데이터 저장 장치로 GCS를 상호 공유 할 수있다 제 2 축심은 상호 운용성이다 하둡 우리는 우리가 정말 넓은 범위의 잠금을 해제 할 수있는, 이야기로 오픈 소스 도구의 단지 구현의 미덕 이 표준 하둡 파일 시스템 인터페이스, 그것은, GCS는 돼지, 하이브, 스파크와 함께 작동하게 포함 상어, 그리고 수많은 다른 오픈 소스 기술 이것이 궁극적으로 당신을 위해 의미하는 것은 상당한 감소이다 연산 오버 헤드 때문에 지금 데이터는 점에서 단일 위치로 연결되지 않은 일부 디스크 세트도의가 연결되어 특정 기술 스택 당신이 맵리 듀스와 당신의 피로한다면 , 데이터의 여전히 뭔가 새로운 것을 시도하려는

당신은 새로운 프레임 워크에 처리를 시작할 수 있습니다 이제 때 질문의 발생 GCS 같은 여부 정말 HDFS에 대한 실현 가능한 대체 할 수있다, 성능은 자주 온다 그리고 나는이 질문에 정말이 실제 측면이있다 생각합니다 먼저 네트워킹 기술인지 여부의 질문은 정말 일을하도록, 올바른 방향으로 진행 이 가능하다 그리고 둘째로,이 질문에있다 그 미세 입자 제어의 조금 포기의 그렇지 않으면 HDFS와 함께있을 수있다

랙 지역 같은 작은 것들, 또는 복제 정책 그리고 나는 처음으로 내가 실제로 생각 나게 해요 어셈블리 코드를 많이 작성하는 기회를 가졌다 나는 그것으로가는 정말 흥분했다 기억 그것을 밖으로 시도하는이 기회이기 때문에 나는 거라고 모든 영리 해킹은 항상 빠르게 실행 만들고 싶었다 참신이 떨어져 착용 후 그리고, 밝혀 그것은이 모든 어셈블리 코드를 작성 실제로 꽤 고통스러운했다 하지만 이렇게 많은 시간 후에 기억하고 화면에서 중얼으로, 마지막으로 작동하도록 점점 는 I 원하는 방법, 그리고 큰 성공을 받고, 그것은 20 %의 %의 속도 향상 같았다

나중에, 슬프게도, 발견 만 나는 "-03"이성을 상실했다면 GCC의 플래그는, 원래의 프로그램이 이미 실행했을 것이다 두 배 빠른 지금은 사실을 제외하고, 배운 것을 어쩌면 내가 조립 전문가 아니에요 나는이었다 기대했던, 내가 컴파일러를 신뢰하는 법을 배웠습니다 나는 전문성, 경험의 수십 년을 신뢰하는 것을 배웠다 그것으로 갔다 컴파일러 전문가 자바가 올바른 도구로 발생할 때마다, 내 메모리 관리는 것을 알고 안심 느낌 실제로 꽤 좋은 손이다 그리고 구글 클라우드 스토리지 사용하는 경우, 나는 엄청난 금액을 활용하고있어 알고 연구 개발의 구글의 스토리지로 간 지난 몇 년 동안 기술

그리고 구글 클라우드 스토리지는 아직도 수도 모든 사용 사례에 적합한 도구가 될,하지만 중요 단순히 다시 조치를 취할 수있는 옵션을 가지고있다,하자 다른 사람이 모든 더러운 처리, 지저분한 작업, 즉 궁극적 때문에 당신은 당신이 건물에 초점을하면서 마법이 발생 할 수있는 방법 당신이 실제로 신경 기능과 제품 이제 말했다, 올해 초 기술 컨설팅 기업 액센추어는 실제로 출시 성능 특성에 관한 연구 오프 소유권 무역의 총 비용 하둡의 온 – 프레미스 배포 사이, Google 클라우드에서 하둡에 비해 나는 논문 전체를 읽을 관심이 사람을 보시기 바랍니다 그것은 다른 차원의 많은 깊이있는 매우이다 분석 그러나 우리가 여기있는 것은 적어도 하나 개의 샘플은 밖으로 그 종이 현실적인 실제 작업 부하를 보여주는 우리는 혼합 데이터 흐름을 보여주는 여기에 빨간색 막대가 어디 우리가 입력을위한 GCS 커넥터를 사용 모델, 상기 MapReduce에서의 초기 및 최종 단의 출력 아직 중간 저장소로 HDFS를 사용하여, 파란색 막대에 비교하는 단지 로컬 디스크 HDFS를 사용하고 있습니다

그리고 우리는 우리가 실제로 꽤 고무적인 속도를 가지고 볼 가입 GSC 커넥터 기반 데이터 흐름 모델을 사용 상단에 여기에 녹색 선은 벤치 마크 값입니다 베어 메탈 하둡 배포 소유권 분석의 총 비용에서, 우리는 모든 차원에 걸쳐 것을 볼 수 있습니다, 클라우드 배포 상회 그래서 낮은 값은 여기에 더 있습니다 그래서 우리는 또한했습니다 발표 할 행복 해요 접속 두 하둡 커넥터에 일하고 Google 클라우드 서비스 우리는 희망 데이터 저장소 커넥터 오픈 소스를 통해 데이터 분석을 가져다 도움이 될 것입니다 도구는 동일한 데이터에서 작동합니다 당신은 제공하거나 생성하는 것을 웹에서 사용하는 것이

그리고 우리는 희망의 BigQuery 커넥터는 것 사이의 원활한 상호 운용성을 도울 수 있도록, 당신은 단지의 BigQuery를 사용하여 시작 여부 오픈 소스 도구를 사용하려면, 또는 당신은 오픈 소스 도구를 시작하는 경우 및 BigQuery에 사용을 시작하려면, 당신은 완벽하게 하나 길을 갈 수 있어야합니다 이 두 우리는 공개적으로 사용할 수 있도록 노력하겠습니다 월 초입니다 모든 커넥터와 함께, 우리는 또한 배포 할 수 bdutil라는 얇은 도우미 도구를 가지고 이 모든 하둡 소프트웨어를 설치 얇은 확장 메커니즘 소프트웨어를 사용자 정의 및 더 많은 오픈 소스의 혼합 도구 그리고 우리가 상어의 bdutil 사용하여 여기 데모 것입니다 무엇을 우리에게 가져다 Google 클라우드 플랫폼에 이제 상어는 어떻게이 모든 오픈 소스의 좋은 예입니다 기술은 함께 작동과 구글의 클라우드와 함께 잘 작동합니다

상어는 하이브가 불꽃에 기본적으로 ultimately–입니다 어디 하이브는 하둡에 SQL이며, 하이브 엔진 때문에 구조화되지 않은 데이터에 대한 SQL을 변환합니다 하둡에서 실행 MapReduces에 스파크는 전혀 다른 데이터 처리 반면 다음 모델 맵리 듀스,하지만 여기에 우리 상어가 전체의 호환성을 구현해야 대신 MapReduces를 사용하는 하이브 쿼리 후드 아래, 그것은 불꽃을 사용합니다 그리고 우리는이 Google 클라우드에 연결하는 방법을 볼 수 있습니다 두 가지 방법으로 플랫폼 첫째, GCS에서 외부 데이터를 읽어, 그래서 당신의 데이터는 독립적으로 지속될 수 있음 당신의 컴퓨팅 클러스터를 지속

그리고 둘째, 클라우드 SQL에 연결하여 , 여러 다른 클러스터를 가질 수 있도록 모든 메타 데이터 저장소와 읽기로 클라우드 SQL에 연결 그것을 통해서 그래서 우리는 지금 데모 기계로 이동합니다 그리고 우리는, 그래서 far– 아니라, 첫 번째 참조 의는 bdutil, 클러스터를 시작할 수 있습니다 그리고 우리는 이미이 비슷한을 실행하지만, 단지 조금 정교하게, 우리가 여기에있는 것은 여기 만든 확장 그것은 단지 클라우드 SQL에서 상어를 설치합니다 그리고 여기에 does– 모두 약간의 쉘 스크립트는 즉 실제로 상어를 설치, 우리는거야 일부 클러스터 별 구성을 제공합니다 우리는 그냥 킥오프

우리가 여기에 우리의 클러스터 별 구성을 살펴 경우, 우리는 우리가 번호와 같은 몇 가지 기본 설정을 볼 노동자, 클러스터 이름 모두를위한 접두사 우리의 경우는 등등 사용하고있는 프로젝트를해야합니다 우리는 킥오프 정도로 운이 있기 때문에 A 본 프레젠테이션 전에 잠시 클러스터, 우리가 가서 우리의 다른 클러스터로 그것을 사용할 수 있습니다 내부보세요 그래서 우리는 하둡으로 실행됩니다 그리고 이제 가서 상어 명령 라인, 하이브 M을 부팅 할 수 라인, 그리고 어쩌면 다른 하이브 명령 두 번째의 선은 여기이 모든 것을 알아낼 cluster–

그래서 우리는 우리가 아직 테이블이없는 볼 수 있습니다 이제 우리는 내가 데이터 여기에서 설정 한 일이 ahead– 갈 수있다 출생의 출생 데이터 데이터는 1970 년 설정 오늘을 통해, 그리고 아 브로 형식으로 될 일이 그래서이 GCS에 앉아 그냥 파일입니다, 그리고 우리가 할 것입니다 우리가 외부 테이블을 만듭니다이다 이 저것 지적이다 그래서 지금이 만들어 졌는지, 우리는 모두 상어와 하이브에 표시되는 것을 볼 수 동일한 클러스터에있는 다른 클러스터 하이브있다 그래서 당신이 여기 아래 데모이있다 볼 수 있습니다 여기에 하나를 데모

그리고 확실히 충분히, 우리는 또한 상위 10 개를 선택할 수 있습니다 그것에서이 세 가지 껍질의에서 그래서 우리는 경우가 알아한다고 가정 저체중 출산의 수에있는 추세입니다 출생의 총 수의 일부로서 지난 몇 년 동안 그래서, 여기에 우리가 여기 준비했습니다 쿼리입니다 그리고 우리는 상어에 연결합니다 그 개막 지금 동안, 가정 우리는 또한 데이터의 또 다른 세트가있다

여기에 일반적인 사용 사례가있어, 가정 우리는 JSON 형식의 파일의 무리가 있습니다 그래서 사람들은 종종 초기 데이터 형식으로 JSON 형식을 사용, 하지만 브로처럼 바이너리 포맷을 취득하는 것이 좋다 그래서 우리는 가서이 JSON 테이블을 만들 수 있습니다 두 번째 클러스터입니다 그리고 우리가 할 것입니다 우리가 우리의 데이터 변환으로 하이브를 사용합니다입니다 단순히 아 브로 형식의 두 번째 테이블을 생성하여 여기에 엔진 그리고 우리의 JSON 테이블 중 선택 스타 말 대신 우리 브로 테이블에 그것을 기록 우리는 우리의 두 번째 클러스터에 그렇게 할 것입니다

그리고 지금 우리는 여기에 웹 UI를 좀 걸릴 수 있습니다 그래서 나는 여기, 내장 된 스파크 GUI의 공개 웹 UI를 우리는 우리가 실행하는 모든 명령을 볼 수 있습니다 우리는 선택 실행, 그것은 이미 끝난 것처럼 보인다, 우리가 조금 전 개막 상어 쿼리 우리는 우리의 두 번째 클러스터로 갈 경우에, 두 개의 데모 그리고 우리가 할 수있는, 하둡 콘솔을 엽니 다 , 하이브 앞서 간 그 두 번째 쿼리를 번역 한 것을 볼 맵리 듀스로 그 JSON 생성 쿼리 그래서 지금 우리는 맵리 듀스가의 일부 데이터에서 실행해야 바로 옆에 GCS에서 상어 스파크에 대해 실행에 다른 데이터에 GCS도였습니다

그리고 우리는 과연 우리는 결과를 얻었다 볼 수 있습니다 우리는 볼이 80 년대에 걸쳐, 백분율 의 저체중 출산이 조금 내려 갔다 우리가 온으로 다음 올라갈 듯 분명히 덜 번영 년 중, 그래서 아주 흥미로운 데이터입니다

BigInsights v2.1.2 Enterprise Edition Installation Tutorial

얘들 아, 여기 마이크 오늘은 어떻게 설치하는 방법을 보여 하겠어 IBM 밑받침 BigInsights 버전 2

12 리눅스 VM에 나는이 VM에 수행 한 유일한 것은 문서 내부 biadmin 사용자 및 그룹을 생성한다 나는 BigData 폴더를 생성해야하고 해당 폴더에 내가 넣어 엔터프라이즈 에디션 타르볼을하고 그것을 추출 하였다 몇 가지가있다 그래서 우리는 먼저 확인해야 우리가 설치할 수 있습니다 그래서 여기에 터미널을 열 수 있습니다

충분한 공간이 있다면 우리는 확인하려고하는 우선이다 -h 그래서 DF 우리는 충분한 공간이 없습니다 당신은 적어도이 있어야 80기가바이트 다음으로 우리는 기대 패키지를 확인합니다 그 RPM은 기대 -q를 들어 우리는 설치되지 않았 음을 알 수 있습니다

이를 설치하려면 당신은 당신의 냠 저장소를 사용하거나에 갈 수 모든 사이트 및 다운로드합니다 그러나 함께 제공 타르 그래서 거기의에게 CD를 보자 그래서 CD / 홈 / biadmin / 문서 / BigData / 우리의 전체 버전 그리고 거기 당신은 유물 폴더가 있음을 알 수 있습니다 그리고 그건 (가) 기대하는 곳 패키지입니다 그래서 당신은 유물과 LS로 이동 당신은 네 가지 예상하는 RPM이 여기에 있다는 것을 알 수 있습니다

그래서 시스템 최적으로 작동하는 하나를 선택합니다 나는 보통 5421과 함께 할 것입니다 여기이 사람

그래서 그 기능을 설치하겠습니다 그에게, 형의 rpm -i 다음은 패키지에 입력합니다 입력하고 설치됩니다 그래서 형이 기대 설치되어 있는지 확인합니다 거기 우리는 간다 다음으로 우리는 둔한 패키지를 확인하는 것입니다

RPM 그래서 미안 나는 그것을 잘못 입력 RPM -fq 둔한 그리고 네, 그것은 설치됩니다 좋은 그래서 다음 것은 우리는이 이후에 할거야 사전 검사 모두 가능하다 2

12에 따라서 우리는 설치 내에서 사전 검사를 통합 그래서 당신은 설치에 설치, CD로 이동하는 경우 bin 디렉토리, 당신은, 스크립트 여기가 있음을 enableOrDisablePrecheckersh을 알 수 있습니다 그래서 우리는 그들 모두를 가능하게 할 것이다

그래서위한 단지 모든 수 /enableOrDisablePrecheckered 당신은 그들이 모두 활성화되어 있는지 알 수 있습니다 다음으로 우리는 확인하려고 SELinux를 비활성화 나는이 작품을 본 적이 허용 모드에서 SELinux를 함께하지만 난 정말 당신이 비활성화 모드로 전환하는 것이 좋습니다 그래서 sestatus 그것은 실제로 사용할 수 있습니다

그래서이 비활성화에 적용 할 수 있습니다 위해 setenforce 0 그리고 지금 우리가 비활성화 모드에서 시작 있는지 확인하는 것입니다 그래서 그것을 위해 우리가해야 VI의 / etc / SELinux가 / 설정 여기에서 당신은 강제로 그 SELinux가 나타납니다 우리는을 변경하려는 SELinux를 = 비활성화 그래서 지금의 SELinux는 다음의 우리의 IP 호스트 이름을 매핑 할 수의 돌보아 이유는 나중에 설명하겠습니다 즉, 가자에 대한 그래서 etc / hosts 파일에 VI 우리는 우리의 IP를해야합니다

그래서 터미널을 열어 보자 ifconfig를 우리의 IP가있다 나는 고정 IP로 VM을 설치했습니다 당신은 확실히 설치하는 고정 IP 필요 이 그래서 192168

174134을 입력하자 나는 그것을 binode 전화 할게 당신은 당신이 원하는대로를 호출 할 수 있습니다 의는 거기에서 그만 쓰자 그리고 우리는에 이동합니다

그럼 가자 등 아래 SYSCONFIG 네트워크 그래서 우리는 여기에 호스트 이름을 추가해야합니다 그래서 지금은 localhostlocaldomain 말한다 우리는 될 binode을 변경하는 것입니다 우리는 거기에 갈 거기에서 종료 작성합니다

의 여기에이 단자를 청소합시다 새로운 하나를 엽니 다 좋아 그래서 여전히 localhosts을 말하는 의 이유를 보자 좋아,에 가자 숙주 괜찮아 보인다

의 여기에 루트로 전환 할 수 있습니다 SU 루트 의는 SYSCONFIG을 열 수 있습니다 좋아, 그럼 그뿐만 아니라 변경된 잘 어쩌면 그냥 다시 시작하거나 무언가를 필요로한다 이제 이동하자

그래서 NTP 패키지는 이전과 같은 방식으로 설치되어 있는지 확인하기 위하여려고하고있다 그리고 그건 좋은 이 부팅시 실행되도록 설정되어있는 경우 보자 NTPD –list를 chkconfig가 있지만 그렇지 않다 그래서이를 보자 그것은 지금 시작하는 경우 그래서 그것이 정지 말한다 NTPD 상태 서비스를 참조하십시오 그래서 그것을 시작하자

시작 이제이 올바른지 확인하기 위해 날짜를 확인 할 수 있습니다 아, 죄송합니다 즉하지 않을 권리 명령이 아닙니다 그냥 날짜 이제 실제와 네이 보인다 시간이 내 컴퓨터에 올바른 4월 6일 정정 해줘 우리 biadmin이 설치는 것을 이제 확실히하자 정확히

그래서 우리 biadmin로 이동 집에 당신은 그것을 알 biadmin 모두를 소유하고있다 확인 그것은 자신의 그룹 biadmin 완전한 다음으로 우리는 또한 확인합니다 것을 biadmin에 대한 bashrc에 설정됩니다 그냥 아니라고 적어도 아무것도 그럼 살펴 보자 이리

그래서 선한있다 의 그것이 확실 만들어 보자 뭔가 채워집니다bashrc에 그것은 선한이다 OK 지금 우리는 암호없이 SSH를 설정거야 루트 및 자체 biadmin 자체 사이

그래서 일단 루트로 우리와 함께 키를 생성합니다 ssh를 -keygen -t RSA 눌러 단지에 입력 기본 키를 누릅니다에 입력 더 암호 없습니다 그리고 다시 지금 권한이 부여 된 키 폴더에 고양이 공공 부분 루트의 SSH를 폴더에 대한 고양이 /root/ssh/id_rsapub 우리는 에 그것을 넣어 것 /root/ssh/authorized_keys 위대한 그래서 갈 줄 수 있습니다

그래서 SSH 로컬 호스트에 죄송 예 없이 암호 완벽한 의 그 나가자 그리고 다시 괜찮 완벽한 그래서 잘 작동합니다 이제 biadmin와 동일한 기능을 수행 할 가자 그래서 ssh를 -keygen는 RSA로를 생성하는 예 입력 입력 오른쪽 그래서 다시 우리는거야 고양이에게 공개 부분입니다 그래서 집 / biadmin / 스푸핑 / id_rsa

pub 공공 부분은 우리는 권한 부여 키에 저를 데려 가고 싶다는 그래서 나는에 따라주의 할 당신이 당신의 리눅스 머신에 설치 한 SSH 유틸리티 때로는 별도의 단계로 가끔있다 당신은해야 권한을 변경 권한이 부여 된 키에에 폴더, 나는, 640 예 (640) 믿습니다 의이를 해보자 네 괜찮 그래서 이것은 암호를 묻는 우리가 지금 그렇게 할거야 그래서 가능성이 높습니다 그냥 다시 시도 확인합니다 OK 그래, 그렇게 비밀이있다

그래서 우린 진행해야하고 그 변경합니다 그 변경 그래서 루트로 전환 그리고 우리는 것이다 ssh를 폴더에 CD 물론 biadmin의 그래서 그들을 나열하자 /home/biadmin/ssh/ 좋아 그래서 그래서 640로 변경하자 chmod를 640 authorized_keys에 (640) biadmin로 전환하고 한번 시도해 ssh를 로컬 호스트와 거기에 우리가 간다

완전한 그것은 그렇게 작동하지 않는 경우 것은 아마도 사건 기억하십시오 이제 끝낼 것을, 우리는 설정하려는 의 sudoers 파일에 biadmin 그래서 우리는 루트에 swith를합니다 우리가 루트로 설치하거나 sudo를 함께 biadmin 수 있기 때문에 우리가 이렇게하는 이유 권한 에 따라서 VI / 등은 / 우리가 거 ​​야 할 첫 번째 일을의 sudoers 그 주석하기 위해 TTY를 필요로 기본을 찾을 수있다 우리는 무관하지만 원하지 않지만 그렇게 할 것 그리고 지금 we'er 휠 그룹에 아래로 스크롤 것 ALL = (ALL) 거기는 그래서 우리는 biadmin 그룹을 추가 할 수있다 모든 = (ALL)은 당신이 볼 수 있고 암호를 추가하지처럼 거기 있도록 sudo를 실행시 플래그는 암호가 이제까지 물었다 biadmin와 명령

권리 그래서 거기에 저희 그래서 당신은 여기에서 확인하십시오 wheel 그룹을 만들고 싶어 바퀴가 주석 불구하고 정확히 biadmin과 동일하지만, 그런 식으로 보관하십시오 의이 밖으로 휴식 보자 그래 좋아

즉 우리가하고 ulimit로 이동합니다 이루어집니다 그래서 우리는 세션 혹은 ulimit를 설정하려고 U 자 및 N 플래그를 사용 그래서 우리는 먼저 32768을 ulimit를을 -n 갈 것입니다 그리고 ulimit를 -u 60000 이제 우리는의 limitsconf에 갈거야 그래서 VI는 /etc/security/limitsconf에 우린 그들을 설정있어 부팅 시간 그래서 그래서 기본적으로 우리가 거의 biadmin을 설정할 수있어 하단으로 스크롤 – 당신이 할 수있는 이 예를 참조 그것은 우리가하려고했던 것이 거의 정확히입니다

그래서 하드 BI 관리자 설정 부드러운 프로세스의 수와 숫자 파일 그래서 미안 65536 부드러운 NOFILE 65536 biadmin 그리고 우리는뿐만 아니라 다른 사람이 일을하고있을 것 부드러운 nproc에 65536 biadmin 이제 여기서 그만 쓰자 완전한 모든 권리 지금은 일부 줄을 추가 미안 해요의 일부를 변경할 수 있습니다 우리가 무엇을 원하는 syscntl입니다 kernelpid_max 추가 포트 레인저스와 비활성화 IPv6에 대한 그래서 VI /etc/syscntlconf는 우리가 어디를 추가 할 수 있습니다 자리 아래로 스크롤하자 보통 난 아무데도 갈 우리가 kernelpid

max = 419430을 입력 할 수 있도록 여기에 좋은 다음 우리는있는 netipv4ip_local_port_range을 가고 싶어 그것은 동일한 1024 64000 것 그리고 다음에 우리가 원하는 netipv6conf

alldisable_ipv6 = 1 있도록 IPv6을 사용하지 않도록 설정 사실에 대한 그 모든 그래서 그 밖으로 종료 쓸 수 있습니다 더 좋아, 그래서 그냥 몇 소지품 IPv6를 사용할 수 없습니다 보장합니다 VI에서는 / etc / sysconfig / network를 그래서 우리는 추가됩니다 할거야 모두 대문자 네트워킹이 개 새로운 라인 그래서 NETWORKING_IPV6 = 아니오 그리고 IPV6INIT은 = 더 우리는 초기화 싶어하지 않는다 그럼 그만 쓰기 수 있습니다 이 좋은 좋아 그래서 우리는 가서 실행하는거야 실제 사전 검사 스크립트

나는 우리가 모든 것을 가지고 생각 그럼 biadmin 우리가 그것을 설치 될 사람으로 그것을 실행하도록 전환 할 수 그래서 CD를 집 biginsights하기 / 가정 / biadmin / 문서 내가 BigData과를 넣어하는 이 버전 들어가다 설치 그럼으로 가자 HDM (당신 LS, 당신은 HDM을 볼 경우) 당신은 빈에 가면 이제 스크립트를 많이 볼 수 있습니다 당신이 이동하는 경우는 표시됩니다 거기는 양방향 prechecker 스크립트입니다 좋은 당신은 사전 검사를 실행할 때 언급해야 실행중인 검사의 버전과 사용자가 그것을 누구를 실행 그래서 사용자는 biadmin 예정하고있다 버전 또는 내가 믿는 모드 우린 실행이있어 수 있도록 플래그는 기업 우리는 모두 OK의 표시됩니다 나는 우리가 우 모든 것을 가지고 생각 하나는 실패 아니,이 실패했습니다 좋아요 그래서 이들 중 일부는 실제로 때문에 실패합니다 그 내용을 적용하려면 시스템을 다시 부팅해야합니다

그러나 몇 가지가 설정되어 있어야합니다 이것은 실제로 좀 좋다 로그 파일이 생성되는 곳 나는 당신을 보여줄 수 있기 때문에 및 로그 파일은 실패한 이유의 자세한 내용이있을 것이다 죄송합니다 사람 나는 녹음을 중지했다 나는 내가 처음 돌봐했다 다른 일을했다 나는 시스템을 다시 시작하는 기회를 가졌다

우리가 중단 된 부분의 픽업 보자 내가 터미널을 열고 이유를 찾으려고거야 해당 항목에 실패했습니다 사실의은을 실행하자 검사기 처음 다시 좀 통과한다고 가정 단지 시스템에서 부팅 및 기타 변경 사항이 적용 복용하고 그래서이 사전 검사는 곳으로 돌아 가자 홈 / 설치 / HDM / 빈 biginsights에 이는 우리는 biadmin 및 엔터프라이즈 모드로 사전 검사를 실행 괜찮아 우리는 여전히 실패 할 하나를 얻을 그래서 다른 두 사람을했지만 하나의 통과 않았다 그래서 로그를 확인하자 당신이이 실패한 이유에 대한 몇 가지 세부 사항을 알고 볼 수 있습니다 그래서 당신은 바로 여기에서 볼 수 있습니다 미안 그 VI 그리고 당신은 바로 여기 볼 수 있습니다 로그가 위치한 곳입니다 복사 및 붙여 넣기 그 우리는 로그에있어

괜찮의 오류 또는 죄송 실패를 검색 할 수 오류가 너무 작동합니다 의하자 다른 단말을 열어 좋아 그래서 뭔가 프로세스 부정한 숫자가 너무 정확처럼 보인다 의 파일로 가자 아래로 스크롤합니다 거기는 당신은 아직 그것을 볼 수 있습니까? 맞춤법 실수 그것은 당신에게 모든 시간을 얻을 것이다 좋아 그래서 그 맞춤법 실수를 정리하자 쓰기가 밖으로 종료하자 다음 실패를 검색 Kernelpid

max 좋아 그것 때문에 다른 또 다른 맞춤법 오류 그래서 우리는 단지 거기의 끝에서 또 다른 3를 잊어 버렸습니다 4 백만을 할 생각입니다 190,000 등등하지 419000 의 VI으로 /etc/sysctlconf에하자 우리가 변경된 경우 그것은하자 거기 3 추가 휴식이 밖으로 종료 좋아 그래서 다시 같은 명령을 실행하자 우리는 그래 바닥을 제외한 모든 경우를 볼 수 좋아 그래서 이것은 런타임이기 때문이다 요구 사항, 시스템을 재부팅해야합니다 당신은 우리가 부팅시 말했다 알고 있지만 우리는 런타임까지하지 않은 그래서 우리는 나중에 처리됩니다 그냥 지금 이동하자 난 그게 아마 있다고 생각하지 않는다 때까지 필요한 당신은 마무리에 설치 만의 계속하자 그럼 먼저 시작하자 웹 UI

CD 다시 biginsights에 CD가 점 점 점 점 점 점 집에 있도록 그리고 당신은 startsh 스크립트 여기에서 볼 수 있습니다 그래서 우리는 그 실행 싶어 이것이 출력하는 것입니다 이 수행 한 후 그 일은이다 URL URL은 우리가 설치 우리 완료 웹 UI입니다 그래서 이것은 어디서든 알고 소요 둘 사이에 때로는 오분 나는 그것을 속도가 향상됩니다 단지 편의를 위해 비디오에 좋아 끝마친

당신은 거기 뱉어 URL을 볼 수 있습니다 8300와 당신의 IP / 설치 즉 갈 준비 의는이 대기를 클릭하자 파이어 폭스는 팝업합니다 당신은 거기 가서 모든 권리 이것은 UI는 여기 그래서 우리는 설치를 완료하기 위해 각 하나를 통해 이러한 페이지를 이동해야합니다 그럼 먼저 받아 보자 라이센스 계약 먼저 그것을 확인 읽게 그리고 우리는 그렇게 BigInsights를 설치합니다 당신은 당신의 클러스터 이름을 지정합니다 우리는 몇 가지 옵션이 있습니다 우리는 바로 HDFS 갈거야 지금은 간단 기본값을 계속 유지한다 그래서 우리는 sudo는 권한이있는 biadmin 사용자를 사용하는거야 그래서 우리는 암호를 추가 할 것입니다

그래서 여기에 뭔가 다른입니다 즉, 최근에 변경된 더 이상 괜찮 로컬 호스트입니다 그래서 당신은 우리가 그것을 이유로 binode 이름을 다시 가야 그래서 그것을 binode 부르 자 그 우리를 드릴 것입니다 발하다 따라서 구성 요소에서 나는 대부분의 일을 계속 거 있어요 그냥 기본값하지만 우리가 그렇게 추가해야 할 몇 가지가있다 이 SSO 도메인은 binode입니다 DB2 인스턴스 소유자는, 다시 한 번,이에 새로운 21

2, 그래서 그냥 db2inst1과 사용하자 다른 IBM 기술과 일반적인 유지 우리가 227로 갈거야하고있는 UID 그 가이드에서 라인의 다음입니다 당신은 당신이 원하는 무엇이든 사용할 수 있습니다 그 과정에서 사용할 수 있습니다 난 그냥 넣어 DB2 암호 biadmin 그래서 우리는 다음 페이지의 구성 요소 2에 계속 나는 여기에 모든 것을 유지하기 위하여려고하고 있다고 생각 내가 모든 것을 지키려고 있도록 하나 개의 노드 클러스터의 태만 구성 요소 3과 같은 것 당신은 무료로 이러한 구성 요소 비용을 변경하려는 경우 내 말은 그리고 우리는 단지 하나 개의 그룹이 그래서 그냥 입력 할 수 있습니다 모든 그룹에 대한 biadmin 내가 놓친 거기에 하나 나는 그렇게 계속 의 다음을 클릭하자

여기 그래서 눈에 보이는 검토 당신은 당신이 원하는 경우 검토하지만, 그냥 다음을 클릭하도록 할 수 있습니다 그래서 다시 시간이 좀 걸리고 나는 그것을 속도가 향상됩니다 편의를 위해 비디오입니다 좋아요 그래서 당신은 지금 완료되었음을 볼 수 있습니다 우리는 이것을 클릭하여 콘솔을 통해 이동하는거야 콘솔 링크 이 열리면, 당신은 그것을 볼 수 있습니다 의 모든 것이 모두의 실행을 실행 희망하자 꽤 있기 때문에 모니터링을 제외 이는 기본적으로 해제되어 자원 집약적 당신은 켤 수 있습니다 당신을 켜려고하고는 모든 경우 당신이 다음에 무엇을해야할지 궁금하다면, 다음 단계 부분을 참조하시기 바랍니다 비디오 감사의 설명 이상 시청 행복 설치

Free Hadoop Training | Tutorial | Big Data and Hadoop Essentials

당신은 빅 데이터 기술의 세계에 관심 하지만 조금 난해한 발견하고 큰 퍼즐로 전체를 참조하십시오 당신은 이해 찾고 계십니까 어떻게 빅 데이터에 미치는 영향 크고 작은 비즈니스와 당신과 나 같은 사람? 이 과정은 기본적인 기본적인 이해를 구축 솔루션으로 빅 데이터 문제와 하둡의

이 과정을 통해 걸립니다 빅 데이터 문제의 이해 예를 이해하기 쉬운 역사와의 출현 바로 하둡 심지어 하둡 명명되지 않았을 때부터 무엇이 그렇게 독특하고 강력하게 하둡 마법이다 데이터 과학의 차이를 이해 그리고 큰 혼란의 하나의 데이터 엔지니어링, 인 직업을 선택하거나 작업의 역할을 이해한다 그리고 가장 중요한, 클라우 데라, MapR과 같은 하둡 업체를 신비성 그들에 대한 이해로와 호튼 웍스

안녕 나는 Nitesh이 과정에 대한 강사입니다 이 과정은 하나가 있어야 기본적인 필수 지식을 가지고 빅 데이터의 세계에서 스테핑 따라서 빅 데이터의 세계 잠금을 해제합니다 이 과정에서 보자!