Migrating a Big Data Environment to the Cloud, The Untold Story (Cloud Next '19)

[음악 재생] SASHA KIPERVARG : CP142에 오신 것을 환영합니다 빅 데이터 환경을 클라우드로 마이그레이션, 미지의 스토리

내 이름은 사샤 키퍼 바그입니다 저는 LiveRamp의 클라우드 운영 담당 책임자입니다 그리고 저는 우리의 수석 소프트웨어 중 하나 인 Ben Podgursky와 왔습니다 엔지니어, 패트릭 레이먼드 우리 수석 제품 매니저 그리고 그는 인프라 포트폴리오를 소유하고 있습니다

네가 도리를 모두 잘 알고 있다고 생각해 나는 그 일을 끝내지 않을 것이다 LiveRamp에 대해 조금 전에 프레 젠 테이션의 고기에 들어가십시오 기본적으로 오프라인 데이터를 사용합니다 주소, 다른 PII, 기본적으로 – 그런 다음 우리는 그것을 식별하지 못하고, 그것을 변형 시키며, 그런 다음 채널 파트너에게 채널을 제공합니다

모두 당신에게 광고 벤은 기술적 세부 사항을 우리 회사는 그의 주제 중 하나에서 않습니다 그래서 제가 제일 먼저 말하고 싶은 것은 벤 (Ben)과 저는, Patrick은 정말 작은 그룹의 사람들입니다 마이그레이션을 담당합니다 그것은 팀의 팀입니다

우리는 대규모 인프라 소대, 대규모 엔지니어링 팀, 보안 전문가, 재무 전문가, 준수 전문가 그리고 그들은 모두 우리를 이주시키는 책임이있었습니다 우리는 지금 비행 중입니다 우리는 곧해야합니다 나는 또한 Google 팀 구성원을 보유하게됩니다

여기이 슬라이드에 있습니다 그것들이 우리 팀의 일원이기 때문입니다 우리는 그들을 그렇게 취급합니다 그리고 그들은 우리를 도와줍니다 그리고 그들은 우리 팀 팀의 일부입니다

LiveRamp에 처음 가입했을 때 회사를 클라우드로 마이그레이션하도록 요청했습니다 그게 실제로 의미가 무엇인지 전혀 몰랐습니다 이것이 단지 뭔가이기 때문입니다 아마 20 년에 한 번 또는 일생에 한 번 일어날 수 있습니다 그 일을하기위한 플레이 북이 정말로 없습니다

그리고 나는 모험을해야한다고 생각했습니다 한 단계로 시작하십시오 그리고 그것이 제가 한 것입니다 방금 질문하기 시작했습니다 나는 임원이 일렬로 맞춰 졌는지 알아보기를 원했다

나는 예산이 있는지 알아 내고 싶었다 승인 절차가 무엇인지 알아야했습니다 그리고 꽤 자주, 그 질문은 더 많은 질문을 이끌어 냈습니다 그리고 그것이 제가 취한 접근법입니다 나는 관객 중 많은 사람이 생각한다

유사한 도전을 받고있다 어쩌면 그게 오늘 네가 여기있는 이유 일거야 내가 취할 접근법에 대해 생각하기 시작했을 때, 내가 가장 좋아하는 아티스트에 대해 생각했다 리처드 제임스라는 Aphex Twin이라고하는 사람입니다 그리고 이것은 그가 말하는 곳의 시원한 인용구입니다

그가 음악을 만드는 방법에 대해 근본적으로 그가 여기에서 말한 것 그게 플레이 북을 버리는 것입니다 그는 어둠을 헤쳐나 가면서 그가 배우고 자하는 것까지 이런 식으로 느낀다 그는 자신의 접근법에 적응합니다 그리고 많은 사람들이 내 정원을 가지고 있다고 생각합니다

그들은 독특합니다 당신은 자신의 문제가 있습니다 그리고 하나의 크기가 모든 플레이 북에 맞지 않습니다 모든 것을 다룹니다 내가 발견 한 첫 번째 사실은 우리가 팀을 올바르게 이끌어 낼 필요가 있습니다

그리고 그것은 올바른 스킬 세트를 갖는 것을 의미했습니다 그것은 올바른 문화를 갖는 것을 의미했습니다 그리고 나는 우리가 이전에했던 일이 엔지니어링 팀에 속한 팀 이들은 매우 숙련 된 시스템 개발자 그룹이었으며, 대부분은 미안하지만 시스템 개발자가 아닙니다 시스템 관리자

그리고 그들은 최선을 다하려고 애썼다 하지만 그들은 실제로 공학에 통합되지 않았습니다 내가 느꼈던 방식으로 필요했다 우리가 갈 필요가있는 곳으로 가야합니다 그래서 우리는 팀을 조정했습니다

우리는 먼저 스크럼을 채택했습니다 일부 시스템 관리자가 팀을 떠났습니다 팀의 시스템 관리자 중 일부는 새로운 기술을 익혔습니다 우리는 시스템 엔지니어를 고용했습니다 우리는 LiveRamp 엔지니어링 팀의 다른 팀원들로부터 파견되었습니다

게다가 그리고 우리는 근본적으로 개발 팀이되었습니다 인프라에 중점을 둡니다 도전의 다음 부분은 보안과 거버넌스를 찾아 내려고 노력했습니다 이제 클라우드에 도달하기 위해, 당신은 승인을 받아야합니다

당신은 보안에 가야합니다 규정을 준수해야합니다 합법적으로 가야합니다 놀랍게도 놀랍지 만 그 과정이 없습니다 물론, 아무도 이것을하지 않기 때문에 존재했다

일생에 한 번 그래서 우리는 그 과정을 만들어야했습니다 우리는 관계를 수립해야했습니다 우리는 보안 작업 방법을 고안해야했습니다 그들이 모든 것을 검토 할 수있는 곳 우리는 일주일 단위로 일을하고 있었는데, 그곳은 추적당했습니다

Jira 티켓처럼 그리고 나서 우리는 사인을 얻은 다음 진행할 것입니다 그것은하기가 상당히 어려웠습니다 약 12 개월이 걸렸습니다 나는 우리가 환상적이라고 말할 수있어서 자랑 스럽다

보안 및 기타 거버넌스 팀과의 관계 오늘, 그 중 일부는 청중에 있습니다 다음 과제는 어떻게 우리가 마이그레이션에 접근해야합니다 그리고 저는 그것을 제품처럼 취급해야한다고 강하게 느꼈습니다 그리고 그것이 의미하는 바는 제품 관리자 누가 인프라를 이해했는지, 누구에게 접근했는지 전체적으로 생각한 제품의 관점에서 우리가 어떻게해야하는지, 어떻게 그것에 대해 의사 소통을해야하는지에 관해서 패트릭, 누가 그럴거야? 이것에 대해 더 깊이 이야기하는 것이 시작되었습니다

그는 자신의 초점을 보안 관리에서 변경했습니다 제품 관리 부서에 알려 주었고 그는 그 대부분을 처리했습니다 가장 중요한 결정 중 하나 우리가 이민 과정에서 만든 실행을 시작하기 전에 어떤 구름을 사용해야하는지 알아 내려고 노력했습니다 AWS에 익숙한 사용자가 많을 것입니다 그들은 일종의 900 파운드 고릴라입니다

그리고 2 년 전 우리가 처음 시작했을 때, 우리 회사도 AWS 경로를 따라 가고있었습니다 그리고 아마 우리는 한 달 안에 있었을 것입니다 AWS와 계약서에 서명하십시오 그리고 우리는 전에 가벼운 방식으로 GCP를 보았습니다 우리는 동부 해안에서 GCP를 사용하는 일부 팀을 운영하기까지했습니다

그러나 모든 사람들은이 결정이 실제로 내려 졌다고 생각했습니다 또 다른 가능성은 없었고, 나 자신도 포함되었다 그리고 저는 CFO 인 Warren Jenson으로부터 이메일을 받았습니다 그가 말하길, 우리는 GCP를 보았습니까? 우리가 수백만 달러에 정말 가깝기 때문에 거래 그리고 나는 빨리 대답했다

그렇지만, 그렇다 그날 밤에 보낸 후, 나는 불편 함을 느꼈다 내 대답과 함께 내가 제대로 할 수 있다고 생각하지 않았다 왜 자세한 대화에서 그를 대표 하는가? AWS를 선택하고 GCP를 자세히 검토하지 않은 이유는 무엇입니까? 그리고 다음날 아침에, 나는 들어왔다

나는이 모든 수석 기술 팀을 모았다 인프라에 대해 질문하고 동일한 질문을했습니다 그리고 나는 같은 반응을 되찾았다 고 생각한다 나는 나 자신을 느꼈다 그것은 우리가하지 못했던 것이다

최근 데이터를 보았습니다 그리고 여러분 모두는 구름이 정말로 빨리 움직인다는 것을 압니다 신제품은 신속하게 개발되고 제공되며, 우리는 지난 6 개월 동안 그것을 보지 않았습니다 그래서 우리는 일주일 정도 시간을 들여서 새로운 기능 세트에서 그것이 우리 회사를 위해 원했던 것과 어떻게 연관되어 있는가 그리고 그 주 후에 우리가 돌아 왔을 때, 우리 모두는 거기에 뭔가 있다는 것을 깨달았습니다

그런 다음 더 많은 조사가 필요했습니다 그리고 나서 우리는 또 다른 3 ~ 4 주 동안 출발했습니다 Kubernetes에 깊이 잠수하려면 큰 데이터 스택, 비용, 모든 차원 그리고 우리는 그것에 집중했습니다 우리가 발견 한 것은 GCP 우리 회사를위한 훨씬 나은 솔루션이었습니다

모든 차원에서 비용이 포함됩니다 그래서 이것을 침몰 비용의 오류라고 부릅니다 AWS에 큰 투자를했다는 것입니다 그리고 우리는 그 정면을 정말로 오랫동안 진행했습니다 그리고 사실입니다, 우리는 많은 시간을 낭비했고, 많은 시간이 내려갔습니다

그 길 그러나 그것이 우리가 마음을 바꿀 수 없다는 것을 의미하지는 않습니다 그래서 우리가 GCP에 대한 결정을 내렸을 때, 우리에게는 또 다른 도전이있었습니다 소규모 엔지니어링 팀과 소규모 인프라가있는 팀, 상대적으로 말하기 우리 중 수천 명이 없습니다

누가 기존의 데이터 센터를 관리 할 것입니까? 샌프란시스코에 공동 거주하고 있습니다 우리는 약 3,000 대의 서버를 보유하고 있습니다 100 페타 바이트의 Hadoop VMware의 많은 것들 우리는 개발 팀이 미래에 집중하기를 원했습니다

우리의 과거 또는 현재 그래서 우리가하기로 결정한 것은 거기에 나가서 시도했습니다 우리를 위해 그렇게 할 수있는 회사를 찾으려면, 그 전체 작업량을 감당할 수있는 우리는 미래에 중점을 두었습니다 시리우스라는 회사를 발견했습니다 마이클 포터와 스캇 라이트

나는 그들이 청중 어딘가에있는 것 같아 그들은이 비전에 우리를 팔았습니다 사실 지난 한 달 동안, 그들은 데이터 센터의 모든 작업을 수행했습니다 우리 팀을 도와 주면서 우리 팀을 돕고 있습니다 GCP에 중점을 둡니다

일단 우리가 그 문제를 해결하면 거기 우리가 해결해야 할 두 가지 다른 것들이 있습니다 우리를 침몰시킬 수있는 두 가지 네 함선도 가라 하나는 비용 추적이었고 다른 하나는 비용 추적이었습니다 거버넌스 결정이었다 비용 추적 측면에서 우리는이 철학을 가지고 있습니다

각 개발 팀이 필요로하는 자아를 위해서 우리는 그들이 환경을 신속하게 돌리기를 원합니다 아무에게도 묻지 않고 혼자서 그러나 물론, 그것은 그들이 그 때 그들은 환경을 전적으로 회전시킬 수있었습니다 자신에

그리고 그들은 수백만과 수백만을 일으킬 수 있습니다 누구도 알지 못하는 자원 달러로 우리의 예산을 동기화합니다 그래서 우리는 초점을 맞추기 위해 다른 PM 팀을 구성하기로 결정했습니다 그 특별한 문제에 관해서 그리고 그 노력은 바로 지금 열매를 맺고 있습니다

우리는 개발자에게주는 균형이 적절하다고 느낍니다 자유는 있지만, 동시에 경고와 관계가 있습니다 해당 팀에서 직접 재정 지원을받으며, 그 도전들이 다루어지는 곳 거버넌스는 상당히 흥미 롭습니다 우리는 중요한 교훈을 배웠습니다

이전에 보안과 함께 12 개월간 당신이 클라우드에서 빨리 갈 수 있다고해도, 즉시 배포 할 수있는 경우에도, 귀하가 승인을 받았다는 의미는 아닙니다 제품을 실제로 빨리 꺼내십시오 따라서 신속한 거버넌스 결정없이, 정말로 중요하지 않습니다 그래서 우리는 엔지니어링 팀에서 다른 팀을 구성했습니다 우리는 수락 한 사람을 고용했습니다

그의 이름은 [INAUDIBLE]입니다 그리고 우리는 우리가 호출하는 프로세스를 만들었습니다 기본적으로 의사 결정을 묶는 케이크 이 Cake 프로세스를 통해 모든 거버넌스 팀으로부터 그리고 우리는 12 개월 무언가를 떠났습니다 제품을 허용하는 결정을 내리는 데 2 ​​주까지 생산에 들어가기 그래서 배운 주요 교훈의 측면에서, 내가 너와 나눌 수있는 것, 내가 너에게 생각해 주길 바라는 것 너 자신을 위해, 번호 하나, 마이 그 레이션 거대한 다차원 동물입니다

그것들은 문제들 중에서 가장 좋고 도전적인 것입니다 그게 네가하고 싶은 일이라면 너는 확실히 올바른 곳에서 나는 당신의 팀을 바로 시작하고 충분한 질문을 할 것이라고 말할 것입니다 문제를 완전히 이해할 때까지 게임 북을 사용하지 마십시오 아무것도 가정하지 마십시오

귀하의 데이터와 새로운 데이터를 지속적으로 재평가하십시오 그리고 침몰 비용의 오류에 유의하십시오 그리고 그것이 당신의 의사 결정에 어떻게 영향을 미치는지 변화하는 프로세스 또는 채용을 두려워하지 마십시오 그 과정에서 새로운 역할을 위해

가능성이 높습니다 전혀 다른 것입니다 그리고 마지막으로, 틀린 것을 두려워하지 마십시오 당신은 실수 할 것입니다 무언가의 진실을 찾으십시오

옳기보다는 오히려 성공으로 당신의 길을 되풀이하십시오 그래서 나는 마이크를 벤쪽으로 넘길거야 지금 누가 엔지니어링 문제에서 당신을 말할 것입니까? 원근법 [박수 갈채] BENJAMIN PODGURSKY : 안녕하세요

나는 Ben Podgursky입니다 나는 엔지니어 야 저는 데이터 인프라 팀에서 일하고 있습니다 우리 이주에 대해서 이야기 할 것입니다 소프트웨어 엔지니어의 관점에서 GCP로 나는 단지 강조하는 것으로 시작하고 싶다

나는이 과정에서 수석 건축가가되었다고 주장하지는 않는다 이것은 엔지니어 수십 년이 걸렸습니다 그러나 그들은 실제로 이주를 실제로 바쁘게하고 있습니다 오늘, 나는 그 중 하나입니다 마이그레이션을 설명하기가 어렵습니다

LiveRamp의 판매에 대해 간략히 설명하지 않고 우리가 어떻게하는지 마일 높은 볼 우리는 고객 데이터 세트를, 식별자 데이터를 받아 이것을 전달합니다 두 가지 방법으로 광고 기술 생태계에 먼저 배치 전달 시스템으로, 또한 실시간 키 값 전달 시스템을 사용합니다 나중에 우리 환경에 대해 더 이야기 할 것입니다 짧은 버전은이 처리의 대부분을 차지합니다 큰 Cloudera Hadoop에서 발생합니다

데이터 센터의 클러스터 다른 대부분의 응용 프로그램은 VMware 가상 시스템에서 실행되었습니다 요리사가 제공 한 것입니다 CoreOS 지각 구조 클러스터 실시간 키 값 제공 우리가 만든 자체 개발 한 오픈 소스 시스템이었다 하둡 파이프 라인에 대해 한 가지 강조하고 싶습니다

많은 회사에서 Hadoop은 부가가치입니다 그들에게는 제품이 있습니다 그들은 제품을 판매합니다 그들은 제품에서 로그 아웃되며, 그런 다음 기계 학습을하고 그로부터 가치를 얻으십시오 그건 LiveRamp가하는 것이 아닙니다

우리는 기본적으로 ETL 회사입니다 그리고 우리가 Hadoop 파이프 라인을 통해 데이터를 이동하지 않는다면, 우리는 실제로 많은 제품을 판매하지 않습니다 그리고 이로 인해 마이그레이션이 매우 어려워졌습니다 나는 나중에 그것에 대해 더 이야기 할 것이다 작년에이 모든 일이 우리의 온 프레미스 데이터에서 일어났습니다

우리 하드웨어의 대부분은 2,500 노드 Cloudera입니다 Hadoop 클러스터 밖에 큰 클러스터가 있습니다 하지만 꽤 큰 90,000 CPU입니다 사샤가 말했듯이, 약 100 페타 바이트의 원시 스토리지

VMware 클러스터에서 Hadoop 이외의 작업이 발생했습니다 500 개 이상의 VM에 대해 이 중 많은 부분이 논리 작업 전용이었습니다 Hadoop 환경에 대해 매일 약 8 테라 바이트의 데이터가 송수신됩니다 매우 약 압축 후 계산, 필터링, 정렬 등 모든 작업을 수행합니다 그래서 결국 하드웨어는 꽤 중요한 하드웨어였습니다

우리가 옮겨야 할 환경 나는 확신 할 수있는 것에 대해 이야기하지 않을 것이다 우리는 구름으로 움직입니다 사샤는 그 중 일부를 다뤘습니다 이유는, 당신이 듣게 될 것입니다, 1000 다른 회담 이번 주 브레이크 아웃 세션

우리는 빨리 움직이기를 원했습니다 Google의 엔지니어는 개발자가 아닌 개발자가되기를 원했습니다 역사적인 재 enactors 우리는 규모를 조정해야했습니다 클라우드 기반 도구가 필요했습니다

일반적인 이유 마찬가지로, 나는 많은 시간을 보내지 않을거야 그것이 당신이 여기있는 이유이기 때문에 GCP를 선택하도록 설득합니다 그러나 우리가 한 의사 결정 과정에 대해 이야기하고 싶었습니다 분명히, 우리는 기술에 관심이 있습니다

GKE는 큰 도움이되었습니다 당시 AWS는 좋은 Kubernetes 제공 물을 가지고 있지 않았지만, 우리는 실제로 제 3자를 찾지 못했습니다 설득력있는 제물 우리의 실시간 배송 팀은 다른 모든 제품보다 우월합니다 객체 저장이 필요했습니다

GCS는 다른 것들과 경쟁적이었습니다 가격은 좋았습니다 우리는 다른 사람들보다 더 좋은 가격을 가지고 있습니다 하지만 내가 강조하고 싶었던 점은 정말 우리를 위해이 선택을 한 사람들 이었습니까? Google과 대화 할 때 우리는 우리의 문제를 해결하고자하는 엔지니어에게 우리는 전체 목표가 우리를 팔 것이라고 생각하지 않았습니다 전문 지원 시간

전문적인 지원에 문제가 있다는 것은 아닙니다 훌륭합니다 하지만 우리는 근본적으로 우리의 문제에 답하고 우리를 도우려고했습니다 그리고 그것은 전체 이민을 통해 우리에게 자신감을주었습니다 그들은 우리를 돕고, 나란히있을 것입니다

문제를 통해 그리고 그것은이 과정에서 절대적으로 머물러 있습니다 그래서 우리가 우리가 이것을 현실로하기로 결정했을 때, 우리는 그것을 몇 가지 질문으로 쪼개었다 우리 시대의 건축은 무엇입니까? LiveRamp의 최소 실행 가능 클라우드 아키텍처는 무엇입니까? 우리는 어떻게 거기에 도착합니까? 클라우드에 구축 – 쉬운 일은 아닙니다 그러나 당신은 신선한 시작하게된다

클라우드 기반 기술로 시작할 수 있습니다 회사가 운영되지 않는 경우 큰 문제는 아닙니다 그러나 그것은 우리에게 사실이 아닙니다 우리는 많은 양의 인프라를 가지고있었습니다 마이그레이션하는 동안 계속 실행해야하는 프로세스가 있습니다

그리고 마지막으로 우리는 무엇을 향해 무엇을 만들고 싶습니까? 우리는 우리의 인프라가 첫날에 완벽해질 것입니다 첫날 구름이 완전히 덮일 수는 없습니다 그러나 우리는 성공을 향해 스스로를 위로하고 싶습니다 그렇다면 인프라가 처음에는 어떻게 될 것입니까? 마이그레이션 할 개발 팀 요청 힘들고 엔지니어에게 물어보십시오 그들이하는 동안 프로세스에 많은 불확실성이 추가됩니다

Next와 같은 회의에서 말하는 것은 너무 섹시하지 않습니다 하지만 드롭 인 대체물이 있었던 곳 우리 인프라의 GCP 로의 직접 번역, 우리는 일반적으로 리프트 측면에서 실수를 범했고 우리는 GCP를 가지고있었습니다 즉, 일부 제품은 매력적이었습니다 그리고 매우 직설적 인 번역을 제공했다 마이그레이션하는 동안 전환하는 것이 적절하다고 느꼈습니다 그래서 저는 변하지 않았고 변하지 않은 것을 통해 이야기 할 것입니다

그래서 무엇이 바뀌지 않았을까요? 우리의 온 프레미스 환경은 단일 논리 내부 회로망 사설 IP를 통해 전달되는 내부 서비스, 대부분 콘솔을 통해 조정되었습니다 앱 팀에서는이 점을 동일하게 유지하는 것이 중요하다고 느꼈습니다 그들은 단일 네트워크가 필요했습니다 해당 네트워크를 통해 서로 대화해야하는 앱

그리고 나중에, 특히 다리 건너편에서 더 이야기하겠습니다 우리의 네트워크 사이 모든 대용량 데이터 처리는 Cloudera Hadoop에서 발생합니다 그것은 변하지 않습니다 나는 보안 및 사생활 보호 결정에 대해 이야기하고 싶지 않다

대단히 중요하지만, 우리가 한 일의 거대한 부분 클라우드는 개발자에게 권한을 부여하지만, 고 가용성의 글로벌 배포를 쉽게 만듭니다 실수로 보안 침해 그래서 우리 작전 팀은 방화벽 통제권을 유지했습니다 허가의 관점에서 규칙들, 근본적으로, 고객 데이터를 안전하게 유지하지 못한다면, 우리는 실제로 많은 제품을 가지고 있지 않습니다

그래서 우리는 무엇을 바꾸 었는가? 전제, 우리는 우리의 모든 데이터를 HDFS에 거의 저장했습니다 그래서 우리의 HDFS는 실제로 꽤 기름칠 기계입니다 이 마이그레이션을 시도 할 때까지 그러나 그것은 매우 스트레스가 많았고 유지하기가 어려웠습니다 모든 업그레이드가 데이터 손실의 기회임을 알았습니다 또는 일종의 대참사

우리 회사가 성장함에 따라 더 많은 고객과 더 짧은 고객을 확보함에 따라 SLA가 짧아지면 어려워지고 어려워졌습니다 Google 제품 팀이 환경을 업그레이드했기 때문에 일이 잘못되었을 때 중단 시간을 원합니다 그래서 우리는 결국 기본적으로 막 붙어 있지 않았습니다 업그레이드가 가능합니다 따라서 GCP를 사용하고 나면 모든 영구 데이터에 GCS를 사용합니다

저장 우리는 지속적인 데이터를 위해 HDFS를 사용하지 않습니다 전제 조건으로 Chef를 사용하여 모든 VM을 프로비저닝합니다 우리는 Chef에 많은 응용 프로그램 로직을 내장했습니다 그리고 우리는 실제로 Chef 클라우드로 그것은 잘 작동하지 않았고 우리는 GKE가 훌륭한 제품이라고 느꼈습니다

일부 팀은 GKE를 사용하고 있습니다 우리는 모든 VM을 전환하는 것이 적절하다고 생각했습니다 우리가 이전 할 때 GKE로 넘어갔습니다 마지막으로 Google Bigtable이 우리의 자국 핵심 가치 데이터 저장소를 대체 할 수있는 훌륭한 도구입니다 우리는 모든 실시간 웹 트래픽에이를 사용할 것입니다

그래서 나는 개인적으로 대부분의 시간을 보냈다 Hadoop 클러스터를 GCP로 변환합니다 그래서 나는 그다지 많은 것을 설명하지 않고 싶다 전체적인 이야기 일 수도있는 아키텍처는, 그러나 가치에 대해 이야기하고 어떻게 해방하는지 그것은 구름 속에있다 2,500 대의 서버를 보유하고 있다면 너와 함께해야 할 일

그들은 모든 데이터를 가지고 있습니다 업그레이드를 테스트하려면, 주말에는 2,500 대의 서버를 구입할 수 없으며 규모 테스트를 수행 할 수 없습니다 그런 다음 다시 돌려주십시오 당신은 가지고있는 것을 테스트해야합니다 dev 클러스터를 설정할 수 있습니다

준비 클러스터를 설정할 수 있습니다 그러나 규모 테스트는 실제로 할 수 없습니다 따라서 GCP에서 GC VM을 사용하는 경우 사실이 아닙니다 인프라를 가동시킬 수 있습니다 기존 인프라 스트럭처를 다운시킬 필요가 없습니다

그것을 밖으로 시험하기 위하여 그리고 롤백은 쉽습니다 GCS를 사용하기 때문에 모든 것이 더 쉽습니다 그래서 이것은 우리의 능력을 정말로 4 배로했습니다 이 인프라에서 반복 할 수 있습니다

그리고이 환경을 무언가와 유지하는 것으로 바뀌 었습니다 스트레스가 많고 고통 스럽다 그것은 실제로 다시 재미 있습니다 그렇다면 GCP는 어떻게 될까요? 몇 가지 마이그레이션 전략이 있습니다 기업에 많은 고객이없는 경우 돈을 벌지 않으면 너 자신을 벗어날 수있다

전송 장치를 사용할 수 있습니다 전국으로 배송 할 수 있습니다 그런 다음 다시 켜십시오 모든 것이 작동하는 몇 주 후에 우리는 영업 팀과 점검했고, 고객, 우리는 돈을 벌어 그리고 그들은 꺼지는 생각에 행복하지 않았습니다

그래서 우리에게 천천히, 아주 조심스럽게 옵션을 남겼습니다 조율 된 마이그레이션 프로세스 그래서 우리는 우리가 필요한 것을 알고 시작했습니다 적어도 마이그레이션 프로세스 중에, 우리는 하나의 논리적 네트워크가 필요했습니다 GCP와 데이터 센터간에 팀은 속도를 낼 수 있어야했습니다 GCP의 서비스 온 프레미스 데이터 센터로 마찬가지로, 데이터베이스 호출을 공유 할 수 있어야했습니다

따라서 하나의 큰 네트워크에서 전체 회사를 덤핑하는 것을 피하려면, 우리는 헤어졌다 우리는 공유 VPC 네트워크로 분할했습니다 팀은 자체 서브 네트워크를 가지고 있으며 회전 할 수 있습니다 서비스를 제공합니다 팀은 GCP를 통해 다른 팀과 커뮤니케이션 할 수 있으며, 데이터 센터로 돌아갈 수 있습니다

우리는 클라우드 상호 연결로이 작업을 수행했습니다 그리고 이것은 정말로 중요했습니다 나는 강조하는 것이 중요하다고 생각한다 우리는 GCP에 생산 어플리케이션을 가지고 있었다 처음부터

스테이징 환경을 설정할 필요가 없었습니다 그런 다음 하루 만에 회사를 삭감했습니다 우리는 GCP를 운영하는 주말부터 서비스를 제공 받았습니다 그래서 이것은 법원의 도전 중 하나를 회사로 수출합니다 우리가 데이터 센터 GCP에서 가지고 있던 제한된 출구를 다루었습니다

데이터 센터 내부 – 그것은 거대한 데이터 센터입니다 우리는 엄청난 대역폭을 가지고 있습니다 그러나 우리는이 모든 데이터를 가져올 수 있도록 최적화하지 않았습니다 데이터 센터의 우리는 하루가 끝나면 약 50 기가 바이트로 제한되었습니다 GCP로 분명히 우리는 이것을 다시 설계 할 수있었습니다

우리는 더 큰 연결을 구축 할 수있었습니다 그러나 우리는 데이터 센터를 업그레이드하는 데 수백만 달러를 낭비하지 않았습니다 우리가 그것을 끄려고 할 때, 단지 6 개월 정도 유지해야합니다 전송 장치가 제대로 작동하지 않는 이유 우리는 LiveRamp의 데이터 중 아주 작은 부분만을 차지합니다 프로세스는 실제로 콜드 데이터입니다

우리는 끊임없이 고객으로부터 수입품을 받고 있습니다 데이터를 지속적으로 새로 고침 우리의 데이터 소스에서 데이터를 GCP로 전송하는 데 며칠이 걸릴 수는 없습니다 처리를 재개하십시오 우리가 명심해야만했던 또 다른 것 클라우드의 데이터 이탈은 매우 비싸다는 것입니다

클라우드 공급자 – Google뿐 아니라 – 모든 종류의 마약상 입구 Ingress는 완전히 무료입니다 맞습니까? 거기에 모든 데이터를 입력하십시오 훌륭합니다

그러나 테라 바이트 급의 데이터를 빼내고 싶다면, 그것은 매우 비싸게되고, 특히 그것이 일상적인 일 처리 파이프 라인의 일부라면 그래서 50 기가비트 그리고 당신은 50 기가비트처럼 좋다고 말할 수 있습니다 누구에게나 충분할 것 같은데 그리고 그것은 입력 데이터를위한 것입니다

우리는 경기에서 10 테라 바이트의 데이터를 얻습니다 고객 데이터 및 물건 그리고 우리는 하루에 10 테라 바이트 이상을 배달하지 않습니다 고객에게 전달합니다 그러나 우리가하는 일의 성격 때문에, 우리는 거대한 분산 조인을 가지고 있습니다

우리의 데이터 처리 파이프 라인의 중간에 우리는 하루에 500 테라 바이트를 읽고 쓰고 있습니다 연결을 끊으면 팀이 매우 쉽습니다 잘못된 위치에서 완전히 상호 연결을 포화시킬 수 있습니다 이것은 복잡한 문제입니다 우리는 그것으로 전체 이야기를 채울 수 있습니다

그러나 짧은 버전은 우리가 내부 서비스를 팀을위한 우선 순위 방식으로 데이터를 복사합니다 팀은 서비스를 위해 인터커넥트를 자유롭게 사용할 수 있었다 및 데이터베이스 호출을 포함하지만 데이터 인프라 팀 모든 제출 된 사본을 처리했다 우리는 그 (것)들을이 서비스에 복종시키기 위하여 그 (것)들을 요청했다 이를 통해 생산 데이터 전송의 우선 순위를 결정할 수 있습니다

짧은 SLA를 가진 제품, 우리가 약속 한 제품 매우 짧은 시간 내에 고객에게 전달됩니다 저온 데이터가 전송되면 우선 순위를 낮출 수 있습니다 그리고 결국 그것은 일어날 것입니다 정말 비판적으로 또한 주어진 대역폭에서 누가 우리 대역폭을 사용했는지에 대한 우리의 통찰력 시각 따라서 우리 팀이 파일을 직접 복사하는 경우, 당신은 TCP 덤프 주위에 몸을 피워야 할거야

2시에 누가 인터커넥트를 사용하고 있었는지 알아 내기 위해 AM 어제 밤, 그래서 모든 것이 실패했습니다 대신 Datadog 대시 보드를 살펴볼 수 있습니다 그리고 오, 앱 X는 오전 2시에 대역폭의 xyz를 사용하고 있었다고 말합니다 이러한 제약 조건은 전체 구조를 결정했습니다 데이터 이전에 대한 우리는 우리 파이프 라인의 끝에서 시작했습니다

애플리케이션을 마이그레이션 할 것입니다 HDFS에서 직접 데이터를 가져 오는 대신, 그들은 인프라 데이터 복제기를 호출 할 것입니다 서비스는 HDFS에서 입력을 복사하는 것을 처리합니다 다시 GCS로 그리고 평소와 같이 그들을 소비 할 것입니다

업스트림 응용 프로그램이 이전되면, 더 이상 복제를 수행 할 필요가 없습니다 데이터는 기본적으로 GCS에 존재하지만, 우리는 그 과정을 계속할 것입니다, 꼬리 처리 파이프 라인의 머리로 그리고 그 곳에서 우리는 현재 중도에 대한 회사로 있습니다 그것을 통해 우리가 여전히 우리가 연결을 포화시키지 않았다 그러나 이것이 우리가 이전 한 방법의 전반적인 구조입니다

그래서 그것은 매우 요약 된 버전입니다 우리가 GCP에 어떻게 접근하고 있는지 마지막으로 가장 흥미로운 질문은 다음에 오는 것입니다 우리는 어떻게 일을 다시 엔지니어링 할 것인가? 클라우드 기반으로 실제 업무에? 나는 경찰에 나가서 너에게 말할거야 우리는 아직 실제로 그 질문에 대한 강한 대답을 가지고 있지 않습니다

실시간 쿼리를 위해서는 최소한 Bigtable이 필요합니다 Bigtable에 실시간 쿼리가 포함됩니다 상당량의 BigQuery가 포함됩니다 임시 쿼리의 경우 경량 데이터의 데이터 흐름 변형 하지만 내가 모르는 주된 이유는 개발자 주도형이 될 것입니다

우리의 목표는 인프라 팀을위한 것입니다 더 이상 이러한 결정을 내릴 수 없습니다 인프라가 도움이 될 것입니다 인프라는 사람들을위한 도구를 구축 할 것입니다 그러나 하루가 끝날 무렵에는 구름 속에 있었고, 개발자가 인프라를 프로비저닝 할 수 있음을 의미합니다

적절한시기에 필요할 때 필요합니다 그래서 목표는 내년에, 잘하면, 일부 응용 프로그램입니다 팀이 6 시부 터 취한 방법에 대해 이야기 할 것입니다 60 분의 BigQuery로 바꿨습니다 응용 프로그램 또는 Bigtable 스크립트 또는 뭔가 하지만 우리가 말할 수는 없으니까

아직 거기에 없다 그래, 그게 내가 가진 전부 야 나는 물건을 패트릭에게 돌려 줄 것이다 고마워, 모두들 [박수 갈채] PATRICK RAYMOND : 안녕하세요, 고마워요

제 이름은 패트릭 레이먼드입니다 인프라 스트럭처의 제품 관리자입니다 LiveRamp에서 소대 이 마이그레이션에 대해 이야기하고 싶습니다 사샤가 말했던 것처럼, 우리는 생각하고 싶었습니다

이것에 대해서는 조금 다르게 어쩌면 PMO 또는 프로젝트 관리에 특정한 것보다, 제품 자체와 같이 생각하면됩니다 그래서 당신은 사샤와 벤의 주제를 들었다 이것은 거대하고 복잡한 문제입니다 그리고 일들이 많이 바뀔 것입니다 그래서 조금 혼란 스러울 수 있습니다

그리고 그것은 약간 압도적 일 수 있습니다 그리고 당신은 당신이 네가 네 인생을이 왼쪽에 보냈다는 느낌, 당신은 아마이 디자인의 삐걱 거리는 소리에 익숙 할 것입니다 그러나 이것은 우리 프로세스와 매우 유사합니다 처음 시작했을 때, 우리의 모든 질문 대답이 여기 왼쪽에 나온 것처럼 느껴졌습니다 그러나 우리가 팀과 반복하기 시작하면서, 우리는 우리가 가고 있지 않다는 것을 깨달았다

이 질문에 대한 완벽한 대답을 찾으십시오 그래서 우리는 시간이 지남에 따라, 우리는 더 많이 오른쪽 방향으로 움직였습니다 그리고 일이 훨씬 더 분명 해지기 시작했습니다 그래서 아마도 이것은 아마도 중요한 일이라고 생각합니다 이게 당신 회사가 뭔가라면 너 한테 일어난다

준비하기 때문에 어딘가에 뛰어 들기가 가장 좋습니다 의사 결정을 시작하십시오 Ben은 또한 팀이 의사 결정을 내리고 있다고 언급했습니다 자신의 인프라에 대해 그래서 우리는 또한이 구별에 대해서 생각하고 싶었습니다

데이터 센터에서 클라우드로 마이그레이션 할 때, 물론, 당신에게 유용한 도구가 많이 있습니다 그러나 모든 문제를 즉시 해결할 수는 없습니다 당신이 들었던 것처럼, 우리가하고있는 것들 중 일부는 순수한 상승과 교대 일뿐입니다 그래서 우리가하지 않는 것이 중요합니다 모든 이해 관계자에게 곧 약속한다

당신이 구름으로 이동할 때, 당신의 모든 문제가 해결됩니다 왜냐하면 그것은 사실이 아니기 때문입니다 그리고 우리는 브랜드로 끝나지 않을 것입니다 새로운 회사 그래서 우리는 문제의 범위를 정확하게 정하고 싶었습니다

이해 관계자들이 이해할 수있는 우리가 조사한 것 그래서 나는 지금 조금 이야기하고 싶다 이해 관계자의 의견 수렴에 대해 이 아이디어를 중심으로 우리가 한 일은 우리가 제공 할 가치를 명확히함으로써 우리는 또한 일을하지 않는 비용에 대해서 이야기하고 싶었습니다 그리고 주로 우리가이 기능을 수행 한 기능입니다 그래서 아마도 위의 성명서 여기 모두가 깊이 이해할 필요가있다

당신이하려는 일 이해 관계자가 누구인지 알아야합니다 아마 어리석은 짓을하는 것 같아요 하지만 너는 스스로에게 많은 질문을 할 수있다 누가 인프라를 소비하는지, 누가 당신에게 보안을 제공 할 예산을 보유하고 있습니다 규정 준수 승인 클라우드에서 작동해야합니까? 그리고 그것들은 당신의 이해 관계자들입니다

그리고 그들은 모두 다른 것들에 관심이 있습니다 따라서 서로 다른 방식으로 정렬하는 것이 중요합니다 그리고 우리의 임원 팀에게는 우리가 그들을 도울 수있는 방법에 관해 그들과 이야기하고 싶었다 미래의 목표, 우리가 도울 수있는 방법 그들은 이윤을 높이고 앞으로 나아 간다 회사 이니셔티브와 함께 우리의 개발자들은 새로운 인프라를보다 나은 방법으로 활용하는 방법, 자신의 배를 선장하여 자신의 제품을 만들 수 있습니다

그리고 우리 제품 팀은 제품에 대한 통찰력을 원합니다 비용에 대한 세분화 된 이해를 원합니다 그리고 제가 말씀 드렸듯이, 일을하지 않는 비용 우리에게는 계속 된 비용이있었습니다 온 프레미스 데이터 센터의 지속적인 비용 부족이 있습니다

더 복잡하고 제한적인 제품이 있습니다 기존 데이터 센터에서 작업 할 때 그리고 우리가 이것을 사교적으로 이해할 때, 우리는 Ben이 말한 것처럼, 사람들은 우리가 계속 돈을 벌기를 원했습니다 그래서 우리는 제품을 선적해야했습니다 그래서 우선 순위를 정하는 방법을 알아야했습니다 이해 관계자들이 주위에 정렬

그리고 당신에게 규모의 아이디어를주기 위해서입니다 우리가 우선 순위에 대해 이야기하고있는 것, 우리는 5 개국에 22 개의 팀을두고 있습니다 아마도이 방에있는 많은 사람들과 매우 비슷할 것입니다 전 세계에 걸쳐 이러한 유형의 우선 순위를 유지합니다 1 년 넘게 할 일은 매우 어렵습니다

하지만 가능합니다 따라서 이것은 매우 명백한 진술입니다 그러나 모든 것이 최우선 순위 일 때 각 팀마다, 우선 순위를 매길 수는 없습니다 따라서 운송을 계속해야한다는 것을 알고 있습니다 우리는 모든 사람이 그들에게 최우선 순위

그러면 우리는 그걸 어떻게해야합니까? 우리는 어떻게 그 일을합니까? Sasha가 언급 한 것처럼 모든 팀 스크럼을 어떤 형식이나 방식으로 사용하십시오 각 팀이하는 일 중 하나 그들은 비즈니스 가치 회의를 가지고 있습니다 그리고 제품 관리자로서 저는 참석하는 데 관심이 있습니다 모든 비즈니스 회의 및 비즈니스 가치 회의, 그들이 작품 가치를 이해하도록 돕는다 우리가 할거야

나는 회의에 올 것이고 말할 것이다 일의 비용, 이야기 일을하지 않는 데 드는 비용에 관해서도 도움이된다 엔지니어링 팀은 그들이 할 수있는 것을 이해합니다 클라우드에서 이익을 얻으십시오 여기에서 가장 큰 것은 실제로 존재해야합니다

참석할 많은 모임이 있습니다 하지만 모두가 이해할 수 있도록 거기에 있어야합니다 가치 그리고 거기에 계신다면 약속하지 않는 것과 같은 것에 대해 이야기 할 수있다 네가 지킬 수는 없지만 큰 이점에 대해 이야기해라

OC 시간 단축, 반복 증가 신제품의 속도, 투명하게 비용을 드러냄 엔지니어가 내게 말한 것이죠 나는이 모든 모임에 순찰을 가면서 너는 너의 모든 시간을 헌신적으로 보낼 수 없다는 것이었다 비즈니스에 도움이되므로 빌드하는 것이 중요합니다 노력을 밑에서부터

그래서 마음과 마음을 이길 수 있다면 엔지니어링 팀 중 그것들은 우선 순위를 정하는데 도움이됩니다 그것은 당신을 위해 훨씬 쉽게, 너의 구석에서 싸우는 사람들이 많기 때문에 우선 순위가 정해 지도록하려면 이 일을하는 유일한 사람이되기보다는 그리고 나는 과도한 의사 전달이 정말 귀중합니다 이것은 사샤가 제가 배운 것을 도운 것입니다 당신은 기본적으로 요점에 도달해야합니다

당신이 방에서 성가신 사람인 것처럼 느껴지는 곳 모두가보기 싫어하고, 나는 그 시점에서 생각한다 아마 요점에 다다를거야 귀하의 메시지가 분명 해지고 반복해서 반복했다 그리고 또한 기억하는 것이 중요합니다 이러한 모든 팀 및 이해 관계자와 함께, 그렇지 않은 경우 우선 순위에 대해 이야기하면 다른 사람이 될 것입니다

그리고 새로운 제품을 가진 사람들이 많이있을 것입니다 새로운 아이디어, 그리고 새로운 수익 창출 방법을 제시합니다 그러니 나가서 모든 사람이 이것을 정기적으로 이해합니다 그래서 우리는 주간지 모임에 참석함으로써 그렇게합니다 정기적 인 제품 회의 참석, 우리가 할 수있는 기회가 있다면 어디에서나 발표 할 수 있습니다

우리는 또한 많은 위험에 대해서 이야기합니다 분명히, 끊임없이 일어날 것입니다 그래서 너는 그 일들보다 앞서 나가고 싶어 그 (것)들을 완화하는 당신의 계획을 개발하십시오 그래서 우리가 시도한 한 사람의 쇼처럼 불가능합니다

잠시 동안,하지만 당신은 도움이 필요한 사람들을 고용해야합니다 당신은이 아이디어를 나타냅니다 그래서 우리는 훌륭한 팀을 고용했습니다 그것은 작은 팀이지만 열렬한 두 사람 이 메시지를 전달하는 데 도움을 준 사람 이러한 일정이 가능할 것입니다 그리고 제가 언급 한 것처럼, 우리가 생각하기 전에 정말 다른 관점에서 계획하는 것에 대해서도 마찬가지입니다 우리는 가능한 한 마른 상태로 유지하려고했습니다

우리는 무슨 일이 일어나고 있는지 이해하기에 충분한 계획을 세우고 싶었습니다 그러나 우리는 크게 방해받지 않으려 고했습니다 우리는 개발자들이 이 문제를 해결하는 것이 문제에 가장 가깝습니다 그들은 가장 많은 접촉을 가지고 있으며, 그들은 이런 일을하는 가장 좋은 방법을 우리에게 말해 줄 수 있습니다 그래서 우리는 모든 프로세스가 계획을 세우는 것이 기본적으로 배경이었습니다

정보 수집 장소였습니다 우리가 진행하고있는 진전을 이해하기 위해서, 그러나 그 과정 자체는 무거운 짐을 덜어줍니다 수 많은 스프레드 시트와 업데이트에 관한 회의가 아닙니다 그리고 우리는 우리 자신을 팀으로 생각합니다 그것은 다른 모든 팀 사이의 결합 조직입니다

그래서 우리는 정보의 올바른 균형을 찾고 싶었습니다 이해 관계자들은 실제로 무엇을 했습니까? 이 다른 옵션들과 비교하여, 알고 싶어합니다 우리가 계획을 위해 사용할 수있는 것 그래서 우리는 물었습니다 그리고 이것이 그들이 원하는 것입니다

믿기지 않게 간단합니다 그러나 누가 일하고 있는가? 얼마나 진전 되었습니까? 그리고 얼마나 많은 사람들의 거대한 카운터 마감일까지 남은 일 이것은 회사 전체에서 광범위하게 출판됩니다 누구나 그것에 접근 할 수 있습니다 그리고 우리는 이것이 업데이트되었는지 확인하려고 노력합니다

이것은 실제로 자체적으로 정기적으로 업데이트됩니다 그것은 완전히 자동화되어 있습니다 그러나 우리는 이것이 노출되어 있는지 확인하기를 원합니다 그래서 우리는 월 1 회 이그 제 큐 티브 스테이크 홀더 회의뿐만 아니라, 다시, dev에 회의 및 제품 회의 이 전체 프로세스의 핵심은 Sasha입니다

이전에 Cake 프로세스를 언급했다 거버넌스 승인 우리는 프로젝트 계획을 수행하는 방법과 동일한 방법으로 생각했습니다 그래서 우리는 정말 간단한 방법을 개발했습니다 Jira 제품 로드맵

마이그레이션하는 각 팀마다 티켓이 있습니다 매주 우리는 일을 정리 한 목록을 기록합니다 우리는 알고 싶어합니다 그들은 모든 응용 프로그램에 대해 일련의 하위 작업을 수행합니다 그들이 이주하고 있다는 것을

그리고 그들은 티켓을 업데이트합니다 이것이 모든 22 개 팀의 단일 진실입니다 우리는 무슨 일이 일어나고 있는지 정확히 알고 있습니다 그들은 우리에게 업데이트를 제공합니다 그리고 그 정보는 모두 다음과 같습니다

미끄러 져서 우리 대시 보드에 완전히 넣었다 자동으로 그래서 이것은 우리에게 정말로 도움이되었습니다 그런 결정은 한 곳에서 녹화되며 모두에게 제공됩니다 보다 그래서이 모든 것들이 훌륭합니다

그러나 변화는 정기적으로 일어난다 그래서 우리는 작업 우선 순위를 낮출 수있는 방법이 필요했습니다 우리는 물건이 완전히 옆으로 빨리 갈 수 있다는 것을 압니다 새로운 개인 정보 보호 규정이 생길 수 있습니다 아무거나는 일어날 수있다

우리 사업만큼이나 그렇습니다 에 따라 영향이있을 것이라는 점에 동의합니다 우리가하는 변화와 모든 사람에게 앞으로 나아가는 것에 동의한다 우리는 그것으로 완전히 멋져요 다시 Jira 프로젝트를 사용합니다

변경 사항이 발표되면 기록됩니다 Jira 티켓에 넣은 다음 모든 이해 관계자 팀과의 만남 결정을 내리고, 우선 순위가 결정되며, Jira 티켓에 기록됩니다 모두가 볼 수 있도록 다시 게시됩니다 일어날 일에 대해 의문의 여지가 없습니다 모두가 변화와 모든 것을 알고 있습니다

영향을 이해합니다 그래서 그것은 당신을 위해서도 변할 것입니다 그리고 나는 괜찮다고 생각한다 나는 그것이 일어날 것이라는 것을 당신이 안다는 한 오래 생각합니다 그리고 당신은 그걸 준비하고 있습니다

그렇다면 정말로 그렇게해서는 안됩니다 너무 어려워 그래서 실제로 들었습니다 미안, 나는 조금 앞으로 뛰어 올랐다 그래서이 부분도 생각하고 있습니다

우리 팀에 대한 우리의 생각 앞으로 올 모든 변화에 대비할 준비가되어 있습니다 그래서 그들은 자체 인프라를 소유하게 될 것입니다 우리가 시작했을 때부터 큰 변화입니다 그들은 이전에 없었던 일들에 책임이 있습니다 새로운 팀을 시작하기위한 프로세스에 대해 생각할 때 그들의 일, 우리는 그들에게 많은 시간을 보내 게한다

도구를 알게되고, 훈련을 받고, 이미 개발 팀과 협력 전에 이것을 통해, 그리고 실제로 새로운 기술로 무슨 일이 일어나는지 이해하십시오 그들이 사용할 거라고? 그래서 우리는 그 시간의 우선 순위를 정해야합니다 우리는 모든 팀에 투자해야합니다 그리고 가장 중요한 것은 이것이 아마도 프로젝트에서 자주 언급하지 않는 것 그러나 우리는 우리 팀을 정말로 염려합니다 우리는 우리가 많은 것을 요구하고 있다는 것을 이해합니다

키보드에 손을 댄 사람입니다 매일, 그리고 그들은 만드는 사람들입니다 이 변환이 가능합니다 그래서 우리는 그들의 일에 감사하는 시간을 많이 보냅니다 그리고 우리는 우리의 경영 팀, 제품 팀, 엔지니어링 팀은 모두이 작업을 인식합니다

그래서 충고의 큰 조각 – 당신의 프로젝트로 곰팡이를 깨뜨리는 것을 두려워하지 마십시오 우리는 개인적으로 파티하기를 좋아합니다 그런 거대한 프로젝트 – 지속적인 1 년 프로젝트와 같습니다 사람들은 매우 피곤하고 일종의 떠남에 대해 생각하며, 아니면 그들은 떠날 것입니다 그러나 우리는 모두가 완료되는 작업의 이점을 이해합니다

그래서 저는 Kelsey Hightower의 인용문을 닫고 싶습니다 우리가 서명 한 직후, 우리는 고객 회의를 가졌습니다 우리가 참석했다 그리고 우리는 그가 우리가 유일한 회사라고 말했다 그걸 들었다고 스스로 들려서 거대한 파티를 열었 어

구글과 계약을 맺은 후 그래서 이것은이 과정에 대한 우리의 생각을 구현합니다 일어나는 모든 것은 축하받습니다 우리 셋이 여기까지 올거 같아 오늘이 자리에 서게되어 매우 운이 좋았습니다 LiveRamp에서 위대한 팀

그리고 나는 그들 모두에게 고맙다고 말하고 싶다 매일 이것을 가능하게하기 위해서 [음악 재생]

Big Data Infrastructure in the Cloud with Liftigniter – Stack Chat

MARK MIRCHANDANI : 찾고있는 회사 예측을하려면 방대한 양의 데이터가 필요하며, 복잡한 계산 및 신속한 대응 우리가 LiftIgniter와 이야기 할 때 우리와 함께하십시오

그들이 기계 학습 플랫폼을 어떻게 구축했는지에 관해 Stack Chat의이 에피소드 우리와 함께 해줘서 고마워 LiftIgniter에 대해 조금 더 알려주세요 플랫폼 구축 방법에 대해 설명합니다 VENKAT VENKATARAMAN : 나를 보내 주셔서 감사합니다

LiftIgniter는 실시간 개인화 플랫폼입니다 클라우드에서 실행되는 기계 학습 모델에 의해 구동됩니다 실시간으로 엔드 투 엔드 대기 시간을 의미합니다 약 100 내지 150 밀리 세컨드의 오더로 구성된다 여기에는 네트워크 대기 시간도 포함됩니다

자, 이건 모두 측면에서 진정한 도전입니다 규모와 계산이 사용자가 여러 신호를 추적 가장 관련성 높은 정보를 제공하기 위해 맞춤 추천 우리의 세계관은 각 사람이 독특하다는 것입니다 그리고 매 순간 우리 플랫폼 가장 관련성이 높은 결과에 최적화되어 있습니다 그 때까지 수집 한 모든 신호를 기반으로합니다 MARK MIRCHANDANI : 아키텍처를 보여줄 수 있습니까? 이걸 계속 지키려고 만든거야? VENKAT VENKATARAMAN : 물론입니다

위기에 처한 ML 회사로서 엄청난 양의 데이터, 인프라 비용 우리 사업에 큰 영향을 미칩니다 우리는 세 가지 주요 요소에 집중했습니다 가격, 대기 시간 및 안정성, 다른 사람들과 마찬가지로 이를 강조하기 위해 세 가지 주요 기술을 사용했습니다 워크로드를 기반으로하는 자동 크기 조정 기능을 사용하면 우리는 수평 확장 할 수있는 유연성을 가지고 있습니다

수요가 많은 워크로드 그리고 우리는 자동 스케일 그룹의 조합을 사용합니다 선매 용 인스턴스와 주문형 인스턴스에 대해 우리를 두 번째 요점으로 인도합니다 이는 유연성입니다 우리가 선제 사례를 다음과 같이 사용할 수 있도록 필요하며, 셋째, 이동 옵션 부실하지만 유용한 데이터를 저온 저장 장치에 다시 넣으십시오

비용 절감 속도면에서 보통 네트워크 대기 시간 는 거대한 부분을 가지고있다 그러나 구글의 네트워크는 꽤 활발했다 우리의 경험에서 우리는 많은 구성 요소를 유지할 수있었습니다

충분한 중복성으로 동일한 지역 내에서 가까이에 있습니다 Google의 Footprint를 통해 우리는 서비스를 생성하고 실행할 수 있습니다 모든 고객 대면 서비스 정말 잘 수행하십시오 그리고 우리는 또한 피할 수있었습니다 Google Cloud 덕분에 SLA에 영향을 줄 수있는 모든 중단

MARK MIRCHANDANI : 조금 더 말씀해 주시겠습니까? 추천 시스템이 실제로 구축 된 방법에 대해? VENKAT VENKATARAMAN : 물론입니다 다이어그램은 실제로 단순화 된 아키텍처입니다 도표 우리는로드 밸런서와 프록시를 보여주지 않습니다 그런 것들

그러나 주요 구성 요소와 서비스에만 초점을 맞추고 있습니다 우리가 우리 건축물에 가지고있는 클라우드에 대한 요청은 프런트 엔드 API를 사용하거나 우리는 모델 서버라고 부릅니다 모델 서버는 사용자와 관련이있는 모든 것 활동 및 돌아 오는 추천 결과, 그것이 모델 서버에 의해 처리됩니다 모든 마술이 일어난다 다른 모든 것, 예를 들어, 새 인벤토리 항목 업데이트 또는 생성, 또는 다른 API 호출을 실제로 만들 것입니다

프론트 엔드 서비스를 공격했습니다 이제 프런트 엔드 서비스를 살펴보면 API 전화가오고, 처리가 계속된다 프런트 엔드 컴퓨터에서 발생합니다 그리고 프론트 엔드 서비스는 데이터를 푸시합니다 데이터 저장소에 저장합니다

우리는 파일이나 다른 데이터를 생성합니다 Google Cloud Storage와 같은 일부 데이터 저장소에 저장합니다 또한 다른 데이터 저장소도 있습니다 그리고 GCS는 실제로 이벤트를 트리거합니다 우리가 듣고있는 많은 구독자가있는 Cloud Pub / Sub 그 주제에 관한 메시지

구독자는이를 픽업하고 추가 처리를 수행하며, 도면에 도시 된 예 우리가 재고 시스템을 가지고있는 곳입니다 추가 분석 및 처리를 기반으로합니다 방아쇠가 무엇인지 모델 서버는 전에 말했던 것처럼, 모든 권장 사항과 사용자를 처리하는 활동 추적 그들은 사내에서 많은 처리를합니다

많은 마술이 여기에서 발생합니다 많은 무거운 짐들이 발생합니다 이리– 데이터를 다시 한번 데이터 저장 장치에 저장한다 유사한 메커니즘이 발생하여 이벤트를 트리거합니다 Cloud Pub / Sub로 이동합니다

우리는 청취자가 있습니다 GCS에서 데이터를 선택하는 주제에 대해 추가 처리를 수행하십시오 그리고 다이어그램에 표시된 것처럼이 데이터 이제 BigQuery에 실시간으로 푸시됩니다 여기서 대시 보드는 분석을 위해 BigQuery에서 제공됩니다 여기서 핵심은 우리가 물건을 움직일 수있는 동안이다

빅 쿼리는 실시간으로 BigQuery에 조금 비싸기 때문에 BigQuery에 대한 액세스를 유지하고 싶습니다 우리가 정말로 필요할 때만 그래서 우리는 데이터를 끄는 오프라인 처리가 있습니다 BigQuery의 추가 집계, 이를 캐싱 레이어처럼 작동하는 Cloud SQL로 푸시합니다 따라서 대시 보드는 Cloud SQL의 BigQuery 그들이 얼마나 시간을 거슬러 올라가 느냐에 달려있다

가서 데이터를 수집하고 싶습니다 하단의 상자에는 Spark 클러스터가 표시됩니다 Cloud Dataproc에서 벗어납니다 스파크 클러스터는 기본적으로 모델 튜닝 및 재교육에 사용 더 나은 정확성을 위해 우리는 야간에 실행합니다

우리는 GCS에서 모든 데이터를 수집합니다 우리는 모델을 다시 돌아 다니고 있습니다 그리고 튜닝 파라미터가있는 모델의 결과 전에 있었던 것보다 낫다 우리는 필요한 변경을하고 그 구성을 밀어 낸다 클라우드로 MARK MIRCHANDANI : 자, 이제 한참 지났어

이것을 원래 설계했다 돌아가서 다시 할 수 있다면, 너는 무엇을 다르게 할 것인가? VENKAT VENKATARAMAN : 플랫폼을 설계하기 시작했습니다 기계 학습이 여전히 뜨겁지 않았던 2013 년, 2014 년 빅 데이터는 여전히 그 당시의 일이었습니다 오늘날과 마찬가지로 어렵거나 널리 이용 가능하지 않았습니다

사용 가능한 모든 라이브러리 및 프레임 워크가 있다면 오늘 그때, 그 다음에 빌드 대 구매 결정은 달라졌을 것입니다 우리는 또한 보강 된 지능을 가능하게했습니다 사용자에게 권장 사항에 영향을 줄 수 있습니다 때로는 규칙을 구현할 수도 있습니다 너무 제한적 일 수있는 결국 결과가 줄어 듭니다

이러한 사용자에 대한 사용자 정의를 가능하게하려면, 우리는 색인 생성 솔루션을 연구했습니다 더 나은 결과를 제공합니다 이 중 일부가 뭔가 조사 중이 었어 Elasticsearch와 같이 좋았습니다 하지만 우리만큼 빨리 수행하지 못했습니다

정말 까다로운 대기 시간 요구 사항 때문에 필요합니다 현재 다른 방법을 찾고 있습니다 이를 구축하고 지속적으로 권고 사항을 개선하는 것이 중요합니다 MARK MIRCHANDANI : 세부 사항을 공유해 주셔서 감사합니다 VENKAT VENKATARAMAN : 나의 기쁨

MIRCHANDANI (MARK MIRCHANDANI) : 설정을 시도하려면 Google Cloud Storage에 대한 Pub / Sub 알림, 아래 설명에서 둘러보기를 확인하십시오 시청 해 주셔서 감사 드리며 구독을 꼭하십시오 더 우수한 Google Cloud Platform 콘텐츠를 제공합니다 다음에 스택 채팅에서 보자

Getting Started with Qwiklabs – Google Cloud Platform Big Data and Machine Learning Fundamentals #3

괜찮아 실험실의 플랫폼에서 우리는이 과정의 일부로 Qwiklabs를 사용하고 있습니다

이제 실제로 어떻게 각자의 이 실험실과 많은 공연 우리가이 전문화 과정에서 당신에게 물어볼 작품 Coursera에서이 수업을 진행하면서, 결국 실험실을 보게 될 것입니다 각 실험실은 실험실을 분명히 말하고 그 다음 실험실의 제목을 말합니다 이 경우 우리는 첫 번째 실험실을보고 있습니다 당신이 Qwiklabs로 시작하게 만드는 것은, 실험실 제로입니다

그래서, 당신이 Coursera 내부에서 무엇을 할 건지 실험실 제목을 클릭하면됩니다 및 Coursera의 안쪽에, 오른쪽 아래 구석에 열기 도구라는 버튼을 볼 수 있습니다 실제로 브라우저의 다른 탭에서 Qwiklabs를 실행합니다 일단 Qwiklabs 내부에, 시작 실험실을 클릭하자마자 시작 실험실 버튼과 타이머 카운트 다운이 표시됩니다 각 실험실의 시간은 정해져 있습니다

그러나 우리는 견적을 덧붙였다 특히 더 복잡한 실험실의 경우, 실험실 내부에서 놀고 작업을 수행하려면 30 ~ 60 분 정도가 소요됩니다 일단 해당 스타 랩 버튼을 클릭하면, 왼쪽에 자격 증명이 자동으로 생성됩니다 그러므로 사용자 이름과 비밀번호를 메모하십시오 일단 사용자 이름과 암호를 얻으면, 그들이 당신에게해야 할 다음 단계는 실제로 열려 있습니다

시크릿 창과 유형 consolecloudgooglecom의 Google Cloud 플랫폼의 로그인 페이지가됩니다 이제 Google 콘솔 열기라고 표시된 큰 노란색 버튼이 나타납니다

이제 시크릿 창에서 열리지 않으며 내가있는 경우 몇 가지 문제가 발생할 수 있습니다 이미 일부에 서명했습니다 개인용 계정에 대한 정보가있는 경우 Google 클라우드 제품 그래서 시크릿 창 먼저, consolecloudgoogle

com에 입력 한 다음, 자동 생성 된 Google 클라우드 플랫폼에 로그인하십시오 Qwiklabs 자격증은 당신에게 줄 것입니다 이 실습의 목적에 따라 샌드 박스 환경에 액세스 할 수 있습니다 그리고 일단 당신이 그 실험실을 통과했다면, 그리고 당신은 그것을 완료했습니다, 계속 나아갈 준비가되었다고 확신 할 때, 그런 다음 End lab을 클릭하고, 모든 리소스를 제거합니다 너를 다시 강의로 데려와, 과정을 계속할 수 있습니다

마지막으로 걱정할 점은 그 시간은 실험실 끝까지 내려갔습니다 실제로 각 실험실에 대해 세 번이나 시도하고 있습니까? 따라서 필요한 시간 내에 완료하지 않더라도 걱정하지 마십시오 두 번째 또는 세 번째로 시도하거나 추가 연습을 원할 경우, 언제든지 실험실을 다시 열고 나중에 도로에서 다시 연습 할 수 있습니다

A GCP developer’s guide to building real-time data analysis pipelines (Google Cloud Next ’17)

[음악 재생] 라파엘 페르난데스 : 그렇습니다 고맙습니다

나는 라파엘 페르난데즈입니다 SLAVA CHERNYAK : 저는 Slava Chernyak입니다 RAFAEL FERNANDEZ : 우리는 Cloud Dataflow, 우리는 오늘 이곳에 와서 당신에게 이야기하게되어 매우 기쁩니다 데모 중 하나에서 발생한 일에 대해 조금 더 기조 연설에서 오늘 아침에 본 것을 특히, 택시 데이터 데모

그래서 우리는 그것에 대해 자세히 살펴볼 것입니다 우리는 연속 이벤트 처리에 초점을 맞출 것입니다 Cloud Dataflow를 사용하는 데모의 측면 우리는 GCP로서 당신의 모습을 면밀히 살펴볼 것입니다 개발자, 우리가 가지고있는 다양한 서비스를 구성 할 수 있습니다

플랫폼에서 모든 다양한 보완 데이터 처리 패턴 최신 응용 프로그램에 필요합니다 우리는 또한 약간의 시간을 강조 할 것이다 Cloud Dataflow 서비스의 매우 강력한 기능인 연속 계산을 업데이트 할 수 있습니다 실시간 오늘 우리가 이야기 할 서비스 Cloud Pub / Sub, Cloud Dataflow 및 BigQuery입니다

그들은 모두 완벽하게 관리되며, 모두 확장 가능하며, 그리고 다른 일들을하십시오 Cloud Pub / Sub는 Pub / Sub 게시 및 구독 서비스입니다 그것은 전 세계에 걸쳐 이루어지기 때문에 최소한 한 번 배달을 보장합니다 Cloud Dataflow는 완벽하게 관리되는 데이터 처리 서비스입니다 프로그램을 실행할 수있게 해주는 데이터를 일괄 처리 또는 스트리밍 모드로 평가합니다

그것은 매우 강력한 프로그래밍 모델과 함께 제공됩니다, 개발자에게 수년간 집중 한 결과입니다 Google에서의 경험 – 우리는 당신이 그렇게 생각한다고 생각합니다 그리고이 프로그래밍 모델이하는 일 더 높은 수준의 추상화를 유지할 수 있습니다 데이터 변환, 분산 시스템으로 이동하는 대신 수준과 그 모든 복잡한 마지막으로, BigQuery는 완전히 관리됩니다

분석을위한 페타 바이트 규모의 저비용 데이터웨어 하우스 데이터 분석가들에게 인기가 있습니다 우리가 여기서하고 싶은 것은 우리가 원하는 것입니다 원격 측정 데이터의 실시간 스트림을 사용하는 방법 그것은 뉴욕시 지역의 택시에서 오는 것이고, 이 데이터를위한 일련의 데이터 경로를 만들고 싶습니다 우리는 그것을 처리 할 것이고 우리는 서로 다른 경험을 할 수 있습니다 이러한 경험 중 하나는 실시간 시각화 일 수 있습니다

이 데이터는 뉴욕 메트로 지역에서 발생합니다 당신이 상상할 수있는 것처럼 우리는 Cloud Pub / Sub에 의존하게 될 것입니다 이러한 메시지를 전달하려면 이 신청서에 직접 청구하는 것이 현명한 선택이 아닙니다 클라이언트에서 당신의 고객, 하나의 머신이 있다면 이 데이터를 표시 할 책임이있다 이 모든 계산을 수행하면, 당신은 그 경험으로 끝낼 것입니다

이게 많이 생겼어 기본적으로 배달되지 않은 메시지 대기열이 늘어납니다 그것은 아마도 당신이 활발한지도에서 원하는 것이 아니며, 또는 활발한 전시에서 귀하는이 데이터를 계속 처리 할 것이며, 하지만 당신이 얻는 결과는 활기차고 너는 실제로 뒤쳐져있다 그래서 이것은 우리가이 부분을 위해 필요하다는 것을 암시합니다 우리의 가공, 다른 전략 추가로 다른 요구 사항이있을 수 있습니다 네가 상대하고 있기 때문에 생기 넘치다

하루가 끝나면 돈이 생기는 데이터 따라서 정확성, 완전성, 신뢰성, 확장 성, 그리고 성능은 때로는 내장되어 있습니다 여기에서 데이터를 처리합니다 우리는 그들을 존경해야합니다 우리는 또한 생기의이 요구 사항을 가지고 있습니다

이는 지속적인 이벤트 처리를 제안하며, 우리가하려고하는 또 다른 일 우리는 함께 데이터를 보관할 것인가, 추가 변환을 위해 몇 가지 변환을 포함합니다 데이터를 저장할 수있는 시스템이 있으므로 아주 좋은 경제적 인 비율로 우리는 모든 것을 보관할 수 있습니다 애널리스트가 나중에 공부하고보고 싶어 그것들에 덧붙여 좀 더 통찰력을 끌어 내라 너는 살아있는거야 이러한 유형의 활동에서 흔히 볼 수있는 또 다른 사항 귀하의 응용 프로그램 cc 관리에주의를 기울이고 있습니다 – 업데이트를 조정하는 방법은 무엇입니까? 그래서 우리는 그것에 대해서 조금 이야기 할 것입니다

하나의 구체적인 예부터 시작하겠습니다 셀 수 있습니다 슬라바, 가져가 SLAVA CHERNYAK : 고마워, Rafael 그럼 우리 택시 데이터로 무엇을하고 싶은지 이야기 해 봅시다

택시 텔레 메 트리가 도착하고 이미 우리가 그것을 우리가 우리에게 우리 비주얼 라이저의 단일 기계에서 처리 할 수 ​​있습니다 우리는 데이터 흐름을 사용하여 우리를 위해이 작업을 수행하는 파이프 라인 시간 그건 원시 택시 telemetry 걸릴 것입니다 그리고 그것을 변형 시간과 공간에서 응축 된 어떤 것으로, 그러나 우리는 이것을 다음과 같은 방식으로하고 싶습니다 우리 시각화를위한 충분한 정보를 보존한다 여전히 정확합니다

우리는 어떻게해야 하는지를 단계별로 설명 할 것입니다 원시 택시 원격 측정 데이터는 이렇게 보입니다 우리는 위도와 경도를 알고 있습니다 택시의 가장 최근 위치에 대한 타임 스탬프가 있습니다 다른 추가 메타 데이터가 있습니다

얼마나 많은 사람들이 택시에 있는지와 같은 또는 현재의 택시 미터가 읽은 값이 무엇인지 그렇다면이 데이터를 시간과 공간에서 응축하는 방법은 무엇입니까? 음, 우선 우리는 시간에 맞추어 데이터를 Window에 놓을 것입니다 내가 의미하는 바는 우리가 함께 그룹화 할 것이라는 것입니다 충분히 발생한 모든 포인트 시간이 서로 가깝다 간격 1에서 2 사이의 모든 점 – 여기 3 점을 함께 묶었습니다

해당 간격에서 발생한 모든 포인트 2 시부 터 3 시까 지 여기에 함께 그룹화됩니다 다음으로해야 할 일은 포인트를 그룹화하는 것입니다 공간에서 여기서도 우리가하는 일은 그룹핑을 지정하는 것입니다

위치에 따라 따라서 Window 내의 XY 포인트는 함께 그룹화됩니다 그것은 두 가지 점입니다 창 내의 KM 포인트는 함께 그룹화됩니다 1 대 2 창에 대한 1 점입니다 2 대 3 창에 대해 1 점을 표시합니다

마침내 우리가하는 일은 우리가 세는 것입니다 그러한 시간과 공간 그룹의 각 포인트 결과를 발표 할 준비가되었습니다 이것은 1 대 2 간격으로 x와 y에 대한 두 택시입니다 1 대 2 간격으로 킬로미터 당 하나의 택시, 2 대 3 간격으로 킬로미터 당 하나의 택시 그럼 여기서 실제로 성취 한 것은 무엇입니까? 그럼 우리는 논리적 변환의 집합을 설명했습니다

우리의 입력 데이터에서 우리를 데려 간다 우리의 원시 택시 원격 측정법 – 우리에게주세요 용어로 많이 응축 된 것 스트림의 볼륨의,하지만 여전히 운반 우리의 시각화를 위해 충분한 정보를 얻으십시오 좋아,이 논리적 인 설명은 어떻게 가져 가야합니까? 실제로이를 데이터 흐름 코드로 변환 하시겠습니까? 음, 우리는 이것을 좋아합니다 여기서 모든 코드 행은 정확히 일치합니다

우리가 우리의 데이터에 대해 설명한 논리적 변형에 이르기까지 변환 집합을 인코딩했습니다 원시 택시 텔레 메 트리에서 우리를 움직입니다 응축 된 볼륨 결과 스트림으로 또한 중요한 것은 이것이 실제 데이터 흐름 코드입니다 특히이 코드에는 클러스터 설정, 가상 컴퓨터 회전, 자원 배치, 충돌 또는 장애 복구 이 모든 것들이 Dataflow에 의해 처리되고 있습니다

그렇다면 Dataflow 프로그램은 무엇입니까? 데이터 흐름 프로그램은 논리적 변환을 설명합니다 데이터 수집 이러한 콜렉션은 PCollections라고 불리우며 제한 될 수 있습니다 또는 데이터 스트림의 경우에는 제한이 없습니다 변환은 PTransforms라고하며, 이러한 PC 컬렉션을 통해 실행될 수 있습니다

새로운 PC 컬렉션을 생성합니다 함께하면 우리가 쌓을 수 있습니다 데이터가 변환되는 방법을 설명하는 파이프 라인 입력에서 원하는 결과까지 이 파이프 라인을 살펴보십시오 Pub / Sub에서 읽은 PCollection으로 시작합니다 그리고 이것은 무한의 PCollection입니다

그 데이터가 영원히 계속 도착한다는 것을 의미합니다 그런 다음 PTransforms 시퀀스를 적용합니다 새로운 컬렉션, PC 컬렉션을 모든 시점에서 만듭니다 결과로 나온 PCollection은 Pub / Sub에 다시 기록됩니다 파이프 라인은 멈출 때까지 영원히 계속 실행되지만, 이 출력 PCollection 또한 제한이 없기 때문입니다

우리는 거기에 갈 그래서 우리는 Windowing, Mapping, Count와 같은 Transforms를 사용합니다 이리 이들은 Dataflow SDK에 내장되어 있습니다 당신은 추가 작업을하지 않아야했습니다

코드에서 호출하는 것 외의 다른 것들을 사용하십시오 CombinedRides 또는 CondensedRides와 같은 기타 변형 여기 당신이 쓸 수 있습니다 그래서 여기에 CondensedRide 변환을 보여 드리겠습니다 당신이 작성한 다음 데이터를 통해 병렬로 적용했습니다 근본적으로 그것이하는 것은 그것이 단지 함께 모이는 것입니다 서로 100 미터 이내에 발생한 포인트

따라서이 작업은 데이터를 통해 병렬로 실행됩니다 여기 스트리밍 방식으로 따라서 일단 우리가 파이프 라인을 작성하면, 우리가 그걸 어떻게 할까? Google Cloud Dataflow에서 실행할 수 있습니다 입력을 읽는 곳과 같은 기본적인 것들을 알려줍니다 출력을 쓰는 곳, 몇몇 매개 변수들 우리가 사용하기를 원하는 초기 근로자 수처럼, 그리고 우리는 그것을 실행합니다 실제로 실행하면 어떻게됩니까? 많은 것들이 취해지고 있습니다

우리를 위해 백 엔드의 관심 실행 그래프를 최적화합니다 실행이보다 효율적으로 이루어 지도록합니다 VM을 회전시키고 파이프 라인 코드를 준비합니다 이러한 VM에 대해서는 Pub / Sub를 사용하여 I / O를 관리하고, 그것은 내결함성을위한 지속적인 상태를 관리합니다

그런데 결함 허용에 대해 이야기 해 봅시다 VM이 충돌하거나 다른 종류의 오류가 발생하면 데이터 흐름 실행 엔진 당신을 위해 투명하게 다시 시작할 것입니다 계속 작업하고 데이터가 없습니다 체크 포인팅으로 인해 손실됩니다 파이프 라인 실행에 대한 영속 상태 따라서 데이터 흐름 보장은 항상 기계 충돌, 예외의 경우에도 보존되며, 다른 것

따라서이 파이프 라인이 실행되면 여기에 보이는 것과 같습니다 이것은 UI의 단순한 스냅 샷입니다 Andrea는 오늘 일찍 토크를했습니다 그녀는 UI에서 매우 깊이 들어갔다 그러나 이것은 이것이 어떻게 생겼는지의 스냅 사진입니다

이것은 파이프 라인에 대한 정보를 조금 더 제공합니다 파이프 라인 전체에 대해 알려줍니다 그것은 당신에게 단계에 대해 알려줍니다 처리중인 작업자 수, 메시지 수 파이프 라인의 각 단계에서 소비되고 있습니다 그리고 그런데, 주목한다면,이 파이프 라인 우리가 이전에 그린 논리적 다이어그램과 비슷합니다

따라서 변환에 대한 파이프 라인 중심의보기 데이터에서 수행중인 작업이이 UI에서 유지 관리됩니다 그래서 나는 한 가지에주의를 환기시키고 싶다 여기 구체적으로 말하면, 그건 네가 저기 저기에 스트림의 볼륨을 읽을 수 있습니다 초당 약 20,000 메시지에서 떨어졌습니다 시간과 공간을 줄인 후에 초당 약 2000 건의 메시지로 줄어 들었습니다

이는 원하는 결과 인 10 배 감소입니다 이제 우리는 우리의 시각화가를 지적 할 수 있습니다 우리는 같은 결과를 보았지만 이제는 계속 유지할 수 있습니다 우리는 Pub / Sub를 볼 때 우리가 계속 할 수 있다는 것을 압니다 스택 드라이버의 구독 통계 우리는 수주 잔고가 증가하지 않고 있음을 알 수 있습니다

여기에 초기 스파이크가 있음을 눈치 챘을 때 이것은 데이터 흐름이 돌고있을 때입니다 노동자들이 올라오고있는 동안 우리는 일부 수주 잔고를 짓고 있었고, 작업자가 스핀 업하여 처리를 시작할 때 그들은 그 백로 로그를 휘젓다 그 후로 계속 계속 지켜 왔습니다 이것은 작동중인 Dataflow 프로그램의 한 예입니다

나는 몇 가지 특정 측면에 대해 이야기하고 싶다 흥미로운 데이터 흐름 프로그래밍 API에 대해 설명합니다 특히 나는 이야기하고 싶다 무제한 데이터로 데이터 흐름을 처리하는 방법 우리의 택시 타는 데이터는 제한이 없습니다 이벤트는 영원히 계속 이어 지므로 일반적으로 데이터가 커질수록 우리는 그것을 깨뜨릴 수있다

처리를 위해 작은 덩어리로 전통적인 배치 시스템을 사용하는 경우 우리는 일일 Windows와 같은 것을 할 것입니다 그러나 이것은 정말로 값싼 방법입니다 무제한적인 데이터 처리 무제한 데이터의 어려움 중 하나 알 수없는 지연이있을 수 있으며 데이터가 표시 될 수 있습니다

주문 이 기록을 여기서보십시오 8시에 모두 일어난 기록이 있습니다 하나가 발생했고 즉시 시내로 배달되었습니다 하나가 발생하여 나중에 우리에게 배달되었습니다, 그러나 8시에 발생한이 녹색 기록 여기 6 시간 후에 우리 시냇가에 나타나지 않았다

그리고 그 이유가 누구인지 알 수 있습니다 그것은 여러 가지 이유 때문일 수 있습니다 어쩌면 사용자가 자신의 휴대 전화에서 이벤트가 발생했을 수 있습니다 그런 다음 비행기를 비행기 모드로 전환합니다 6 시간 동안 다시 켜지 않았다

어쩌면 서버가 추락하여 돌아 오지 않았을 수도 있습니다 온라인으로 6 시간 네트워크 지연이 있었을 지 모릅니다 해저 케이블이 어딘가에서 끊겼습니다 누가 알아

요점은 만약 우리가 스트림 처리를 작성한다면 우리는 이러한 지연을 처리 할 수 ​​있어야합니다 네가하는 일에 따라 이러한 지연을 처리하기위한 전략도 다릅니다 일종의 요소 변환을 수행하고 있다면, 엘리먼트 – 와이즈 변환은 당신이 상관하지 않을 수도있다 한 번에 요소를 처리하는 경우 그 요소가 언제 생겼는지 상관하지 않습니다 또는 해당 요소의 컨텍스트를 사용하면이 방법이 유용 할 수 있습니다

네가 원한다면 상황이 더 까다로워 질거야 어떤 종류의 그룹화 또는 집계를 수행합니다 따라서 한 가지 확실한 전략은 Processing Time Windows를 사용하는 것입니다 따라서 스트림과 처리 시간을 줄이고, 그게 무슨 뜻이야? 시계가 틱 할 때마다 1 시간 쯤에 당신은 당신의 시내에 경계를 그립니다 당신이 가진 것을 처리합니다

음, 이해하기 쉽습니다 하지만 이것은 아마도 당신이 원하는 것을주지 않을 것입니다 요소가 지연되거나 순서가 잘못된 경우 그들은 아마도 같은 처리 과정에서 끝나지 않을 것입니다 시간 버킷 예를 들어 두 가지 메시지가 있습니다

둘 다 8시에 일어났다 집계에 그룹화가 포함 된 경우 함께 일어 났을 때 그들에 관한 추론 너는 그걸로 어려움을 겪을거야 그들은 이제 두 개의 서로 다른 처리 시간에있게 될 것이기 때문에 Windows 예를 들어, 나타난 택시를 세고 싶다면 같은 시간에 같은 장소에서, 처리 시간 Windows는 아마도 당신이 원하는 것이 아닙니다 우리가 정말로 갖고 싶은 것은 Event Time Windowing입니다

계략 입력이 도착하는 중입니다 시간 기반 셔플을 수행하려고합니다 이벤트를 기반으로 Windows에 레코드를 저장하는 방법 타임스 Dataflow에서이 작업을 수행하는 방법은 Windowing API를 사용하는 것입니다

Windowing을 사용하면 할 수 있습니다 Windowing을 사용하면 이벤트를 나눌 수 있습니다 이벤트 시간에 따라 Windows로 당신이 올바른 맥락에서 그들에 대해 추론 할 수 있다는 것 따라서 Dataflow는 여러 종류의 Windows를 지원합니다 두 가지 예는 결코 완전한 목록은 아니지만, 가장 간단한 유형 인 고정 윈도우와 같은 것입니다

Windows는 매분, 매시간, 매시간, 매일, 등등 이 Windows는 일반적으로 동일합니다 모든 처리 키에 걸쳐 Sliding Windows와 비슷한 또 다른 예가 있습니다 이것들은 고정 윈도우와 비슷합니다 그러나 작은 창들로 이루어져있다

앞으로 나아가는 시간과 함께 미끄러지도록하십시오 여기서 흥미로운 점은 Windows가 실제로 겹쳐서 감기다 또 다른 재미있는 예는 Session Windows와 같은 것입니다 그래서 세션은 그것들이 둘러싸인 활동의 사건들입니다 활동하지 않는 기간

세션에 대한 재미있는 점 세션 윈도우의 경계 데이터 자체의 기능입니다 그들은 선험적으로 알 수 없습니다 따라서 데이터를 처리하면서 계산해야합니다 데이터에 완전히 의존하고 매우 다르게 의존 할 것입니다 키에서 키로

따라서 이것은 가능하거나 쉽게 할 수있는 것이 아닙니다 전통적인 배치 시스템으로 데이터 흐름으로 처리하기 쉽습니다 물론 다른 윈도우도 가능합니다 구현의 문제이다 그리고 귀하의 신청서의 요구 사항이 무엇이든간에

그래서 Windows는 우리가 Event Time 우리는 집계를 수행하고 싶습니다 우리는 여전히 다른 질문에 답할 필요가 있습니다 처리 시간에 우리는 결과를 낼 준비가되었습니다 그렇게하기 위해서는 먼저 이벤트 시간 간의 관계를보다 잘 정의하기 위해 처리 시간 여기이 그래프를 보도록하겠습니다

수평 축에는 이벤트 시간, 세로 축에는 처리 시간이 있습니다 그리고 일어나는 모든 사건은 우리 시스템으로 전달됩니다 우리 시스템에 의해 처리됩니다 이 그래프의 어딘가에서 끝나야합니다 이벤트가있는 이상적인 세상에서 즉시 우리에게 배달되어 즉시 처리되며, 모든 사건은이 이상적인 대각선을 가로 지르거나 그 이상을 따라 줄 것입니다 따라서 동일한 이벤트에서 전달 및 처리됩니다

우리가 이벤트와 동일한 처리 시간을 처리 할 때 발생 시간 물론 현실은 그렇게 좋지 않습니다 네트워크 지연, 처리 중임을 알고 있습니다 순간적이지 않다 사실 모든 사건이 어딘가에서 끝납니다

이 이상적인 대각선 위 데이터 흐름은 우리가 완전성에 대해 추론 할 수있게 해주는 워터 마크 워터 마크는이 대각선보다 얼마나 멀리 떨어져 있는지 알려줍니다 우리는 그 이상의 경계를 그릴 수 있습니다 더 이상 이벤트를 볼 것으로 예상됩니다

이 워터 마크는이 그래프에서 빨간색 선으로 표시됩니다 우리가 우리의 근원에 관한 모든 것을 완벽하게 알고 있다면 – 그래서 우리가 출처에서 읽는다면 우리는 모든 것을 완벽하고 완전하게 알고 있습니다 워터 마크는 우리 시스템에서의 보증입니다 우리는이 지연을 넘어서 아무것도 본적이 없다 물론 많은 경우에 우리의 지식은 불완전합니다

따라서 워터 마크는 불완전한 보증입니다 정말 우리에게 말하는 발견 적 방법입니다 시스템의 지식을 최대한 활용하여 언제 새로운 데이터를 볼 것으로 예상하지 않습니까? 어느 쪽이든 워터 마크가 우리에게 말할 수 있습니다 주어진 Window에 대한 모든 데이터를 가지기를 기대할 때, 그러므로 그것이 올 바르면, 우리가 아는 한, 우리가 아는 한 최선을 다하여, 결과를 내 보냅니다 그래서 우리가 창문을 다시 본다면 시간 기반 셔플로 볼 수 있습니다

워터 마크를 사용하여 방출시기를 알 수있는 방법 창 결과 그러나 워터 마크가 모든 것이 아닐 수도 있습니다 트리거 출력에 사용하려는 두 가지 주요 이유가 있습니다 다른 것을 고려해야합니다 우선, 워터 마크가 너무 느려서 말할 수 있습니다 워터 마크는 가능한 한 보수적이되도록 노력하고 있습니다

모든 이벤트를 추적하려고합니다 시스템의 관점에서 위대한 완전성의, 그러나 아마 당신은 상관하지 않는다 예를 들어 매일 Windows를 사용하는 경우, 당신은 당신의 결과물을 얻지 못할 것입니다 아주 이른 시간에 하루가 끝날 때까지, 그러나 당신은 투기적인 초기 결과를 원할지도 모른다 일찍이

Dataflow가 API를 트리거하므로 트리거 할 수 있습니다 초기의 투기 적 산출 워터 마크가 너무 빠를 수도 있습니다 우리는 이미 우리가 모든 것을 알지 못한다면 우리의 근원에 관하여, 근원을 의미하는 늦게 또는 순서가 잘못된 데이터를 생성 할 수 있으며, 워터 마크가 불완전 할 수 있습니다 워터 마크 이후에도 이벤트가 올 수 있습니다

이미 발전했다 이 경우 Dataflow는 지연 데이터 트리거를 제공합니다 지연된 데이터가 순서대로 발생하면이를 처리 할 수 ​​있습니다 결과를 업데이트합니다 이제이 예제를 조금 만들어 보겠습니다

여기 우리는 Windows 2 분짜리 Windows를 가지고 있습니다 Event Time Windows – 워터 마크에 의해 닫히고 있습니다 그래서 우리는이 Windows에서 무엇을하고 있습니다 우리는 누적 합계를 만들고 있습니까? 처리 시간이 진행됨에 따라, 이 그래프에서 위로 표시된 것처럼 워터 마크가있을 때 우리가 언제 창을 닫을 수 있는지 알고있다 Window 경계를 패스합니다

여기에 하나의 이벤트가 있음을 주목하십시오 그것은 어떤 창, 그 사건에도 포함되어 있지 않습니다 9의 값으로, 그것은 늦은 데이터이기 때문입니다 내가 말했듯이 그것은 근원에 의해 방출 된 사건이었다 워터 마크가 이미 고급화 된 후에 우리가 그 근원에 대해 완벽하게 알지 못했기 때문입니다

어쩌면 그 사건이 누군가의 전화에서 비행기 모드에서 6 시간 동안 데이터 흐름의 최신 데이터 트리거 API 당신이 그것을 처리하고 어떤 종류의 업데이트 된 것을 내 보낸다 집합 그럼 이제이 모든 것을합시다 택시에 관한 몇 가지 질문에 답하기 위해 사용하십시오

우리가 이전에 본 데이터 간단한 질문부터 시작하겠습니다 주어진 시점에서 택시는 공항에서 어떻게 타는가? 뉴욕 전역의 택시 타기와 비교해보십시오 그리고 우리는 모든 것을 시도하고 사용할 것입니다 우리는 그 질문에 대답하기 위해 Dataflow에 대해 배웠습니다

그래서 우리가 여기에서 할 첫 번째 일은 우리는 파이프 라인을 작성할 것입니다 그것이 여기에서하는 것은 그것이 공항에서 시작되었습니다 그럼 우리가 어떻게해야합니까? 음, 우선 우리는 Pub / Sub에서 물건을 읽습니다 이전과 다시 해보 죠

다음으로 우리가하는 일은 승용차 ID 각 타는 것과 함께 그래서 타는 것 ID는 우리에게이 택시 타는 것이 어느 타는 점이 있는지에 관해 안다 우리가 함께 그룹화 할 수 있도록 연관되어있다 한 번 타고 오는 모든 포인트 좋아

다음으로 세션 윈도우를 사용하여 윈도우 경계를 그립니다 타고 주위에 그래서 우리는 창 경계를 처음부터 떨어 뜨린다 타는 것의 안에서, 그것은 픽업 포인트 다 탈락 시점 10 분 후, 타고있는 마지막 지점입니다

이 파이프 라인의 다음 단계는 트리거링 및 트리거링입니다 결과 전달 방법을 제어합니다 후속 변환으로 변환합니다 여기서 우리는 모든 요소에서 계속적으로 트리거합니다 그래서 우리는 우리가 지속적인 업데이트를 방출하도록 보장합니다

시각화 자에게 우리는 라이드가 시각화 장치에서 움직이는 것을보고 싶습니다 그래서 우리는 업데이트를보고 싶습니다 그래서 우리는 계속해서 방아쇠를 당길 원합니다 그리고 여기에서는 누적 트리거를 사용합니다

트리거를 버리는 것과는 대조적으로 우리가 창문의 전체 내용을 확실히받을 수 있도록 발사 때마다 그런 다음 창에있는 모든 점을 결합합니다 각 방아쇠 발사마다 그래서 우리는 우리의 결합 자만 신경 씁니다 우리는 출발점을 염려합니다

시작 지점을 순서대로 필요로한다 공항에서 시작된 놀이기구를 걸러 내야합니다 가장 최근의 포인트가 필요합니다 시각화에이를 방출 할 수 있습니다 AccumulatePoints combine 함수는 다음을 구현합니다

시작점을 추적하여 가장 최근의 포인트를 최신 포인트로 업데이트 가능할 경우 그런 다음 누적 된 탑승구를 버려서 필터링합니다 픽업은 공항에 없었다 위도와 경도를 비교하여이 작업을 수행합니다 위도와 경도가 잘 알려진 픽업 JFK, LaGuardia 및 Newark 공항의 포인트

우리가 실제로 걱정할 때부터 출력은 가장 최근의 지점에 불과하다는 것입니다 스테이지를 사용하여 가장 최근의 지점 만 필터링합니다 우리 누산기에서 마지막으로 Pub / Sub에 결과를 다시 작성합니다 그래서 우리가 이걸 실행할 때 그게 어떻게 생겼어? 따라서 시각화 프로그램에서 볼 수있는 놀이기구 JFK, LaGuardia 및 Newark에서 시작하는 것만 있습니다

원하는대로, 그리고 그 결과는 여전히 실시간으로 업데이트된다 우리의 방아쇠 상태와 신중하게 구성된 축 압기 따라서 우리가 공항 탑승구를 걸러 내 쓴 파이프 라인 그러나 우리 솔루션의 일부일뿐입니다 데이터 흐름 및 GCP를 사용하면 쉽게 작성할 수 있습니다 여러 독립 구성 요소

지금까지 택시 데이터를 가져 오는 것에 대해 이야기했습니다 Pub / Sub를 통해 그것을 섭취하고 우리의 시각화기를 가리키고 있습니다 그러나이 데이터를 사용하여 더 많은 작업을 수행하고자합니다 그래서 우리는 실제로 결과를 Pub / Sub에 다시 넣는 것입니다 그런 다음 ETL 파이프 라인을 통해 읽습니다

나는 그 결과를 취하는, 별도로 썼다 Pub / Sub에서 가져온 다음 BigQuery에 씁니다 이것은 데이터 흐름의 매우 표준적인 사용법입니다 이제 실제로 동일한 ETL 파이프 라인을 사용할 수 있습니다 BigQuery를 작성하고 원시 택시를 가리킨다

원시 데이터를 별도의 BigQuery 세트에 기록하는 피드 표를 사용하여 BigQuery 결과를 비교할 수 있습니다 원시 데이터 대 공항 데이터 그럼 우리는 무엇을 배울 수 있습니까? 원시 데이터에 대한 간단한 쿼리 뉴욕에있는 5 분 간격으로 도시에는 약 1,700 개의 택시 타기가 있습니다 뉴욕 큰 지역 어딘가에서 떨어집니다 그리고 타는 것의 평균 비용은 약 14 달러입니다

택시 회사의 평균 순 수익 5 분 간격으로 약 2 만 5 천 달러입니다 같은 5 분 간격으로 어떻게 비교합니까? 공항 데이터와 비교하면 어떻습니까? 우리가 공항 테이블에서 같은 쿼리를 가리킬 때 우리가 볼 수있는 건 분명히 훨씬 작지만 평균은 63에 불과합니다 나는 생각한다 – 타는 것의 평균 비용 당신이 기대하는 것보다 훨씬 더 높습니다 그것은 타는 것에 관해 약 52 달러 다 이 데이터에는 시간 기반 구성 요소도 있습니다

시간이 지남에 따라이 데이터를 그래프로 표시하면 우리는 무엇보다 먼저 명백한 일일 추세가 있음을 알 수 있습니다 전반적인 놀이기구 및 택시의 관점에서 하루 중 시간을 기준으로 놀이기구뿐만 아니라 흥미로운 사건이 있습니다 공항 타기 9시 방향 바로 전에 일어났습니다 어쩌면 도착한 큰 비행이 있을지도 몰라 또는 뭔가

따라서이 전략과 이러한 정렬을 사용하는 방법을 알 수 있습니다 데이터를보다 깊이 파고 들기위한 도구를 제공합니다 그래서 내가하고 싶은 다음 일이야 다른 멋진 기능에 대해 이야기하고 싶습니다 데이터 흐름 서비스

그럼 우리가 할 일은 새 코드를 실행에 배포하려고합니다 데이터 흐름 파이프 라인이 살아 있으며 우리는 이 모든 것을 기존의 것으로 유지하면서 서면에 대한 상태 및 집계 새로운 기능을 추가하면서 파이프 라인 따라서 우리가 업데이트 할 코드 우리는 공항 코드를 업데이트하려고합니다 전에 널 보여 줬어 우리는 단지 놀이기구를 찾는 것에서 그것을 갱신 할 것입니다

JFK에서 픽업하여 놀이기구를 찾는다 LaGuardia와 Newark에서 수거합니다 먼저 무엇이 옳은지 보자 지금 우리가 그것을 업데이트하기 전에 따라서 업데이트하기 전에 우리는 JFK에서 탈 수있는 놀이기구가 많이 있습니다

하지만 그다지 다른 곳에서는 진행되지 않습니다 다른 곳에 흩어져있는 놀이기구가 있습니다 그러나 정말로 교통은 JFK에서오고있다 그럼 우리가 여기서하려고하는 것은 우리는 코드에서 다시 언급 할 것입니다 LaGuardia와 Newark를 추적합니다

우리는 여기에서 뛰게 될 것입니다 이 파이프 라인을 업데이트해야한다고 알려줍니다 그게 내가해야 할 모든 것입니다 파이프 라인 이름을 알고 있기 때문에 오래된 실행 파이프 라인을 찾는 방법 새 코드로 업데이트하십시오 이제 업데이트가 실행 중입니다

몇 분 정도 걸릴거야 실제로 여기 UI로 이동하여 보여 드리겠습니다 파이프 라인은 결국 이곳에있을 것입니다 실행 중 상태에서 업데이트 중 상태로 이동합니다 2 분 정도 걸릴 것입니다

따라서 이미 업데이트 중인지 살펴 보겠습니다 아직도 스테이징 중입니다 따라서 여기에서 업데이트를 시작하겠습니다 업데이트가 시작되는 동안 라파엘이 이야기 할 것입니다 우리에게 ~ 오, 여기 간다

따라서 업데이트가 시작됩니다 여기에 몇 분 정도 걸릴 것입니다 라파엘은 그 동안 업데이트에 관해 우리에게 말할 것입니다 발표자에게 다시 알려주십시오 라파엘 페르난데스 : 내 말 들리니? 좋은

승인 Slava가 지금 당장 가지고있는 것, 그는 파이프 라인의 실시간 업데이트를 시작했습니다 즉 데이터 스트림의 시간 집계를 계산하는 것입니다 보시다시피 그는 Java 코드를 변경했습니다 그는이 변화를 전개하고 있습니다

그래서 이것이 우리의 전체 전략의 한 부분임을 주목하십시오 우리가 여기 GCP에 집어 넣었습니다 물론 직접적인 접근법이 있습니다 이 코드를 업데이트하기 위해 취할 수있는 파이프 라인을 쓰러 뜨리고 새 파이프 라인을 쓰고, 다시 제출하십시오 아마 우리가 할 수있는 최선은 아닙니다

사실 Dataflow가 더 잘할 수 있습니다 그 유스 케이스에서 어떤 일이 일어날 것인가? 당신이 단지 그것을 아래 위로 끌어 올리면, 우선 Cloud Pub / Sub는 계속 이벤트를 수신합니다 모든 택시에서 모든 사건들이 누적 될 것입니다 한 번 따라 잡을 수있는 일이있을거야 새 파이프 라인이 다시 시작되지만 더 중요한 것은 우리가 뛰고있는 동안에 기내에있는 상태를 잃을거야

원래의 파이프 라인 그럼 왜 이걸하고 싶니? 왜 업데이트하고 싶습니까? 많은 이유가 있습니다 기능 추가는 그 중 하나이며, 그러나 또 다른 매우 일반적인 시나리오와 관심사 당신이 의존하는 도서관이 어떻게 될 것인가? 보안상의 이유로 버전 관리가 필요합니까? 매개 변수를 변경해야하거나 컴퓨터의 유형을 변경하십시오 파이프 라인 등 백업 따라서 이러한 유형의 변화는 우리는 서비스 중단을 최소화하면서 그리고 귀하의 중간 상태를 보존하십시오 여기 상태는 정말 어렵고, 상태는 무엇을 의미합니까? Dataflow가하는 것들 중 하나는 – 헤이, 그것은 일하기 시작했습니다

Dataflow가 수행중인 작업 중 하나 낮은 지연 시간의 결과 전달 보장 점진적인 방식으로 물건을 계산합니다 예를 들어이 카운트 누적기에 초점을 맞추면 끝 근처에는 정말 상태가있다 창과 그 그룹에 대해 그리고 지금까지의 카운트 워터 마크가이 특정 단계를 진행할 때, 시스템은이 특정 단계를 시행합니다 이제는 결과를내는 것이 옳은 것입니다 그래서 점차적으로 이것을 계산 해왔다는 사실 당신이 바로 그것을 방출 할 수있게 해주는 것입니다

승인? 따라서 입력 내용을 다시 계산하지 않아도됩니다 시간이 지나면 그래서이 중간 상태는 우리에게 정말로 중요합니다 Dataflow가 할 일은 기본적으로 그 상태를 돌보고, 새로운 파이프 라인으로 이동하십시오 이 예제는 아마도 당신에게 사소한 것처럼 보일 것입니다

파이프 라인은 동일하게 보입니다 일종의지도의 상태 종류, 하지만 서비스가 당신을 위해 할 수있는 다른 것들도 있습니다 다른 변경 사항이 있기 때문에 업데이트 호환을 고려하십시오 업데이트와 호환되는 변경의 예 당신이 파이프 라인에서 제정하기를 원할지도 모르는 아마도 추가 및 / 또는 변형을 포함 할 것입니다 완전히 새로운 출력 경로

그것은 완벽하게 합법적이며 업데이트하는 것이 안전합니다 당신이 할 수있는 또 다른 일은 단계를 재정렬하는 것입니다 귀하의 파이프 라인 아마도 당신은 데이터의 특성 때문에 코드의 특성, 실험을 통해 이 단계들을 재정렬하는 결과 의미 론적으로 동등한 파이프 라인 훨씬 더 빨리 수행됩니다 일부 경우에 해당됩니다

당신이 적용하는 순서는 중요합니다 당신이 할 수있는 다른 일은 단계를 제거하는 것입니다, 우리가 방금 추가 한 단계처럼 우리는 단지 그것을 제거합니다 거기에 작은 별을 넣었습니다 수행하기에 안전하지 않은 업데이트 클래스입니다

이러한 업데이트에는 일반적으로 생성되는 변형이 포함됩니다 또는 소비 측면 입력 즉, 그들은 주 흐름에서 멀리 떨어져 있습니다 키잉 상태를 사용 중일 수 있습니다 윈도우 병합과 관련된 일부 작업이있을 수 있습니다

걱정할 것 없습니다 이러한 변경을 요청하면 데이터 흐름 서비스 업데이트를 거부하지만 원래 파이프 라인의 흐름을 변경하십시오 그래서 Dataflow가 당신을 위해 여기에서하고있는 다른 것들이 있습니다 이전 작업에서 업데이트 된 새 작업이 스핀 업되면 우리는 실제로 당신에게 직업의 출처를 보여줍니다 그것은 등등에서왔다

그래서 이것은 여러분을 대신하여 수행되는 많은 일입니다 그래서 당신은이 모든 고려 사항들에 대해 걱정할 필요가 없습니다 실제로 코드를 유지 관리 할 수도 있습니다 연속적인 계산을 할 때 Slava, 업데이트가 어떻게됩니까? SLAVA CHERNYAK : 한번 보죠

데모 기계주세요 큰 따라서 우리는 파이프 라인이 업데이트되었음을 ​​알 수 있습니다 이게 바로이 작업 이름이 실행중인 것을 볼 수 있습니다 이전 작업에서 업데이트되었다고합니다

그리고 우리가 시각화자를 볼 때 이제 우리는 많은 새로운 놀이기구가 있다는 것을 알 수 있습니다 지금 LaGuardia에서 왔어 우리 파이프 라인을 업데이트 한 후에 우리가 기대할 수있는 것입니다 지적해야 할 몇 가지 흥미로운 점 그러나이 시각화에서 사실입니다 JFK에서 우리 놀이기구의 첫 번째는 여전히 거기에 모두 있습니다

우리는 JFK에서 새로운 놀이기구를 얻는 것이 아니라, 우리는 여전히 JFK에서 온 모든 오래된 놀이기구를 가지고 있습니다 이것이 라파엘이 말한 것입니다 우리는 이전 파이프 라인 상태를 유지합니다 지적 할 또 다른 흥미로운 점 우리는 실제로 새롭고 오래된 놀이기구를 가지고 있다는 것입니다 LaGuardia의 새로운 놀이기구가 아닙니다

그리고 이것은 LaGuardia 타기가 이미 Pipeline에서 변경했습니다 끝에 그들을 필터링하는 코드 해당 데이터는 모두 Windows 및 상태에 이미 있습니다 누적되면서 방금 변경했습니다 우리가 파이프 라인 끝에서 방출 한 것

따라서 우리 파이프 라인을 업데이트함으로써 시작했습니다 LaGuardia에서 시작된 완전한 라이드를 방출합니다 업데이트가 실행되기 전에 그래서 이것은 유지에 관한 흥미로운 것입니다 파이프 라인 상태는 정말 당신이 옳은 일을하는 데 도움이됩니다 귀하의 파이프 라인의 경우

슬라이드로 돌아가주세요 라파엘 페르난데스 : 고마워, 슬라바 여기서 보여주지 않은 것은 엄청난 양의 뒤에서 일어난다 서비스, ​​데이터 흐름 자동 증가와 같은 당신을 위해 할 수있다 작업자 풀의 크기를 줄이거 나 늘리십시오

들어오는 데이터 스파이크 및 소강에 더 잘 대처하기 위해, 우리도 축소하기 때문입니다 우리는 돈을 절약합니다 그것은 좋은 것입니다 Pub / Sub (여기서는 표시되지 않음)이지만 글로벌 게시 구독 서비스 그것은 당신을 위해 확장 가능합니다

그것은 당신에게 매우 흥미로운 보장을 줄 것입니다, 그래서 당신은이 유형의 시스템을 만들 수 있습니다 정확성과 신뢰성을 염두에두고 분석가들이 가장 좋아하는 BigQuery는 당신을 위해 완벽하게 관리합니다 얼마나 많은 기계가 무엇을 언제하고 있는지 알지 못합니다 너는 그렇게해서는 안된다 당신은 단지 쿼리를 작성하는 것입니다

이것은 명심해야 할 정말로 강력한 것입니다 GCP로 개발할 때 데이터 흐름을 사용하여 실제로 생각할 수 있습니다 플랫폼의 나머지 서비스에 대해 싱크대에 소스로 데이터를 실제로 변환 할 수 있습니다 다른 목적으로 도착할 때, 결과를 지속적으로 전달하기 위해 또는 아카이브 또는 추가 변환을 위해, 그리고 정말로 매우 다른 서비스 활용 우리는 다양한 패턴을 가능하게해야합니다

최신 응용 프로그램에 필요합니다 요약하자면, 우리는 더 자세히 살펴 보았습니다 일부 기술에서는 데모의 힘 오늘 아침에 본 걸 우리는 지속적인 이벤트 처리 방법에 대해 심도 깊은 다이빙을했습니다 GCP, 특히 Dataflow와 비슷합니다

프로그래밍 모델의 힌트를 보았습니다 우리는 프로그래밍을 선호한다고 생각합니다 프로그래밍 대신 그 수준에서 기계 수준에서, 우리는 또한 이러한 구성의 우수 사례 강조 플랫폼으로 GCP를 다루는 방법에 대해 정말로 생각하고 있습니다 네가 빛을 낼 수 있도록 단일 흐름에서 다른 것들 물론 스트리밍 업데이트 정말 복잡하고 활발한 애플리케이션을 처리 할 수 ​​있습니다

다운 타임을 최소화하고 데이터 손실을 최소화하여 우리는 매우 중요하다고 생각합니다 마지막으로 Apache Beam에 대해 이야기하고 싶었습니다 그래서 2016 년 초 우리는 우리의 의도를 발표했습니다 데이터 흐름 프로그래밍 모델 및 SDK, Java, 우리는 지금 Apache Software Foundation에 파이썬을 가지고 있습니다 아파치 빔이 지금은 여러분과 함께하게되어 매우 기쁩니다

Apache Software Foundation의 최상위 프로젝트 이것은 다시 우리가주의를 기울이는 결과입니다 Google의 개발자 생산성, 우리가 지금 생각하는 새로운 모델을 개발한다 사람들의 공동체가 있기를 원한다 다양한 서비스에서 사용합니다

그럼 다음은 뭐니? 관심이 있으시면 내일 몇 차례 말씀 드리겠습니다 Apache Beam에 관해서 첫 번째 이야기는 실제로 집중되어 있습니다 지역 사회 측면과 생태계에 관한 이제 Apache Beam이 Apache의 최상위 프로젝트입니다 소프트웨어 재단

너는 우리가 어떻게 나아갈 지 알아낼거야 Dataflow SDK에서 Beam으로 이동하는 방법 그 주위의 이야기는 무엇입니까? 두 번째 이야기는 Portable에 대해 좀 더 자세히 이야기합니다 Apache Beam을 사용한 병렬 데이터 처리 및 이 이식성은이 모델이 실제로 커뮤니티에서 사용할 수 있습니다 우리는 당신을위한 자원도 가지고 있습니다 거기에 몇 개의 URL이 있습니다

당신이 더 찾을 수 있도록 여기에 코드 랩도 있습니다 데이터 흐름을 시도하려면 기회가 없었습니다 당신은 회의에서 실제로 여기 프로그램을 쓸 수 있습니다 이 택시 데이터를 활용하는 또 다른 코드 랩이 있습니다

이제 공개 데이터 스트림으로 사용할 수 있습니다 그래서 당신은 그것으로 놀 수 있습니다 이러한 유형의 응용 프로그램을 개발하는 방법을 배우고, 해당 코드 연구소에 액세스 할 수 있습니다 Codelabsdeveloper

googlecom 그래서와 주셔서 대단히 감사드립니다 귀하의 질문에 기꺼이 응해드립니다 [박수 갈채] 관객 : 안녕하세요

협조 해 주셔서 감사합니다 첫 번째 질문은 내가 똑똑한 그룹이 아니라고 가정 해 봅시다 나는 한 그룹에 많은 것을 가지고있다 이제는 한 가지 경우에 메모리가 부족합니다 그러면 어떻게 될까요? SLAVA CHERNYAK : 그래서 커플이 있습니다

그 질문에 대한 답을 우선, 응용 프로그램 수준에서 다음을 수행 할 수 있습니다 그래서 당신이 말하는 것은 또한 바로 가기 키 문제 그것을 처리하는 두 가지 다른 방법이 있습니다 하나는 응용 프로그램 수준에서 항상 가능합니다 더 나은 차트 작성 전략, 더 나은 키잉 전략 찾기 그래서 당신은 그 핫 키를 가지고 있지 않습니다

데이터 흐름에는 다단계 결합도 있습니다 근본적으로 팬 인을 통해 볼륨을 단일 키로 그래서 그것은 당신이 개발자로서 조금 알고 있어야합니다 완전히 투명하게 될 수있는 것이 아닙니다 데이터 흐름에 의해 처리됩니다

하나의 열쇠에 대해 모든 트래픽을 던지십시오 어떤 시점에서 우리가 할 수있는 일은 없습니다 그러나 그것이 당신이 알고있는 한 그것은 그것이 데이터 흐름 내에 도구가 있습니다 그것을 쉽게 처리 할 수 ​​있습니다 라파엘 페르난데스 : 그렇다면 여기에 머물러있는 고위 입찰가 중간 파이프 라인에서도 다시 키잉 전략을 찾고 있습니다

이것들을 지키기위한 아주 좋은 방법입니다 핫 키 또는 핫 그룹 관객 : OK 그리고 두 번째 질문을했습니다 기본적으로 이러한 업데이트를 언급하지 않았습니다

현재 시스템과 호환 가능 이 업데이트를 어떻게 실행 하시겠습니까? 그래서 기본적으로 실행중인 시스템을 어떻게 대체합니까? 라파엘 페르난데스 : 네 그래서 몇 가지 전략이 있습니다 사람들이하는 일은 흐름을 일시 중단하는 경우도 있습니다 계산 가능한 집합이 있다는 것을 알고 있습니다 시간 윈도우 중 어느 윈도우 "더러운"것으로 간주 될 것입니다

당신이이 데이터를 잃었을 것이기 때문입니다 그래서 그들은 몇몇 데이터를 제정 할 준비가되어 있습니다 손실, 업그레이 드이기 때문에, 그게 상응 깨는 변화 그리고 어떤 경우에는 괜찮습니다 그런 식으로 코드를 발전 시키십시오

우리가 본 또 다른 전략은 성공적으로 사용되었습니다 실제로 하나의 파이프 라인이 다른 조각을 가지고 있습니다 Pub / Sub를 사용하여 Pub / Sub에 게시 할 수 있습니다 이를 통해 파이프 라인 조각을 분리 할 수 ​​있습니다 진화하고 싶거나 아마도 데이터를 받기 시작하는 대체 브랜치 추가 특정 시점 이후에, 그리고 나서 다른 조각을 껐다

그래서 이것은 변화를 극복하고 대처하는 전략입니다 관객 : 고마워 라파엘 페르난데스 : 좋아 관객 : 나는 지각에 대해 질문이있다 라파엘 페르난데스 : 무엇에 대해서요? 죄송 해요

경청자 : Lateness 라파엘 페르난데스 : Lateness 관객 : 창 밖에있는 데이터 윈도우의 데이터가 수집되고 축적 된 후, 무언가가 범위를 벗어난다면, 기본 동작을 이해합니다 지체 매개 변수가 설정된 경우에도이를 버리는 것입니다

그게 사실이야? SLAVA CHERNYAK : 예, 맞습니다 관객 : Beam SDK에서 실제로 어떻게하면 좋을까요? 무엇보다도, 내가 어떻게하면 데이터가 처리되고 둘째로, 빔이 실제로 내려 가서 내려 앉습니까? 원시 데이터처럼 사용 된 원시 데이터 원래 창 에서요? SLAVA CHERNYAK : 첫 번째 질문에 대답하려면, 빔에 트리거가 있습니다 처리 기반을 트리거 할 수 있습니다 그 늦은 데이터 그래서 뭔가를 방아쇠를 당기기 위해 워터 마크를 사용하면됩니다

워터 마크를 기반으로 다음을 수행 할 수 있습니다 허용 된 지각과 함께, 가능한 지체를 더한다 거기에 매개 변수 너의 두 번째 질문을 이해할 수 있을지 모르겠다 그것이 데이터를 끌어 내리는 지에 관한 것입니다 – 아, 데이터, 전체 데이터를 제공합니까? 늦은 데이터가 담긴 원본 창 은요? 관객 : 음, 재 처리가 되나요? 내가 말하려고하는 것입니다

SLAVA CHERNYAK : 이것이 질문입니다 창을 모으거나 버리는 데 사용하는지 여부 내가 정확히 기억한다면 따라서 모든 트리거링 창을 누적하면 창 전체 내용을 전달하려고합니다 그것이 시간에 또는 늦게 있든 폐기 용 판넬이있는 상태에서만 진행됩니다

델타를 토대로 심의하기 가장 최근의 트리거 실행 관객 : OK SLAVA CHERNYAK : 그 질문에 대답합니까? 관객 :별로 따라서 버려진 데이터는 실제로 모든 원시 데이터를 버립니다 SLAVA CHERNYAK : 그래서 버리는 것, 그것이 의미하는 것 방아쇠가 우리가 델타를 배달 할 때마다 발생합니다 마지막 발사 발사 이후 델타 세트를 전달합니다

따라서 두 개의 트리거가있는 경우 워터 마크에서 트리거링합니다 두 번째는 늦은 데이터를 트리거하고 버리고 창이 먼저 내용을 전달할 창 워터 마크에 넣은 다음 늦은 데이터 만 전달하면됩니다 요소가 유일한 델타이기 때문입니다 청중 : OK SLAVA CHERNYAK : 매번 누적 창이 있습니다 당신이 배달 할 방아쇠가 발생합니다

창의 전체 내용, 누적 된 내용 그래서 워터 마크에서 무엇이든지있을 것입니다 그리고 당신을 방아쇠를 당기는 늦은 자료에 이전 내용과 늦은 날짜를 전달합니다 요소 따라서 창을 모으거나 버리는 데 사용하는지 여부 어떤 종류의 재 처리의 기능인가? 당신은 그 데이터에하고 싶다

그래서 늦은 요소에만 관심이 있다면 아마 당신은 폐기 판을 사용하고 싶을 것이다 창 전체 내용을 다시 처리하려면 당신은 창을 축적해야합니다 관객 : 그리고 내가 얼마나 멀리까지 시간 제한이 있니? 지각을 설정할 수 있습니까? SLAVA CHERNYAK : 실제로는 그렇지만 SDK 레벨에서는 그렇지 않습니다 따라서 실제로 얼마나 오래 데이터를 보관할 수 있습니까? 당신이 얼마나 많은 돈을 벌고 있는지 기꺼이 저축, 오른쪽, 파이프 라인의 지연 시간 더 이상 대처할 수 없기 전에 대처할 수 있습니다 권리? 그래서 내가 아는 한, SDK는 프로그램 적 한계를 강요하고, 하지만 거기에 1 년을 넣으면 계속해서 데이터를 던지면됩니다

1 년 내 Windows로, 어떤 시점에서 일이 깨기 시작할 것입니다 라파엘 페르난데스 : 그리고 당신을위한 실용적인 방법이 있습니다 얼마나 많은 데이터를 평가하고 실험하는지 당신은 기꺼이 지키고 얼마나 많은 지체인지 너는 기꺼이 용납 해 주의를 기울이는 것이 중요합니다 당신이 갖고있는 자원의 어느 시점에 있는가? max에서 프로비저닝 됨 처리 과정에서 백업을 시작하면 더 이상 지킬 수있다

그래서 당신은 바운드를 만들 수 있습니다 데이터의 특성에 따라 실험에 의한 전형적인 계산법 관객 : 창 방아쇠가 발사됐지만 가공은 – 나는 따라 잡을거야 난 그냥– 라파엘 페르난데스 : 네 해피

네 여기로 가자 관객 : 때때로 나는 매개 변수를 요구받습니다 내 파이프 라인에서 구성 할 수있는 실행하지 않아도됩니다 업그레이드를해야합니다

구성 가능한 런타임을 관리하는 좋은 방법이 있습니까? 매개 변수? SLAVA CHERNYAK : 몇 가지 답변이 있습니다 그 질문에 따라서 답변 중 하나는 귀하의 파이프 라인이 항상 사이트 입력에서 데이터를 읽을 수있다 파이프 라인 자체에서 생성되거나 또는 다른 설정 저장소에서 그래서 당신이 Dataflow 랜드에서 그렇게한다면 항상 사이드 출력을 낼 수 있습니다

그런 다음 어딘가에 측면 입력으로 소비됩니다 그리고 그 쪽 입력은 실제로 작았습니다 – 당신은 작은 것으로서 당신의 데이터 스트림의 조인이라고 생각할 수 있습니다 빈번하게 변이 된 데이터 세트 자주 음소거되지 않은 데이터 세트 당신의 구성이 될 수 있다면 그곳에서 업데이트하는 방법이었습니다 당신은 당신의 처리를하고 있습니다

RAFAEL FERNANDEZ : 그러나 이것은 당신을 허용하지 않을 것입니다, Windows의 길이와 같은 것을 변경하는 방법 즉석에서 이것들은 당신 자신의 코드의 매개 변수입니다 관객 : 네 라파엘 페르난데스 : 네 관객 : 고마워

페르난데즈 : 여기로 가자 관객 : 잠깐 워터 마크의 경우 조정할 수 있습니까? 또는 그것을 조정할 수 있습니까? 그 주위에 어떤 도구가 있습니까? SLAVA CHERNYAK : 대답은 현재 아니오입니다 그래서 우리가 시도하고 확립 할 때 우리가하는 일 워터 마크는 기본적으로 모든 것을 취합니다 우리는 출처에 대해 알고 있습니다

우리는 소스를 시도하고 모델링합니다 우리는 모든 데이터를 추적하고 유지합니다 일단 소스에서 데이터를 얻으면 나머지 메시지를 완벽하게 추적합니다 시스템 전반에 걸쳐 따라서 워터 마크의 목표는 가능한 한 완벽해야합니다

데이터를 추적 할 때 따라서 튜너 블 매개 변수가 없습니다 당신이 무엇인지에 대해 더 많이 말할 수 있습니까? 그걸로 뭘 하려니? 관객 : 그래서 걱정입니다 따라서 특정 응용 프로그램에서 작동 할 수 있습니다 하지만 모든 곳에서 작동하지 않을 수 있습니다

권리? 그렇다면 데이터에서 배울 수 있습니까? 시간 창에 대한 메트릭을 수집 할 수있는 방법이 있습니까? 그런 다음 매개 변수를 설정하거나 고정되어 있습니까? 라파엘 페르난데스 : 그래서 내가 잘 모르겠다 나는 네가하는 말은 두 가지라고 생각한다 하나는 Windowing 전략에 대해 이야기하는 것입니다 다른 하나는 시간의 흐름을 제어 할 수 있는지 여부입니다 기본적으로 워터 마크가 언제 나아가 야하는지 말합니다

그래서 두 번째 것에 관심이 있다면 우리가 할 수있는 기술과 것들이 있습니다 당신과 이야기하게되어 기쁘다 그리고 당신이 할 수있는 다른 것들 슬라바 (Slava)가 말했듯이, 워터 마크 (Watermark)는 함수이다 서비스가 데이터 소스에 대해 알고있는 것, 우리의 능력 너는 너의 허용 된 지각을 검사하는거야

우리는 도착의 관점에서 무엇을보고 있는지 더하기를 지정하십시오 근원으로부터의 보증, 그리고 우리는 정식으로 시간을 보내는 것이 안전 할 때를 안다 SLAVA CHERNYAK : 한 가지 더 말하게하겠습니다 기본적으로, 사용자 정의 소스 인 경우 너 말이야 당신이 쓴 원본이고 그때에 대해 가장 잘 압니다

사용할 서비스의 워터 마크를 제공 할 수 있습니다 따라서 사용자 정의 소스에 대해 워터 마크를 제공해야합니다 그런 다음 워터 마크와 결합하여 사용합니다 파이프 라인의 나머지 부분에서 그래서 당신이 어떤 종류의 타임 스탬프에 대해 가장 잘 압니까? 귀하의 서비스는 귀하가 최고의 출처임을 제공하고 있습니다 거기에 워터 마크에 대한 정보도 있습니다

라파엘 페르난데스 : 마지막으로 언급 할 전략 중 하나입니다 다시 한 번, 응용 프로그램에 종속적 인 모든 것 우리는 논리적 시간에 관한 거래를 설명했다 모든 데이터 이벤트에 시간과 시간이 있음을 의미합니다 의미가 있으며 이것이 워터 마크를 유발하는 것입니다 진보

실시간도 있습니다 맞습니까? 시간 진행이 실제 도착의 함수 인 곳 시간이 데이터의 일부가 아닌 곳 하지만 실제로 시스템 기능입니다, 다른 것들이 있습니다 당신도 거기에서 할 수 있습니다 관객 : 워터 마크는 두 가지 모두 고려합니까? SLAVA CHERNYAK : 아닙니다 그래서 그 질문에 대한 깊은 대답이 있습니다 예, 실제로 두 종류의 워터 마크가 있기 때문에, Watermarked라고하면 정말 큰 데이터 워터 마크에 대해 이야기합니다

이벤트 시간에 워터 마크 관객 : OK 라파엘 페르난데스 : 네 관객 : 좋습니다 고마워요

관객 : 프레젠테이션에 감사드립니다 세션을 보는 것이 꽤 재미있었습니다 타이밍 전략 중 하나의 종류로 그래서 나는 스트리밍에서 세션이 있는지 물어보고 싶다 스트리밍 데이터가있는 경우 가능하며 우리가 알아야 할 몇 가지 효율성 결함들이다 SLAVA CHERNYAK : 첫 번째 질문입니다

스트리밍에서 세션이 가능한지 여부입니다 네 그럼요 즉, Dataflow SDK에 내장되어 있습니다 지금 바로 사용할 수 있습니다 관객 : 네

SLAVA CHERNYAK : 네 효율성 문제까지는 내 말은, 나는 그것이 의도 한대로 작동한다고 생각한다 나는 내가 무엇에 대해 더 묻어야하는지 생각해 관객 : 이벤트 시간 대 실시간의 종류 전표와 물건의 종류 나는 세션에 관해서, 그 자체로 유발되는 것이기 때문에? 모든 메시지 – SLAVA CHERNYAK : 음, 그래서, 세션, 정의에 의해, 그것에 잠복이 생길 것입니다

맞습니다 세션 윈도우가 한정되어 있기 때문에 활동하지 않는 기간 그래서 당신은 세션이 있다는 것을 알 수 없을 것입니다 너는 아무 것도 볼 수 없을 때까지 끝났다 따라서 내장 레이턴시가 내장되어 있습니다

세션의 정의로 RAFAEL FERNANDEZ : 시스템의 트레이드 오프 세션을 계산할 수 있는지 여부 우주와 자원이 될 것입니다 그래서 그것은 실제로 진행되고 있습니다 매우 고르지 못한 데이터와 매우 어려운 세션이있는 경우 전략, 효과는 아마도 당신이 더 많은 중간 상태가 필요합니다 관객 : 그게 사실입니다

내 말은, 나는 광고 업계에서 온다 내 말은, [INAUDIBLE]은 분명히 세션에있는 사람들과 순서면에서 마이크로 스케일 집계에서 [INAUDIBLE] 할 수 있습니다 알았어 고마워 라파엘 페르난데스 : 좋아 SLAVA CHERNYAK : 좋습니다

알았어 페르난데즈 : 알았어 여기에 또 하나의 질문이 있습니다 관객 : 제 질문은 어떤 언어입니까? SDK가 현재 지원합니까? 라파엘 페르난데스 : 물론 SDK는 Java 및 Python으로 사용할 수 있습니다 파이썬에는 가용성이 있습니다

죄송합니다 파이썬은 데이터 흐름에서 배치를 지원합니다 Apache Beam 웹 사이트로 가면 그들은 이미 Python SDK와 Java SDK를 가지고 있습니다 내일에 대해 더 많이들을 수 있습니다 그러나 그것들은 구현 된 두 언어입니다

제 3 자 구현도 있습니다 이 커뮤니티에 대해 더 많이 듣게 될 것입니다 스칼라 구현을 생성했다 이걸 Scio라고합니다 그것은 Spotify에 의해 만들어졌습니다

그리고 다른 사람들은 지역 사회에서 논의하기 시작했습니다 관객 : 좋아요 라파엘 페르난데스 : 좋아 모두에게 감사드립니다 당신의 축제를 즐기십시오

[음악 재생]

Get Meaningful Insights with Google BigQuery | Google Cloud Labs

[음악 재생] HEATHER CROSS : 안녕하세요 헤더, 또

PRIYANKA VERGADIA : 안녕하세요, 저는 Priyanka입니다 GCP Live YouTube 시리즈에서 나를봤을 것입니다 저는 Google의 고객 엔지니어이기도합니다 CE로서, 저는 회사가 큰 데이터를 이해할 수 있도록 도와줍니다 큰 데이터에 대한 액세스 권한이 있으면 가치가 없습니다

그것을 사용하는 방법이 없다면 HEATHER CROSS : 맞습니다 빅 데이터는 수행 할 방법이 필요합니다 오늘의 에피소드 주제로 우리를 데려 오는 큰 쿼리, Google BigQuery PRIYANKA VERGADIA : 오늘날의 데이터는 복잡하며이를 처리합니다

시스템 아키텍처에 막대한 투자가 필요하다 및 하드웨어 그것은 거기서 끝나지 않습니다 확장성에 대한 전략이 필요합니다 그런 다음이를 관리하고 유지 관리해야합니다

결과적으로 쿼리가 여전히있을 수있는 시스템 몇 분에서 몇 시간이 걸릴 수 있습니다 HEATHER CROSS :하지만 더 중요한 것은 무엇입니까? 인프라 개발 또는 통찰력 찾기 귀하의 데이터에서? PRIYANKA VERGADIA : Google BigQuery가 제공되는 곳입니다 완전히 관리되고 대규모의 저비용 엔터프라이즈 데이터웨어 하우스, 실행 중 Google의 입증 된 컴퓨팅, 스토리지, 네트워킹 인프라 HEATHER CROSS : 일반적인 하드웨어 교체 기존 데이터웨어 하우스에 대한 설정, BigQuery 서비스에는 관리 할 인프라 없음, 데이터베이스 관리자 없음, 데이터 분석에 집중할 수 있습니다 익숙한 SQL을 사용하여 의미있는 통찰력을 찾으십시오

PRIYANKA VERGADIA : BigQuery가 게재 될 수 있습니다 모든 분석 데이터에 대한 종합적인 전체 귀하의 조직에서 BigQuery는 특별 쿼리 실행에 환상적입니다 대용량 데이터 세트 전체에서 쿼리를 집계 할 수 있습니다 HEATHER CROSS : 정말 빠릅니다

수 테라 바이트는 초 단위로, 페타 바이트는 수분 내에 스캔 할 수 있습니다 이로 인해 대화 형 셀프 서비스 탐색이 가능해집니다 실행 가능한 대규모 데이터 세트 더 나은 분석, 더 창의성, 더 흥미로운 통찰력을 이끌 수 있습니다 귀하의 데이터에서 PRIYANKA VERGADIA : BigQuery가 모든 기업을 대체하지는 않습니다

데이터가 저장됩니다 예를 들어 온라인 거래 처리 시스템이 아닙니다 그리고 그것은 변화를 적용하기위한 것이 아닙니다 그들이 일어날 때 BigQuery는 자체 포함 된 클라우드 기반이므로 이 솔루션은 또한 사내 솔루션이 아닙니다

HEATHER CROSS : 쿼리 및 스토리지 리소스 사용 패턴에 따라 동적으로 할당됩니다 정말 큰 쿼리가 있습니까? 처리 능력을 사용하여 BigQuery를 확장합니다 Google 인프라 스트럭처의 PRIYANKA VERGADIA : 공유와 협업은 쉽습니다 프로젝트와 데이터 모두에 대한 액세스를 제어 할 수 있습니다 다른 사람에게주는 것과 같이 비즈니스 요구 사항에 따라 데이터를 보거나 쿼리 할 수있는 기능

표준 SQL 쿼리를 사용할 수 있기 때문에, 누구든지 참여할 수 있습니다 HEATHER CROSS : 여러 지역의 데이터 복제 999 % SLA를 보장합니다 항상 데이터에 액세스 할 수 있습니다 그리고 당신은 당신의 데이터를 잃지 않을 것입니다

BigQuery는 또한 휴식 중 및 전송 중 모든 데이터를 암호화합니다 기본적으로 PRIYANKA VERGADIA : 가격면에서, BigQuery는 저장 및 컴퓨팅 개념을 분리합니다 이렇게하면 각각 독립적으로 규모를 조정하고 비용을 지불 할 수 있습니다 당신은 pay-as-you-go 모델이나 평면 모델을 선택할 수 있습니다

월별 가격 HEATHER CROSS : 이제 재미있는 부분 인 Qwik Labs PRIYANKA VERGADIA : 링크를 확인할 수 있습니다 여기서 Qwik Labs를 시작하십시오 이 랩은 입문 연습을 제공합니다

두 BigQuery 웹을 사용하여 데이터를로드하고 쿼리하는 방법 UI 및 명령 줄 도구 이 실험실은 약 30 분이 걸립니다 완료하십시오 HEATHER CROSS : 실험실의이 시점에서, 새 테이블에 사용자 정의 데이터 세트를로드했습니다 우리는 테이블을 미리보고 맞춤 데이터 세트를 쿼리 할 것입니다

BigQuery에서 표를 찾습니다 테이블을 열고 미리보기를 클릭하여 데이터를 봅니다 쿼리 작성을 클릭하십시오 babynames 데이터 세트를 조회하십시오 이 데모에서는 쿼리가 상위 5 명의 소년을 표시합니다

2014 년 이름 글쎄, 그게 오늘 우리가 가진 모든 시간이야 이 에피소드를 BigQuery에서 즐겼 으면 좋겠습니다 PRIYANKA VERGADIA : 그렇습니다 온에어 웨비나 시리즈 인 Quik을 계속 방문하는 것을 잊지 마십시오

실험실 및 우리의 블로그 모든 링크는 아래에 있습니다 HEATHER CROSS : BigQuery에 대해 자세히 알아볼 수 있습니다 Coursera의 Google Cloud 주문형 교육 과정을 통해 지켜봐 줘서 고마워 그러면 곧 보자

연설자 : 당신이 그것을 놓친 경우에, 지난 주 에피소드를 확인해보세요 Google Cloud Storage에 대해 논의했습니다 QuikLab을 만들고 관리합니다 스토리지 버킷 한번 해봐

Create an Oracle Big Data Cloud Cluster In Oracle Cloud Infrastructure

Oracle Big Data Cloud는 오픈 소스 기술을 결합하여 빅 데이터 분석 실행 및 관리를위한 빅 데이터 플랫폼 완성 응용 프로그램 Oracle Cloud My Services에 로그인하십시오

내 서비스 대시 보드 페이지에서 빅 데이터 클라우드 타일을 찾습니다 동작 메뉴를 클릭하고 열기를 선택하십시오 서비스 콘솔 Oracle Big Data 클라우드에 처음으로 액세스하는 경우 시작 화면이 나타납니다 이 경우 콘솔로 계속 진행하십시오

콘솔로 이동을 클릭하십시오 Oracle Big Data 클라우드 인스턴스 페이지는 다음과 같습니다 표시됩니다 이 페이지는 Oracle Big Data Cloud의 모든 클러스터를 표시합니다 클러스터를 만들 수 있습니다

클러스터를 만들려면 Create instance를 클릭합니다 Create New Instance 마법사의 첫 번째 페이지에서 고유 한 ID 도메인에서 인스턴스를 식별하는 인스턴스 이름, 선택 사항 인 인스턴스 클러스터 설명, 알림 전자 메일 및 지역으로 구성됩니다 지역 필드의 경우 영역을 사용하여 Oracle Cloud Infrastructure에서 인스턴스를 생성하십시오 선택 가용성 도메인 가상 클라우드 네트워크에서 서브넷을 선택하십시오

사용 가능한 선택 태그를 지정하거나 새 태그를 정의하고 인스턴스에 지정하십시오 그런 다음 다음 것 다음을 제공하여 클러스터를 구성하십시오 값을 입력합니다 클러스터 구성 제공 매개 변수

지정하십시오 : 배치 프로파일; 총 노드 수, 3 또는 여러 노드를 사용하여 여러 마스터 노드로 고 가용성을 제공하십시오 오라클 계산 단위 수 및 각 계산 노드의 메모리 양 새로운 클러스터; 작업 부하에서 대기열을 관리하는 방법에 대해 설명합니다 선매 꺼짐은 작업이 특정 대기열보다 많은 자원을 소비 할 수 없음을 나타냅니다 있습니다 이렇게하면 클러스터 활용도가 잠재적으로 낮아질 수 있습니다

선점 작업이 대기열에서 허용하는 것보다 많은 자원을 소비 할 수 있음을 나타냅니다 지정 클러스터에 배포 할 SPARC 버전 SPARC 16 또는 21 다음으로 귀하의 신임장

이 클러스터에 SSH 키를 연결하십시오 수정 버튼을 클릭하여 SSH 키 파일을 선택하십시오 새 키 만들기 옵션을 선택하여 이 클러스터에 대한 새 공용 키를 작성하고 다운로드하십시오 관리자 지정 클러스터의 사용자 이름 비밀번호를 입력하고 다시 입력하십시오 관리자

연결 섹션을 통해 새로운 다른 클라우드 서비스와 클러스터 원하는 클라우드 서비스를 선택하십시오 클러스터와 연관 시키십시오 Oracle Storage Cloud Service Container는 다음과 같습니다 작업 로그가 완료되면 푸시됩니다

기존 저장소를 지정할 수 있습니다 컨테이너 또는 새 것을 만들 수 있습니다 기존 컨테이너가있는 경우 신임장 OCI 객체 저장소 URL을 제공하십시오

의 URL을 제공하십시오 객체 저장소에있는 기존 버킷 사용자에게 제공 OCID PEM 키를 생성하십시오 PEM 키 지문을 생성하십시오 다음을 지정하십시오

클러스터에 할당하려는 HDFS 스토리지의 양 Oracle Big Data 클라우드는 HDFS에 복제 계수 2를 사용합니다 이것은 사용 가능한 HDFS를 의미합니다 스토리지는 할당 된 총 스토리지의 약 절반입니다 다음을 클릭하십시오

에 확인 페이지에서 선택 사항을 검토하고 작성을 클릭하십시오 에서 오라클 빅 데이터 클라우드 인스턴스 페이지, 새로운 인스턴스가 표시됩니다 서비스 생성 상태 일반적으로 클러스터 생성에는 다소 시간이 걸립니다 일단 클러스터가 생성되면 상태가 사라집니다 이 인스턴스 메뉴 관리를 클릭하고 Big Data Cloud Console을 선택하십시오

클라우드 콘솔 암호 자격 증명을 입력하십시오 이리, 당신은 HDFS, 오라클 데이터베이스로부터 입력을 읽는 작업을 생성하고 실행할 수 있습니다 Oracle Storage Cloud Service는 데이터에 대한 계산을 수행하고 산출 노트 페이지에서 메모를 작성하고 실행할 수도 있습니다 노트 반복적 인 방법으로 데이터를 탐색하고 시각화 할 수 있습니다

자세히 알아보기 cloudoraclecom

Create an Oracle Big Data Cloud Cluster In Oracle Cloud Infrastructure Classic

Oracle Big Data Cloud는 오픈 소스 기술을 결합하여 완전한 Big Data 플랫폼을 제공합니다 Big Data Analytics 애플리케이션을 실행 및 관리합니다

Oracle Cloud My Services에 로그인하십시오 내 서비스 대시 보드 페이지에서 Big Data Cloud 타일을 찾습니다 조치 메뉴를 클릭하고 서비스 콘솔 열기를 선택하십시오 Big Data Cloud에 처음 액세스하는 경우 시작 화면이 표시 될 수 있습니다 이 경우 콘솔로 이동을 클릭하여 콘솔을 계속 진행할 수 있습니다

Oracle Big Data Cloud Instances 페이지가 표시됩니다 이 페이지는 Oracle Big Data Cloud의 모든 클러스터를 표시하고 클러스터를 생성 할 수있게합니다 클러스터를 만들려면 인스턴스 만들기를 클릭합니다 새 인스턴스 만들기 마법사의 첫 번째 페이지에서 고유 한 인스턴스 이름을 제공하여 인스턴스를 식별합니다 ID 도메인에서 선택적 클러스터 설명, 통지 전자 우편 및 region을 선택하십시오

지역 필드에 대해 기본 설정 없음을 선택하면 Oracle Big Data Cloud Oracle Cloud Infrastructure Classic 영역을 선택하십시오 할당 할 수있는 태그를 선택하거나 새 태그를 정의하고 인스턴스에 지정하십시오 그런 다음 다음을 클릭하십시오 서비스 세부 사항 페이지에 값을 입력하여 클러스터를 구성하십시오 클러스터 구성 매개 변수 제공 : 지정 : 배포 프로필

총 노드 수입니다 세 개 이상의 노드가 여러 마스터 노드로 고 가용성을 제공합니다 새 클러스터의 각 계산 노드에 대한 Oracle Compute Units의 수 및 메모리 양 그리고 대기열 및 작업 부하를 관리하는 방법 선매 꺼짐은 작업이 특정 대기열에서 허용하는 것보다 많은 자원을 소비 할 수 없음을 나타냅니다

이렇게하면 클러스터 활용도가 잠재적으로 낮아질 수 있습니다 Preemption On은 작업이 대기열에서 허용하는 것보다 많은 자원을 소비 할 수 있음을 나타냅니다 Spark 16 또는 21 클러스터에 배포 할 Spark 버전을 지정하십시오

다음으로 자격 증명을 제공하십시오 이 클러스터에 SSH 키를 연결하십시오 SSH 공개 키 필드 옆에있는 편집을 클릭하십시오 이 클러스터의 새 공개 키를 작성하고 다운로드하려면 새 키 작성 옵션을 선택하십시오 클러스터의 관리자 사용자 이름을 지정하십시오

관리자의 암호를 입력하고 다시 입력하십시오 연결 섹션에서는 새 Oracle Big Data Cloud 클러스터와 다른 클라우드 서비스를 연결할 수 있습니다 Oracle Big Data Cloud 클러스터와 연관시키려는 클라우드 서비스를 선택하십시오 Oracle Storage Cloud Service Container는 작업 로그가 완료되면 푸시됩니다 기존 저장 영역 컨테이너를 지정하거나 새 저장 영역 컨테이너를 작성할 수 있습니다

기존 컨테이너가있는 경우 자격 증명을 입력하십시오 Oracle Storage Cloud 컨테이너의 이름을 입력하십시오 사용자 이름과 암호를 제공하십시오 클라우드 저장소 컨테이너가없는 경우 클라우드 저장소 컨테이너 만들기를 클릭합니다 클러스터에 할당 할 HDFS 스토리지의 양을 지정하십시오

Oracle Big Data Cloud는 HDFS에 복제 계수 2를 사용합니다 따라서 사용 가능한 HDFS 스토리지는 할당 된 총 스토리지의 절반에 해당합니다 다음을 클릭하십시오 확인 페이지에서 선택 사항을 검토하고 작성을 클릭하십시오 Oracle Big Data Cloud Instances 페이지에는 새 인스턴스가 Create Service 상태로 표시됩니다

일반적으로 클러스터 생성에는 약간의 시간이 걸립니다 클러스터가 생성되면 상태가 사라집니다 이 인스턴스 메뉴 관리를 클릭하고 Big Data Cloud Console을 선택하십시오 Cloud Console 비밀번호 자격증 명을 입력하십시오 여기에서 작업을 생성하고 실행할 수 있습니다

HDFS, 오라클 데이터베이스 또는 Oracle Storage Cloud Service로부터 입력을 읽으며, 데이터에 대한 계산을 수행하고 출력을 제공합니다 노트 페이지에서 메모를 작성하고 실행할 수도 있습니다 Notes를 사용하면 데이터를 반복적으로 탐색하고 시각화 할 수 있습니다 자세한 내용은 cloudoracle

com에서 확인하십시오

Serverless Big Data Analytics at Traveloka (Cloud Next ’18)

[음악 재생] 어쨌든, 안녕하세요 너희들이 즐거운 시간 보내길 바래

있잖아, 오늘은 셋째 날이야 지난 2 월 1 일 세션을 좋아하길 바래 일 어쩌면 이것은 오늘의 마지막 세션입니다 그래서 우리는 당신을 위해 그것을 간단하고 짧게 유지할 것입니다 그래서 제 이름은 가우 라프 아난드입니다 저는 싱가포르에 본사를 둔 Google Cloud의 고객 엔지니어입니다

인도네시아 사업을 다룹니다 그리고 나에게는 윌슨이있다 Traveloka에서 싱가포르로 그래서 그는이 세션을 진행할 것입니다 그래서 우리가이 세션을 진행하는 방법입니다

우리는 데이터에 대한 소개의 초기 부분을 가지고있을 것입니다 Google Cloud의 분석 패턴 그리고 윌슨은 그의 여정을 나눌 것입니다 데이터 파이프 라인을 구현하는 Traveloka의 여정 그리고 GCP와 Traveloka를 사용한 멋진 것들 괜찮아 그래서 지난 1 년 동안 나는 많은 분석적 지도자들과 이야기 해왔다

나는 많은 어려움을 겪어왔다 큰 데이터의 경우 그래서 가장 – 나는 세 가지 가장 중요한 도전이 있다고 말하고 싶다 자주 올거야, 이것들이야 우리 모두는 거의 모든 데이터 양을 알고 있습니다

기업들은 요즘 생산하고있다 엄청나게 성장했습니다 그리고 그 성장을 계속합니다 따라서 인프라가 필요합니다 비즈니스 성장에 따라 선형 적으로 확장됩니다

아키텍처를 다시 설계 할 필요가 없습니다 또는 귀하의 인프라를 매 3 개월마다, 매 6 개월마다 따라서 인프라의 수준이 필요합니다 자동으로 크기가 조정됩니다 두 번째는 올바른 재능을 찾는 것입니다

기술이 진화 한 방식이므로, 오픈 소스 기술을 본다면 10 년 전의 모습, 지금의 모습, 기하 급수적 인 성장이 있었다 기술 집합에서 그리고 당신 팀이 유능 해 지도록하는 것 모든 기술을 아우르는 도전입니다 알다시피, 3 개월마다 새롭게 떠오르는 것을 보아라 따라서이 또한 가장 큰 도전 중 하나입니다

기업의 직면하고있다 그리고 마지막으로 중요한 것은 비용입니다 따라서 규모가 커짐에 따라 비용이 증가하면서 비용도 증가합니다 규모에 따라 선형 적으로 증가해서는 안됩니다 따라서 일종의 비용 통제가 있어야합니다

인프라를 늘릴 필요가 없습니다 비용과 함께 이제 막 방금 전에 언급 한 것처럼, 지난 10 년 동안, 오픈 소스 생태계는 기하 급수적으로 성장했습니다 사실, 나는 아직도 10 년을 기억한다 다시 말해서 Hadoop을 검색 할 때 당신은 구글에서 공식 아파치가된다

문서 및 아무것도 그리고 네가 그렇게한다면, 알다시피, 수십, 수천 개의 링크와 문서가 있습니다 그리고 이것 저것 따라서 Hadoop, Spark 및 기타 구성 요소 주변의 생태계 진화를 계속합니다 하지만 그것은 또 다른 도전을 불러옵니다

팀이 모든 기술을 배우게하십시오 그런 말로, 단 하나의 기술은 없다 모든 문제를 해결합니다 그러나 이것이 모든 기술을 배우는 것이 필요하다는 것을 의미하지는 않습니다 당신은 그것을 몇 가지로 좁힐 필요가 있습니다

대부분의 사용 사례를 다루고 있습니다 거의, 방안에, 당신 대부분은 이러한 산업 분야 중 하나에 속합니다 현재 업계에서 수직 계열화가 이루어지지 않았습니다 데이터 분석이나 고급 기능이 필요없는 해석학 몇 가지 사용법을 볼 수 있습니다

여러 업계에서 꽤 흔한 사례 그리고 가장 큰 초점은 사용자입니다 윌슨으로부터 오늘 듣게 될 것은 무엇입니까? Traveloka 관점에서, 그들이 개선하는 방법입니다 전반적인 사용자 경험 최종 목표는 제품이있는 경우, 서비스, ​​최종 사용자는보고 싶은 것을보아야합니다 그리고 당신이 그가보고 싶어하는 것이 아닙니다

따라서 Google은 전체 데이터 수명주기를 단순화하려고 노력하고 있습니다 따라서 우리는이 4 가지 도구와 서비스를 제공합니다 기본적인 라인 첫 번째 것은 물론 섭취입니다 사람들이 사용하는 날이있었습니다

일종의 대량 저장 일괄 처리로 많은 양의 데이터 수집 – 예전처럼 1 시간 만에 알다시피, 귀하의 데이터는 [INAUDIBLE] 하루에 한 번, 그런 다음 분석 및보고 기능이 풍부합니다 그것의 위에 달리기 그러나 스트리밍 분석에는 지난 몇 년 동안 재배 된 가장 중요한 구성 요소 중 하나가되었습니다 대부분의 사업

따라서 스트리밍하여 데이터를 수집해야하는 경우, GCP에서 우리의 메시징 버스 인 Pub / Sub를 사용할 수 있습니다 그러나 카프카 또는 다른 메시징 배경에서 온 경우, 당신도 그것을 사용할 수 있습니다 데이터 파이프 라인 및 처리 관점에서 볼 때, Apache Beam을 실행할 수있는 Cloud Dataflow가 있습니다 네가 어떤 일을 겪었을거야 지난 이틀 동안의 세션 데이터 흐름 및 Apache Beam에 대해 설명합니다

그리고 Hadoop 또는 Spark 배경에서 오는 경우, Cloud Dataproc에서 실행할 수 있습니다 데이터 호수 건설에 관해서 데이터웨어 하우스를 구축하거나 BigQuery와 클라우드 스토리지의 두 가지 옵션이 있습니다 BigQuery에서 데이터 호수를 보유할지 여부 선택하기 또는 클라우드 스토리지, 아시다시피, 거기 장점과 단점도 있습니다 물론, 최첨단 분석이 필요합니다 따라서 BigQuery 또는 클라우드에서 데이터를 가져 오면 스토리지를 사용하면 모든 고급 분석을 실행할 수 있으며, 컴퓨터 학습,보고 및 기타 등등

내가 말했던 것처럼 스트리밍 분석 지난 몇 년 동안 많은 중요성을 얻었습니다 그래서 이것은 가장 일반적인 패턴 중 하나입니다 우리는 당신이 사용하는 대부분의 고객을 본다 귀하의 장치, 당신은 귀하의 응용 프로그램 – 웹, 모바일, 이것 저것 그리고 나서 중간에 메시징 버스를 가져옵니다

당신은 Pub / Sub, Kafka, 또는 다른 메시징 버스 그리고 나서 Apache Beam을 맨 위에 사용합니다 변환을위한 데이터 흐름 또는 Spark 또는 다른 오픈 소스를 사용합니다 Dataproc의 구성 요소

그런 다음 데이터를 착륙시킬 수있는 옵션이 있습니다 여러 스토리지 시스템에 분산되어 있습니다 BigQuery는 애널리틱스가있는 경우 가장 많이 사용되는 선택입니다 그 위에보고하는 대시 보드가 많이 있습니다 Bigtable – 많은 시간 계열 분석을 수행해야하는 경우, Bigtable은 매우 훌륭합니다

사실, 가장 흥미로운 사용법 중 하나를 볼 수 있습니다 Traveloka의 사례와 Bigtable을 사용하는 방법에 대해 설명합니다 그리고 서버리스 머신을 배우고 싶다면 서비스에서는 Cloud ML에서 모델을 실행합니다 그래서 윌슨을 다시 데려오고 싶습니다 Traveloka에서 그들이 공중에서 한 일을 나눌 수 있습니다

몇 가지 유스 케이스와 근원적 인 과학 기술 승인 [박수 갈채] WILSON LAUW : 안녕하세요, 여러분 내 이름은 윌슨이야 나는 Traveloka 출신이다

그래서 당신을 위해서, Traveloka를 알지 못하는 손님, Traveloka는 온라인 여행 예약 중 하나입니다 동남 아시아의 기업 온라인 여행 예약 대행사로 시작했습니다 실제로 여러 비즈니스로 확장되었습니다 수년에 걸쳐 오늘 우리가 이야기 할 것은 기본적으로 우리는 Traveloka에 어떻게 데이터가 있는지에 대해 이야기하고 있습니까? 우리가 데이터를 사용하는 방법, 데이터로 문제를 해결하는 방법, 그리고 거래에 대한 우리의 도전은 무엇입니까? Traveloka에있는 데이터

그리고 우리는 또한 당신에게 줄 것입니다 Google Cloud 채택 방법에 대한 간략한 설명 우리의 [INAUDIBLE] 시스템에 마지막으로 중요한 것은 기본적으로 우리가 만난 하나 또는 두 개의 유스 케이스를 공유 할 예정이다 Traveloka에서 어떻게 문제를 해결할 수 있을까요? 우리의 접근 방식 그래서 내가 너에게 나눌 첫 번째 기본적으로 Traveloka의 데이터는 무엇입니까? 그래서 Traveloka는 데이터에 의존하는 회사입니다

우리는 실제로 많은 것을 위해 데이터를 사용합니다 Google은 데이터를 수집하고 의사 결정에 사용합니다 Traveloka에서 비즈니스 분석을 수행하는 경우를 예로들 수 있습니다 또한 데이터를 수집하여 사용합니다 [INAUDIBLE]에 대한 샘플은 [? 메시지?] 시스템, 광고 최적화, 사기 탐지, 그리고 아마도 [INAUDIBLE]

그리고 이것들은 데이터에 대한 우리의 유스 케이스의 일부입니다 그리고 훨씬 더 [부적절한] 우리가 어떻게 데이터를 사용하는지 그리고 이들은 몇 가지 예입니다 우리가 어떻게 데이터를 사용하는지

내가 너에게 나누어 줄 첫 번째 일 Traveloka에서 데이터를 다룰 때 어려움이 있습니다 Traveloka에서 명백한 도전 기본적으로 데이터 자체의 크기입니다 이 [무적]은 그다지 작지가 않습니다 우리는 실제로 하루에 몇 테라 바이트 정도의 데이터를 얻고 있습니다 따라서 전통적인 방식을 사용하여 유스 케이스를 실제로 해결할 수는 없습니다

데이터 기술 그래서 또 다른 것은 Traveloka입니다 여러 비즈니스 라인을 보유하고있는 회사 인 동시에, 우리는 실제로 다양한 데이터 소스를 가지고 있습니다 어쩌면 일부 회사는 한 줄의 비즈니스 – 전자 상거래 또는 여행 예약을 가정 해 봅시다 또는 항공편 예약

Traveloka에서는 여러 비즈니스 라인을 보유하고 있으며, 숙박 예약, 렌터카 예약, 등등 그래서 우리는 여러 팀을 가지고 있습니다 [INAUDIBLE] 같이 일하다 그리고 Traveloka의 데이터 팀으로서, 실제로 모든 다양한 장소에서 데이터를 가져와야합니다 우리의 단일 데이터웨어 하우스에

Traveloka의 [INAUDIBLE] 데이터 기본적으로 데이터를 사용하려는 여러 팀이 있습니다 우리 팀뿐 아니라 또한 모든 유스 케이스가 있습니다 또한 유스 케이스도 처리 할 수 ​​있어야합니다 우리가 해결하고자하는 다음 일 [INAUDIBLE] 시스템입니다 모든 사람이이 데이터를 원하며 시스템을 신뢰할 수있게하고 싶습니다

그들은 시스템을 원하지 않습니다 그들은 시스템이 한 번 재 프로그램되기를 원하지 않는다 매주 또는 매월 1 회 그들은 시스템이 가능한 한 신뢰할 수 있기를 원합니다 그리고 마지막으로, 특히 비용은 가능한 한 합리적이어야합니다

그래서이 모든 도전들을 보아라 우리가 풀고 싶은, 우리가 실제로 왔어 우리가 성취하고자하는 몇 가지 특징을 가지고 있습니다 가능한 한 데이터 대기 시간을 줄이십시오 사건이 일어나 자마자 곧 누군가와 우리 웹 페이지 나 모바일 앱에서 뭔가를한다

BI 데스크에서 사용 가능하고 액세스 가능하도록하고 싶습니다 봇 또는보고, 또는 우리가 가지고있는 다른 유스 케이스 우리가하고 싶은 다음 일 시스템 자체의 [INAUDIBLE]에서 [INAUDIBLE]입니다 따라서 시스템을 사용할 수 있어야합니다 Traveloka는 개발 회사이기 때문에, 우리는 실제로 데이터를 사용하여 회사에서 의사 결정을 내립니다

시스템이 실제로 손상된 경우, 책상 봇 또는보고는 그렇지 않습니다 몇 시간 또는 며칠 동안 사용할 수 있습니다 실제로 Traveloka는 많은 비용이 소요될 것입니다 달성하고자하는 다음 일 기본적으로 우리는 수술에 시간을 보내고 싶다 가능한 한 최소

엔지니어가 시간을 보내길 바랍니다 생산적이고 창조적 인 무언가를 만들어라 응용 프로그램을 디버깅하는 것이 아니라, 로그를 통해, 그리고 실제로 다른 일을하기 다른 방법으로 해결할 수 있습니다 그리고 이것이 우리의 목표입니다 사실, 재미 있습니다

당신이 실제로 초기 데이터 아키텍처임을 보여줍니다 과거에 우리가 가진 것은 실제로는 완전히 앉아있는 것입니다 Amazon Cloud에서 그리고 이것은 과거에 어떻게 생겼는지 간략하게 설명합니다 기본적으로 모바일 앱에서 오는 데이터가 있습니다

또는 바탕 화면 [INAUDIBLE]은 실제로 데이터를 Kafka [INAUDIBLE]에 넣습니다 그리고 나서 우리는 고블린 일자리가 있습니다 실제로 데이터베이스에 데이터를 삽입하려고합니다 [INAUDIBLE] 또는 Spark에서 ETL을 수행하십시오

S3 데이터 호수에이 모든 것을 저장하려고합니다 그리고 우리는 [INAUDIBLE]의 데이터를 저장할뿐만 아니라, [INAUDIBLE] 메시징 버스로 들어오는 데이터, 카프카입니다 우리는 또한 [INAUDIBLE] 또는 MongoDB도 마찬가지입니다 따라서이 방법을 사용하면 데이터 끝 한계가있다 대기 시간을 끝내기 위해서, 실제로는 기껏해야 – 데이터를 위해 할 수있는 최선의 방법 기본적으로 시간 지연입니다

따라서 앱이나 시스템 자체에서 문제가 발생하면 우리는 한 시간 만에 데이터를 얻을 수 있습니다 따라서이 제한을 살펴보면 실제로 우리 시스템을 보려고했다 [INAUDIBLE] 데이터의 로우 엔드에서 엔드 레이턴시에 이르는 유스 케이스를 해결할 수 있습니다 그리고 그것이 실제로 우리가 시도한 방법입니다 처음으로 운동하기

첫 번째 사용 사례는 데이터로 스트림 분석을하는 것입니다 그래서 우리는 Kafka와 Pub / Sub에 우리의 데이터를 [INAUDIBLE] 직접 그리고 우리는 우리의 스트리밍 [INAUDIBLE] 데이터를 직접 전달하고 BigQuery 자체에 직접 데이터를 게시하십시오 이 BigQuery는 BI에 의해 [무관심] 될 것입니다 도구 및보고 도구를 제공합니다

따라서이 방법을 사용하면 실제로 우리가 볼 수있는 수많은 [무적]을 이미 본다 이전 아키텍처에서 첫 번째, 그리고 가장 분명한 것은, 데이터 자체의 대기 시간입니다 이벤트가 발생하자마자 Pub / Sub, Dataflow, 및 BigQuery 몇 초 만에 BigQuery로 이동합니다

데이터로 어떤 일이 발생하면 AB 테스트를하고 있다고 가정 해 봅시다 당신은 캠페인을하고 있습니다 사실 [INAUDIBLE] 데이터를 직접적으로, 이벤트가 발생하자마자 그리고 우리가 여기서 본 다음 일은 기본적으로 Pub / Sub, Dataflow 및 BigQuery이며, 우리가 시도하는 첫 번째 [INAUDIBLE]은 시도입니다 [INAUDIBLE] 따라서 실제로 걱정할 필요가 없습니다

종속성 설치, 라이브러리 설치, 프로비저닝 및 기타 전통적인 기술을 사용할 때 사용하던 기술입니다 두 번째로 눈치 채실 수 있습니다 데이터 흐름에는 내장 된 확장 기능이 있습니다 따라서 실제로 하드 코딩 할 필요가 없습니다 귀하의 스케일링 작업을위한 [비 숙련 된] 부서

실제로 자동 크기 조정 기능을 설정할 수 있습니다 그런 다음 귀하의 [INAUDIBLE] 직업을 기반으로 위 아래로 축척됩니다 오는 트래픽 사실 우리는 작업량을 줄였습니다 우리는 우리 일과 관련이 있어야합니다

BigQuery 자체의 성능은 실제로 이전에 사용했던 우리의 SQL 엔진에 비해 훨씬 좋았습니다 사실 우리가 전에는 [무관심]을 사용했습니다 그래서 우리가 이미 볼 수있는이면을 보면서, 우리는 실제로 Google Cloud의 [INAUDIBLE]을 확장하기로 결정했습니다 우리 도서관 시스템에 이것이 데이터의 다음 단계로가는 방법입니다

인프라는 Google과 같이 복잡해 보입니다 구름 그리고 이것이 실제로 어떻게 고수준처럼 보입니다 따라서 데이터는 실제로 직접 올 것입니다 앱에서 우리가 Kubernetes에서 만든 엔드 포인트까지

실제로 Pub / Sub에 직접 데이터를 저장합니다 이전과 마찬가지로 Dataflow로 이동합니다 BigQuery를 통한 스트리밍 실제로 다른 데이터 흐름 작업도 수행합니다 BigQuery에서 데이터를 변환하는 경우 GCS의 패킷 형식으로 변환합니다 또한 모든 측정 항목을 데이터에 저장합니다

빅 테이블 (Bigtable)에서 나중에 자세히 이야기 할 것입니다 그리고이 모든 [불친절한]은 [무관심한]을 통해 이루어집니다 그리고 당신이 알고 있다면이 모든 것에 대해 좋은 점이 있습니다 기본적으로, 이것 모두는 실제로 [INAUDIBLE] 및 [INAUDIBLE]이 이미 있습니다 StackDriver를 통해

따라서 로그인에 대해 걱정할 필요가 없습니다 라이브러리 또는 메트릭스 라이브러리 (예 : [INAUDIBLE])와 같이 그런 식으로 그리고 우리는 [INAUDIBLE] 더 이상 이 모든 것은 실제로 Google에서 제공하는 서비스이거나 또는 Kubernetes의 [INAUDIBLE]에 배포됩니다 자동 스케일링 기능이없는 다른 기능 기본적으로 Bigtable입니다

그리고 Kubernetes, BigQuery, Dataflow, 펍 / 서브 – 그들 모두는 실제로 요구에 의해 확장 될 수 있습니다 그래서 어떻게 걱정할 필요가 없습니다 BigQuery를 통해 트래픽을 확장 할 수 있습니다 [INAUDIBLE] 연말 연시, 긴 휴일 등) 데이터를 중앙 BigQuery 데이터로 가져온 다음 창고, 우리는 실제로 데이터를 만들었습니다

[INAUDIBLE] Traveloka의 [INAUDIBLE]이 (가) 사용합니다 BigQuery의 창고에있는 단일 프로젝트에서, 우리는 실제로 많은 BigQuery 프로젝트를 만들었습니다 뿐만 아니라 Google Cloud의 다른 프로젝트에 앉아 있습니다 왜 우리가 실제로 그것을 할 것인가하는 것은 기본적으로 우리는 데이터의 허가를 원한다 우리는 가능한 한 [부적절한] 마트가되어야합니다

예를 들어 마케팅에서 왔다고합시다 그래서 저는 저의 수입에 관한 데이터를 가지고 있습니다 이 데이터를 회사에서 공유하지 않기를 바랍니다 따라서 실제로 팀에 개인 데이터를 제공 할 수 있습니다 공유하고 싶은 데이터를 다른 팀과 공유 할 수 있습니다

Traveloka에서 실제로 BigQuery 프로젝트가 하나 있습니다 Traveloka의 각 팀마다 그렇게 효과적으로 그들은 선택할 수 있습니다 어떤 데이터를 회사와 공유하고 싶습니까? 팀에서 비공개로 유지하려는 데이터 그리고 또 다른 이유는 기본적으로 우리가 가지고있는 이유입니다

BigQuery 및 GCS의 데이터, 동일한 데이터 기본적으로 데이터에서 ETL을 수행 할 때입니다 데이터 마트에웨어 하우스, 우리가하고있다 여러 가지 방법으로 ETL 대부분은 BigQuery SQL을 직접 사용하는 것입니다 필터, 조인 및 그룹화와 같은 간단한 변환 더 복잡한 ETL에서는 Dataflow 또는 Spark를 사용해야합니다 예를 들어, 기계 학습 등

Spark로 [INAUDIBLE]을하고 있다면, 사실 스파크가 [INAUDIBLE] BigQuery에서 직접 가져 왔지만 효율성은 BigQuery의 [INAUDIBLE]과 [INAUDIBLE] 데이터 비교 [INAUDIBLE]에서 여전히 일치하지 않습니다 [INAUDIBLE]의 데이터를 [INAUDIBLE] 데이터를 읽는 것보다 훨씬 빠릅니다 이제 BigQuery에서 실제로 BigQuery의 모든 데이터 [INAUDIBLE] 직접적으로 [INAUDIBLE]을 (를) 미러링 할 것입니다 팀의 모든 애널리스트는 실제로 자신의 책상을 만들어라

그리고 데이트 마트에서 그들은 실제로 직접 할 수 있습니다 BigQuery에서 BI 데스크로 데이터 쿼리 봇과 [? mech?] 업무용 데스크 봇 [INAUDIBLE] 보다 그리고 이것은 기본적으로 높은 수준의 것입니다 우리가 너와 함께 할 수있는 [부적절한] 건축 우리가 당신과 공유 할 다음 일은 기본적으로 데이터의 사용 사례 중 하나입니다

플랫폼 그리고 우리가 이것을 [부적절한] 통계라고 부르는 것 우리가 당신과 나누고 싶어하는 Traveloka에서 – 일부는 측정 항목 중 예를 들어, 우리가 하루에 얻을 수있는 것과 같은 데이터의 수 – 하루에 몇 테라 바이트 매일 매일하는 일괄 처리 작업의 수는 60,000 플러스 BigQuery에서 생성 된 작업 수입니다 BigQuery를 사용하는 이러한 작업의 대부분은 실제로 거의 실시간으로 이루어지고 있습니다

따라서 이벤트가 곧 예정대로 진행됩니다 예약이 진행되는 동안 실제로 차트가 업데이트 된 것을 볼 수 있습니다 실시간으로 다음은 기본적으로 고객 데이터 플랫폼입니다 우리가 당신과 공유하고 싶은 유스 케이스 중 하나입니다

우리는 Traveloka에서 분석을 수행합니다 이것은 예제 질문 중 하나입니다 비즈니스 팀 [INAUDIBLE] 또는 다른 팀이 Google 팀에 요청하는 것입니다 예를 들어 특정 고객이 우리 한테서 처음 사 줄래? 우리에게서 마지막으로 구매 한이 남자는 무엇입니까? 그리고 이런 종류의 질문을 본다면, BigQuery를 사용하여이 질문에 쉽게 답변 할 수 있습니다 BigQuery에 모든 데이터가 있습니다

데이터를 쿼리하면됩니다 Bigtable에서 선택한 별표를 만듭니다 사용자 ID별로 정렬하면 대답을 얻을 수 있습니다 하지만 문제는 기본적으로 BigQuery에서만 가능합니다 비트별로 파티션 나누기

BigQuery의 단점 중 하나입니다 그리고 만약 당신이 이런 종류의 질문을하고 있다면, 구매 일 또는 시간 소인을 알지 못합니다 모든 시간 범위를 스캔해야합니다 이 고객을 필터링하고 언제 볼 수 있습니까? 이 고객의 구매 따라서 실제로 불필요한 스캔이 많이 발생합니다

데이터의 그리고 또 다른 것은 기본적으로 BigQuery입니다 분석 데이터웨어 하우스로 설계되었습니다 그래서 그것은 [INAUDIBLE] 스캔을하도록 설계되었습니다 응답 시간이 예상됩니다 몇 초 또는 거대한 조인을위한 1 분 정도 걸릴 수 있습니다

사용 사례에 따라 이러한 답변이 필요합니다 밀리 초 단위로 응답해야합니다 사람들에 의해 잡힐 것입니다 이것은 기계에 의해 호출되지 않을 것입니다 Google은 다른 사용자가 API를 사용할 수 있도록 [INAUDIBLE] 실제로 API를 호출하고 직접 응답을 얻을 수 있습니다

예를 들어, 이것이 우리가 유스 케이스를 실제로 어떻게 해결했는지, 우리는 BigQuery뿐만 아니라 Bigtable에도 데이터를 넣으십시오 그래서 우리는 Kubernetes에서 API를 개발했습니다 Traveloka에있는 우리 팀에 소개했습니다 예를 들어, 우리 비행 팀, 호텔 팀, 숙박 시설, 그들은 우리의 API를 호출 할 수, Google API는 실제로 Bigtable 또는 BigQuery를 쿼리합니다 그 (것)들을위한 응답을 얻는

Bigtable을 사용 사례로 사용하는 이유는 무엇입니까? 몇 가지 이유 때문입니다 우선 기본적으로 우리는 모두를 원합니다 [INAUDIBLE] 스캔을해야합니다 이것은 실제로 우리가 뭔가를 사용할 수없는 이유 중 하나입니다 아파치 카산드라

내가 아는 한 간단한 키 값만 수행 할 수 있습니다 우리는 실제로 그것보다 훨씬 더 많은 능력을 필요로한다 다른 하나는 동적 열을 수용 할 수 있어야한다는 것입니다 그리고 가능하다면 우리는 그것이 많은 것이되기를 원합니다 표면

?] 그냥 빅 테이블이 우리에게 제공 할 수 있습니다 또한 [INAUDIBLE] API에 익숙하지만 어떤 [INAUDIBLE]의 오픈 소스 [INAUDIBLE] API입니다 그리고 많은 사람들이 이미 이런 종류의 API에 익숙합니다 이제 예제 데이터에 대해 살펴 보겠습니다

우리가 대답 할 Bigtable의 모델링 그런 종류의 질문 예를 들어 Bigtable의 테이블 일부입니다 그리고이 특정 고객이 언제 구매했는지 평가하러갔습니다 우리에게서 처음으로 그래서 우리는 실제로 이런 종류의 데이터 모델링에 데이터를 저장했습니다

우리는 실제로 사용자 ID를 접두어로 사용했습니다 그리고 우리는 이벤트의 타임 스탬프와 함께 추가합니다 따라서 이벤트는 [INAUDIBLE] 일 수 있습니다 이런 종류의 테이블의 경우 이벤트는 구매입니다 값은 구매의 [INAUDIBLE]이며, 그가 우리 나 호텔에서 비행기 표를 사든 바우처 또는 무엇이든

BigQuery는 Essbase와 비슷합니다 미안, 빅 테이블 그들은 정렬 된 방식으로 데이터를 저장합니다 데이터를 저장하기 위해 키를 해시하지 않으며, 당신이 아파치 카산드라와 그것을 비교한다면 그러면 데이터를 저장하게 될 것입니다

이런 비슷한 이 경우 세 개의 사용자 ID 인 A, B 및 C가 있습니다 그리고 뒤에있는 숫자는 사건의 타임 스탬프입니다 당신의 데이터는 이와 같이 정확한 순서로 저장됩니다 사용자 ID, 시간 소인 및 구매입니다

그래서 당신이 이런 데이터 모델을 가지고 있다면 너 내가 원하는 것에 관한 질문이있어 언제이 남자가 우리에게서 처음 사는지 아는 것 그래서 우리가 할 수있는 것은 기본적으로 간단한 키 값을 할 수 없다는 것입니다 우리가 타임 스탬프를 알지 못하기 때문에 가져온다 우리가 할 수있는 것은 기본적으로 우리가 할 수있는 것입니다

테이블에 대한 [INAUDIBLE] 스캔을 정의하십시오 우리는 [INAUDIBLE] 스캔을 정의 할 수 있습니다 우리는 사용자 ID를 알고 있기 때문에, 하지만 우리는 타임 스탬프를 모른다 예를 들어 타임 스탬프로 0을 넣으면됩니다 원거리 스캔을 할 때 우리는 첫 번째 행을 가져올 것입니다

최소 시간 스탬프 만 있습니다 그리고 당신은 당신의 알파벳순을 가지고 있습니다 우리는이 고객이 무언가를 샀을 때 처음 우표를 찍었습니다 우리로부터 또 다른 비슷한 문제는 기본적으로 특정 고객이 우리에게서 마지막으로 구매 한 시간입니다

이러한 종류의 동일한 데이터 모델이 Essbase와 함께있는 경우 아래쪽에서 역 스캔을 할 수 있습니다 사용자 ID를 지정하십시오 이론적으로는 마지막 시간 스탬프를 얻으십시오 그러나 Bigtable은 실제로 그렇게 할 수 없습니다 Bigtable은 실제로 API와 호환되지만, Bigtable에서 지원할 수없는 작은 것들이 있습니다

그 중 하나는 역방향 스캔입니다 그래서 우리는 실제로 작은 일을해야합니다 이러한 질문에 대답 할 수 있어야합니다 이것이 우리가 이런 종류의 문제를 해결 한 방법입니다 그래서 우리는 열쇠를 바꿨습니다

사용자 ID와 실제 시간 소인을 사용하는 대신, 실제로 사용자 ID와 타임 스탬프를 사용했습니다 최대 시간 소인으로 변경했습니다 타임 스탬프 자체를 뺀 당신이 모든 열쇠에 대해 그렇게한다면, 당신은 당신의 데이터로 끝날 것입니다, 그러나 내림차순으로 정렬됩니다 첫 번째 행은 마지막 구매 일 것입니다 마지막 행이 첫 번째 구매 항목이됩니다

그리고 이미 이런 종류의 데이터 모델을 가지고 있다면, 당신은 실제로 [INAUDIBLE] 같은 것을 할 수 있습니다 배열 스캔을 할 수 있고, ID를 지정할 수 있으며, 마지막 구매로 첫 행을 얻습니다 사람과 그 세부 사항의 그리고 이것은 [불친절]의 한 예입니다

우리가 빅 테이블에서하는 일 그리고 Bigtable을 사용하여 몇 가지 사례를 추가로 제공합니다 그러나 우리는 오늘 그것을 공유하지 않을 것입니다 그리고 다음으로 우리는 당신에게 Traveloka 사용을 보여줄 것입니다 사례는 데이터 품질 및 이상 프레임 워크에 관한 것입니다

우리가 Traveloka에서 한 것 그렇다면 데이터 품질 자체는 무엇입니까? 데이터 품질이 필요한 이유는 무엇입니까? Traveloka에서는, 내가 전에 언급했던 것처럼, Traveloka는 여러 비즈니스 라인을 운영하는 회사입니다 따라서 데이터는 실제로 한 소스에서만 나오지 않습니다 여러 소스 및 여러 스트림에서 발생합니다 그래서 모든 것이 원활하게 진행된다면, 데이터가 올바른 데이터로 직접 전달됩니다

하지만 뭔가가 일어나면 하자 누군가 새로운 버전을 실제로 배포한다고 말하십시오

누군가 [비공식] 앱 등입니다 그리고 그들은 추적을위한 코드를 넣는 것을 잊어 버렸습니다 데이터가 멈 춥니 다 또는 데이터가 오지 만 [INAUDIBLE] 등입니다 그리고이 모든 것이 실제로 많은 문제를 일으킬 수 있습니다

예를 들어, [INAUDIBLE] 프로세스 실제로 전혀 실패 할 수 있습니다 보고서를 볼 수 없습니다 책상 봇에 나타납니다 또는 여전히 성공했지만 보고서, 전화 번호 분명히 틀릴 것이다 그리고 가장 위험한 것은 기본적으로 당신이 그것을 모르는 것입니다, 그러나 그것은 일어나고있다

당신은 당신의 탁상 로봇을 신뢰합니다 번호가 정확하다고 생각 하시겠습니까? 그러나 실제로 그것은 틀립니다 실제로 잘못된 데이터를 사용하여 의사 결정을 내리고 있습니다 그리고 실제로이 문제를 어떻게 해결할 수 있습니까? BigQuery에서 모든 데이터를 보유하고 있기 때문에 대부분 구조화 된 데이터입니다 테이블이 있고, 컬럼이 있습니다

각 열은 고유 한 데이터 유형을가집니다 예를 들어,이 표에는 몇 개의 열이 있습니다 먼저 문자열 열과 정수 열이 있습니다 각 열 자체에는 자체 메트릭이 있습니다 예를 들어, 문자열 열 – 우리는 실제로 실제로 무엇을 알 수 있습니다

이 칼럼의 가치가없는 값의 비율입니다 이 열의 고유 한 가치는 무엇입니까? 및 기타 측정 항목도 포함됩니다 실제로 각각에 대한 모든 측정 항목을 수집하는 경우 기둥들 가운데 몇 개를 수집하고 시간이 지남에 따라 수집합니다 당신은 테이블을위한 일련의 시계열로 끝날 것입니다 그래서 하나의 테이블을 위해, 당신은 숫자 [개발 불가]를 개발할 수 있습니다

분명한 것은 테이블의 행 수입니다 다음은 기본적으로 각 열입니다 자체 측정 항목이 있습니다 샘플의 경우 [INAUDIBLE] 열 (예 : 국가) 당신은 별개의 국가들의 수를 가지고 있습니다

실제로 많은 null 국가를 보유하고 있습니다 따라서 이미 테이블에서 이러한 모든 측정 항목을 얻은 경우, 실제로 이러한 측정 항목을 참조하여 귀하의 표가 맞다 예를 들어, 이러한 종류의 측정 항목이있는 경우, 너는 실제로 발견 할 수있다 데이터가 전혀 중단되었다고 가정 해 봅시다 행 수를 알아 차릴 것입니다

실제로 떨어지고있다 또는 누군가가 귀하의 모바일 앱 [부적절한 앱]이라고 가정 해 보겠습니다 그리고 국가에 코드를 넣는 것을 잊어 버렸습니다 그래서 모든 나라는 null이됩니다 그러나 평상시에는 10 개국이 있습니다

[INAUDIBLE] 데이터에 – 싱가포르, 인도네시아, 말레이시아 등이 있습니다 갑자기 언젠가는 두 나라 만 있습니다 그리고 당신은 무언가가 일어나고 있다는 것을 압니다 어쩌면 그 숫자가 틀렸을 수도 있고, 다른 어떤 것 진행되고있다 따라서 데이터의 모든 메타 데이터를 보유함으로써, 당신은 실제로 당신의 테이블에서 당신의 시계열을 분석 할 수 있습니다

그리고 그것은 당신의 데이터가 어디서 온 것인지를 상기시켜줍니다 그리고 이것은 실제로 우리의 접근 방식을 구축 한 방법입니다 이것을 해결하기 위해 이전에 사용한 것과 동일한 BigQuery입니다 모든 원시 데이터를 포함합니다

그리고 BigQuery의 성능을 [부적절]합니다 BigQuery 자체에서 데이터 측정 항목을 수집합니다 그래서 우리는 실제로 다른 클러스터를 회전시킬 필요가 없습니다 [INAUDIBLE] 클러스터, 실제로 다른 [INAUDIBLE] 클러스터 우리를 위해 무거운 짐을 다하십시오 BigQuery를 사용하여 모든 검색어를 수집합니다

SQL [INAUDIBLE] ,, 빅 테이블에 저장, [INAUDIBLE] 분석에 사용하십시오 그리고 당신은 이것을 [무관심] 한 후에, 당신은 실제로 당신의 [무관심] 단일 접근법 또는 몇 가지 접근법을 사용하는 시계열에서 예를 들어, 실제로 [무관심]을 할 수 있습니다 표준 편차 또는 Facebook [INAUDIBLE] ,,에서 라이브러리를 사용할 수 있습니다

실제로 시계열 분석입니다 페이스 북에서 파이썬으로 그리고 당신이 사용할 수있는 다른 라이브러리 이런 종류의 [INAUDIBLE] 분석을 사용함으로써, 당신은 실제로 당신의 특정 테이블, 또는 테이블의 특정 열이 잘못 작동합니다 실제로 이것이 모든 유스 케이스를 다루지는 않지만, 실제로 대부분의 유스 케이스를 커버 할 것입니다

우리가 만나는 곳 그리고 실제로 우리를 많이 돕고 있습니다 우리가 이미 볼 수있는 영향 기본적으로 데이터가 가능한 한 빨리 잘못되었음을 알 수 있습니다 이전에는 데이터가 잘못 되었다면 어떤 일이 발생했는지 알 수 없습니다 우리는 데이터가 이해 관계자로부터 잘못되었음을 압니다

이해 관계자는 책상 봇을보고 BI 도구를보고, 그들은 이메일을 보았고 숫자가 분명히 틀렸다는 것을 알았습니다 또는 번호가 전혀 표시되지 않습니다 그리고 그들은 우리 팀에게 이봐, 너에게 무언가가 일어나고 있다면 시스템으로 무엇인가를 확인하십시오 그래서 이런 종류의 시스템을 구현함으로써, 우리는 실제로 데이터가 가능한 한 빨리 잘못되었다는 것을 알고 있습니다 실제로 하위 사용자에게 데이터를 알릴 수 있습니다

데이터 문제는 어디에서 발생합니까? 아니면 거짓 경보인지, 또는 뭔가 일어나고있다 그리고 그것은 당신의 팀을위한 당신의 신뢰성을 만들 것입니다 사람들은 실제로 오는 응답을 신뢰할 수 있기 때문에 이전 팀보다 훨씬 잘 팀에서 그들은 보고서를 얻을 수 있지만 이 번호가 맞는지 아닌지를 신뢰하십시오 따라서 이것이 우리가 사용하는 사례 중 하나입니다

[부적격] in Traveloka 그리고 우리가 공유 할 다음 일은, 우리가이 모든 것을 구현할 때 얻은 교훈입니다 첫 번째는 이것입니다 BigQuery는 뛰어난 성능을 제공합니다 특히 원시 데이터로 SQL 분석

대부분의 사용 사례, 특히 대부분의 BI 사용 사례의 경우, 실제로는 SQL을 사용하여 해결할 수 있습니다 주로 그룹 별, 조인, 필터 등을 사용합니다 데이터 흐름 및 구성 요소의 자동 크기 조정 기능 Pub / Sub, BigQuery, Kubernetes, 그것은 우리에게 정말 유용합니다 당신은 큰 기간에 대해 걱정할 필요가 없습니다 네 연말 – 당신은 당신의 [INAUDIBLE]을 확장해야합니다

그것은 과거의 모든 것입니다 Pub / Sub와 같은 Google 클라우드의 [INAUDIBLE] Kubernetes 및 기술 자체 모든 기본 제공 [INAUDIBLE] 스택 드라이버 따라서 모든 측정 항목이 자동으로 유입됩니다 구현에 대해 걱정할 필요가 없습니다 자신의 [INAUDIBLE] 시스템 또는 자신의 로깅, [INAUDIBLE]을 다른 시스템에 사용합니다

그들 모두는 당신을 위해 직접 사용할 수있게 될 것입니다 따라서 실제로 디버깅을 할 수 있습니다 귀하의 신청서에 뭔가가 일어나고있는 경우 BigQuery에서 CPU 요구, 쿼리를 모니터링 할 수 있습니다 어떤 일이 느리게 진행되고 다른 일이 발생하면 그리고 나는 이것이 내가 어느 정도 전부라고 생각합니다

오늘 당신과 함께 나누고 싶습니다 그리고 저는 그것을 Gaurav에게 돌려 줄 것입니다 감사 GAURAV ANAND : 좋습니다 [박수 갈채] [음악 재생]

Rethinking Big Data Analytics with Google Cloud (Cloud Next ’18)

[음악 재생] 신사 숙녀 여러분, 안녕하세요 Sudhir Hasbe를 환영합니다

[박수 갈채] 안녕하세요, 안녕하세요 나는 Surhir Hasbe입니다 저는 데이터 분석 및 GCP 제품 책임자입니다 이 세션에 참석해 주셔서 감사합니다 나는 그것이 점심 식사 후 또는 점심 시간 전후 인 것을 안다

그래서 나는이 세션에서 당신을 너무 지루하게하지 않기를 바랍니다 우리는 계속 흥미로워 질 것입니다 세션을 시작해 봅시다 중요한 것은 대부분의 사람들입니다 관객의 외부는 검색 창에서 Google을 알고 있습니다

그리고 사람들이 Google과 처음 접하는 경험은, 검색 창으로 이동하고, 용어를 검색하고, 흥미로운 결과가 나옵니다 당신이 찾고있는 사실, 뒤에서, 언제 당신은 수색 상자에 아무거나를 찾는다, 인프라가 많이 있습니다 이미 많은 분석이 진행 중입니다 우리는 가장 큰 조직 중 하나입니다 엄청난 양의 데이터를 수집하고, 그것을 분석하고 그것을 사용합니다

그래도 검색뿐이 아닙니다 보시다시피, 우리는 7 가지 이상의 제품을 가지고 있습니다 오늘 기조 연설에서 드라이브로는 여덟 번째 드라이브가있을 수 있습니다 80 억 명의 사용자, 월간 활성 사용자, 앞으로 여기서 핵심은 우리의 DNA에 큰 데이터가 있다는 것입니다

우리는 데이터를 활용합니다 우리는 기계 학습을 활용하여 이러한 모든 제품에 놀라운 경험을 제공합니다 우리가하는 일은 내부 기술을 통해서입니다 우리가 만든 것 Dremel에 대해 생각한다면, 우리는 모든 분석을 위해 내부적으로 사용합니다

BigQuery는 실제로 엔터프라이즈 버전입니다 기술의 그 동일한 조각의 기업에서 사용할 수 있습니다 여기에서 우리가하는 일은 기술을 가져 오는 것입니다 우리가 수년에 걸쳐 투자하고 클라우드 고객에게 제공됩니다 생각해 보면 전 세계의 데이터가 커지고 있습니다

2025 년에는 163 제타 바이트가 될 것입니다 조직 내에서 데이터 세트가 증가함에 따라, 인프라가 필요합니다 당신은 실제로 분석 능력을 갖기를 원합니다 그 양의 데이터를 처리하십시오 데이터 포인트 중 하나 – 고객 중 한 명 정말로, 그들이 데이터를 시작했을 때 컬렉션 및 스트리밍 분석 양방향 항공, 그들은 하루에 5 천만 개의 이벤트를 수집하는 데 사용되었습니다

이제 그들은 18 개월 내에 최대 50 억입니다 따라서 어떤 일이 발생하는지는 데이터에서 가치를보기 시작하면서, 당신은 점점 더 많이 수집 할 것입니다 하지만 능력과 인프라를 원한다 필요에 따라 실제로 원활하게 확장 할 수 있습니다 조직 내에서 마찬가지로 조사가 완료되었습니다

MIT 조사는 기계 학습과 인공 지능 (AI) 사용중인 고객 수, 진행 상황 중요한 것은 조직 실제로 AI를 사용하는 사람들은 2 배 빠르게 할 수 있습니다 의사 결정, 5 배 빠른 결정 2 배 더 많은 데이터 중심 의사 결정을 할 수 있습니다 조직 내에서 그리고 또한 그들이 내리는 결정에 대해 3 배 빠른 실행 전반적으로 생각하면 기계 학습, AI는 모든 조직에서 매우 중요합니다

그리고 핵심 포인트는, 조직이 분석을 잘하지 못하는 경우, AI에서는 결코 위대한 존재가 될 수 없습니다 그래서 첫 번째, 기초 – 분석 데이터를 기반으로해야합니다 어떻게 데이터를 처리합니까? 어떻게 데이터를 분석합니까? 그리고 나서 어떻게 진행되는지 생각할 수 있습니다 해당 데이터를 바탕으로 기계 학습을 수행하고 활용할 수 있습니다 차별화를위한 AI

비록 숫자를 보면, 1 % 세계의 구조화되지 않은 데이터는 실제로 오늘날 분석 및 분석에 사용됩니다 오늘 분석 된 구조화 된 데이터의 50 % 미만 조직 내에서 그래서 우리의 접근 방식은 무엇입니까? Google을 보면, 우리는 무엇을하고 있습니까? 네 가지 핵심 요소가 있습니다 하나는 인프라 또는 솔루션에 초점을 맞추고 있습니다 당신이 나가서 분석에 집중할 수있게 해줍니다

하부 구조 우리는 그것에 대해 더 이야기 할 것입니다 두 번째는 포괄적 인 솔루션을 개발하는 것입니다 따라서 우리는 고객이 솔루션의 전체 포트폴리오를 필요로한다는 것을 알고 있습니다 계속해서 분석을해라

우리는 엔드 투 엔드 (end-to-end), 모든 구성 요소 너는 필요해 종단 간 ML 수명주기를 살펴보고이를 빠르게 살펴 보겠습니다 그리고 나서 혁신적이고 개방적입니다 열린 구름이되어 오픈 소스 소프트웨어 옵션 제공 작업 부하를 당신과 같은 방식으로 실행할 수 있습니다 달리기를 원한다면 우리에게 매우 중요합니다

우리에게는 우리가하는 많은 투자가 있습니다 우리가 그것을 장려하는지 확인합니다 분석적 수단에 초점을 맞추는 것에 대해 이야기 해 봅시다 인프라가 아닙니다 네가 우리에 관해 생각한다면 – 분석을한다면 Google의 클라우드 스케일 인 BigQuery [INAUDIBLE] 제품을 사용하면 몇 초 안에 시작할 수 있습니다

기본적으로 데이터 세트를 가져올 수 있습니다 즉시 분석을 시작하십시오 핵심은 서버리스 제품을 사용하지 않는 경우입니다 BigQuery 또는 Dataflow처럼 모니터링에 대해 걱정해야한다 실적에 대해 걱정해야한다

튜닝, 인프라 얼마나 많은 노드가 필요합니까? 어떤 종류의 클러스터 크기가 필요합니까? 퍼포먼스 튜닝은 어떻게합니까? 그게 문제가되는 건 아니야 serverless에 집중했다 이것이 우리의 초점입니다 인프라를 제공하고자합니다

자동 저울링, 분석 능력 제공, 너는 무엇이든에 관하여 고민 할 필요 없다 데이터를 가져 와서 분석을 시작하십시오 두 번째 요점에 대해 이야기 해 봅시다 엔드 – 투 – 엔드 종합 솔루션입니다 중요한 점은 분석에 대해 생각하면, 그것은 실제로 섭취로 시작됩니다

데이터를 얻으려면 어떻게해야합니까? 첫 번째 단계는 스트리밍 데이터를 얻는 방법입니다 방대한 양의 스트리밍을 사용하는 고객이 많습니다 그들에게 오는 사건들 그리고이 인프라를 어떻게 완벽하게 확장합니까? 그래서 Cloud Pub / Sub는 우리의 솔루션입니다 초당 수백만 개의 이벤트를 수행 할 수 있습니다

그 (것)들에 당신은 수집하고 분석을 할 수있다 마찬가지로 많은 고객 예를 들어, 애드워즈 및 DoubleClick과 그 모든 기능, 광고 목적으로 우리가 한 일은 우리가 고객을 위해 정말 쉽게 만들었습니다 누가 마케팅 분석을 위해 Google Cloud를 사용하고 싶은지 몇 번의 클릭만으로 문자 그대로 애드워즈 데이터, DoubleClick 데이터, 분석을 위해 BigQuery에 추가합니다 마찬가지로, IoT는 매우 중요합니다

어제 아침 놀라운 소식을 봤어 HTPU 및 Cloud IoT 코어를 사용합니다 우리는 Cloud IoT 코스를 가지고 있습니다 IoT 데이터 수집에 관심이 있다면, 당신은 그것을 완벽하게 수집 할 수 있고 실제로 거기에서 전체 플랫폼을 활용하십시오 그래서 우리는 섭취를 다루었습니다

안정적인 데이터 처리 및 스트리밍에 대해 생각한다면 우리는 고객에게 다양한 옵션을 제공합니다 하나는 Beam을 사용한 데이터 흐름입니다 그래서 Beam은 당신을위한 오픈 소스 SDK입니다 배치 및 스트리밍 파이프 라인 구축 동일한 프로그래밍 모델로 데이터 흐름을 사용하면 대규모 데이터 처리를 자동으로 구축 할 수 있습니다 파이프 라인

개발자에게 아주 좋습니다 그러나 우리는 또한 많은 고객들이 Spark 및 Hadoop으로 자체 기능을 보유하고 있습니다 그리고 그들은 스파크를 좋아합니다 이전에 Spark를 사용 했었습니다 그래서 저는 스파크도 좋아합니다

그래서 우리는 Hadoop과 Spark 환경을 관리했습니다 데이터 블록으로 그리고 나서 분석가들을 위해 – 우리는 알고 있습니다 데이터에 익숙한 많은 분석가 커뮤니티가 또한 원시 데이터 논쟁을 원한다 또한 데이터 준비를 원한다

데이터가 있기 전에 그들이 가장 잘 알도록 그들이 원하는 분석을 사용했다 데이터를 처리하고 정리합니다 그래서 우리는 이러한 고객을 위해 Cloud Dataprep을 보유하고 있습니다 그 후에 데이터가 준비되면, 당신은 규모에 대한 분석을 원합니다 데이터 호수를 만들고 싶습니다

실제로 GCS, Google Cloud Storage, 계속해서 모든 구조화되고 체계화되지 않은 데이터를 저장하고, 그런 다음 처리하십시오 또는 BigQuery와 함께 Cloud Scale 데이터웨어 하우스를 사용할 수 있습니다 이 모든 데이터를 페타 바이트 단위로 저장하려면, 그 위에 분석을하십시오 일단 분석 플랫폼이 준비되면 고급 분석을 위해 ML 엔진, TensorFlow를 사용할 수 있습니다 시각화를 위해 Data Studio를 사용할 수 있습니다

우리는 몇 가지 새로운 개선 사항을 보게 될 것입니다 그것들을 이용할 수있게 만들고 있습니다 또한 Sheets, 많은 고객, 특히 매일 시트를 사용하는 G Suite 고객 – 우리는 BigQuery 및 기타 장소에서 데이터를 쉽게 만들 수 있습니다 오늘 이용 가능합니다 그래서 거기에 있습니다

ML 수명주기에 대해 생각한다면 – 전체 라이프 사이클이 있습니다 ML 라이프 사이클은 섭취에서 시작됩니다 당신은 탐험해야합니다 준비를해야합니다 당신은 전처리를해야합니다

그런 다음 교육 과정, 하이퍼 튜닝, 테스트, 및 예측 일어날 수있는 전체 라이프 사이클이 있습니다 우리가 제공하는 것은 전체 제품군입니다 당신이 할 수있는 제품의 그 모든 프로세스 하지만 우리가하고있는 일은 매우 쉽습니다

당신이 기계 학습을 할 수 있도록 그리고 당신은 몇몇 발표를 들었습니다 우리는 오늘 일찍했다 그리고 좀 더 자세하게 설명하겠습니다 실제로, 우리는 당신을위한 놀라운 데모를 가지고 있습니다

세션에서 나중에 고객 모멘텀 관점에서 볼 때, 그것은 우리의 포트폴리오입니다 우리는 데이터 분석에서 엄청난 성장을보고 있습니다 고객과 함께하십시오 업계 전체의 전체 포트폴리오를 사용하는 많은 고객 금융 서비스에서의 수직 소매업, 게임에서 미디어 엔터테인먼트, 모든면에서 제조

전반적으로 우리는 엄청난 성장을보고 있습니다 사용중인 데이터 분석 기능 다른 조직에서 그리고 다른 크기의 데이터 세트에도 적용됩니다 오늘 일찍 들었습니까? [부적절한] 대규모 Hadoop 배포를 옮기는 것에 대해 이야기했습니다 나는 그것이 300 페타 바이트의 데이터를 언급했다고 생각한다

GCP로 이동하고 해당 규모의 클러스터를 실행합니다 그리고 하이라이트는 우리 네트워크와 우리의 능력과 같았습니다 네트워킹 스택과 함께 제공되는 당신이 스토리지 분리 정말 쉽게 관리 할 수있는 컴퓨팅 전체 환경, 비용 및 모든 것을 줄일 수 있습니다 우리는 엄청난 성장을보고 있습니다 트위터, 야후 스, 뿐만 아니라 많은 기업 고객 플랫폼을 사용하고 있습니다

그래서 저와 함께 Aireen Omar를 초대하겠습니다 AirAsia의 부회장, 무대에서 이것에 대해 더 많이 말하기 [박수 갈채] 안녕하세요, 아이린, 잘 지냈니? AIREEN OMAR : 안녕하세요, 감사합니다 네가 빨리 소개 할 수 있니? 당신, 당신의 역할에 대해 이야기하고, AirAsia에 대해 좀 더 알려주십시오 AIREEN OMAR : 물론입니다

AirAsia는 아시아 최대의 저비용 항공사입니다 그래서 우리는 2001 년에 다시 시작했습니다 우리는 단지 2 대의 항공기를 가지고 있습니다 우리는 약 2 만명의 승객을 태웠다 그리고 지금, 16 년 후 우리는 230 대 이상의 항공기를 보유하게되었습니다

와우 와우 AIREEN OMAR : 그리고 수년 동안, 우리는 5 억 명이 넘는 승객을 태웠다 올해는 약 1 천 9 백만 명의 승객을 찾고 있습니다 우리가 1 년에 들고 다니는 것

그래서 우리는 매우 빠르게 성장했습니다 우리는 동남 아시아에 기지를두고 있습니다 동남 아시아, 아세안은 우리의 뒷마당입니다 그리고 왜 우리가 시장을 구축하는데 집중했는지 6 억이 넘기 때문에 인구는 중국과 인도 다음으로 세 번째로 많습니다 그리고 그것은 매우 젊은 인구 기반을 가지고 있습니다

평균 나이는 28 세, 29 세입니다 인구의 50 %가 30 세 미만입니다 70 %는 40 세 이하입니다 인구의 50 %가 도시 지역에 살고 있습니다 그리고 그것은 가장 빠르게 성장하는 것 중 하나입니다

세계 GDP와 급성장하는 중간 소득 중 하나 세계의 수입자 SS의 저가 항공사가 환상적인 기회를 누릴 수있는 곳입니다 인구와 함께 성장할 수 있습니다 그리고 당신이 지형 경관을 본다면 동남 아시아의 경우 물로 둘러싸여 있습니다 그리고 그것은 우리가 배울 수있는 많은 기회가 있다고 생각하는 곳입니다

인구에 대해, 더 성장하고 차별화 된 비즈니스 기회 항공사를 운영하는 것에서 SUDHIR HASBE : 엄청난 성장 2 비행기에서 230 비행기로 2 ~ 3 년 안에, 지금 AIREEN OMAR : 네 SUDHIR HASBE : 직면 한 주요 도전 과제는 무엇입니까? 그런 다음 무엇에 대해 자세히 알려주십시오 비즈니스 과제였습니다

그리고 그 중 일부에 Google Cloud를 어떻게 사용하고 있습니까? AIREEN OMAR : 핵심 과제는 우리는 여러 나라에서 사업을 운영하고 있기 때문에 말레이시아, 태국, 인도네시아, 필리핀, 최근 인도와 일본에서도 그리고 우리는 모든 사람으로부터 데이터를 얻는 방법을 찾고 있습니다 이상, 다양한 시스템에서, 등등 그래서 우리는 예약 시스템에서 오는 데이터를 가지고 있습니다 우리 예약의 80 %가 인터넷을 통해 간다 다른 항공사와 달리 모바일 앱은 그것은 다른 방향입니다

그리고 우리 항공기에서 오는 데이터가 있습니다 그리고 우리 엔진에서 그리고 우리 항공기를 가장 효율적으로 사용합니다 우리는 가동률을 극대화합니다 우리가 사용하는 8020은 하루에 14 시간 비행합니다

그리고 우리는 25 분 안에 돌아 서서 우리가 들어갈 수 있습니다 우리가 할 수있는만큼 많은 분야 그룹 전체를 보면 출발 항공편에 대해서는 약 1,500 일이 소요됩니다 그리고 우리는 약 300,000 명의 승객을보고 있습니다 하루에

따라서 많은 데이터가 제공됩니다 그리고 중요한 것은 효율적인 운영을하고 있으며, 당신은 그것이 정확해야합니다 그리고 당신은 확장 가능하고 정확한 무언가가 필요합니다 우리가 이해할 수있게 이 데이터가 더 우수하고 게재에 더 집중할 수 있어야합니다 우리의 소비자는 더 낫다

따라서 우리가 필요로하는 데이터는 실제로 더 많습니다 우리는 소비자의 경험과 수익을 어떻게 개선 할 것인가? 우리가 그들에게서 얻을 수있는 적절한 종류의 제품 및 제품을 제공 할 수있다 그들을 위해? 또한이 데이터를 사용하여 사업 운영의 전반적인 운영 효율성 생산성을 높이기 위해 가장 효율적인 방법으로 집중할 수있다 통찰력을 바라 보는 우리의 노력 우리의 운영뿐만 아니라 행동 우리는 더 나은 제품을 제공 할 수 있도록 소비자의 헌금품 등? 알았어 BigQuery와 Data Studio를 사용하는 것을 알고 있습니다

Google Cloud의 다른 모든 도구가 포함됩니다 Google과 공유 할 수있는 주요 측정 항목이 있습니까? 당신은 정말로 성장과 저축을 보았습니다 청중과 함께 할 일이 있습니까? AIREEN OMAR : 네 그래서 나는 또한 디지털 변환을 담당하고 있습니다 따라서 핵심은 우리가이 모든 데이터를 통합하는 것입니다

다양한 출처에서 데이터를 결합 할 수 있습니다 의미있는 알고리즘을 만들 수 있습니다 우리가 발견 한 것, 우리가 아마 우리가 이미 결합한 데이터의 20 % 미만, 수익 또는 소비자의 전환율 배가되었습니다 오, 와우 AIREEN OMAR : 전환율 1 %마다 실제로 약 5000 만 달러의 수익을 올렸다

기타 등등 그리고 우리가 본 것도 있습니다 운영 측면에서 더 잘 예측할 수 있으며, 유지 보수면에서 보면, 우리는 지상의 항공기 수를 줄였습니다 그리고 그것은 우리 승객들에게 더 나은 경험이라는 것을 의미합니다 기타 등등

그리고 우리는 비용이 아마도 적어도 10 % 정도 줄어 들었습니다 그리고 그것은 실제로 우리 작전에서 꽤 큰 것입니다 항공사 운영 SUDHIR HASBE : 놀랍습니다 특히 당신이 말한대로, 운영 비용이 많이 든다

그래서 10 % 절약, 전환율 두 배, 데이터의 20 % 만 사용하고 있습니다 AIREEN OMAR : 네 아마도 그보다 조금 작을 것입니다 우리는 불과 몇 년 전에 시작했기 때문에 그리고 할 일이 많아서 매우 중요합니다

BigQuery의 모든 요소를 ​​간소화 할 수 있습니다 그리고이 도구는 우리는 확장 성이 있으며 더 빨리 일할 수 있고, 소비자의 요구 사항에보다 중점을두고, 기타 등등 네 멋지네요 고맙습니다

고마워 AIREEN OMAR : 고마워 이것은 멋진 결과입니다 그리고 나는 우리가 함께 할 수있는 것을 고대하고있다 데이터의 20 % ~ 30 %, 100 % 당신이 말했듯이 그것을 분석하십시오

AIREEN OMAR : 고마워 고마워요, 아이린 AIREEN OMAR : 고마워 [박수 갈채] SUDHIR HASBE : AirAsia에 관한 것입니다 4 가지 핵심 영역이 있습니다

우리가 고객과 이야기 할 때 우리가 정상적으로 집중하는 다른 솔루션 포트폴리오를 사용할 때 우리가 가지고있는 하나는 물론 데이터웨어 하우스를 현대화하는 것입니다 그리고 우리는 그것에 대해 더 이야기 할 것입니다 매우 중요한 스트리밍 데이터 분석 엄청난 양의 이벤트 데이터를 수집하는 조직 다른 곳에서 – 클릭 스트림을 IoT 디바이스로 – 스트리밍 데이터 및 스트리밍 데이터 처리 조직에서 매우 중요합니다 오픈 소스 소프트웨어를 운영하고 물론, 시각적 인 방식으로 데이터 시각화 및 사용 조직에 중요합니다

BigQuery에 대해 잠시 이야기 해 보겠습니다 BigQuery는 실제로 클라우드 규모의 데이터웨어 하우스입니다 그것은 기본적으로 내장 된 것입니다 Dremel 종이를 읽지 않았다면, 당신은 그것을 조사해야합니다 처음부터 새로 구축 된 데이터웨어 하우스입니다

클라우드 규모입니다 몇 초 내에 페타 바이트 규모의 쿼리를 수행 할 수 있습니다 표준 SQL을 지원합니다 실제로 비용없이 시작할 수 있습니다 사용할 수있는 무료 티어가 있습니다

실제로 BigQuery를 사용하는 사람이 얼마나됩니까? 큰 많은 사람들이 그렇게하지 않기 때문에 내 추천 당신은 그것을 조사 해봐야 할 것입니다 몇 분이 걸릴거야 이동하여 실제로 데이터를 가져 와서 분석을 시작하십시오 내가 말했듯이, 완전히 서버리스

인프라에 대해 걱정할 필요가 없습니다 데이터를 가져 와서 분석을 시작하십시오 그것이 중요한 것입니다 그것은 매우 안전합니다 우리는 안심하고 데이터를 암호화합니다

그리고 그것은 매우 유용합니다 실시간 스트리밍은 BigQuery에서 기본입니다 수십만 건의 이벤트를 스트리밍 할 수 있습니다 직접 BigQuery에 삽입 한 다음 실제로 분석합니다 동시에

그래서 그것은 매우 비판적입니다 오늘 아침에 들었던 발표 중 하나 Rajen이 BigQuery ML에 대해 이야기했습니다 이것의 핵심은 – 우리가 듣기 시작한 두 가지 큰 도전 우리 고객이 사용하기에 좋았습니다 BigQuery – 엄청난 양의 데이터가 모든 데이터를 가져옵니다 그러나 어떤 기계 학습도하고 싶다면, 그 데이터를 이동해야합니다

그리고 몇 가지 숫자를 본다면, 데이터 과학자들이 80 %의 데이터 작성과 같은 시간을 보내고, 데이터를 이동하고 모델 테스트 등 모든 작업을 수행합니다 그래서 우리 일은, 당신은 어떻게 그 시간을 단축합니까? 기계 학습을 가능하게함으로써 데이터웨어 하우스 및 자료에서 데이터를 기계 학습으로 이동 엔진? 왜 기계 학습 엔진을 데이터에 더 가깝게 옮길 수 없습니까? 그래서 그것이 그 전제입니다 두 번째로 스킬 세트 갭이었다 업계에서는 PSG 데이터가 그다지 많지 않습니다 과학자들은 고급 기계 학습을해야합니다

그래서 우리 일은, 우리가 활용할 수 있을까요? 잠재 고객이 이미 가지고있는 스킬 (SQL) 그런 다음 기계 학습을 SQL에서 사용할 수있게 만드시겠습니까? 이것이 바로 우리가 시도한 것입니다 BigQuery ML은 SQL 기반 기계 학습에 불과합니다 BigQuery에서 모델 생성 BigQuery를 사용하는 경우 이미 SQL을 사용하여 데이터를 분석합니다 쿼리 준비가되었습니다

귀하는 귀하의 데이터를 이해합니다 그 위에 두 줄의 코드를 작성하십시오 원하는 모델 유형을 모델로 만듭니다 원하는 경우 모델을 자동 감지 할 수 있습니다 그런 다음 입력 내용과 예측하려는 내용을 입력하십시오

그리고 예측을 위해서, 당신은 단지 MLPredict를 선택하고, 예측을 내릴 수 있습니다 그래서 그것은 기계를 만드는 것이 얼마나 쉬운가하는 것입니다 BigQuery에서 학습하십시오 그 중 하나는, 오늘 일찍 보았다면, 그들이 이야기 한 20 세기 폭스였습니다

잠재 고객이 더 많은 것을 예측할 수 있었던 방법에 대해 영화로 돌아와 새로운 영화로 돌아올 가능성이있다 그들이 발사하고 있다고 Geotab에서 지금 다른 예를 들어보고 싶습니다 그럼 내가 왜 초대하지 않니? 닐, 제발 무대에 올 수 있니? Geotab이하는 일을 이해하도록 도와주십시오 왔다

[박수 갈채] 고마워, 닐 NEIL CAWSE : 여기 있습니다 자 이제 너 자신에 대한 간단한 소개를 할 수 있겠 니? Geotab에 대해 좀 더 알려주십시오 NEIL CAWSE : 물론입니다 Geotab은 차량 텔레매틱스 분야의 글로벌 리더입니다

많은 사람들이 차량 텔레매틱스를 묻습니다 우리는 차량에서 데이터를 수집하는 작은 장치를 가지고 있습니다 우리는 120 만대의 차량을 보유하고 있습니다 우리는 모든 데이터를 수집 한 다음 거대한 규모로 그것을 분석하라 그래서 우리는 차량이 어디에 있는지에 대한 정보를 수집합니다

얼마나 빨리 움직이는 지, 엔진이 어떻게 작동하는지, 연료 소비 정보 당신이 브레이크를 밟았는지 여부와 상관없이, 깊은 구멍을 뚫고 지나간다 그래서 기회를 상상할 수 있습니다 우리가 그 데이터를 분석해야한다는 것, 제품을 사용하여 고객에게 결과 전달 BigQuery와 기계 학습은 엄청나게 큽니다 그리고 그것이 실제로 우리가하는 일입니다 SUDHIR HASBE : 멋지네

현재 존재하는 것에 대해 더 많이 나눌 수 있습니까? 하부 구조? BigQuery ML에 들어가기 전에 어떤 기술이 필요합니까? Google Cloud에서 사용하십니까? 사업은 어떻게합니까? 그리고 BigQuery ML로 전환 한 다음 논의 할 수 있습니다 NEIL CAWSE : 물론입니다 우리는 Google과의 관계를 생각합니다 우리의 경쟁 우위 우리는 데이터를 처리하는 GC에 500 개 이상의 서버가 있습니다

조직에서 생성하는 모든 데이터 조각 실제로 Google BigQuery로 푸시됩니다 Google은 Google ML 및 TensorFlow를 대규모로 사용합니다 우리는 Dataproc을 사용합니다 우리는 Kubernetes와 같은 제품을 사용합니다 그리고 구글이 발표하는 모든 것, 우리는 매우 예리하게 보았습니다

왜냐하면 실제로, 이점은 – 그리고 그것은 과소 평가 된 문제입니다 – 먼저 데이터를 수집하기 시작할 때, 당신은 한 곳에서 그것을 가지고 있습니다 다음 포인트는 ML을 활용하고 싶다면, 당신은 그 ML을 데이터가있는 곳에 가까이 있어야합니다 그렇지 않으면, 당신은 당신의 인생을 단지 데이터를 움직이는데 소비합니다 그렇게 훌륭한 관계가되었습니다 훌륭한 파트너십

하디 하세 : 그리고 네가 알기 론 우리가 알파를 발표 한 이후 BigQuery ML에 참여했습니다 그래서 데모가 있다는 것도 압니다 그럼 니가 뭘하는지 말해주지 그래 데모에 표시하고 우리는 어떤 고객층을 목표로 삼고 그 다음 데모를 보여줄 수 있습니까? NEIL CAWSE : 물론, 그렇게하겠습니다 종류의 수준에 다만, 우리는, 아마, 가장 포괄적이고 가장 큰 차량의 큰 데이터 세트 세상에

이전에 언급했듯이이 데이터 세트는 매우 풍부합니다 주변 공기 온도, 공기 압력을 알고 있습니다 위험한 교차로인지 알 수 있습니다 우리는 엄청난 양의 데이터를 알고 있습니다 그래서 내가 갈 물건 중 하나 여기에 오늘 우리가 가진 모습을 보여주세요

표준 제품에 추가 기능, 피드 관리 제품이지만이 제품은 똑똑한 도시 주변 그리고 우리가 할 일은 우리가 안전을위한 결과를 예측하기 위해 ML을 사용할 것입니다 날씨에 따라 그래서 나는 그것에 도달 할 것이고, 나는 그 모든 것이 어떻게 잘 맞는지 보여줄 것이다 어떻게 작동하는지

잘됐다, 닐 그리고 당신이 그것에 관해 준비하고있는 동안, 중요한 건 우리가 할 일이 또있다 GIS 알파입니다 따라서 BigQuery는 기본적으로 지원합니다 GIS 데이터 유형과 같은 GIS 기능은, 데이터웨어 하우스 내에서 우리는 조금 더 나중에 그것에 대해서 이야기 할 것입니다

3:15에 세부 세션이 있습니다 우리가 얘기하려고하는 것이지만 나는 그것을 닐에게 넘겨 줄 것이다 데모에 대해 더 많이 말하기 NEIL CAWSE : OK, super 그래서 우리는 데모를 얻을 것입니다

좋아, 우린 끝이야 따라서 여기에서 볼 수있는 것은 제품 내부의 모습입니다 앞서 언급했듯이 이것은 추가 기능입니다 이것은 수백 가지 애드 인 중 하나입니다 제품에서 사용할 수 있습니다

이것은 우리가 레버리지를 도입하는 곳 중 하나입니다 Google ML 및 Google GIS – 여기에 발표 된 BigQuery의 GIS 기능 우리가 방금 말했던 정말 재미있는 데이터를 얻기 위해서입니다 그리고 이것은 단지 긁기 시작했습니다 우리가 이걸 가지고 갈 수있는 곳의 표면, 너는 이해할 수있다 왼쪽 편에서 보시는 것은 무엇입니까? 시카고의 위험한 교차로를 볼 수 있습니다

그래서 지난 두 주 동안 본질적으로 핫스팟은 더 위험한 곳 이제 우리가 어떻게 말할 수 있을까요? 1 년에 약 10 만 건의 사고가 있습니다 우리의 수영장에서 일어나고 있습니다 우리는 사람들이 브레이크를 밟고있는 곳을 알고 있습니다

그래서 우리는 그 데이터를 집계합니다 그러면 우리는 이러한 사고를 가진 사람들이 어디에 있는지 볼 수 있습니다 그리고 사람들은 브레이크가 걸리거나 위험한 차선을 밟고 있습니다 변화, 그리고 swerving, 그리고 이것 저것? 그래서 빅 데이터 팀 (Big Data team)이 있습니다 오늘 여기 앉아서 그들이 한 일은 그들이 데이터를 가져 갔다는 것입니다

그런 다음 그들은 말했습니다 공개 데이터 세트를 사용하여 날씨 데이터를 중심으로 Google BigQuery에서 사용할 수있었습니다 그래서 우리는 특정 날짜와 시간을 알고 있습니다 특정 위치의 경우, 무엇입니까? 그 위치의 날씨 그리고 그들은 250 개의 다른 통계를 사용했습니다

분석하고 계산할 수있는 방법에 대해 날씨가 안전에 영향을 줍니까? 그래서 그들은이 실험을했고, 나는 당신에게 그 결과를 보여줄 것입니다 그러니 온도를 내려서 얼어서 눈을 냅시다 이제 예측 분석을 실행 해 보겠습니다 그리고 우리가 보는 것은 실제로 정말로 흥미 롭습니다 위험한 일부 지역 전에는 여전히 위험하지만, 패턴의 큰 변화가있었습니다

그래서 우리는 사물이 현저하게 달라 보이는 것을보고 있습니다 그리고 우리가 지금 영역으로 확대하면, 이제 우리는 보게 될거야, 음, 어디 있니? 그 위험한 교차로? 여기에 하나의 작은 영역을 가져 가자 어디에서 확대 할 것인가? 그리고 우리는 그것이 눈이 많이 내리는 곳이라면, 우리는 학교 근처에 위험한 지역이있는 것 같습니다 그래서 여기서 일어나는 일을 고려할 수 있습니다 어쩌면 부모님이 길 건너에서 기다리고 계신지도 모르겠습니다

애들을 데리러 눈이오고있어 아이들도 길을 가로 질러 달리고있다 그래서 상황을 알 수 있습니다 아니면 자동차가 고장 났을 수도 있습니다 그러나 요점은 ML을 활용함으로써이 데이터를 활용함으로써, 도시는 이제 인프라가 무엇인지 볼 수 있습니다

도로가 순서대로 설정되는 방식을 바꿉니다 모두를 더 안전하게 지키기 위해서 그리고 이것은 실제로 단지 무엇이 표면을 긁어 내기 시작합니다 그런 레버리지를 활용하면 할 수 있습니다 Google BigQuery 및 Google ML과 같은 강력한 도구입니다

고마워, 닐 이것은 굉장합니다 고마워 네일 켈스 : 감사합니다 하스 하 수녀 : 핵심은 도시를 더 똑똑하게 만들고 그러한 영향을 끼칩니다

실제로 모델 생성 및 예측을 수행 할 수 있습니다 너무 빨리, 전체 솔루션을 신속하게 처리 할 것입니다 창조 NEIL CAWSE : 물론입니다 핵심 사항 중 하나는 우리 팀이 얼마나 빨리 이 일을 함께 할 수있었습니다

코딩이 필요 없습니다 Kubernetes가 없습니다 엄청난 양의 서버가 회전하지 않습니다 SUDHIR HASBE : Kubernetes도 좋아하지만 SQL 사람들이 있습니다 우리는 SQL을 좋아합니다

네 고맙습니다 고마워, 닐 고마워 [박수 갈채] 실제로 3시 15 분에 세션이 있습니다

Geotab 솔루션 인 GIS 기능에 대해 자세히 알아보십시오 GIS 데이터 유형과 모두에 관심이 있다면, 오늘은 나중에 좋은 세션이 될 것입니다 그 외에도 우리는 파트너와 협력했습니다 계속 나아가고 통합 된 BigQuery ML 기능에 대한 경험 예를 들어, Looker는 이러한 종단 간 워크 플로우를 가지고 있습니다 당신이 실제로 할 수있는 데이터 세트를 가져 와서 Looker보기에서보고, 그 안에 모델을 실제로 만들고, 예측을 시각화하고, 실제로 모델을 미세 조정하십시오

Looker UI 자체에서 가져온 것입니다 그래서 우리는 더 많은 파트너와 협력 할 것입니다 이러한 종류의 통합 기능을 제공하려면, 따라서이 도구를 사용하는 애널리스트 도구 내에서 실제로 이 도구에서 BigQuery ML을 활용하십시오 이 모델을 만드는 것이 정말 쉽습니다 모델 시각화, 그리고 모두

그래, 앞으로 이것을 고대하고 앞으로 나아갈 것이다 BigQuery ML의 몇 가지 사항 – 선형 및 로지스틱 회귀 모델이 있습니다 이미 사용할 수 있습니다 베타 버전을 사용할 수 있으므로 시도해보십시오 베타 모드에서 피드백을 좀 더주세요

다른 몇 가지 우리는 또한 클러스터링 베타가 올 것이라고 발표하고 있습니다 다시, 나는 세부 사항에 갈 수 없을 것이다 클러스터링, 주요 기능 이런 식으로 생각하면됩니다

BigQuery에서 페타 바이트 규모의 쿼리를 수행 할 수 있습니다 2 년 전과 같이 할 수 있습니다 이제 할 수 있습니다 그러나 파티셔닝 및 클러스터링을 사용하면, 당신은 비용을 크게 줄일 수 있습니다 쿼리가보다 효율적으로 진행될 것이기 때문입니다

우리는 데이터에만 액세스하며 클러스터 내에서 필요한 것은 무엇입니까? 또는 그 파티션 내에서 따라서 파티셔닝 및 클러스터링은 쿼리를보다 효율적으로 만들 수 있도록 도와줍니다 실제로 비용을 크게 줄입니다 온 디맨드 가격 모델을 사용하는 경우 요르단 티 가니 (Yordan Tigani)가 3시 15 분에 자세한 세션을했습니다 너라면 절대 가야 해

오늘이 주제에 관심이 있습니다 요르단이 그 세션에서하는 놀라운 데모가 있습니다 다시 말하지만, 우리가 바로 손을 댈 때, GIS 알파는 현재 사용할 수 있습니다 우리가 고객으로부터 듣고 있었던 시나리오 예를 들어, 우리는 모스 콘 센터에 있습니다 반경 2 마일 내에서 얼마나 많은 이 지역에서 택시를 이용할 수 있습니까? 당신이 그런 종류의 쿼리를 원한다면, 역사적으로, 그것은 정말로 어렵습니다

그리고 GIS 기능의 가용성으로 인해, 당신은 지금 쿼리 내에서 직접 그런 종류의 쿼리를 할 수 있습니다 우리는 몇 가지 새로운 커넥터를 사용할 예정입니다 우리가 시작하는 다른 중요한 것들 중 하나 새로운 BigQuery UI가 제공됩니다 능력은 더 좋아 보인다 한 번의 클릭으로 여러 번 경험할 수 있습니다

Data Studio로 이동하여 시각화 작업을 수행 할 수 있습니다 그런 다음 신속하게 살펴 보겠습니다 Google 스프레드 시트 통합에서 사용할 수 있습니다 그래서 이것은 하나의 예입니다 핵심 데이터 유형의 GIS 기능과 함께 쿼리 할 수있는 능력, 우리는 또한 우리가 시작하는 시각 도구를 가지고 있고, 계속해서 시각적으로 쿼리를 실행할 수 있습니다

지도상의 포인트를 살펴보십시오 왜냐하면 당신이 쿼리를하고 있다면, 반경 2 마일에있는 모든 지점을 보여줘 다른 점에 대해 어떻게 시각화 할 예정입니까? 정말 어렵습니다 그래서 우리는 Earth Engine과 함께 작업했습니다 Google의 팀과 시각 도구 그러면 해당 데이터를 시각화 할 수 있습니다

그러니 한번보세요 다시 말하지만 Sheets를 사용하면 많은 고객 분석을 위해 스프레드 시트를 사용하고 데이터를 시트로 이동합니다 이제 Google 스프레드 시트를 사용하면 BigQuery 용 커넥터를 사용할 수 있습니다 거기에서, 당신은 클릭 할 수 있습니다, BigQuery 인스턴스에 연결, 데이터를 가져 와서 분석을 시작하십시오 그것을 즉시 사용할 수 있습니다

그래서 다른 주요 기능 중 하나는 – 분석하기 쉽고 연결하기 쉽습니다 데이터 세트, 그리고 모두에 이것이 올해 큰 테마 중 하나입니다 BigQuery입니다 어떻게 만드나요? BigQuery에서 데이터를 쉽게 분석하고 분석 할 수 있습니까? 스트리밍 분석 – 이전에 살펴 보았습니다

우리는 전체 제품 포트폴리오를 보유하고 있습니다 수백만 가지 사건을 처리 할 수있는 것처럼 Pub / Sub를 사용하여 수집 할 수 있습니다 Dataflow를 사용하면 대규모 데이터 처리를 수행 할 수 있습니다 Cloud ML 또는 BigQuery를 사용하여 분석을 진행할 수 있습니다 그 데이터 위에

Brightcove가 가장 좋은 예 중 하나입니다 그들은 말 그대로 한 달에 8,500 년의 비디오를 수집합니다 하루에 70 억 건의 이벤트가 수집됩니다 그리고 그들은 Dataflow plus Pub / Sub를 사용합니다 이러한 동영상을 분석하고 활용할 수 있습니다

그것으로부터의 훌륭한 통찰력 그러나 Brightcove만이 아닙니다 Traveloka는 전자 상거래, 클릭 스트림 용으로 사용합니다 수집 및 분석하는 것입니다 큐빗 (Qubit)은 소매점에서 POS 분석을 수행합니다

게임 내 분석에서 Nintendo의 놀라운 시나리오, 게임 내에서의 소모품 사용 그리고 IoT 데이터를 위해 Nest를 선택합니다 따라서 어떤 종류의 대규모 이벤트 수집 처리 분석, 당신은 Pub / Sub, Dataflow를 사용할 수 있습니다 우리는 사실 그 공간에서 약간의 향상을 발표하고 있습니다 우리가하고있는 큰 일 중 하나는 파이썬입니다

파이썬은 GitHub에서 가장 빠르게 성장하는 언어 중 하나입니다 만약 당신이 모든 코멘트와 모든 것을 보았다면 우리는 Python 개발자들이 쉽게 사용할 수 있도록하고 싶었습니다 스트리밍을 할 수 있습니다 이제는 파이썬 스트리밍 기능을 활성화 할 것입니다

Beam을 사용하면 고객이 실제로 확장 가능한 데이터를 구축 할 수 있습니다 파이썬을 사용하는 파이프 라인 이제는 베타 버전이됩니다 따라서 고객은이를 사용할 수 있습니다 또한 데이터 흐름 스트리밍 및 셔플 기능도 제공됩니다

대규모 데이터 처리를 쉽게 도와줍니다 자동 크기 조정 기능이 함께 제공됩니다 이들에 대한 자세한 다이빙 세션이 있습니다 관심이 있는지 확인해야합니다 우리가 한 다른 일들 중 하나 우리는 실제로 실적을 향상시키고 우리 도서관은 Pub / Sub에 훨씬 더 효율적입니다

당신이 사용할 수있는 7 가지 언어로 하지만 그 외에도 많은 것을 가지고 있습니다 카프카를 사랑하는 고객 그들은 마치 카프카를 이미 사용하고 있습니다 GCP에서 계속 사용하고 싶습니다 내 옵션은 무엇입니까? 그래서 역사적으로, 당신은 그냥 가서 직접 배포 할 수 있습니다

그것을 관리하십시오 하지만 지금 우리가 가진 것은 Confluent와 함께, 우리는 관리되는 Kafka 솔루션을 사용할 수 있습니다 따라서 계속 진행하고 관리되는 서비스를 GCP에서 사용할 수 있습니다 그리고 그것은 우리의 전략 중 하나입니다 파트너와 협력하여 이러한 엔드 – 투 – 엔드 솔루션은 고객으로 활용할 수 있습니다

따라서 이미 사용할 수 있습니다 우리 전략의 핵심 인 다른 것들 중 하나 핵심 신념뿐만 아니라이 오픈 소스입니다 그리고 열린 구름 그리고 우리는 근본적으로 Istio 우리가 투자하고있는 Kubernetes에게 빅 데이터 세상에서 우리 편이라면, 우리는 오픈 소스 기술에 많은 투자를하고 있습니다

큰 데이터 로드맵처럼 보이는 경우, 지난 15 년 동안, 혁신의 양 구글이 주도 해왔다 Google Cloud 이전에는 종이로 사용할 수있었습니다 우리 업계가 모든 연구에서 배울 수 있도록 완료했다, Dremel 종이에서 모두, 모든 다른 논문과 마찬가지로 MapReduce를 GFS로 그리고 우리는 또한 이러한 제품을 많이 만들고 있습니다 이러한 기술을 기반으로합니다 우리가 투자 한 두 가지 핵심 제품 영역이 있습니다

오픈 소스 측 하나는 Dataproc입니다 Hadoop 및 Spark 기능을 관리하며, 작곡가뿐만 아니라 작곡가는 매혹적입니다 개인 알파 상태에서 1,000 명 이상의 고객이있었습니다

그것을 사용합니다 나는 당신이 그것을 어떻게 비공개로 유지하는지 모르겠다 그리고 나서 그들은 그것을 사용하는 많은 고객을 가지고 있습니다 그래서 방금 출발했습니다 Airflow, Apache Airflow, 그리고 그것은 단지 기본적으로 모든 고객이 그것을 사랑했습니다

그리고 우리는 그것을 엄청나게 채택하기 시작했습니다 그래서 우리는 지금 Composer를위한 GA를 발표하고 있습니다 이미 사용 가능합니다 당신은 그것을 사용할 수 있어야합니다 Dataproc 측면의 주요 개선 사항 – 자동 크기 조정 및 사용자 정의 패키지

맞춤 패키지를 사용하면 몇 번의 클릭만으로, 우리의 최상위 아파치 프로젝트를 고른다 이제 Dataproc에 배포하고 싶습니다 그 흥미 롭군요 리소스 요구 사항을 기반으로하는 자동 크기 조정 Hadoop 클러스터를 자동으로 확장합니다 Spark 클러스터를 사용할 수 있습니다

그리고 나서, 우리는 몇 주 전에 발표했습니다 그 [? Toddenworks?]가 이제 인프라를 지원합니다 및 GCP 기본적으로 따라서 GCP에서 직접 HDP 또는 HDF를 사용할 수 있습니다 그걸로, 블루에 프론에서 마이클을 불러주세요

그들이 GCP를 사용하는 방법에 대해 이야기합니다 [박수 갈채] 남자 이름 환영 안녕하세요, Sudhir 잘 지내? 잘 했어

MICHAEL COLLIS : 여기 있습니다 당신 자신의 빠른 소개를 할 수 있을까요? 회사뿐만 아니라 당신의 역할? MICHAEL COLLIS : 물론입니다 전혀 안녕 모두들 나는 네가 다음과 같은 두 번째 날을 즐기기를 희망한다

그래서 블루 에이프런은 6 년 전에 설립되었습니다 겸손한 목표로 그리고 그 목표는 식품 시스템이 어떻게 이 나라에서 일했다 그리고 우리가 좋은 진전을 이룩한 동안, 그것은 비전이 있어야하는 것처럼 대담한 목표입니다 우리는이 비전에 도달 할 수 있다고 생각했습니다 가정 요리를보다 쉽게 ​​접근 할 수있게 만들어줌으로써, 이 나라에서 더 많은 사람들에게 더 저렴한 가격

그리고 그렇게함으로써, 우리는 그곳으로 갈 수있었습니다 농부, 생산자와 협력하고 확실하게하십시오 우리가 지속 가능한 농업에 투자하고 있다는 사실, 가축을 키우는 인간적 방법,이 모든 다른 것들 기본적으로 우리가하는 일은 우리가 보내는 것입니다 비싼 재료, 제철 재료를 상자에 담아 그것들을 만들기위한 조리법으로 그리고 우리는 미국에서 수백만 개의 식탁을 운영하고 있습니다

매일 밤, 특권입니다 SUDHIR HASBE : 저는 그들 중 하나입니다 그래서 Blue Apron을 좋아합니다 MICHAEL COLLIS : 알겠습니다 SUDHIR HASBE : 그렇다면 Blue Apron에서 데이터 분석은 어떻게 사용됩니까? MICHAEL COLLIS : 가장 큰 특권 중 하나입니다

나는 음식에서 일하는 것에 대해 배운다 고 생각합니다 사람들은 항상 그들이 생각하는 것을 말해주고 싶습니다 우리는 실제로 나가서 많은 고객을 요구할 필요가 없습니다 피드백 [웃음] 아니

내가 말했듯이, 당신은 사람들의 만찬 테이블에 있습니다 매우 개인적인 순간입니다 맞습니까? 그리고 그것은 매우 친밀합니다 기본적으로 우리는 경청 할 책임이 있습니다 그리고 제가 말했듯이, 사람들은 우리에게 보여줄 것입니다, 그들은 조리법에서 그들이 원하는 것을 우리에게 말할 것입니다

그 전에 모든 요리법에는 농담이있었습니다 여름에는 그들에게 양배추가된다 저를 고치라고하지 마십시오 나는 그것을 고칠 수 없다 따라서 데이터는 데이터의 핵심 부분입니다

우리는 사업 적 결정을합니다 그리고 그것은 즉시 명백하지 않습니다 너가 우리가하는 것을 보면 당신은 생각합니다, 아, 당신은 음식 상자를 나른다 승인

그래서 훌륭합니다 그러나 실제로, 우리는 고객 라이프 사이클을보고 있습니다 모든 단계에서 데이터를 수집하고 있습니다 당신이 좋아하는 것, 당신에게 어필하는 요리법, 무슨 사진이 당신에게 호소, 어떤 제목이 당신에게 호소 그리고 우리는 당신이 좋아하는 프로필을 만들고 있습니다

그리고 제가 말했듯이 사람들은 우리에게 그들이 느끼는 것을 말해줍니다 우리 조리법 중 하나에 대한 의견을 적어 본 사람이라면, 인간이 그것을 읽었다는 것을 알아라 멋지네요 마이클 콜리스 :하지만 우린 더 잘할 수 있지, 그렇지? 우리가 생각할 수있는 것은 우리가 여기서하고있는 선순환 데이터 비전 우리가 그렇게하는 것에 대해 생각하는 방식은 – 우리가 무언가의 예를 사용한다면 우리 팀은 분명히 요리법 권장 사항입니다

상자에 올바른 요리법을 넣었는지 확인하십시오 분명히 좋아할 것입니다 따라서 우리가 더 나은 권고를한다면, 우리는 더 나은 예측을합니다 우리는 더 나은 구매를했습니다 우리는 나가서 올바른 재료를 소싱하고 있습니다

그리고 올바른 단백질과 올바른 건조 제품 우리의 필요를 충족 시키십시오 그것은 음식물 쓰레기를 줄이는 것입니다 이 단계에서 또 다른 중매인을 잘라내는 거지? 슈퍼마켓 그리고 우리가 더 나아질 경우 우리는 결국 수천, 수천 톤의 낭비되는 음식을 절약 할 수 있습니까? 그래서 모든 작은 변화가 우리에게 그토록 중요합니다 규모면에서 큰 차이가 있습니다

하세 하데 : 철학에 대해 더 많이 말해주세요 오픈 소스 소프트웨어와 당신은 그것을 사용하고 조직 내에서 그런 것들을 사용하십시오 마이클 콜리스 : 네 그래서 우리는 세탁물을 사용하는 것으로 기록에 남습니다 GCP 서비스 목록 – 아이오와 엔터프라이즈 데이터웨어 하우스는 BigQuery입니다

스트리밍 처리에는 Dataflow가 사용됩니다 우리는 배치 기계 학습을 위해 Dataproc을 사용합니다 데이터 호수에는 GCS를 사용하고 준비된 기능에는 GCS, 우리의 숙련 된 모델,이 모든 것들 하지만 그 많은 오케스트레이션은 Airflow를 사용합니다 우리는 더 많거나 적은 공기 흐름을 사용해 왔습니다

Blue Apron에 데이터 엔지니어링이 존재했던 날 그리고 그것은 우리에게 대단히 중요합니다 정보를 섭취하는 데 도움이되기 때문에 외부 출처에서 이는 일} 처리 ETL 프로세스를 실행하는 데 도움이됩니다 우리가 배치 기계 학습을 실행하는 데 도움이됩니다

모델, 그 모든 것들 그리고 실제로 우리가 어떻게 끝내는 지 핵심 요소입니다 우리의 일괄 처리 기계 예측을 실제로 제공합니다 게다가 Airflow를 사용하여 1 억 2 천 2 백만 건의 추천을 계산합니다

매일 그리고 그것들을 작은 레벨의 DB 아티팩트로로드합니다 우리가 우리의 봉사에서 기억으로 봉사하는 것은 위대한 일입니다 우리가 봉사 할 수 있다는 것을 의미하기 때문에 매일 약 15 마이크로 초 권장 숨어 있음

꽤 괜찮아 와우 와우 마이클 콜리스 : 우리는 그걸로 일할 수 있습니다 멋지네요

마이클 콜리스 : 네 그러나 오픈 소스는 그 중대한 부분입니다 맞습니까? 우리는 일찌감치 화상을 입었습니다 나는이 이야기가 모든 사람들에게 친숙해야한다고 생각한다 아마 스타트 업으로 일했을거야

우리는 일찍이 특정 구름에 묶여있는 벤더에 의해 화상을 입었습니다 그리고 우리는 처음부터 오픈 소스에 전념했습니다 그러나 그것은 정말로 우리를 실현 시켰습니다, 오, 우리 오픈 소스를 심각하게 받아 들여야한다 엔지니어링 조직으로서 그 위치에 오르지 않는다 다시

우리는 큰 엔지니어링 조직이 아닙니다 데이터 엔지니어링은 우리에게 단지 15 명입니다 우리는 경쟁 우위를 확보하기 위해 노력해야합니다 그리고 그것은 공기 흐름을 실행하지 않습니다 당사의 데이터 운영 팀은 가장 최근의 기류를 관리했습니다

19 업데이트 네 음, 그 주 잘 지내지 않습니다 그래서 우리는 갇히고 싶지 않습니다

그리고 우리는 그것을 한 번 쓰고 어디서나 실행하고 싶습니다 우리의 하이브리드 클라우드 그리고 구글이 말하면, 우리는 오픈 클라우드에 대한 약속은 우리에게 매우 중요합니다 그리고 그것은 매우 중요합니다 다른 차원에서 우리 사업을 위해 경쟁 할 수 있습니다

그러나 당신이 우리 제품에 갇혀있는 것은 아닙니다 그 점이 중요합니다 그것은 우리에게 좋은 신호입니다 Beam, Spark, TensorFlow – 이것들은 모두 우리가 에 큰 투자를했다 오픈 소스라면 우리가 원하는 곳 어디든지 이동할 수 있습니다

우린 아니야 SUDHIR HASBE : 결코 움직이지 않기를 바랍니다하지만 얻습니다 원하는 경우 언제든지 이동시킬 수 있습니다 MICHAEL COLLIS : 그럴 수 있습니다

[웃음] 완벽 해 감사 고마워, 마이클 본 다른 주요 측정 항목 또는 원하는 비즈니스 결과 우리가 마무리하기 전에 공유 할까? 마이클 콜리스 : 수입의 주간에 나 한테 물어볼 수는 없어 해제

하지만 아니, 기본적으로, 우리는 우리 제품과 관련하여 엄청난 양의 진품을 보았습니다 고객에게 피드백을 제공 할 수있는 더 많은 방법을 제공 할 때, 우리는 더 많은 피드백을 얻습니다 그래서 그것은 정말로 선순환입니다 우리는 또한 그러한 통찰력을 사용하고 있습니다 기본적으로 요리 팀과 놀라운 요리사를 돕기 위해 요리법을 더 잘 계획하십시오

그래서 그것은 우리를위한 새롭고 흥미 진진한 프론티어입니다 AI를 사용하여 실제로 우리가 제공 한 것에서 피드백을 제공합니다 우리 고객이 좋아할 것임을 알기 때문에 메뉴에 더 많은 것이 있습니다 그 것들 — 알다시피, 모든 사람과 사물을위한 무언가가 있습니다 사람들은 훨씬 더 많이 사랑할 것입니다

SUDHIR HASBE : 멋지네 고맙습니다 고마워요, 마이클 마이클 콜리스 : 네 감사 고마워요

[박수 갈채] 당신이 본 것처럼, 내가 고객들과 이야기 할 때, 이 모든 것이 열려있는 구름 위에 있습니다 실제로 많이 공감합니다 특히 전문성 고객을 유지 Spark, Hadoop, Beam과 함께 우리가해온 것, 및 기타 영역 네 번째 주제, 빨리 이야기하고 싶습니다 시각화하고 데이터를 활성화하는 것이 었습니다

핵심은 셀프 서비스 BI입니다 다양한 조직의 우선 순위 중 하나 자신의 데이터를 어떻게 탐색 할 수 있습니까? 사용자가 데이터를 탐색하고 탐색 할 수 있도록 협업적인 데이터 중심의 의사 결정, 모든 대화에 등장하는 주제입니다 나는 고객과있다 따라서 Data Studio를 사용하지 않았다면, 사용 가능한 BI 툴입니다

협력 기본적으로 협업을 기반으로합니다 핵심은 새로운 BigQuery UI 기능입니다 내가 발표 한 바에 따르면, 새로운 UI를 사용한다면, 말 그대로 한 번의 클릭으로 쿼리를 수행 할 수 있습니다 한 번 클릭하고 시각화 및 데이터를 직접 수행하십시오

탐구 그래서 당신은 그것이 어떤 데이터 세트인지 찾아 볼 수 있습니다 해당 데이터를 다른 소스와 혼합 할 수 있으며, 애드워즈 등을 사용하여 해당 데이터를 가져옵니다 그리고 실제로 진행하여 보고서를 만들 수 있습니다 초 이내

글자 그대로 말하자면 전문가가 필요하지 않습니다 또한 사전 제작 된 템플릿도 있습니다 현재 사용할 수 있습니다 그래서 당신은 문자 그대로 들어갈 수 있습니다 클라우드 결제에서 찾은 템플릿이 있습니다

따라서 결제를 시각화하려는 경우 클라우드 또는 Google 클라우드에서 실제로 그것을위한 템플릿이 있습니다 애드워즈 실적을 분석하거나, 당신은 그것을위한 템플릿을 가지고 있습니다 정말 좋은 기능입니다 데이터 시각화 개발자의 미리보기도 있습니다 사용할 수 있습니다

그러나 D3 기반 시각화를 수행 할 수 있습니다 맞춤 시각화를 만듭니다 우리가 투자 한 다른 분야 우리 파트너 중 한 명인 Trifecta, 데이터 준비 솔루션입니다 그래서 많은 고객들이하고 싶어합니다 분석가들은 시각적으로 그렇게하기를 원한다

데이터 준비를 사용하면 실제로 진행하고 시각화 할 수 있습니다 BigQuery에있을 수있는 귀하의 데이터는 데이터에 어떤 예외가 있는지 파악하고, 데이터를 정리하고 다시 저장하십시오 Google 애널리틱스에서 준비 중이므로 그 도구로 다음 몇 달 동안, 핵심은 우리가 많이 집중했다는 것입니다 베타에서 피드백을 얻는 데, 우리는 몇 가지 핵심 기능을 사용할 수 있습니다 우리가 한 강화의 한 큰 영역 모든 팀 기반의 데이터 쟁탈입니다

조리법을 공유하고 흐름을 공유하고 복사하려면 어떻게합니까? 어떻게 사용자 정의 샘플 조리법을 재사용하고 재사용합니까? 그런 것들? 그래서 그것에 중점을 둡니다 생산성과 같은 방법에 집중하십시오 빠른 바로 가기가 있습니다 인기있는 항목과 모두에? 그리고 우리는 완전히 새로운 포괄적 인 디자인을 가지고 있습니다 훨씬 더 좋아 보이고 더 효율적인 방법입니다

그래서 그것은 그 중 하나입니다 나는 다음 것에 뛰어든다 그래서 다른 것들 중 하나이다 누군가가 나에게 잠시 말했고, 좋았다는 것만으로는 충분하지 않다 당신도 잘해야합니다

그래서 우리는 비영리 단체와 협력 해 왔습니다 분석을 민주화하는 데 도움을 줄 수있는 방법을 알아 봅니다 및 기계 학습 기능 비영리 단체에서 그럼 정밀 의학이 어떤지에 대한 비디오를 실행 해 봅시다 그것을 사용하고, 나는 그것에 대해 더 이야기 할 것입니다 우리가 가져갈 수 있을까요? [비디오 재생] [음악 재생] 내 이름은 Robert Tabz 야

5 년 반 전에, 제 어머니는 알츠하이머 병 나는 모든 의약품이 작동하는 것은 아니라는 것을 알고있었습니다 전체 시간은 하향 나선형이었다 – 나는 약 25 년 전에 할아버지를 잃었다 질병에

당시 우리 가족은 이미 그랬던 것처럼 느꼈습니다 질병의 궤적을 바꾸기에는 너무 늦었다 그리고 오늘 같은 이야기를 들으면 내 마음이 아프다 정밀 의학 재단의 사명 인공 지능과 건강 관리를 하나로 모으는 것입니다 알츠하이머 병을 일찍 발견 할 수 있습니다

– 알츠하이머를 아주 일찍 발견 할 수 있다면, 그 질병이 치료에 가장 취약한시기입니다 – 우리가 접근 할 수있는 데이터 익명화 된 전자 건강 기록입니다 우리는 HIPAA 준수 환경이 필요했습니다 Google Cloud를 사용한 이유입니다 – 우리는 수백 가지 변수를 다루고 있습니다

수백만 명의 환자에게 수십억 줄의 데이터 – Google Cloud를 사용하면 Google의 운영 규모를 확장 할 수 있습니다 BigQuery ML을 사용하면 기계 학습을 개발할 수 있습니다 모델을보다 빠르게 만들고 전체 데이터를 활용하십시오 비영리 단체이기 때문에 미국 전역의 자원 봉사자에게 의존하고 있습니다

Google Cloud 덕분에 정말 그렇게 할 수있었습니다 우리는 그들이 기계 학습을 적용 할 수 있기를 원했습니다 데이터 및 트렌드 자체를보고, 보다 혁신적인 접근 방식을 제안 할 수있는 권한 부여 질병의 진행을 바꾸는 것 -이 작품은 나에게 너무 중요하다 우리가이 파괴적인 질병에 대처하는 데 도움이되기 때문에 치료법이 없습니다

– 나는 그들이 어딘가에서 들었다고 들었다 음모에 점들이 사람들이라는 것을 잊지 마십시오 그리고 우리는 그것을 진지하게 생각합니다 [음악 재생] [끝내기] SUDHIR HASBE : 정밀 의학의 훌륭한 사례 BigQuery에서 데이터 분석 기능 사용 ML은 다른 BigQuery 기능과 함께, 그들의 지역에서 전진하고 나아갈 것입니다 그래서 우리가 할 수 있었던 것은 오늘이었습니다

변화를위한 데이터 솔루션을 발표하고 있습니다 비영리 단체를위한 프로그램입니다 전 세계 어디서든 필요한 곳을 이동할 수 있으며, Google 클라우드 크레딧에 액세스하고, 자체 교육 자료와 함께 실습을 가능하게합니다 말했듯이 우리의 목표는 비영리 단체의 분석 및 기계 학습을 민주화하십시오 전 세계에 걸쳐 이러한 기능을 제공합니다

세계에서 좋은 일을하고 싶은 조직의 손에? 그래서 오늘 시작됩니다 우리가 시작하는 또 하나의 것 2030 시각화입니다 따라서 이것은 세계 은행, 유엔, UN 재단 및 기타 제휴 단체들 우리는 유엔 주변의 인식과 행동을 원한다 지속 가능한 발전 목표 다음 12 년 내에 17 가지 목표가 있습니다

우리는 만나고 싶다 그리고 기본적으로 이것은 스토리 텔링 경쟁입니다 학생, 세계의 대학원생, 그들은 앞으로 나아가고, 창조하고, 시각적 인 이야기를하고, 데이터에 기반한 통찰력 및 행동 Studio 및 BigQuery에 대한 공개 데이터 세트 BigQuery에는 70 개 이상의 공개 데이터 세트가 있습니다 사용할 수 있고, 오늘 분석을 시작할 수 있습니다 그래서 이것으로 여러분은이 비주얼 스토리를 만들어 낼 수 있습니다

9 월 말까지 제출하십시오 그리고 유엔 세계 데이터에 우승자를 발표 할 것입니다 10 월 두바이에서 열린 포럼 그래서 이것은 우리가 오늘 발표하는 것들 중 하나입니다 우리는 차세대 학생들을 원합니다

누가 이전에, 우리는 약 8 천만 G Suite를 사용하는 학생들 비슷한 기능을 확장하고자합니다

잠재 고객을위한 데이터 분석 분석, 시각화, 해결할 통찰력을 얻으 려합니다 그와 함께, 내가 이야기하고 싶은 것들 중 하나 우리의 파트너 생태계는 우리에게 매우 중요합니다 우리는 파트너 사를두고 있습니다 [INAUDIBLE]처럼, 우리에게는 놀라운 파트너가 있습니다 BigQuery 또는 다른 분석으로 데이터를 가져 오려면 우리가 가진 제품, 놀라운 파트너가 있습니다

이러한 솔루션을 제공합니다 우리는 데이터 통합 ​​파트너가 있습니다 우리에게는 시각화를위한 파트너가 있습니다 당신은 Looker의 이전 예를 보았습니다 Tableau는 그 큰 파트너입니다

딸깍 하는 소리 BI 툴을 제공하는 많은 파트너가 있으며, 뿐만 아니라 당신을 도울 수있는 많은 SI 파트너가 있습니다 당신이 가질 수있는 당신의 다양한 교제와 그래서 그것이 핵심입니다 Google은 플랫폼으로서의 통찰력의 리더로서, Forrester의 서비스 플랫폼 (platform-as-a-service) 그리고 나는 우리가 인정 받기를 바라고 있습니다 다가올 다가올 다가올 보고서들에 점점 더 많아지고 있습니다

나에게 중요한 점은 훨씬 더 많다는 것이다 솔루션에서 사용 가능한 BigData에 대한 정보 장소 저것 좀 봐주세요 GIS를 강조한 놀라운 세션이 있습니다 하나, 클러스터링에 대한 깊은 다이빙 엔터프라이즈 데이터웨어 하우스를 사용하면 Jordan Tigani의 엔터프라이즈웨어 하우스를 넘어서

빅 데이터에는 다른 좋은 세션이 많이 있습니다 회의 주제 참석하여 더 많은 피드백을주십시오 모두들 감사합니다 [박수 갈채] [음악 재생]

Getting Started with Oracle Big Data Cloud Service – Compute Edition

Oracle Big Data Cloud Service – 컴퓨팅 오픈 소스를 결합한 에디션 완전한 Big를 제공하는 기술 실행 및 관리를위한 데이터 플랫폼 Big Data 분석 애플리케이션 그만큼 환영 전자 메일,에 대한 링크가 있습니다

최대한 활용할 수있는 리소스 Oracle Big Data Cloud 서비스 개요 Compute Edition 및 세부 정보 귀하의 계정에 액세스하십시오 신원 도메인 제공 및 진행 로그인 화면으로 사용자 이름을 입력하십시오 및 비밀번호를 입력하여 로그인하십시오 Oracle Big Data Cloud 서비스 Compute Edition 서비스 페이지 표시됩니다

이 페이지는에있는 모든 클러스터를 표시합니다 빅 데이터 클라우드 서비스 계산 판 클러스터를 만들려면 서비스 생성 버튼 독특한 귀하의 서비스를 식별하기위한 이름 아이덴터티 도메인을 새 클러스터에 대한 설명 다음을 제공하여 클러스터를 구성하십시오

값을 입력합니다 클러스터 구성 제공 매개 변수 총 노드 수를 지정하십시오 제공 할 노드를 세 개 이상 지정하십시오 다중 마스터를 통한 고 가용성 노드

이 노드는 계산 전용으로 실행됩니다 HDFS가없는 노드 초과 된 노드 처음 네 개의 노드는 계산 전용 노예로 지정된 컴퓨팅 및 스토리지 노드로 실행됩니다 Oracle Compute Units (OPU) 및 각 컴퓨팅의 메모리 양 (RAM) 새로운 클러스터의 노드 다음을 지정하십시오

원하는 HDFS 저장 용량 클러스터에 할당하십시오 빅 데이터 클라우드 서비스 – Compute Edition은 복제를 사용합니다 HDFS의 경우 계수 2 따라서, 사용 가능한 HDFS 저장 용량은 할당 된 총 저장 공간 방법을 지정하십시오

대기열 및 작업 부하를 관리하려고합니다 선매 (Preemption Off)는 작업이 특정 자원보다 더 많은 자원을 소비한다 대기열이 허용합니다 이것은 잠재적으로 클러스터 활용도를 낮 춥니 다 선점 작업이 더 많이 소비 할 수 있음을 나타냅니다

대기열보다 리소스가 많습니다 선매 경우 On이고 클러스터가 사용되지 않는 경우 어떤 대기열의 작업도 100 % 활용할 수 있습니다 클러스터 용량 이것은 더 나은 클러스터 활용 다음으로 귀하의 신임장 SSH 키 연결 이 클러스터

새 키 만들기 옵션을 사용하면 새로운 공개 키를 작성하고 다운로드하십시오 이 클러스터에 대해 관리자 사용자 이름을 클러스터 비밀번호를 입력하고 다시 입력하십시오 관리자 Oracle Storage Cloud Service 컨테이너는 작업 로그가 완료 될 때까지 밀었다

기존 저장소를 지정할 수 있습니다 컨테이너를 만들거나 새 컨테이너를 만듭니다 만약 너라면 기존 컨테이너가 있으면 신임장 의 이름을 입력하십시오 Oracle Storage Cloud 컨테이너

제공하다 사용자 이름과 암호 그리하지 않으면 이미 존재하는 클라우드 스토리지가있다 컨테이너에서 클라우드 저장소 만들기를 클릭합니다 컨테이너 봉사의 마지막 부분 세부 정보 페이지에 연관성이 표시됩니다 다른 클라우드 서비스를 선택하십시오

이 클러스터와 연결하려고합니다 에 확인 페이지에서 매개 변수를 검토하십시오 일단 당신이 정보를 작성하면 클러스터 일반적으로 클러스터 생성 약간의 시간이 걸립니다 클러스터가 생성되면 상태가 사라집니다

빅으로 이동 데이터 클러스터 콘솔 클러스터 입력 콘솔 자격 증명 여기에서 작업을 생성하고 실행할 수 있습니다 HDFS, 오라클로부터 입력을 읽습니다 데이터베이스 또는 Oracle Storage Cloud 서비스, ​​데이터에 대한 계산 수행 출력을 제공합니다

또한 다음을 만들 수도 있습니다 노트북 내에서 메모를 실행할 수 있습니다 Notes를 사용하면 대화식으로 데이터를 시각화한다 유행 시청 해주셔서 감사합니다

자세한 내용은 cloudoraclecom에서 온라인으로 방문하십시오