Migrating a Big Data Environment to the Cloud, The Untold Story (Cloud Next '19)

[음악 재생] SASHA KIPERVARG : CP142에 오신 것을 환영합니다 빅 데이터 환경을 클라우드로 마이그레이션, 미지의 스토리

내 이름은 사샤 키퍼 바그입니다 저는 LiveRamp의 클라우드 운영 담당 책임자입니다 그리고 저는 우리의 수석 소프트웨어 중 하나 인 Ben Podgursky와 왔습니다 엔지니어, 패트릭 레이먼드 우리 수석 제품 매니저 그리고 그는 인프라 포트폴리오를 소유하고 있습니다

네가 도리를 모두 잘 알고 있다고 생각해 나는 그 일을 끝내지 않을 것이다 LiveRamp에 대해 조금 전에 프레 젠 테이션의 고기에 들어가십시오 기본적으로 오프라인 데이터를 사용합니다 주소, 다른 PII, 기본적으로 – 그런 다음 우리는 그것을 식별하지 못하고, 그것을 변형 시키며, 그런 다음 채널 파트너에게 채널을 제공합니다

모두 당신에게 광고 벤은 기술적 세부 사항을 우리 회사는 그의 주제 중 하나에서 않습니다 그래서 제가 제일 먼저 말하고 싶은 것은 벤 (Ben)과 저는, Patrick은 정말 작은 그룹의 사람들입니다 마이그레이션을 담당합니다 그것은 팀의 팀입니다

우리는 대규모 인프라 소대, 대규모 엔지니어링 팀, 보안 전문가, 재무 전문가, 준수 전문가 그리고 그들은 모두 우리를 이주시키는 책임이있었습니다 우리는 지금 비행 중입니다 우리는 곧해야합니다 나는 또한 Google 팀 구성원을 보유하게됩니다

여기이 슬라이드에 있습니다 그것들이 우리 팀의 일원이기 때문입니다 우리는 그들을 그렇게 취급합니다 그리고 그들은 우리를 도와줍니다 그리고 그들은 우리 팀 팀의 일부입니다

LiveRamp에 처음 가입했을 때 회사를 클라우드로 마이그레이션하도록 요청했습니다 그게 실제로 의미가 무엇인지 전혀 몰랐습니다 이것이 단지 뭔가이기 때문입니다 아마 20 년에 한 번 또는 일생에 한 번 일어날 수 있습니다 그 일을하기위한 플레이 북이 정말로 없습니다

그리고 나는 모험을해야한다고 생각했습니다 한 단계로 시작하십시오 그리고 그것이 제가 한 것입니다 방금 질문하기 시작했습니다 나는 임원이 일렬로 맞춰 졌는지 알아보기를 원했다

나는 예산이 있는지 알아 내고 싶었다 승인 절차가 무엇인지 알아야했습니다 그리고 꽤 자주, 그 질문은 더 많은 질문을 이끌어 냈습니다 그리고 그것이 제가 취한 접근법입니다 나는 관객 중 많은 사람이 생각한다

유사한 도전을 받고있다 어쩌면 그게 오늘 네가 여기있는 이유 일거야 내가 취할 접근법에 대해 생각하기 시작했을 때, 내가 가장 좋아하는 아티스트에 대해 생각했다 리처드 제임스라는 Aphex Twin이라고하는 사람입니다 그리고 이것은 그가 말하는 곳의 시원한 인용구입니다

그가 음악을 만드는 방법에 대해 근본적으로 그가 여기에서 말한 것 그게 플레이 북을 버리는 것입니다 그는 어둠을 헤쳐나 가면서 그가 배우고 자하는 것까지 이런 식으로 느낀다 그는 자신의 접근법에 적응합니다 그리고 많은 사람들이 내 정원을 가지고 있다고 생각합니다

그들은 독특합니다 당신은 자신의 문제가 있습니다 그리고 하나의 크기가 모든 플레이 북에 맞지 않습니다 모든 것을 다룹니다 내가 발견 한 첫 번째 사실은 우리가 팀을 올바르게 이끌어 낼 필요가 있습니다

그리고 그것은 올바른 스킬 세트를 갖는 것을 의미했습니다 그것은 올바른 문화를 갖는 것을 의미했습니다 그리고 나는 우리가 이전에했던 일이 엔지니어링 팀에 속한 팀 이들은 매우 숙련 된 시스템 개발자 그룹이었으며, 대부분은 미안하지만 시스템 개발자가 아닙니다 시스템 관리자

그리고 그들은 최선을 다하려고 애썼다 하지만 그들은 실제로 공학에 통합되지 않았습니다 내가 느꼈던 방식으로 필요했다 우리가 갈 필요가있는 곳으로 가야합니다 그래서 우리는 팀을 조정했습니다

우리는 먼저 스크럼을 채택했습니다 일부 시스템 관리자가 팀을 떠났습니다 팀의 시스템 관리자 중 일부는 새로운 기술을 익혔습니다 우리는 시스템 엔지니어를 고용했습니다 우리는 LiveRamp 엔지니어링 팀의 다른 팀원들로부터 파견되었습니다

게다가 그리고 우리는 근본적으로 개발 팀이되었습니다 인프라에 중점을 둡니다 도전의 다음 부분은 보안과 거버넌스를 찾아 내려고 노력했습니다 이제 클라우드에 도달하기 위해, 당신은 승인을 받아야합니다

당신은 보안에 가야합니다 규정을 준수해야합니다 합법적으로 가야합니다 놀랍게도 놀랍지 만 그 과정이 없습니다 물론, 아무도 이것을하지 않기 때문에 존재했다

일생에 한 번 그래서 우리는 그 과정을 만들어야했습니다 우리는 관계를 수립해야했습니다 우리는 보안 작업 방법을 고안해야했습니다 그들이 모든 것을 검토 할 수있는 곳 우리는 일주일 단위로 일을하고 있었는데, 그곳은 추적당했습니다

Jira 티켓처럼 그리고 나서 우리는 사인을 얻은 다음 진행할 것입니다 그것은하기가 상당히 어려웠습니다 약 12 개월이 걸렸습니다 나는 우리가 환상적이라고 말할 수있어서 자랑 스럽다

보안 및 기타 거버넌스 팀과의 관계 오늘, 그 중 일부는 청중에 있습니다 다음 과제는 어떻게 우리가 마이그레이션에 접근해야합니다 그리고 저는 그것을 제품처럼 취급해야한다고 강하게 느꼈습니다 그리고 그것이 의미하는 바는 제품 관리자 누가 인프라를 이해했는지, 누구에게 접근했는지 전체적으로 생각한 제품의 관점에서 우리가 어떻게해야하는지, 어떻게 그것에 대해 의사 소통을해야하는지에 관해서 패트릭, 누가 그럴거야? 이것에 대해 더 깊이 이야기하는 것이 시작되었습니다

그는 자신의 초점을 보안 관리에서 변경했습니다 제품 관리 부서에 알려 주었고 그는 그 대부분을 처리했습니다 가장 중요한 결정 중 하나 우리가 이민 과정에서 만든 실행을 시작하기 전에 어떤 구름을 사용해야하는지 알아 내려고 노력했습니다 AWS에 익숙한 사용자가 많을 것입니다 그들은 일종의 900 파운드 고릴라입니다

그리고 2 년 전 우리가 처음 시작했을 때, 우리 회사도 AWS 경로를 따라 가고있었습니다 그리고 아마 우리는 한 달 안에 있었을 것입니다 AWS와 계약서에 서명하십시오 그리고 우리는 전에 가벼운 방식으로 GCP를 보았습니다 우리는 동부 해안에서 GCP를 사용하는 일부 팀을 운영하기까지했습니다

그러나 모든 사람들은이 결정이 실제로 내려 졌다고 생각했습니다 또 다른 가능성은 없었고, 나 자신도 포함되었다 그리고 저는 CFO 인 Warren Jenson으로부터 이메일을 받았습니다 그가 말하길, 우리는 GCP를 보았습니까? 우리가 수백만 달러에 정말 가깝기 때문에 거래 그리고 나는 빨리 대답했다

그렇지만, 그렇다 그날 밤에 보낸 후, 나는 불편 함을 느꼈다 내 대답과 함께 내가 제대로 할 수 있다고 생각하지 않았다 왜 자세한 대화에서 그를 대표 하는가? AWS를 선택하고 GCP를 자세히 검토하지 않은 이유는 무엇입니까? 그리고 다음날 아침에, 나는 들어왔다

나는이 모든 수석 기술 팀을 모았다 인프라에 대해 질문하고 동일한 질문을했습니다 그리고 나는 같은 반응을 되찾았다 고 생각한다 나는 나 자신을 느꼈다 그것은 우리가하지 못했던 것이다

최근 데이터를 보았습니다 그리고 여러분 모두는 구름이 정말로 빨리 움직인다는 것을 압니다 신제품은 신속하게 개발되고 제공되며, 우리는 지난 6 개월 동안 그것을 보지 않았습니다 그래서 우리는 일주일 정도 시간을 들여서 새로운 기능 세트에서 그것이 우리 회사를 위해 원했던 것과 어떻게 연관되어 있는가 그리고 그 주 후에 우리가 돌아 왔을 때, 우리 모두는 거기에 뭔가 있다는 것을 깨달았습니다

그런 다음 더 많은 조사가 필요했습니다 그리고 나서 우리는 또 다른 3 ~ 4 주 동안 출발했습니다 Kubernetes에 깊이 잠수하려면 큰 데이터 스택, 비용, 모든 차원 그리고 우리는 그것에 집중했습니다 우리가 발견 한 것은 GCP 우리 회사를위한 훨씬 나은 솔루션이었습니다

모든 차원에서 비용이 포함됩니다 그래서 이것을 침몰 비용의 오류라고 부릅니다 AWS에 큰 투자를했다는 것입니다 그리고 우리는 그 정면을 정말로 오랫동안 진행했습니다 그리고 사실입니다, 우리는 많은 시간을 낭비했고, 많은 시간이 내려갔습니다

그 길 그러나 그것이 우리가 마음을 바꿀 수 없다는 것을 의미하지는 않습니다 그래서 우리가 GCP에 대한 결정을 내렸을 때, 우리에게는 또 다른 도전이있었습니다 소규모 엔지니어링 팀과 소규모 인프라가있는 팀, 상대적으로 말하기 우리 중 수천 명이 없습니다

누가 기존의 데이터 센터를 관리 할 것입니까? 샌프란시스코에 공동 거주하고 있습니다 우리는 약 3,000 대의 서버를 보유하고 있습니다 100 페타 바이트의 Hadoop VMware의 많은 것들 우리는 개발 팀이 미래에 집중하기를 원했습니다

우리의 과거 또는 현재 그래서 우리가하기로 결정한 것은 거기에 나가서 시도했습니다 우리를 위해 그렇게 할 수있는 회사를 찾으려면, 그 전체 작업량을 감당할 수있는 우리는 미래에 중점을 두었습니다 시리우스라는 회사를 발견했습니다 마이클 포터와 스캇 라이트

나는 그들이 청중 어딘가에있는 것 같아 그들은이 비전에 우리를 팔았습니다 사실 지난 한 달 동안, 그들은 데이터 센터의 모든 작업을 수행했습니다 우리 팀을 도와 주면서 우리 팀을 돕고 있습니다 GCP에 중점을 둡니다

일단 우리가 그 문제를 해결하면 거기 우리가 해결해야 할 두 가지 다른 것들이 있습니다 우리를 침몰시킬 수있는 두 가지 네 함선도 가라 하나는 비용 추적이었고 다른 하나는 비용 추적이었습니다 거버넌스 결정이었다 비용 추적 측면에서 우리는이 철학을 가지고 있습니다

각 개발 팀이 필요로하는 자아를 위해서 우리는 그들이 환경을 신속하게 돌리기를 원합니다 아무에게도 묻지 않고 혼자서 그러나 물론, 그것은 그들이 그 때 그들은 환경을 전적으로 회전시킬 수있었습니다 자신에

그리고 그들은 수백만과 수백만을 일으킬 수 있습니다 누구도 알지 못하는 자원 달러로 우리의 예산을 동기화합니다 그래서 우리는 초점을 맞추기 위해 다른 PM 팀을 구성하기로 결정했습니다 그 특별한 문제에 관해서 그리고 그 노력은 바로 지금 열매를 맺고 있습니다

우리는 개발자에게주는 균형이 적절하다고 느낍니다 자유는 있지만, 동시에 경고와 관계가 있습니다 해당 팀에서 직접 재정 지원을받으며, 그 도전들이 다루어지는 곳 거버넌스는 상당히 흥미 롭습니다 우리는 중요한 교훈을 배웠습니다

이전에 보안과 함께 12 개월간 당신이 클라우드에서 빨리 갈 수 있다고해도, 즉시 배포 할 수있는 경우에도, 귀하가 승인을 받았다는 의미는 아닙니다 제품을 실제로 빨리 꺼내십시오 따라서 신속한 거버넌스 결정없이, 정말로 중요하지 않습니다 그래서 우리는 엔지니어링 팀에서 다른 팀을 구성했습니다 우리는 수락 한 사람을 고용했습니다

그의 이름은 [INAUDIBLE]입니다 그리고 우리는 우리가 호출하는 프로세스를 만들었습니다 기본적으로 의사 결정을 묶는 케이크 이 Cake 프로세스를 통해 모든 거버넌스 팀으로부터 그리고 우리는 12 개월 무언가를 떠났습니다 제품을 허용하는 결정을 내리는 데 2 ​​주까지 생산에 들어가기 그래서 배운 주요 교훈의 측면에서, 내가 너와 나눌 수있는 것, 내가 너에게 생각해 주길 바라는 것 너 자신을 위해, 번호 하나, 마이 그 레이션 거대한 다차원 동물입니다

그것들은 문제들 중에서 가장 좋고 도전적인 것입니다 그게 네가하고 싶은 일이라면 너는 확실히 올바른 곳에서 나는 당신의 팀을 바로 시작하고 충분한 질문을 할 것이라고 말할 것입니다 문제를 완전히 이해할 때까지 게임 북을 사용하지 마십시오 아무것도 가정하지 마십시오

귀하의 데이터와 새로운 데이터를 지속적으로 재평가하십시오 그리고 침몰 비용의 오류에 유의하십시오 그리고 그것이 당신의 의사 결정에 어떻게 영향을 미치는지 변화하는 프로세스 또는 채용을 두려워하지 마십시오 그 과정에서 새로운 역할을 위해

가능성이 높습니다 전혀 다른 것입니다 그리고 마지막으로, 틀린 것을 두려워하지 마십시오 당신은 실수 할 것입니다 무언가의 진실을 찾으십시오

옳기보다는 오히려 성공으로 당신의 길을 되풀이하십시오 그래서 나는 마이크를 벤쪽으로 넘길거야 지금 누가 엔지니어링 문제에서 당신을 말할 것입니까? 원근법 [박수 갈채] BENJAMIN PODGURSKY : 안녕하세요

나는 Ben Podgursky입니다 나는 엔지니어 야 저는 데이터 인프라 팀에서 일하고 있습니다 우리 이주에 대해서 이야기 할 것입니다 소프트웨어 엔지니어의 관점에서 GCP로 나는 단지 강조하는 것으로 시작하고 싶다

나는이 과정에서 수석 건축가가되었다고 주장하지는 않는다 이것은 엔지니어 수십 년이 걸렸습니다 그러나 그들은 실제로 이주를 실제로 바쁘게하고 있습니다 오늘, 나는 그 중 하나입니다 마이그레이션을 설명하기가 어렵습니다

LiveRamp의 판매에 대해 간략히 설명하지 않고 우리가 어떻게하는지 마일 높은 볼 우리는 고객 데이터 세트를, 식별자 데이터를 받아 이것을 전달합니다 두 가지 방법으로 광고 기술 생태계에 먼저 배치 전달 시스템으로, 또한 실시간 키 값 전달 시스템을 사용합니다 나중에 우리 환경에 대해 더 이야기 할 것입니다 짧은 버전은이 처리의 대부분을 차지합니다 큰 Cloudera Hadoop에서 발생합니다

데이터 센터의 클러스터 다른 대부분의 응용 프로그램은 VMware 가상 시스템에서 실행되었습니다 요리사가 제공 한 것입니다 CoreOS 지각 구조 클러스터 실시간 키 값 제공 우리가 만든 자체 개발 한 오픈 소스 시스템이었다 하둡 파이프 라인에 대해 한 가지 강조하고 싶습니다

많은 회사에서 Hadoop은 부가가치입니다 그들에게는 제품이 있습니다 그들은 제품을 판매합니다 그들은 제품에서 로그 아웃되며, 그런 다음 기계 학습을하고 그로부터 가치를 얻으십시오 그건 LiveRamp가하는 것이 아닙니다

우리는 기본적으로 ETL 회사입니다 그리고 우리가 Hadoop 파이프 라인을 통해 데이터를 이동하지 않는다면, 우리는 실제로 많은 제품을 판매하지 않습니다 그리고 이로 인해 마이그레이션이 매우 어려워졌습니다 나는 나중에 그것에 대해 더 이야기 할 것이다 작년에이 모든 일이 우리의 온 프레미스 데이터에서 일어났습니다

우리 하드웨어의 대부분은 2,500 노드 Cloudera입니다 Hadoop 클러스터 밖에 큰 클러스터가 있습니다 하지만 꽤 큰 90,000 CPU입니다 사샤가 말했듯이, 약 100 페타 바이트의 원시 스토리지

VMware 클러스터에서 Hadoop 이외의 작업이 발생했습니다 500 개 이상의 VM에 대해 이 중 많은 부분이 논리 작업 전용이었습니다 Hadoop 환경에 대해 매일 약 8 테라 바이트의 데이터가 송수신됩니다 매우 약 압축 후 계산, 필터링, 정렬 등 모든 작업을 수행합니다 그래서 결국 하드웨어는 꽤 중요한 하드웨어였습니다

우리가 옮겨야 할 환경 나는 확신 할 수있는 것에 대해 이야기하지 않을 것이다 우리는 구름으로 움직입니다 사샤는 그 중 일부를 다뤘습니다 이유는, 당신이 듣게 될 것입니다, 1000 다른 회담 이번 주 브레이크 아웃 세션

우리는 빨리 움직이기를 원했습니다 Google의 엔지니어는 개발자가 아닌 개발자가되기를 원했습니다 역사적인 재 enactors 우리는 규모를 조정해야했습니다 클라우드 기반 도구가 필요했습니다

일반적인 이유 마찬가지로, 나는 많은 시간을 보내지 않을거야 그것이 당신이 여기있는 이유이기 때문에 GCP를 선택하도록 설득합니다 그러나 우리가 한 의사 결정 과정에 대해 이야기하고 싶었습니다 분명히, 우리는 기술에 관심이 있습니다

GKE는 큰 도움이되었습니다 당시 AWS는 좋은 Kubernetes 제공 물을 가지고 있지 않았지만, 우리는 실제로 제 3자를 찾지 못했습니다 설득력있는 제물 우리의 실시간 배송 팀은 다른 모든 제품보다 우월합니다 객체 저장이 필요했습니다

GCS는 다른 것들과 경쟁적이었습니다 가격은 좋았습니다 우리는 다른 사람들보다 더 좋은 가격을 가지고 있습니다 하지만 내가 강조하고 싶었던 점은 정말 우리를 위해이 선택을 한 사람들 이었습니까? Google과 대화 할 때 우리는 우리의 문제를 해결하고자하는 엔지니어에게 우리는 전체 목표가 우리를 팔 것이라고 생각하지 않았습니다 전문 지원 시간

전문적인 지원에 문제가 있다는 것은 아닙니다 훌륭합니다 하지만 우리는 근본적으로 우리의 문제에 답하고 우리를 도우려고했습니다 그리고 그것은 전체 이민을 통해 우리에게 자신감을주었습니다 그들은 우리를 돕고, 나란히있을 것입니다

문제를 통해 그리고 그것은이 과정에서 절대적으로 머물러 있습니다 그래서 우리가 우리가 이것을 현실로하기로 결정했을 때, 우리는 그것을 몇 가지 질문으로 쪼개었다 우리 시대의 건축은 무엇입니까? LiveRamp의 최소 실행 가능 클라우드 아키텍처는 무엇입니까? 우리는 어떻게 거기에 도착합니까? 클라우드에 구축 – 쉬운 일은 아닙니다 그러나 당신은 신선한 시작하게된다

클라우드 기반 기술로 시작할 수 있습니다 회사가 운영되지 않는 경우 큰 문제는 아닙니다 그러나 그것은 우리에게 사실이 아닙니다 우리는 많은 양의 인프라를 가지고있었습니다 마이그레이션하는 동안 계속 실행해야하는 프로세스가 있습니다

그리고 마지막으로 우리는 무엇을 향해 무엇을 만들고 싶습니까? 우리는 우리의 인프라가 첫날에 완벽해질 것입니다 첫날 구름이 완전히 덮일 수는 없습니다 그러나 우리는 성공을 향해 스스로를 위로하고 싶습니다 그렇다면 인프라가 처음에는 어떻게 될 것입니까? 마이그레이션 할 개발 팀 요청 힘들고 엔지니어에게 물어보십시오 그들이하는 동안 프로세스에 많은 불확실성이 추가됩니다

Next와 같은 회의에서 말하는 것은 너무 섹시하지 않습니다 하지만 드롭 인 대체물이 있었던 곳 우리 인프라의 GCP 로의 직접 번역, 우리는 일반적으로 리프트 측면에서 실수를 범했고 우리는 GCP를 가지고있었습니다 즉, 일부 제품은 매력적이었습니다 그리고 매우 직설적 인 번역을 제공했다 마이그레이션하는 동안 전환하는 것이 적절하다고 느꼈습니다 그래서 저는 변하지 않았고 변하지 않은 것을 통해 이야기 할 것입니다

그래서 무엇이 바뀌지 않았을까요? 우리의 온 프레미스 환경은 단일 논리 내부 회로망 사설 IP를 통해 전달되는 내부 서비스, 대부분 콘솔을 통해 조정되었습니다 앱 팀에서는이 점을 동일하게 유지하는 것이 중요하다고 느꼈습니다 그들은 단일 네트워크가 필요했습니다 해당 네트워크를 통해 서로 대화해야하는 앱

그리고 나중에, 특히 다리 건너편에서 더 이야기하겠습니다 우리의 네트워크 사이 모든 대용량 데이터 처리는 Cloudera Hadoop에서 발생합니다 그것은 변하지 않습니다 나는 보안 및 사생활 보호 결정에 대해 이야기하고 싶지 않다

대단히 중요하지만, 우리가 한 일의 거대한 부분 클라우드는 개발자에게 권한을 부여하지만, 고 가용성의 글로벌 배포를 쉽게 만듭니다 실수로 보안 침해 그래서 우리 작전 팀은 방화벽 통제권을 유지했습니다 허가의 관점에서 규칙들, 근본적으로, 고객 데이터를 안전하게 유지하지 못한다면, 우리는 실제로 많은 제품을 가지고 있지 않습니다

그래서 우리는 무엇을 바꾸 었는가? 전제, 우리는 우리의 모든 데이터를 HDFS에 거의 저장했습니다 그래서 우리의 HDFS는 실제로 꽤 기름칠 기계입니다 이 마이그레이션을 시도 할 때까지 그러나 그것은 매우 스트레스가 많았고 유지하기가 어려웠습니다 모든 업그레이드가 데이터 손실의 기회임을 알았습니다 또는 일종의 대참사

우리 회사가 성장함에 따라 더 많은 고객과 더 짧은 고객을 확보함에 따라 SLA가 짧아지면 어려워지고 어려워졌습니다 Google 제품 팀이 환경을 업그레이드했기 때문에 일이 잘못되었을 때 중단 시간을 원합니다 그래서 우리는 결국 기본적으로 막 붙어 있지 않았습니다 업그레이드가 가능합니다 따라서 GCP를 사용하고 나면 모든 영구 데이터에 GCS를 사용합니다

저장 우리는 지속적인 데이터를 위해 HDFS를 사용하지 않습니다 전제 조건으로 Chef를 사용하여 모든 VM을 프로비저닝합니다 우리는 Chef에 많은 응용 프로그램 로직을 내장했습니다 그리고 우리는 실제로 Chef 클라우드로 그것은 잘 작동하지 않았고 우리는 GKE가 훌륭한 제품이라고 느꼈습니다

일부 팀은 GKE를 사용하고 있습니다 우리는 모든 VM을 전환하는 것이 적절하다고 생각했습니다 우리가 이전 할 때 GKE로 넘어갔습니다 마지막으로 Google Bigtable이 우리의 자국 핵심 가치 데이터 저장소를 대체 할 수있는 훌륭한 도구입니다 우리는 모든 실시간 웹 트래픽에이를 사용할 것입니다

그래서 나는 개인적으로 대부분의 시간을 보냈다 Hadoop 클러스터를 GCP로 변환합니다 그래서 나는 그다지 많은 것을 설명하지 않고 싶다 전체적인 이야기 일 수도있는 아키텍처는, 그러나 가치에 대해 이야기하고 어떻게 해방하는지 그것은 구름 속에있다 2,500 대의 서버를 보유하고 있다면 너와 함께해야 할 일

그들은 모든 데이터를 가지고 있습니다 업그레이드를 테스트하려면, 주말에는 2,500 대의 서버를 구입할 수 없으며 규모 테스트를 수행 할 수 없습니다 그런 다음 다시 돌려주십시오 당신은 가지고있는 것을 테스트해야합니다 dev 클러스터를 설정할 수 있습니다

준비 클러스터를 설정할 수 있습니다 그러나 규모 테스트는 실제로 할 수 없습니다 따라서 GCP에서 GC VM을 사용하는 경우 사실이 아닙니다 인프라를 가동시킬 수 있습니다 기존 인프라 스트럭처를 다운시킬 필요가 없습니다

그것을 밖으로 시험하기 위하여 그리고 롤백은 쉽습니다 GCS를 사용하기 때문에 모든 것이 더 쉽습니다 그래서 이것은 우리의 능력을 정말로 4 배로했습니다 이 인프라에서 반복 할 수 있습니다

그리고이 환경을 무언가와 유지하는 것으로 바뀌 었습니다 스트레스가 많고 고통 스럽다 그것은 실제로 다시 재미 있습니다 그렇다면 GCP는 어떻게 될까요? 몇 가지 마이그레이션 전략이 있습니다 기업에 많은 고객이없는 경우 돈을 벌지 않으면 너 자신을 벗어날 수있다

전송 장치를 사용할 수 있습니다 전국으로 배송 할 수 있습니다 그런 다음 다시 켜십시오 모든 것이 작동하는 몇 주 후에 우리는 영업 팀과 점검했고, 고객, 우리는 돈을 벌어 그리고 그들은 꺼지는 생각에 행복하지 않았습니다

그래서 우리에게 천천히, 아주 조심스럽게 옵션을 남겼습니다 조율 된 마이그레이션 프로세스 그래서 우리는 우리가 필요한 것을 알고 시작했습니다 적어도 마이그레이션 프로세스 중에, 우리는 하나의 논리적 네트워크가 필요했습니다 GCP와 데이터 센터간에 팀은 속도를 낼 수 있어야했습니다 GCP의 서비스 온 프레미스 데이터 센터로 마찬가지로, 데이터베이스 호출을 공유 할 수 있어야했습니다

따라서 하나의 큰 네트워크에서 전체 회사를 덤핑하는 것을 피하려면, 우리는 헤어졌다 우리는 공유 VPC 네트워크로 분할했습니다 팀은 자체 서브 네트워크를 가지고 있으며 회전 할 수 있습니다 서비스를 제공합니다 팀은 GCP를 통해 다른 팀과 커뮤니케이션 할 수 있으며, 데이터 센터로 돌아갈 수 있습니다

우리는 클라우드 상호 연결로이 작업을 수행했습니다 그리고 이것은 정말로 중요했습니다 나는 강조하는 것이 중요하다고 생각한다 우리는 GCP에 생산 어플리케이션을 가지고 있었다 처음부터

스테이징 환경을 설정할 필요가 없었습니다 그런 다음 하루 만에 회사를 삭감했습니다 우리는 GCP를 운영하는 주말부터 서비스를 제공 받았습니다 그래서 이것은 법원의 도전 중 하나를 회사로 수출합니다 우리가 데이터 센터 GCP에서 가지고 있던 제한된 출구를 다루었습니다

데이터 센터 내부 – 그것은 거대한 데이터 센터입니다 우리는 엄청난 대역폭을 가지고 있습니다 그러나 우리는이 모든 데이터를 가져올 수 있도록 최적화하지 않았습니다 데이터 센터의 우리는 하루가 끝나면 약 50 기가 바이트로 제한되었습니다 GCP로 분명히 우리는 이것을 다시 설계 할 수있었습니다

우리는 더 큰 연결을 구축 할 수있었습니다 그러나 우리는 데이터 센터를 업그레이드하는 데 수백만 달러를 낭비하지 않았습니다 우리가 그것을 끄려고 할 때, 단지 6 개월 정도 유지해야합니다 전송 장치가 제대로 작동하지 않는 이유 우리는 LiveRamp의 데이터 중 아주 작은 부분만을 차지합니다 프로세스는 실제로 콜드 데이터입니다

우리는 끊임없이 고객으로부터 수입품을 받고 있습니다 데이터를 지속적으로 새로 고침 우리의 데이터 소스에서 데이터를 GCP로 전송하는 데 며칠이 걸릴 수는 없습니다 처리를 재개하십시오 우리가 명심해야만했던 또 다른 것 클라우드의 데이터 이탈은 매우 비싸다는 것입니다

클라우드 공급자 – Google뿐 아니라 – 모든 종류의 마약상 입구 Ingress는 완전히 무료입니다 맞습니까? 거기에 모든 데이터를 입력하십시오 훌륭합니다

그러나 테라 바이트 급의 데이터를 빼내고 싶다면, 그것은 매우 비싸게되고, 특히 그것이 일상적인 일 처리 파이프 라인의 일부라면 그래서 50 기가비트 그리고 당신은 50 기가비트처럼 좋다고 말할 수 있습니다 누구에게나 충분할 것 같은데 그리고 그것은 입력 데이터를위한 것입니다

우리는 경기에서 10 테라 바이트의 데이터를 얻습니다 고객 데이터 및 물건 그리고 우리는 하루에 10 테라 바이트 이상을 배달하지 않습니다 고객에게 전달합니다 그러나 우리가하는 일의 성격 때문에, 우리는 거대한 분산 조인을 가지고 있습니다

우리의 데이터 처리 파이프 라인의 중간에 우리는 하루에 500 테라 바이트를 읽고 쓰고 있습니다 연결을 끊으면 팀이 매우 쉽습니다 잘못된 위치에서 완전히 상호 연결을 포화시킬 수 있습니다 이것은 복잡한 문제입니다 우리는 그것으로 전체 이야기를 채울 수 있습니다

그러나 짧은 버전은 우리가 내부 서비스를 팀을위한 우선 순위 방식으로 데이터를 복사합니다 팀은 서비스를 위해 인터커넥트를 자유롭게 사용할 수 있었다 및 데이터베이스 호출을 포함하지만 데이터 인프라 팀 모든 제출 된 사본을 처리했다 우리는 그 (것)들을이 서비스에 복종시키기 위하여 그 (것)들을 요청했다 이를 통해 생산 데이터 전송의 우선 순위를 결정할 수 있습니다

짧은 SLA를 가진 제품, 우리가 약속 한 제품 매우 짧은 시간 내에 고객에게 전달됩니다 저온 데이터가 전송되면 우선 순위를 낮출 수 있습니다 그리고 결국 그것은 일어날 것입니다 정말 비판적으로 또한 주어진 대역폭에서 누가 우리 대역폭을 사용했는지에 대한 우리의 통찰력 시각 따라서 우리 팀이 파일을 직접 복사하는 경우, 당신은 TCP 덤프 주위에 몸을 피워야 할거야

2시에 누가 인터커넥트를 사용하고 있었는지 알아 내기 위해 AM 어제 밤, 그래서 모든 것이 실패했습니다 대신 Datadog 대시 보드를 살펴볼 수 있습니다 그리고 오, 앱 X는 오전 2시에 대역폭의 xyz를 사용하고 있었다고 말합니다 이러한 제약 조건은 전체 구조를 결정했습니다 데이터 이전에 대한 우리는 우리 파이프 라인의 끝에서 시작했습니다

애플리케이션을 마이그레이션 할 것입니다 HDFS에서 직접 데이터를 가져 오는 대신, 그들은 인프라 데이터 복제기를 호출 할 것입니다 서비스는 HDFS에서 입력을 복사하는 것을 처리합니다 다시 GCS로 그리고 평소와 같이 그들을 소비 할 것입니다

업스트림 응용 프로그램이 이전되면, 더 이상 복제를 수행 할 필요가 없습니다 데이터는 기본적으로 GCS에 존재하지만, 우리는 그 과정을 계속할 것입니다, 꼬리 처리 파이프 라인의 머리로 그리고 그 곳에서 우리는 현재 중도에 대한 회사로 있습니다 그것을 통해 우리가 여전히 우리가 연결을 포화시키지 않았다 그러나 이것이 우리가 이전 한 방법의 전반적인 구조입니다

그래서 그것은 매우 요약 된 버전입니다 우리가 GCP에 어떻게 접근하고 있는지 마지막으로 가장 흥미로운 질문은 다음에 오는 것입니다 우리는 어떻게 일을 다시 엔지니어링 할 것인가? 클라우드 기반으로 실제 업무에? 나는 경찰에 나가서 너에게 말할거야 우리는 아직 실제로 그 질문에 대한 강한 대답을 가지고 있지 않습니다

실시간 쿼리를 위해서는 최소한 Bigtable이 필요합니다 Bigtable에 실시간 쿼리가 포함됩니다 상당량의 BigQuery가 포함됩니다 임시 쿼리의 경우 경량 데이터의 데이터 흐름 변형 하지만 내가 모르는 주된 이유는 개발자 주도형이 될 것입니다

우리의 목표는 인프라 팀을위한 것입니다 더 이상 이러한 결정을 내릴 수 없습니다 인프라가 도움이 될 것입니다 인프라는 사람들을위한 도구를 구축 할 것입니다 그러나 하루가 끝날 무렵에는 구름 속에 있었고, 개발자가 인프라를 프로비저닝 할 수 있음을 의미합니다

적절한시기에 필요할 때 필요합니다 그래서 목표는 내년에, 잘하면, 일부 응용 프로그램입니다 팀이 6 시부 터 취한 방법에 대해 이야기 할 것입니다 60 분의 BigQuery로 바꿨습니다 응용 프로그램 또는 Bigtable 스크립트 또는 뭔가 하지만 우리가 말할 수는 없으니까

아직 거기에 없다 그래, 그게 내가 가진 전부 야 나는 물건을 패트릭에게 돌려 줄 것이다 고마워, 모두들 [박수 갈채] PATRICK RAYMOND : 안녕하세요, 고마워요

제 이름은 패트릭 레이먼드입니다 인프라 스트럭처의 제품 관리자입니다 LiveRamp에서 소대 이 마이그레이션에 대해 이야기하고 싶습니다 사샤가 말했던 것처럼, 우리는 생각하고 싶었습니다

이것에 대해서는 조금 다르게 어쩌면 PMO 또는 프로젝트 관리에 특정한 것보다, 제품 자체와 같이 생각하면됩니다 그래서 당신은 사샤와 벤의 주제를 들었다 이것은 거대하고 복잡한 문제입니다 그리고 일들이 많이 바뀔 것입니다 그래서 조금 혼란 스러울 수 있습니다

그리고 그것은 약간 압도적 일 수 있습니다 그리고 당신은 당신이 네가 네 인생을이 왼쪽에 보냈다는 느낌, 당신은 아마이 디자인의 삐걱 거리는 소리에 익숙 할 것입니다 그러나 이것은 우리 프로세스와 매우 유사합니다 처음 시작했을 때, 우리의 모든 질문 대답이 여기 왼쪽에 나온 것처럼 느껴졌습니다 그러나 우리가 팀과 반복하기 시작하면서, 우리는 우리가 가고 있지 않다는 것을 깨달았다

이 질문에 대한 완벽한 대답을 찾으십시오 그래서 우리는 시간이 지남에 따라, 우리는 더 많이 오른쪽 방향으로 움직였습니다 그리고 일이 훨씬 더 분명 해지기 시작했습니다 그래서 아마도 이것은 아마도 중요한 일이라고 생각합니다 이게 당신 회사가 뭔가라면 너 한테 일어난다

준비하기 때문에 어딘가에 뛰어 들기가 가장 좋습니다 의사 결정을 시작하십시오 Ben은 또한 팀이 의사 결정을 내리고 있다고 언급했습니다 자신의 인프라에 대해 그래서 우리는 또한이 구별에 대해서 생각하고 싶었습니다

데이터 센터에서 클라우드로 마이그레이션 할 때, 물론, 당신에게 유용한 도구가 많이 있습니다 그러나 모든 문제를 즉시 해결할 수는 없습니다 당신이 들었던 것처럼, 우리가하고있는 것들 중 일부는 순수한 상승과 교대 일뿐입니다 그래서 우리가하지 않는 것이 중요합니다 모든 이해 관계자에게 곧 약속한다

당신이 구름으로 이동할 때, 당신의 모든 문제가 해결됩니다 왜냐하면 그것은 사실이 아니기 때문입니다 그리고 우리는 브랜드로 끝나지 않을 것입니다 새로운 회사 그래서 우리는 문제의 범위를 정확하게 정하고 싶었습니다

이해 관계자들이 이해할 수있는 우리가 조사한 것 그래서 나는 지금 조금 이야기하고 싶다 이해 관계자의 의견 수렴에 대해 이 아이디어를 중심으로 우리가 한 일은 우리가 제공 할 가치를 명확히함으로써 우리는 또한 일을하지 않는 비용에 대해서 이야기하고 싶었습니다 그리고 주로 우리가이 기능을 수행 한 기능입니다 그래서 아마도 위의 성명서 여기 모두가 깊이 이해할 필요가있다

당신이하려는 일 이해 관계자가 누구인지 알아야합니다 아마 어리석은 짓을하는 것 같아요 하지만 너는 스스로에게 많은 질문을 할 수있다 누가 인프라를 소비하는지, 누가 당신에게 보안을 제공 할 예산을 보유하고 있습니다 규정 준수 승인 클라우드에서 작동해야합니까? 그리고 그것들은 당신의 이해 관계자들입니다

그리고 그들은 모두 다른 것들에 관심이 있습니다 따라서 서로 다른 방식으로 정렬하는 것이 중요합니다 그리고 우리의 임원 팀에게는 우리가 그들을 도울 수있는 방법에 관해 그들과 이야기하고 싶었다 미래의 목표, 우리가 도울 수있는 방법 그들은 이윤을 높이고 앞으로 나아 간다 회사 이니셔티브와 함께 우리의 개발자들은 새로운 인프라를보다 나은 방법으로 활용하는 방법, 자신의 배를 선장하여 자신의 제품을 만들 수 있습니다

그리고 우리 제품 팀은 제품에 대한 통찰력을 원합니다 비용에 대한 세분화 된 이해를 원합니다 그리고 제가 말씀 드렸듯이, 일을하지 않는 비용 우리에게는 계속 된 비용이있었습니다 온 프레미스 데이터 센터의 지속적인 비용 부족이 있습니다

더 복잡하고 제한적인 제품이 있습니다 기존 데이터 센터에서 작업 할 때 그리고 우리가 이것을 사교적으로 이해할 때, 우리는 Ben이 말한 것처럼, 사람들은 우리가 계속 돈을 벌기를 원했습니다 그래서 우리는 제품을 선적해야했습니다 그래서 우선 순위를 정하는 방법을 알아야했습니다 이해 관계자들이 주위에 정렬

그리고 당신에게 규모의 아이디어를주기 위해서입니다 우리가 우선 순위에 대해 이야기하고있는 것, 우리는 5 개국에 22 개의 팀을두고 있습니다 아마도이 방에있는 많은 사람들과 매우 비슷할 것입니다 전 세계에 걸쳐 이러한 유형의 우선 순위를 유지합니다 1 년 넘게 할 일은 매우 어렵습니다

하지만 가능합니다 따라서 이것은 매우 명백한 진술입니다 그러나 모든 것이 최우선 순위 일 때 각 팀마다, 우선 순위를 매길 수는 없습니다 따라서 운송을 계속해야한다는 것을 알고 있습니다 우리는 모든 사람이 그들에게 최우선 순위

그러면 우리는 그걸 어떻게해야합니까? 우리는 어떻게 그 일을합니까? Sasha가 언급 한 것처럼 모든 팀 스크럼을 어떤 형식이나 방식으로 사용하십시오 각 팀이하는 일 중 하나 그들은 비즈니스 가치 회의를 가지고 있습니다 그리고 제품 관리자로서 저는 참석하는 데 관심이 있습니다 모든 비즈니스 회의 및 비즈니스 가치 회의, 그들이 작품 가치를 이해하도록 돕는다 우리가 할거야

나는 회의에 올 것이고 말할 것이다 일의 비용, 이야기 일을하지 않는 데 드는 비용에 관해서도 도움이된다 엔지니어링 팀은 그들이 할 수있는 것을 이해합니다 클라우드에서 이익을 얻으십시오 여기에서 가장 큰 것은 실제로 존재해야합니다

참석할 많은 모임이 있습니다 하지만 모두가 이해할 수 있도록 거기에 있어야합니다 가치 그리고 거기에 계신다면 약속하지 않는 것과 같은 것에 대해 이야기 할 수있다 네가 지킬 수는 없지만 큰 이점에 대해 이야기해라

OC 시간 단축, 반복 증가 신제품의 속도, 투명하게 비용을 드러냄 엔지니어가 내게 말한 것이죠 나는이 모든 모임에 순찰을 가면서 너는 너의 모든 시간을 헌신적으로 보낼 수 없다는 것이었다 비즈니스에 도움이되므로 빌드하는 것이 중요합니다 노력을 밑에서부터

그래서 마음과 마음을 이길 수 있다면 엔지니어링 팀 중 그것들은 우선 순위를 정하는데 도움이됩니다 그것은 당신을 위해 훨씬 쉽게, 너의 구석에서 싸우는 사람들이 많기 때문에 우선 순위가 정해 지도록하려면 이 일을하는 유일한 사람이되기보다는 그리고 나는 과도한 의사 전달이 정말 귀중합니다 이것은 사샤가 제가 배운 것을 도운 것입니다 당신은 기본적으로 요점에 도달해야합니다

당신이 방에서 성가신 사람인 것처럼 느껴지는 곳 모두가보기 싫어하고, 나는 그 시점에서 생각한다 아마 요점에 다다를거야 귀하의 메시지가 분명 해지고 반복해서 반복했다 그리고 또한 기억하는 것이 중요합니다 이러한 모든 팀 및 이해 관계자와 함께, 그렇지 않은 경우 우선 순위에 대해 이야기하면 다른 사람이 될 것입니다

그리고 새로운 제품을 가진 사람들이 많이있을 것입니다 새로운 아이디어, 그리고 새로운 수익 창출 방법을 제시합니다 그러니 나가서 모든 사람이 이것을 정기적으로 이해합니다 그래서 우리는 주간지 모임에 참석함으로써 그렇게합니다 정기적 인 제품 회의 참석, 우리가 할 수있는 기회가 있다면 어디에서나 발표 할 수 있습니다

우리는 또한 많은 위험에 대해서 이야기합니다 분명히, 끊임없이 일어날 것입니다 그래서 너는 그 일들보다 앞서 나가고 싶어 그 (것)들을 완화하는 당신의 계획을 개발하십시오 그래서 우리가 시도한 한 사람의 쇼처럼 불가능합니다

잠시 동안,하지만 당신은 도움이 필요한 사람들을 고용해야합니다 당신은이 아이디어를 나타냅니다 그래서 우리는 훌륭한 팀을 고용했습니다 그것은 작은 팀이지만 열렬한 두 사람 이 메시지를 전달하는 데 도움을 준 사람 이러한 일정이 가능할 것입니다 그리고 제가 언급 한 것처럼, 우리가 생각하기 전에 정말 다른 관점에서 계획하는 것에 대해서도 마찬가지입니다 우리는 가능한 한 마른 상태로 유지하려고했습니다

우리는 무슨 일이 일어나고 있는지 이해하기에 충분한 계획을 세우고 싶었습니다 그러나 우리는 크게 방해받지 않으려 고했습니다 우리는 개발자들이 이 문제를 해결하는 것이 문제에 가장 가깝습니다 그들은 가장 많은 접촉을 가지고 있으며, 그들은 이런 일을하는 가장 좋은 방법을 우리에게 말해 줄 수 있습니다 그래서 우리는 모든 프로세스가 계획을 세우는 것이 기본적으로 배경이었습니다

정보 수집 장소였습니다 우리가 진행하고있는 진전을 이해하기 위해서, 그러나 그 과정 자체는 무거운 짐을 덜어줍니다 수 많은 스프레드 시트와 업데이트에 관한 회의가 아닙니다 그리고 우리는 우리 자신을 팀으로 생각합니다 그것은 다른 모든 팀 사이의 결합 조직입니다

그래서 우리는 정보의 올바른 균형을 찾고 싶었습니다 이해 관계자들은 실제로 무엇을 했습니까? 이 다른 옵션들과 비교하여, 알고 싶어합니다 우리가 계획을 위해 사용할 수있는 것 그래서 우리는 물었습니다 그리고 이것이 그들이 원하는 것입니다

믿기지 않게 간단합니다 그러나 누가 일하고 있는가? 얼마나 진전 되었습니까? 그리고 얼마나 많은 사람들의 거대한 카운터 마감일까지 남은 일 이것은 회사 전체에서 광범위하게 출판됩니다 누구나 그것에 접근 할 수 있습니다 그리고 우리는 이것이 업데이트되었는지 확인하려고 노력합니다

이것은 실제로 자체적으로 정기적으로 업데이트됩니다 그것은 완전히 자동화되어 있습니다 그러나 우리는 이것이 노출되어 있는지 확인하기를 원합니다 그래서 우리는 월 1 회 이그 제 큐 티브 스테이크 홀더 회의뿐만 아니라, 다시, dev에 회의 및 제품 회의 이 전체 프로세스의 핵심은 Sasha입니다

이전에 Cake 프로세스를 언급했다 거버넌스 승인 우리는 프로젝트 계획을 수행하는 방법과 동일한 방법으로 생각했습니다 그래서 우리는 정말 간단한 방법을 개발했습니다 Jira 제품 로드맵

마이그레이션하는 각 팀마다 티켓이 있습니다 매주 우리는 일을 정리 한 목록을 기록합니다 우리는 알고 싶어합니다 그들은 모든 응용 프로그램에 대해 일련의 하위 작업을 수행합니다 그들이 이주하고 있다는 것을

그리고 그들은 티켓을 업데이트합니다 이것이 모든 22 개 팀의 단일 진실입니다 우리는 무슨 일이 일어나고 있는지 정확히 알고 있습니다 그들은 우리에게 업데이트를 제공합니다 그리고 그 정보는 모두 다음과 같습니다

미끄러 져서 우리 대시 보드에 완전히 넣었다 자동으로 그래서 이것은 우리에게 정말로 도움이되었습니다 그런 결정은 한 곳에서 녹화되며 모두에게 제공됩니다 보다 그래서이 모든 것들이 훌륭합니다

그러나 변화는 정기적으로 일어난다 그래서 우리는 작업 우선 순위를 낮출 수있는 방법이 필요했습니다 우리는 물건이 완전히 옆으로 빨리 갈 수 있다는 것을 압니다 새로운 개인 정보 보호 규정이 생길 수 있습니다 아무거나는 일어날 수있다

우리 사업만큼이나 그렇습니다 에 따라 영향이있을 것이라는 점에 동의합니다 우리가하는 변화와 모든 사람에게 앞으로 나아가는 것에 동의한다 우리는 그것으로 완전히 멋져요 다시 Jira 프로젝트를 사용합니다

변경 사항이 발표되면 기록됩니다 Jira 티켓에 넣은 다음 모든 이해 관계자 팀과의 만남 결정을 내리고, 우선 순위가 결정되며, Jira 티켓에 기록됩니다 모두가 볼 수 있도록 다시 게시됩니다 일어날 일에 대해 의문의 여지가 없습니다 모두가 변화와 모든 것을 알고 있습니다

영향을 이해합니다 그래서 그것은 당신을 위해서도 변할 것입니다 그리고 나는 괜찮다고 생각한다 나는 그것이 일어날 것이라는 것을 당신이 안다는 한 오래 생각합니다 그리고 당신은 그걸 준비하고 있습니다

그렇다면 정말로 그렇게해서는 안됩니다 너무 어려워 그래서 실제로 들었습니다 미안, 나는 조금 앞으로 뛰어 올랐다 그래서이 부분도 생각하고 있습니다

우리 팀에 대한 우리의 생각 앞으로 올 모든 변화에 대비할 준비가되어 있습니다 그래서 그들은 자체 인프라를 소유하게 될 것입니다 우리가 시작했을 때부터 큰 변화입니다 그들은 이전에 없었던 일들에 책임이 있습니다 새로운 팀을 시작하기위한 프로세스에 대해 생각할 때 그들의 일, 우리는 그들에게 많은 시간을 보내 게한다

도구를 알게되고, 훈련을 받고, 이미 개발 팀과 협력 전에 이것을 통해, 그리고 실제로 새로운 기술로 무슨 일이 일어나는지 이해하십시오 그들이 사용할 거라고? 그래서 우리는 그 시간의 우선 순위를 정해야합니다 우리는 모든 팀에 투자해야합니다 그리고 가장 중요한 것은 이것이 아마도 프로젝트에서 자주 언급하지 않는 것 그러나 우리는 우리 팀을 정말로 염려합니다 우리는 우리가 많은 것을 요구하고 있다는 것을 이해합니다

키보드에 손을 댄 사람입니다 매일, 그리고 그들은 만드는 사람들입니다 이 변환이 가능합니다 그래서 우리는 그들의 일에 감사하는 시간을 많이 보냅니다 그리고 우리는 우리의 경영 팀, 제품 팀, 엔지니어링 팀은 모두이 작업을 인식합니다

그래서 충고의 큰 조각 – 당신의 프로젝트로 곰팡이를 깨뜨리는 것을 두려워하지 마십시오 우리는 개인적으로 파티하기를 좋아합니다 그런 거대한 프로젝트 – 지속적인 1 년 프로젝트와 같습니다 사람들은 매우 피곤하고 일종의 떠남에 대해 생각하며, 아니면 그들은 떠날 것입니다 그러나 우리는 모두가 완료되는 작업의 이점을 이해합니다

그래서 저는 Kelsey Hightower의 인용문을 닫고 싶습니다 우리가 서명 한 직후, 우리는 고객 회의를 가졌습니다 우리가 참석했다 그리고 우리는 그가 우리가 유일한 회사라고 말했다 그걸 들었다고 스스로 들려서 거대한 파티를 열었 어

구글과 계약을 맺은 후 그래서 이것은이 과정에 대한 우리의 생각을 구현합니다 일어나는 모든 것은 축하받습니다 우리 셋이 여기까지 올거 같아 오늘이 자리에 서게되어 매우 운이 좋았습니다 LiveRamp에서 위대한 팀

그리고 나는 그들 모두에게 고맙다고 말하고 싶다 매일 이것을 가능하게하기 위해서 [음악 재생]

A GCP developer’s guide to building real-time data analysis pipelines (Google Cloud Next ’17)

[음악 재생] 라파엘 페르난데스 : 그렇습니다 고맙습니다

나는 라파엘 페르난데즈입니다 SLAVA CHERNYAK : 저는 Slava Chernyak입니다 RAFAEL FERNANDEZ : 우리는 Cloud Dataflow, 우리는 오늘 이곳에 와서 당신에게 이야기하게되어 매우 기쁩니다 데모 중 하나에서 발생한 일에 대해 조금 더 기조 연설에서 오늘 아침에 본 것을 특히, 택시 데이터 데모

그래서 우리는 그것에 대해 자세히 살펴볼 것입니다 우리는 연속 이벤트 처리에 초점을 맞출 것입니다 Cloud Dataflow를 사용하는 데모의 측면 우리는 GCP로서 당신의 모습을 면밀히 살펴볼 것입니다 개발자, 우리가 가지고있는 다양한 서비스를 구성 할 수 있습니다

플랫폼에서 모든 다양한 보완 데이터 처리 패턴 최신 응용 프로그램에 필요합니다 우리는 또한 약간의 시간을 강조 할 것이다 Cloud Dataflow 서비스의 매우 강력한 기능인 연속 계산을 업데이트 할 수 있습니다 실시간 오늘 우리가 이야기 할 서비스 Cloud Pub / Sub, Cloud Dataflow 및 BigQuery입니다

그들은 모두 완벽하게 관리되며, 모두 확장 가능하며, 그리고 다른 일들을하십시오 Cloud Pub / Sub는 Pub / Sub 게시 및 구독 서비스입니다 그것은 전 세계에 걸쳐 이루어지기 때문에 최소한 한 번 배달을 보장합니다 Cloud Dataflow는 완벽하게 관리되는 데이터 처리 서비스입니다 프로그램을 실행할 수있게 해주는 데이터를 일괄 처리 또는 스트리밍 모드로 평가합니다

그것은 매우 강력한 프로그래밍 모델과 함께 제공됩니다, 개발자에게 수년간 집중 한 결과입니다 Google에서의 경험 – 우리는 당신이 그렇게 생각한다고 생각합니다 그리고이 프로그래밍 모델이하는 일 더 높은 수준의 추상화를 유지할 수 있습니다 데이터 변환, 분산 시스템으로 이동하는 대신 수준과 그 모든 복잡한 마지막으로, BigQuery는 완전히 관리됩니다

분석을위한 페타 바이트 규모의 저비용 데이터웨어 하우스 데이터 분석가들에게 인기가 있습니다 우리가 여기서하고 싶은 것은 우리가 원하는 것입니다 원격 측정 데이터의 실시간 스트림을 사용하는 방법 그것은 뉴욕시 지역의 택시에서 오는 것이고, 이 데이터를위한 일련의 데이터 경로를 만들고 싶습니다 우리는 그것을 처리 할 것이고 우리는 서로 다른 경험을 할 수 있습니다 이러한 경험 중 하나는 실시간 시각화 일 수 있습니다

이 데이터는 뉴욕 메트로 지역에서 발생합니다 당신이 상상할 수있는 것처럼 우리는 Cloud Pub / Sub에 의존하게 될 것입니다 이러한 메시지를 전달하려면 이 신청서에 직접 청구하는 것이 현명한 선택이 아닙니다 클라이언트에서 당신의 고객, 하나의 머신이 있다면 이 데이터를 표시 할 책임이있다 이 모든 계산을 수행하면, 당신은 그 경험으로 끝낼 것입니다

이게 많이 생겼어 기본적으로 배달되지 않은 메시지 대기열이 늘어납니다 그것은 아마도 당신이 활발한지도에서 원하는 것이 아니며, 또는 활발한 전시에서 귀하는이 데이터를 계속 처리 할 것이며, 하지만 당신이 얻는 결과는 활기차고 너는 실제로 뒤쳐져있다 그래서 이것은 우리가이 부분을 위해 필요하다는 것을 암시합니다 우리의 가공, 다른 전략 추가로 다른 요구 사항이있을 수 있습니다 네가 상대하고 있기 때문에 생기 넘치다

하루가 끝나면 돈이 생기는 데이터 따라서 정확성, 완전성, 신뢰성, 확장 성, 그리고 성능은 때로는 내장되어 있습니다 여기에서 데이터를 처리합니다 우리는 그들을 존경해야합니다 우리는 또한 생기의이 요구 사항을 가지고 있습니다

이는 지속적인 이벤트 처리를 제안하며, 우리가하려고하는 또 다른 일 우리는 함께 데이터를 보관할 것인가, 추가 변환을 위해 몇 가지 변환을 포함합니다 데이터를 저장할 수있는 시스템이 있으므로 아주 좋은 경제적 인 비율로 우리는 모든 것을 보관할 수 있습니다 애널리스트가 나중에 공부하고보고 싶어 그것들에 덧붙여 좀 더 통찰력을 끌어 내라 너는 살아있는거야 이러한 유형의 활동에서 흔히 볼 수있는 또 다른 사항 귀하의 응용 프로그램 cc 관리에주의를 기울이고 있습니다 – 업데이트를 조정하는 방법은 무엇입니까? 그래서 우리는 그것에 대해서 조금 이야기 할 것입니다

하나의 구체적인 예부터 시작하겠습니다 셀 수 있습니다 슬라바, 가져가 SLAVA CHERNYAK : 고마워, Rafael 그럼 우리 택시 데이터로 무엇을하고 싶은지 이야기 해 봅시다

택시 텔레 메 트리가 도착하고 이미 우리가 그것을 우리가 우리에게 우리 비주얼 라이저의 단일 기계에서 처리 할 수 ​​있습니다 우리는 데이터 흐름을 사용하여 우리를 위해이 작업을 수행하는 파이프 라인 시간 그건 원시 택시 telemetry 걸릴 것입니다 그리고 그것을 변형 시간과 공간에서 응축 된 어떤 것으로, 그러나 우리는 이것을 다음과 같은 방식으로하고 싶습니다 우리 시각화를위한 충분한 정보를 보존한다 여전히 정확합니다

우리는 어떻게해야 하는지를 단계별로 설명 할 것입니다 원시 택시 원격 측정 데이터는 이렇게 보입니다 우리는 위도와 경도를 알고 있습니다 택시의 가장 최근 위치에 대한 타임 스탬프가 있습니다 다른 추가 메타 데이터가 있습니다

얼마나 많은 사람들이 택시에 있는지와 같은 또는 현재의 택시 미터가 읽은 값이 무엇인지 그렇다면이 데이터를 시간과 공간에서 응축하는 방법은 무엇입니까? 음, 우선 우리는 시간에 맞추어 데이터를 Window에 놓을 것입니다 내가 의미하는 바는 우리가 함께 그룹화 할 것이라는 것입니다 충분히 발생한 모든 포인트 시간이 서로 가깝다 간격 1에서 2 사이의 모든 점 – 여기 3 점을 함께 묶었습니다

해당 간격에서 발생한 모든 포인트 2 시부 터 3 시까 지 여기에 함께 그룹화됩니다 다음으로해야 할 일은 포인트를 그룹화하는 것입니다 공간에서 여기서도 우리가하는 일은 그룹핑을 지정하는 것입니다

위치에 따라 따라서 Window 내의 XY 포인트는 함께 그룹화됩니다 그것은 두 가지 점입니다 창 내의 KM 포인트는 함께 그룹화됩니다 1 대 2 창에 대한 1 점입니다 2 대 3 창에 대해 1 점을 표시합니다

마침내 우리가하는 일은 우리가 세는 것입니다 그러한 시간과 공간 그룹의 각 포인트 결과를 발표 할 준비가되었습니다 이것은 1 대 2 간격으로 x와 y에 대한 두 택시입니다 1 대 2 간격으로 킬로미터 당 하나의 택시, 2 대 3 간격으로 킬로미터 당 하나의 택시 그럼 여기서 실제로 성취 한 것은 무엇입니까? 그럼 우리는 논리적 변환의 집합을 설명했습니다

우리의 입력 데이터에서 우리를 데려 간다 우리의 원시 택시 원격 측정법 – 우리에게주세요 용어로 많이 응축 된 것 스트림의 볼륨의,하지만 여전히 운반 우리의 시각화를 위해 충분한 정보를 얻으십시오 좋아,이 논리적 인 설명은 어떻게 가져 가야합니까? 실제로이를 데이터 흐름 코드로 변환 하시겠습니까? 음, 우리는 이것을 좋아합니다 여기서 모든 코드 행은 정확히 일치합니다

우리가 우리의 데이터에 대해 설명한 논리적 변형에 이르기까지 변환 집합을 인코딩했습니다 원시 택시 텔레 메 트리에서 우리를 움직입니다 응축 된 볼륨 결과 스트림으로 또한 중요한 것은 이것이 실제 데이터 흐름 코드입니다 특히이 코드에는 클러스터 설정, 가상 컴퓨터 회전, 자원 배치, 충돌 또는 장애 복구 이 모든 것들이 Dataflow에 의해 처리되고 있습니다

그렇다면 Dataflow 프로그램은 무엇입니까? 데이터 흐름 프로그램은 논리적 변환을 설명합니다 데이터 수집 이러한 콜렉션은 PCollections라고 불리우며 제한 될 수 있습니다 또는 데이터 스트림의 경우에는 제한이 없습니다 변환은 PTransforms라고하며, 이러한 PC 컬렉션을 통해 실행될 수 있습니다

새로운 PC 컬렉션을 생성합니다 함께하면 우리가 쌓을 수 있습니다 데이터가 변환되는 방법을 설명하는 파이프 라인 입력에서 원하는 결과까지 이 파이프 라인을 살펴보십시오 Pub / Sub에서 읽은 PCollection으로 시작합니다 그리고 이것은 무한의 PCollection입니다

그 데이터가 영원히 계속 도착한다는 것을 의미합니다 그런 다음 PTransforms 시퀀스를 적용합니다 새로운 컬렉션, PC 컬렉션을 모든 시점에서 만듭니다 결과로 나온 PCollection은 Pub / Sub에 다시 기록됩니다 파이프 라인은 멈출 때까지 영원히 계속 실행되지만, 이 출력 PCollection 또한 제한이 없기 때문입니다

우리는 거기에 갈 그래서 우리는 Windowing, Mapping, Count와 같은 Transforms를 사용합니다 이리 이들은 Dataflow SDK에 내장되어 있습니다 당신은 추가 작업을하지 않아야했습니다

코드에서 호출하는 것 외의 다른 것들을 사용하십시오 CombinedRides 또는 CondensedRides와 같은 기타 변형 여기 당신이 쓸 수 있습니다 그래서 여기에 CondensedRide 변환을 보여 드리겠습니다 당신이 작성한 다음 데이터를 통해 병렬로 적용했습니다 근본적으로 그것이하는 것은 그것이 단지 함께 모이는 것입니다 서로 100 미터 이내에 발생한 포인트

따라서이 작업은 데이터를 통해 병렬로 실행됩니다 여기 스트리밍 방식으로 따라서 일단 우리가 파이프 라인을 작성하면, 우리가 그걸 어떻게 할까? Google Cloud Dataflow에서 실행할 수 있습니다 입력을 읽는 곳과 같은 기본적인 것들을 알려줍니다 출력을 쓰는 곳, 몇몇 매개 변수들 우리가 사용하기를 원하는 초기 근로자 수처럼, 그리고 우리는 그것을 실행합니다 실제로 실행하면 어떻게됩니까? 많은 것들이 취해지고 있습니다

우리를 위해 백 엔드의 관심 실행 그래프를 최적화합니다 실행이보다 효율적으로 이루어 지도록합니다 VM을 회전시키고 파이프 라인 코드를 준비합니다 이러한 VM에 대해서는 Pub / Sub를 사용하여 I / O를 관리하고, 그것은 내결함성을위한 지속적인 상태를 관리합니다

그런데 결함 허용에 대해 이야기 해 봅시다 VM이 충돌하거나 다른 종류의 오류가 발생하면 데이터 흐름 실행 엔진 당신을 위해 투명하게 다시 시작할 것입니다 계속 작업하고 데이터가 없습니다 체크 포인팅으로 인해 손실됩니다 파이프 라인 실행에 대한 영속 상태 따라서 데이터 흐름 보장은 항상 기계 충돌, 예외의 경우에도 보존되며, 다른 것

따라서이 파이프 라인이 실행되면 여기에 보이는 것과 같습니다 이것은 UI의 단순한 스냅 샷입니다 Andrea는 오늘 일찍 토크를했습니다 그녀는 UI에서 매우 깊이 들어갔다 그러나 이것은 이것이 어떻게 생겼는지의 스냅 사진입니다

이것은 파이프 라인에 대한 정보를 조금 더 제공합니다 파이프 라인 전체에 대해 알려줍니다 그것은 당신에게 단계에 대해 알려줍니다 처리중인 작업자 수, 메시지 수 파이프 라인의 각 단계에서 소비되고 있습니다 그리고 그런데, 주목한다면,이 파이프 라인 우리가 이전에 그린 논리적 다이어그램과 비슷합니다

따라서 변환에 대한 파이프 라인 중심의보기 데이터에서 수행중인 작업이이 UI에서 유지 관리됩니다 그래서 나는 한 가지에주의를 환기시키고 싶다 여기 구체적으로 말하면, 그건 네가 저기 저기에 스트림의 볼륨을 읽을 수 있습니다 초당 약 20,000 메시지에서 떨어졌습니다 시간과 공간을 줄인 후에 초당 약 2000 건의 메시지로 줄어 들었습니다

이는 원하는 결과 인 10 배 감소입니다 이제 우리는 우리의 시각화가를 지적 할 수 있습니다 우리는 같은 결과를 보았지만 이제는 계속 유지할 수 있습니다 우리는 Pub / Sub를 볼 때 우리가 계속 할 수 있다는 것을 압니다 스택 드라이버의 구독 통계 우리는 수주 잔고가 증가하지 않고 있음을 알 수 있습니다

여기에 초기 스파이크가 있음을 눈치 챘을 때 이것은 데이터 흐름이 돌고있을 때입니다 노동자들이 올라오고있는 동안 우리는 일부 수주 잔고를 짓고 있었고, 작업자가 스핀 업하여 처리를 시작할 때 그들은 그 백로 로그를 휘젓다 그 후로 계속 계속 지켜 왔습니다 이것은 작동중인 Dataflow 프로그램의 한 예입니다

나는 몇 가지 특정 측면에 대해 이야기하고 싶다 흥미로운 데이터 흐름 프로그래밍 API에 대해 설명합니다 특히 나는 이야기하고 싶다 무제한 데이터로 데이터 흐름을 처리하는 방법 우리의 택시 타는 데이터는 제한이 없습니다 이벤트는 영원히 계속 이어 지므로 일반적으로 데이터가 커질수록 우리는 그것을 깨뜨릴 수있다

처리를 위해 작은 덩어리로 전통적인 배치 시스템을 사용하는 경우 우리는 일일 Windows와 같은 것을 할 것입니다 그러나 이것은 정말로 값싼 방법입니다 무제한적인 데이터 처리 무제한 데이터의 어려움 중 하나 알 수없는 지연이있을 수 있으며 데이터가 표시 될 수 있습니다

주문 이 기록을 여기서보십시오 8시에 모두 일어난 기록이 있습니다 하나가 발생했고 즉시 시내로 배달되었습니다 하나가 발생하여 나중에 우리에게 배달되었습니다, 그러나 8시에 발생한이 녹색 기록 여기 6 시간 후에 우리 시냇가에 나타나지 않았다

그리고 그 이유가 누구인지 알 수 있습니다 그것은 여러 가지 이유 때문일 수 있습니다 어쩌면 사용자가 자신의 휴대 전화에서 이벤트가 발생했을 수 있습니다 그런 다음 비행기를 비행기 모드로 전환합니다 6 시간 동안 다시 켜지 않았다

어쩌면 서버가 추락하여 돌아 오지 않았을 수도 있습니다 온라인으로 6 시간 네트워크 지연이 있었을 지 모릅니다 해저 케이블이 어딘가에서 끊겼습니다 누가 알아

요점은 만약 우리가 스트림 처리를 작성한다면 우리는 이러한 지연을 처리 할 수 ​​있어야합니다 네가하는 일에 따라 이러한 지연을 처리하기위한 전략도 다릅니다 일종의 요소 변환을 수행하고 있다면, 엘리먼트 – 와이즈 변환은 당신이 상관하지 않을 수도있다 한 번에 요소를 처리하는 경우 그 요소가 언제 생겼는지 상관하지 않습니다 또는 해당 요소의 컨텍스트를 사용하면이 방법이 유용 할 수 있습니다

네가 원한다면 상황이 더 까다로워 질거야 어떤 종류의 그룹화 또는 집계를 수행합니다 따라서 한 가지 확실한 전략은 Processing Time Windows를 사용하는 것입니다 따라서 스트림과 처리 시간을 줄이고, 그게 무슨 뜻이야? 시계가 틱 할 때마다 1 시간 쯤에 당신은 당신의 시내에 경계를 그립니다 당신이 가진 것을 처리합니다

음, 이해하기 쉽습니다 하지만 이것은 아마도 당신이 원하는 것을주지 않을 것입니다 요소가 지연되거나 순서가 잘못된 경우 그들은 아마도 같은 처리 과정에서 끝나지 않을 것입니다 시간 버킷 예를 들어 두 가지 메시지가 있습니다

둘 다 8시에 일어났다 집계에 그룹화가 포함 된 경우 함께 일어 났을 때 그들에 관한 추론 너는 그걸로 어려움을 겪을거야 그들은 이제 두 개의 서로 다른 처리 시간에있게 될 것이기 때문에 Windows 예를 들어, 나타난 택시를 세고 싶다면 같은 시간에 같은 장소에서, 처리 시간 Windows는 아마도 당신이 원하는 것이 아닙니다 우리가 정말로 갖고 싶은 것은 Event Time Windowing입니다

계략 입력이 도착하는 중입니다 시간 기반 셔플을 수행하려고합니다 이벤트를 기반으로 Windows에 레코드를 저장하는 방법 타임스 Dataflow에서이 작업을 수행하는 방법은 Windowing API를 사용하는 것입니다

Windowing을 사용하면 할 수 있습니다 Windowing을 사용하면 이벤트를 나눌 수 있습니다 이벤트 시간에 따라 Windows로 당신이 올바른 맥락에서 그들에 대해 추론 할 수 있다는 것 따라서 Dataflow는 여러 종류의 Windows를 지원합니다 두 가지 예는 결코 완전한 목록은 아니지만, 가장 간단한 유형 인 고정 윈도우와 같은 것입니다

Windows는 매분, 매시간, 매시간, 매일, 등등 이 Windows는 일반적으로 동일합니다 모든 처리 키에 걸쳐 Sliding Windows와 비슷한 또 다른 예가 있습니다 이것들은 고정 윈도우와 비슷합니다 그러나 작은 창들로 이루어져있다

앞으로 나아가는 시간과 함께 미끄러지도록하십시오 여기서 흥미로운 점은 Windows가 실제로 겹쳐서 감기다 또 다른 재미있는 예는 Session Windows와 같은 것입니다 그래서 세션은 그것들이 둘러싸인 활동의 사건들입니다 활동하지 않는 기간

세션에 대한 재미있는 점 세션 윈도우의 경계 데이터 자체의 기능입니다 그들은 선험적으로 알 수 없습니다 따라서 데이터를 처리하면서 계산해야합니다 데이터에 완전히 의존하고 매우 다르게 의존 할 것입니다 키에서 키로

따라서 이것은 가능하거나 쉽게 할 수있는 것이 아닙니다 전통적인 배치 시스템으로 데이터 흐름으로 처리하기 쉽습니다 물론 다른 윈도우도 가능합니다 구현의 문제이다 그리고 귀하의 신청서의 요구 사항이 무엇이든간에

그래서 Windows는 우리가 Event Time 우리는 집계를 수행하고 싶습니다 우리는 여전히 다른 질문에 답할 필요가 있습니다 처리 시간에 우리는 결과를 낼 준비가되었습니다 그렇게하기 위해서는 먼저 이벤트 시간 간의 관계를보다 잘 정의하기 위해 처리 시간 여기이 그래프를 보도록하겠습니다

수평 축에는 이벤트 시간, 세로 축에는 처리 시간이 있습니다 그리고 일어나는 모든 사건은 우리 시스템으로 전달됩니다 우리 시스템에 의해 처리됩니다 이 그래프의 어딘가에서 끝나야합니다 이벤트가있는 이상적인 세상에서 즉시 우리에게 배달되어 즉시 처리되며, 모든 사건은이 이상적인 대각선을 가로 지르거나 그 이상을 따라 줄 것입니다 따라서 동일한 이벤트에서 전달 및 처리됩니다

우리가 이벤트와 동일한 처리 시간을 처리 할 때 발생 시간 물론 현실은 그렇게 좋지 않습니다 네트워크 지연, 처리 중임을 알고 있습니다 순간적이지 않다 사실 모든 사건이 어딘가에서 끝납니다

이 이상적인 대각선 위 데이터 흐름은 우리가 완전성에 대해 추론 할 수있게 해주는 워터 마크 워터 마크는이 대각선보다 얼마나 멀리 떨어져 있는지 알려줍니다 우리는 그 이상의 경계를 그릴 수 있습니다 더 이상 이벤트를 볼 것으로 예상됩니다

이 워터 마크는이 그래프에서 빨간색 선으로 표시됩니다 우리가 우리의 근원에 관한 모든 것을 완벽하게 알고 있다면 – 그래서 우리가 출처에서 읽는다면 우리는 모든 것을 완벽하고 완전하게 알고 있습니다 워터 마크는 우리 시스템에서의 보증입니다 우리는이 지연을 넘어서 아무것도 본적이 없다 물론 많은 경우에 우리의 지식은 불완전합니다

따라서 워터 마크는 불완전한 보증입니다 정말 우리에게 말하는 발견 적 방법입니다 시스템의 지식을 최대한 활용하여 언제 새로운 데이터를 볼 것으로 예상하지 않습니까? 어느 쪽이든 워터 마크가 우리에게 말할 수 있습니다 주어진 Window에 대한 모든 데이터를 가지기를 기대할 때, 그러므로 그것이 올 바르면, 우리가 아는 한, 우리가 아는 한 최선을 다하여, 결과를 내 보냅니다 그래서 우리가 창문을 다시 본다면 시간 기반 셔플로 볼 수 있습니다

워터 마크를 사용하여 방출시기를 알 수있는 방법 창 결과 그러나 워터 마크가 모든 것이 아닐 수도 있습니다 트리거 출력에 사용하려는 두 가지 주요 이유가 있습니다 다른 것을 고려해야합니다 우선, 워터 마크가 너무 느려서 말할 수 있습니다 워터 마크는 가능한 한 보수적이되도록 노력하고 있습니다

모든 이벤트를 추적하려고합니다 시스템의 관점에서 위대한 완전성의, 그러나 아마 당신은 상관하지 않는다 예를 들어 매일 Windows를 사용하는 경우, 당신은 당신의 결과물을 얻지 못할 것입니다 아주 이른 시간에 하루가 끝날 때까지, 그러나 당신은 투기적인 초기 결과를 원할지도 모른다 일찍이

Dataflow가 API를 트리거하므로 트리거 할 수 있습니다 초기의 투기 적 산출 워터 마크가 너무 빠를 수도 있습니다 우리는 이미 우리가 모든 것을 알지 못한다면 우리의 근원에 관하여, 근원을 의미하는 늦게 또는 순서가 잘못된 데이터를 생성 할 수 있으며, 워터 마크가 불완전 할 수 있습니다 워터 마크 이후에도 이벤트가 올 수 있습니다

이미 발전했다 이 경우 Dataflow는 지연 데이터 트리거를 제공합니다 지연된 데이터가 순서대로 발생하면이를 처리 할 수 ​​있습니다 결과를 업데이트합니다 이제이 예제를 조금 만들어 보겠습니다

여기 우리는 Windows 2 분짜리 Windows를 가지고 있습니다 Event Time Windows – 워터 마크에 의해 닫히고 있습니다 그래서 우리는이 Windows에서 무엇을하고 있습니다 우리는 누적 합계를 만들고 있습니까? 처리 시간이 진행됨에 따라, 이 그래프에서 위로 표시된 것처럼 워터 마크가있을 때 우리가 언제 창을 닫을 수 있는지 알고있다 Window 경계를 패스합니다

여기에 하나의 이벤트가 있음을 주목하십시오 그것은 어떤 창, 그 사건에도 포함되어 있지 않습니다 9의 값으로, 그것은 늦은 데이터이기 때문입니다 내가 말했듯이 그것은 근원에 의해 방출 된 사건이었다 워터 마크가 이미 고급화 된 후에 우리가 그 근원에 대해 완벽하게 알지 못했기 때문입니다

어쩌면 그 사건이 누군가의 전화에서 비행기 모드에서 6 시간 동안 데이터 흐름의 최신 데이터 트리거 API 당신이 그것을 처리하고 어떤 종류의 업데이트 된 것을 내 보낸다 집합 그럼 이제이 모든 것을합시다 택시에 관한 몇 가지 질문에 답하기 위해 사용하십시오

우리가 이전에 본 데이터 간단한 질문부터 시작하겠습니다 주어진 시점에서 택시는 공항에서 어떻게 타는가? 뉴욕 전역의 택시 타기와 비교해보십시오 그리고 우리는 모든 것을 시도하고 사용할 것입니다 우리는 그 질문에 대답하기 위해 Dataflow에 대해 배웠습니다

그래서 우리가 여기에서 할 첫 번째 일은 우리는 파이프 라인을 작성할 것입니다 그것이 여기에서하는 것은 그것이 공항에서 시작되었습니다 그럼 우리가 어떻게해야합니까? 음, 우선 우리는 Pub / Sub에서 물건을 읽습니다 이전과 다시 해보 죠

다음으로 우리가하는 일은 승용차 ID 각 타는 것과 함께 그래서 타는 것 ID는 우리에게이 택시 타는 것이 어느 타는 점이 있는지에 관해 안다 우리가 함께 그룹화 할 수 있도록 연관되어있다 한 번 타고 오는 모든 포인트 좋아

다음으로 세션 윈도우를 사용하여 윈도우 경계를 그립니다 타고 주위에 그래서 우리는 창 경계를 처음부터 떨어 뜨린다 타는 것의 안에서, 그것은 픽업 포인트 다 탈락 시점 10 분 후, 타고있는 마지막 지점입니다

이 파이프 라인의 다음 단계는 트리거링 및 트리거링입니다 결과 전달 방법을 제어합니다 후속 변환으로 변환합니다 여기서 우리는 모든 요소에서 계속적으로 트리거합니다 그래서 우리는 우리가 지속적인 업데이트를 방출하도록 보장합니다

시각화 자에게 우리는 라이드가 시각화 장치에서 움직이는 것을보고 싶습니다 그래서 우리는 업데이트를보고 싶습니다 그래서 우리는 계속해서 방아쇠를 당길 원합니다 그리고 여기에서는 누적 트리거를 사용합니다

트리거를 버리는 것과는 대조적으로 우리가 창문의 전체 내용을 확실히받을 수 있도록 발사 때마다 그런 다음 창에있는 모든 점을 결합합니다 각 방아쇠 발사마다 그래서 우리는 우리의 결합 자만 신경 씁니다 우리는 출발점을 염려합니다

시작 지점을 순서대로 필요로한다 공항에서 시작된 놀이기구를 걸러 내야합니다 가장 최근의 포인트가 필요합니다 시각화에이를 방출 할 수 있습니다 AccumulatePoints combine 함수는 다음을 구현합니다

시작점을 추적하여 가장 최근의 포인트를 최신 포인트로 업데이트 가능할 경우 그런 다음 누적 된 탑승구를 버려서 필터링합니다 픽업은 공항에 없었다 위도와 경도를 비교하여이 작업을 수행합니다 위도와 경도가 잘 알려진 픽업 JFK, LaGuardia 및 Newark 공항의 포인트

우리가 실제로 걱정할 때부터 출력은 가장 최근의 지점에 불과하다는 것입니다 스테이지를 사용하여 가장 최근의 지점 만 필터링합니다 우리 누산기에서 마지막으로 Pub / Sub에 결과를 다시 작성합니다 그래서 우리가 이걸 실행할 때 그게 어떻게 생겼어? 따라서 시각화 프로그램에서 볼 수있는 놀이기구 JFK, LaGuardia 및 Newark에서 시작하는 것만 있습니다

원하는대로, 그리고 그 결과는 여전히 실시간으로 업데이트된다 우리의 방아쇠 상태와 신중하게 구성된 축 압기 따라서 우리가 공항 탑승구를 걸러 내 쓴 파이프 라인 그러나 우리 솔루션의 일부일뿐입니다 데이터 흐름 및 GCP를 사용하면 쉽게 작성할 수 있습니다 여러 독립 구성 요소

지금까지 택시 데이터를 가져 오는 것에 대해 이야기했습니다 Pub / Sub를 통해 그것을 섭취하고 우리의 시각화기를 가리키고 있습니다 그러나이 데이터를 사용하여 더 많은 작업을 수행하고자합니다 그래서 우리는 실제로 결과를 Pub / Sub에 다시 넣는 것입니다 그런 다음 ETL 파이프 라인을 통해 읽습니다

나는 그 결과를 취하는, 별도로 썼다 Pub / Sub에서 가져온 다음 BigQuery에 씁니다 이것은 데이터 흐름의 매우 표준적인 사용법입니다 이제 실제로 동일한 ETL 파이프 라인을 사용할 수 있습니다 BigQuery를 작성하고 원시 택시를 가리킨다

원시 데이터를 별도의 BigQuery 세트에 기록하는 피드 표를 사용하여 BigQuery 결과를 비교할 수 있습니다 원시 데이터 대 공항 데이터 그럼 우리는 무엇을 배울 수 있습니까? 원시 데이터에 대한 간단한 쿼리 뉴욕에있는 5 분 간격으로 도시에는 약 1,700 개의 택시 타기가 있습니다 뉴욕 큰 지역 어딘가에서 떨어집니다 그리고 타는 것의 평균 비용은 약 14 달러입니다

택시 회사의 평균 순 수익 5 분 간격으로 약 2 만 5 천 달러입니다 같은 5 분 간격으로 어떻게 비교합니까? 공항 데이터와 비교하면 어떻습니까? 우리가 공항 테이블에서 같은 쿼리를 가리킬 때 우리가 볼 수있는 건 분명히 훨씬 작지만 평균은 63에 불과합니다 나는 생각한다 – 타는 것의 평균 비용 당신이 기대하는 것보다 훨씬 더 높습니다 그것은 타는 것에 관해 약 52 달러 다 이 데이터에는 시간 기반 구성 요소도 있습니다

시간이 지남에 따라이 데이터를 그래프로 표시하면 우리는 무엇보다 먼저 명백한 일일 추세가 있음을 알 수 있습니다 전반적인 놀이기구 및 택시의 관점에서 하루 중 시간을 기준으로 놀이기구뿐만 아니라 흥미로운 사건이 있습니다 공항 타기 9시 방향 바로 전에 일어났습니다 어쩌면 도착한 큰 비행이 있을지도 몰라 또는 뭔가

따라서이 전략과 이러한 정렬을 사용하는 방법을 알 수 있습니다 데이터를보다 깊이 파고 들기위한 도구를 제공합니다 그래서 내가하고 싶은 다음 일이야 다른 멋진 기능에 대해 이야기하고 싶습니다 데이터 흐름 서비스

그럼 우리가 할 일은 새 코드를 실행에 배포하려고합니다 데이터 흐름 파이프 라인이 살아 있으며 우리는 이 모든 것을 기존의 것으로 유지하면서 서면에 대한 상태 및 집계 새로운 기능을 추가하면서 파이프 라인 따라서 우리가 업데이트 할 코드 우리는 공항 코드를 업데이트하려고합니다 전에 널 보여 줬어 우리는 단지 놀이기구를 찾는 것에서 그것을 갱신 할 것입니다

JFK에서 픽업하여 놀이기구를 찾는다 LaGuardia와 Newark에서 수거합니다 먼저 무엇이 옳은지 보자 지금 우리가 그것을 업데이트하기 전에 따라서 업데이트하기 전에 우리는 JFK에서 탈 수있는 놀이기구가 많이 있습니다

하지만 그다지 다른 곳에서는 진행되지 않습니다 다른 곳에 흩어져있는 놀이기구가 있습니다 그러나 정말로 교통은 JFK에서오고있다 그럼 우리가 여기서하려고하는 것은 우리는 코드에서 다시 언급 할 것입니다 LaGuardia와 Newark를 추적합니다

우리는 여기에서 뛰게 될 것입니다 이 파이프 라인을 업데이트해야한다고 알려줍니다 그게 내가해야 할 모든 것입니다 파이프 라인 이름을 알고 있기 때문에 오래된 실행 파이프 라인을 찾는 방법 새 코드로 업데이트하십시오 이제 업데이트가 실행 중입니다

몇 분 정도 걸릴거야 실제로 여기 UI로 이동하여 보여 드리겠습니다 파이프 라인은 결국 이곳에있을 것입니다 실행 중 상태에서 업데이트 중 상태로 이동합니다 2 분 정도 걸릴 것입니다

따라서 이미 업데이트 중인지 살펴 보겠습니다 아직도 스테이징 중입니다 따라서 여기에서 업데이트를 시작하겠습니다 업데이트가 시작되는 동안 라파엘이 이야기 할 것입니다 우리에게 ~ 오, 여기 간다

따라서 업데이트가 시작됩니다 여기에 몇 분 정도 걸릴 것입니다 라파엘은 그 동안 업데이트에 관해 우리에게 말할 것입니다 발표자에게 다시 알려주십시오 라파엘 페르난데스 : 내 말 들리니? 좋은

승인 Slava가 지금 당장 가지고있는 것, 그는 파이프 라인의 실시간 업데이트를 시작했습니다 즉 데이터 스트림의 시간 집계를 계산하는 것입니다 보시다시피 그는 Java 코드를 변경했습니다 그는이 변화를 전개하고 있습니다

그래서 이것이 우리의 전체 전략의 한 부분임을 주목하십시오 우리가 여기 GCP에 집어 넣었습니다 물론 직접적인 접근법이 있습니다 이 코드를 업데이트하기 위해 취할 수있는 파이프 라인을 쓰러 뜨리고 새 파이프 라인을 쓰고, 다시 제출하십시오 아마 우리가 할 수있는 최선은 아닙니다

사실 Dataflow가 더 잘할 수 있습니다 그 유스 케이스에서 어떤 일이 일어날 것인가? 당신이 단지 그것을 아래 위로 끌어 올리면, 우선 Cloud Pub / Sub는 계속 이벤트를 수신합니다 모든 택시에서 모든 사건들이 누적 될 것입니다 한 번 따라 잡을 수있는 일이있을거야 새 파이프 라인이 다시 시작되지만 더 중요한 것은 우리가 뛰고있는 동안에 기내에있는 상태를 잃을거야

원래의 파이프 라인 그럼 왜 이걸하고 싶니? 왜 업데이트하고 싶습니까? 많은 이유가 있습니다 기능 추가는 그 중 하나이며, 그러나 또 다른 매우 일반적인 시나리오와 관심사 당신이 의존하는 도서관이 어떻게 될 것인가? 보안상의 이유로 버전 관리가 필요합니까? 매개 변수를 변경해야하거나 컴퓨터의 유형을 변경하십시오 파이프 라인 등 백업 따라서 이러한 유형의 변화는 우리는 서비스 중단을 최소화하면서 그리고 귀하의 중간 상태를 보존하십시오 여기 상태는 정말 어렵고, 상태는 무엇을 의미합니까? Dataflow가하는 것들 중 하나는 – 헤이, 그것은 일하기 시작했습니다

Dataflow가 수행중인 작업 중 하나 낮은 지연 시간의 결과 전달 보장 점진적인 방식으로 물건을 계산합니다 예를 들어이 카운트 누적기에 초점을 맞추면 끝 근처에는 정말 상태가있다 창과 그 그룹에 대해 그리고 지금까지의 카운트 워터 마크가이 특정 단계를 진행할 때, 시스템은이 특정 단계를 시행합니다 이제는 결과를내는 것이 옳은 것입니다 그래서 점차적으로 이것을 계산 해왔다는 사실 당신이 바로 그것을 방출 할 수있게 해주는 것입니다

승인? 따라서 입력 내용을 다시 계산하지 않아도됩니다 시간이 지나면 그래서이 중간 상태는 우리에게 정말로 중요합니다 Dataflow가 할 일은 기본적으로 그 상태를 돌보고, 새로운 파이프 라인으로 이동하십시오 이 예제는 아마도 당신에게 사소한 것처럼 보일 것입니다

파이프 라인은 동일하게 보입니다 일종의지도의 상태 종류, 하지만 서비스가 당신을 위해 할 수있는 다른 것들도 있습니다 다른 변경 사항이 있기 때문에 업데이트 호환을 고려하십시오 업데이트와 호환되는 변경의 예 당신이 파이프 라인에서 제정하기를 원할지도 모르는 아마도 추가 및 / 또는 변형을 포함 할 것입니다 완전히 새로운 출력 경로

그것은 완벽하게 합법적이며 업데이트하는 것이 안전합니다 당신이 할 수있는 또 다른 일은 단계를 재정렬하는 것입니다 귀하의 파이프 라인 아마도 당신은 데이터의 특성 때문에 코드의 특성, 실험을 통해 이 단계들을 재정렬하는 결과 의미 론적으로 동등한 파이프 라인 훨씬 더 빨리 수행됩니다 일부 경우에 해당됩니다

당신이 적용하는 순서는 중요합니다 당신이 할 수있는 다른 일은 단계를 제거하는 것입니다, 우리가 방금 추가 한 단계처럼 우리는 단지 그것을 제거합니다 거기에 작은 별을 넣었습니다 수행하기에 안전하지 않은 업데이트 클래스입니다

이러한 업데이트에는 일반적으로 생성되는 변형이 포함됩니다 또는 소비 측면 입력 즉, 그들은 주 흐름에서 멀리 떨어져 있습니다 키잉 상태를 사용 중일 수 있습니다 윈도우 병합과 관련된 일부 작업이있을 수 있습니다

걱정할 것 없습니다 이러한 변경을 요청하면 데이터 흐름 서비스 업데이트를 거부하지만 원래 파이프 라인의 흐름을 변경하십시오 그래서 Dataflow가 당신을 위해 여기에서하고있는 다른 것들이 있습니다 이전 작업에서 업데이트 된 새 작업이 스핀 업되면 우리는 실제로 당신에게 직업의 출처를 보여줍니다 그것은 등등에서왔다

그래서 이것은 여러분을 대신하여 수행되는 많은 일입니다 그래서 당신은이 모든 고려 사항들에 대해 걱정할 필요가 없습니다 실제로 코드를 유지 관리 할 수도 있습니다 연속적인 계산을 할 때 Slava, 업데이트가 어떻게됩니까? SLAVA CHERNYAK : 한번 보죠

데모 기계주세요 큰 따라서 우리는 파이프 라인이 업데이트되었음을 ​​알 수 있습니다 이게 바로이 작업 이름이 실행중인 것을 볼 수 있습니다 이전 작업에서 업데이트되었다고합니다

그리고 우리가 시각화자를 볼 때 이제 우리는 많은 새로운 놀이기구가 있다는 것을 알 수 있습니다 지금 LaGuardia에서 왔어 우리 파이프 라인을 업데이트 한 후에 우리가 기대할 수있는 것입니다 지적해야 할 몇 가지 흥미로운 점 그러나이 시각화에서 사실입니다 JFK에서 우리 놀이기구의 첫 번째는 여전히 거기에 모두 있습니다

우리는 JFK에서 새로운 놀이기구를 얻는 것이 아니라, 우리는 여전히 JFK에서 온 모든 오래된 놀이기구를 가지고 있습니다 이것이 라파엘이 말한 것입니다 우리는 이전 파이프 라인 상태를 유지합니다 지적 할 또 다른 흥미로운 점 우리는 실제로 새롭고 오래된 놀이기구를 가지고 있다는 것입니다 LaGuardia의 새로운 놀이기구가 아닙니다

그리고 이것은 LaGuardia 타기가 이미 Pipeline에서 변경했습니다 끝에 그들을 필터링하는 코드 해당 데이터는 모두 Windows 및 상태에 이미 있습니다 누적되면서 방금 변경했습니다 우리가 파이프 라인 끝에서 방출 한 것

따라서 우리 파이프 라인을 업데이트함으로써 시작했습니다 LaGuardia에서 시작된 완전한 라이드를 방출합니다 업데이트가 실행되기 전에 그래서 이것은 유지에 관한 흥미로운 것입니다 파이프 라인 상태는 정말 당신이 옳은 일을하는 데 도움이됩니다 귀하의 파이프 라인의 경우

슬라이드로 돌아가주세요 라파엘 페르난데스 : 고마워, 슬라바 여기서 보여주지 않은 것은 엄청난 양의 뒤에서 일어난다 서비스, ​​데이터 흐름 자동 증가와 같은 당신을 위해 할 수있다 작업자 풀의 크기를 줄이거 나 늘리십시오

들어오는 데이터 스파이크 및 소강에 더 잘 대처하기 위해, 우리도 축소하기 때문입니다 우리는 돈을 절약합니다 그것은 좋은 것입니다 Pub / Sub (여기서는 표시되지 않음)이지만 글로벌 게시 구독 서비스 그것은 당신을 위해 확장 가능합니다

그것은 당신에게 매우 흥미로운 보장을 줄 것입니다, 그래서 당신은이 유형의 시스템을 만들 수 있습니다 정확성과 신뢰성을 염두에두고 분석가들이 가장 좋아하는 BigQuery는 당신을 위해 완벽하게 관리합니다 얼마나 많은 기계가 무엇을 언제하고 있는지 알지 못합니다 너는 그렇게해서는 안된다 당신은 단지 쿼리를 작성하는 것입니다

이것은 명심해야 할 정말로 강력한 것입니다 GCP로 개발할 때 데이터 흐름을 사용하여 실제로 생각할 수 있습니다 플랫폼의 나머지 서비스에 대해 싱크대에 소스로 데이터를 실제로 변환 할 수 있습니다 다른 목적으로 도착할 때, 결과를 지속적으로 전달하기 위해 또는 아카이브 또는 추가 변환을 위해, 그리고 정말로 매우 다른 서비스 활용 우리는 다양한 패턴을 가능하게해야합니다

최신 응용 프로그램에 필요합니다 요약하자면, 우리는 더 자세히 살펴 보았습니다 일부 기술에서는 데모의 힘 오늘 아침에 본 걸 우리는 지속적인 이벤트 처리 방법에 대해 심도 깊은 다이빙을했습니다 GCP, 특히 Dataflow와 비슷합니다

프로그래밍 모델의 힌트를 보았습니다 우리는 프로그래밍을 선호한다고 생각합니다 프로그래밍 대신 그 수준에서 기계 수준에서, 우리는 또한 이러한 구성의 우수 사례 강조 플랫폼으로 GCP를 다루는 방법에 대해 정말로 생각하고 있습니다 네가 빛을 낼 수 있도록 단일 흐름에서 다른 것들 물론 스트리밍 업데이트 정말 복잡하고 활발한 애플리케이션을 처리 할 수 ​​있습니다

다운 타임을 최소화하고 데이터 손실을 최소화하여 우리는 매우 중요하다고 생각합니다 마지막으로 Apache Beam에 대해 이야기하고 싶었습니다 그래서 2016 년 초 우리는 우리의 의도를 발표했습니다 데이터 흐름 프로그래밍 모델 및 SDK, Java, 우리는 지금 Apache Software Foundation에 파이썬을 가지고 있습니다 아파치 빔이 지금은 여러분과 함께하게되어 매우 기쁩니다

Apache Software Foundation의 최상위 프로젝트 이것은 다시 우리가주의를 기울이는 결과입니다 Google의 개발자 생산성, 우리가 지금 생각하는 새로운 모델을 개발한다 사람들의 공동체가 있기를 원한다 다양한 서비스에서 사용합니다

그럼 다음은 뭐니? 관심이 있으시면 내일 몇 차례 말씀 드리겠습니다 Apache Beam에 관해서 첫 번째 이야기는 실제로 집중되어 있습니다 지역 사회 측면과 생태계에 관한 이제 Apache Beam이 Apache의 최상위 프로젝트입니다 소프트웨어 재단

너는 우리가 어떻게 나아갈 지 알아낼거야 Dataflow SDK에서 Beam으로 이동하는 방법 그 주위의 이야기는 무엇입니까? 두 번째 이야기는 Portable에 대해 좀 더 자세히 이야기합니다 Apache Beam을 사용한 병렬 데이터 처리 및 이 이식성은이 모델이 실제로 커뮤니티에서 사용할 수 있습니다 우리는 당신을위한 자원도 가지고 있습니다 거기에 몇 개의 URL이 있습니다

당신이 더 찾을 수 있도록 여기에 코드 랩도 있습니다 데이터 흐름을 시도하려면 기회가 없었습니다 당신은 회의에서 실제로 여기 프로그램을 쓸 수 있습니다 이 택시 데이터를 활용하는 또 다른 코드 랩이 있습니다

이제 공개 데이터 스트림으로 사용할 수 있습니다 그래서 당신은 그것으로 놀 수 있습니다 이러한 유형의 응용 프로그램을 개발하는 방법을 배우고, 해당 코드 연구소에 액세스 할 수 있습니다 Codelabsdeveloper

googlecom 그래서와 주셔서 대단히 감사드립니다 귀하의 질문에 기꺼이 응해드립니다 [박수 갈채] 관객 : 안녕하세요

협조 해 주셔서 감사합니다 첫 번째 질문은 내가 똑똑한 그룹이 아니라고 가정 해 봅시다 나는 한 그룹에 많은 것을 가지고있다 이제는 한 가지 경우에 메모리가 부족합니다 그러면 어떻게 될까요? SLAVA CHERNYAK : 그래서 커플이 있습니다

그 질문에 대한 답을 우선, 응용 프로그램 수준에서 다음을 수행 할 수 있습니다 그래서 당신이 말하는 것은 또한 바로 가기 키 문제 그것을 처리하는 두 가지 다른 방법이 있습니다 하나는 응용 프로그램 수준에서 항상 가능합니다 더 나은 차트 작성 전략, 더 나은 키잉 전략 찾기 그래서 당신은 그 핫 키를 가지고 있지 않습니다

데이터 흐름에는 다단계 결합도 있습니다 근본적으로 팬 인을 통해 볼륨을 단일 키로 그래서 그것은 당신이 개발자로서 조금 알고 있어야합니다 완전히 투명하게 될 수있는 것이 아닙니다 데이터 흐름에 의해 처리됩니다

하나의 열쇠에 대해 모든 트래픽을 던지십시오 어떤 시점에서 우리가 할 수있는 일은 없습니다 그러나 그것이 당신이 알고있는 한 그것은 그것이 데이터 흐름 내에 도구가 있습니다 그것을 쉽게 처리 할 수 ​​있습니다 라파엘 페르난데스 : 그렇다면 여기에 머물러있는 고위 입찰가 중간 파이프 라인에서도 다시 키잉 전략을 찾고 있습니다

이것들을 지키기위한 아주 좋은 방법입니다 핫 키 또는 핫 그룹 관객 : OK 그리고 두 번째 질문을했습니다 기본적으로 이러한 업데이트를 언급하지 않았습니다

현재 시스템과 호환 가능 이 업데이트를 어떻게 실행 하시겠습니까? 그래서 기본적으로 실행중인 시스템을 어떻게 대체합니까? 라파엘 페르난데스 : 네 그래서 몇 가지 전략이 있습니다 사람들이하는 일은 흐름을 일시 중단하는 경우도 있습니다 계산 가능한 집합이 있다는 것을 알고 있습니다 시간 윈도우 중 어느 윈도우 "더러운"것으로 간주 될 것입니다

당신이이 데이터를 잃었을 것이기 때문입니다 그래서 그들은 몇몇 데이터를 제정 할 준비가되어 있습니다 손실, 업그레이 드이기 때문에, 그게 상응 깨는 변화 그리고 어떤 경우에는 괜찮습니다 그런 식으로 코드를 발전 시키십시오

우리가 본 또 다른 전략은 성공적으로 사용되었습니다 실제로 하나의 파이프 라인이 다른 조각을 가지고 있습니다 Pub / Sub를 사용하여 Pub / Sub에 게시 할 수 있습니다 이를 통해 파이프 라인 조각을 분리 할 수 ​​있습니다 진화하고 싶거나 아마도 데이터를 받기 시작하는 대체 브랜치 추가 특정 시점 이후에, 그리고 나서 다른 조각을 껐다

그래서 이것은 변화를 극복하고 대처하는 전략입니다 관객 : 고마워 라파엘 페르난데스 : 좋아 관객 : 나는 지각에 대해 질문이있다 라파엘 페르난데스 : 무엇에 대해서요? 죄송 해요

경청자 : Lateness 라파엘 페르난데스 : Lateness 관객 : 창 밖에있는 데이터 윈도우의 데이터가 수집되고 축적 된 후, 무언가가 범위를 벗어난다면, 기본 동작을 이해합니다 지체 매개 변수가 설정된 경우에도이를 버리는 것입니다

그게 사실이야? SLAVA CHERNYAK : 예, 맞습니다 관객 : Beam SDK에서 실제로 어떻게하면 좋을까요? 무엇보다도, 내가 어떻게하면 데이터가 처리되고 둘째로, 빔이 실제로 내려 가서 내려 앉습니까? 원시 데이터처럼 사용 된 원시 데이터 원래 창 에서요? SLAVA CHERNYAK : 첫 번째 질문에 대답하려면, 빔에 트리거가 있습니다 처리 기반을 트리거 할 수 있습니다 그 늦은 데이터 그래서 뭔가를 방아쇠를 당기기 위해 워터 마크를 사용하면됩니다

워터 마크를 기반으로 다음을 수행 할 수 있습니다 허용 된 지각과 함께, 가능한 지체를 더한다 거기에 매개 변수 너의 두 번째 질문을 이해할 수 있을지 모르겠다 그것이 데이터를 끌어 내리는 지에 관한 것입니다 – 아, 데이터, 전체 데이터를 제공합니까? 늦은 데이터가 담긴 원본 창 은요? 관객 : 음, 재 처리가 되나요? 내가 말하려고하는 것입니다

SLAVA CHERNYAK : 이것이 질문입니다 창을 모으거나 버리는 데 사용하는지 여부 내가 정확히 기억한다면 따라서 모든 트리거링 창을 누적하면 창 전체 내용을 전달하려고합니다 그것이 시간에 또는 늦게 있든 폐기 용 판넬이있는 상태에서만 진행됩니다

델타를 토대로 심의하기 가장 최근의 트리거 실행 관객 : OK SLAVA CHERNYAK : 그 질문에 대답합니까? 관객 :별로 따라서 버려진 데이터는 실제로 모든 원시 데이터를 버립니다 SLAVA CHERNYAK : 그래서 버리는 것, 그것이 의미하는 것 방아쇠가 우리가 델타를 배달 할 때마다 발생합니다 마지막 발사 발사 이후 델타 세트를 전달합니다

따라서 두 개의 트리거가있는 경우 워터 마크에서 트리거링합니다 두 번째는 늦은 데이터를 트리거하고 버리고 창이 먼저 내용을 전달할 창 워터 마크에 넣은 다음 늦은 데이터 만 전달하면됩니다 요소가 유일한 델타이기 때문입니다 청중 : OK SLAVA CHERNYAK : 매번 누적 창이 있습니다 당신이 배달 할 방아쇠가 발생합니다

창의 전체 내용, 누적 된 내용 그래서 워터 마크에서 무엇이든지있을 것입니다 그리고 당신을 방아쇠를 당기는 늦은 자료에 이전 내용과 늦은 날짜를 전달합니다 요소 따라서 창을 모으거나 버리는 데 사용하는지 여부 어떤 종류의 재 처리의 기능인가? 당신은 그 데이터에하고 싶다

그래서 늦은 요소에만 관심이 있다면 아마 당신은 폐기 판을 사용하고 싶을 것이다 창 전체 내용을 다시 처리하려면 당신은 창을 축적해야합니다 관객 : 그리고 내가 얼마나 멀리까지 시간 제한이 있니? 지각을 설정할 수 있습니까? SLAVA CHERNYAK : 실제로는 그렇지만 SDK 레벨에서는 그렇지 않습니다 따라서 실제로 얼마나 오래 데이터를 보관할 수 있습니까? 당신이 얼마나 많은 돈을 벌고 있는지 기꺼이 저축, 오른쪽, 파이프 라인의 지연 시간 더 이상 대처할 수 없기 전에 대처할 수 있습니다 권리? 그래서 내가 아는 한, SDK는 프로그램 적 한계를 강요하고, 하지만 거기에 1 년을 넣으면 계속해서 데이터를 던지면됩니다

1 년 내 Windows로, 어떤 시점에서 일이 깨기 시작할 것입니다 라파엘 페르난데스 : 그리고 당신을위한 실용적인 방법이 있습니다 얼마나 많은 데이터를 평가하고 실험하는지 당신은 기꺼이 지키고 얼마나 많은 지체인지 너는 기꺼이 용납 해 주의를 기울이는 것이 중요합니다 당신이 갖고있는 자원의 어느 시점에 있는가? max에서 프로비저닝 됨 처리 과정에서 백업을 시작하면 더 이상 지킬 수있다

그래서 당신은 바운드를 만들 수 있습니다 데이터의 특성에 따라 실험에 의한 전형적인 계산법 관객 : 창 방아쇠가 발사됐지만 가공은 – 나는 따라 잡을거야 난 그냥– 라파엘 페르난데스 : 네 해피

네 여기로 가자 관객 : 때때로 나는 매개 변수를 요구받습니다 내 파이프 라인에서 구성 할 수있는 실행하지 않아도됩니다 업그레이드를해야합니다

구성 가능한 런타임을 관리하는 좋은 방법이 있습니까? 매개 변수? SLAVA CHERNYAK : 몇 가지 답변이 있습니다 그 질문에 따라서 답변 중 하나는 귀하의 파이프 라인이 항상 사이트 입력에서 데이터를 읽을 수있다 파이프 라인 자체에서 생성되거나 또는 다른 설정 저장소에서 그래서 당신이 Dataflow 랜드에서 그렇게한다면 항상 사이드 출력을 낼 수 있습니다

그런 다음 어딘가에 측면 입력으로 소비됩니다 그리고 그 쪽 입력은 실제로 작았습니다 – 당신은 작은 것으로서 당신의 데이터 스트림의 조인이라고 생각할 수 있습니다 빈번하게 변이 된 데이터 세트 자주 음소거되지 않은 데이터 세트 당신의 구성이 될 수 있다면 그곳에서 업데이트하는 방법이었습니다 당신은 당신의 처리를하고 있습니다

RAFAEL FERNANDEZ : 그러나 이것은 당신을 허용하지 않을 것입니다, Windows의 길이와 같은 것을 변경하는 방법 즉석에서 이것들은 당신 자신의 코드의 매개 변수입니다 관객 : 네 라파엘 페르난데스 : 네 관객 : 고마워

페르난데즈 : 여기로 가자 관객 : 잠깐 워터 마크의 경우 조정할 수 있습니까? 또는 그것을 조정할 수 있습니까? 그 주위에 어떤 도구가 있습니까? SLAVA CHERNYAK : 대답은 현재 아니오입니다 그래서 우리가 시도하고 확립 할 때 우리가하는 일 워터 마크는 기본적으로 모든 것을 취합니다 우리는 출처에 대해 알고 있습니다

우리는 소스를 시도하고 모델링합니다 우리는 모든 데이터를 추적하고 유지합니다 일단 소스에서 데이터를 얻으면 나머지 메시지를 완벽하게 추적합니다 시스템 전반에 걸쳐 따라서 워터 마크의 목표는 가능한 한 완벽해야합니다

데이터를 추적 할 때 따라서 튜너 블 매개 변수가 없습니다 당신이 무엇인지에 대해 더 많이 말할 수 있습니까? 그걸로 뭘 하려니? 관객 : 그래서 걱정입니다 따라서 특정 응용 프로그램에서 작동 할 수 있습니다 하지만 모든 곳에서 작동하지 않을 수 있습니다

권리? 그렇다면 데이터에서 배울 수 있습니까? 시간 창에 대한 메트릭을 수집 할 수있는 방법이 있습니까? 그런 다음 매개 변수를 설정하거나 고정되어 있습니까? 라파엘 페르난데스 : 그래서 내가 잘 모르겠다 나는 네가하는 말은 두 가지라고 생각한다 하나는 Windowing 전략에 대해 이야기하는 것입니다 다른 하나는 시간의 흐름을 제어 할 수 있는지 여부입니다 기본적으로 워터 마크가 언제 나아가 야하는지 말합니다

그래서 두 번째 것에 관심이 있다면 우리가 할 수있는 기술과 것들이 있습니다 당신과 이야기하게되어 기쁘다 그리고 당신이 할 수있는 다른 것들 슬라바 (Slava)가 말했듯이, 워터 마크 (Watermark)는 함수이다 서비스가 데이터 소스에 대해 알고있는 것, 우리의 능력 너는 너의 허용 된 지각을 검사하는거야

우리는 도착의 관점에서 무엇을보고 있는지 더하기를 지정하십시오 근원으로부터의 보증, 그리고 우리는 정식으로 시간을 보내는 것이 안전 할 때를 안다 SLAVA CHERNYAK : 한 가지 더 말하게하겠습니다 기본적으로, 사용자 정의 소스 인 경우 너 말이야 당신이 쓴 원본이고 그때에 대해 가장 잘 압니다

사용할 서비스의 워터 마크를 제공 할 수 있습니다 따라서 사용자 정의 소스에 대해 워터 마크를 제공해야합니다 그런 다음 워터 마크와 결합하여 사용합니다 파이프 라인의 나머지 부분에서 그래서 당신이 어떤 종류의 타임 스탬프에 대해 가장 잘 압니까? 귀하의 서비스는 귀하가 최고의 출처임을 제공하고 있습니다 거기에 워터 마크에 대한 정보도 있습니다

라파엘 페르난데스 : 마지막으로 언급 할 전략 중 하나입니다 다시 한 번, 응용 프로그램에 종속적 인 모든 것 우리는 논리적 시간에 관한 거래를 설명했다 모든 데이터 이벤트에 시간과 시간이 있음을 의미합니다 의미가 있으며 이것이 워터 마크를 유발하는 것입니다 진보

실시간도 있습니다 맞습니까? 시간 진행이 실제 도착의 함수 인 곳 시간이 데이터의 일부가 아닌 곳 하지만 실제로 시스템 기능입니다, 다른 것들이 있습니다 당신도 거기에서 할 수 있습니다 관객 : 워터 마크는 두 가지 모두 고려합니까? SLAVA CHERNYAK : 아닙니다 그래서 그 질문에 대한 깊은 대답이 있습니다 예, 실제로 두 종류의 워터 마크가 있기 때문에, Watermarked라고하면 정말 큰 데이터 워터 마크에 대해 이야기합니다

이벤트 시간에 워터 마크 관객 : OK 라파엘 페르난데스 : 네 관객 : 좋습니다 고마워요

관객 : 프레젠테이션에 감사드립니다 세션을 보는 것이 꽤 재미있었습니다 타이밍 전략 중 하나의 종류로 그래서 나는 스트리밍에서 세션이 있는지 물어보고 싶다 스트리밍 데이터가있는 경우 가능하며 우리가 알아야 할 몇 가지 효율성 결함들이다 SLAVA CHERNYAK : 첫 번째 질문입니다

스트리밍에서 세션이 가능한지 여부입니다 네 그럼요 즉, Dataflow SDK에 내장되어 있습니다 지금 바로 사용할 수 있습니다 관객 : 네

SLAVA CHERNYAK : 네 효율성 문제까지는 내 말은, 나는 그것이 의도 한대로 작동한다고 생각한다 나는 내가 무엇에 대해 더 묻어야하는지 생각해 관객 : 이벤트 시간 대 실시간의 종류 전표와 물건의 종류 나는 세션에 관해서, 그 자체로 유발되는 것이기 때문에? 모든 메시지 – SLAVA CHERNYAK : 음, 그래서, 세션, 정의에 의해, 그것에 잠복이 생길 것입니다

맞습니다 세션 윈도우가 한정되어 있기 때문에 활동하지 않는 기간 그래서 당신은 세션이 있다는 것을 알 수 없을 것입니다 너는 아무 것도 볼 수 없을 때까지 끝났다 따라서 내장 레이턴시가 내장되어 있습니다

세션의 정의로 RAFAEL FERNANDEZ : 시스템의 트레이드 오프 세션을 계산할 수 있는지 여부 우주와 자원이 될 것입니다 그래서 그것은 실제로 진행되고 있습니다 매우 고르지 못한 데이터와 매우 어려운 세션이있는 경우 전략, 효과는 아마도 당신이 더 많은 중간 상태가 필요합니다 관객 : 그게 사실입니다

내 말은, 나는 광고 업계에서 온다 내 말은, [INAUDIBLE]은 분명히 세션에있는 사람들과 순서면에서 마이크로 스케일 집계에서 [INAUDIBLE] 할 수 있습니다 알았어 고마워 라파엘 페르난데스 : 좋아 SLAVA CHERNYAK : 좋습니다

알았어 페르난데즈 : 알았어 여기에 또 하나의 질문이 있습니다 관객 : 제 질문은 어떤 언어입니까? SDK가 현재 지원합니까? 라파엘 페르난데스 : 물론 SDK는 Java 및 Python으로 사용할 수 있습니다 파이썬에는 가용성이 있습니다

죄송합니다 파이썬은 데이터 흐름에서 배치를 지원합니다 Apache Beam 웹 사이트로 가면 그들은 이미 Python SDK와 Java SDK를 가지고 있습니다 내일에 대해 더 많이들을 수 있습니다 그러나 그것들은 구현 된 두 언어입니다

제 3 자 구현도 있습니다 이 커뮤니티에 대해 더 많이 듣게 될 것입니다 스칼라 구현을 생성했다 이걸 Scio라고합니다 그것은 Spotify에 의해 만들어졌습니다

그리고 다른 사람들은 지역 사회에서 논의하기 시작했습니다 관객 : 좋아요 라파엘 페르난데스 : 좋아 모두에게 감사드립니다 당신의 축제를 즐기십시오

[음악 재생]

Accessibility of Big Data Imagery for Next Generation Computer Vision Applications

Sarah Margolis를 소개하게되어 기쁘게 생각합니다 Sarah Margolis는 NOAA 수산업 과학 기술처 (Office of Science and Technology)에서 일하기 시작했습니다

올해는 Knauss Science Fellow였습니다 그녀는 다양한 기술과 관련되어 있습니다 이 프로젝트는 그녀가 배정 된 프로젝트 중 하나입니다 그 큰 데이터 이미지를 만드는 방법을 살펴 봅니다 NOAA뿐만 아니라 기업이 아니라 더 넓은 공동체에 사라가 데모를 할거야

그 틀과 결정의 일부 NOAA Enterprise에 대한 질문을 입력하십시오 물론 결정적인 질문들과 함께 중요한 질문은 우리는 원본과 관련하여 그것을 활용합니다 목표를 어떻게 활용할 것인가? 새로운 도구와 관련하여 온라인으로 올 때 Sarah는 5 년 계획의 시위 오픈 소스 프레임 워크 개발 자동 이미지 작업을위한 도구 상자 해양 응용 분야에 대한 인식 사라를 소개하는 것이 내 기쁨입니다 [박수 갈채] 안녕하세요 NOAA 도서관 및 가정에서 튜닝하는 모든 사람에게 안녕하세요

사무실 또는 웹 세미나 조정 너와 함께 해줘서 고마워 점심 시간 포스트 노동절 나는 희망한다 모두들 멋진 휴가를 보내고있어 저는 NOAA에서 일하는 Knauss 연구원입니다 과학 수산 사무국 고급 샘플링 기술 기술 프로그램과 오늘 나는 그게 뭔지 얘기 해줘

의 삶에서 더 관련성있게 과학자들과 NOAA와 함께 큰 데이터의 아이디어 기술이 더 많은 기능을 향상 시켰습니다 정보를 수집해야하고 우리는 많은 양의 정보 수집 우리는 앞으로 나아갈 방법을 결정할 필요가있다 큰 데이터로 그리고 구체적으로 말하려고합니다 이미지 데이터에 대해 이미지 및 비디오 해양 환경에서 수집 된 우리가해야 할 일에 대해 생각하고 미래 5 ~ 10 년 동안 새로운 기술과 소프트웨어의 라인 컴퓨터 비전 소프트웨어와 같은 우리가 더 쉽게 이용할 수있게되었다 우리의 이미지와 우리의 데이터와 함께 사용 내 이야기로 나는 이야기 할거야

데이터 관리의 세 가지 구성 요소 먼저 이미지를 생각해 보겠습니다 수집 수집의 중요성 이미지와 왜 우리가 그것을하는지 우리가 갖고 싶은 고려 사항 줄까지 내려가는 마음까지 우리의 이미지에 접근 가능하게 함 보유하고있는 저장 용량에 대해 이야기하고 싶습니다 큰 것을 다룰 때 염두에 두어야 할 점 생각해야 할 이미지 데이터 세트 보관 요구 사항 조직이나 에이전시가 가질 수 있습니다 저장에 많은 어려움이 있습니다 내가 그들에게 어떻게 대처할 지 이야기 할거야

앞으로 나아가고 정말로 멀리까지 스토리지에 대해 생각하기 시작했습니다 접근성이 높아짐에 따라 과학적으로 접근 가능한 물 지역 사회와 대중 그리고 그까지 접근성은 당신이 생각할 필요가 간다 데이터가 필요한 모든 요구 사항 접근 할 수 있어야합니다 한 번 처리에서받을 수 있습니다 이미지에 액세스 할 수 있으며 기계 학습을 위해 접근 가능한 데이터 컴퓨터 비전과 같은 소프트웨어 기계 학습과 같은 소프트웨어 이 세 가지에 대해 이야기 할 때 큰 데이터 관리의 구성 요소들입니다

우리의 예에서 짜기로 NOAA 어업 관점에 대한 이야기 우리의 이미지 수집 물과 우리가있는 곳 앞으로 나아갈 생각을하기 시작했다 미래는 그렇다 이미지 컬렉션의 중요성 NOAA 어업은 많은 것을 창조합니다 우리가 수집하는 이미지의 데이터 우리의 주요 임무 중 하나는 물고기를하는 것입니다 미국 전역의 설문 조사 수중 광학 기술을 사용하여 서식지 평가 및 분류 우리는 이러한 광학을 사용할 수 있습니다 실시간 데이터를 수집하는 기술 예를 들어 수중 ROV에 넣은 경우 당신은 실시간으로 무엇을 볼 수 있습니다

일어나고 우리는이 장애물을 사용합니다 실제로 수집 할 기술 데이터 제한 구역 및 너무 많이 샘플링되지 않은 영역 그들은 전혀 단순하지도 않다 그들은 데이터가 제한되어 있습니다 최근 몇 년 동안 우리는 광학 기술의 증가 가격이 점점 낮아지고있다 더 쉽게 사용할 수 있고 우리는 이러한 기술을 사용하여 시작 우리의 물고기 조사 서식지 평가 및 우리는 또한 데이터를 사용하는 영역에서 볼 수 있습니다

카리브 지역의 제한된 지역 그들도 증가했다 관심사와 이들을 사용하기 시작했다 더 많은 광학 기술을 수집 그들의 환경에 관한 정보 우리는 실제로 어떻게 할 수 있을지 생각하기 시작했습니다 우리는 이미지 컬렉션을 사용하여 미래의 가장 큰 혜택 우리가 수집하는 줄을 찾고 점점 더 이야기를 나누고 싶습니다 NOAA 어업 이미지에 관한 약간의 정보 우리가 x 축에 그렇게 가지고 있다면, 미안 해요

우리가 가지고있는 x 축에서 누군가의 방법을 막는다 우리의 수산 과학 센터에는 6 개가 있습니다 수산 과학 센터와 태평양 제도 우리는 남동쪽을 가지고 있습니다 수산 과학 센터 동북 수산 과학 센터 남서부 노스 웨스트 및 알래스카와이 파란색 막대 현재 테라 바이트 단위로 표현한다 이미 수집 한 많은 이미지 우리의 어업 평가 및 서식지 정보 최신 파란색 막대 왼쪽에는 현재 우리가 가진 것이있다

미래에 예상되는 것은 막대를 따라 5 10 년 아래 줄 어떻게 많은 이미지가 남동쪽에있는 우리 센터는 우리는 많은 정보를 멕시코만과 대서양에서 노스 캐롤라이나와 플로리다의 요점은 이미지가 계속 유지된다는 것입니다 우리가 해결하려고 할 때 수집되고있다 데이터가 제한된 상황에서 우리는 확장에 대한 추가 정보 수집 서식지를 만들고 더 많은 물고기 조사를하고 있습니다 첫 번째 중요한 구성 요소 중 하나 데이터 관리를 할 때 메타 데이터와 메타 데이터를 생각하고 있습니다 데이터에 대한 정보입니다

여러 종류가 있기 때문에 요점은 메타 데이터가 표준화되고 데이터를 앞으로 이동시키는 방법은 조직 된 일단 저장하면 사용할 수 있습니다 그것을 액세스하고 열쇠를 골라 낼 수있다 당신의 데이트의 구성 요소 찾고 있기 때문에 거기에 많은 다른 설명 메타 데이터가있는 유형 그건 당신의 데이터 유형에 관한 얘기입니다 에 대한 모든 키워드 및 학습 목표 데이터 기술의 사명 메타 데이터에 대해 실제로 말하기 압축의 경우 설명적인 정보 요구 사항 또는 형식을 귀하의 주제 정말로 중요한 메타 데이터 특수 효과는 바로 그 것이며 데이터를 최대한 활용하여 이익을 얻으십시오 액세스 할 수 있도록 무엇에 대한 실제 텍스트 표현 당신의 데이터 안에 있다면 당신은 구조 메타 데이터를 계층 적으로 귀하의 데이터는 서로 그리고 그것은 단지 조직이다

그것 전부와 당신의 행정 자료 얼마나 오랫동안 이야기하고 있는지에 대한 메타 데이터 당신은주의를 기울여야한다 이동하는 기간과 액세스 요구 사항 등등 메타 데이터의 구성 요소 네가 어떤 데이터를 쓰든간에 수집하지만 핵심은 그것이 필요하다는 것입니다 표준화되고 조직적으로 움직이는 것 앞으로 그래서 조금 얘기하자 저장소에 대해 먼저 메타 데이터가 이제 메타 데이터입니다 우리는 우리 모두가 우리의 이미지를 위해 구성된 메타 데이터 우리가 원하는 스토리지에 대해 생각할 필요가 있습니다

의 상태에 대해 조금 이야기하기 NOAA 수산학 광학 데이터와 어떻게 우리의 내가 말했던 것처럼 데이터가 저장되었습니다 우리의 6 개 어업 과학 센터와 각각 센터는 그 과학 센터의 임무와 그들이 진행하고있는 프로젝트 그래서 지금은 아주 일반적입니다 많은 것을 모으는 사람들을위한 상황 그 데이터가 센터에서 수집하고있어 그들은 자신의 방식으로 그것을 저장하고 있습니다

해당 데이터에 액세스하려면 누가 그걸 알고 있는지 찾아야 해 그들에게 연락하는 방법에 관한 데이터 당신을 알고 데이터를 하드 한 쉽게 접근 할 수없는 슈퍼 드라이브 하지만 몇 가지 요구 사항이 있습니다 우리가 가지고있는 NOAA를위한 예를 들어 저장 공개 액세스 요구 사항 PARR이므로 공개적으로 액세스 권한이 있어야합니다 대중에게 접근하고 과학 공동체뿐만 아니라 우리는 또한 데이터를 보관해야하는 경우 장기간 보관 돼야한다 보관소가 구별되도록 및 저장 장치가 없습니다

보관소가 조직의 요구 사항 또는 대행사 및 저장 용량을 확보 할 수 있습니다 데이터를 쉽게 액세스 할 수 있으므로 빨리 처리 할 수 ​​있습니다 가이드 라인이나 표준을 염두에 두어야한다 저장하는 중일 수 있습니다 데이터 예를 들어 c-max 연안 해양 및 생태 분류 당신이 저장하고 싶은 분류 체계 몇 가지 표준 유형의 데이터 조직을 만들기 위해 존재할 수있는 쉬운 접근성을위한 미래 방향 NOAA에 대한 저장 용량이 너무 미안했을 때 너는 스토리지를 고려하고있어

내게 필요한 옵션 키를 실제로 만들어야합니다 그게 우리가하는 최고의 것입니다 우리는 데이터를 저장할 필요가있다 하지만 당신이 접근 할 수 있어야합니다 이 광학 이미지를 모두 처리하십시오

그것으로부터 많은 이익을 얻습니다 컴퓨터 비전에서 사용 가능 소프트웨어 및 기계 학습 데이터 처리에 도움이되는 알고리즘 그래서 당신이 당신의 데이터를 저장할 때 메타 데이터를 고려해야합니다 얘기하고 그것을 매우 조직화하게 앞으로 표준화 된 약간의 타임 스탬프가 필요할 수 있습니다 데이터를 쉽게 귀하의 데이터를 서로 참조하십시오 유니버설 타임 스탬프가 있습니다

기본 시간 UTC는 당신의 시간 스탬프를위한 대중적인 선택 데이터가 시간대와 무관하므로 너는 몇시에 대해 걱정할 필요가 없다 현재있는 구역과 좌표는 다음과 같습니다 모든 세트에 가지고있는 정말로 좋은 생각 당신이 가지고있는 이미지는 당신은 그들을 통해 사용할 수 있도록 만들 수 있습니다 지도가있는 사용자 포털과 같을 수도 있습니다 기반 또는 찾는 사람 위치를 통한 귀하의 이미지는 데이터를 저장할 때 가장 좋습니다 당신은 그것이 기계 학습 가능 응용 프로그램이므로 쉽게 사용할 수 있습니다

우리가 사용하고 프로세스를 도울 수 있습니다 우리의 데이터는보다 효율적이고 여기에 있습니다 자외선 및 ROV의 수치 이미지를 수집하고 질문이 있습니다 데이터를 저장할 위치를 표시하십시오 몇 가지 옵션이 있기 때문에 노아와 CEI를 위해 특별히 마련된 국립 환경 센터 정보는 노아의 데이터를 많이 호스팅합니다

수산업을 위해 우리 모두 음향 데이터를 우리의 능력을 호스팅 그러나 그들은 그것을위한 공간을 가지고있다 물리적 서버 및 방화벽과 모든 데이터 이동 이 중앙에 도착하는 국가 위치는 시간이 걸린다 이제는 NCEI의 우리의 광학 이미지는 사물이 아직도있는 것처럼 약간의 시간 현재 개발 중에 있으므로 넣을 수 없습니다 NCEI의 우리 데이터 뭔가있다

상업적으로 인기를 얻고있다 다음과 같은 클라우드 공급자 옵션 Amazon 또는 Google 이름 확실히 그들이 들었을 것입니다 믿을 수 없을 정도로 인기가 있고 그들은 확장 가능한 플랫폼을 갖춘 능력 호스트 할 수있는 수집 할 수있는 데이터를 아주 쉽게 보급한다 쉽게 접근성이 그렇습니다 저장을 생각할 때마다 데이터를 어떻게 생각해야합니까? 처리를 위해 신속하게 액세스하십시오

다른 사람들이 액세스하고 사물을 위해 기계 학습 응용 프로그램과 같은 메타 데이터가 정리되면 당신은 귀하의 데이터를 우리의 사용자 사용자에게 필요한 데이터에 액세스 할 수 있습니다 가능한 데이터를 볼 수있는 액세스 권한이 있어야합니다 그 목적을 아마도 당신이 수집 한 독창적 인 연구 사명 이유는 있지만 계속 유지하는 지역의 데이터 다른 사람들이 다시 볼 수 있도록 새로운 트렌드 새로운 패턴을 발견하십시오 나중에 그것을위한 아이디어는 전체입니다 과학과 발견의 목적 당신이 접근 할 수 있는지 확인하고 싶다

사용자 포털과 정말 좋았어 예는 oer 비디오 포털이며 최종 비용 바이오 매스 바이오 매스 또는 포털 잠시 후에 예제를 보여 주지만 네가하고 싶은게 뭐든간에 귀하의 주제 메타 데이터 특수 효과가 삽입되어 있으며 사용자가 액세스 할 수 있도록 구성 포털에 쉽게 찾을 수 있습니다 그들은 여기를 찾고 있습니다 oer 비디오 포털의 할 수있는 날짜부터 검색 할 수 있습니다 깊이와지도 및 모든 검색 이 정보는 메타 데이터를 사용하여 컬렉션에서 데이터 큐 레이션 접근성에 대한 모든 과정을 처리한다

메타 데이터에 필요한 것 뭔가로 접근 할 수 있도록 사용자 포털처럼 모든 것을 가질 수 있습니다 사용자 정보 한번 그렇게 될거야 저장 한 메타 데이터 사람들에게 접근 가능하다 여기에서 누가 기계 학습을 할 수 있는지 기계 학습에 대해 들어 본 적이있다 거의 모든 사람들이 우리 안에 있습니다

당신이 볼 수있는 페이스 북의 일상 얼굴 인식의 예 기계 학습을위한 기계 학습 기본적으로 컴퓨터를 작동시키는 방법 명시 적으로 프로그래밍하지 않고 그들에게 훈련을 잘 시켜라 때로는 많은 훈련이 필요합니다 시간이 지남에 따라 그 훈련으로 더 좋아지고 무엇을 이해할 수 있는가? 그들이 할 수 없기 때문에 찾고 있어요 우리가 그렇게하는 것처럼 스스로 생각해라 그들에게 훈련을 제공하고 알고리즘의 정확도가 향상됩니다

이것은 이것이 신경망의 예입니다 네트워크 측면에 기본적으로 당신 입력이 들어오고 선택할 알고리즘 기능을 선택하고 가중치 및 그것들이 얼마나 중요한지에 대한 백분율 기능은 있으며 가장 좋은 추측을합니다 이미지가 무엇인지, 주석을 달아주세요 그래서 만약 당신이 귀하의 정보를 참조하십시오 마우스는 괜찮아 그래서 너라면

당신의 이미지와 비디오를 가지고 이미지 및 당신은이 기계를 사용합니다 학습 소프트웨어 및 기계 학습 소프트웨어로 만들 수 있습니다 무엇을 분류 할 수있는 분류 자 그들이 탐지기로 만들 수있는 비디오 일단 그들이 만든 객체를 탐지 할 수 있습니다 그것들은 분석 할 수 있습니다 데이터를 저장하고 사용 가능하게 만들고 그래픽 사용자 인터페이스

내부 반복적 저장 프로세스 액세스 할 수 있도록 만들기 그 기계는 소프트웨어를 배우면서 특수 효과를 만들기 위해 그것을 사용할 수 있습니다 다른 분석 기능을 사용하십시오 가지고 있고 다음의 출력을 얻을 수 있습니다 귀하의 데이터는 주석이 달린 데이터 또는 그것의 더 많은 정보는 정말 그 처리에 비판적이 될거야 우리의 많은 돈을 가지고 일어난다

우리가 수집하는 이미지의 기계 학습과 그것이 어떻게 만들어 질 수 있는지 데이터를 더욱 쉽게 액세스 할 수 있습니다 이미지 내의 특수 효과 자동화 여기는 매우 시원한 그림입니다 이건 단순한 객체 일 뿐이다 탐지가 가능하므로 이미지는 알고리즘을 통과하고 그들은 골라 낼 수 있다고 생각합니다 거기서 관심있는 물건 그것은 탐지 할 수있는 객체를 할 수있다

그것이 물고기를 셀 수 종을 식별 물고기와이 모든 것들을 측정 할 수있다 매우 특수 효과를 생성 할 수 있습니다 인간을위한 힘든 과정 그들의 데이터가 이렇게 진짜있을거야 우리가 수집 할 때 앞으로 나아갈 중요한 가질 수있는 더 많은 데이터 기계 학습과 같은 보충 교재 내가 언급 한 것처럼 인간의 처리 전에 기계를 사용할 때 예외적으로 학습 훈련 중요한 애벌레들은 지난 5 년 동안 우리는 프로젝트 자금과 자동화 된 이미징 분석 이니셔티브로 수있는 엔드 – 투 – 엔드 소프트웨어 이미지를 찍고 주석을 달고 자동으로 처리하므로 만든 biame 비디오 및 이미지 해양 환경에 대한 분석 및 이 소프트웨어는 자동화 된 도구 상자입니다 온라인이고 기계 학습을 사용합니다

처리를 간소화하는 알고리즘 그래서 5 년 안에 우리는 우리 데이트 세트를 훈련시키고 우리의 데이트하는 방법 알고리즘이 더 똑똑하고 그래서 여기에 있습니다 훈련 데이터 세트의 두 가지 예가있다 우리가 사용하고있는 베링의 두 배 'r'이 되라 베링 해 폴록 그래서 우리는 북서쪽에 대구의 카메라로 폴락 조사 트롤과 폴락의 끝이 들어온다 이 VIAME 소프트웨어는 물고기가 지나갈 때 측정 실시간으로 아주 멋집니다

내가 말하고자하는 것은 쉬운 훈련 세트 때문에 배경은 그리 복잡하지 않다 많은 종들이없고 이와 같은 이미지는 일부와 훈련하는 알고리즘 교육 예제 및 아래쪽에 우리 동북부에 새로운 가리비 설탕 조사 캠 그것은 사진을 찍은 두꺼비 캠이야 그것들을 모자이크로 묶은 것이 이것입니다 또한 알고리즘을 지속적으로 교육합니다 그것은 조금 더 어렵습니다 왜냐하면 보시다시피 가리비는 그들 뒤에있는 모래와 비슷한 색 일부는 흰색, 일부는 갈색, 가장자리가 감지하기 어려울 수 있지만 가리비 조사를 위해 우리는 단지하지 않습니다

때때로 그 가리비를 찍어 라 이미지에 다른 것들이 있습니다 그럼 동북부에서는 VMA를 사용하여 사진들과 그것이 계속되고있다 꽤 잘 그들은 그것을 사용 해왔다 지난 1 년 동안 VMA 교육 2018 년에 방금 출시되었습니다

모든 어업 교육을 마쳤다 꽤 멋진 과학 센터들 기계 학습이 왜 그렇게 큰지 오는 많은 어려움이있다 이미지에 주석 달기 및 처리 이미지 1 번에 이미지 수 엄청 나서 수천을 모을 수있다 누군가가 가야하는 비디오 시간 중 어떤 경우에는 그들은 심지어 주석 달기 또는 전체 처리 중이다

그들은 당신이 알고있는 덩어리를 취할 수 있습니다 잠깐 기다려 다른 덩어리를 가져 가라 그것과 재능과 견적을 처리한다 당신이 할 수있을 때 더 정확하게 될 수 있습니다 실제로 모든 데이터를 처리하고 그게 기계가 될거야

인간을 돕기 시작해야한다 이미지 세트가있는 경우의 예 정말 비슷한 모양의 종 수중 환경에서 때로는보기가 어렵 기 때문에 혼탁 한 물이 있거나 명확하지 않다 구름이 덮여있어 기계가있다 그것의 탐지가있을 수있는 배우기 특정 기능은 어려울 수 있습니다 인간은 스스로 볼 수 있지만 알고리즘은 이러한 작은 픽셀 단위로 선택할 수 있습니다

기능 및 분석이 조금 개선되었습니다 인간보다 두 배로 계산됩니다 개별 물고기가 안으로 수영하고 당신이 확실하지 않은 프레임에서 그것은 같은 물고기 또는 기계가 아닙니다 트랙 특수 효과를 만들 수 있습니다 그 물고기를 식별하고 그것으로 그것이 알고있는 프레임 안팎으로 헤엄 쳐요

그 물고기는 내가 살 수있는 물고기 야 이중 계산을 제거하여 기계 학습에는 엄청난 양의 확실히 사용해야 할 혜택 우리가 처리 할 생각이있을 때 데이터가 좋아서 지난 주에 실제로 갔다 남동부 수산 과학에 이르기까지 센터와 나는 혼자 앉아 있었다 우리가하고 있었던이 훈련은 biame와 회사 kitware는 갔다 모든 어업 과학에 이르기까지 센터와 과학자들은 실제로 데이터를 사용할 것입니다

에있는 모든 것을 시도하는 것을 사용하여 그들의 컴퓨터는 그들의 훈련을 받았다 컴퓨터와 biame을 사용하여 시작하는 방법 그리고 기계 학습 그래서 나는 앉아서 전에 이미지를 처리 ​​한 적이 없다 너희들에게 처음 봐 줄께 비명을 지르는 기능 중 일부 너희들이라면 기계 학습이있다 빨리보고 싶어

너를 위해서 너를 끌어들이려고 노력할거야 나는 또한 그것을 지적하고 싶다 이것은 온라인 소프트웨어이며 무료입니다 지시 사항 및 추가 정보는 모든 온라인 및 지침 제공 세트는 PDF 파일 인 살아있는 문서입니다 그것은 항상 변화합니다

현재 업데이트 중입니다 어떻게 볼 수 있습니까? 그걸로 앞으로 나아갈 수있게 방금 쿼리 GUI를 열고 GUI는 그래픽 사용자 인터페이스입니다 그래서 내가해야 할 일은 그걸 열어 놓는거야 새 쿼리 유형을 만들고 여기에 이미지 예제를 사용할 것입니다 내 이미지를로드하고 나는 마우스 데이터 세트의 예제를 사용하고 마우스 데이터 세트는 스테레오 일뿐입니다

태평양 제도에서 가져온 카메라 거기에 몇 가지 정지 이미지가 있습니다 하단에로드 중임을 알 수 있으므로 이미지를 당겨서 지금 당장 그것이 이미지와 그것은 내가 원하는 것을 궁금해한다 감지하고 그것은 부부와 함께 올거야 상자들 그리고 거기에서 나는 그것을 말해야 만한다 내가 관심을 가지기는하지만 당신은 컴퓨터가 매우 똑똑하다는 것을 알고 있습니다 여전히 마음을 읽을 수 없으므로 이 조금로드 및이 하나의 예일 뿐이고 계속 훈련 할 때 기계 학습 알고리즘 다음과 같은 훈련 데이터 세트를 사용하고 있어야합니다

당신이 실제로하는 것과 비슷합니다 그 이유는 프로세스가 진행되기 때문입니다 알고리즘 학습 중 그들은 당신이 원하는 것을 배우고 있습니다 찾아보고 싶지 않은 부분 찾아서 처리 중이라고 말하십시오 양해 해 주셔서 감사합니다

실제로는 아주 멋지다 기능 및 내가 보여줄 내용 매우 단순한 모델 일뿐입니다 모델 그래서 여기에 모든 상자가 보입니까? 나왔다는 생각이 들었어 이것이 뭔가있을 수도 있다고 생각해 제 1 단계가 무언가가되어주세요

실제로 내가 원하는 것을 보여주기 위해 실제로는 개똥 지빠귀가 있습니다 맨 중간 이 상자를 클릭하면됩니다 이 화살은 단지 프로그램의 모습입니다 단계별 지침을 수행합니다 온라인 그래서 나는 상자를 강조했다 이 모든 기능은 이 상자가이 물건은 내가 너를 원해

찾으려면 좋아, 내가 칠거야 다시 OK를 누르면 열릴거야 이제 그걸 통해 볼거야 내가 원했던 전체 이미지 세트 이것을 보면지도보기에 불과합니다 별로 중요하지 않아서 내가 방금 말했던 것을 토대로 추측해라

생선과 그 기능이있을거야 끝내고 내가 뭘 원하는지 맞춰봐 그래서 여기에 점수를 보는 방법은 자신감이있는 것은 그것이 나에게 내가 추측 한 것 또는 내가 말한 것을 보여 주라 짐작할 수 있겠지만 그것이 나왔습니다 내 이미지 중 하나 인 물고기를 방아쇠로 당기고 여기 훈련을 시작하는 방법이 있습니다

네가 그걸 말해야 만한다 그게 내가 원하거나 무시하는 것이 아니길 바래 완전히 그리고 당신이 그것을 말할 때 그게 네가 말할 때 내가 원하는거야 내가 너의 훈련을 원하는 것이 아니다 알고리즘을 무시한다면 그것으로부터 전혀 배울 수 없다

무시해 그 예는 아마 당신이 가지고 있다면 서로 뒤에 두 마리의 물고기가있어 당신이 원하지만 둘 사이의 물고기 상자에 그 두 물고기와 너가있어 그것의 특징을 배우고 싶지 않아요 서로 앞에 두 마리의 물고기가 있기 때문에 그게 하나의 물고기가 아니에요 경우에 따라 내가 찾고있는 물고기지만, 왜냐하면 나는 두 사람을 식별하기 시작하지 않기를 바란다

나는 단지 그것이라고 말하지 않을 것이다 관련성이 높아지기 때문에 내가 통과 할 때 열쇠는 이것들이다 내가 찾는 건 조금 갈거야 빨리 볼 수 있습니다 다른 그래서 여기에 내가 그것을 말하고있어 좋아, 이거 때문에 그 뒤에있는 다른 물고기 나는 아마 아무 말도하지 않을거야

하지만 나는 옳을거야 클릭하면 등급이 적용되지 않은 것으로 계산됩니다 나는 그것을 그렇게 평가하지 않기를 바란다 너 갈거야 내가 갈거야 빠르다 보면 볼 수 있습니다

다른 물고기는 여기를 보자 괜찮아 그래서이 사람은 내가 아는 사람이 아니야 그래서 나는 말하기 시작할거야 음

하지만 이것들은 내가 원하는 걸 좋아하지 않아 그래서 위로 당신은 그 일이 무엇인지 알 수 있습니다 밑바닥에는 이것들이있다 정말 확신 할 수 없었습니다

내가이 경계인지 모르겠다 나는 그것이 그렇게하면 이것이 확실하지 않다 그것이 얼마나 가까이에 있다고 생각하는지에 대한 평가 위쪽과 아래쪽은 이것들이다 그게 정말 울타리에 있었어 나는 괜찮다고 말할 수있다

나는 음을 말할거야 이것에 대한 나의 unweighting에 맞지 않다 그리고 나서 너는 기본적으로 그냥 갈거야 이 인종 간을 통해 반복하고 일단 당신이 그것을 훈련 시키면 어쩌면 당신은 좋은 좋은 소수와 같을 수도 있습니다 그들 중 당신은 세련되고, 문자 그대로 당신이 훈련하는거야? 그것이 기반으로하는 알고리즘은 괜찮습니다

지금 당신이 방금 말한 정보 나와 너는 내가 갈 거라는 것을 분명히했다 한 번 더 이미지 세트를 통해 내가 조금이라도 얻을 수 있는지 알게 될거야 네가 말하는 것 같아 그리고 그것이 끌어 올릴 것입니다 내가 말한 그 세트는 위로 올바른거야

그런 다음 순서를 바꾸기 시작합니다 어쩌면 조금 더 가깝다는 추측 일 수도있다 Andale 그것은 그것을 정상에서 할 것이다 바닥과 나는 너무 많이지지 않을거야 다시 그것을 통해 많은 시간이 사촌 나는 단지 그것을 빨리하려고 애쓴다

실제로 데이터를 처리하고있었습니다 네가 그랬는지 확인하고 싶을거야 아주 올바르게 훈련 시키십시오 내가 말할 수있는 것은 관련이 없다 왜냐하면 그것은 두 가지를 가지고 있기 때문입니다

개똥 지빠귀에는 2 마리가 있기 때문에 나는 그것들을 탐지하기를 원하지 않는다 네가 한거 같아 내가 이것을 X에서 풀 수 있는지 확인해 보라 당신이 훈련하는 방법 그리고 그렇게하면 교육을 통해 해당 모델을 내보낼 수 있습니다 그 모델을 다른 사람에게 적용 할 수 있습니다

매우 차가운 훈련 데이터 세트 내 파워 포인트로 돌아갈거야 내가 보여주고 싶었던 바로 그 사촌 너 괜찮 니? 그래 시위의 약간 나는 한 조를 가지고있다 몇 분 남았고 그냥 말하고 싶었어 그 기계 학습은 수십 년 동안 지금은 정말 쉽습니다

컴퓨터 처리 가능 특히 수중 이미지의 경우 정말 어렵고 항상 네가 올 때오고있어 자신이 원하는 데이터를 수집하십시오 메타 데이터 구성 표준화 된 저장 용량에 대해 생각하면 그것은 접근 가능하게 될 수있다 더 넓은 대중을 위해서가 아니라 과학 공동체가 아니라 단지 내가 너를 기계처럼 보이기 때문에 당신이 염두에두고 싶은 소프트웨어를 배우십시오 가이드 라인이 있거나 요구 사항 또는 존재하는 표준 또는 당신은 배출 금지 또는 귀하의 대리점 용 조직 및 일부가 있습니다

시간과 같은 데이터를 돕는 것들 우표와 그것을 다시 연관시킬 수 있음 그 아카이브 요구 사항이 저장 용량이 아닐 수도 있습니다 에 대한 데이터를 보관하려는 장기적으로는 그렇게 될 수는 없다 빠른 저장 장치로 데이터에 쉽게 액세스 할 수 있고 또한 사용할 때 기계 교육을 훈련해야합니다 알고리즘과 그들은 꽤 훈련시킬 수 있습니다 그래도 시간이 필요해

당신이 원하는 것과 당신이하지 않는 것에 대해 말해주십시오 당신이 그들을 적용 시작할 수 있도록하고 싶다 귀하의 데이터에 12시 30 분이면 누구나 끝까지 마무리하겠습니다 어떤 질문이라도 할 수 있다면 정말 고마워요 질문을 던지십시오

알고리즘은 예측 능력이있다 종의 생존 이 특별한 프로그램은 내가 아는 사람 중에 하나만 알고있다 밖에서 다른 사람들이 있을지도 몰라 당신이 실제로 할 수있는 것만이 아닙니다 그것을 훈련하면 당신은 할 수 없을 것입니다

물고기 같은 물고기가 아니라면 실제로 그것을 훈련 시켜라 보이는 특정 기능을 가지고있다 그가 죽을 것처럼 나는 잘 모르겠다 네가 아는 것처럼 지느러미가없는 것 같아 어쩌면 그들은 오 말할 수있는 훈련을받을 수 있습니다

이 물고기는이 % 기회를 가질 것입니다 그래, 그래도 그냥 사는거야 너는 그곳에 더 먼 것이 있다는 것을 너는 짐작할 수있다 오버레이라고 생각하고 있었고 블록 체인을 사용하여 그것을 제시하고 당신이 가져올 수있는 인공 지능 거버넌스에서 지침 문서를 작성한 후 연결 직접 메타 데이터를 만든 다음 검색 매개 변수로 너는 그게 큰 그림이야, 나 알았어 너는 그걸 생각하고있을거야

분명히 그것이 있다고 생각합니다 다음과 같은 것들을 통합하는 기능 저것은 아직도 안에 종류의 발달 그러나 나는 생각한다 그렇지 않으면 가능성은 정직합니다 예 바로 그 거예요 멋진 사람 예 타라 감사합니다 분명히 이것은 실험실 또는 학계에서 지역 전반에 걸친 유사한 조사

유틸리티가 실제로있을 것 같습니다 역사를 넘어 생태계 또는 기초가 단일 인 경우 전국적으로 데이터베이스 바로 커뮤니티 하고 싶은 생각이 있어요 특히 어업 내에서 과학을 반복하지 않아서 미안해 질문 음 생각은 어땠어? 통합에 대한 전진 데이터 세트를 서로 교육하고 지금은 그 자리에 있지 않지만 사람들은 그것에 대해 확실히 말하고 있기 때문에 그들은 멕시코 만 (Gulf of Mexico)을 알고 있습니다

태평양 제도는 꽤 비슷합니다 조사는 암초 설문 조사를합니다 그들이 훈련하는 알고리즘이있다 서로에게 도움이 될 것입니다 우리가 가고있는 방향

사람들은 그것이 그 훈련을 사용하는 것이 유익하다 우리는 다른 사람들과 나누기 위해 너의 감각이 좋다 이 데이터가 당신에게 퍼져 있다는 500 하드 드라이브를 잘 압니다 질문은 특별히 남동부 어업 과학 센터 가장 많은 양의 데이터가 하나에 저장된 데이터 수집 1 개의 반점은 분리되어있다 그들은 거기에서 꽤 분리되어 있습니다 동남쪽에는 여러 가지 다른 노스 캐롤라이나 주 미시시피에있는 센터들 플로리다와 내가 아는 한 이미지 컬렉션은 각각 센터는 자체 프로젝트를 기반으로한다

다음과 같은 통합은 없습니다 생각하기 시작해야 할 것 우리가 생각하기를 원한다 우리는 중앙 집중화를 시작해야할까요? 특히 당신을 위해 비슷한 스토리지 알고 부위 남동쪽과 같은 일하고있는 다른 종류의 프로그램 생선 이미지 데이터를 얼굴에 사용하기 날짜에 따라 다름 mmm 보이는 것 같아 보인다 그건 네 일이 아니야 그냥 물고기 조사가 아니야

그래 그 의견은 다른 수집중인 닙 부분 전자와 같은 광학 이미지 어업 의존적 인 데이터의 모니터링 및 그것은 다른 상황이다 에 대한 고려 사항이있다 기밀 유지 당신이하지 않는 개인 낚시 보트 그 데이터를 필히 만들고 싶다

대중에게 접근 가능하고 그래서 그들은 또한 기계 학습을 들여다 본다 그래서 그들은 그것에 대해 가야 할 것입니다 그들이 매우 사려 깊은 곳 데이터에 접근 할 수있는 방법 하지만 접근 할 수있는 한 그들의 도움을 줄 수있는 소프트웨어 프로세스에 집중하고 있으며 그 네, 그렇습니다 아마도 훈련 일 것입니다

알고리즘은 예, 괜찮습니다 이미지 나 동영상이 있습니까? 권장되는 파일 형식 또는 이 데이터를 컴퓨터에서 사용할 수있게 만들기 배움 음, 뭐든간에 VIAME을 특별히 온라인에서 사용하고 있습니다 어쩌면 내가 제공 할 수있는 웹 사이트 우리가 이것을 업로드하면 링크처럼 프레젠테이션은 구체적이지만 그래서 저는 온라인에서 정보 및 귀하의 다른 방법으로 액세스 할 수있는 데이터 내가 추천하는 온라인 추천 이것에 대한 보고서를 작성하면 실제로 그 중 일부는 가지고있다 보고서에 기록 된 권고 사항 곧 나올거야 조지는 아키비스트가 기계를 쓸 수 있는지 묻습니다

VIAME 또는 다른 프로그램과 같은 학습 지역의 사람들을 식별하는 데 사용된다 팔 고 융점 아, 그럼 그들이 질문을 듣는가? 물어 공기 직접 직접 괜찮아요 보관 된 이미지는 걸리는 보관 된 이미지를 알아야하기 때문에 그것은 깊숙이 저장되어있어 조금 걸립니다 나갈 시간은 충분하지만 얻을 수 있다면 당신과 함께 할 수있는 이미지는 그 이상으로 학습하는 기계 남자의 구체적인 것은 수 중용이다 환경 그래서 알고리즘의 방법입니다 훈련 받았지만 확실히있다

사람들을위한 기계 학습과 나는 생각한다 아마 미 국방부 확실히 더 많은 정보를 얻을 수있다 그게 뭔지 아십니까? 언어는 기본 코드가 아닙니다 제품 그래, 음 나는 잘 모르겠다 문제는이 물건의 가늠자를 가지고 있었다

아직 제품을 만드는 것 지속적인 개발로 알고리즘은 항상 변경되고 공개적으로 사용 가능하도록 업데이트되었습니다 네가 좋아하지 않는 한 거기 있는지 알아라 온라인에 접속하여 지시 사항 내가 있는지 모르겠다 당신이 얻을 수있는 세트 제품 패키지처럼 그러나 그것은 당신이 개발이 일어난다는 것을 알고 있습니다 오히려 빨리 좋아해요

관리 시간 기술은 내가 그렇게 간다 그것이 미래에 확실히있을 것이라고 생각한다 괜찮을거야

Serverless Big Data Analytics at Traveloka (Cloud Next ’18)

[음악 재생] 어쨌든, 안녕하세요 너희들이 즐거운 시간 보내길 바래

있잖아, 오늘은 셋째 날이야 지난 2 월 1 일 세션을 좋아하길 바래 일 어쩌면 이것은 오늘의 마지막 세션입니다 그래서 우리는 당신을 위해 그것을 간단하고 짧게 유지할 것입니다 그래서 제 이름은 가우 라프 아난드입니다 저는 싱가포르에 본사를 둔 Google Cloud의 고객 엔지니어입니다

인도네시아 사업을 다룹니다 그리고 나에게는 윌슨이있다 Traveloka에서 싱가포르로 그래서 그는이 세션을 진행할 것입니다 그래서 우리가이 세션을 진행하는 방법입니다

우리는 데이터에 대한 소개의 초기 부분을 가지고있을 것입니다 Google Cloud의 분석 패턴 그리고 윌슨은 그의 여정을 나눌 것입니다 데이터 파이프 라인을 구현하는 Traveloka의 여정 그리고 GCP와 Traveloka를 사용한 멋진 것들 괜찮아 그래서 지난 1 년 동안 나는 많은 분석적 지도자들과 이야기 해왔다

나는 많은 어려움을 겪어왔다 큰 데이터의 경우 그래서 가장 – 나는 세 가지 가장 중요한 도전이 있다고 말하고 싶다 자주 올거야, 이것들이야 우리 모두는 거의 모든 데이터 양을 알고 있습니다

기업들은 요즘 생산하고있다 엄청나게 성장했습니다 그리고 그 성장을 계속합니다 따라서 인프라가 필요합니다 비즈니스 성장에 따라 선형 적으로 확장됩니다

아키텍처를 다시 설계 할 필요가 없습니다 또는 귀하의 인프라를 매 3 개월마다, 매 6 개월마다 따라서 인프라의 수준이 필요합니다 자동으로 크기가 조정됩니다 두 번째는 올바른 재능을 찾는 것입니다

기술이 진화 한 방식이므로, 오픈 소스 기술을 본다면 10 년 전의 모습, 지금의 모습, 기하 급수적 인 성장이 있었다 기술 집합에서 그리고 당신 팀이 유능 해 지도록하는 것 모든 기술을 아우르는 도전입니다 알다시피, 3 개월마다 새롭게 떠오르는 것을 보아라 따라서이 또한 가장 큰 도전 중 하나입니다

기업의 직면하고있다 그리고 마지막으로 중요한 것은 비용입니다 따라서 규모가 커짐에 따라 비용이 증가하면서 비용도 증가합니다 규모에 따라 선형 적으로 증가해서는 안됩니다 따라서 일종의 비용 통제가 있어야합니다

인프라를 늘릴 필요가 없습니다 비용과 함께 이제 막 방금 전에 언급 한 것처럼, 지난 10 년 동안, 오픈 소스 생태계는 기하 급수적으로 성장했습니다 사실, 나는 아직도 10 년을 기억한다 다시 말해서 Hadoop을 검색 할 때 당신은 구글에서 공식 아파치가된다

문서 및 아무것도 그리고 네가 그렇게한다면, 알다시피, 수십, 수천 개의 링크와 문서가 있습니다 그리고 이것 저것 따라서 Hadoop, Spark 및 기타 구성 요소 주변의 생태계 진화를 계속합니다 하지만 그것은 또 다른 도전을 불러옵니다

팀이 모든 기술을 배우게하십시오 그런 말로, 단 하나의 기술은 없다 모든 문제를 해결합니다 그러나 이것이 모든 기술을 배우는 것이 필요하다는 것을 의미하지는 않습니다 당신은 그것을 몇 가지로 좁힐 필요가 있습니다

대부분의 사용 사례를 다루고 있습니다 거의, 방안에, 당신 대부분은 이러한 산업 분야 중 하나에 속합니다 현재 업계에서 수직 계열화가 이루어지지 않았습니다 데이터 분석이나 고급 기능이 필요없는 해석학 몇 가지 사용법을 볼 수 있습니다

여러 업계에서 꽤 흔한 사례 그리고 가장 큰 초점은 사용자입니다 윌슨으로부터 오늘 듣게 될 것은 무엇입니까? Traveloka 관점에서, 그들이 개선하는 방법입니다 전반적인 사용자 경험 최종 목표는 제품이있는 경우, 서비스, ​​최종 사용자는보고 싶은 것을보아야합니다 그리고 당신이 그가보고 싶어하는 것이 아닙니다

따라서 Google은 전체 데이터 수명주기를 단순화하려고 노력하고 있습니다 따라서 우리는이 4 가지 도구와 서비스를 제공합니다 기본적인 라인 첫 번째 것은 물론 섭취입니다 사람들이 사용하는 날이있었습니다

일종의 대량 저장 일괄 처리로 많은 양의 데이터 수집 – 예전처럼 1 시간 만에 알다시피, 귀하의 데이터는 [INAUDIBLE] 하루에 한 번, 그런 다음 분석 및보고 기능이 풍부합니다 그것의 위에 달리기 그러나 스트리밍 분석에는 지난 몇 년 동안 재배 된 가장 중요한 구성 요소 중 하나가되었습니다 대부분의 사업

따라서 스트리밍하여 데이터를 수집해야하는 경우, GCP에서 우리의 메시징 버스 인 Pub / Sub를 사용할 수 있습니다 그러나 카프카 또는 다른 메시징 배경에서 온 경우, 당신도 그것을 사용할 수 있습니다 데이터 파이프 라인 및 처리 관점에서 볼 때, Apache Beam을 실행할 수있는 Cloud Dataflow가 있습니다 네가 어떤 일을 겪었을거야 지난 이틀 동안의 세션 데이터 흐름 및 Apache Beam에 대해 설명합니다

그리고 Hadoop 또는 Spark 배경에서 오는 경우, Cloud Dataproc에서 실행할 수 있습니다 데이터 호수 건설에 관해서 데이터웨어 하우스를 구축하거나 BigQuery와 클라우드 스토리지의 두 가지 옵션이 있습니다 BigQuery에서 데이터 호수를 보유할지 여부 선택하기 또는 클라우드 스토리지, 아시다시피, 거기 장점과 단점도 있습니다 물론, 최첨단 분석이 필요합니다 따라서 BigQuery 또는 클라우드에서 데이터를 가져 오면 스토리지를 사용하면 모든 고급 분석을 실행할 수 있으며, 컴퓨터 학습,보고 및 기타 등등

내가 말했던 것처럼 스트리밍 분석 지난 몇 년 동안 많은 중요성을 얻었습니다 그래서 이것은 가장 일반적인 패턴 중 하나입니다 우리는 당신이 사용하는 대부분의 고객을 본다 귀하의 장치, 당신은 귀하의 응용 프로그램 – 웹, 모바일, 이것 저것 그리고 나서 중간에 메시징 버스를 가져옵니다

당신은 Pub / Sub, Kafka, 또는 다른 메시징 버스 그리고 나서 Apache Beam을 맨 위에 사용합니다 변환을위한 데이터 흐름 또는 Spark 또는 다른 오픈 소스를 사용합니다 Dataproc의 구성 요소

그런 다음 데이터를 착륙시킬 수있는 옵션이 있습니다 여러 스토리지 시스템에 분산되어 있습니다 BigQuery는 애널리틱스가있는 경우 가장 많이 사용되는 선택입니다 그 위에보고하는 대시 보드가 많이 있습니다 Bigtable – 많은 시간 계열 분석을 수행해야하는 경우, Bigtable은 매우 훌륭합니다

사실, 가장 흥미로운 사용법 중 하나를 볼 수 있습니다 Traveloka의 사례와 Bigtable을 사용하는 방법에 대해 설명합니다 그리고 서버리스 머신을 배우고 싶다면 서비스에서는 Cloud ML에서 모델을 실행합니다 그래서 윌슨을 다시 데려오고 싶습니다 Traveloka에서 그들이 공중에서 한 일을 나눌 수 있습니다

몇 가지 유스 케이스와 근원적 인 과학 기술 승인 [박수 갈채] WILSON LAUW : 안녕하세요, 여러분 내 이름은 윌슨이야 나는 Traveloka 출신이다

그래서 당신을 위해서, Traveloka를 알지 못하는 손님, Traveloka는 온라인 여행 예약 중 하나입니다 동남 아시아의 기업 온라인 여행 예약 대행사로 시작했습니다 실제로 여러 비즈니스로 확장되었습니다 수년에 걸쳐 오늘 우리가 이야기 할 것은 기본적으로 우리는 Traveloka에 어떻게 데이터가 있는지에 대해 이야기하고 있습니까? 우리가 데이터를 사용하는 방법, 데이터로 문제를 해결하는 방법, 그리고 거래에 대한 우리의 도전은 무엇입니까? Traveloka에있는 데이터

그리고 우리는 또한 당신에게 줄 것입니다 Google Cloud 채택 방법에 대한 간략한 설명 우리의 [INAUDIBLE] 시스템에 마지막으로 중요한 것은 기본적으로 우리가 만난 하나 또는 두 개의 유스 케이스를 공유 할 예정이다 Traveloka에서 어떻게 문제를 해결할 수 있을까요? 우리의 접근 방식 그래서 내가 너에게 나눌 첫 번째 기본적으로 Traveloka의 데이터는 무엇입니까? 그래서 Traveloka는 데이터에 의존하는 회사입니다

우리는 실제로 많은 것을 위해 데이터를 사용합니다 Google은 데이터를 수집하고 의사 결정에 사용합니다 Traveloka에서 비즈니스 분석을 수행하는 경우를 예로들 수 있습니다 또한 데이터를 수집하여 사용합니다 [INAUDIBLE]에 대한 샘플은 [? 메시지?] 시스템, 광고 최적화, 사기 탐지, 그리고 아마도 [INAUDIBLE]

그리고 이것들은 데이터에 대한 우리의 유스 케이스의 일부입니다 그리고 훨씬 더 [부적절한] 우리가 어떻게 데이터를 사용하는지 그리고 이들은 몇 가지 예입니다 우리가 어떻게 데이터를 사용하는지

내가 너에게 나누어 줄 첫 번째 일 Traveloka에서 데이터를 다룰 때 어려움이 있습니다 Traveloka에서 명백한 도전 기본적으로 데이터 자체의 크기입니다 이 [무적]은 그다지 작지가 않습니다 우리는 실제로 하루에 몇 테라 바이트 정도의 데이터를 얻고 있습니다 따라서 전통적인 방식을 사용하여 유스 케이스를 실제로 해결할 수는 없습니다

데이터 기술 그래서 또 다른 것은 Traveloka입니다 여러 비즈니스 라인을 보유하고있는 회사 인 동시에, 우리는 실제로 다양한 데이터 소스를 가지고 있습니다 어쩌면 일부 회사는 한 줄의 비즈니스 – 전자 상거래 또는 여행 예약을 가정 해 봅시다 또는 항공편 예약

Traveloka에서는 여러 비즈니스 라인을 보유하고 있으며, 숙박 예약, 렌터카 예약, 등등 그래서 우리는 여러 팀을 가지고 있습니다 [INAUDIBLE] 같이 일하다 그리고 Traveloka의 데이터 팀으로서, 실제로 모든 다양한 장소에서 데이터를 가져와야합니다 우리의 단일 데이터웨어 하우스에

Traveloka의 [INAUDIBLE] 데이터 기본적으로 데이터를 사용하려는 여러 팀이 있습니다 우리 팀뿐 아니라 또한 모든 유스 케이스가 있습니다 또한 유스 케이스도 처리 할 수 ​​있어야합니다 우리가 해결하고자하는 다음 일 [INAUDIBLE] 시스템입니다 모든 사람이이 데이터를 원하며 시스템을 신뢰할 수있게하고 싶습니다

그들은 시스템을 원하지 않습니다 그들은 시스템이 한 번 재 프로그램되기를 원하지 않는다 매주 또는 매월 1 회 그들은 시스템이 가능한 한 신뢰할 수 있기를 원합니다 그리고 마지막으로, 특히 비용은 가능한 한 합리적이어야합니다

그래서이 모든 도전들을 보아라 우리가 풀고 싶은, 우리가 실제로 왔어 우리가 성취하고자하는 몇 가지 특징을 가지고 있습니다 가능한 한 데이터 대기 시간을 줄이십시오 사건이 일어나 자마자 곧 누군가와 우리 웹 페이지 나 모바일 앱에서 뭔가를한다

BI 데스크에서 사용 가능하고 액세스 가능하도록하고 싶습니다 봇 또는보고, 또는 우리가 가지고있는 다른 유스 케이스 우리가하고 싶은 다음 일 시스템 자체의 [INAUDIBLE]에서 [INAUDIBLE]입니다 따라서 시스템을 사용할 수 있어야합니다 Traveloka는 개발 회사이기 때문에, 우리는 실제로 데이터를 사용하여 회사에서 의사 결정을 내립니다

시스템이 실제로 손상된 경우, 책상 봇 또는보고는 그렇지 않습니다 몇 시간 또는 며칠 동안 사용할 수 있습니다 실제로 Traveloka는 많은 비용이 소요될 것입니다 달성하고자하는 다음 일 기본적으로 우리는 수술에 시간을 보내고 싶다 가능한 한 최소

엔지니어가 시간을 보내길 바랍니다 생산적이고 창조적 인 무언가를 만들어라 응용 프로그램을 디버깅하는 것이 아니라, 로그를 통해, 그리고 실제로 다른 일을하기 다른 방법으로 해결할 수 있습니다 그리고 이것이 우리의 목표입니다 사실, 재미 있습니다

당신이 실제로 초기 데이터 아키텍처임을 보여줍니다 과거에 우리가 가진 것은 실제로는 완전히 앉아있는 것입니다 Amazon Cloud에서 그리고 이것은 과거에 어떻게 생겼는지 간략하게 설명합니다 기본적으로 모바일 앱에서 오는 데이터가 있습니다

또는 바탕 화면 [INAUDIBLE]은 실제로 데이터를 Kafka [INAUDIBLE]에 넣습니다 그리고 나서 우리는 고블린 일자리가 있습니다 실제로 데이터베이스에 데이터를 삽입하려고합니다 [INAUDIBLE] 또는 Spark에서 ETL을 수행하십시오

S3 데이터 호수에이 모든 것을 저장하려고합니다 그리고 우리는 [INAUDIBLE]의 데이터를 저장할뿐만 아니라, [INAUDIBLE] 메시징 버스로 들어오는 데이터, 카프카입니다 우리는 또한 [INAUDIBLE] 또는 MongoDB도 마찬가지입니다 따라서이 방법을 사용하면 데이터 끝 한계가있다 대기 시간을 끝내기 위해서, 실제로는 기껏해야 – 데이터를 위해 할 수있는 최선의 방법 기본적으로 시간 지연입니다

따라서 앱이나 시스템 자체에서 문제가 발생하면 우리는 한 시간 만에 데이터를 얻을 수 있습니다 따라서이 제한을 살펴보면 실제로 우리 시스템을 보려고했다 [INAUDIBLE] 데이터의 로우 엔드에서 엔드 레이턴시에 이르는 유스 케이스를 해결할 수 있습니다 그리고 그것이 실제로 우리가 시도한 방법입니다 처음으로 운동하기

첫 번째 사용 사례는 데이터로 스트림 분석을하는 것입니다 그래서 우리는 Kafka와 Pub / Sub에 우리의 데이터를 [INAUDIBLE] 직접 그리고 우리는 우리의 스트리밍 [INAUDIBLE] 데이터를 직접 전달하고 BigQuery 자체에 직접 데이터를 게시하십시오 이 BigQuery는 BI에 의해 [무관심] 될 것입니다 도구 및보고 도구를 제공합니다

따라서이 방법을 사용하면 실제로 우리가 볼 수있는 수많은 [무적]을 이미 본다 이전 아키텍처에서 첫 번째, 그리고 가장 분명한 것은, 데이터 자체의 대기 시간입니다 이벤트가 발생하자마자 Pub / Sub, Dataflow, 및 BigQuery 몇 초 만에 BigQuery로 이동합니다

데이터로 어떤 일이 발생하면 AB 테스트를하고 있다고 가정 해 봅시다 당신은 캠페인을하고 있습니다 사실 [INAUDIBLE] 데이터를 직접적으로, 이벤트가 발생하자마자 그리고 우리가 여기서 본 다음 일은 기본적으로 Pub / Sub, Dataflow 및 BigQuery이며, 우리가 시도하는 첫 번째 [INAUDIBLE]은 시도입니다 [INAUDIBLE] 따라서 실제로 걱정할 필요가 없습니다

종속성 설치, 라이브러리 설치, 프로비저닝 및 기타 전통적인 기술을 사용할 때 사용하던 기술입니다 두 번째로 눈치 채실 수 있습니다 데이터 흐름에는 내장 된 확장 기능이 있습니다 따라서 실제로 하드 코딩 할 필요가 없습니다 귀하의 스케일링 작업을위한 [비 숙련 된] 부서

실제로 자동 크기 조정 기능을 설정할 수 있습니다 그런 다음 귀하의 [INAUDIBLE] 직업을 기반으로 위 아래로 축척됩니다 오는 트래픽 사실 우리는 작업량을 줄였습니다 우리는 우리 일과 관련이 있어야합니다

BigQuery 자체의 성능은 실제로 이전에 사용했던 우리의 SQL 엔진에 비해 훨씬 좋았습니다 사실 우리가 전에는 [무관심]을 사용했습니다 그래서 우리가 이미 볼 수있는이면을 보면서, 우리는 실제로 Google Cloud의 [INAUDIBLE]을 확장하기로 결정했습니다 우리 도서관 시스템에 이것이 데이터의 다음 단계로가는 방법입니다

인프라는 Google과 같이 복잡해 보입니다 구름 그리고 이것이 실제로 어떻게 고수준처럼 보입니다 따라서 데이터는 실제로 직접 올 것입니다 앱에서 우리가 Kubernetes에서 만든 엔드 포인트까지

실제로 Pub / Sub에 직접 데이터를 저장합니다 이전과 마찬가지로 Dataflow로 이동합니다 BigQuery를 통한 스트리밍 실제로 다른 데이터 흐름 작업도 수행합니다 BigQuery에서 데이터를 변환하는 경우 GCS의 패킷 형식으로 변환합니다 또한 모든 측정 항목을 데이터에 저장합니다

빅 테이블 (Bigtable)에서 나중에 자세히 이야기 할 것입니다 그리고이 모든 [불친절한]은 [무관심한]을 통해 이루어집니다 그리고 당신이 알고 있다면이 모든 것에 대해 좋은 점이 있습니다 기본적으로, 이것 모두는 실제로 [INAUDIBLE] 및 [INAUDIBLE]이 이미 있습니다 StackDriver를 통해

따라서 로그인에 대해 걱정할 필요가 없습니다 라이브러리 또는 메트릭스 라이브러리 (예 : [INAUDIBLE])와 같이 그런 식으로 그리고 우리는 [INAUDIBLE] 더 이상 이 모든 것은 실제로 Google에서 제공하는 서비스이거나 또는 Kubernetes의 [INAUDIBLE]에 배포됩니다 자동 스케일링 기능이없는 다른 기능 기본적으로 Bigtable입니다

그리고 Kubernetes, BigQuery, Dataflow, 펍 / 서브 – 그들 모두는 실제로 요구에 의해 확장 될 수 있습니다 그래서 어떻게 걱정할 필요가 없습니다 BigQuery를 통해 트래픽을 확장 할 수 있습니다 [INAUDIBLE] 연말 연시, 긴 휴일 등) 데이터를 중앙 BigQuery 데이터로 가져온 다음 창고, 우리는 실제로 데이터를 만들었습니다

[INAUDIBLE] Traveloka의 [INAUDIBLE]이 (가) 사용합니다 BigQuery의 창고에있는 단일 프로젝트에서, 우리는 실제로 많은 BigQuery 프로젝트를 만들었습니다 뿐만 아니라 Google Cloud의 다른 프로젝트에 앉아 있습니다 왜 우리가 실제로 그것을 할 것인가하는 것은 기본적으로 우리는 데이터의 허가를 원한다 우리는 가능한 한 [부적절한] 마트가되어야합니다

예를 들어 마케팅에서 왔다고합시다 그래서 저는 저의 수입에 관한 데이터를 가지고 있습니다 이 데이터를 회사에서 공유하지 않기를 바랍니다 따라서 실제로 팀에 개인 데이터를 제공 할 수 있습니다 공유하고 싶은 데이터를 다른 팀과 공유 할 수 있습니다

Traveloka에서 실제로 BigQuery 프로젝트가 하나 있습니다 Traveloka의 각 팀마다 그렇게 효과적으로 그들은 선택할 수 있습니다 어떤 데이터를 회사와 공유하고 싶습니까? 팀에서 비공개로 유지하려는 데이터 그리고 또 다른 이유는 기본적으로 우리가 가지고있는 이유입니다

BigQuery 및 GCS의 데이터, 동일한 데이터 기본적으로 데이터에서 ETL을 수행 할 때입니다 데이터 마트에웨어 하우스, 우리가하고있다 여러 가지 방법으로 ETL 대부분은 BigQuery SQL을 직접 사용하는 것입니다 필터, 조인 및 그룹화와 같은 간단한 변환 더 복잡한 ETL에서는 Dataflow 또는 Spark를 사용해야합니다 예를 들어, 기계 학습 등

Spark로 [INAUDIBLE]을하고 있다면, 사실 스파크가 [INAUDIBLE] BigQuery에서 직접 가져 왔지만 효율성은 BigQuery의 [INAUDIBLE]과 [INAUDIBLE] 데이터 비교 [INAUDIBLE]에서 여전히 일치하지 않습니다 [INAUDIBLE]의 데이터를 [INAUDIBLE] 데이터를 읽는 것보다 훨씬 빠릅니다 이제 BigQuery에서 실제로 BigQuery의 모든 데이터 [INAUDIBLE] 직접적으로 [INAUDIBLE]을 (를) 미러링 할 것입니다 팀의 모든 애널리스트는 실제로 자신의 책상을 만들어라

그리고 데이트 마트에서 그들은 실제로 직접 할 수 있습니다 BigQuery에서 BI 데스크로 데이터 쿼리 봇과 [? mech?] 업무용 데스크 봇 [INAUDIBLE] 보다 그리고 이것은 기본적으로 높은 수준의 것입니다 우리가 너와 함께 할 수있는 [부적절한] 건축 우리가 당신과 공유 할 다음 일은 기본적으로 데이터의 사용 사례 중 하나입니다

플랫폼 그리고 우리가 이것을 [부적절한] 통계라고 부르는 것 우리가 당신과 나누고 싶어하는 Traveloka에서 – 일부는 측정 항목 중 예를 들어, 우리가 하루에 얻을 수있는 것과 같은 데이터의 수 – 하루에 몇 테라 바이트 매일 매일하는 일괄 처리 작업의 수는 60,000 플러스 BigQuery에서 생성 된 작업 수입니다 BigQuery를 사용하는 이러한 작업의 대부분은 실제로 거의 실시간으로 이루어지고 있습니다

따라서 이벤트가 곧 예정대로 진행됩니다 예약이 진행되는 동안 실제로 차트가 업데이트 된 것을 볼 수 있습니다 실시간으로 다음은 기본적으로 고객 데이터 플랫폼입니다 우리가 당신과 공유하고 싶은 유스 케이스 중 하나입니다

우리는 Traveloka에서 분석을 수행합니다 이것은 예제 질문 중 하나입니다 비즈니스 팀 [INAUDIBLE] 또는 다른 팀이 Google 팀에 요청하는 것입니다 예를 들어 특정 고객이 우리 한테서 처음 사 줄래? 우리에게서 마지막으로 구매 한이 남자는 무엇입니까? 그리고 이런 종류의 질문을 본다면, BigQuery를 사용하여이 질문에 쉽게 답변 할 수 있습니다 BigQuery에 모든 데이터가 있습니다

데이터를 쿼리하면됩니다 Bigtable에서 선택한 별표를 만듭니다 사용자 ID별로 정렬하면 대답을 얻을 수 있습니다 하지만 문제는 기본적으로 BigQuery에서만 가능합니다 비트별로 파티션 나누기

BigQuery의 단점 중 하나입니다 그리고 만약 당신이 이런 종류의 질문을하고 있다면, 구매 일 또는 시간 소인을 알지 못합니다 모든 시간 범위를 스캔해야합니다 이 고객을 필터링하고 언제 볼 수 있습니까? 이 고객의 구매 따라서 실제로 불필요한 스캔이 많이 발생합니다

데이터의 그리고 또 다른 것은 기본적으로 BigQuery입니다 분석 데이터웨어 하우스로 설계되었습니다 그래서 그것은 [INAUDIBLE] 스캔을하도록 설계되었습니다 응답 시간이 예상됩니다 몇 초 또는 거대한 조인을위한 1 분 정도 걸릴 수 있습니다

사용 사례에 따라 이러한 답변이 필요합니다 밀리 초 단위로 응답해야합니다 사람들에 의해 잡힐 것입니다 이것은 기계에 의해 호출되지 않을 것입니다 Google은 다른 사용자가 API를 사용할 수 있도록 [INAUDIBLE] 실제로 API를 호출하고 직접 응답을 얻을 수 있습니다

예를 들어, 이것이 우리가 유스 케이스를 실제로 어떻게 해결했는지, 우리는 BigQuery뿐만 아니라 Bigtable에도 데이터를 넣으십시오 그래서 우리는 Kubernetes에서 API를 개발했습니다 Traveloka에있는 우리 팀에 소개했습니다 예를 들어, 우리 비행 팀, 호텔 팀, 숙박 시설, 그들은 우리의 API를 호출 할 수, Google API는 실제로 Bigtable 또는 BigQuery를 쿼리합니다 그 (것)들을위한 응답을 얻는

Bigtable을 사용 사례로 사용하는 이유는 무엇입니까? 몇 가지 이유 때문입니다 우선 기본적으로 우리는 모두를 원합니다 [INAUDIBLE] 스캔을해야합니다 이것은 실제로 우리가 뭔가를 사용할 수없는 이유 중 하나입니다 아파치 카산드라

내가 아는 한 간단한 키 값만 수행 할 수 있습니다 우리는 실제로 그것보다 훨씬 더 많은 능력을 필요로한다 다른 하나는 동적 열을 수용 할 수 있어야한다는 것입니다 그리고 가능하다면 우리는 그것이 많은 것이되기를 원합니다 표면

?] 그냥 빅 테이블이 우리에게 제공 할 수 있습니다 또한 [INAUDIBLE] API에 익숙하지만 어떤 [INAUDIBLE]의 오픈 소스 [INAUDIBLE] API입니다 그리고 많은 사람들이 이미 이런 종류의 API에 익숙합니다 이제 예제 데이터에 대해 살펴 보겠습니다

우리가 대답 할 Bigtable의 모델링 그런 종류의 질문 예를 들어 Bigtable의 테이블 일부입니다 그리고이 특정 고객이 언제 구매했는지 평가하러갔습니다 우리에게서 처음으로 그래서 우리는 실제로 이런 종류의 데이터 모델링에 데이터를 저장했습니다

우리는 실제로 사용자 ID를 접두어로 사용했습니다 그리고 우리는 이벤트의 타임 스탬프와 함께 추가합니다 따라서 이벤트는 [INAUDIBLE] 일 수 있습니다 이런 종류의 테이블의 경우 이벤트는 구매입니다 값은 구매의 [INAUDIBLE]이며, 그가 우리 나 호텔에서 비행기 표를 사든 바우처 또는 무엇이든

BigQuery는 Essbase와 비슷합니다 미안, 빅 테이블 그들은 정렬 된 방식으로 데이터를 저장합니다 데이터를 저장하기 위해 키를 해시하지 않으며, 당신이 아파치 카산드라와 그것을 비교한다면 그러면 데이터를 저장하게 될 것입니다

이런 비슷한 이 경우 세 개의 사용자 ID 인 A, B 및 C가 있습니다 그리고 뒤에있는 숫자는 사건의 타임 스탬프입니다 당신의 데이터는 이와 같이 정확한 순서로 저장됩니다 사용자 ID, 시간 소인 및 구매입니다

그래서 당신이 이런 데이터 모델을 가지고 있다면 너 내가 원하는 것에 관한 질문이있어 언제이 남자가 우리에게서 처음 사는지 아는 것 그래서 우리가 할 수있는 것은 기본적으로 간단한 키 값을 할 수 없다는 것입니다 우리가 타임 스탬프를 알지 못하기 때문에 가져온다 우리가 할 수있는 것은 기본적으로 우리가 할 수있는 것입니다

테이블에 대한 [INAUDIBLE] 스캔을 정의하십시오 우리는 [INAUDIBLE] 스캔을 정의 할 수 있습니다 우리는 사용자 ID를 알고 있기 때문에, 하지만 우리는 타임 스탬프를 모른다 예를 들어 타임 스탬프로 0을 넣으면됩니다 원거리 스캔을 할 때 우리는 첫 번째 행을 가져올 것입니다

최소 시간 스탬프 만 있습니다 그리고 당신은 당신의 알파벳순을 가지고 있습니다 우리는이 고객이 무언가를 샀을 때 처음 우표를 찍었습니다 우리로부터 또 다른 비슷한 문제는 기본적으로 특정 고객이 우리에게서 마지막으로 구매 한 시간입니다

이러한 종류의 동일한 데이터 모델이 Essbase와 함께있는 경우 아래쪽에서 역 스캔을 할 수 있습니다 사용자 ID를 지정하십시오 이론적으로는 마지막 시간 스탬프를 얻으십시오 그러나 Bigtable은 실제로 그렇게 할 수 없습니다 Bigtable은 실제로 API와 호환되지만, Bigtable에서 지원할 수없는 작은 것들이 있습니다

그 중 하나는 역방향 스캔입니다 그래서 우리는 실제로 작은 일을해야합니다 이러한 질문에 대답 할 수 있어야합니다 이것이 우리가 이런 종류의 문제를 해결 한 방법입니다 그래서 우리는 열쇠를 바꿨습니다

사용자 ID와 실제 시간 소인을 사용하는 대신, 실제로 사용자 ID와 타임 스탬프를 사용했습니다 최대 시간 소인으로 변경했습니다 타임 스탬프 자체를 뺀 당신이 모든 열쇠에 대해 그렇게한다면, 당신은 당신의 데이터로 끝날 것입니다, 그러나 내림차순으로 정렬됩니다 첫 번째 행은 마지막 구매 일 것입니다 마지막 행이 첫 번째 구매 항목이됩니다

그리고 이미 이런 종류의 데이터 모델을 가지고 있다면, 당신은 실제로 [INAUDIBLE] 같은 것을 할 수 있습니다 배열 스캔을 할 수 있고, ID를 지정할 수 있으며, 마지막 구매로 첫 행을 얻습니다 사람과 그 세부 사항의 그리고 이것은 [불친절]의 한 예입니다

우리가 빅 테이블에서하는 일 그리고 Bigtable을 사용하여 몇 가지 사례를 추가로 제공합니다 그러나 우리는 오늘 그것을 공유하지 않을 것입니다 그리고 다음으로 우리는 당신에게 Traveloka 사용을 보여줄 것입니다 사례는 데이터 품질 및 이상 프레임 워크에 관한 것입니다

우리가 Traveloka에서 한 것 그렇다면 데이터 품질 자체는 무엇입니까? 데이터 품질이 필요한 이유는 무엇입니까? Traveloka에서는, 내가 전에 언급했던 것처럼, Traveloka는 여러 비즈니스 라인을 운영하는 회사입니다 따라서 데이터는 실제로 한 소스에서만 나오지 않습니다 여러 소스 및 여러 스트림에서 발생합니다 그래서 모든 것이 원활하게 진행된다면, 데이터가 올바른 데이터로 직접 전달됩니다

하지만 뭔가가 일어나면 하자 누군가 새로운 버전을 실제로 배포한다고 말하십시오

누군가 [비공식] 앱 등입니다 그리고 그들은 추적을위한 코드를 넣는 것을 잊어 버렸습니다 데이터가 멈 춥니 다 또는 데이터가 오지 만 [INAUDIBLE] 등입니다 그리고이 모든 것이 실제로 많은 문제를 일으킬 수 있습니다

예를 들어, [INAUDIBLE] 프로세스 실제로 전혀 실패 할 수 있습니다 보고서를 볼 수 없습니다 책상 봇에 나타납니다 또는 여전히 성공했지만 보고서, 전화 번호 분명히 틀릴 것이다 그리고 가장 위험한 것은 기본적으로 당신이 그것을 모르는 것입니다, 그러나 그것은 일어나고있다

당신은 당신의 탁상 로봇을 신뢰합니다 번호가 정확하다고 생각 하시겠습니까? 그러나 실제로 그것은 틀립니다 실제로 잘못된 데이터를 사용하여 의사 결정을 내리고 있습니다 그리고 실제로이 문제를 어떻게 해결할 수 있습니까? BigQuery에서 모든 데이터를 보유하고 있기 때문에 대부분 구조화 된 데이터입니다 테이블이 있고, 컬럼이 있습니다

각 열은 고유 한 데이터 유형을가집니다 예를 들어,이 표에는 몇 개의 열이 있습니다 먼저 문자열 열과 정수 열이 있습니다 각 열 자체에는 자체 메트릭이 있습니다 예를 들어, 문자열 열 – 우리는 실제로 실제로 무엇을 알 수 있습니다

이 칼럼의 가치가없는 값의 비율입니다 이 열의 고유 한 가치는 무엇입니까? 및 기타 측정 항목도 포함됩니다 실제로 각각에 대한 모든 측정 항목을 수집하는 경우 기둥들 가운데 몇 개를 수집하고 시간이 지남에 따라 수집합니다 당신은 테이블을위한 일련의 시계열로 끝날 것입니다 그래서 하나의 테이블을 위해, 당신은 숫자 [개발 불가]를 개발할 수 있습니다

분명한 것은 테이블의 행 수입니다 다음은 기본적으로 각 열입니다 자체 측정 항목이 있습니다 샘플의 경우 [INAUDIBLE] 열 (예 : 국가) 당신은 별개의 국가들의 수를 가지고 있습니다

실제로 많은 null 국가를 보유하고 있습니다 따라서 이미 테이블에서 이러한 모든 측정 항목을 얻은 경우, 실제로 이러한 측정 항목을 참조하여 귀하의 표가 맞다 예를 들어, 이러한 종류의 측정 항목이있는 경우, 너는 실제로 발견 할 수있다 데이터가 전혀 중단되었다고 가정 해 봅시다 행 수를 알아 차릴 것입니다

실제로 떨어지고있다 또는 누군가가 귀하의 모바일 앱 [부적절한 앱]이라고 가정 해 보겠습니다 그리고 국가에 코드를 넣는 것을 잊어 버렸습니다 그래서 모든 나라는 null이됩니다 그러나 평상시에는 10 개국이 있습니다

[INAUDIBLE] 데이터에 – 싱가포르, 인도네시아, 말레이시아 등이 있습니다 갑자기 언젠가는 두 나라 만 있습니다 그리고 당신은 무언가가 일어나고 있다는 것을 압니다 어쩌면 그 숫자가 틀렸을 수도 있고, 다른 어떤 것 진행되고있다 따라서 데이터의 모든 메타 데이터를 보유함으로써, 당신은 실제로 당신의 테이블에서 당신의 시계열을 분석 할 수 있습니다

그리고 그것은 당신의 데이터가 어디서 온 것인지를 상기시켜줍니다 그리고 이것은 실제로 우리의 접근 방식을 구축 한 방법입니다 이것을 해결하기 위해 이전에 사용한 것과 동일한 BigQuery입니다 모든 원시 데이터를 포함합니다

그리고 BigQuery의 성능을 [부적절]합니다 BigQuery 자체에서 데이터 측정 항목을 수집합니다 그래서 우리는 실제로 다른 클러스터를 회전시킬 필요가 없습니다 [INAUDIBLE] 클러스터, 실제로 다른 [INAUDIBLE] 클러스터 우리를 위해 무거운 짐을 다하십시오 BigQuery를 사용하여 모든 검색어를 수집합니다

SQL [INAUDIBLE] ,, 빅 테이블에 저장, [INAUDIBLE] 분석에 사용하십시오 그리고 당신은 이것을 [무관심] 한 후에, 당신은 실제로 당신의 [무관심] 단일 접근법 또는 몇 가지 접근법을 사용하는 시계열에서 예를 들어, 실제로 [무관심]을 할 수 있습니다 표준 편차 또는 Facebook [INAUDIBLE] ,,에서 라이브러리를 사용할 수 있습니다

실제로 시계열 분석입니다 페이스 북에서 파이썬으로 그리고 당신이 사용할 수있는 다른 라이브러리 이런 종류의 [INAUDIBLE] 분석을 사용함으로써, 당신은 실제로 당신의 특정 테이블, 또는 테이블의 특정 열이 잘못 작동합니다 실제로 이것이 모든 유스 케이스를 다루지는 않지만, 실제로 대부분의 유스 케이스를 커버 할 것입니다

우리가 만나는 곳 그리고 실제로 우리를 많이 돕고 있습니다 우리가 이미 볼 수있는 영향 기본적으로 데이터가 가능한 한 빨리 잘못되었음을 알 수 있습니다 이전에는 데이터가 잘못 되었다면 어떤 일이 발생했는지 알 수 없습니다 우리는 데이터가 이해 관계자로부터 잘못되었음을 압니다

이해 관계자는 책상 봇을보고 BI 도구를보고, 그들은 이메일을 보았고 숫자가 분명히 틀렸다는 것을 알았습니다 또는 번호가 전혀 표시되지 않습니다 그리고 그들은 우리 팀에게 이봐, 너에게 무언가가 일어나고 있다면 시스템으로 무엇인가를 확인하십시오 그래서 이런 종류의 시스템을 구현함으로써, 우리는 실제로 데이터가 가능한 한 빨리 잘못되었다는 것을 알고 있습니다 실제로 하위 사용자에게 데이터를 알릴 수 있습니다

데이터 문제는 어디에서 발생합니까? 아니면 거짓 경보인지, 또는 뭔가 일어나고있다 그리고 그것은 당신의 팀을위한 당신의 신뢰성을 만들 것입니다 사람들은 실제로 오는 응답을 신뢰할 수 있기 때문에 이전 팀보다 훨씬 잘 팀에서 그들은 보고서를 얻을 수 있지만 이 번호가 맞는지 아닌지를 신뢰하십시오 따라서 이것이 우리가 사용하는 사례 중 하나입니다

[부적격] in Traveloka 그리고 우리가 공유 할 다음 일은, 우리가이 모든 것을 구현할 때 얻은 교훈입니다 첫 번째는 이것입니다 BigQuery는 뛰어난 성능을 제공합니다 특히 원시 데이터로 SQL 분석

대부분의 사용 사례, 특히 대부분의 BI 사용 사례의 경우, 실제로는 SQL을 사용하여 해결할 수 있습니다 주로 그룹 별, 조인, 필터 등을 사용합니다 데이터 흐름 및 구성 요소의 자동 크기 조정 기능 Pub / Sub, BigQuery, Kubernetes, 그것은 우리에게 정말 유용합니다 당신은 큰 기간에 대해 걱정할 필요가 없습니다 네 연말 – 당신은 당신의 [INAUDIBLE]을 확장해야합니다

그것은 과거의 모든 것입니다 Pub / Sub와 같은 Google 클라우드의 [INAUDIBLE] Kubernetes 및 기술 자체 모든 기본 제공 [INAUDIBLE] 스택 드라이버 따라서 모든 측정 항목이 자동으로 유입됩니다 구현에 대해 걱정할 필요가 없습니다 자신의 [INAUDIBLE] 시스템 또는 자신의 로깅, [INAUDIBLE]을 다른 시스템에 사용합니다

그들 모두는 당신을 위해 직접 사용할 수있게 될 것입니다 따라서 실제로 디버깅을 할 수 있습니다 귀하의 신청서에 뭔가가 일어나고있는 경우 BigQuery에서 CPU 요구, 쿼리를 모니터링 할 수 있습니다 어떤 일이 느리게 진행되고 다른 일이 발생하면 그리고 나는 이것이 내가 어느 정도 전부라고 생각합니다

오늘 당신과 함께 나누고 싶습니다 그리고 저는 그것을 Gaurav에게 돌려 줄 것입니다 감사 GAURAV ANAND : 좋습니다 [박수 갈채] [음악 재생]

Rethinking Big Data Analytics with Google Cloud (Cloud Next ’18)

[음악 재생] 신사 숙녀 여러분, 안녕하세요 Sudhir Hasbe를 환영합니다

[박수 갈채] 안녕하세요, 안녕하세요 나는 Surhir Hasbe입니다 저는 데이터 분석 및 GCP 제품 책임자입니다 이 세션에 참석해 주셔서 감사합니다 나는 그것이 점심 식사 후 또는 점심 시간 전후 인 것을 안다

그래서 나는이 세션에서 당신을 너무 지루하게하지 않기를 바랍니다 우리는 계속 흥미로워 질 것입니다 세션을 시작해 봅시다 중요한 것은 대부분의 사람들입니다 관객의 외부는 검색 창에서 Google을 알고 있습니다

그리고 사람들이 Google과 처음 접하는 경험은, 검색 창으로 이동하고, 용어를 검색하고, 흥미로운 결과가 나옵니다 당신이 찾고있는 사실, 뒤에서, 언제 당신은 수색 상자에 아무거나를 찾는다, 인프라가 많이 있습니다 이미 많은 분석이 진행 중입니다 우리는 가장 큰 조직 중 하나입니다 엄청난 양의 데이터를 수집하고, 그것을 분석하고 그것을 사용합니다

그래도 검색뿐이 아닙니다 보시다시피, 우리는 7 가지 이상의 제품을 가지고 있습니다 오늘 기조 연설에서 드라이브로는 여덟 번째 드라이브가있을 수 있습니다 80 억 명의 사용자, 월간 활성 사용자, 앞으로 여기서 핵심은 우리의 DNA에 큰 데이터가 있다는 것입니다

우리는 데이터를 활용합니다 우리는 기계 학습을 활용하여 이러한 모든 제품에 놀라운 경험을 제공합니다 우리가하는 일은 내부 기술을 통해서입니다 우리가 만든 것 Dremel에 대해 생각한다면, 우리는 모든 분석을 위해 내부적으로 사용합니다

BigQuery는 실제로 엔터프라이즈 버전입니다 기술의 그 동일한 조각의 기업에서 사용할 수 있습니다 여기에서 우리가하는 일은 기술을 가져 오는 것입니다 우리가 수년에 걸쳐 투자하고 클라우드 고객에게 제공됩니다 생각해 보면 전 세계의 데이터가 커지고 있습니다

2025 년에는 163 제타 바이트가 될 것입니다 조직 내에서 데이터 세트가 증가함에 따라, 인프라가 필요합니다 당신은 실제로 분석 능력을 갖기를 원합니다 그 양의 데이터를 처리하십시오 데이터 포인트 중 하나 – 고객 중 한 명 정말로, 그들이 데이터를 시작했을 때 컬렉션 및 스트리밍 분석 양방향 항공, 그들은 하루에 5 천만 개의 이벤트를 수집하는 데 사용되었습니다

이제 그들은 18 개월 내에 최대 50 억입니다 따라서 어떤 일이 발생하는지는 데이터에서 가치를보기 시작하면서, 당신은 점점 더 많이 수집 할 것입니다 하지만 능력과 인프라를 원한다 필요에 따라 실제로 원활하게 확장 할 수 있습니다 조직 내에서 마찬가지로 조사가 완료되었습니다

MIT 조사는 기계 학습과 인공 지능 (AI) 사용중인 고객 수, 진행 상황 중요한 것은 조직 실제로 AI를 사용하는 사람들은 2 배 빠르게 할 수 있습니다 의사 결정, 5 배 빠른 결정 2 배 더 많은 데이터 중심 의사 결정을 할 수 있습니다 조직 내에서 그리고 또한 그들이 내리는 결정에 대해 3 배 빠른 실행 전반적으로 생각하면 기계 학습, AI는 모든 조직에서 매우 중요합니다

그리고 핵심 포인트는, 조직이 분석을 잘하지 못하는 경우, AI에서는 결코 위대한 존재가 될 수 없습니다 그래서 첫 번째, 기초 – 분석 데이터를 기반으로해야합니다 어떻게 데이터를 처리합니까? 어떻게 데이터를 분석합니까? 그리고 나서 어떻게 진행되는지 생각할 수 있습니다 해당 데이터를 바탕으로 기계 학습을 수행하고 활용할 수 있습니다 차별화를위한 AI

비록 숫자를 보면, 1 % 세계의 구조화되지 않은 데이터는 실제로 오늘날 분석 및 분석에 사용됩니다 오늘 분석 된 구조화 된 데이터의 50 % 미만 조직 내에서 그래서 우리의 접근 방식은 무엇입니까? Google을 보면, 우리는 무엇을하고 있습니까? 네 가지 핵심 요소가 있습니다 하나는 인프라 또는 솔루션에 초점을 맞추고 있습니다 당신이 나가서 분석에 집중할 수있게 해줍니다

하부 구조 우리는 그것에 대해 더 이야기 할 것입니다 두 번째는 포괄적 인 솔루션을 개발하는 것입니다 따라서 우리는 고객이 솔루션의 전체 포트폴리오를 필요로한다는 것을 알고 있습니다 계속해서 분석을해라

우리는 엔드 투 엔드 (end-to-end), 모든 구성 요소 너는 필요해 종단 간 ML 수명주기를 살펴보고이를 빠르게 살펴 보겠습니다 그리고 나서 혁신적이고 개방적입니다 열린 구름이되어 오픈 소스 소프트웨어 옵션 제공 작업 부하를 당신과 같은 방식으로 실행할 수 있습니다 달리기를 원한다면 우리에게 매우 중요합니다

우리에게는 우리가하는 많은 투자가 있습니다 우리가 그것을 장려하는지 확인합니다 분석적 수단에 초점을 맞추는 것에 대해 이야기 해 봅시다 인프라가 아닙니다 네가 우리에 관해 생각한다면 – 분석을한다면 Google의 클라우드 스케일 인 BigQuery [INAUDIBLE] 제품을 사용하면 몇 초 안에 시작할 수 있습니다

기본적으로 데이터 세트를 가져올 수 있습니다 즉시 분석을 시작하십시오 핵심은 서버리스 제품을 사용하지 않는 경우입니다 BigQuery 또는 Dataflow처럼 모니터링에 대해 걱정해야한다 실적에 대해 걱정해야한다

튜닝, 인프라 얼마나 많은 노드가 필요합니까? 어떤 종류의 클러스터 크기가 필요합니까? 퍼포먼스 튜닝은 어떻게합니까? 그게 문제가되는 건 아니야 serverless에 집중했다 이것이 우리의 초점입니다 인프라를 제공하고자합니다

자동 저울링, 분석 능력 제공, 너는 무엇이든에 관하여 고민 할 필요 없다 데이터를 가져 와서 분석을 시작하십시오 두 번째 요점에 대해 이야기 해 봅시다 엔드 – 투 – 엔드 종합 솔루션입니다 중요한 점은 분석에 대해 생각하면, 그것은 실제로 섭취로 시작됩니다

데이터를 얻으려면 어떻게해야합니까? 첫 번째 단계는 스트리밍 데이터를 얻는 방법입니다 방대한 양의 스트리밍을 사용하는 고객이 많습니다 그들에게 오는 사건들 그리고이 인프라를 어떻게 완벽하게 확장합니까? 그래서 Cloud Pub / Sub는 우리의 솔루션입니다 초당 수백만 개의 이벤트를 수행 할 수 있습니다

그 (것)들에 당신은 수집하고 분석을 할 수있다 마찬가지로 많은 고객 예를 들어, 애드워즈 및 DoubleClick과 그 모든 기능, 광고 목적으로 우리가 한 일은 우리가 고객을 위해 정말 쉽게 만들었습니다 누가 마케팅 분석을 위해 Google Cloud를 사용하고 싶은지 몇 번의 클릭만으로 문자 그대로 애드워즈 데이터, DoubleClick 데이터, 분석을 위해 BigQuery에 추가합니다 마찬가지로, IoT는 매우 중요합니다

어제 아침 놀라운 소식을 봤어 HTPU 및 Cloud IoT 코어를 사용합니다 우리는 Cloud IoT 코스를 가지고 있습니다 IoT 데이터 수집에 관심이 있다면, 당신은 그것을 완벽하게 수집 할 수 있고 실제로 거기에서 전체 플랫폼을 활용하십시오 그래서 우리는 섭취를 다루었습니다

안정적인 데이터 처리 및 스트리밍에 대해 생각한다면 우리는 고객에게 다양한 옵션을 제공합니다 하나는 Beam을 사용한 데이터 흐름입니다 그래서 Beam은 당신을위한 오픈 소스 SDK입니다 배치 및 스트리밍 파이프 라인 구축 동일한 프로그래밍 모델로 데이터 흐름을 사용하면 대규모 데이터 처리를 자동으로 구축 할 수 있습니다 파이프 라인

개발자에게 아주 좋습니다 그러나 우리는 또한 많은 고객들이 Spark 및 Hadoop으로 자체 기능을 보유하고 있습니다 그리고 그들은 스파크를 좋아합니다 이전에 Spark를 사용 했었습니다 그래서 저는 스파크도 좋아합니다

그래서 우리는 Hadoop과 Spark 환경을 관리했습니다 데이터 블록으로 그리고 나서 분석가들을 위해 – 우리는 알고 있습니다 데이터에 익숙한 많은 분석가 커뮤니티가 또한 원시 데이터 논쟁을 원한다 또한 데이터 준비를 원한다

데이터가 있기 전에 그들이 가장 잘 알도록 그들이 원하는 분석을 사용했다 데이터를 처리하고 정리합니다 그래서 우리는 이러한 고객을 위해 Cloud Dataprep을 보유하고 있습니다 그 후에 데이터가 준비되면, 당신은 규모에 대한 분석을 원합니다 데이터 호수를 만들고 싶습니다

실제로 GCS, Google Cloud Storage, 계속해서 모든 구조화되고 체계화되지 않은 데이터를 저장하고, 그런 다음 처리하십시오 또는 BigQuery와 함께 Cloud Scale 데이터웨어 하우스를 사용할 수 있습니다 이 모든 데이터를 페타 바이트 단위로 저장하려면, 그 위에 분석을하십시오 일단 분석 플랫폼이 준비되면 고급 분석을 위해 ML 엔진, TensorFlow를 사용할 수 있습니다 시각화를 위해 Data Studio를 사용할 수 있습니다

우리는 몇 가지 새로운 개선 사항을 보게 될 것입니다 그것들을 이용할 수있게 만들고 있습니다 또한 Sheets, 많은 고객, 특히 매일 시트를 사용하는 G Suite 고객 – 우리는 BigQuery 및 기타 장소에서 데이터를 쉽게 만들 수 있습니다 오늘 이용 가능합니다 그래서 거기에 있습니다

ML 수명주기에 대해 생각한다면 – 전체 라이프 사이클이 있습니다 ML 라이프 사이클은 섭취에서 시작됩니다 당신은 탐험해야합니다 준비를해야합니다 당신은 전처리를해야합니다

그런 다음 교육 과정, 하이퍼 튜닝, 테스트, 및 예측 일어날 수있는 전체 라이프 사이클이 있습니다 우리가 제공하는 것은 전체 제품군입니다 당신이 할 수있는 제품의 그 모든 프로세스 하지만 우리가하고있는 일은 매우 쉽습니다

당신이 기계 학습을 할 수 있도록 그리고 당신은 몇몇 발표를 들었습니다 우리는 오늘 일찍했다 그리고 좀 더 자세하게 설명하겠습니다 실제로, 우리는 당신을위한 놀라운 데모를 가지고 있습니다

세션에서 나중에 고객 모멘텀 관점에서 볼 때, 그것은 우리의 포트폴리오입니다 우리는 데이터 분석에서 엄청난 성장을보고 있습니다 고객과 함께하십시오 업계 전체의 전체 포트폴리오를 사용하는 많은 고객 금융 서비스에서의 수직 소매업, 게임에서 미디어 엔터테인먼트, 모든면에서 제조

전반적으로 우리는 엄청난 성장을보고 있습니다 사용중인 데이터 분석 기능 다른 조직에서 그리고 다른 크기의 데이터 세트에도 적용됩니다 오늘 일찍 들었습니까? [부적절한] 대규모 Hadoop 배포를 옮기는 것에 대해 이야기했습니다 나는 그것이 300 페타 바이트의 데이터를 언급했다고 생각한다

GCP로 이동하고 해당 규모의 클러스터를 실행합니다 그리고 하이라이트는 우리 네트워크와 우리의 능력과 같았습니다 네트워킹 스택과 함께 제공되는 당신이 스토리지 분리 정말 쉽게 관리 할 수있는 컴퓨팅 전체 환경, 비용 및 모든 것을 줄일 수 있습니다 우리는 엄청난 성장을보고 있습니다 트위터, 야후 스, 뿐만 아니라 많은 기업 고객 플랫폼을 사용하고 있습니다

그래서 저와 함께 Aireen Omar를 초대하겠습니다 AirAsia의 부회장, 무대에서 이것에 대해 더 많이 말하기 [박수 갈채] 안녕하세요, 아이린, 잘 지냈니? AIREEN OMAR : 안녕하세요, 감사합니다 네가 빨리 소개 할 수 있니? 당신, 당신의 역할에 대해 이야기하고, AirAsia에 대해 좀 더 알려주십시오 AIREEN OMAR : 물론입니다

AirAsia는 아시아 최대의 저비용 항공사입니다 그래서 우리는 2001 년에 다시 시작했습니다 우리는 단지 2 대의 항공기를 가지고 있습니다 우리는 약 2 만명의 승객을 태웠다 그리고 지금, 16 년 후 우리는 230 대 이상의 항공기를 보유하게되었습니다

와우 와우 AIREEN OMAR : 그리고 수년 동안, 우리는 5 억 명이 넘는 승객을 태웠다 올해는 약 1 천 9 백만 명의 승객을 찾고 있습니다 우리가 1 년에 들고 다니는 것

그래서 우리는 매우 빠르게 성장했습니다 우리는 동남 아시아에 기지를두고 있습니다 동남 아시아, 아세안은 우리의 뒷마당입니다 그리고 왜 우리가 시장을 구축하는데 집중했는지 6 억이 넘기 때문에 인구는 중국과 인도 다음으로 세 번째로 많습니다 그리고 그것은 매우 젊은 인구 기반을 가지고 있습니다

평균 나이는 28 세, 29 세입니다 인구의 50 %가 30 세 미만입니다 70 %는 40 세 이하입니다 인구의 50 %가 도시 지역에 살고 있습니다 그리고 그것은 가장 빠르게 성장하는 것 중 하나입니다

세계 GDP와 급성장하는 중간 소득 중 하나 세계의 수입자 SS의 저가 항공사가 환상적인 기회를 누릴 수있는 곳입니다 인구와 함께 성장할 수 있습니다 그리고 당신이 지형 경관을 본다면 동남 아시아의 경우 물로 둘러싸여 있습니다 그리고 그것은 우리가 배울 수있는 많은 기회가 있다고 생각하는 곳입니다

인구에 대해, 더 성장하고 차별화 된 비즈니스 기회 항공사를 운영하는 것에서 SUDHIR HASBE : 엄청난 성장 2 비행기에서 230 비행기로 2 ~ 3 년 안에, 지금 AIREEN OMAR : 네 SUDHIR HASBE : 직면 한 주요 도전 과제는 무엇입니까? 그런 다음 무엇에 대해 자세히 알려주십시오 비즈니스 과제였습니다

그리고 그 중 일부에 Google Cloud를 어떻게 사용하고 있습니까? AIREEN OMAR : 핵심 과제는 우리는 여러 나라에서 사업을 운영하고 있기 때문에 말레이시아, 태국, 인도네시아, 필리핀, 최근 인도와 일본에서도 그리고 우리는 모든 사람으로부터 데이터를 얻는 방법을 찾고 있습니다 이상, 다양한 시스템에서, 등등 그래서 우리는 예약 시스템에서 오는 데이터를 가지고 있습니다 우리 예약의 80 %가 인터넷을 통해 간다 다른 항공사와 달리 모바일 앱은 그것은 다른 방향입니다

그리고 우리 항공기에서 오는 데이터가 있습니다 그리고 우리 엔진에서 그리고 우리 항공기를 가장 효율적으로 사용합니다 우리는 가동률을 극대화합니다 우리가 사용하는 8020은 하루에 14 시간 비행합니다

그리고 우리는 25 분 안에 돌아 서서 우리가 들어갈 수 있습니다 우리가 할 수있는만큼 많은 분야 그룹 전체를 보면 출발 항공편에 대해서는 약 1,500 일이 소요됩니다 그리고 우리는 약 300,000 명의 승객을보고 있습니다 하루에

따라서 많은 데이터가 제공됩니다 그리고 중요한 것은 효율적인 운영을하고 있으며, 당신은 그것이 정확해야합니다 그리고 당신은 확장 가능하고 정확한 무언가가 필요합니다 우리가 이해할 수있게 이 데이터가 더 우수하고 게재에 더 집중할 수 있어야합니다 우리의 소비자는 더 낫다

따라서 우리가 필요로하는 데이터는 실제로 더 많습니다 우리는 소비자의 경험과 수익을 어떻게 개선 할 것인가? 우리가 그들에게서 얻을 수있는 적절한 종류의 제품 및 제품을 제공 할 수있다 그들을 위해? 또한이 데이터를 사용하여 사업 운영의 전반적인 운영 효율성 생산성을 높이기 위해 가장 효율적인 방법으로 집중할 수있다 통찰력을 바라 보는 우리의 노력 우리의 운영뿐만 아니라 행동 우리는 더 나은 제품을 제공 할 수 있도록 소비자의 헌금품 등? 알았어 BigQuery와 Data Studio를 사용하는 것을 알고 있습니다

Google Cloud의 다른 모든 도구가 포함됩니다 Google과 공유 할 수있는 주요 측정 항목이 있습니까? 당신은 정말로 성장과 저축을 보았습니다 청중과 함께 할 일이 있습니까? AIREEN OMAR : 네 그래서 나는 또한 디지털 변환을 담당하고 있습니다 따라서 핵심은 우리가이 모든 데이터를 통합하는 것입니다

다양한 출처에서 데이터를 결합 할 수 있습니다 의미있는 알고리즘을 만들 수 있습니다 우리가 발견 한 것, 우리가 아마 우리가 이미 결합한 데이터의 20 % 미만, 수익 또는 소비자의 전환율 배가되었습니다 오, 와우 AIREEN OMAR : 전환율 1 %마다 실제로 약 5000 만 달러의 수익을 올렸다

기타 등등 그리고 우리가 본 것도 있습니다 운영 측면에서 더 잘 예측할 수 있으며, 유지 보수면에서 보면, 우리는 지상의 항공기 수를 줄였습니다 그리고 그것은 우리 승객들에게 더 나은 경험이라는 것을 의미합니다 기타 등등

그리고 우리는 비용이 아마도 적어도 10 % 정도 줄어 들었습니다 그리고 그것은 실제로 우리 작전에서 꽤 큰 것입니다 항공사 운영 SUDHIR HASBE : 놀랍습니다 특히 당신이 말한대로, 운영 비용이 많이 든다

그래서 10 % 절약, 전환율 두 배, 데이터의 20 % 만 사용하고 있습니다 AIREEN OMAR : 네 아마도 그보다 조금 작을 것입니다 우리는 불과 몇 년 전에 시작했기 때문에 그리고 할 일이 많아서 매우 중요합니다

BigQuery의 모든 요소를 ​​간소화 할 수 있습니다 그리고이 도구는 우리는 확장 성이 있으며 더 빨리 일할 수 있고, 소비자의 요구 사항에보다 중점을두고, 기타 등등 네 멋지네요 고맙습니다

고마워 AIREEN OMAR : 고마워 이것은 멋진 결과입니다 그리고 나는 우리가 함께 할 수있는 것을 고대하고있다 데이터의 20 % ~ 30 %, 100 % 당신이 말했듯이 그것을 분석하십시오

AIREEN OMAR : 고마워 고마워요, 아이린 AIREEN OMAR : 고마워 [박수 갈채] SUDHIR HASBE : AirAsia에 관한 것입니다 4 가지 핵심 영역이 있습니다

우리가 고객과 이야기 할 때 우리가 정상적으로 집중하는 다른 솔루션 포트폴리오를 사용할 때 우리가 가지고있는 하나는 물론 데이터웨어 하우스를 현대화하는 것입니다 그리고 우리는 그것에 대해 더 이야기 할 것입니다 매우 중요한 스트리밍 데이터 분석 엄청난 양의 이벤트 데이터를 수집하는 조직 다른 곳에서 – 클릭 스트림을 IoT 디바이스로 – 스트리밍 데이터 및 스트리밍 데이터 처리 조직에서 매우 중요합니다 오픈 소스 소프트웨어를 운영하고 물론, 시각적 인 방식으로 데이터 시각화 및 사용 조직에 중요합니다

BigQuery에 대해 잠시 이야기 해 보겠습니다 BigQuery는 실제로 클라우드 규모의 데이터웨어 하우스입니다 그것은 기본적으로 내장 된 것입니다 Dremel 종이를 읽지 않았다면, 당신은 그것을 조사해야합니다 처음부터 새로 구축 된 데이터웨어 하우스입니다

클라우드 규모입니다 몇 초 내에 페타 바이트 규모의 쿼리를 수행 할 수 있습니다 표준 SQL을 지원합니다 실제로 비용없이 시작할 수 있습니다 사용할 수있는 무료 티어가 있습니다

실제로 BigQuery를 사용하는 사람이 얼마나됩니까? 큰 많은 사람들이 그렇게하지 않기 때문에 내 추천 당신은 그것을 조사 해봐야 할 것입니다 몇 분이 걸릴거야 이동하여 실제로 데이터를 가져 와서 분석을 시작하십시오 내가 말했듯이, 완전히 서버리스

인프라에 대해 걱정할 필요가 없습니다 데이터를 가져 와서 분석을 시작하십시오 그것이 중요한 것입니다 그것은 매우 안전합니다 우리는 안심하고 데이터를 암호화합니다

그리고 그것은 매우 유용합니다 실시간 스트리밍은 BigQuery에서 기본입니다 수십만 건의 이벤트를 스트리밍 할 수 있습니다 직접 BigQuery에 삽입 한 다음 실제로 분석합니다 동시에

그래서 그것은 매우 비판적입니다 오늘 아침에 들었던 발표 중 하나 Rajen이 BigQuery ML에 대해 이야기했습니다 이것의 핵심은 – 우리가 듣기 시작한 두 가지 큰 도전 우리 고객이 사용하기에 좋았습니다 BigQuery – 엄청난 양의 데이터가 모든 데이터를 가져옵니다 그러나 어떤 기계 학습도하고 싶다면, 그 데이터를 이동해야합니다

그리고 몇 가지 숫자를 본다면, 데이터 과학자들이 80 %의 데이터 작성과 같은 시간을 보내고, 데이터를 이동하고 모델 테스트 등 모든 작업을 수행합니다 그래서 우리 일은, 당신은 어떻게 그 시간을 단축합니까? 기계 학습을 가능하게함으로써 데이터웨어 하우스 및 자료에서 데이터를 기계 학습으로 이동 엔진? 왜 기계 학습 엔진을 데이터에 더 가깝게 옮길 수 없습니까? 그래서 그것이 그 전제입니다 두 번째로 스킬 세트 갭이었다 업계에서는 PSG 데이터가 그다지 많지 않습니다 과학자들은 고급 기계 학습을해야합니다

그래서 우리 일은, 우리가 활용할 수 있을까요? 잠재 고객이 이미 가지고있는 스킬 (SQL) 그런 다음 기계 학습을 SQL에서 사용할 수있게 만드시겠습니까? 이것이 바로 우리가 시도한 것입니다 BigQuery ML은 SQL 기반 기계 학습에 불과합니다 BigQuery에서 모델 생성 BigQuery를 사용하는 경우 이미 SQL을 사용하여 데이터를 분석합니다 쿼리 준비가되었습니다

귀하는 귀하의 데이터를 이해합니다 그 위에 두 줄의 코드를 작성하십시오 원하는 모델 유형을 모델로 만듭니다 원하는 경우 모델을 자동 감지 할 수 있습니다 그런 다음 입력 내용과 예측하려는 내용을 입력하십시오

그리고 예측을 위해서, 당신은 단지 MLPredict를 선택하고, 예측을 내릴 수 있습니다 그래서 그것은 기계를 만드는 것이 얼마나 쉬운가하는 것입니다 BigQuery에서 학습하십시오 그 중 하나는, 오늘 일찍 보았다면, 그들이 이야기 한 20 세기 폭스였습니다

잠재 고객이 더 많은 것을 예측할 수 있었던 방법에 대해 영화로 돌아와 새로운 영화로 돌아올 가능성이있다 그들이 발사하고 있다고 Geotab에서 지금 다른 예를 들어보고 싶습니다 그럼 내가 왜 초대하지 않니? 닐, 제발 무대에 올 수 있니? Geotab이하는 일을 이해하도록 도와주십시오 왔다

[박수 갈채] 고마워, 닐 NEIL CAWSE : 여기 있습니다 자 이제 너 자신에 대한 간단한 소개를 할 수 있겠 니? Geotab에 대해 좀 더 알려주십시오 NEIL CAWSE : 물론입니다 Geotab은 차량 텔레매틱스 분야의 글로벌 리더입니다

많은 사람들이 차량 텔레매틱스를 묻습니다 우리는 차량에서 데이터를 수집하는 작은 장치를 가지고 있습니다 우리는 120 만대의 차량을 보유하고 있습니다 우리는 모든 데이터를 수집 한 다음 거대한 규모로 그것을 분석하라 그래서 우리는 차량이 어디에 있는지에 대한 정보를 수집합니다

얼마나 빨리 움직이는 지, 엔진이 어떻게 작동하는지, 연료 소비 정보 당신이 브레이크를 밟았는지 여부와 상관없이, 깊은 구멍을 뚫고 지나간다 그래서 기회를 상상할 수 있습니다 우리가 그 데이터를 분석해야한다는 것, 제품을 사용하여 고객에게 결과 전달 BigQuery와 기계 학습은 엄청나게 큽니다 그리고 그것이 실제로 우리가하는 일입니다 SUDHIR HASBE : 멋지네

현재 존재하는 것에 대해 더 많이 나눌 수 있습니까? 하부 구조? BigQuery ML에 들어가기 전에 어떤 기술이 필요합니까? Google Cloud에서 사용하십니까? 사업은 어떻게합니까? 그리고 BigQuery ML로 전환 한 다음 논의 할 수 있습니다 NEIL CAWSE : 물론입니다 우리는 Google과의 관계를 생각합니다 우리의 경쟁 우위 우리는 데이터를 처리하는 GC에 500 개 이상의 서버가 있습니다

조직에서 생성하는 모든 데이터 조각 실제로 Google BigQuery로 푸시됩니다 Google은 Google ML 및 TensorFlow를 대규모로 사용합니다 우리는 Dataproc을 사용합니다 우리는 Kubernetes와 같은 제품을 사용합니다 그리고 구글이 발표하는 모든 것, 우리는 매우 예리하게 보았습니다

왜냐하면 실제로, 이점은 – 그리고 그것은 과소 평가 된 문제입니다 – 먼저 데이터를 수집하기 시작할 때, 당신은 한 곳에서 그것을 가지고 있습니다 다음 포인트는 ML을 활용하고 싶다면, 당신은 그 ML을 데이터가있는 곳에 가까이 있어야합니다 그렇지 않으면, 당신은 당신의 인생을 단지 데이터를 움직이는데 소비합니다 그렇게 훌륭한 관계가되었습니다 훌륭한 파트너십

하디 하세 : 그리고 네가 알기 론 우리가 알파를 발표 한 이후 BigQuery ML에 참여했습니다 그래서 데모가 있다는 것도 압니다 그럼 니가 뭘하는지 말해주지 그래 데모에 표시하고 우리는 어떤 고객층을 목표로 삼고 그 다음 데모를 보여줄 수 있습니까? NEIL CAWSE : 물론, 그렇게하겠습니다 종류의 수준에 다만, 우리는, 아마, 가장 포괄적이고 가장 큰 차량의 큰 데이터 세트 세상에

이전에 언급했듯이이 데이터 세트는 매우 풍부합니다 주변 공기 온도, 공기 압력을 알고 있습니다 위험한 교차로인지 알 수 있습니다 우리는 엄청난 양의 데이터를 알고 있습니다 그래서 내가 갈 물건 중 하나 여기에 오늘 우리가 가진 모습을 보여주세요

표준 제품에 추가 기능, 피드 관리 제품이지만이 제품은 똑똑한 도시 주변 그리고 우리가 할 일은 우리가 안전을위한 결과를 예측하기 위해 ML을 사용할 것입니다 날씨에 따라 그래서 나는 그것에 도달 할 것이고, 나는 그 모든 것이 어떻게 잘 맞는지 보여줄 것이다 어떻게 작동하는지

잘됐다, 닐 그리고 당신이 그것에 관해 준비하고있는 동안, 중요한 건 우리가 할 일이 또있다 GIS 알파입니다 따라서 BigQuery는 기본적으로 지원합니다 GIS 데이터 유형과 같은 GIS 기능은, 데이터웨어 하우스 내에서 우리는 조금 더 나중에 그것에 대해서 이야기 할 것입니다

3:15에 세부 세션이 있습니다 우리가 얘기하려고하는 것이지만 나는 그것을 닐에게 넘겨 줄 것이다 데모에 대해 더 많이 말하기 NEIL CAWSE : OK, super 그래서 우리는 데모를 얻을 것입니다

좋아, 우린 끝이야 따라서 여기에서 볼 수있는 것은 제품 내부의 모습입니다 앞서 언급했듯이 이것은 추가 기능입니다 이것은 수백 가지 애드 인 중 하나입니다 제품에서 사용할 수 있습니다

이것은 우리가 레버리지를 도입하는 곳 중 하나입니다 Google ML 및 Google GIS – 여기에 발표 된 BigQuery의 GIS 기능 우리가 방금 말했던 정말 재미있는 데이터를 얻기 위해서입니다 그리고 이것은 단지 긁기 시작했습니다 우리가 이걸 가지고 갈 수있는 곳의 표면, 너는 이해할 수있다 왼쪽 편에서 보시는 것은 무엇입니까? 시카고의 위험한 교차로를 볼 수 있습니다

그래서 지난 두 주 동안 본질적으로 핫스팟은 더 위험한 곳 이제 우리가 어떻게 말할 수 있을까요? 1 년에 약 10 만 건의 사고가 있습니다 우리의 수영장에서 일어나고 있습니다 우리는 사람들이 브레이크를 밟고있는 곳을 알고 있습니다

그래서 우리는 그 데이터를 집계합니다 그러면 우리는 이러한 사고를 가진 사람들이 어디에 있는지 볼 수 있습니다 그리고 사람들은 브레이크가 걸리거나 위험한 차선을 밟고 있습니다 변화, 그리고 swerving, 그리고 이것 저것? 그래서 빅 데이터 팀 (Big Data team)이 있습니다 오늘 여기 앉아서 그들이 한 일은 그들이 데이터를 가져 갔다는 것입니다

그런 다음 그들은 말했습니다 공개 데이터 세트를 사용하여 날씨 데이터를 중심으로 Google BigQuery에서 사용할 수있었습니다 그래서 우리는 특정 날짜와 시간을 알고 있습니다 특정 위치의 경우, 무엇입니까? 그 위치의 날씨 그리고 그들은 250 개의 다른 통계를 사용했습니다

분석하고 계산할 수있는 방법에 대해 날씨가 안전에 영향을 줍니까? 그래서 그들은이 실험을했고, 나는 당신에게 그 결과를 보여줄 것입니다 그러니 온도를 내려서 얼어서 눈을 냅시다 이제 예측 분석을 실행 해 보겠습니다 그리고 우리가 보는 것은 실제로 정말로 흥미 롭습니다 위험한 일부 지역 전에는 여전히 위험하지만, 패턴의 큰 변화가있었습니다

그래서 우리는 사물이 현저하게 달라 보이는 것을보고 있습니다 그리고 우리가 지금 영역으로 확대하면, 이제 우리는 보게 될거야, 음, 어디 있니? 그 위험한 교차로? 여기에 하나의 작은 영역을 가져 가자 어디에서 확대 할 것인가? 그리고 우리는 그것이 눈이 많이 내리는 곳이라면, 우리는 학교 근처에 위험한 지역이있는 것 같습니다 그래서 여기서 일어나는 일을 고려할 수 있습니다 어쩌면 부모님이 길 건너에서 기다리고 계신지도 모르겠습니다

애들을 데리러 눈이오고있어 아이들도 길을 가로 질러 달리고있다 그래서 상황을 알 수 있습니다 아니면 자동차가 고장 났을 수도 있습니다 그러나 요점은 ML을 활용함으로써이 데이터를 활용함으로써, 도시는 이제 인프라가 무엇인지 볼 수 있습니다

도로가 순서대로 설정되는 방식을 바꿉니다 모두를 더 안전하게 지키기 위해서 그리고 이것은 실제로 단지 무엇이 표면을 긁어 내기 시작합니다 그런 레버리지를 활용하면 할 수 있습니다 Google BigQuery 및 Google ML과 같은 강력한 도구입니다

고마워, 닐 이것은 굉장합니다 고마워 네일 켈스 : 감사합니다 하스 하 수녀 : 핵심은 도시를 더 똑똑하게 만들고 그러한 영향을 끼칩니다

실제로 모델 생성 및 예측을 수행 할 수 있습니다 너무 빨리, 전체 솔루션을 신속하게 처리 할 것입니다 창조 NEIL CAWSE : 물론입니다 핵심 사항 중 하나는 우리 팀이 얼마나 빨리 이 일을 함께 할 수있었습니다

코딩이 필요 없습니다 Kubernetes가 없습니다 엄청난 양의 서버가 회전하지 않습니다 SUDHIR HASBE : Kubernetes도 좋아하지만 SQL 사람들이 있습니다 우리는 SQL을 좋아합니다

네 고맙습니다 고마워, 닐 고마워 [박수 갈채] 실제로 3시 15 분에 세션이 있습니다

Geotab 솔루션 인 GIS 기능에 대해 자세히 알아보십시오 GIS 데이터 유형과 모두에 관심이 있다면, 오늘은 나중에 좋은 세션이 될 것입니다 그 외에도 우리는 파트너와 협력했습니다 계속 나아가고 통합 된 BigQuery ML 기능에 대한 경험 예를 들어, Looker는 이러한 종단 간 워크 플로우를 가지고 있습니다 당신이 실제로 할 수있는 데이터 세트를 가져 와서 Looker보기에서보고, 그 안에 모델을 실제로 만들고, 예측을 시각화하고, 실제로 모델을 미세 조정하십시오

Looker UI 자체에서 가져온 것입니다 그래서 우리는 더 많은 파트너와 협력 할 것입니다 이러한 종류의 통합 기능을 제공하려면, 따라서이 도구를 사용하는 애널리스트 도구 내에서 실제로 이 도구에서 BigQuery ML을 활용하십시오 이 모델을 만드는 것이 정말 쉽습니다 모델 시각화, 그리고 모두

그래, 앞으로 이것을 고대하고 앞으로 나아갈 것이다 BigQuery ML의 몇 가지 사항 – 선형 및 로지스틱 회귀 모델이 있습니다 이미 사용할 수 있습니다 베타 버전을 사용할 수 있으므로 시도해보십시오 베타 모드에서 피드백을 좀 더주세요

다른 몇 가지 우리는 또한 클러스터링 베타가 올 것이라고 발표하고 있습니다 다시, 나는 세부 사항에 갈 수 없을 것이다 클러스터링, 주요 기능 이런 식으로 생각하면됩니다

BigQuery에서 페타 바이트 규모의 쿼리를 수행 할 수 있습니다 2 년 전과 같이 할 수 있습니다 이제 할 수 있습니다 그러나 파티셔닝 및 클러스터링을 사용하면, 당신은 비용을 크게 줄일 수 있습니다 쿼리가보다 효율적으로 진행될 것이기 때문입니다

우리는 데이터에만 액세스하며 클러스터 내에서 필요한 것은 무엇입니까? 또는 그 파티션 내에서 따라서 파티셔닝 및 클러스터링은 쿼리를보다 효율적으로 만들 수 있도록 도와줍니다 실제로 비용을 크게 줄입니다 온 디맨드 가격 모델을 사용하는 경우 요르단 티 가니 (Yordan Tigani)가 3시 15 분에 자세한 세션을했습니다 너라면 절대 가야 해

오늘이 주제에 관심이 있습니다 요르단이 그 세션에서하는 놀라운 데모가 있습니다 다시 말하지만, 우리가 바로 손을 댈 때, GIS 알파는 현재 사용할 수 있습니다 우리가 고객으로부터 듣고 있었던 시나리오 예를 들어, 우리는 모스 콘 센터에 있습니다 반경 2 마일 내에서 얼마나 많은 이 지역에서 택시를 이용할 수 있습니까? 당신이 그런 종류의 쿼리를 원한다면, 역사적으로, 그것은 정말로 어렵습니다

그리고 GIS 기능의 가용성으로 인해, 당신은 지금 쿼리 내에서 직접 그런 종류의 쿼리를 할 수 있습니다 우리는 몇 가지 새로운 커넥터를 사용할 예정입니다 우리가 시작하는 다른 중요한 것들 중 하나 새로운 BigQuery UI가 제공됩니다 능력은 더 좋아 보인다 한 번의 클릭으로 여러 번 경험할 수 있습니다

Data Studio로 이동하여 시각화 작업을 수행 할 수 있습니다 그런 다음 신속하게 살펴 보겠습니다 Google 스프레드 시트 통합에서 사용할 수 있습니다 그래서 이것은 하나의 예입니다 핵심 데이터 유형의 GIS 기능과 함께 쿼리 할 수있는 능력, 우리는 또한 우리가 시작하는 시각 도구를 가지고 있고, 계속해서 시각적으로 쿼리를 실행할 수 있습니다

지도상의 포인트를 살펴보십시오 왜냐하면 당신이 쿼리를하고 있다면, 반경 2 마일에있는 모든 지점을 보여줘 다른 점에 대해 어떻게 시각화 할 예정입니까? 정말 어렵습니다 그래서 우리는 Earth Engine과 함께 작업했습니다 Google의 팀과 시각 도구 그러면 해당 데이터를 시각화 할 수 있습니다

그러니 한번보세요 다시 말하지만 Sheets를 사용하면 많은 고객 분석을 위해 스프레드 시트를 사용하고 데이터를 시트로 이동합니다 이제 Google 스프레드 시트를 사용하면 BigQuery 용 커넥터를 사용할 수 있습니다 거기에서, 당신은 클릭 할 수 있습니다, BigQuery 인스턴스에 연결, 데이터를 가져 와서 분석을 시작하십시오 그것을 즉시 사용할 수 있습니다

그래서 다른 주요 기능 중 하나는 – 분석하기 쉽고 연결하기 쉽습니다 데이터 세트, 그리고 모두에 이것이 올해 큰 테마 중 하나입니다 BigQuery입니다 어떻게 만드나요? BigQuery에서 데이터를 쉽게 분석하고 분석 할 수 있습니까? 스트리밍 분석 – 이전에 살펴 보았습니다

우리는 전체 제품 포트폴리오를 보유하고 있습니다 수백만 가지 사건을 처리 할 수있는 것처럼 Pub / Sub를 사용하여 수집 할 수 있습니다 Dataflow를 사용하면 대규모 데이터 처리를 수행 할 수 있습니다 Cloud ML 또는 BigQuery를 사용하여 분석을 진행할 수 있습니다 그 데이터 위에

Brightcove가 가장 좋은 예 중 하나입니다 그들은 말 그대로 한 달에 8,500 년의 비디오를 수집합니다 하루에 70 억 건의 이벤트가 수집됩니다 그리고 그들은 Dataflow plus Pub / Sub를 사용합니다 이러한 동영상을 분석하고 활용할 수 있습니다

그것으로부터의 훌륭한 통찰력 그러나 Brightcove만이 아닙니다 Traveloka는 전자 상거래, 클릭 스트림 용으로 사용합니다 수집 및 분석하는 것입니다 큐빗 (Qubit)은 소매점에서 POS 분석을 수행합니다

게임 내 분석에서 Nintendo의 놀라운 시나리오, 게임 내에서의 소모품 사용 그리고 IoT 데이터를 위해 Nest를 선택합니다 따라서 어떤 종류의 대규모 이벤트 수집 처리 분석, 당신은 Pub / Sub, Dataflow를 사용할 수 있습니다 우리는 사실 그 공간에서 약간의 향상을 발표하고 있습니다 우리가하고있는 큰 일 중 하나는 파이썬입니다

파이썬은 GitHub에서 가장 빠르게 성장하는 언어 중 하나입니다 만약 당신이 모든 코멘트와 모든 것을 보았다면 우리는 Python 개발자들이 쉽게 사용할 수 있도록하고 싶었습니다 스트리밍을 할 수 있습니다 이제는 파이썬 스트리밍 기능을 활성화 할 것입니다

Beam을 사용하면 고객이 실제로 확장 가능한 데이터를 구축 할 수 있습니다 파이썬을 사용하는 파이프 라인 이제는 베타 버전이됩니다 따라서 고객은이를 사용할 수 있습니다 또한 데이터 흐름 스트리밍 및 셔플 기능도 제공됩니다

대규모 데이터 처리를 쉽게 도와줍니다 자동 크기 조정 기능이 함께 제공됩니다 이들에 대한 자세한 다이빙 세션이 있습니다 관심이 있는지 확인해야합니다 우리가 한 다른 일들 중 하나 우리는 실제로 실적을 향상시키고 우리 도서관은 Pub / Sub에 훨씬 더 효율적입니다

당신이 사용할 수있는 7 가지 언어로 하지만 그 외에도 많은 것을 가지고 있습니다 카프카를 사랑하는 고객 그들은 마치 카프카를 이미 사용하고 있습니다 GCP에서 계속 사용하고 싶습니다 내 옵션은 무엇입니까? 그래서 역사적으로, 당신은 그냥 가서 직접 배포 할 수 있습니다

그것을 관리하십시오 하지만 지금 우리가 가진 것은 Confluent와 함께, 우리는 관리되는 Kafka 솔루션을 사용할 수 있습니다 따라서 계속 진행하고 관리되는 서비스를 GCP에서 사용할 수 있습니다 그리고 그것은 우리의 전략 중 하나입니다 파트너와 협력하여 이러한 엔드 – 투 – 엔드 솔루션은 고객으로 활용할 수 있습니다

따라서 이미 사용할 수 있습니다 우리 전략의 핵심 인 다른 것들 중 하나 핵심 신념뿐만 아니라이 오픈 소스입니다 그리고 열린 구름 그리고 우리는 근본적으로 Istio 우리가 투자하고있는 Kubernetes에게 빅 데이터 세상에서 우리 편이라면, 우리는 오픈 소스 기술에 많은 투자를하고 있습니다

큰 데이터 로드맵처럼 보이는 경우, 지난 15 년 동안, 혁신의 양 구글이 주도 해왔다 Google Cloud 이전에는 종이로 사용할 수있었습니다 우리 업계가 모든 연구에서 배울 수 있도록 완료했다, Dremel 종이에서 모두, 모든 다른 논문과 마찬가지로 MapReduce를 GFS로 그리고 우리는 또한 이러한 제품을 많이 만들고 있습니다 이러한 기술을 기반으로합니다 우리가 투자 한 두 가지 핵심 제품 영역이 있습니다

오픈 소스 측 하나는 Dataproc입니다 Hadoop 및 Spark 기능을 관리하며, 작곡가뿐만 아니라 작곡가는 매혹적입니다 개인 알파 상태에서 1,000 명 이상의 고객이있었습니다

그것을 사용합니다 나는 당신이 그것을 어떻게 비공개로 유지하는지 모르겠다 그리고 나서 그들은 그것을 사용하는 많은 고객을 가지고 있습니다 그래서 방금 출발했습니다 Airflow, Apache Airflow, 그리고 그것은 단지 기본적으로 모든 고객이 그것을 사랑했습니다

그리고 우리는 그것을 엄청나게 채택하기 시작했습니다 그래서 우리는 지금 Composer를위한 GA를 발표하고 있습니다 이미 사용 가능합니다 당신은 그것을 사용할 수 있어야합니다 Dataproc 측면의 주요 개선 사항 – 자동 크기 조정 및 사용자 정의 패키지

맞춤 패키지를 사용하면 몇 번의 클릭만으로, 우리의 최상위 아파치 프로젝트를 고른다 이제 Dataproc에 배포하고 싶습니다 그 흥미 롭군요 리소스 요구 사항을 기반으로하는 자동 크기 조정 Hadoop 클러스터를 자동으로 확장합니다 Spark 클러스터를 사용할 수 있습니다

그리고 나서, 우리는 몇 주 전에 발표했습니다 그 [? Toddenworks?]가 이제 인프라를 지원합니다 및 GCP 기본적으로 따라서 GCP에서 직접 HDP 또는 HDF를 사용할 수 있습니다 그걸로, 블루에 프론에서 마이클을 불러주세요

그들이 GCP를 사용하는 방법에 대해 이야기합니다 [박수 갈채] 남자 이름 환영 안녕하세요, Sudhir 잘 지내? 잘 했어

MICHAEL COLLIS : 여기 있습니다 당신 자신의 빠른 소개를 할 수 있을까요? 회사뿐만 아니라 당신의 역할? MICHAEL COLLIS : 물론입니다 전혀 안녕 모두들 나는 네가 다음과 같은 두 번째 날을 즐기기를 희망한다

그래서 블루 에이프런은 6 년 전에 설립되었습니다 겸손한 목표로 그리고 그 목표는 식품 시스템이 어떻게 이 나라에서 일했다 그리고 우리가 좋은 진전을 이룩한 동안, 그것은 비전이 있어야하는 것처럼 대담한 목표입니다 우리는이 비전에 도달 할 수 있다고 생각했습니다 가정 요리를보다 쉽게 ​​접근 할 수있게 만들어줌으로써, 이 나라에서 더 많은 사람들에게 더 저렴한 가격

그리고 그렇게함으로써, 우리는 그곳으로 갈 수있었습니다 농부, 생산자와 협력하고 확실하게하십시오 우리가 지속 가능한 농업에 투자하고 있다는 사실, 가축을 키우는 인간적 방법,이 모든 다른 것들 기본적으로 우리가하는 일은 우리가 보내는 것입니다 비싼 재료, 제철 재료를 상자에 담아 그것들을 만들기위한 조리법으로 그리고 우리는 미국에서 수백만 개의 식탁을 운영하고 있습니다

매일 밤, 특권입니다 SUDHIR HASBE : 저는 그들 중 하나입니다 그래서 Blue Apron을 좋아합니다 MICHAEL COLLIS : 알겠습니다 SUDHIR HASBE : 그렇다면 Blue Apron에서 데이터 분석은 어떻게 사용됩니까? MICHAEL COLLIS : 가장 큰 특권 중 하나입니다

나는 음식에서 일하는 것에 대해 배운다 고 생각합니다 사람들은 항상 그들이 생각하는 것을 말해주고 싶습니다 우리는 실제로 나가서 많은 고객을 요구할 필요가 없습니다 피드백 [웃음] 아니

내가 말했듯이, 당신은 사람들의 만찬 테이블에 있습니다 매우 개인적인 순간입니다 맞습니까? 그리고 그것은 매우 친밀합니다 기본적으로 우리는 경청 할 책임이 있습니다 그리고 제가 말했듯이, 사람들은 우리에게 보여줄 것입니다, 그들은 조리법에서 그들이 원하는 것을 우리에게 말할 것입니다

그 전에 모든 요리법에는 농담이있었습니다 여름에는 그들에게 양배추가된다 저를 고치라고하지 마십시오 나는 그것을 고칠 수 없다 따라서 데이터는 데이터의 핵심 부분입니다

우리는 사업 적 결정을합니다 그리고 그것은 즉시 명백하지 않습니다 너가 우리가하는 것을 보면 당신은 생각합니다, 아, 당신은 음식 상자를 나른다 승인

그래서 훌륭합니다 그러나 실제로, 우리는 고객 라이프 사이클을보고 있습니다 모든 단계에서 데이터를 수집하고 있습니다 당신이 좋아하는 것, 당신에게 어필하는 요리법, 무슨 사진이 당신에게 호소, 어떤 제목이 당신에게 호소 그리고 우리는 당신이 좋아하는 프로필을 만들고 있습니다

그리고 제가 말했듯이 사람들은 우리에게 그들이 느끼는 것을 말해줍니다 우리 조리법 중 하나에 대한 의견을 적어 본 사람이라면, 인간이 그것을 읽었다는 것을 알아라 멋지네요 마이클 콜리스 :하지만 우린 더 잘할 수 있지, 그렇지? 우리가 생각할 수있는 것은 우리가 여기서하고있는 선순환 데이터 비전 우리가 그렇게하는 것에 대해 생각하는 방식은 – 우리가 무언가의 예를 사용한다면 우리 팀은 분명히 요리법 권장 사항입니다

상자에 올바른 요리법을 넣었는지 확인하십시오 분명히 좋아할 것입니다 따라서 우리가 더 나은 권고를한다면, 우리는 더 나은 예측을합니다 우리는 더 나은 구매를했습니다 우리는 나가서 올바른 재료를 소싱하고 있습니다

그리고 올바른 단백질과 올바른 건조 제품 우리의 필요를 충족 시키십시오 그것은 음식물 쓰레기를 줄이는 것입니다 이 단계에서 또 다른 중매인을 잘라내는 거지? 슈퍼마켓 그리고 우리가 더 나아질 경우 우리는 결국 수천, 수천 톤의 낭비되는 음식을 절약 할 수 있습니까? 그래서 모든 작은 변화가 우리에게 그토록 중요합니다 규모면에서 큰 차이가 있습니다

하세 하데 : 철학에 대해 더 많이 말해주세요 오픈 소스 소프트웨어와 당신은 그것을 사용하고 조직 내에서 그런 것들을 사용하십시오 마이클 콜리스 : 네 그래서 우리는 세탁물을 사용하는 것으로 기록에 남습니다 GCP 서비스 목록 – 아이오와 엔터프라이즈 데이터웨어 하우스는 BigQuery입니다

스트리밍 처리에는 Dataflow가 사용됩니다 우리는 배치 기계 학습을 위해 Dataproc을 사용합니다 데이터 호수에는 GCS를 사용하고 준비된 기능에는 GCS, 우리의 숙련 된 모델,이 모든 것들 하지만 그 많은 오케스트레이션은 Airflow를 사용합니다 우리는 더 많거나 적은 공기 흐름을 사용해 왔습니다

Blue Apron에 데이터 엔지니어링이 존재했던 날 그리고 그것은 우리에게 대단히 중요합니다 정보를 섭취하는 데 도움이되기 때문에 외부 출처에서 이는 일} 처리 ETL 프로세스를 실행하는 데 도움이됩니다 우리가 배치 기계 학습을 실행하는 데 도움이됩니다

모델, 그 모든 것들 그리고 실제로 우리가 어떻게 끝내는 지 핵심 요소입니다 우리의 일괄 처리 기계 예측을 실제로 제공합니다 게다가 Airflow를 사용하여 1 억 2 천 2 백만 건의 추천을 계산합니다

매일 그리고 그것들을 작은 레벨의 DB 아티팩트로로드합니다 우리가 우리의 봉사에서 기억으로 봉사하는 것은 위대한 일입니다 우리가 봉사 할 수 있다는 것을 의미하기 때문에 매일 약 15 마이크로 초 권장 숨어 있음

꽤 괜찮아 와우 와우 마이클 콜리스 : 우리는 그걸로 일할 수 있습니다 멋지네요

마이클 콜리스 : 네 그러나 오픈 소스는 그 중대한 부분입니다 맞습니까? 우리는 일찌감치 화상을 입었습니다 나는이 이야기가 모든 사람들에게 친숙해야한다고 생각한다 아마 스타트 업으로 일했을거야

우리는 일찍이 특정 구름에 묶여있는 벤더에 의해 화상을 입었습니다 그리고 우리는 처음부터 오픈 소스에 전념했습니다 그러나 그것은 정말로 우리를 실현 시켰습니다, 오, 우리 오픈 소스를 심각하게 받아 들여야한다 엔지니어링 조직으로서 그 위치에 오르지 않는다 다시

우리는 큰 엔지니어링 조직이 아닙니다 데이터 엔지니어링은 우리에게 단지 15 명입니다 우리는 경쟁 우위를 확보하기 위해 노력해야합니다 그리고 그것은 공기 흐름을 실행하지 않습니다 당사의 데이터 운영 팀은 가장 최근의 기류를 관리했습니다

19 업데이트 네 음, 그 주 잘 지내지 않습니다 그래서 우리는 갇히고 싶지 않습니다

그리고 우리는 그것을 한 번 쓰고 어디서나 실행하고 싶습니다 우리의 하이브리드 클라우드 그리고 구글이 말하면, 우리는 오픈 클라우드에 대한 약속은 우리에게 매우 중요합니다 그리고 그것은 매우 중요합니다 다른 차원에서 우리 사업을 위해 경쟁 할 수 있습니다

그러나 당신이 우리 제품에 갇혀있는 것은 아닙니다 그 점이 중요합니다 그것은 우리에게 좋은 신호입니다 Beam, Spark, TensorFlow – 이것들은 모두 우리가 에 큰 투자를했다 오픈 소스라면 우리가 원하는 곳 어디든지 이동할 수 있습니다

우린 아니야 SUDHIR HASBE : 결코 움직이지 않기를 바랍니다하지만 얻습니다 원하는 경우 언제든지 이동시킬 수 있습니다 MICHAEL COLLIS : 그럴 수 있습니다

[웃음] 완벽 해 감사 고마워, 마이클 본 다른 주요 측정 항목 또는 원하는 비즈니스 결과 우리가 마무리하기 전에 공유 할까? 마이클 콜리스 : 수입의 주간에 나 한테 물어볼 수는 없어 해제

하지만 아니, 기본적으로, 우리는 우리 제품과 관련하여 엄청난 양의 진품을 보았습니다 고객에게 피드백을 제공 할 수있는 더 많은 방법을 제공 할 때, 우리는 더 많은 피드백을 얻습니다 그래서 그것은 정말로 선순환입니다 우리는 또한 그러한 통찰력을 사용하고 있습니다 기본적으로 요리 팀과 놀라운 요리사를 돕기 위해 요리법을 더 잘 계획하십시오

그래서 그것은 우리를위한 새롭고 흥미 진진한 프론티어입니다 AI를 사용하여 실제로 우리가 제공 한 것에서 피드백을 제공합니다 우리 고객이 좋아할 것임을 알기 때문에 메뉴에 더 많은 것이 있습니다 그 것들 — 알다시피, 모든 사람과 사물을위한 무언가가 있습니다 사람들은 훨씬 더 많이 사랑할 것입니다

SUDHIR HASBE : 멋지네 고맙습니다 고마워요, 마이클 마이클 콜리스 : 네 감사 고마워요

[박수 갈채] 당신이 본 것처럼, 내가 고객들과 이야기 할 때, 이 모든 것이 열려있는 구름 위에 있습니다 실제로 많이 공감합니다 특히 전문성 고객을 유지 Spark, Hadoop, Beam과 함께 우리가해온 것, 및 기타 영역 네 번째 주제, 빨리 이야기하고 싶습니다 시각화하고 데이터를 활성화하는 것이 었습니다

핵심은 셀프 서비스 BI입니다 다양한 조직의 우선 순위 중 하나 자신의 데이터를 어떻게 탐색 할 수 있습니까? 사용자가 데이터를 탐색하고 탐색 할 수 있도록 협업적인 데이터 중심의 의사 결정, 모든 대화에 등장하는 주제입니다 나는 고객과있다 따라서 Data Studio를 사용하지 않았다면, 사용 가능한 BI 툴입니다

협력 기본적으로 협업을 기반으로합니다 핵심은 새로운 BigQuery UI 기능입니다 내가 발표 한 바에 따르면, 새로운 UI를 사용한다면, 말 그대로 한 번의 클릭으로 쿼리를 수행 할 수 있습니다 한 번 클릭하고 시각화 및 데이터를 직접 수행하십시오

탐구 그래서 당신은 그것이 어떤 데이터 세트인지 찾아 볼 수 있습니다 해당 데이터를 다른 소스와 혼합 할 수 있으며, 애드워즈 등을 사용하여 해당 데이터를 가져옵니다 그리고 실제로 진행하여 보고서를 만들 수 있습니다 초 이내

글자 그대로 말하자면 전문가가 필요하지 않습니다 또한 사전 제작 된 템플릿도 있습니다 현재 사용할 수 있습니다 그래서 당신은 문자 그대로 들어갈 수 있습니다 클라우드 결제에서 찾은 템플릿이 있습니다

따라서 결제를 시각화하려는 경우 클라우드 또는 Google 클라우드에서 실제로 그것을위한 템플릿이 있습니다 애드워즈 실적을 분석하거나, 당신은 그것을위한 템플릿을 가지고 있습니다 정말 좋은 기능입니다 데이터 시각화 개발자의 미리보기도 있습니다 사용할 수 있습니다

그러나 D3 기반 시각화를 수행 할 수 있습니다 맞춤 시각화를 만듭니다 우리가 투자 한 다른 분야 우리 파트너 중 한 명인 Trifecta, 데이터 준비 솔루션입니다 그래서 많은 고객들이하고 싶어합니다 분석가들은 시각적으로 그렇게하기를 원한다

데이터 준비를 사용하면 실제로 진행하고 시각화 할 수 있습니다 BigQuery에있을 수있는 귀하의 데이터는 데이터에 어떤 예외가 있는지 파악하고, 데이터를 정리하고 다시 저장하십시오 Google 애널리틱스에서 준비 중이므로 그 도구로 다음 몇 달 동안, 핵심은 우리가 많이 집중했다는 것입니다 베타에서 피드백을 얻는 데, 우리는 몇 가지 핵심 기능을 사용할 수 있습니다 우리가 한 강화의 한 큰 영역 모든 팀 기반의 데이터 쟁탈입니다

조리법을 공유하고 흐름을 공유하고 복사하려면 어떻게합니까? 어떻게 사용자 정의 샘플 조리법을 재사용하고 재사용합니까? 그런 것들? 그래서 그것에 중점을 둡니다 생산성과 같은 방법에 집중하십시오 빠른 바로 가기가 있습니다 인기있는 항목과 모두에? 그리고 우리는 완전히 새로운 포괄적 인 디자인을 가지고 있습니다 훨씬 더 좋아 보이고 더 효율적인 방법입니다

그래서 그것은 그 중 하나입니다 나는 다음 것에 뛰어든다 그래서 다른 것들 중 하나이다 누군가가 나에게 잠시 말했고, 좋았다는 것만으로는 충분하지 않다 당신도 잘해야합니다

그래서 우리는 비영리 단체와 협력 해 왔습니다 분석을 민주화하는 데 도움을 줄 수있는 방법을 알아 봅니다 및 기계 학습 기능 비영리 단체에서 그럼 정밀 의학이 어떤지에 대한 비디오를 실행 해 봅시다 그것을 사용하고, 나는 그것에 대해 더 이야기 할 것입니다 우리가 가져갈 수 있을까요? [비디오 재생] [음악 재생] 내 이름은 Robert Tabz 야

5 년 반 전에, 제 어머니는 알츠하이머 병 나는 모든 의약품이 작동하는 것은 아니라는 것을 알고있었습니다 전체 시간은 하향 나선형이었다 – 나는 약 25 년 전에 할아버지를 잃었다 질병에

당시 우리 가족은 이미 그랬던 것처럼 느꼈습니다 질병의 궤적을 바꾸기에는 너무 늦었다 그리고 오늘 같은 이야기를 들으면 내 마음이 아프다 정밀 의학 재단의 사명 인공 지능과 건강 관리를 하나로 모으는 것입니다 알츠하이머 병을 일찍 발견 할 수 있습니다

– 알츠하이머를 아주 일찍 발견 할 수 있다면, 그 질병이 치료에 가장 취약한시기입니다 – 우리가 접근 할 수있는 데이터 익명화 된 전자 건강 기록입니다 우리는 HIPAA 준수 환경이 필요했습니다 Google Cloud를 사용한 이유입니다 – 우리는 수백 가지 변수를 다루고 있습니다

수백만 명의 환자에게 수십억 줄의 데이터 – Google Cloud를 사용하면 Google의 운영 규모를 확장 할 수 있습니다 BigQuery ML을 사용하면 기계 학습을 개발할 수 있습니다 모델을보다 빠르게 만들고 전체 데이터를 활용하십시오 비영리 단체이기 때문에 미국 전역의 자원 봉사자에게 의존하고 있습니다

Google Cloud 덕분에 정말 그렇게 할 수있었습니다 우리는 그들이 기계 학습을 적용 할 수 있기를 원했습니다 데이터 및 트렌드 자체를보고, 보다 혁신적인 접근 방식을 제안 할 수있는 권한 부여 질병의 진행을 바꾸는 것 -이 작품은 나에게 너무 중요하다 우리가이 파괴적인 질병에 대처하는 데 도움이되기 때문에 치료법이 없습니다

– 나는 그들이 어딘가에서 들었다고 들었다 음모에 점들이 사람들이라는 것을 잊지 마십시오 그리고 우리는 그것을 진지하게 생각합니다 [음악 재생] [끝내기] SUDHIR HASBE : 정밀 의학의 훌륭한 사례 BigQuery에서 데이터 분석 기능 사용 ML은 다른 BigQuery 기능과 함께, 그들의 지역에서 전진하고 나아갈 것입니다 그래서 우리가 할 수 있었던 것은 오늘이었습니다

변화를위한 데이터 솔루션을 발표하고 있습니다 비영리 단체를위한 프로그램입니다 전 세계 어디서든 필요한 곳을 이동할 수 있으며, Google 클라우드 크레딧에 액세스하고, 자체 교육 자료와 함께 실습을 가능하게합니다 말했듯이 우리의 목표는 비영리 단체의 분석 및 기계 학습을 민주화하십시오 전 세계에 걸쳐 이러한 기능을 제공합니다

세계에서 좋은 일을하고 싶은 조직의 손에? 그래서 오늘 시작됩니다 우리가 시작하는 또 하나의 것 2030 시각화입니다 따라서 이것은 세계 은행, 유엔, UN 재단 및 기타 제휴 단체들 우리는 유엔 주변의 인식과 행동을 원한다 지속 가능한 발전 목표 다음 12 년 내에 17 가지 목표가 있습니다

우리는 만나고 싶다 그리고 기본적으로 이것은 스토리 텔링 경쟁입니다 학생, 세계의 대학원생, 그들은 앞으로 나아가고, 창조하고, 시각적 인 이야기를하고, 데이터에 기반한 통찰력 및 행동 Studio 및 BigQuery에 대한 공개 데이터 세트 BigQuery에는 70 개 이상의 공개 데이터 세트가 있습니다 사용할 수 있고, 오늘 분석을 시작할 수 있습니다 그래서 이것으로 여러분은이 비주얼 스토리를 만들어 낼 수 있습니다

9 월 말까지 제출하십시오 그리고 유엔 세계 데이터에 우승자를 발표 할 것입니다 10 월 두바이에서 열린 포럼 그래서 이것은 우리가 오늘 발표하는 것들 중 하나입니다 우리는 차세대 학생들을 원합니다

누가 이전에, 우리는 약 8 천만 G Suite를 사용하는 학생들 비슷한 기능을 확장하고자합니다

잠재 고객을위한 데이터 분석 분석, 시각화, 해결할 통찰력을 얻으 려합니다 그와 함께, 내가 이야기하고 싶은 것들 중 하나 우리의 파트너 생태계는 우리에게 매우 중요합니다 우리는 파트너 사를두고 있습니다 [INAUDIBLE]처럼, 우리에게는 놀라운 파트너가 있습니다 BigQuery 또는 다른 분석으로 데이터를 가져 오려면 우리가 가진 제품, 놀라운 파트너가 있습니다

이러한 솔루션을 제공합니다 우리는 데이터 통합 ​​파트너가 있습니다 우리에게는 시각화를위한 파트너가 있습니다 당신은 Looker의 이전 예를 보았습니다 Tableau는 그 큰 파트너입니다

딸깍 하는 소리 BI 툴을 제공하는 많은 파트너가 있으며, 뿐만 아니라 당신을 도울 수있는 많은 SI 파트너가 있습니다 당신이 가질 수있는 당신의 다양한 교제와 그래서 그것이 핵심입니다 Google은 플랫폼으로서의 통찰력의 리더로서, Forrester의 서비스 플랫폼 (platform-as-a-service) 그리고 나는 우리가 인정 받기를 바라고 있습니다 다가올 다가올 다가올 보고서들에 점점 더 많아지고 있습니다

나에게 중요한 점은 훨씬 더 많다는 것이다 솔루션에서 사용 가능한 BigData에 대한 정보 장소 저것 좀 봐주세요 GIS를 강조한 놀라운 세션이 있습니다 하나, 클러스터링에 대한 깊은 다이빙 엔터프라이즈 데이터웨어 하우스를 사용하면 Jordan Tigani의 엔터프라이즈웨어 하우스를 넘어서

빅 데이터에는 다른 좋은 세션이 많이 있습니다 회의 주제 참석하여 더 많은 피드백을주십시오 모두들 감사합니다 [박수 갈채] [음악 재생]

Securing and managing your big data environment (Google Cloud Next ’17)

[음악 재생] 코리 에스 엘튼 : 안녕 안녕하세요

거의 둘째 날이 끝나고 모든 사람들이 지금까지 화려한 날이 있었다 환영 이 프리젠 테이션에 시간을 내 주셔서 감사합니다 저는 Corrie Elston입니다 Google Cloud Platform을 사용하는 솔루션 아키텍트입니다

자, 오늘 제 발표 제목 귀하의 거대한 데이터 환경을 보호하고 관리하며, 이것은 광범위한 제목이다 실제로, 엄청나게 광범위한 제목 내일이 시간까지 여기있을 수 있습니다 모든 가능성을 이야기하다 이 지역에는 플러스와 마이너스가 있습니다

게다가 나는 사람들과 이야기하고 발표하는 것을 좋아합니다 그래서 나는 밤새도록 가서 이것을하게되어 기쁘다 마이너스 쪽은 물론, 오늘 저녁 샌프란시스코에서 축제를 놓치지 마라 다른 좋은 프레젠테이션이 많이 있습니다 당신이보기를 원할 것입니다

그래서 만약 내가 플러스와 마이너스의 무게를 달면, 내 필요 대 당신의 요구, 그럼 분명히 우리는 엄격하게 있어야한다 우리가 가진 시간까지 그리고 우리가 한시간 머무를 예정이라면, 장면을 설정하고 컨텍스트를 교환해야합니다 우리가 얘기 할 내용에 대해서 우선, 보안 및 관리

내가 진정으로 의미하는 바는 무엇을 빼앗을 것인가이다 이 프리젠 테이션에서? 구체적이고 실용적이고 유용한 정보 한 시간 만에 너에게 줄 수있어? 첫 걸음 – 즐거움 중 하나 Google의 솔루션 아키텍트가되다 나는 기업과 일하게 될까? 모든 모양, 크기 및 종류 중에서 가장 큰 것부터 가장 작은 것, 가장 오래되고 가장 확립 된 것, 다양한 산업 분야에서 새로운 브랜드로 그리고 나는 단 한 사람입니다 나는 수만 명의 사람들이있는 팀의 일원이다 같은 종류의 일을합니다

비슷한 일을하는 다른 많은 팀이 있습니다 따라서이 프리젠 테이션은 데이터 정렬, 필터링, 모든 것들의 집계 이 사람들은 배웠습니다 이 프리젠 테이션을 통해 얻을 수 있습니다 보안 및 관리를위한 일련의 모범 사례 큰 데이터 및 기계 인텔리전스 환경 생산에서 단단 해지고 대표한다 실용적이고 실용적이며 적절한 방법 환경 보호 및 관리에 대한 다양한 조직에서 사용되었습니다

및 산업 우수 사례는 당신은 당신의 환경을 보호하고, 무엇에 대한 실존 적 위협에 대처하고 완화 할 것인가? 우리는하다 어느 시점에서든 보안 사고가 두려운 것입니다 귀하의 데이터, 귀하의 IP, 귀하의 코드, 빠른 시간 내에 파편에 대한 명성을 깎을 수있다 평평한 – 피할 수있는 뭔가

이 시점에서 보안을 제외하고, Google Cloud Platform은 많은 보안 문제를 처리합니다 귀하를 대신하여 귀하를 대신하여 너를 위해 많은 도움이된다 너는 아무 것도하지 않고 풀 타임으로 일하는 700 명이 넘는 기술자로 구성된 팀이 있습니다 GCP를 더욱 안전하게 만들기 위해 Google 보안 및 전체 기술 향상 모두를 위해서

그러나 보안의 일부가 있습니다 당신의 관심을 필요로합니다 예를 들어 데이터를 가져옵니다 물론 일부 데이터는 엄청나게 사적인 사람들이 될거야 회사 내부에서도 일부는 팀으로, 일부는 조직의 일부로, 어떤 사람들은 공개하기를 원할 것입니다

따라서 액세스 구성 방법에 대해 생각해야합니다 각각의 경우에 통제 액세스 제어 메커니즘이 존재합니다 구성해야합니다 그리고 그것이 우리가 생각하고 말하는 것입니다

이 프레 젠 테이션에 대해 근본적인 보안의 넓은 영역이 아닙니다 나는 당신이 멋진, 통찰력있는 것을 보았다는 것을 확신한다 이미 오늘 프리젠 테이션을 한 다음 그것에 대해 내일 들어간다 우리는 귀하의 특정 요구 사항 및 사용에 대해 이야기하고 있습니다

사례와 그 문제를 해결하는 방법에 대해 설명합니다 신속하게 성장할 수 있도록 도와주세요 언제든지 관리 지출 당신의 시스템은 지출하지 않는 시간입니다 귀하의 고유 가치에 추가하십시오 이제 Google Cloud Platform을 사용하면 비교적 쉽게 사용할 수 있습니다

사물을 관리하는 것 우리는 귀하를 대신하여 노력을 기울입니다 하지만 여전히 노력이 필요합니다 자, 당신이 앞으로 나아갈 때 그리고 당신이 자라면, 당신은 아주 빨리 잘하면 성장하고 있습니다 관리 오버 헤드가 커질 수 있습니다

너는 그 일을하고 싶지 않아 우리는 당신을 도와 줄 것입니다 이러한 관행은 엄청난 비용을 지불하는 데 도움이됩니다 간과하는 것을 간과해라 그러나 나는 우리 모두가하는 일 중 엄청나게 중요한 부분이라고 생각한다

응력의 양을 줄이는 것입니다 이러한 관행은 사람들이 신속하게 이동하고, 빠르게 실패하고, 성공하고 상황을 해결하는 데 도움이됩니다 너와 내가 컴퓨터에 앉아서 궁금해하는거야 이 SQL을 실행하면 어떻게 될 것인가? 또는이 VM을 삭제하면됩니다 그룹에 영향을 미칠 것입니까? 저기서 평생 가치로 일하는 사람들, 그들이하고있는 일을 호스에 맡기는 것입니까? 우리는 모두 그 상황에 처했습니다

우리 모두는 그것을 싫어했습니다 우리는 다시 거기에 가고 싶지 않습니다 그리고 미래 세대를 위해, 우리는 확실히 그 스타일의 행동을 계속 지키고 싶지는 않습니다 그래서 모든 방법으로 도움이됩니다 이 프레젠테이션의 맥락에서 당신은 누구입니까? 글쎄, 당신은 우리가 사용하는 기술을 사용하고자하는 사람입니다

클라우드에서 훌륭한 분석 및 시스템을 갖추고 있습니다 학습 도구 당신은 빌드하고 창조하고 영웅적으로 요금을 분류하기를 원합니다 데이터를 생성하고 일을 진행하십시오 그리고 그것은 우리 모두에게 적용되는 멋진 내용입니다

어떤 식 으로든, 모양을 만들거나, 모양을 만드십시오 그래서 우리는 그저 조금 나아질 것입니다 당신은 반드시 개인이 아닙니다 코드 랩을 시작하고 살펴보고 있다면, 너는 1 층으로 내려 가야 해 코드 실 (code lab)을 보았습니다

그들이 얼마나 좋은지에 따라 솔루션, 자습서, 그러한 것들 – 이 프리젠 테이션은 재미있을 것입니다 그러나 그것은 당신의 중요한 경로에 정면으로 있지 않습니다

그러나 당신이 결코 알지 못하기 때문에 그것은 당신에게 흥미 롭습니다 당신은 분명히 마음 속의 목표로 조사하고 있습니다 당신도 거대한 조직의 일원이 아닙니다 이미 인프라 팀과 보안 팀이 있습니다 다시 말하지만, 이것은 흥미롭고 다소 통찰력이있을 것입니다

당신을 위해, 그러나 그것은 당신의 황소의 눈에도 똑같이 있지 않습니다 제쳐두고, 대화는 – 당신 중 누구라도 그 거대한 조직의 일부입니다 우리는 약간 다른 대화 스타일을 가지고 있습니다 오늘 제가 이야기하는 기술을 통합하는 것입니다 이미 보유하고있는 기존 기술로 프레젠테이션을 벗어난 사람이 있으면 기꺼이 해줘

그것에 대해 이야기하고 싶어합니다 아니, 근본적으로, 너는 모두 다 – 중소기업, 중소기업, 대기업 내의 팀이 빠르게 성장합니다 규모 나 명성 또는 영향력에있어 당신은 그 다음으로 큰 일이 될 것입니다 큰 데이터 환경 – 무엇을합니까? 사실, 빅 데이터 환경은 어떻게 생겼습니까? 빅 데이터를위한 전제 아키텍처 기계 학습 – 클라우드에서 노출되는 Google 도구 그들은 모두 훌륭합니다 그들은 모두 매우 가치있는 첨가제입니다

우리는 매우 자랑 스럽습니다 그러나 이것은 오늘날 발표의 초점이 아닙니다 너는 이것의 약간 변이를 사용할 것이다 이는 사용 사례와 요구 사항에 적합합니다 다시,이 프리젠 테이션 밖에서, 네가하는 일의 맥락에서 이것에 대해 이야기하고 싶다면 저기, [INAUDIBLE]하고 너는 나무 집, 모든 부스, 멋진 장소가있다

Google 직원을 끌어 들이기 나는 그것을 행복하게 할 것이다 우리는 이것이 당신의 건축물이라고 상상해보십시오 조직의 맥락에서이 아키텍처 그리고 그것이 의미하는 바는 전형적으로, 당신은 하나의 시스템을 가지고 있지 않을 수도 있습니다

하나의 시스템 버전 일 수도 있습니다 당신은 분명히 한 명의 개인 사용자가 없습니다 이질적인 기술을 가진 다양한 사용자가 있습니다 세트, 이질적인 전문 지식 세트, 그들은 모두 당신의 시스템에 치고 있습니다 일반적으로 시스템이 하나도 없습니다

너는 제비 뽑기가있다 평생 가치 팀이 있습니다 추천 엔진 팀이 있습니다 은행 업무에서 나는 외환으로 일했다 당신은 그 팀을 가지고 있습니다

상품, 신용, 당신은 모든 종류의 일을하고 있습니다 개발자 및 테스트 및 모든 것 이것이 우리가 다루려고하는 것입니다 안전하고 투명하며 쉽게 관리 할 수 ​​있습니다 관리 할

우리 모자를 걸 수있는 고리를 만들기 위해, 예를 들어 이야기하는 것이 유용합니다 나를 아는 사람이라면 사실, 너 모두를 위해서

나를 모르는 사람들에게, 나는이 전에 오래 재무 배경을 가지고있다 그래서 저는 금융적인 예를 이야기 할 것입니다 이름 짓기 때문에 예제로 부르겠다 슈퍼, 슈퍼 하드 예는 작은 성장 금융 서비스입니다 금융 데이터에 대한 새로운 연구를하고있는 회사

그것은 외환, 두 화폐 교환을 본다 동의 한 비율로, 그리고 그것은 주식을보고, 사고 파는 주식 엄격하게 올바른 일에 집중, 그래서 지금도 준수 부서가 있습니다 그 일은 모든 일을 감독합니다 외환 시장은 아시아 시장에 관심이 있습니다

그래서 그것은 아시아 포트폴리오를 가지고 있습니다 주식 시장은 미국의 포트폴리오를 가지고 있습니다 그리고 그 예입니다 그것은 여러분이 모두 확인할 수있는 것입니다 당신은 그것이 어떻게 확장되는지 볼 수 있습니다

당신은 성장하고 있습니다 보기는 성장하고있다 들어오는 부서가 더 많습니다 확실히 많은 관심과 많은 프로젝트가 있습니다 깊이와 수평 모두 성장할 것입니다

빠른 체크 포인트 – 우리는 무엇을 성취하려고하는지 알고 있습니다 보안, 관리의 용이함 및 최소한의 스트레스 당신은 스펙트럼의 중간에 있습니다 시스템에 여러 사용자가 있습니다 다른 요구 사항

여러 시스템을 보유하고 있으며 잠재적으로 성장하고 있습니다 빠르게 성장하고 있습니다 그럼 우리가 다음에 할 일은 우리는 우리가 갖고있는 두 가지 개념을 오버레이 할 것입니다 우리는 전제 건축을 가지고 있습니다 예제가 있습니다

먼저 정신적으로 시작하겠습니다 이제 우선, 사용자가 있습니다 목적을 위해 예를 들어 보겠습니다 이 프리젠 테이션의 Corrie는 examplecom에 있습니다

Bjergsen이 있습니다 우린 킨이있어 Froggen이 있습니다 우리는 영향력을 가지고 있습니다 example

com에는이 모든 사람들이 있습니다 그 사람들은 다양한 역할을합니다 그들 중 일부는 단순히 데이터를 보길 원합니다 그들 중 일부는 분석을 수행하는 분석가입니다 기계 학습

그들 중 일부는 모든 것을 구축하고 있습니다 그리고 우리는 그러한 역할과 기대에 기대를 걸고 있습니다 그들이 가진 권리들 – 그것들 뷰어의 편집자, 관리자의 편집자 물론 기본 리소스가 있습니다 BigQuery, Cloud SQL, Cloud Spanner, 등등

그 모든 정보는 우리를 분리로 인도합니다 그런 다음 기술에 대한 우리의 디자인을 이끌어내는 관심사에 대해 사용자 및 그룹이 있습니다 이제 사용자는 본질적으로 신원입니다 그것은 누군가가 누구인지 식별합니다 그룹은 또한 ID가있는 사용자의 모음입니다

그리고 우리는 G Suite에서이를 관리하고 관리합니다 다른 대안이 있지만 G Suite를 선호합니다 나는 이것이 도구의 훌륭한 세트라고 생각합니다 우리에게는 역할이 있으며 자원이 있습니다 방금 언급 한 리소스

Google Cloud에서 사용하려는 모든 것입니다 플랫폼 역할은 그것을 하나로 묶어주는 접착제입니다 역할을 통해 우리는 다음과 같은 질문에 답할 수 있습니다 우리 FX 분석가의 일원 인 Bjergsen은 예를 들어 BigQuery에서 표를 만드시겠습니까? 대답은 '예'여야합니다

FX 분석가의 일원이기도 한 코리 (Corrie) 주식 프로젝트를 삭제 하시겠습니까? 그리고 그 대답은 기꺼이 또는 내키지 않아야합니다, 우발적이든 아니든, 아니오 이제 기술을 살펴 보겠습니다 우리가 사용할거야 G 스위트 – 나는이 것에 아주 많이 머 무르지 않을 것입니다 나는 지난 1 년 동안 아주 광범위하게 사용 해왔다

직관적이고 사용하기 쉽고 사랑 스럽습니다 G Suite 관리 콘솔을 사용하여 조작 할 수 있습니다 보안 및 사용자 Google 그룹스를 사용하면 그룹을 조작 할 수 있습니다 모범 사례는 여기에서 우리가 할 일 전부입니다

완전히 관리되는 사용자 – 생성, 일시 중단 및 삭제 가능 사용자가 뭔가가 분명 해지면 관리자 또는 관리자로, 사용자가 시스템에 즉시 액세스하는 것을 막을 수 있습니다 암호 강도 – G Suite 내부, 당신은 암호 강도를 모니터하고 시행 할 수 있으며, 강력한 암호가 좋습니다 두 가지 요소 인증 – 다시, 당신은 모니터하고 관리하고 사용을 시행 할 수 있습니다 2 요소 인증 이제 그 일들이 가능할 것입니다

그것의 대부분을 상식으로 생각하고 그렇게합니다 그리고 그것은 훌륭합니다 하지만 실제로는 시스템에 큰 위협이됩니다 높은 수준과 높은 수준을 유지하려면 자신의 시스템을 사용하는 사람이 그들이 누구인지 그리고 그들이 누구라고 생각하니? 대단하다 엄청난 위협을 줄이는 데 도움이됩니다

누군가는 뭔가를 알아야합니다 – 사용자 이름과 암호 – 뿐만 아니라 무엇인가 가지고있는 것 – 토큰 2 요소 인증 용 그리고 우리의 마지막 모범 사례는 우리가 GCP에서 역할에 사용하는 그룹에 공개 등록을 허용합니다 우리는 조금 더 자세히 살펴볼 것입니다하지만 의미가 있습니다 그룹을 사용하여 GCP에 대한 액세스를 어떻게 든 제어한다면 우리는 누구나 어떤 그룹 에나 가입 할 수 있습니다

그럼 우리는 아무것도 얻지 못했습니다 Google Cloud Platform의 기술 – 클라우드 리소스 관리자에서 먼저 살펴 보겠습니다 클라우드 리소스 관리자는 – 누가 클라우드 리소스에 대한 이전 세션에 참석 했습니까? 매니저? 그 다음 나는 너에게 대접을 받는다 클라우드 리소스 관리자는 좋은 아이디어입니다 비교적 단순한 개념입니다

그리고 그것이하는 것은 그것이 메커니즘을 제공한다는 것입니다 리소스를 그룹화하고 계층 적으로 구성 할 수 있습니다 자, 그 말은 다음과 같습니다 리소스는 액세스 권한이있는 단일 프로젝트에서 소유하며, 그러나 프로젝트 들간의 자원을 위해 구체적으로 설정해야합니다 지금 일찍 소개 된 것은 무엇입니까? 프로젝트를 폴더로 구성 할 수 있다는 것입니다

폴더 내에 폴더를 중첩시킬 수 있습니다 그런 다음 최상위 레벨에서 귀하의 조직 폴더와 프로젝트를 소유합니다 그리고 GCP는 그 모든 것의 꼭대기에 있습니다 그리고 거기에 강력한 개념이 있습니다 한 번 당신이 장소에 이것을 가지고 분해하고 모델 수 그 조직 내에서 프로젝트 수준 이상으로 운영을 시작하십시오

폴더와 같은 권한을 적용 할 수 있습니다 모든 권한을 볼 수 있습니다 그리고 당신이 가진 모든 프로젝트 당신 조직에서 가져 왔습니다 Example의 문맥에서 이것을 생각해 봅시다 G Suite 고객으로서 이미 예제 GCP에 처음 들어가면 조직 노드가 있습니다

그렇지 않으면, 당신은 단순히 하나를 요구할 수 있고 당신은 하나를 얻을 것이다 그 밑에 FX, Compliance, 및 주식 폴더 이 폴더 아래에 프로젝트를 만듭니다 아시아 포트폴리오 및 미국 포트폴리오의 경우, 또한 규정 준수를 위해 우리가하는 일을 보면서 그들 자신의 분석을하고 싶다 그리고 그 밑에는 그들 자신의 자원이 있습니다

그 질문이 많이 올랐지 만, 특히 그렇습니다 과거에 많은 것을 보았습니다 GCP에서 물건의 확산을 통제하고 있습니까? 그리고 대개 그들이 말하는 것은 프로젝트입니다 사람들은 최선의 의도를 염두에두고 있었기 때문에, 사람들은 프로젝트가 좋은 실체, 좋은 신뢰라는 것을 알고있었습니다 그들이하는 일을 모델링 할 수있는 경계

그럼에도 불구하고 그들은 그 관리 오버 헤드를 원하지 않았습니다 그들이 가지고있는 프로젝트의 수와 함께 확장 할 수 있습니다 지금, 그 질문에 대한 대답은 지금, 클라우드 리소스 관리자를 사용하여 더 이상 걱정할 것이 없다는 것입니다 프로젝트 확산을 포용하다 왜냐하면 그것은 당신의 친구입니다

리소스에 대한 신뢰 경계를 갖는 것이 가장 좋습니다 이제는 폴더가있는 상태에서 더 높은 추상화 수준에서 작동 할 수있다 관리 오버 헤드가 발생하지 않도록 단순히 프로젝트보다 프로젝트로 규모를 확장합니다 우리가 많이 사용할 두 번째 기술 ID 및 액세스 관리 – 구름 IAM 이제 Cloud IAM의 역할은 관리자를위한 방법입니다

ID가 자원과 상호 작용하는 방법을 지정합니다 나는 함께 개념들을 설명 할 것이다 동시에 예를 들어 보겠습니다 우선, 당신은 정체성을 가지고 있습니다 사용자가 있습니다

그룹이 있습니다 서비스 계정이 있고 우리는 examplecom에서 Froggen에 대해 생각해보십시오 왜냐하면 그는 내가 좋아하는 사람이기 때문입니다 그리고 스펙트럼의 다른 끝 부분에는 리소스가 있습니다

이 경우 BigQuery에 대해 이야기하고 있습니다 이제 사용자에게 역할을 부여 할 수 있습니다 사실, 사용자는 여러 역할을 부여받을 수 있습니다 BigQuery에 대해 특별히 고려해 보겠습니다 따라서 사용자에게는 역할이 있습니다

그들은 모자를 쓸 수 있습니다 이 경우 BigQuery 데이터 뷰어가되어야합니다 Froggen은 BigQuery에서 데이터를 볼 수 있습니다 역할은 권한으로 구성됩니다 그것은 낮은 수준의 권한 집합입니다 – BigQuery 데이터 세트 목록, BigQuery 데이터 세트는 당신이 직관적으로 생각하는 모든 것들을 얻습니다

BigQuery의 뷰어가 있어야 함을 알고 있습니다 정책은 모든 역할의 모음입니다 자원에 적용 할 수있는 데이터 뷰어, 데이터 소유자, 데이터 관리자, 모든 것들 그건 일어난다 그리고 그 관계의 사슬은 당신이 어떻게 사용자, 신원이 어떻게 역할을 할 수 있는지 자원에 첨부 된 정책의 일부 해당 리소스와 상호 작용할 수있는 방법을 결정합니다 우리가이 프레젠테이션을 쓰기 시작했을 때, 우리는 실제로 두 가지에 관심을 갖게되었습니다

다른 것들 아주 최근에 나온 또 다른 발표 우리가 세 가지에 관심을 갖게된다는 것을 의미합니다 그리고 이것이 실제로 무엇에 부가적인 것이기 때문에 좋습니다 너는하고 싶어 우리가 관심을 가지고있는 첫 번째 것은 원시적 인 역할입니다

소유자, 편집자, 뷰어 이들은 광범위하고 포괄적 인 역할 유형입니다 전체 플랫폼에 적용됩니다 시청자 인 경우 모든 리소스를 볼 수 있습니다 GCP 프로젝트에서 편집기 인 경우 자원을 작성하고 삭제할 수 있습니다

당신이 주인이라면, 당신은 – 너는 무엇이든 할 수있어 프로젝트를 생성하고 삭제할 수 있습니다 사람들에게 역할을 적용 할 수도 있습니다 그래서 사람들을 추가 할 수 있습니다 그것들은 원시적 인 역할이고 많은 사람들이 당신입니다

그것들에 익숙 할 것이다 IAM은 사전 정의 된 역할을 도입합니다 낮은 수준의보다 세분화 된 방법을 의미합니다 데이터 뷰어, 데이터와 같은 일련의 역할 작성 소유자, 데이터 흐름, 개발자 사용자가 원하는 역할로 다양한 역할을 구성 할 수 있습니다

할 수있다 또한 맞춤 역할을 추가하여 더 많은 것을 제공합니다 계속되는 것을 통제하십시오 사용자 지정 역할은 다양한 방식으로 사물을 단순화합니다 너는 우리가 만들 수있는 우리는 예제를 작성하면서 분석가 역할을 할 수있었습니다

기본 사용 권한을 사용하여 만들 수 있습니다 그리고 아주 깔끔하게, 우리는 또한 다른 역할로 그것을 구축 할 수 있습니다 그래서 우리는 기존의 역할을 감당할 수 있었고 우리는 말할 수있었습니다 그러나 나는 그것을하고 싶지 않고 그들에게 그렇게하기를 원하지 않는다 나는 그들에게 그렇게하기를 원하지 않는다

그러나 그것의 나머지는 모두 시원합니다 끝까지 가자 사용자 정의 역할은 현재 열린 알파에 있습니다 당신은 그것의 일부가되기 위해 신청할 수 있습니다 이것을 Example에 적용 해 보겠습니다

examplecom의 FX 애널리스트들은 외환의 편집인 그리고 나는 거기서 멈추고 싶다 왜냐하면 나는 작성하기 쉽기 때문에 여기서 기본적인 역할을 사용합니다 그것은 단지 이것이 최선의 방법이라는 것을 의미하지는 않습니다

이것은 슬라이드에 사용할 용어 일뿐입니다 그리고 우리는 나중에 가장 좋은 방법이 될 것입니다 주식 분석가, 주식 편집인, 컴플라이언스는 외환과 주식 모두를 볼 수 있습니다 자체 폴더의 편집기입니다 그렇다면 우리가 예를 들어 외환 아래에서 창출하라

더 많은 프로젝트 – 권한을 상속받습니다 위에있는 계층 구조의 폴더에서 가져옵니다 염두에 두어야 할 한 가지주의 사항은 계층 구조의 하위 수준에서 추가 권한을 얻을 수 있습니다 권한을 가져갈 수 없습니다 그러므로 물건을 만들 때 염두에 두어야합니다

하지만 그것이 의미하는 바는 우리가 많은 프로젝트를 만들고, 관리 오버 헤드가 줄어 듭니다 이미 적절한 권한을 가지고 있습니다 이 시점까지 우리는 세계를 조직했습니다 우리는 세상에서 신뢰를 쌓아 왔습니다 그리고 오래된 격언이 간다대로, 우리는 신뢰하고 그러나 검증 할 것이다

감사 기록은 매우 중요합니다 나는 대부분의 사람들이 자원 관리자를 이해한다는 것을 알게되었다 아주 빨리 그리고 그들은 IAM으로 확인합니다 비록 악마가 IAM의 세부 사항에도 불구하고 그리고 감사 로깅 (audit logging)은 그들이 보는 것과 비슷한 종류입니다

감사 로깅은 매우 중요합니다 아마 당신이 보장 할 수있는 몇 가지 하나는 우리가 할 수있는 최선의 일을 할 때, 그것은 아마 좋은 직업에 대한 근사치가 될 것입니다 그래서 당신은 잘못된 것을 얻을 것입니다 다른 것은 시간이 지남에 따라 상황이 변하는 것입니다

우리는 성장하고 진화하는 기업과 시간이지나면서 바뀌다 감사 로깅은 시스템에서 일어나는 일의 물리학입니다 누가 자원과 상호 작용하는지, 누가 데이터와 상호 작용 하는가? 누가 물건을 만들고 누가 파괴하는지 물건, 누가 물건에 접근하고 있습니까? 세 가지 방법이 있습니다 감사 로깅을 볼 수 있습니다 그 중 하나는 콘솔의 활동보기에 있습니다

그것은 좋으며 유용합니다 하지만 내가 그 위에 머물러있는 이유는 나는 그것을 그것을하는 가장 유용한 방법이라고 생각하지 않는다 Stackdriver Logging을 통해 확인할 수도 있습니다 그게 내가 원하는 이유는 필터를 지정할 수 있기 때문입니다 기간별로 검색 할 수 있습니다

Stackdriver에서 경고를 만들 수 있습니다 이것을 진정으로 유용하게 만들 수 있습니다 내가 전에 암시 한 것은 당신이 소비해야하는 것입니다 – 이것은 매우 중요합니다 이 일에 시간을 할애해야합니다 그리고 아직, 나는 시간의 양을 줄이려고 노력하고있다

당신은 행정부에 지출하고 있습니다 그리고 그 시간에 돈을내는 방법 적절한 필터를 만드는 것입니다 적절한 경고를 생성합니다 당신은 앞으로 찾고 기초에 일하고 싶다 보고보다는 오히려 예외이다 계속되는 모든 일에

감사 로그로 할 수있는 마지막 사항 Google Cloud Storage 또는 BigQuery로 내보낼 수 있습니다 둘 다 내보낼 수 있습니다 그 데이터는 영원히 유지해야합니다 결국에는 조사를 원할 것입니다 그리고 확실히, 당신은 배우고 싶을 것입니다

당신은 분석가입니다 데이터를 분석하여 자신이 할 수있는 일이 무엇인지 확인할 수 있습니다 체크 포인트 – 클라우드 리소스 관리자 그룹을 만들 수있는 계층을 정의합니다 프로젝트와 자원을 효과적으로 운영 할 수 있습니다 클라우드 IAM을 사용하면 역할 및 정책을 정의 할 수 있습니다

그 계층 구조의 다른 레벨에 적용 클라우드 리소스 관리자로 정의한 클라우드 감사 로깅을 사용하여 인트로 스페 시스템의 물리학 계속해 가자 이 프레젠테이션에서 내가 배우고 싶은 부분 중 하나는, 왜냐하면 우리는 우리가하는 일에 많은 근거를 두어야하기 때문입니다 이야기하고 싶습니다 나는 그 기술들을 맡기고 싶습니다

당신이 다시 돌아올 때 당신이 GCP를 바라 보도록 당신 마음 속에, 당신이하는 일 중 일부는 이러한 기술을 조사하는 것입니다 잘하고 싶은 사람들을위한 20 % 프로젝트의 일부 우리가 시도하고 만들기 때문에 더 많이 배우고 배우는 것입니다 가능한 한 쉽습니다 하지만 아는 것이 많을수록 좋습니다 그래서 내가 원하면, 나는이 일에 대해 더 많이 배우려고 노력하고 싶다

나는이 것들에 대해 더 많이 배웠다 나는 재정 상태였다 고전적인 퀀트 배경에서 왔습니다 나는 자연스럽게 이런 것들을 알지 못했다 Google에 가입했습니다

나는이 것들에 대해 배웠다 나는 직장에서 훨씬 나아졌고 훨씬 더 유용했다 오, 그래서 우리는 두 가지 일을 할 것입니다 우리는 이걸 만들려고합니다 전제 조건과 정상 상태를 섞을 것입니다

그리고 나는 우리가 따라갈 때 두 사람을 구별하고 구별 할 것입니다 우선 G Suite 관리자가 G를 만들고, fx-analysts@examplecom, 주식 애널리스트, 및 준수 그리고 그들은 Google 그룹스에서 그렇게합니다 그리고 그들은 공개 등록을하지 않도록합니다

그리고 그것은 매우 직설적이게 보입니다 실제로는 매우 간단하기 때문입니다 나는 그것을 구축했고 그것은 꽤 직설적이다 그 물건을하는 것 – 명백한 좋은 물건 중의 1 개 G Suite에 관한 정보 우리는 그 그룹을 볼 수 있습니다

우리에게는 세 그룹이 있습니다 내 파견 기간 중 일부는 G 스위트로 활동하고 있습니다 예를 들어 관리자 G Suite 관리 콘솔을 사용하여 생성 및 조작 가능 모니터 사용자 그리고 다시, 그렇게하는 것은 매우 쉽습니다

그리고 Bjergsen과 Froggen과 Impact를 만들었습니다 그리고 우리가하는 다음 일은 그것들을 우리 그룹에 맵핑하는 것입니다 그리고 제가 여기서 언급 할 것 하나 관리자가 필요하지 않다는 것입니다 그룹 구성원이 될 수 있습니다 나는 그 그룹의 관리자가된다

저를 그룹의 구성원으로 볼 수 있습니다 나는 그룹의 일원 일 필요가없는 다 왜냐하면 그것이 모든 그룹에 사실이라면, G Suite 관리자는 어떻게 든 모든 GCP 프로젝트의 수퍼 유저가 되십시오 그럴 필요는 없습니다 이제 GCP로 이동하여 시작합니다

GCP에 대한 우리의 전제 조건을 살펴보십시오 첫 번째는 폴더를 만드는 것입니다 그리고 우리 조직의 관리자 누가 당신이 우리의 관심사 분리에 관해 생각한다면, G 스위트와 같은 사람 일 필요는 없습니다 관리자– 아주 작은 회사 일 수 있지만, 당신은 꽤 빨리 이 두 사람이 심지어이 두 집단의 사람들 다를 것입니다 조직 관리자는 FX, 주식, 및 준수 폴더

여기에서 조직보기를 볼 수 있습니다 이 뷰에서 생성 할 수 있습니다 해당보기에서 작성한 모든 것을 볼 수도 있습니다 그리고 그것은 정말로 산뜻합니다 그러나 GCP에서 일할 수있는 유일한 방법은 아닙니다

일반적으로, 당신이 할 수있는 세 가지 방법이 항상 있습니다 당신은 콘솔을 통해 그것을 할 수 있습니다, 당신은 커맨드 라인에서 그것을 할 수 있습니다, 또는 REST API를 통해 수행 할 수 있습니다 그리고 그것은 우리에게 흥미로운 질문을 제기합니다 생성 또는 조작하는 가장 좋은 방법은 무엇입니까? 이런 일 콘솔에서해야할까요? 본질적으로 코딩 연습으로해야할까요? 나는 이것을 더 희게하는 지역으로 생각한다

나는 그들의 선호에 대해 사람들에게 이야기했다 그리고 나서 나는 내 자신의 선호도를 고려했다 이것에 관해 생각하는 학교는 하나도 없습니다 나는 그것을 코딩 연습으로 바꾸는 것을 선호한다 왜냐하면 내가 오기 때문에 – 부분적으로는 공학에서 왔기 때문이야

배경, 부분적으로는 재현 가능하기 때문에, 부분적으로는 소스 코드 컨트롤에 그것을 집어 넣을 수 있습니다, 부분적으로는 코드를 테스트 할 수있는 코드를 작성할 수 있기 때문입니다 나는 그런 식으로 선호한다 거기에 반론이 있습니다 조직을 만들고 모델링하는 것입니다 비교적 정적 인 과정입니다

너는 할 것이다 당신은 그것을 진화시킬 것입니다, 그러나 당신은 그것을 다소 천천히 진화시킬 것입니다 또한 감사 로깅과 상호 작용합니다 시스템에서 일어나는 모든 일 감사 로그에 있습니다 나는 그것을 코딩 연습으로 만드는 것을 선호한다

하지만 반대로, 나는 실제로 이 프리젠 테이션을 통해 콘솔을 사용하려고합니다 나는 그것이 더 예쁘다고 생각하기 때문에 흰색과 파란색이 더 멋지게 보입니다 검은 색과 흰색보다 폴더, 전제 조건 – 조직 관리자 우리 그룹을 우리 폴더에 매핑합니다

FX 편집인 FX 분석가, 주식 애널리스트 주식의 편집인 및 FX의 독자로서의 준수 주식 및 준수 편집자 그리고 나는 사실을 부르라고 강요 당한다 그 원시 역할은 반드시 모범 사례 그리고 당신은 같은 콘솔을 통해 그렇게 할 수 있습니다 그리고 그것은 당신이 원하는 경우 여러 엔터티를 선택할 수 있습니다

따라서 규정 준수를지도 할 때 FX 및 주식 폴더를 선택할 수 있습니다 두 가지 모두에 동일한 역할을 적용합니다 그래서 그것은 매우 직설적입니다 IAM보기도 볼 수 있습니다 조직보기에서 설정할 수 있습니다

IAM 페이지를 보면 어떤 일이 일어나고 있는지 확인할 수 있습니다 이제 그것이 전제 조건이었습니다 이것은 안정된 상태입니다 우리의 조직 ​​관리자가 생성합니다 우리의 프로젝트, 아시아 포트폴리오

아시아 포트폴리오는 해당 사용 권한 집합을 FX로부터 상속받습니다 이는 fx-analysts@examplecom이 GCP에서 자원을 생성, 사용, 삭제하고, compliance@examplecom은 해당 자원 만 볼 수 있습니다 그래서 우리 프로젝트 창조와 나는 행복하고 포용한다고 말했다

프로젝트의 확산은 정말로 간단 해집니다 그리고 조직보기를 볼 수 있습니다 두 프로젝트가 모두 실제로 만들어졌습니다 감사 로깅 – 전에 말한대로 감사 로깅 하이퍼 중요한 귀하의 조직 관리자 또는 실제로, 특수한 역할을 가진 누군가, 개인용 로그 뷰어 감사를 원하지 않기 때문에 역할을 로그가 널리 사용 가능합니다

당신은 그 중 하나의 종류가되기를 원합니다 전문 또는 필터링 된 경험이 풍부한 사람들 당신은 감사 로그를 보았습니다 거기에서 볼 수 있습니다 Stackdriver Logging UI – 거기에 사용할 수 있습니다

대부분의 시간을 보낼 곳 올바른 경고를 필터링하고 필터링하여 생성합니다 BigQuery 및 GCS로 모든 것을 내보내는 것입니다 그 모든 것들을 영원히 간직하십시오 또 하나의 주제 – 액세스 제어 목록 액세스 제어 목록, ACL, 괜찮아요 개별 버킷 및 객체에 대한 세분화 된 제어 GCS 또는 BigQuery의 표에있는 데이터 세트에서 그 이유는 무엇에 매우 유용합니다

너는 앞으로 나아갈 것이다 다음과 같은 상황이 생기다 아주 빨리 예를 들어 주식 그룹이 확장되고 있습니다 그들은 아시아 시장에 관심이 있습니다 분명히 그들이 환율에 관심이 있다는 것을 의미합니다

그들이 자국에서 아시아 시장으로 갈 때, 그들은 환율을 원합니다 그들에게 공정한 교환을 제공하는 것이 더 나은 분 FX 부서의 친구들보다 그러나 주식 뷰어와 같은 역할을 주식에 적용하면, 나는 그들이 모든 양동이를 볼 수있게하고있다 나는 그들을 FX에 편재 적으로주고있다 나는 그것을 원하지 않는다 ACL은 하나의 버킷을 지정할 수 있음을 의미합니다

또는 내가 매일 생각해내는 하나의 파일을 지정할 수 있습니다 이것은 사람들의 무기고를위한 또 다른 유용한 도구입니다 붐, 예제를 만들었 어 그리고 그것은 오래 걸리지 않았고 나는 희망을 품는다 우리가 가진 관리상의 오버 헤드가 우리 기업에서 발생하는 일종의 상대적으로 낮습니다

그럼에도 불구하고 우리는 그것을 현명한 방법으로 분해했습니다 그것은 안전합니다 관리가 쉽습니다 우리는 우리의 목표를 달성했다 하지만 계속해서 진행 되었기 때문에 우리는 끝나지 않았습니다

반드시 모범 사례는 아닐 것입니다 원시적 인 역할을 사용한다 그리고 이제 저는 그것에 대해 자신에게 일종의 부담을 안겨줍니다 원시적 인 역할은 광범위하게 도달하는 것입니다 그리고 저는 그것들을 유산이라고 부르지 않을 것입니다, 그러나 어떤면에서는 나는 그것들을 유산 개념으로 간주한다

유용 할 수 있지만 내 개인적인 취향 그들을 사용하지 않는 것입니다 항상 미리 정의 된 역할이나 사용자 지정 역할을 사용합니다 나는 당신에게 목소리를 줄 것입니다 두 가지 예를 드리겠습니다 원시적 인 역할에 대한 나의 불편 함 첫 번째는 내가 만들면 당신은 프로젝트의 편집자입니다

그런 다음 할당량을 요청할 수 있습니다 증가한다 그리고 조직의 관리자로서, 그것은 내가 원하는 것만은 아니다 나는 그것 앞에 설 수있을거야 감사 로깅에서 볼 것이므로 그걸 막을 수있을거야

그것을 위해 만들어진 경고가 있습니다 하지만 솔직히 말해서 더 좋을 것입니다 그냥 오지 않았다면 내가 너에게 줄 다른 예 – 나는 완전히 잊었다 너 나 한테 줄까? 그것은 좋은 본보기였습니다

관객 : 6시입니다 관객 : 6시입니다 CORRIE ELSTON : 6시예요? 6시입니다 그러나 이것은 모두 제가 한 모든 것입니다 나는 부스에 유인을했고 나는 이것을했다

오늘 내가 정말로 접목 된 것 같지 않아 아니 잠깐 후에 내가 다시 올게 그래서 기억할 때 그래서 원시적 인 역할은 광범위한 접근을 허용하지만, 그러나 나는 당신이 그들을 사용해야한다고 생각하지 않습니다 미리 정의 된 역할 및 사용자 지정 역할 본질적으로, 우리가 여기서 말하는 것은 최소한의 특권을 가진 원칙입니다 그리고 이러한 것들을 보는 가장 좋은 방법은 당신이 시작하고 싶은 것은 절대적으로 권한이 없습니다

그리고 너와 내가 모두에게 가장 안전한 것 해당 권한 만있는 경우 당신이 당신의 일을하도록 허락하십시오 네가 할 수 없기 때문에 너에게 좋다 기억해 내가 너를 프로젝트의 편집자로 만들면, 방화벽 규칙을 정의 할 수 있습니다

분석가로서, 나는 모르겠다 그것은 당신이 원하지 않을 수도있는 어떤 것입니다 다시 말하지만, 감사 로깅을 사용하여 앞에 서십시오 그러나 실제로, 실제로 오지 않았다면 더 좋을 것입니다 사전 정의 된 역할을 사용하면이를 수행 할 수 있습니다

사전 정의 된 역할은 우리가 아무것도 시작하지 않는다는 것을 의미합니다 우리는 역할에 착수합니다 BigQuery를 관리 할 수 ​​있다고 말할 수 있습니다 당신은 데이터 흐름 개발자가 될 수 있습니다 당신이 애널리스트로서하고 싶다는 걸 알고있는 사람들, 그 것들만

그리고 당신이 위대한 이유를 생각해 본다면 왜 방화벽 규칙을하고 싶은지, 우리는 그 시점에서 그 토론을 가질 수 있습니다 우리가 취하는 의식적인 결정입니다 사용자 지정 역할도 유용 할 수 있습니다 내 두 가지 관심사는 편집자 역할을 맡음으로써 할당량 관리자 제거 네트워크 및 방화벽 기능을 제거합니다 그리고 당신은 그렇게 할 수 있습니다

또한 더 합리적인 방식으로 이름을 지정할 수 있습니다 귀하의 조직에 대안 2– 상황이있을 것입니다 가능하면 더 큰 통제력을 원할 것입니다 over 암호화

이제 Google은 너는 이걸 들었어 훌륭한 암호화 잘 나머지는 모두 암호화하고 우리는 이를 통해 Google이 베스트 프랙티스라고 생각하는 것을 적용합니다 우리는 그것을 파쇄 할 것이다 샤드에 다른 열쇠를 꽂을거야

열쇠를 키 체인으로 구성 할 것입니다 우리는 자주 키를 돌릴 것입니다 암호화에 대해 말할 수있는 최선의 방법은 없습니다 관행은 우리만큼 좋은 것입니다 우리는 우리를 우리만큼 좋은 존재로 여기고 있습니다

우리가 할 수있는 한 잘 할 수 있습니다 그리고 나는 우리가 그것을하기 전에 건너기를 원합니다 유사 콘텐츠로 이동하십시오 일부 규제 요구 사항이있을 수 있습니다 당신이 키와 상호 작용의 다른 수준을 원한다는 것을 의미합니다

회사 철학의 일부 측면이있을 수 있습니다 그것은 당신을 그런 식으로 생각하게합니다 그리고 모든 힘이 당신에게 있습니다 클라우드 키 관리 서비스 – 우리가하고있는 일은 완전히 관리되는 키 관리 서비스입니다 애플리케이션에 통합 할 수있는 GCP에서 키의 계층 구조를 만들고 유지 관리 할 수 ​​있습니다

클라우드 IAM 및 감사 로깅과 상호 작용합니다 따라서 특정 사람 만이 할 수있는 권한을 가질 수 있습니다 열쇠를 만들면 사람들과 다를 수 있습니다 데이터를 암호화하고 해독 할 수 있습니다 그리고 여기서 일어나는 모든 일은 당신이 볼 수있는 감사 로깅으로 이동하십시오

또 다른 옵션은 고객이 제공 한 키입니다 이것은 열쇠가 당신의 손에 들어가기를 원하는 곳입니다 귀하의 컴퓨터에서 효과적으로 철학의 또는 규제 요구 때문에, 또는 기존 키 관리 인프라가 있으므로 계속 사용하고 싶습니다 이제 Google Compute Engine 및 Google Cloud에서 작동합니다 저장

그리고 완전히 투명하지는 않습니다 왜냐하면 어떤 것들이 있기 때문입니다 마찬가지로 Cloud Storage 버킷에 데이터를 업로드 할 수 없습니다 콘솔에서 자신의 키를 사용하십시오 그래서 좋다

완전히 완벽하지는 않지만 거기에 자신의 암호화 접근 방식을 사용할 수 있습니다 열쇠를 사용해야 할 때마다 열쇠를 요청합니다 우리는 그것을 일시적으로 사용합니다 우리는 결코 그 열쇠를 저장하지 않습니다 해당 키의 암호화 해시가 저장되어 있습니다

키를 재구성하는 데 사용할 수는 없습니다 그래서 본질적으로, 우리는 그 열쇠를 빌려 왔습니다 최소한의 시간 동안 당신에게서, 네가 우리 한테 한 일을해라 그러면 열쇠가 간다 그리고 우리는 그 발표에서 꽤 먼 길을 가졌습니다

그리고 내가 성취하기를 원하는 것은 당신을 내가 가지고있는 마음의 틀 속으로 이 일들을 생각할 때, 내가해야한다고 생각하는 기술을 소개합니다 멀리 배우고 더 많은 것을 배우고 더 많은 전문가가 되십시오 왜냐하면 그것은 당신을 엄청나게 도울 것이기 때문입니다 그 중 몇 가지는 최근 발표입니다 사용자 지정 역할이 나오고 폴더, 정말로 정말로 주요한 아이디어 인, 오늘 발표되었다

테이크 아웃 – 이러한 일련의 테이크 아웃은 모범 사례가됩니다 그것은 우리가 한 모든 것의 절정입니다 완전히 관리되는 사용자, 강력한 암호, 두 가지 요소 인증, 전체 중지, 만약 내가 마이크를 가지고, 그 때문에 당신이하고 싶은 것들입니다 그룹에 공개 등록하지 않아야합니다 그것은 단지 완벽하게 좋은 의미를가집니다

콘솔 또는 명령 줄 API를 사용할 수 있습니다 조직 및 IAM을 관리합니다 쓸 수 있기 때문에 명령 줄을 사용하는 것을 선호합니다 무슨 일이 일어나고 있는지에 대한 단위 테스트 그리고 사전 정의 된 역할 및 사용자 정의를 사용하여 역할, 단위 테스트 가능 그 일은 당신이 앞으로 나아갈 때 매우 유용합니다

조직을 사용하여 프로젝트 및 리소스를 중앙 집중화합니다 관리 폴더를 사용하여 조직을 모델링하고, 팀 또는 기능 영역별로 프로젝트를 그룹화합니다 중첩 된 폴더를 사용하여 조직 측면의 모델링 개발 대 생산 우리가 만지지 않은 것은 우려의 분리입니다

폴더는 또한 관심사의 분리를 모델링하는 데 도움이 될 수 있습니다 무엇보다 많은 것이 중요하지 않습니다 나는 데이터 분석을 해왔지만, 매우 중요하다 일반적으로 개발자가 다른 사람들과 만나길 원할 수 있습니다

전적으로 사실 규제가 당신을 절대적으로 의미 할 수도 있습니다 완전히 다른 사람들이 찾고 있어야한다 개발 및 생산시 프로젝트의 확산에 만족하십시오

그것은 당신에게 좋은 일입니다 감사 로그 – 감사 로그 내보내기 BigQuery 및 Google Cloud Storage에 추가 그들을 무기한으로 지키십시오 감사 로그를 모니터하십시오 적절한 경우 경고를 작성하고이를 피드백으로 사용하십시오 폴더 또는 역할 리팩터링 기본 역할, 사전 정의 된 역할, 또는 사용자 지정 역할을 사용하여 효과적으로 액세스를 제어 할 수 있습니다

미리 정의 된 역할 또는 사용자 지정 역할을 사용해야합니다 클라우드 키 관리, 클라우드로 암호화를 개선 할 수 있습니다 특정 포인트 사용 사례에 대한 KMS 또는 클라이언트 제공 키 너를 가만 두지 마라 당신이 요구하는 곳으로 가도록 어딘가에 만들어라 오늘부터 존경스런 언급은 ID 인식 프록시로 이동합니다

그것이 데이터 손실 방지를 위해 출시 되었기 때문에 정말 유용 할거야 그리고 나는 그것을 포함하지 않았다 왜냐하면 나는 우리가 말하는 것에 완전히 핵심이라고 생각하지 않았습니다 데이터 준비는 정말 멋지다 밖에있는 애널리스트에게 내 직업은 분석가로서 일하는 것입니다

슈퍼 중요한 실제로 관리 나 보안이 아닙니다 하지만 시원한만큼 멋지다 그리고 그걸로 즐거움과 특권이었습니다 시간 내 주셔서 대단히 감사합니다

[음악 재생]

Monitoring and improving your big data applications (Google Cloud Next ’17)

[음악 재생] ANDREA FOEGLER : 안녕하세요 모니터링 및 개선에 오신 것을 환영합니다

귀하의 빅 데이터 파이프 라인 내 이름은 Andrea Foegler입니다 저는 Cloud Dataflow 팀의 개발자입니다 그리고 오늘 우리는 정말로 깊은 다이빙을 할 것입니다 도구 및 리소스를 모니터하고 조사하고 개선 할 수 있습니다

Google Cloud에서 실행중인 대규모 데이터 파이프 라인 우리는 Cloud Dataflow 파이프 라인에 주로 초점을 맞출 것이며, 그러나 그 이야기의 후반부는 Stackdriver를 볼 것입니다 그리고 많은 도구와 리소스 모든 Google 플랫폼에서 사용할 수 있음을 알 수 있습니다 서비스 그래서 많은 정보가 어떤 서비스에 관계없이 전반적으로 관련이있다 너는 함께 일하고있다

그래서 우리의 의제에 대한 간단한 개요 Cloud Dataflow 란 무엇부터 시작해야할까요? 파이프 라인 모니터링이란 무엇입니까? 그들이 뭐하고 있니? 우리가 지켜봐야 할 서비스는 무엇입니까? 그리고 실제로 건물을 보겠습니다 Cloud Dataflow 파이프 라인 그렇다면 모니터링 이야기와 관련이있는 이유는 무엇입니까? 우리가 모니터링에 대해 생각할 때, 우리가 생각할 때 그 종류가 서비스가있을 때의 마지막 작동 단계 또는 우리가 실행중인 파이프 라인

그래서 우리는 모든 것을 준비했습니다 우리는 그것을 밀어 낼 것입니다 그리고 우리는 우리의 봉사가 건강하다는 것을 확인해야합니다 모든 것이 예상대로 수행됩니다 그리고 그렇지 않다면 누군가가 그것이 잘못되었다는 것을 경고하거나 통보했습니다

그래서 우리는 확실히 그 부분을 보게 될 것입니다 이는 모니터링의 중요한 부분입니다 그러나 많은 도구와 리소스 우리는 정말로 볼 것입니다 그보다 개발 프로세스가 훨씬 빨라졌습니다 그래서 우리는 그 과정이 어떻게 생겼는지를 이야기 할 것입니다

그래서 우리가 그러한 도구와 자원에 도달하면, 우리가 실제로 사용할 때 어떻게 사용하는지 볼 수 있습니다 개발 프로세스의 중간 단계입니다 그런 다음 데이터 흐름 UI 자체에 대해 살펴 보겠습니다 거기에 많은 훌륭한 정보가 있습니다 그리고 그것은 모두 매우 파이프 라인 중심으로 제시됩니다

그래서 내가하는 말은 데이터 흐름을 Dataflow SDK 그리고 우리는이를 일종의 그래프로 번역합니다 그런 다음 데이터 흐름 UI에서 볼 수 있습니다 그래서 네가 거기를 항해 할 때 측정 항목을보고 데이터를보고, 당신은 정말로 그 시각화를 통해 그것을하고 있습니다 클릭하면 내림차순으로 이동합니다 계층 적보기로 한 번에 한 걸음 씩보고 있습니다

당신이 그 파이프 라인을 저술 했잖아요 그리고 나서 우리가 스택 드라이버로 이동할 때 Stackdriver 통합에서 매우 다른 견해를 보게 될 것입니다 그리고 그것은 매우 타임 라인 중심으로 갈 것입니다 대신 파이프 라인 중심 그래서 당신이 발견하게 될 것은 행동을 보는 것입니다

그 시점에서 무슨 일이 일어나고 있는지 분석해보십시오 니가 볼 때 보는 것과는 아주 다른 모습이 될거야 파이프 라인보기에서 찾고 탐색은 대신 검색을 통해 일어날 것입니다 그래픽 인터페이스를 클릭하는 것

이 두 가지 사이에는 매우 강력한 도구 집합이 있습니다 개발의 단계에 따라 너는 들여다보고있는 너는 어떤 종류의 문제 야 또는 당신이 찾고있는 데이터의 종류 그래서 구체적으로 우리는 Stackdriver 통합에 대해 이야기하고 있습니다 그래서 Dataflow는 Stackdriver Logging과 통합됩니다

Stackdriver Logging에서 얻는 가장 중요한 것 당신이 당신의 파이프 라인을 썼을 때 그것을 코딩하는 것입니다, 당신은 디버그 메시지와 그 외의 것들을 작성하기 시작합니다 로컬 컴퓨터에서이 작업을 수행 할 때 그러나 또한 언제 유용할까요? 기대하지 않는 일이 서비스에서 일어나기 시작합니다 그래서 당신은 그것에 관한 라인을 기록합니다 그리고 이것은 당신이 그들을 찾으러가는 곳입니다 글쎄, 네가 거기 들어가서 찾아야한다면 매번 검색 할 때 유용합니다

제 말은 당신의 데이터입니다 갈 수있어 그러나 당신이 그렇게함으로써 얻는 위대한 것들 중 하나 로그 데이터를 기반으로 측정 항목을 만드는 기능입니다 너는 나가고있다 따라서 로그 라인을 작성하고 관심있는 특정 물건 검색 로그에서 일어나고있는 실제로 측정 항목을 만들 수 있습니다

그것을 추적 할 수있게 해주 며, 시간이지나면서 어떻게 행동하는지 차트로 보여줍니다 이는 귀하의 서비스를 모니터하는 정말 강력한 방법입니다 우리가 볼 다음 일은 이 이야기의 하이라이트 중 하나입니다 그리고 이것은 데이터 흐름 측정 항목의 새로운 베타 통합입니다 스택 드라이버 모니터링

따라서 모니터링 데이터, 특정 메트릭 우리는 수출하고 있습니다 정확히 같은 것입니다 데이터 흐름 UI를 참조하십시오 그러나 데이터 흐름 UI에서 스냅 샷을 얻습니다 지금 무슨 일이 일어나고 있는지 보게됩니다

그리고 Stackdriver로 내보내기함으로써, 우리는 전체적인 역사적 견해를 보게됩니다 그리고 Stackdriver UI가 하나의 파이프 라인, 하나의 인스턴스, 실제로 일자리를 비교할 수 있습니다 서로 다른 단계의 파이프 라인을 비교할 수 있습니다 서로 다른 측정 항목을 서로 비교할 수 있습니다 동일한 측정 항목에 대해 다른 시각을 가지고 있습니다

당신의 파이프 라인을 조사 할 때 많은 힘을 제공합니다 그리고 우리가 볼 마지막 것 귀하가 볼 수있는 GCE 측정 항목입니다 실제로는 인스턴스에 대한 직장에서 일하는 것 그래서 몇 가지 통계가 있습니다 모든 GCE 인스턴스에서 사용할 수 있습니다

그리고 Stackdriver Premium 고객이 된 경우, 에이전트 기반 메트릭이 있습니다 그게 뭔지에 대한 정말 풍부한 그림을 제공합니다 각 인스턴스에서 진행됩니다 그리고 Dataflow는 모든 인스턴스에 대한 데이터 흐름을 내 보냅니다 귀하의 파이프 라인을 운영하고 있습니다

그리고 우리는 그것들을 또한 살펴볼 것입니다 그렇다면 데이터 흐름 파이프 라인이란 무엇입니까? 데이터 흐름 서비스는합니까? 따라서 Dataflow 파이프 라인은 기본적으로 – SDK를 사용하여 생성 한 그래프입니다 이 작업을 수행 한 후,이 작업을 수행하면, 그 다음에는이 작업을 수행하십시오 그리고 그래프를 만듭니다 그 그래프를 가져 가면, 당신은 클라우드 데이터 흐름 서비스,이 그래프 실행 나를 위해

그런 다음 Dataflow 서비스는 실행 계획을 구성합니다 그래프를 실행합니다 그런 다음 실행하기에 수분이 많은 인스턴스를 가져옵니다 그리고 Dataflow 서비스를 처리합니다 당신의 직업이 유익하다는 것을 알 수 있습니다

더 많은 병렬 처리에서 그러면 실제로 더 많은 인스턴스를 가져올 수 있습니다 조금 더 일을 끝내라 모든 것이 끝나면, 당신이 그 일을 취소하면, 또는 작업이 끝나거나 어떤 이유로 직업이 실패하면, 모든 사람들을 닫고 모든 것을 정리할 것입니다 당신을 위해서

따라서 Google Cloud에 적합합니다 여기에서 볼 수있는 것과 같습니다 클라우드 데이터 흐름을 실제로 볼 수 있습니다 몇 가지 다른 장소에서 따라서 클라우드에 서비스를 데이터를 클라우드로 가져옵니다

Pub / Sub는 아마도 가장 일반적인 것들 중 하나 일 것입니다 데이터 흐름과 통합됩니다 Dataflow가 데이터의 계층을 처리하게됩니다 일단 당신이 그것을 구름 속으로 가져 가면 따라서 파일을 스토리지에 업로드하든, 또는 데이터를 가져온 다음 데이터 흐름으로 가져옵니다

Dataflow는 처리를 수행 한 다음이를 처리합니다 일반적으로, 다른 클라우드 제품으로, 어쩌면 BigQuery 테이블처럼 하지만 다른 Pub / Sub 주제로 갈 수도 있습니다 여기에서 더 많은 처리를 할 것입니다 여기에서 볼 수있는 한 가지는 이것이 드문 설치

그리고 그 페이지에는 엄청난 양의 작은 아이콘이 있습니다 그래서 당신이 모니터링에 대해 생각할 때, 많은 서비스가 상호 작용할 수 있습니다 그리고 그들은 모두 자신의 할당량을 가지고 있습니다 그들은 모두 잠재적 집권과시기 및 문제점을 가지고 있습니다 그리고 이러한 것들을 모니터링하는 것에 대해 생각할 때 그건 좀 힘든 일입니다

그리고 Stackdriver에 대해 이야기 할 때, 재미있는 것들 중 하나 – 내 생각 엔 네가 쓸모가있어 생각하는 통일 된 통계 모델 이 모든 서비스를 동시에 모니터링하는 방법에 대해 설명합니다 그리고 그것은 그것이 내리는 것처럼 느껴집니다 당신이 할 수있을 때 이것의 복잡성 이러한 모든 측정 항목에 대해 생각하고 모두 같은 곳에서 동일한 서비스를 사용하여 분석합니다 그들에게 알리십시오 그래서 우리는 Dataflow 파이프 라인을 보았습니다

및 10,000 foot 뷰에서 Dataflow 서비스 Apache Beam에 대해 들었을 것입니다 모델, 데이터 흐름의 내보내기, 오픈 소스로 만드는이 실행 모델 데이터 흐름에서 사용되었습니다 그리고 그것이 바로 프로그래밍입니다 목표는 매우 복잡한 작업을 만드는 것입니다

매우 쉽고, 당신이 가지지 못하게 만들 수 있습니다 당신이해서는 안되는 부품에 대해 걱정할 필요가있다 걱정해야 해 핵심 논리에 대해서만 걱정하면됩니다 당신이 실행하려고하는 것

우리가 GCE 인스턴스를 말했던 것처럼, 그것은 그것들을 모두 가져옵니다 이 모든 실행 물건, 당신은하지 않습니다 데이터 흐름을 작성할 때 그것에 대해 생각하고 싶습니다 파이프 라인 따라서 Dataflow에서는 이것이 사실입니다

전체 Apache Beam Model 종류 그 실행을 추상화하는 핸들 그것은 병렬화를 추상화합니다 그래서 당신이하고 싶은 많은 작업들 병렬화해야 할 필요가 없습니다 병렬화시기, 분할시기에 대한 책임을 원합니다 그 모든 것이 모델에 내장되어 있습니다

그리고 마지막으로 모든 것은 당신의 독서와 글쓰기입니다 가장 복잡한 것들 중 하나 이 큰 파이프 라인에서 할 수있는 것은 RPC뿐입니다 서로 다른 것들에 연결하고, 데이터를 끌어 들이고, 그것이 들어 오는지 확인하고, 데이터를 잃지 않도록하십시오 데이터를 중복하지 않도록하십시오 그리고 그 모든 것들은 모델에 숨겨져 있고 숨겨져 있습니다

그래서 당신은 실제 논리에 집중할 수 있습니다 네가하려는 일이야 이것들은 일반적인 유형의 연산들 중 일부에 지나지 않습니다 Dataflow 파이프 라인에서 일어나는 일을 볼 수 있습니다 그래서 이벤트 처리

시간보다는 이벤트 시간별 이벤트 처리 그들이 서비스에 들어가는 것은 정말 까다로운 문제입니다 모두가하고 싶어하는 것 따라서 데이터를 업로드하는 모든 곳의 고객이 있습니다 귀하의 서비스에 그들 중 일부는 가끔 오프라인으로 갈 것입니다

그들 중 일부는 정말로 느린 네트워크에 있습니다 그래서 그들은 온 장소에 항상 도착하고 있습니다 그리고 당신은 당신의 서비스가 그 사건을 처리하기를 원합니다 시간이 아니라 창조 된 시간에 그들은 당신의 서비스에 들어갔다 그래서 Beam Model 종류의 초록은 이 이벤트 시간의 개념으로 이벤트 시간에 따라 처리 할 수 ​​있습니다

데이터가 실제로 언제인지 걱정할 필요가 없습니다 서비스에 들어가기 네가 볼 수있는 또 다른 일이있다 많은 데이터가 들어오고 손상됩니다 그리고 당신은 심지어 그것으로 무엇을해야 할지도 모릅니다

왜냐하면 누가 그것이 전선을 가로 질러 갈 때 당신의 데이터에 무슨 일이 일어나는 지 알고 있습니다 그래서 당신은 말할 수있는 능력을 원합니다, 이봐, 이건 나쁜 것입니다 나는 그것을 그냥 걸러 내고 싶다 다른 파이프 라인을 내려 놓고 누군가가 걱정하게한다 나중에 그 일에 대해

이 당황스럽게 병렬 처리 너가 원하는이 개념의 종류 야 데이터에 대한 집계 통계를 얻을 수 있습니다 그리고 때로는 지리학 적으로 그것을 원할 것입니다 때로는 사용자 또는 세션별로이를 원할 수도 있습니다 그런 종류의 집계 된 데이터를 원할 때, 갑자기 네가 모든이 이슈를 가지고있다

메모리에로드해야합니다 동시에 모든 것을 준비해야합니다 따라서 모든 것을 정렬하고 구성해야합니다 그렇게하지 않고도 그렇게 할 수 있습니다 그것에 대해 걱정하고, 모든 병렬 처리 정렬 및 집계 처리를 처리하는 방법 모두 모델에서 추상화됩니다

그리고 내가 언급했듯이, I / O 커넥터 그게 언제나 – 항상 도전적인 것 중 하나 RPC, 연결, 독서 및 작문, 그 물건들이 다 흐르는 지 확인하십시오 당신은 그것에 대해 걱정할 필요가 없습니다 그래서 Dataflow SDK – 이 모델의 구현이 있습니다 그래서 모든 커넥터가 내장되어 있습니다

이 모든 일을합니다 또한 데이터 흐름 서비스에서 실행되도록 설계되었습니다 그래서 실제로는 주자가 있습니다 로컬에서 실행할 수 있습니다 따라서 실제로 데이터 흐름을 실행할 수 있습니다

당신의 상자에 앉아서 상자에서 뛰고, 로컬 컴퓨터, 로컬 파일 액세스 체계 그리고 나서, 이봐, 이제 이걸 시작할 준비가되었다고 말할 수있다 데이터 흐름 서비스에서 실행하십시오 따라서 이것이 데이터 흐름 서비스가 제공하는 것입니다 괜찮아

그래서 파이프 라인을 개발하는 과정 그래서 세 가지 단계가 있습니다 당신이 개발할 때 당신은 끝까지 간다 꼭 1 단계에서 넘어갈 필요는 없습니다 단계 3에서 단계 3까지 완료하면 완료됩니다

하지만 항상 일종의 이 세 단계 중 하나에서 그리고 가장 생산적인 것은 로컬, 로컬 데스크톱 따라서 로컬 데스크톱에서 코딩하고 있습니다 자바로 글쓰기를하고 있다면 IntelliJ, Eclipse 또는 기타 환경 당신은 보통 프로그램을합니다 그리고 SDK 라이브러리를 가져옵니다 그리고 프로그래밍을 할 수 있습니다 그리고 너는 국부적으로 달린다

테스트 데이터 소스를 가져오고 있습니다 로컬 파일 시스템을 끄십시오 디버거를 사용하여 진행 상황을 확인합니다 그래서 이것은 정말로 빠른 반복 시간입니다 최고의 가시성을 확보 할 수있는 곳입니다

우리가 제공하는 도구가 전부는 아니지만, 이 작업을 수행하기 위해 바탕 화면에 많은 도구가 있기 때문입니다 그 다음에는 파이프 라인이 있습니다 당신이 일반적으로 원하는 것을하고 있습니다 그런 다음 원격 반복으로 이동합니다 그래서 당신은 이것을 구름쪽으로 밀어 낼 것입니다

너는 그걸 밖으로 나가게 될거야 데이터 흐름 UI에서 자신의 직업을보기 시작할 것입니다 당신은 정말로 다른 두 가지 것에 집중할 것입니다 하나, 이제 실제로 연결하고 있습니다 이 모든 다른 서비스와 출처에 그 연결이 작동합니까? 당신은 아마 훨씬 더 많은 데이터를 가지고있을 것입니다

더 많은 데이터로 실행하면 답변도 정확합니까? 여전히 정확한 출력을 얻고 있습니까? 마지막으로, 원하는대로 확장 할 수 있습니까? 그래서 이것은 정말로 당신이 시작하는 곳입니다 확장 성을 탐색 할 수 있습니다 더 많은 데이터가 들어 오면 예상대로 확장 되었습니까? 당신이 더 많은 노동자들과 달리기를한다면, 예상대로 확장 되었습니까? 그래서 당신은 많은 것을 놀아 나갈 것입니다 그리고이 모든 도구가있는 시간입니다 네가 할 수 있기 때문에 들어올거야

깔끔한 비교를 많이하십시오 이 많은 노동자들과 도망친다면, 무슨 일이 일어 났을까요? 내가 이걸로 달렸을 때, 무슨 일이 일어 났습니까? 그래서 우리는 여러분이 할 일을 많이 보게 될 것입니다 여기서 문제점을 발견하면 결국 지역 개발로 돌아가서 들어가기 전에 문제를 보여주는 테스트 사례가 있습니다 표면에서 실제로 디버깅하기가 어렵 기 때문에 우리는 당신에게 많은 데이터를 제공하려고 노력합니다

그러나 아직도 진행되고있는 일의 세부 사항을 얻는 것은 여전히 ​​어렵습니다 그리고 마지막으로 그 표준이 있습니다 모든 사람들이 모니터링이라고 생각하는 것, 운영 안정성이 필요합니다 알림을 설정하려는 곳입니다 이것은 당신이 확실하게하고 싶은 곳입니다

당신이 필요로하는 모든 것을 한 방법으로 네가 좋아하는 것, 문제가 있다면, 당신은 문제가 있다는 것을 확신합니다 그리고 2 분마다 모두를 호출하지 않기를 바랍니다 데이터의 차이를 알 수 없기 때문에 변화하거나, 어딘가에 네트워크에 문제가있는 경우, 당신의 서비스 종류가 엉망이 될 수도 있습니다 적절한 통계 집합이 필요합니다 당신이 필요로하는 것을 다룰 수 있고 모든 것이 잡히도록 할 수 있습니다

하지만 너에게 그렇게 많은 것들을시키지 않을거야 무슨 일이 벌어지고 있는지 말할 수 없다 괜찮아 데모로 전환 할 수 있습니까? 이것이 데이터 흐름 UI의 시작입니다 이것은 당신이 먼저 들어올 곳의 일종입니다

왼쪽에 보이는 것은 무엇입니까? 다음은 작업의 모든 작업 이름입니다 그래서 나는 이것을 정리하거나 생각하기 시작했다 무언가로 옮기는 것 그리고 저는 그래도 실제로는 유용합니다 이것은 마치 보이는 것과 같습니다

이것은 마치 당신이 끝내는 모습입니다 그래서 당신은 왼쪽에서 볼 수 있습니다 소수의 이름이있다 통해 반복되고 있습니다 그리고 그것들은 다른 파이프 라인입니다

나는 함께 일하고있다 오른쪽에서 보면, 거기에는 완전히 고유 한 식별자가 있습니다 그래서 당신이 무언가를 실행할 때마다, 저것은 변화해야한다 그것이 귀하의 고유 한 식별자입니다 데이터 흐름 UI를 사용하면 이 고유 식별자로 실제로 작업합니다

Stackdriver에있을 때, 당신은 실제로 거의 완전히 이름으로 일하고 있습니다 그리고 그것은 당신이 시도하고 모니터하려고한다면 우리의 차트, 그것은 당신을 잘하지 않습니다 3 주 전에 발생한 고유 식별자를 사용합니다 당신이하고있는 프로세스를 사용하고 싶습니다 매일 정오에 프로세스 로그라고 부르는 매일 실행됩니다

당신은 화요일의 반복이 아니라 그것을 원한다 이제 당신은 새로운 차트를 가져와야합니다 또는 수요일 반복을위한 무언가 당신이 당신의 파이프 라인에 이름을 붙이면 왼쪽에서 볼 수 있습니다 이것은 당신에게 당신의 파이프 라인을 지명해야한다는 것을 당신에게 팔아 넘기는 것입니다

나는 일찍부터하지 않았다 그리고 그때 서비스는 단지 당신을 위해 하나를 지칭합니다 따라서 이러한 고유 한 식별자로 끝납니다 여기 바닥에서 보는 것처럼 그들은 기본적으로 두 번째 고유 ID입니다

그래서 당신이 그들을 사용할 수 있지만 당신이 이름을 제공한다면, 당신은 데이터에서 훨씬 더 일관성을 갖습니다 Stackdriver에서 살펴 보겠습니다 너무 빨리, 여기서 방금 얻은 것, 모든 실행중인 작업은 항상 맨 위에 뜬다 달리기에 관심이있는 무엇이라도, 당신은 너무 깊게 갈 필요없이 거기에서 그것을 볼 수 있습니다 그리고 일이 실패했을 때, 그들은이 큰 빨간 느낌표에 나타나기 쉽습니다

따라서 그것들을 쉽게 찾을 수 있습니다 그래서 내가 말했듯이, Dataflow UI는 이 파이프 라인 중심보기를 제공 할 것입니다 그리고 이것이 무엇인지, 이것은 정말로 파이프 라인을 시각적으로 번역 해줍니다 그래서 처음이 페이지로 이동하면 볼 수 있습니다 파이프 라인에서 변환의 최상위 집합입니다

꺼내진다 그럼에도 불구하고 여전히 상당히 크지 만 관리하기 어려운 것은 아닙니다 그렇다면 가장 높은 수준의 변환은 무엇을 의미합니까? 그래서 각각의 박스들, 제가 변형을 말할 때, 이것은 정말로 단순한 조작입니다 그리고이 상자들 각각은 하나의 조작입니다 당신이 쓰고있을 때 당신이 꽂았 던 SDK의 파이프 라인 따라서 기본적으로 파이프 라인 객체를 만드는 것처럼 보입니다

그리고 당신은 변환을 적용한다고 말합니다 무슨 일이 일어나는 건 당신이 그래프에서 새 상자를 얻으십시오 그리고 연결, 두 박스 사이의 라인, 한 번의 작업에서 전달되는 데이터입니다 다음으로 그리고 이름을 제공하면 조금 더 의미가 있습니다

제공하지 않으면 대개 클래스 이름입니다 네가 준 것 그래서 이러한 변형은 여러 가지 일을 할 수 있습니다 따라서 그래프 상단에있는 것들은 보통 읽습니다 일반적으로 일부 소스에서 데이터를 읽습니다

그래프 하단의 것들 일반적으로 쓰기, 데이터 쓰기 이러한 변환에는 데이터를 병합하는 방법이 있습니다 따라서 많은 다른 장소에서 데이터를 가져 오는 경우, 이 모든 것을 하나의 큰 컬렉션으로 병합 할 수 있습니다 데이터를 파티셔닝하기위한 변형이 있습니다 필요한 다른 지역의 데이터가있는 경우 다른 곳으로 가야합니다

병렬 정렬을 수행하기위한 변환이 있습니다 우리가 이전에 이야기했던 것처럼 집계를하는 ​​것 그리고 이것들의 대부분은 – 방금 언급 한 모든 것들은 SDK에 내장되어 있습니다 그리고 당신은 그들을 똑바로 위로 적용합니다 그리고 당신은 그것들을 조금 매개 변수화합니다

그래서 당신은 말할 수 있습니다, 나는 당신이 몇 가지를 걸러 내길 원합니다 그들이이 조건을 충족하면 그래서 당신은 단지 조건을 통과합니다 그래서 당신은이 모든 변환이 작동하도록했습니다 그것들은 미리 만들어지고 단지 준비가되어있다

당신이 조금 매개 변수화하기 위해서 이들이 작동하지 않는 곳에서는 ParDo라는 변형이 있습니다 병행 기능 그 변환이 거기에 있습니다 그리고 그걸 완전히 덮어 씁시다

각 요소에서 발생할 함수입니다 귀하의 컬렉션에 그래서 당신이 뭔가를하고 싶다면, 당신을 상상해보십시오 여기에 사용자 방문이 들어 오면 그 URL을 파싱해야합니다 당신은 한 명의 사용자를 데려 갈 작은 것을 쓸 것입니다

거기에 로그 항목을 방문하십시오 그것은 URL을 구문 분석합니다 URL을 출력합니다 궁극적으로 나온 URL 집합 다음 변환의 입력 컬렉션이됩니다 그래서 그것이 우리가 말하는 것입니다

나는 그것들을 기능적 변형이라고 부를 것이다 그들은 실제로 작업을 수행하는 사람입니다 그럼 다른 종류의이 수업이 있어요 복합 변환을 호출 할 것입니다 그리고 그들은 순전히 조직적인 목적을 위해 존재합니다

그들은 당신의 조직적 온전함과 같습니다 그리고 재사용 성과 유지 보수성을 위해서 그래서 그들을 사용하면 파이프 라인이하는 일이 전혀 바뀌지 않습니다 귀하의 파이프 라인은 여전히 ​​똑같은 일을합니다 하지만 이걸보고있을 때, 나는 말로 생각하지 않으면 어떻게 될지 보여라

이러한 복합 변환 중 그래서 여러분은 합성 변형이 무엇인지 알 수 있습니다 그들은 그 작은 v를 가지고 있기 때문에 그것은 확장 화살과 같습니다 그래서 네가 어떤 것도 갖지 않으면이게 보이 겠지 이것들은별로 없다

하지만 여기서 내려 가면이 파이프 라인 이 물건들 중 아무 것도 펼쳐지지 않은 것처럼 보일 것입니다 그래서 당신은 볼 수 있습니다 – 이건 내가 생각하지 않는 것 중 하나이다 얼마나 더 힘들어 지는지 추론 할 수 있습니다 논리 단위가 없습니다 발생하는 모든 단일 작업 거기 앉아있는 것 같아

그리고 당신이 그것을 볼 수 있기를 원한다면 가서 내 데이터를 읽는 곳의 문제 야 또는 내가 집계에서 열쇠로 그룹을하고있는 곳, 또는 내가 쓰고있을 때 문제가 되는가? 그리고 당신은 모든 것을 통과해야만합니다 이 상자들 그리고이 중 일부는 수천 개의 상자가됩니다 넌 정말 힘들거야

그래서 당신이 그들을 조직하기 시작할 때, 그 계층 구조는 훨씬 쉽게 만들 수 있습니다 걷고 데이터를 살펴보십시오 그래서 우리는 이것을 다시로드 할 것입니다 백업을 모두 닫으십시오 따라서이 중 하나를 볼 때 클릭 할 수 있습니다

그리고 너는 여기에 계단이라는 단어를 얻는다 변환의 동의어로 간주되어야합니다

그래서 당신이 합성 변형을한다면, 당신은 입력 컬렉션 데이터 만 볼 것입니다 여기 입력 컬렉션의 이름이 있습니다 또는 미안, 출력 읽기에는 입력 컬렉션이 없습니다 출력 컬렉션입니다

이것은 내가 좋아하는 새로운 기능과 같습니다 이름 위에 마우스를 가져 가면 그 그래프에서 파란색으로 변하는 것을 보시겠습니까? 따라서 모든 변환에 하나의 출력이있는 경우, 이 모든 것이 흥미롭지는 않습니다 그러나 일부 변환에는 20, 30 개의 출력이 있습니다 그리고이 데이터를 보려고 할 때, 어느 것이고 무엇이 어떤 것인지 이해한다 다운 스트림 변환은, 이것은 슈퍼 도움이 될 수 있습니다

그리고 이것은 단지 2 주 전에 나타났습니다 그래서 나는 그것을 좋아한다 요소가 추가되었으므로 계산됩니다 이 파이프 라인에있는 모든 컬렉션의 경우, 거기에 얼마나 많은 요소가 있는지 세고 있습니다 예상 크기가 표시되면 예상 크기 다른 많은 물체에서 정말 느린 동작입니다

우리는 그것을 당신의 파이프 라인에 밀어 넣고 싶지 않습니다 그래서 우리는 샘플을 얻습니다 샘플링의 평균을 취합니다 그리고 나서 요소의 수를 곱합니다 따라서 요소가 거의 같은 크기라면, 그건 정말 정확한 견적입니다

물건이 사방에 있으면 마일리지가 다를 수 있습니다 여기에 표시되는 실행 시간 는 모든 변환의 롤업입니다 그 합성물에 있습니다 그래서 나는이 것이 다른 것을 가지고 있다고 생각하지 않는다 그러나 이것처럼

이 최상위 레벨 변환을위한 데이터를 볼 때, 당신은 기본적으로 모든 변환의 합계를보고 있습니다 그래서 이것은 이러한 복합 변환이있는 곳입니다 당신은 당신의 그래프와 종류를 볼 수 있습니다 논리 단위를보고, 훨씬 더 빠르고 추론하기 쉽습니다 이건 파르도예요 그래서 이것은 누군가가 추가 한 기능입니다

누군가가 다음과 같은 기능을 썼다 입력 컬렉션의 각 요소에서 작동합니다 그래서 여기서 많은 정보를 얻을 수 있습니다 클래스 이름이 정확히 무엇인지 확인합니다 그 일을하고있어

따라서 코드로 쉽게 돌아갈 수 있습니다 그리고 보자 그럼 당신 입력 이것은 실제로 입력 컬렉션을 가지고 있습니다 따라서 입력 데이터도 볼 수 있습니다

실제 그룹에 나가자 그래서 나는 이것을 끌어 당기고있다 당신은 UI의 결함을 보게 될 것입니다 전혀 드물지 않습니다 이것은 그 중 몇 가지를 보여줍니다

대부분은 쉽게 해결할 수 있습니다 그들은 우리에게 일종의 어려운 일입니다 실행 계획을 실행하는이 모든 과정은 귀하의 직업이 그래프처럼 실제로 실행되지 않는다는 것을 의미합니다 당신이 화면에서보고있는 것 따라서 이러한 측정 항목을 많이 매핑하려고 할 때 그들이 파이프 라인처럼 보이도록 뒤로 당신이 실제로 제출 한 것들, 어떤 것들 조금 힘들어지다, 평평한 것 같이, 예를 들어 실제로는 프로세스의 어느 곳에서나 끝납니다

그래서 그들은 항상 비어 있습니다 그들은 그 (것)들에있는 어떤 정보도 결코 없다, 왜냐하면 그들은 실제로 평평하게 달리지 않기 때문입니다 아무 의미도 없다 데이터는 모두 설명됩니다 시간은 모두 설명됩니다

우린 평평한 사람 한테 달린 게 아무것도 없어 그래서 우리는 어떤 데이터와도 연관시키지 않습니다 GroupByKey를 클릭하면 몇 가지 추가 정보 얻기 거기에 이상 가장 중요한 것은 읽은 바이트 수를 얻는 것입니다 및 기록 된 바이트

대부분의 GroupByKeys는 실제로 데이터가 디스크에 저장 될 때까지 디스크에 데이터 저장 특정 키에 대한 모든 데이터 가져 오기 및 준비 그것을 처리하기 위해, 이것은 종종 가장 큰 성능 중 하나입니다 파이프 라인에서 발견 할 수있는 문제 바이트 수를 정확히 알면 – 네가 파이프 라인을보고 있는거라면 보통 6 시간이 걸리며, 얼마나 많은 것을보고 싶습니까? 바이트 그것은 지금까지 작성되었습니다 따라서 작업이 실행되는 동안 업데이트 중입니다 그래서 당신은 말할 수 있습니다, 글쎄, 나는 그것이 일반적으로 54 기가를 선택 알아요 그리고 지금은 22 개 밖에 없지만 이미 22 개가 있습니다

정상적인 길이의 시간을 뛰고 있었고, 그래서 당신은 적어도 보류가 일어나는 곳을 알고 있습니다 여기에 특별한 GroupByKey 일뿐입니다 그것이 종종 매우 자주 퍼포먼스이기 때문입니다 당신이 찾고있는 이슈 나는 그게 대부분의 단계라고 생각합니다

다시 가서 직업 수준 데이터를 살펴 보겠습니다 따라서 한 단계에 있지 않은 곳을 클릭하면 너는 직업 데이터를 다시 얻는다 그것은 또한 여기에있었습니다 이것이 우리가이 페이지를 가져 왔을 때 시작했던 것입니다 이 일이 끝나지 않았다면 여기서 파이프 라인을 취소 할 수있는 옵션이 있습니다

꽤 유용합니다 이 데이터의 나머지 부분은 당신 직업의 종류 나는 이것이 멋지다라고 생각한다 그래서 작업이 아직 실행 중이면 특정 수의 노동자들이 여전히 운영되고 있었고, 당신은 그것을 여기에서 볼 것입니다 그리고 그 숫자가 거기에 있었던 이유는, 당신은 그것을 여기에서 볼 것입니다

이 그래프가 보여주는 것, 청색 선 실제로 얼마나 많은 근로자를 보여주고 있습니까? 그 당시에 당신의 직업에 맞는 일을하고 있습니다 녹색은 데이터 흐름 서비스가 얼마나 많은지를 보여줍니다 일하기를 좋아하지만 그렇지 않을 수도 있습니다 할 수있다, 시도하고있는 할당량 문제를 치고 있기 때문이다 새로운 GCE 인스턴스 또는 GCE 인스턴스를 가져 오려면 웬일인지, 정말로 늦어지고있다

시간의 차이 정말로 걸리는 시간이 있다는 것을 알 수 있습니다 GCE 인스턴스를 불러옵니다 그리고 나는 다른 이유들을 보았다 지금 당장 나는 그 중 어떤 것이 있는지 생각할 수 없다 하지만 정확히 어떻게 표현 했는가? 많은 노동자들이 일하고 있습니다

그리고 나서 당신은 실제로 그것을 여기 위로 올릴 수 있습니다 무엇에 대한 근거를 좀 더 살펴 보겠습니다 일어나고 있었다 여기서 아무 것도 잘못되지 않았으며 모든 것이 매우 빠르게 일어났습니다 하지만 여기서 많은 시간을 보게 될 것입니다

우리는이 일을하려고했지만 그것은 일어나지 않았습니다 그리고 그것이 우리가 그것이 일어나지 않았다고 생각하는 이유입니다 조사를 위해 정말 깔끔한 데이터입니다 당신 직업에 무슨 일이 일어나고 있는지 이것들이 리소스 통계입니다

현재의 모든 말, 작업이 실행 중이면 실제로 볼 수 있습니다 거기 값 나머지는 누적 된 자원입니다 너의 직업이 사용 된거야 그래서 얼마나 많은 CPU 시간을 사용 했습니까? 얼마나 많은 기억을 사용 했습니까? 얼마나 많은 영구 디스크 시간을 사용 했습니까? 따라서 이것은 귀하의 작업에 대한 누적 자원 사용량입니다

우리가 Stackdriver로 넘어갈 때 이것은 정말로 산뜻 할 것입니다 시간이 지남에 따라 차트를 작성할 수 있습니다 다른 실행 사이에서도 비교할 수 있습니다 SDK에 추가 할 수있는 사용자 지정 카운터입니다 그래서 aggregator라는 개념이 있습니다

현재 Dataflow SDK에 있습니다 우리의 첫 번째 구현을 통해 약간 바뀔 것이라고 생각합니다 아파치 빔의 성능을보실 수 있습니다 자신의 측정 항목을 정의 할 수 있습니다 그리고 그것이 바로 이것입니다

그리고 여기에서 현재 값을 봅니다 원하는대로 이름을 지정할 수 있습니다 그리고 나서 그들은 항상 변환이 무엇이든간에 접두사를 붙입니다 당신이 정의한 따라서 끝난 URL의 개수를 계산하려면 edu에서, 당신은 당신의 edu 인 카운터를 가질 수 있습니다

계수기 끝날 때까지 요소를 보았을 때마다 그런 다음 edu에서 카운터를 증가시킵니다 그리고 여기서 가치를 볼 수 있습니다 그래서 우리는 이것들을 Stackdriver에도 export합니다

여기에서 최종 데이터를 볼 수 있습니다 하지만 Stackdriver에서는 실제로 해당 데이터가 시간에 따라 어떻게 변했는지 확인하십시오 따라서 좋은 측정 항목을 생각할 수 있다면 당신의 일이 어떻게하고 있는지를 창조하고 추적하는 것, 그런 다음 시각화하고 기록하고 경고 할 수 있습니다 그뿐 아니라 그래서 당신이 그 이름, 잘못된 순위와 무효 방문을 기억한다면, 우리는 Stackdriver에 도착했을 때 살펴볼 것입니다

그리고 여기에 파이프 라인 옵션이 있습니다 이들은 당신이 일을 시작할 때 당신이 통과 한 것입니다 그러나 당신이 10 가지 또는 15 가지의 다른 직업을 운영하고 있다면 10 개 또는 15 개의 다른 옵션 세트로, 기억하기가 정말 어려울 수 있습니다 이 파일이 실행 된 파일 또는 방법 너는 노동자들을 구성했다 당신은 자동 크기 조절을 구성했습니다

여기 실제로 어떻게 달렸는지를 볼 수 있습니다 그 일을 알아 내려고한다면 왜 그렇게했는지 왜 특정 번호로 자동 확장되지 않았습니까? 여기에는 로그가 있습니다 우리가보기 전에, 나는 진짜 빨리 여기로 돌아갈 것이다 실패한 이들 중 하나로 이동하십시오

따라서 작업에 오류가있는 경우, 바로 여기에 정말 명확한 지표가 있습니다 경고 일 경우 노란색 삼각형입니다 그런 다음 오류가 발생하면이 느낌표를받습니다 이 사람을 클릭하면 오류가 무엇인지 알 수 있습니다 그래서 저는이 데이터 흐름을 처음으로 정리했습니다

여기에서 실행하십시오 그래서 나는이 모든 오류를 가지고 있습니다 따라서 무슨 일이 일어나고 있는지 알고 싶다면 데이터 흐름이 실패한 것입니다 나는 그것을 볼 수있다 나는 그것이 시작된 것을 볼 수 있습니다

그래서 이것은 당신이 처음 보는 곳입니다 특히 실제로 여기에 오류가 발생하는 경우 때로는 그렇지 않을 수도 있습니다 하지만 네가 그렇게한다면 나는 여기서 말할 수있다 그것은 파일 크기를 얻지 못했습니다

괜찮아 표준 스택 추적 내려 가자 좋아, 여기에 우리가 간다 그래서 파일 크기를 얻을 수 없습니다

읽기를 시도한 파일에 액세스 할 수 없습니다 디버깅의 첫 번째 단계는 오류가있는 경우, 할당량 오류가 일반적으로 여기에 표시됩니다 기본 액세스 오류는 대개 여기에 표시됩니다 그래서 너는 이것보다 더 이상 갈 필요가 없다 이러한 유형의 오류를 찾으십시오

우리가보고있는 곳으로 돌아 가자 이들은 간헐적으로 나타나지 않고 있습니다 왜 그런지 모르겠습니다 나는 여기서 한 번 더 시험 할 것이다 그렇지 않은 경우이 작업 로그가 없을 수 있습니다

그리고 나는 우리가 그것을 포기할 것이라고 생각합니다 오늘 꽤 간헐적이었다 그래서 정상적으로 로그를 볼 수 있습니다 여기의 로그는 대단히 흥미 롭지 않습니다 않는 한 오류가 있습니다

주로 이것은 서비스가하는 일을 알려주는 것입니다 여기서 흥미로운 유일한 로그는 정말로, 자동 축소 기능 이었지만 이제는 그 위대한 그래픽 표현, 따라서 로그를 실제로 볼 필요는 없습니다 대부분은 단지 당신에게 말하고 있습니다, 우리는 당신의 직업을 시작하고 있습니다 우리는 일부 노동자를 길러 냈습니다 우리는 더 많은 노동자를 양성하려고 노력하고 있습니다

우리는 당신의 노동자들을 폐쇄하고 있습니다 우리 일은 끝났어 다음은 작업자 로그에 액세스하는 가장 쉬운 방법입니다 그래서 이들은 Stackdriver 로깅으로가는 것들입니다 그래서 우리는 지금 뛰어 넘을거야

따라서 몇 가지 로그 인 Dataflow SDK가 있습니다 그리고 일부 코드는 여기에서 내보낼 것입니다 그리고 당신은 여기에 그것들을 볼 것입니다 이것이 유용 할 가능성은 상대적으로 낮으며, 하지만 그들은있을 수 있습니다 그러나 이것은 추가 한 로깅을 찾는 곳이기도합니다

여기서 가장 흥미로운 부분이 있습니다 그래서 나는 추가했다 – 오, 나는 철자를 할 수 없다 재앙 기록을 추가했습니다 그래서 이것은 내가 내보내고있는 로그입니다 SDK 코드 정의에서 logger

warn처럼 이 파이프 라인을 위해 그리고 여기 그것이 있습니다 훌륭합니다 나는 그것을 보았다 그것은 매우 흥미로운 로그가 아닙니다

그러나 이것으로 할 수있는 것은 Create Metric 버튼입니다 이걸 위에서 볼 수 있니? 클릭하면이 메트릭 이름을 얻게됩니다 여기에서 가장 쉬운 방법은 이것을 변경하는 것입니다 특정 단계 라기보다는 데이터 흐름 단계로, 모든 데이터 흐름에서이 작업을 수행하기를 원하기 때문에, 그 특별한 것만은 아닙니다 그리고 나서 당신은이 남자에게 이름을 지어줍니다

그래서 보자 Catastro – 그리고 원한다면, 이것으로 제한 할 수 있습니다 이 모든 로그 유형을 여기에서 볼 수 있습니까? 기회는 당신이 결코 그들을 보지 않을 것입니다 작업자 로그는 로그가 끝나는 로그입니다 원하는 경우 제한 할 수 있습니다

당신은 또한 경고 만보고 싶다고 말할 수 있습니다 이것들은 모두 경고가 될 것이기 때문입니다 우리는 메트릭을 만듭니다 흥미로운 일이없는 것처럼 보입니다 그러나 우리는 여기서 뛰어 넘는다

따라서 로그 기반 메트릭은 약간 다릅니다 또는 2 개의 다른 풍미가, 나는 짐작한다 첫 번째 항목은 이러한 시스템 메트릭입니다 항상 여기 있습니다 그래서 당신은 자동으로 당신이 없으면 무엇이든 설정할 필요가 있습니다

그 말은 당신이 단지 경고하는 것, 내 로그에 오류 로그가 표시됩니다 일종의 GCE 인스턴스 또는 데이터 플로우 작업 거기에 대한 측정 항목을 만들 수 있습니다 그 과정을 거치지 않고 내가 방금지나 갔다 로그 항목 수와 같은 항목이 이미 있으므로, 오류로 필터링 할 수 있습니다 그리고 우리가 거기에 도착했을 때 그것을하는 방법을 보여 드리겠습니다

그리고 나서 다음 세트는이 사용자 정의 된 세트입니다 내가 이미 사용자 재앙을 겪고 있다는 것을 알 수 있습니다 내가 가진 이유는 우리가 실제로 Stackdriver에서 데이터를 살펴보십시오 소급하여 로그를 검색하지 않기 때문입니다 따라서 새로운 로그 메시지를 작성하는 경우에만 측정 항목과 일치하면 데이터가 표시됩니다

Stackdriver에 나타납니다 그래서 우리가 거기에 데이터를 가지고 있는지 확인하고 싶었습니다 그래서 저는 방금 만든 것을 사용하지 않을 것입니다 저는 다른 하나를 사용하려고합니다 정확히 동일합니다

나는 방금 전에 그것을 만들었다 그 일의 마지막 몇 번 여기에서 할 수있는 일은 미터법에 대한 경고를 만드는 것입니다 그리고 이것이 우리가 Stackdriver에 뛰어들 때입니다 로그 메트릭이므로 여기에 표시됩니다

자원 유형에서 그래서 이것은 당신과 같은 인터페이스입니다 당신이 어떤 일을했는지 ​​상관없이 볼 것입니다 에 대한 경고를 설정하려고합니다 이것은 측정 기준입니다

우리는 데이터 흐름 작업에 대해보고 싶습니다 따라서 리소스를 볼 때마다 여기에있는 Dataflow 작업을 찾으러 갈 것입니다 당신이 무언가에 대해 창조 한 것을 찾고있을 때 Dataflow에서 출력되었습니다 파일이 측정 항목이 위에있을 때마다, 5 분 동안 3 분, 지역별로 필터링 할 수 있습니다

다른 직업에 대해 비슷한 유형의 것을 출력하는 경우 다른 작업으로 필터링 할 수 있습니다 우리는 이걸 가지고 있습니다 그리고 그것은 작업자 로그에만 나타납니다 그래서 이것이 작동하는 방식은 약간 까다로울 수 있습니다 그들은 실제로 이미 일치해야하기 때문에 당신이 이것을 만들 수 있기 전에

이것이 일어날 수 있다면 당신은 경고를 말할 수 없습니다 당신은 실제로 그것이 일어 났어야했는데, 그렇지 않으면 이러한 드롭 다운이 채워지지 않습니다 메트릭을 만들 수 없습니다 그래서 그것은 약간 불행한 일입니다 그래서 당신은 한번 전에 그것을 강제로해야합니다

쉽게 로그를 만들 수 있습니다 그러나 그것은 깔끔하고 친절합니다 왜냐하면 당신은 – 이 측정 항목을 작성할 때 이 측정 항목의 모양입니다 그래서 오래 전에 그것을 만들었으므로 저는 그것을 창조했습니다, 이것은 우리가 그 측정 기준으로보고있는 것입니다 그래서 당신은 그것을 보게됩니다, 그리고 그것은 당신에게 지금 좋은 생각을줍니다, 지금 내가하고있는 일을 볼 수있게되었습니다

나는 결정할 수있다, 나는 어떻게 나의 문지방을 놓고 싶 는다 오, 만약 그것이 5,000 이상이된다면 분, 또는 행동 방식에 따라 다릅니다 이 미리보기를 하단에서 설정하고 설정합니다 귀하의 통계 그리고 나서 상황을 보자

진짜로 여기가 어디 있니? 알림 정보를 추가하십시오 이 경고가 울리면 나는 두 개가 있다면 사라지도록 설정했습니다

그래서 매번 그럴 때처럼 분명히 사라질 것입니다 거기에 스파이크가 있었어 이메일로 보낼 수 있습니다 여러 가지 일을 할 수 있습니다 따라서 여기에서 재미있는 알림 기능을 사용할 수 있습니다

여기에 특별히 흥미로운 것은 없습니다 나는 실제로 이것들 중 하나를 가지고있다 오, 그 사람을 지울 필요가있어 그러면 경고하는 위반 사항 페이지로 이동합니다 그래서 여기, 만약 당신이 무엇을보고 있다면 모든 일이 잠재적으로 잘못되고있다

내 서비스의 어느 곳에서나 여기에 와서 모든 것을 볼 수 있습니다 그래서 당신은 여기에서 볼 수 있습니다 – 그래서 저는 거기에 2를 붙였습니다 방금 작성 했으므로 이미 작성했습니다 다시 한 번, 나는 이미 그것을 가지고 싶었다 이 경고 중 일부를 만들었습니다

직업 35 분을 기다릴 필요없이 한 번 봐 달리기 그래서 우리는 이미 네 가지를 이미 해결했음을 알 수 있습니다 우리가 여기 들어가면 더 이상 개방적이지 않습니다 그것은 단지 일정한 기간을 되돌아보고 있기 때문입니다

그리고이 직업은 더 이상 운영되지 않습니다 따라서 계속 경고하지 않습니다 그리고 이러한 경고는 스스로 해결해야합니다 때때로 그것은 당신이 원하는 것이 아닐 수도 있습니다 그래서 우리는 실제로 많은 노력을했습니다

메트릭 정의를 내놓으려고 네가 원하는 것을해라 나는 그것이 계속되는 게임이라고 생각한다 따라서 이러한 측정 항목을 설정 한 방법은 마지막 순간이나 5 분이 지나면 알려줄 것입니다 몇 분 동안이 오류를 보았습니다 직업이 끝나면 곧 보지 않을거야

해결됩니다 그래서 네가 익숙해 진다면 경고를 위해 이러한 측정 항목을 사용해 보려는 경우, Stackdriver 모델을 이해해야합니다

Stackdriver 모델은 실제로 – 정말로 당신이 서비스를 모니터링하고 있다고 가정합니다 그리고 우리는 실제로 서비스가 아닙니다 파이프 라인을 운영하고있어 파이프 라인 실행을 모니터링하고 싶습니다 그러면 Stackdriver에서 해당 항목을 찾을 수 있습니다

항상 지금은 일종의 뒤로보고 있습니다 프로세스가 아직 실행 중이 아닌 경우, 그것은 더 이상 중요하지 않다고 생각합니다 그리고 경고는 일종의 설계되었습니다 네가 그렇지 않다면 분명히 서비스가 회복되었다 이해가 안되기 때문에 오류를 더 이상 보지 못합니다

저것은, 음, 그 일이 실제로 막 실패했고 우리는 여전히 돌아가서 그것을보고 싶다 그래서 우리는 약간의 통계를 가지고 있습니다 조심해야한다는 뜻입니다 당신이 경고에 대해 생각할 때 그래서 보자

그렇게 경고합니다 여기에서 우리는 계속 나아갈 수 있습니다 그래서 우리가 이것을했을 때, 우리는 단지 메트릭에 대한 경고를 설정했습니다 실제로 통계이기 때문에 실제로 볼 수 있습니다 그걸로

그리고이 도구, 여기 미터 익스플로러 (Metric Explorer) 꽤 최근에 추가되었습니다 당신이 가고있는 지점에서, 무슨 측정 기준 내가 사용할 수 있습니까? 나는 무엇을보고 싶니? 직장 모니터링에 무엇을 사용할 수 있습니까? 이 데이터는 어떤 모습입니까? 이것에 경고를 추가하고 싶다면 이것을 추가하려면 대시 보드로, 어떤 종류의 매개 변수 나는 그걸 입을 까? 그래서 그것이 이것이 정말로 좋은 것입니다 어떤 측정 항목에 대한 일반적인 인식을 얻고 있습니다 사용할 수있는 방법, 액세스 방법, 그들이 어떻게 생겼는지 일단 당신이 그런 종류가되면, 당신은 여기에 너무 많이 들지 않을 것입니다

하지만 우리가 볼 수있는 것들 중 하나 그래서 우리는 방금 catastrophe라는이 통계를 만들었다는 것을 압니다 그래서 우리는 여기 와서 그것을 볼 수 있습니다 그래서 당신의 생각이 서비스 모니터링이 이루어집니다 많은 시간, 당신은 이것을 할 것이고 아무것도 보지 못할 것입니다 그것은 여전히 ​​발생합니다

이 일을 한 마지막 한 시간 남았습니다 그래서 당신은 왼쪽 맨 왼쪽에서 볼 수 있습니다 항상 1 시간으로 나옵니다 그래서 3 시간 전에이 일을 실행했다면, 데이터가 없습니다 그것은 데이터를 가지고 있습니다

그래프를 다시 봐야 알 수 있습니다 그래서 우리는 일하는 중입니다 Stackdriver에 들어가고 우리 모델은 예쁘다 그들이 익숙한 것과는 다른, 우리는 그래프 작업을 좀 더 자세히 만드는 방법에 대해 표준 Dataflow 작업에 도움이됩니다 하지만 여기서 6 시간을 클릭하면 데이터를 볼 수 있습니다

당신은 그걸 기억해야합니다 나를 볼 때 항상 공포에 빠져 있습니다 아! 데이터가 없습니다 그래서 이것은 방금 만든 시간표입니다 그 로그를 계산하기 전에

그래서 이것은 당신이 볼 수있는 로깅 메트릭입니다 여기에는 Custom Dataflow로 시작하는 모든 것들이 있습니다 그래서 많은 것들이있었습니다 이 프로젝트에 반대했다 이 애그리 게이터 중 하나가있는 작업이 실행될 때마다, 맞춤 측정 항목을 얻을 수 있습니다

그리고이 Custom / Dataflow 아래에 나타납니다 그래서 우리가 만든 것들은 무효 방문과 유효하지 않은 것이 었습니다 계급 그것들은 우리가 오른쪽에서 보았던 것들입니다 우리가 데이터 흐름 UI를보고있을 때

그래서 나는 그것들을 볼 수 있습니다 오늘 아침부터 일곱 번이나이 일을 6 번이나 했어 이것이 바로 이런 것들이 행동하는 방식입니다 이제, 거기에 작은 카운터가 있습니다 기본적으로, 당신이 처리 할 때마다 10,000 요소, 증분

따라서 모든 단일 작업에 대해 동일하게 보입니다 그러나 그것은 말할 수있는 좋은 방법입니다 어떻게해야합니까? 너는 모든것을 같은 이름으로 실행할 수 있기 때문에 봐라 또한 실행중인 작업과 실행중인 작업을 비교할 수 있습니다 역사적으로 볼 수 있습니다

우리가 원하면 여기에 1 주일 분량의 데이터를 가져올 수 있습니다 우리에게는 하루의 가치 만 있지만 우리는 할 수 있습니다 이제 우리는 이것을 볼 수 있습니다 우리는 그것이 어떤 종류인지를 압니다 우리는 우리가 무엇을하고 싶은지 결정할 수 있습니다

우리가 여기에 가지고있는 다른 데이터를 빠르게 검사합니다 따라서 이들은 Dataflow 메트릭입니다 실제로 Dataflow 슬래시로 시작하는 것들 따라서 요소 수 측정 항목이 있습니다 우리는 오른쪽에서 보았습니다

그리고 추정 된 바이트 수 이들은 시간이 지남에 있습니다 경과 시간은 실제로 측정하는 것입니다 작업이 아직 실행 중이지만 쉬운 방법을 제공합니다 이 직업이 나보다 오래 걸리는 것처럼 그것을하는 데 익숙해

그리고 이것이 이곳의 거의 모든 서비스가 게시 된 것이라고 생각합니다 경과 시간 같은 것 그래서 당신은 그것을 풀 수 있습니다 이제 우리가 여기를 들여다 볼 때 우리는 아무것도 필터링하지 않습니다 그래서 내가 도망친 모든 직업을 기억하십시오

이전에 그 목록 페이지에 그들 전체가있었습니다 – 그들은 모두 여기 있습니다 이것은 제가 실행 한 배치 일뿐입니다 그래서이 견해에서 사물을 보는 것은 조금 혼란 스러울 수 있습니다 그리고 필터링은 약간 까다로워집니다 우리가 계속 전진하면 괜찮을거야

그래서 당신은 볼 수 있습니다, 시스템 지연, 어떤 스트리밍 작업을 볼 때 우리는 이야기 할 것입니다 이것들은 모두 – 리소스 메트릭이 있으므로 시간이 지남에 따라 리소스 사용량을 확인할 수 있습니다 그리고 이들은 우리가 가지고있는 로깅 메트릭입니다 그래서 내가 말했듯이 이것은 좋은 첫 번째 장소이다 네가 가진 것을보고 놀아 라

그래도 여기서 할 일이별로 없다 그래서, 거기에 몇 가지 다른 장소가 있습니다 당신은 들어갈 수 있습니다 따라서 이들은 개별 자원 유형에 대한 페이지입니다 그리고 우리는 Dataflow를 살펴볼 것입니다

하지만 Pub / Sub와 같은 것을 볼 수도 있습니다 그래서 이것은 무엇입니까? 이것들은 모두 이제까지 창조되었다 그리고 작업 중 하나, 실행중인 스트리밍 작업, 실제로 두 번째 파이프 라인을 가동합니다 Pub / Sub에 기록한 다음 다른 기록을 Pub / Sub에서 읽습니다 그래서 당신은 실제로 그것을 여기에서 볼 수 있습니다

그리고 Pub / Sub에서 읽는다면, 해당 구독에 대한 정보를 볼 수 있습니다 그래서 그것은 당신에게 말할 수있는 방법을 제공합니다, 예, Dataflow에 대해 생각하고 있지만, 다른 모든 서비스가 어떻게 작동하는지 살펴보십시오 이것은 Pub / Sub 대시 보드입니다 대부분의 대시 보드는 이와 유사합니다 이것들은 우리가 한 일들입니다

내가 작성한 알림이 표시됩니다 이런 종류의 일에 대해서 그리고 그들이 생각하는 하나 또는 두 개의 그래프가 가장 유용합니다 여기 Dataflow가 있습니다 나는 직업의 순서를 알아 내지 못했다

이 페이지에는 아직 필터링이 있습니다 따라서 실제로 물건을 찾을 필요는 없습니다 그리고 그들은 정렬합니다 그래서 처음 여기 올 때, 당신의 직업 당신이 기대하는 곳에 있지 않을 수도 있습니다 하지만 니가 원하는대로 정렬 할 수있어

이 분야들과 마찬가지로, 당신이 원하는 직업을 찾을 수 있습니다 아니면 그냥 필터링 할 수 있습니다 그래서 다음 배치라고하는 것을 찾고 있다면, 그들은 바로 여기 있습니다 그래서 여기에서 그 사건들을 다시 볼 수 있습니다 그래서 이것들은 벌채하는 것들입니다

이러한 로그는 데이터 흐름 로그에 대해 작성된 것입니다 그래서 그 로그를 알 수있는 데이터 흐름 리소스라는 것을 알았습니다 측정 항목이 생성되었습니다 따라서 데이터 흐름 리소스 페이지로 이동하면, 당신은 실제로 그 인스턴스들을 볼 것입니다 그래서 그것은 당신이 할 수있는 장소의 일종이됩니다

한 곳에서 모든 데이터를 찾으십시오 그래서 그것들은 사라진 모든 경고입니다 당신도 볼 수 있습니다 그래서 당신은 볼 수 있습니다 이것이 한 시간 뒤로 약간 이상해 보이기 시작하는 방법

따라서 모든 컬렉션의 요소 수입니다 각 달리기 그래서 여기로 올 수 있어요 그리고 각 변형에 대한 요소 수가 있습니다 또는 변환 사이의 컬렉션

그래서 그 위치를 볼 수 있습니다 당신이 여기 저기를 가리키면 볼 수 있습니다 따라서 차이점이 없기 때문에 모든 실행이 동일하게 보입니다 모든 데이터에서 나는 똑같은 일을하고있다 하지만 각 작업 반복마다 볼 수 있습니다

데이터는 어떻게 다릅니 까? 다양한 컬렉션은 어떻게 이루어 졌습니까? 다르게 나타 납니까? 그리고 나서 당신도 볼 수 있습니다 – 그래서 이들은 친절한 사람들입니다 의– 당신 직업의 자원 비용은 얼마입니까? 그리고 그것이 바로 여기에서 볼 수 있습니다 그리고 이것은 각 반복입니다 그래서 내가 한 일은 달리기마다 다르다 이 직업의 몇 분의 일은 제가 그것에 배정 된 노동자의 수입니다

얼마나 차이가 나는지 알 수 있습니다 CPU가 사용 된 메모리 양 거기에있는 근로자의 수에 따라 이것이 기본 대시 보드의 종류입니다 그래서 당신은 아무것도하지 않고 이것을 자동으로 얻습니다 데이터 흐름 작업을 실행합니다 이 모든 것들이 나타납니다

당신이 그것을 클릭하면 여기에옵니다 자,이 특별한 직업으로 내가 무엇을하고 있었는지 말해 보겠습니다 나는 달리기의 효과가 무엇인지 알고 싶었다 다른 노동자들의 무리가 있습니다 이런 종류의 것은 나를 볼 수는 있지만 그것이 명백하게 분명한 것은 아니다

정보를 상관시키지 않으면 각자 내가 얼마나 많은 노동자들을 고용했는지 기억하십시오 그리고 이것이 바로 여러분이 시작할 수있는 곳입니다 자신의 데이터를 가져 오는 대시 보드를 만드는 방법 당신이 원하는 그 그래서 여기 왼쪽의 Dashboards로 오세요 그런 다음 자체 대시 보드를 만들 수 있습니다

그리고 차트를 추가 할 수 있습니다 데이터 흐름 작업을 추가하고 싶습니다 내가 바라는 부분은 얼마나 많은 CPU가 그것은 언제든지 사용하고 있습니다 그리고 당신은 당신이 원하는 직업으로 여기에 걸러 내야 만합니다 이 시점에서 이것은 글로벌 대시 보드입니다

그래서 당신은 오직 그것들을보고 싶을뿐입니다 다음 배치 데모라고 불렀습니다 그곳에 내가 가지고 있다고 생각합니다 다시 한 시간 그래서 이것은 다른 수의 CPU입니다

몇 가지 다른 반복을 실행하는 동안처럼 보인다 이 일의 그런 다음 다른 차트를 추가하여 그 일의 경과 시간을 말해 보겠습니다 이름으로 필터링 할 수 있습니다 그리고 다시, 이것이 당신의 직업 이름입니다

이제는 어떻게 빌드 할지를 볼 수 있습니다 그리고 상호 연관시킬 수 있어야한다 따라서이 선을 드래그 할 수도 있습니다 그래서 저는 이렇게 말하고 싶습니다 좋아,이 일은 결국 끝났어

그것은 10 분의 1 / 2 분 걸렸다 그리고 왼쪽에서 볼 수 있습니다 그것은 80 CPU를 사용했다 이러한 통계는 근로자가 아닌 CPU에 있습니다 따라서 2 CPU 작업자 또는 4 CPU 작업자를 사용하는 경우, CPU 수를 여기에서 확인할 것입니다

그리고 노동자 수는 아닙니다 그래서 80 점을 보았을 때 나는 40 점이나 20 점으로 뛰었습니다 내가 2 또는 4로 구성했는지 여부에 따라 다릅니다 나는 잘 모르겠다 그래서 이것은 당신이 정말로 멋진 것들을 얻는 곳입니다

너의 일의 반복의 낱단을 진짜로보기를 위해 이를 통해 측정 항목을 비교할 수 있습니다 그리고 나는 이것이 정말로 당신이 잃는 것이라고 생각합니다 데이터 흐름 UI에서 데이터 흐름 UI를 사용하면 실제로 그래프의 컨텍스트를 볼 수 있으며, 하지만 시간이 지남에 따라 또는 일과 직장 사이를 잘 볼 수는 없습니다 그래서 여기서 많이 얻습니다

그래서 난 아직도 너 내가 처음에 뭘 보았는지 하나의 특별한 직업이었다 그리고 그것은 특정 데이터 흐름 작업이며 작동하는 데이터 흐름 이름 그러나 당신은 당신이 실제로 원하는 것을 많이 찾을 것입니다

내가 실행하면, 네 개의 데이터 흐름이 있다고 가정 해 봅시다 매일 12 시간마다 증가하며, 나는 정오, 정오 6, 대시 6, 대쉬 6이라고 부를지도 모른다 오전, 또는 뭔가 그래서 저는 약간 다른 것들을 가질 것입니다 이 경우 그룹을 사용하기를 원합니다

당신이 반드시 생각하고 싶어하지 않기 때문에 서로 다른 것들로 당신은 그들에게 같은 것을 경고하고 싶다 당신은 데이터를보고 그것을 모두 비교하기를 원합니다 그래서 그룹을 만들 수 있습니다 그룹은 꽤 많은 접두사 검색입니다

그래서 당신이 직업을 지명 할 때 일치하는 접두어로 이름을 지정할 때, 이 일들을 그룹으로 바꿀 수 있습니다 그래서이 녀석에게 이름을 지어주세요 이건 내 배치 다 이제 흥미로운 점은 내가 반드시 데이터 흐름 작업에 대해 이야기합니다 이 자원은 무엇이든 될 수 있습니다

그래서 이것은 지금 나에게 정말 쉽다 그 대시 보드를 만들려면 우리가이 이름으로 불리는 어떤 일을 끌어들이십시오 그룹을 저장하십시오 이제 그룹이 존재합니다 이제 기본적으로 그 그룹을 사용할 수 있습니다

직업의 이름처럼 이름보다는 그 모든 것을 필터링 할 수 있습니다 그래서 저는 시간의 이익을 위해 하나를 창조했습니다 스트리밍 작업 실제로, 우리가 정말로 빨리보기 전에, 기본적으로 스트리밍 작업을 살펴 ​​보겠습니다

스트리밍 작업을 위해 여기서 나가는 것이 중요합니다 일괄 처리에서 벗어나지 못한 것은 시스템 지연입니다 시스템 지연은 측정 중입니다 글로벌 측정의 일종 그래서 이상적이지는 않지만 정말 빠른 조치입니다

당신 파이프 라인에 매달려있는 것의 그것을 통해 모든 방법을 얻지 못했습니다 시스템 지연은 무언가가 들어 왔기 때문입니다 우리는 아직 그것을 처리하지 못했습니다 그래서 얼마나 오래 걸릴까요? 어딘가에? 그래서 이것은 당신의 시스템에 매달려있는 것입니다 그것을 완전히 통과시키지 않을 것입니다

시스템의 정말 좋은 측정 값입니다 붙어 있거나 천천히지고 있습니다 그리고 직장이 실패하지 않을 것이기 때문에 정말 어떤 상황에서도 스트림 작업이라면, 너는 무언가가 필요하다 이것이 우리가 가진 가장 좋은 방법입니다 일괄 처리 작업의 경우 일반적으로 사실을 사용할 수 있습니다

그 일자리가 실패했는지, 또 어떤 지표가 있는지 시스템 지연은 여러분이 스트리밍 작업을보고 그래서 그게 당신이 여기서하는 일입니다 나머지 측정 항목은 거의 동일합니다 하지만 대시 보드 샘플을보고 싶었습니다

이러한 작업을 모니터링하기 위해 함께 사용할 수도 있습니다 그래서 이들은 모두 그 그룹으로 필터링됩니다 그리고이 그룹은 기본적으로 모든 것입니다 그 다음 스트리밍을했습니다 그래서 처음에는이 왼쪽 상단에, 이것이 실제로 에이전트 기반 메트릭이라는 것을 알 수 있습니다

그래서 일을 위해서 불행히도 이러한 작업은 작업 중에 만 액세스 할 수 있습니다 아직 실행 중입니다 우리가 일하려고하는 것 그러나 당분간은 서비스이기 때문에 이것이 스택 드라이브 (Stackdriver)에서 서비스가 측정되는 방식입니다

그들은 존재하지 않을 때 더 이상 존재하지 않습니다 따라서 이러한 측정 항목은 사라집니다 스트리밍 작업이 아직 실행 중입니다 따라서 상담원 기반 메트릭, 왼쪽 메트릭, 메모리 사용량을 알려줍니다 그래서 당신은 그걸 에이전시 에게서만 가져옵니다

그리고 그것은 Stackdriver Premium입니다 가운데 하나 인 CPU 사용량은 모든 GCE 인스턴스에 적용됩니다 그리고 어떻게 볼 수 있죠? 이 녀석을 끌어들이는지 봅시다 이들은 모두 다른 경우들입니다 우리가 접두어로 검색했기 때문에 이걸 실행하고 있습니다

결국 우리는 여기서 더 나은 경험을하게 될 것입니다 그러나 내 그룹은 다음 스트리밍으로 정의되었다고했기 때문에, 그런 다음 해당 그룹의 CPU를 가져올 수 있습니다 나는 Pub / Sub를 실제로 끌어 올릴 수있다 그 그룹에 그래서 나는 어떤 유형의 자원이라도 볼 수있다 내가이 일과 관련이 있다고 명명 규칙이 작동하는 한

이제는 그 작업에서 실행되는 모든 인스턴스가 있습니다 그리고 CPU 사용량은 어떻게 생겼는지 다음은 시스템 지연입니다 당신이 사용하는 주요한 것 그리고 여기서 볼 수 있습니다

지연은 – 이 발전기가 작동하는 방식, 그 일이 모든 데이터를 Pub / Sub로 푸시하면됩니다 폭발하고 나서 뒤로 물러나서 폭발하고 뒤로 물러납니다 그러면 지연이 생겨나는 것을 볼 수 있습니다 단지 많은 양의 데이터를 처리 할 수 ​​없을 때입니다 그런 다음 회복합니다

그리고 나서 다음 폭발이 시작됩니다 여기에 Pub / Sub 구독이 있기 때문에이를 알 수 있습니다 따라서 지연과 어떻게 정렬되는지 확인할 수 있습니다 그리고 그것은 정말로 – 이것은 매우 강력합니다 타이밍을 알려면 시작하십시오

다른 행동의 그런 종류의 근원을 사용하면 당신이 겪고있는 문제를 일으킬 수 있습니다 봄 여기에서 볼 수 있습니다 오, 여기 있습니다 내 Pub / Sub 구독입니다

그것은 급증했다 엄청난 양의 물건들이 들어갔다 내 잔액이 꽤 나 빠지기 시작했습니다 데이터가 떨어졌습니다 그것은 회복하고 모든 것이 좋아 보인다

누적 측정 항목은 다음과 같습니다 자원 사용을 기록합니다 그래서 당신은 당신의 직업이 너무 비싸지 만, 거기를 쉽게 볼 수 있습니다 그리고 기본 요소 수, 그냥 유용 메트릭인지 아닌지에 따라 다릅니다 대신 맞춤 측정 항목을 사용할 수 있습니다

일종의 계량기로서 그 흥미 롭군요 나는 내가 기대했던 것보다 훨씬 시간이 없다 그래서 나는 그 데모와 함께 그곳에서 멈출 것이라고 생각합니다 그럼 우리가 슬라이드로 돌아갈 수 있을까요? 그래서 정말로 빨리 끝내야합니다 그러니 가서 확인해보십시오

그래서 우리는 이것을 여기에 넣었습니다 우리는 몇 명의 사람들과 함께 작업했습니다 우린 그걸로 노력하고있어 그러나 사람들이 무엇을 사용하고 있는지보고, 나는 그것이 정말로 좋은 방법이라고 생각하곤한다 Dataflow 시스템에 대해 알아보십시오

무슨 일이 일어나고 있는지 조사 할 수 있습니다 이제 막 많은 양의 데이터가 있습니다 글쎄, 언제하고 있니, 언제하고 있니? 따라서이를 사용하여 데이터 흐름, 뿐만 아니라 자신의 파이프 라인을 가지고 놀 수 있습니다 그리고 무슨 일이 일어나고 있는지보십시오 스택 오버플로에 대해 질문하십시오

우리는 그것들을보고, 우리는 대답하고, 그것은 우리에게 말한다 당신이보고있는 것 그래서 우리에게 의견을 제시하고 개선 할 수 있습니다 이 물건 우리는 모두의 의견을 사랑합니다

마지막으로 우리는 Apache Beam에 대해 이야기하고 있습니다 여기서 Dataflow SDK에 대해 이야기합니다 그래서 내일 두 번의 회담이 있습니다 그래서 당신이 그것에 대해 더 알고 싶다면, 그걸 확실히 체크해야합니다 [음악 재생]

Visualizing big data on Google Cloud (Google Cloud Next ’17)

[음악 재생] TIM SWAST :여보세요 나는 Tim Swast입니다

저는 Google Developer Relations 팀의 엔지니어입니다 주로 코드 샘플과 튜토리얼을 작성합니다 Google의 빅 데이터 제품에 중점을 둡니다 데이터에 관해서는 몇 가지를 살펴 보겠습니다 그것은 숫자의 무리입니다

여기에 어떤 패턴을 볼 수 있습니까? 데이터의 10 %에 불과하기 때문일 것입니다 그러니 한 슬라이드에서 모두 가져 오도록하겠습니다 이제 무슨 일이 일어나는지 분명해야합니다 글쎄, 나에게 명확하지 않다 왜냐하면 나는 인간이기 때문이다

난 원시 숫자를 섭취 할 수 없다 나는 인간 친화적 인 시각화가 필요하다 무슨 일이 일어나고 있는지 추론하고 추론을하기 내 데이터에 대해 이 데모에서 볼 수있는 데이터 BigQuery를 사용하게 될 것입니다

BigQuery는 페타 바이트 급 서버없는 데이터웨어 하우스입니다 표준 평등 액세스를 제공합니다 매우 큰 규모의 데이터 이제 Cloud SQL과 같은 데이터에 데이터를 저장하면, BigQuery SQL 엔진과 동일한 기능을 계속 사용할 수 있습니다 BigQuery의 통합 쿼리 기능을 사용합니다

이제 Bigtable 페더레이션 쿼리도 시작했습니다 기능을 제공하므로 IoT 데이터를 스트리밍하는 경우 Cloud Bigtable에 액세스하면 BigQuery와 동일한 SQL 인터페이스를 통해 그리고 우리는 또한 조금 볼 것입니다 시각화 도구를 Cloud SQL에 연결할 수도 있습니다 난 당신이 무작위로 데이터를보고 싶지 않아요 그림, 오늘 실제 물건을 살펴 봅시다 우리는 Google의 공용 데이터 세트 프로그램을 사용하려고합니다

몇 가지 데이터 세트는 일부 날씨 데이터, 다양한 미국 도시의 일부 데이터, 및 미국 이름 데이터베이스 그러나 더 많은 데이터 세트가 사용 가능하며, 구글은 항상 더 많은 것을 추가하고있다 그리고 우리가 사용할 툴을 위해, 우리는 약간의 Cloud Datalab을 볼 것입니다 시각화를위한 Python 환경, 일부 기계 학습 작업을 수행합니다 Data Studio로 대시 보드를 만들 계획입니다

그리고 말하기 없이는 시각화 대화가 완료되지 않습니다 스프레드 시트에 대해 오늘 Google 스프레드 시트를 조금만 사용하십시오 그리고 Tableau가 무대에 올거야 강력한 시각화 도구를 시연합니다 Google Cloud는 다른 많은 시각화 도구와 연결됩니다

우리의 파트너 회사를 통해 여기에 몇 가지가 나와 있습니다 많은 오픈 소스 도구를 사용하면 쉽게 연결할 수 있습니다 Google 클라우드로 오늘 많은 코드를 보게 될 것입니다 나는 당신이 그것을 이해하는 것을 너무 많이 걱정하지 않기를 바랍니다

나는 그것을 꽤 빨리 통과 할 것이기 때문에 나는 여기에 블로그 게시물을 만들었다 당신은 그 링크 bitly/visualize-with-gcp로 갈 수 있습니다, 소스를 사용하여 수행 한 모든 데모에 대한 링크가 있습니다 암호

그러면 우리는 왜 데이터를 시각화합니까? 데이터를 시각화해야하는 큰 이유 해결하고자하는 문제가 있습니까? 많은 사람들이 가지고있는 한 가지 문제 아이를 지명하는 방법입니다 자, 그건 아주 개인적인 결정입니다, 하지만 나는 괴짜 다 그래서 나는 사용하려고 노력하고 싶다 이를 해결하는 데 도움이되는 큰 데이터 시각화를 만들 때 가장 먼저해야 할 일 데이터 요약을 작성하는 것입니다

기가 바이트와 기가 바이트를 보려고 시도하는 것은 의미가 없습니다 데이터를 하나의 그림으로 모두 표시합니다 멋진 요약을 작성하고 시각화하려고합니다 따라서 우리가 할 일은 BigQuery입니다 그래서 우리의 이름 임무를 위해 우리는 어떤 이름이 거기에 있는지에 대한 느낌을 얻으려고 할 수 있습니다

어떻게 배포 할 것인가? 이 쿼리는 첫 번째 문자를 선택합니다 미국 이름 데이터베이스에있는 모든 이름들 그 편지로 시작하는 이름의 수를 계산합니다 이제 데모로 넘어 가자 이것은 동일한 쿼리이지만 BigQuery UI에서입니다 이 빨간색 단추를 클릭하여 쿼리를 실행하고, 그것은 몇 초가 걸릴 것입니다

그리고 그 작업이 완료되면 이 버튼을 클릭하여 Google 스프레드 시트에 저장 버튼을 누르십시오 그런 다음 클릭하여 보겠습니다 새 탭이 열리면로드가 완료됩니다 Google 시트에서 검색어의 결과를 보게됩니다 이제는 정확한 숫자에 대해서는별로 신경 쓰지 않습니다

내가 정말로 원하는 것은 배포판에 대한 느낌을 얻는 것입니다 그래서 새로운 차트를 삽입 할 것입니다 Google 스프레드 시트에서는보고있는 데이터 유형에 따라 다른 시각화 이 경우에는 가로 막 대형 차트가 제안됩니다 그것은 우리가 원하는 것입니다

그것을 삽입합시다 이제 우리는 왼쪽에있는 문자 J가 지금까지 가장 유명한 이름의 시작 문자입니다 그리고 나서 결국 천천히 내려갑니다 너무 드문 문자 U로 내려 간다 이 막대 차트에 막대로 표시되지 않습니다

그래서 당신이 독특한 이름을 가지면, 편지로 시작하는 것을 골라 라 Ursula 또는 Ulysses가 좋은 옵션 일 수 있습니다 우리는 시각화를 구축하여 데이터를 탐구했습니다 Google 스프레드 시트의 장점 동료들과 쉽게 공유 할 수 있으며, 그래서 그들은 쿼리 결과를 볼 수 있습니다 그리고 당신이 만든 시각화

이제는 따기에 잠재적 인 문제가 있습니다 U 자로 시작하는 이름 나는 내가 경험 한 것을 안다 이 초등학교에서 그래서 당신은 초등학교에 돌아 왔고, 그리고 당신은 쉬는 동안 밖에 나가기 위해 일렬로 세우고 있습니다

선생님이 알파벳순으로 줄 지어 줄거야 그리고 선의 끝에있는 것은 정말로 불편합니다 그리고 그것은 또한 똑같이 불편하다 줄의 시작 부분에있다 그래서 나는 성장하는 것을 안다, 나는 그 멋지고, 편안하기를 바랐다

중심 지점 최적화를 돕기 위해 시각화를 구축 할 수 있는지 알아 보겠습니다 우리 이름으로 따라서 데이터를 요약하면 다른 SQL 쿼리를 실행합니다 이 경우 데이터 세트의 모든 이름을보고 있습니다

얼마나 많은 사람들이 그 이름을 가졌는지 세어 봅니다 그리고 그것은 많은 양의 데이터처럼 보일 수 있습니다 – 그리고 그것은 – 그러나 우리의 시각화 도구가 할 수있는 작은 세트입니다 그것을 처리하면 다른 방식으로 필터 처리 할 수 ​​있습니다 초기 쿼리를 실행 한 후 이것은 Cloud Datalab입니다 그것은 Python / Jupiter 노트북 환경입니다

그것이 의미하는 바는 무엇입니까? 이 회색 상자는 세포라고 불린다 그래서이 셀들은 파이썬 코드를 가지고 있습니다 그리고 당신은 그들이 회색으로 강조 표시되어있는 것을 보았습니다 아직 내가 그들을 운영하지 않았다는 의미입니다 그래서 내가 할 일은 내가 갈거야

클릭하여 Shift 키를 누르십시오 내 키보드에서 Enter 키를 누르십시오 코드 라이브를 실행하려고합니다 그래서 우리가하고있는 첫 번째 일 일부 라이브러리를 가져 오는 중입니다 이러한 라이브러리는 많은 Python에 친숙 할 수 있습니다

프로그래머 우리는 단지 matplotlib을 사용하고 있습니다 파이썬에서 시각화를 구현하는 데 매우 일반적입니다 우리 분석을하기위한 판다 또한 BigQuery 쿼리를 수행합니다 그래서 우리의 질의가 완료되었습니다

그리고 여기에 약 30,000 개의 행이 있음을 알 수 있습니다 그래서 그 차트를 만들자 이를 파레토 차트라고합니다 기본적으로 가로 막 대형 차트입니다 우리가 본 이전의 줄거리와 매우 흡사하게 바를 볼 수 있습니다

그러나 여기에 여분의 선 그래프가 있습니다 그 선 그래프가 나타내는 것은 무엇입니까? 누적 합계입니다 예를 들어, 편지 I에서, 당신은 그것이 40 %를 넘는 것을 봅니다 즉 이름의 40 %는 A부터 I까지의 문자로 시작됩니다 그래서 나 또는 그 앞에 나타납니다

우리가 찾고있는 것은 멋진 중심 지점이므로 우리는 50 %를 넘는 곳을 찾고 있습니다 글자 J에 관한 것 같습니다 그래서 확대 해 봅시다 여기 또 다른 파레토 플롯이 있습니다 이번에는 처음 두 개 다른 이름의 편지,이 시간 시작 편지 J

그리고 우리는 그 50 % 마크를 찾고 있습니다 다시 J, O 편지를 받았으니 조로 시작하는 이름 그래서 다시 확대하고 다시 50 % 마크 라인을 찾으십시오 그리고 우리는 그것이 조 (jor)에서 교차하는 것을 봅니다 이제 최종 시각화를 위해, 우리는 실제로 테이블을 할 것입니다

그리고이 테이블은 기술적으로 시각적이지만이 경우 그것은 가장 적절한 것입니다 우리가 특정 이름을 찾고 있기 때문에, 그래서 우리는 정확한 50 % 표시를 찾고 있습니다 바로 교차하는 곳 그리고 꽤 가까운 관계가 있음을 알 수 있습니다 그러나 요르단은 우리의 완전한 편견없는 이름입니다

요르단이라는 이름을 택하면 존재의 가장 좋은 기회를 갖게 될 것입니다 초등 학교의 그 중심에 그래서 그것은 바보 같았습니다 그래서 돌아 가자 심각한 데이터까지 이것은 실제로 무언가를 의미합니다

지난 10 년간의 기상 데이터를 나타냅니다 텍사스 주 오스틴 출신 그래서 오스틴은 많은 것들과 많은 축제로 유명합니다 하지만 그 중 하나는 Austin City Limits Music Festival입니다 그래서이 축제는 10 년 이상 계속되었고, 몇 년 전 2009 년에 다시 주로 주말에 전환되는 대신 9 월에는 10 월에 주말까지 자, 오스틴 친구들은 이것에 대해 많은 이론을 가지고 있습니다

하지만 가장 일반적인 것 같다 그것은 9 월에 오스틴에서 정말로 더워요 특히 야외 뮤직 페스티벌의 경우 하루 종일 태양 아래에서 내 친구들의 가설은 주최자가 더위를 이기기 위해 10 월 이제, 그것은 훌륭한 이론입니다

일부 직관적 인 의미를 만드는 것 같다 큰 데이터를 사용하고 이 가설이 맞으면 우리가 할 첫 번째 일은 요약을 만드는 것입니다 그래서 우리는 또 다른 BigQuery 쿼리를 실행할 것입니다 이 쿼리는 NOAA 날씨 공개 데이터 세트의 데이터를 선택합니다

데이터 세트가 100 년 이상의 온도 데이터 전 세계의 기상 관측소에서 그래서 우리가 그것을 거슬러 내려갈 방법입니다 오스틴, 텍사스, 기상 관측소를 선택하는 것입니다 지난 10 년간의 기상 데이터로 제한됩니다 다시, 우리는 Datalab Notebook을 사용할 것입니다

그리고 동일한 도서관, pandas matplotlib 그리고이 쿼리는 조금 걸릴 수도 있습니다 약간 더 큰 데이터 세트이기 때문에 더 길다 하지만 여전히 꽤 빠릅니다 이제이 데이터를 정리해 보겠습니다

자, 이것은 정확히 같은 데이터 세트입니다 당신이 그 슬라이드에서 보았던, 그러나 그것은 훨씬 더 분명해야합니다 여기 패턴 그래서 10 년 동안 데이터를 가져 왔고 서로의 위에 겹쳐서 계절 변화를 볼 수 있습니다 그래서 x 축은 올해의 요일입니다

y 축은 화씨의 온도입니다 빨간색은 고온을 의미합니다 낮에는 블루스가 저온, 회색은 하루 평균 기온입니다 그럼 여기서 확실히 볼 수있는 한 가지 우리가 기대하는 것처럼 그것은 여름에 훨씬 더 덥습니다 실제로 온도의 차이 겨울 대 여름 달에는 훨씬 더 낮다

개월 그들은 겨울 내내 늘 변화합니다 그러나이 그래프는 우리의 질문에 답하지 않습니다 우리가 알고 싶은 것은 음악 페스티벌 이 줄에 누워있어 보자

나는 조금 확대했다 왼쪽에는 음악 축제 중 하나가 있습니다 9 월에 일어난 주말과 오른쪽 파란 선은 음악 축제의 한개이다 그것은 10 월에 일어난 일입니다 따라서 여기서 우리는 확실히 하향 추세를 볼 수 있습니다 10 월과 5도 차이가 있습니다

9 월과 고온 저온이지만 5도 큰 차이는 아닙니다 어쩌면 그것이 주된 이유는 아닙니다 주최측은 10 월을 한 달에 선정했습니다 10 월 선택에 대한 한 가지 사실이 첫해입니다 Austin City Limits Music Festival이 10 월에 있었고, 주말 내내 집중 호우가났다

그래서이 야외 뮤직 페스티벌은 정말 진흙 투성이 였고, 그들은 잔디밭에 퇴비를 퍼뜨 렸습니다 전에 그렇게 냄새가났다 그래서 이상적인 주말을 골라 내면 야외 음악 축제의 날씨에 따라, 어쩌면 온도 데이터 그 이상의 것을 선택할 수도 있습니다 오스틴에 관해서는, 저는 약 5 년 동안 그 곳에서 살았습니다 그 쯤

그리고 내가 만난 문제 중 하나는 내가 구제 할 수있는 시각화가 있었는데, 사는 곳을 선택하고있었습니다 나는 큰 대중 교통 수단이다 나는 언제든지 버스와 경전철을 타고 싶다 심지어 100도 밖에 떨어지는 오스틴에서도 그리고 뜨거운 태양 아래에서 나 밖에있어, 나는 버스를 탈거야 어쩌면 내 이상적인 장소는 믿을만한 대중과 가까울 것입니다

대중 교통 역 오스틴에 사는 것에 관한 또 다른 것 당신은 타코를 사랑하는 법을 배우고 있습니까? 당신은 하루 종일 식사마다 타코를 먹는 것을 끝내고, 그러나 특히 아침 식사 그래서 나의 이상적인 자리는 어딘가에있을 것입니다 그것은 둘 다 신뢰할 수있는 대중 교통에 가깝습니다 내가 좋아하는 타코 상점들과도 가깝습니다

이 문제를 해결하는 데 도움이되는 시각화를 만들어 봅시다 우리는 데이터를 다시 요약 할 것이며, 다시 BigQuery를 사용하십시오 이번에는 데이터 세트를 쿼리 할 것입니다 캡 메트릭스가 업로드되었습니다 오픈 데이터 커뮤니티 회원 인 Sean Cascketta 공개 BigQuery 데이터 세트에 추가합니다

그리고이 데이터에는 버스 트래킹 데이터 – 그래서 버스뿐만 아니라 모든 버스의 시간과 위치 멈 춥니 다 그래서 제가 여기서 선택하는 것은 언제든지입니다 버스가 버스 정류장에 있는데, 나는 그 버스가 일정에 있음을 알고 싶다 또는 일정을 벗어난다 왜냐하면 나는 그것을 어떻게 사용했는지 신뢰할 수있는 버스입니다

차라리 일정보다 버스가 운행되고 싶습니다 다시 데모로 돌아가십시오 이것은 또 다른 노트이며, 여기 파이썬 코드가 더 있습니다 나는 팬더와 matplotlib를 사용하고 있지만 여기에 몇 가지 다른 라이브러리가 있습니다 지리적 데이터로 작업 할 수 있습니다

또한 쿼리 결과를 업로드했습니다 Cloud SQL postgres 인스턴스로 복사합니다 그 이유는 postgres 인스턴스가 지원하기 때문입니다 나를 허용하는 PostGIS 확장 프로그램 GIS 쿼리를 수행합니다 이 경우 버스 추적 데이터를 얻었습니다

나는 또한 내가 좋아하는 타코 샵을위한 테이블을 추가했다 그래서 저는 SQL을 통해 가장 가까운 타코 상점과의 거리를 선택했습니다 그래서 쿼리가 끝났습니다 이 음모를 꾸미 죠 이를 보로 노이 (Voronoi) 다이어그램이라고합니다

버스 정류장의 위치를 ​​알려줍니다 여기 파란색 점들입니다 그 버스 정류장에서 봉사하는 지역도 있습니다 이 파란색 점은 각각 다각형으로 둘러 쌓여 있습니다 해당 지역 내의 모든 지점, 가장 가까운 버스 정류장 그 안에 포함 된 파란색 원입니다

자,이 위도 – 경도 데이터를 플로팅했습니다 그냥 보통의 xy 비행기에서, 그리고 그건 아니에요 할 옳은 일 이제지도에 그려 보겠습니다 그래서이 보로 노이 다이어그램을 Go-JSON으로 변환 할 것입니다

그리고 나서 그것을 사용하여 음모를 꾸미겠다 리플릿이라는 도서관 여기 모든 버스 정류장 구역이지도에 그려져 있습니다 그래서 우리는 다른 영역을 볼 수 있습니다 오스틴지도에 겹쳐 진 버스 정류장에서 운행합니다

이것은 우리의 질문에 대한 대답이 아닙니다 신뢰도에 따라 색상을 지정하겠습니다 그 역에서 버스의 이제 우리는 어두운 보라색 영역이 어디 있는지 볼 수 있습니다 버스는 그다지 신뢰성이 없다

그들은 평균적으로 오프 스케쥴을하고 있습니다 더 가벼운 지역은 대중 교통이있는 곳입니다 꽤 안정적이며 대부분 일정에 맞춰져 있습니다 그래서 훌륭합니다 이걸 이용해 아파트를 구할 수 있어요

하지만 내 타코 문제는 해결되지 않습니다 이제 타코 테이블을이 데이터 세트와 결합 해 봅시다 그래서 지금 나는 내가 좋아하는 타코를 모두 덮어 씌웠다 상점은, 그리고 나는 그것을 착 색했다 대중 교통의 신뢰성뿐만 아니라, 타코 샵에 가깝습니다

따라서 밝은 영역은 신뢰할 수있는 대중 교통이있는 영역입니다 타코 상점에 가깝고 어두운 지역 신뢰할 수 없거나 타코 상점에서 멀리 떨어져 있거나 둘 다 없습니다 여기 주위를 돌면서 몇 가지 가능한 선택을 볼 수 있습니다 우리가 남쪽에 살고 싶다면 나는 이것이 여기의 William Canyon Road 다라고 안다

그리고 토치의 타코 (Tacos)에 의한거야 우리가 동쪽에 살고 싶다면, 너무 많은 선택 사항이 없지만 Plaza Saltillo 빛에 의해 여기의 작은 지점을 백인으로 알아 들었다 철도역과 엘 Chilito 또는 우리가 북쪽에 살고 싶다면, 토치 타코 (Torchy 's Tacos) 건너편에 멋진 곳이 있습니다 Burnet Road에 그래서 우리는 완벽한 곳을 찾았습니다

믿을 수있는 대중 교통 수단과 맛있는 음식과의 근접성이 있습니다 타코스 그래서 잠시 동안 당신이 데이터 과학자라고 상상해 봅시다 당신은 대중 교통 회사에서 일하고 있습니다 그래서 너는 내 이야기를 보았고 너는 원한다

보라색 영역의 수를 줄이려고 따라서이 버스를 제 시간에 운영되도록 유지하는 것이 귀하의 임무입니다 그래서 당신은 같은 종류의 분석을 할 것입니다 우린 방금 보았지만, 결국 너는 동료 중 한 사람과 작업을 공유하려고합니다 한 가지 방법은 스크린 샷을 찍는 것입니다 당신의 시각화를 꺼내서 보내십시오

동료에게 전자 메일로 보내십시오 이제는 잘 작동합니다 그들은 당신이 본 똑같은 이미지를 보게 될 것입니다 그러나 거기에 문제가 있습니다 버스가 돌아 다니고

그래서 직장 동료가 한 시간 만에 이메일을 보게됩니다 나중에 문제는 진화 할 것입니다 그래서 이상적으로 우리는 라이브 대시 보드를 한 시간 전에는 데이터가 표시되지 않지만 그 데이터는 지금 당장 Data Studio를 사용하여 그런 대시 보드 Data Studio를 사용하면 BigQuery에 연결할 수 있으며, 이 대화의 다른 시각화에서 보았 듯이 Google 애널리틱스 및 기타 많은 데이터도 지원합니다 출처

이 경우 BigQuery 쿼리를 사용합니다 따라서이 쿼리는 이전에 본 쿼리와 매우 유사합니다 나는 아직도 얼마나 멀리 떨어져 있는지보고있다 버스는 평균에 있지만, 이번에는 요일과 시간대별로 나누기 시간이 지남에 따라 문제가 어떻게 변하는 지보고 싶기 때문입니다 데모를 준비하면서이 Data Studio 대시 보드를 만들었습니다

그래서 Data Studio의 필터링 메커니즘을 사용했습니다 여기에 7 개의 다른 그래프를 만들려면, 각기 다른 요일을 보여줍니다 그리고 나서 각각에 대해 선 그래프를 얻었습니다 X 축은 그날의 시간이고, y- 축은 버스와 얼마나 멀리 떨어져 있는가입니다 그 시간 동안 평균 버스가 정각에 출발한다는 것을 알 수 있습니다

그것은 의미가있다 그들은 방금 경로를 시작했습니다 그리고 그들은 점점 더 많은 시간외 근무를하게됩니다 하루 종일 오후에, 그들은 조금 따라 잡는다

그러나 러시 아워는 헛 스윙에서 빠져 나옵니다 Data Studio의 가장 큰 장점 이 공유 버튼이 여기 있습니다 그것을 클릭 할 수 있습니다 그것은 당신에게 링크를 제공합니다 동료에게 보낼 수 있습니다

이 페이지를로드 할 때 이 쿼리를 다시 실행하면 데이터의 생활 모습을보십시오 이 대시 보드를 만드는 데 도움이 필요하다면 당신은 그것들에 새로운 시각화를 추가하기를 원합니다 그들에게 편집 권한을 줄 수 있습니다 당신이 Google Doc처럼 이제는이 대시 보드에서 선 그래프 만 사용했습니다

Data Studio는 막대 차트, 지리 맵, 분산 형 차트, 오늘 본 모든 시각화 그리고 더 Data Studio는이 공유 사례에 매우 유용합니다 분석에 사용할 도구가 아닙니다 부분, 탐색 단계, 알아내는 부분 어떤 변환과 내가 데이터에 만들고 싶은가? 어떻게 시각화하고 싶습니다 이를 위해 나는 그 노트를 사용하기를 좋아합니다

파이썬을 돌릴 수 있다면 정말 편리합니다 일부 데이터를 가져오고, 여러 가지 방법으로 필터링하고, 다른 시각화를 사용해보십시오 코드에 대해서 다시 말하면, 여기 블로그 게시물에 대한 링크 당신은 그것을 잊었고 당신은 코드 I을 찾고 싶다 이 데모를 만드는 데 사용됩니다 하지만 코더가 아니라면 다른 옵션이 있습니다

그리고 그것은 Tableau입니다 Tableau는 강력한 시각화 및 분석 기능을 제공합니다 수단– 코딩 기술이 필요하지 않습니다 그 점에 대해 자세히 알려면 내가 누가 Vaidy Krishnan을 소개하는지 무대에 서서 너에게 보여줄거야 통찰력을 얻기 위해 GCP 고객이 Tableau를 사용하는 방법 그들의 큰 데이터에 대해

VAIDY KRISHNAN : 고마워 그래서 제 이름은 Vaidy입니다 나는 Tableau의 파트너십을 이끌고 있습니다 그래서 Tableau에서의 나의 일은 Google과 모든 사람들과 함께 일하는 것입니다 우리가 협력하는 다른 기술 파트너 Tableau를 통해 고객이 더욱 성공적으로 성장할 수 있도록 지원합니다

그리고 오늘, 나는 너에게 이야기 할거야 우선, Tableau가 Google과 어떻게 통합되는지 플랫폼, 고객이 Google을 선택한 이유, 고객이 선택한 이유 Tableau와 왜 우리가 제공하는 공동 가치는 우리와 고객 모두를위한 승리 그런 다음 사용하기위한 몇 가지 모범 사례를 살펴 보겠습니다 BigQuery와 Tableau를 함께 사용합니다

하지만 그 전에는 손을 빠르게 보여주고 싶습니다 얼마나 많은 사람들이 Tableau가 무엇인지 이미 알고 있거나 이미 알고 있습니다 Tableau를 사용합니까? 그래서 훌륭합니다 모든 사람들이 경험할 수있는 기회가있는 것처럼 보입니다 Tableau 또는 이미 사용하고 있지만, 때로는 성과로 어려움을 겪었다

그것으로 어떻게 작동하는지 잘 이해하지 못했습니다 그리고 우리는 몇 가지 모범 사례에 대해 이야기 할 것입니다 끝나기 전에 간단한 데모를 시작하겠습니다 10 억 줄의 뉴욕시와 연결됩니다 택시 데이터

그리고 큰 고객이 우리가 가진 것에 대해 이야기하겠습니다 기조 연설에서 특집으로 나온 여러 가지 어제 여기 Google Tableau 데이터 플랫폼이 좋아 보인다 따라서 Tableau는 매우 깊은 스택의 최상위 계층에 불과합니다 대부분의 고객이 구성 및 분석하는 데 사용하는 그들의 기업 내부 정보

대부분의 경우이 방법이 작동하므로 일부 원시 데이터가 있습니다 이것은 센서에서 나올 수 있습니다 이것은 판매 일 수 있습니다 이것은 마케팅 데이터 일 수 있습니다 Google Cloud Storage로 이동합니다

그런 다음 여러 다른 데이터베이스 중 하나로 이동합니다 이 모든 것은 Tableau가 직접 네이티브 연결을 제공합니다 그래서 우리는 Cloud SQL에 대해 이야기하고 있습니다 모든 마케팅 웹 사이트 데이터는 Google 애널리틱스로 전달됩니다 Google 스프레드 시트, Google BigQuery 곧 Google Bigtable에 직접 연결됩니다

클라우드 데이터 파이프 (Cloud Dataproc)는 구글의 서비스 인 하둡 (Hadoop) 플랫폼 자, 여러분 중 많은 사람들이, 음, 기본 연결이란 무엇입니까? 그래서 원시 연결성 – 본질적으로, Tableau와 Google이 함께 작업 우리의 연결이 성능에 맞게 조정되었는지 확인하십시오 Tableau 기능 세트를 최대한 활용합니다 우리가 ODBC를 통해 연결하면 항상 최적화 된 것은 아니며, 두 엔지니어가 모두 열심히 일하고 있습니다 이 통합이 수행되고 있는지 확인하십시오

우리 고객을 위해 잘 작동합니다 오늘은 Google BigQuery에 대해 이야기하고 있습니다 나는 단지 몇 순간을 보내고 싶다 왜 고객이 Google BigQuery를 좋아하는지 강조합니다 그리고 나는이 문제에 관여하지 않을거야

왜냐하면 당신 중 많은 사람들이 참석했기 때문입니다 이것을 다루는 몇 가지 다른 세션들, 하지만이 슬라이드에 대해 가장 좋아하는 부분은 무엇입니까? GBQ가 직면 한 모든 전통적인 문제를 해결하고 있습니다 데이터웨어 하우스는 왼쪽에 있습니다 서버를 설계, 구축 및 관리 할 필요가 없습니다 용량 예측을하지 않아도됩니다

일반적으로 많은 비용이 발생합니다 그것으로 입구에 장벽을 만듭니다 Google BigQuery를 사용하면 서버가없는 아키텍처를 사용할 수 있습니다 그래서 그것은 고객으로부터 완전히 추상화되었습니다 자동으로 스토리지를 위아래로 확장 할 수 있으며, 귀하의 필요에 따라 귀하의 사용이 증가합니다

그리고 총체적 – 이것은 고객이 민첩성을 얻는다는 것을 의미합니다 그들은 반드시 투자 할 필요가 없다 사전 방면으로하고, 그들은 많은 위험을 다룰 필요가 없습니다 따라서 당신이 가지고있는 클라우드 플랫폼과 마찬가지로, Google BigQuery는 설비 투자에 시간을 투자 할 필요가 없다 대부분 opex이며 확장 가능하고 민첩합니다

일반적인 문제에 대해 이야기 해 봅시다 데이터 분석에 직면 해 있습니다 첫째, 많은 레거시 BU 제품과 마찬가지로 – 실제로 놀랄만 한 숫자입니다 새로운 공급 업체, 특히 데이터 검색 분야에서 데이터에 연결하는 코드를 작성하게합니다 DBA 또는 개발자 인 사람에게 좋은 것은 무엇입니까? 하지만 비즈니스 사용자 나 그의 일에서 나오는 행동에 가깝다

데이터를 아는 사람은 그렇게하기 위해 시간을 보내야합니다 이제 데이터에 연결할 수있게되면 일반적으로 방문을 만드는 것은 매우 어렵습니다 당신은 당신이 어떤 질문을하는지 알아야합니다 당신이 분석하기 전에 물어볼거야, 그러나 그것은 데이터 탐색이 작동하는 방식이 아닙니다 90 %의 시간 동안 나는 단지 10 억 개의 행을 가지고 있습니다

나는 어떤 질문을해야할지 모르겠다 나는 그저 탐구하고 그 데이터가 무엇을 유도하는지 알려줄 필요가있다 그 질문이 있어야합니다 그래서 플랫폼을 상상해보십시오 한 무리의 마법사를 클릭하십시오

또는 전에 차트 유형을 선택하십시오 그 질문을했다 우리는 그 경험을 혼란스럽게하고 싶었습니다 그리고 나는 Tableau가 그것을 어떻게 해결하는지 이야기 할 것입니다 그리고 마지막으로, 일단 당신이 뭔가를 만들었 으면, 당신은 공유해야합니다 – Tim은 조금 더 일찍 이것을 암시했다

귀하의 조직의 나머지 부분과 함께 작동합니다 이것은 내부적으로, 이해 관계자 또는 고객과 함께 할 수 있으며, 그 분석이 수행되는지 확인하십시오 그리고 다시, 그것은 전형적으로 쉽지 않았습니다 기존 BI 플랫폼에서 Tableau가 어떻게 도움이 될 수 있습니까? 우선, 모든 Google 데이터에 연결할 수 있습니다 내가 이야기 한 자료들과 다른 많은 자료들 몇 분 안에 그리고 나는 대부분의 조직에서, 모든 데이터가 한 곳에 저장되는 것은 아닙니다

따라서 GBQ에 많은 양의 데이터가있을 수 있습니다 Salesforce에 데이터가 있지만 Marketo에 데이터가 있습니다 아직도 오래된 스프레드 시트가 있습니다 팀 중 일부가 계속 될 수도 있습니다 지속적으로 당신이 분석을 원한다

우리는 당신이 모든 데이터 소스를 함께 가져올 수있게 해줍니다 우리는 단순한 시각화 도구가 아닙니다 그래서 우리가 언제 다시 시작했는지 알 겠어 2003 년, 처음 몇 년 시장은 우리를 반짝 반짝 빛나는 새 장난감으로 보았습니다 그러나 수년에 걸쳐 우리는 우리의 역량을 확장했습니다

우리는 이제 엔터프라이즈 준비 임무가 된 것을 자랑스럽게 생각합니다 사람들에게 데이터를 분석하고 탐색하는 것, 그것을 공유, 관리 및 협업하고 배포하는 것 사람들이 힘을 얻도록하는 방식으로 그리고 IT는 현재 운전에 참여할 수 있습니다 조직의 분석 방향 따라서 비즈니스 사용자가 관리됩니다 그들이 통치되고 있다고 느끼지 않고, IT 부서는 이제이 모든 시간에 집중할 수있게되었습니다

높은 수준의 보안 및 데이터 관리 작업 Tableau와 Google은 어떻게 협력합니까? 다시 말하면 속도와 민첩성의 세 가지가 있습니다 Google Cloud 엔진에 배포합니다 몇 분만에 연결할 수 있고 데이터 분석을 시작할 수 있습니다 곧 GCP는 규모와 민첩성을 제공했습니다

짐작할만한 용량 문제는 없습니다 미리 예측할 필요는 없습니다 필요한만큼 확대 및 축소하십시오 그리고 Tableau는 모든 종류의 데이터와 무제한 양으로 작동하며, 나는 그것을 데모에서 조금씩 설명 할 것입니다 물론 TCO가 있습니다

정말 좋습니다 우리의 주요 BI 벤더 중 가장 낮은 순위에 올랐으며, GCP는 클라우드 경쟁 업체보다 최대 40 % 저렴할 수 있습니다 그렇다면 Tableau 및 BigQuery의 모범 사례는 무엇입니까? 함께? 다시 말하지만, 나는이 모든 것들에 대해서 이야기하지 않을 것입니다 하지만 내가 할 수있는 몇 가지가있다 더블 클릭하는 것만 큼 그래서 상위 절반이 모범 사례입니다

Google BigQuery를 처리해야합니다 먼저 시각화가 아닌 경우 공연, 50 %의 시간 – 아니면 70 % 시간의 75 % 데이터 소스를 잘 조정하지 않았습니다 데이터 소스에 대해 수행하는 데이터 소스입니다 나는 항상 내 고객에게 말하고 싶다 데이터 원본에 대한 SQL이 50 초가 걸리는 경우, Tableau는 40 초를 만들 수 없습니다

따라서 항상 데이터 소스부터 시작해야합니다 그럼 어떻게 하시겠습니까? 별표를 선택하지 마십시오 왜 그런가요? Google BigQuery는 원주 형 스토어이기 때문에, 그게 무슨 뜻인지 모든 칼럼입니다 다른 물리적 블록에 있습니다 따라서 열을 선택하고 별을 선택하지 않으면, 쿼리가 더 효율적으로 수행 될 것입니다

비정규 화는 가장 친한 친구입니다 따라서 Google BigQuery는 조인 (join) 하지만 구조를 미리 조인하고 평면화 할 수 있다면 본질적으로 스토리지를 컴퓨팅 리소스와 교환하고, 음, 분명히 당신은 저장을 위해 더 많은 돈을 지불 할 것입니다 하지만 계산 비용은 훨씬 적게 듭니다 그리고 그것은 그것이 매우 효과적인 절충이라고 생각합니다 검색어가 빨리 되돌아옵니다

그래서 항상 테이블을 비정규 화하십시오 실제로 Tableau에서도 마찬가지입니다 우리는 비정규 화 된 구조를 좋아합니다 분석적 쿼리를 훨씬 효과적으로 해줍니다 자연 분할을 이용하거나 명시 적 차트를 사용할 수 있습니다

다시 한번, 우리가 만들고자하는 요점은 전체 테이블 스캔을 피하고 자연 분할을 활용하므로, 보통 귀하의 기록 작성 날짜입니다 테이블 한 덩어리가 있으면 각 날짜에 대해 하나의 표가 있으면 사용할 수 있습니다 또는 필터를 사용하고 있는지 확인하십시오 모든 것을 스캔하지 않고 원하는 것을 스캔하십시오 Tableau 측에서 다시 한 번 나는 수십억 달러를 보았습니다

데이터의 가치가있는 행 수 사람들이 20 배 성능 향상 수십억 개의 데이터 행에 걸쳐 단단한 색인 및 파티셔닝이 있었기 때문에 병법 필터를 너무 많이 사용하지 마십시오 두 번째 데이터 집합 블렌딩에서 큰 데이터 집합을 피하십시오 Tableau에 관한 것은 그 쉬운 것, 사람들이 많은 일을 할 수있게 해줍니다 네가 할 수 있기 때문에

당신이해야한다는 것을 의미하므로, 그것을 피하십시오 그리고 큰 숫자를 가지지 말라 스키마와 컬럼의 미리 알면 언제나 좋습니다 또는 원하는 열이 무엇인지 알아 내려고 시도하십시오

찾아보기, 쓰레기 그리고 당신이 알고있는 것에 만 연결하십시오 너는 사용할거야 그래서 그걸로 정말 빠른 데모를 시작하겠습니다 여기 나는 Tableau 데스크톱에 연결되어 있습니다

이것이 분석가가 시각화를 만드는 데 사용하는 것입니다 이것이 분석가인데, 저는 앞으로 나아가서 Google BigQuery 인스턴스로 이동합니다 그리고 우리가 개선 한 것들을 강조하고 싶습니다 최근 몇 가지 기능을 지원하여 만든 Google BigQuery 팀이 개발했습니다 가장 먼저 GBQ가 저장 비용을 부과하기 때문에 별도로 계산하면 청구 프로젝트 기능을 사용하여 또는 특정 프로젝트에 요금을 청구 할 수 있습니다

이해 관계자 또는 고객이 많다고 상상해보십시오 실제로 모든 쿼리를 청구 할 수 있습니다 그 하나의 프로젝트에 많은 두통을 저장합니다 도로 아래로 두 번째로 우리는 지금 능력이 있습니다

바로 유효성을 검사 할 수있는 사용자 지정 SQL을 작성할 수 있습니다 왜 커스텀 SQL을 작성하고 싶습니까? 여러 가지 이유 때때로, 예를 들어, 기본 Google BigQuery 기능을 사용하고 싶습니다 와일드 카드 기능을 사용한다고 가정 해 보겠습니다 얼마나 많은 사람들이 그것을 알고 있는지, 당신은 실제로 테이블 점 별에서 별을 선택할 수 있습니까? 그래서 당신이 그런 것을하고 싶다면, 사용자 정의 SQL을 활용할 수 있습니다

또한, 우리는 약간의 깃발을 추가했습니다 레거시 SQL을 보낼지 여부를 제어 할 수 있습니다 또는 표준 SQL 그래서 GBQ는 표준 SQL에 대한 지원을 발표했습니다 ANSI SQL을 준수합니다

그러나 모두 레거시 SQL로 작성된 뷰가 있습니다 그렇다면 분명히 당신은 레거시 SQL을 보내고 싶습니다 그런 옵션을 제공합니다 그럼 몇 가지 분석을 해봅시다 그래서 여기에서 나는 끌어낼 것입니다 – 내 생각에 뉴욕시의 가치는 6 ~ 7 년 정도라고 생각합니다

택시 데이터는 모두 NYCgov 웹 사이트에서 다운로드했습니다 Google 검색어로 상영되어 가고 있습니다 몇 가지 질문을하기 시작합니다 제가 제일 먼저 알고 싶은 것은, 음, 얼마나 많은 행이 있는지

그리고 그렇게하자 조금 밖에없는 것 같아 10 억 개의 행을 초과합니다 그리고 이것은 완벽한 분석의 예입니다 나는 무엇을 묻는 지 모르는 곳에서 할 것입니다

글쎄, 난 그냥 탐험거야 그래서 제가 제일 먼저 알고 싶은 것은, 음, 시간 경과에 따라 이러한 수의 레코드가 어떻게 추세에 있습니까? 그래서 나는 픽업 데이트 타임으로 이것을 보는가? 그리고 저는 이것을 해마다 살펴 보겠습니다 글쎄, 친절 해 내가 분기 별 또는 월별로보고 싶다면? 어쩌면 이것을 조금 다르게 표현하고 싶을 것입니다 술집

내가 물어볼 다른 질문 음, 놀이기구가 어떻게 바뀌 었습니까? 지불 유형별로 시간이 지남에? 이것이 데이터에서 볼 수있는 하나의 차원입니다 나는 가지고있다, 그래서 나는 그것을 착색시킬 수있다 그리고 그 쿼리를 다시 시작합니다 그리고 희망적으로, 그것은 약간 돌아온다 그런 일이 생기면 나도 보내 줘

Tableau가 데이터에 대한 복합적인 접근 방식을 취한다고 말할 수 있습니다 그래서 우리는 고객들이 라이브, 고객은 항상 격려를받습니다 Tableau 데이터 추출을 사용하는 경우에만 사용 시간 내에 스냅 샷을 원합니다 따라서 그들은 언제나 데이터를 메모리에 가져올 수 있으며, 우리에게는 많은 고객이 있습니다 수조조의 레코드가있을 수 있습니다

그러나 개념을 증명하기 위해 그들은 단지 지난 2 년 동안의 데이터가 필요합니다 Tableau 데이터 추출을 사용하여이를 수행 할 수 있습니다 그래서 좋았어 그리고 이것이하는 일은 문제를 강조하는 것입니다 우리는 많은 양의 데이터를 볼 수 있습니다

이는 더러운 데이터입니다 그래서 여기에 저는 현금 거래를 대변하고 있습니다 여러 카테고리로 나는 단지 앞으로 나아가고 그들을 하나로 묶고 싶을지도 모른다 그래서 여기서 바로 할 것입니다

그리고 그렇게하면 소스가 바뀌지 않습니다 메타 데이터를 변경하는 것뿐입니다 이제 새로운 지불 그룹을 갖게 될 것입니다 일어날 때 생성됩니다 나는 앞으로 나아갈 것이고, 모든 신용 카드를 채울 것이다

거래도 마찬가지입니다 그럼 그렇게 하죠 그들은 그 모든 것을 하나로 묶어 놓고 있습니다 그리고 분쟁중인 거래도 계속 할 것입니다 사실, 클럽에 도움이 될 것 같아요

왜냐하면 그것은 내가 더 분석하려고 할 수도 있기 때문입니다 그리 놀랄 일도 아니지만 2009 년 데이터를 보면 '15 년까지, 신용 카드 거래의 비율 증가하고 있으며 놀라운 것은 아닙니다 그러나 당신이 그 사건을 훨씬 더 좋게 만들고 싶다면, 당신은 또한 작은 테이블 계산을 추가 할 수 있습니다 이 결과를 전체의 비율로 표현하십시오 그래서 그게 더 명확 해집니다

훨씬 좋네요 제가 지금 할 수있는 일은 몇 가지 다른 질문을하는 것입니다 어쩌면 논쟁의 여지가있는 거래를보고 싶을 것입니다 어쩌면 나는이 모든 논쟁이 언제 일어날 지 알고 싶다 거래가 발생하고 이러한 일이 어디에서 발생합니까? 그게 내게 뭔가 말해 줄거야

택시로, 내가 피하고 싶을 수도있는 부분은 무엇입니까? 그래서 나는 단지 계속 말하고, Keep Only, 이 테이블 계산을 지울 것입니다 그리고 저는 앞으로 가서 그 장을 복제 할 것입니다, 이제이 데이터를 약간 표현하려고 노력할 것입니다 다르게 어쩌면 나는 같은 정보를 한 시간 씩보고 싶을 것이다 다시 말하지만, 놀라운 것은 없습니다

아침의 연소 한 시간 안에 일어나는 타기의, 그러나 당신이 그날의 나중에 얻는 것에 따라 책은 성장한다 다음 질문은, 음, 나는 특정 이웃이나 특정 보로에 상주 뉴욕에서 이러한 모든 분쟁이 일어나고 있습니다 아침의 소중한 시간? 그래서이 데이터를 나타낼 것입니다 지리적으로

그러면 위도와 경도 데이터를 살펴 보겠습니다 그게 내가 원하는거야 그래서 내 위도가 있고, 나의 경도를 가져 오자 이리 그리고 Tableau는 자동으로, 이 정보를 지오 코딩하여 인식합니다

잘 묘사 된 주소, 그것은 새 요크, 우편 번호를 알아 냈어 하지만 그걸 가지고 있지 않으면 전체 지오 코딩 리소스 사용 위도와 경도 가져 오기 실제로 그것들을 Tableau 안에 넣습니다 하지만 이제는 여기에 약간의 쓰레기가있는 것을 볼 수 있습니다 그 놀이기구들 중 일부는 아프리카와 남극 대륙에서 발생하는 것으로 코드화되어 있으며, 그리고 분명히 나는 ​​그것을 원하지 않는다 그래서 나는 단지 그 타기들에 대해서 계속 진행할 것입니다

올바르게 코딩되었습니다 그리고 그것은 많은 놀이기구입니다 그래서 우리는 집중하고 왜 이걸 조금 닦아 라 지도 레이어도 변경할 수 있습니다 그게 좋네

그리고 불투명도를 변경할 수 있습니다보기에 더 멋지 네요 이제는이 모든 것을 대시 보드로 가져올 수 있습니다 실제로 이러한 여러보기를 연결합니다 나는 그것을 필요로하지 않는다

나는 계속 나아가서 그것이 올바르게 펼쳐지는지 확인 할 수있다 액션 필터를 사용할 수 있습니다 그리고 그것으로 하나의 뷰를 사용하여 다른 뷰를 필터링 할 수 있습니다 그래서 분명히, 우리는 여기에 LaGuardia 주변의 많은 활동, JFK, 브루클린 주변의 바쁜 도로 윌리엄스 버그 그리고 미드 타운은 항상 미쳤습니다

아침의 소흘 시간 다시 한번,이 모든 것들이 어떻게 함께 온다 그리고 다시 이것은 수십억 줄에서 끝났습니다 그렇다면 고객이 Tableau와 BigQuery를 함께 활용하는 방법은 무엇입니까? 그래서 여기에 세 가지 다른 예가 있습니다 우리는 꽤 평평한 플랫폼입니다

Tableau를 사용하는 모든 분야의 고객이 있습니다 Fortune 500 대 기업 중 약 95 %가 우리입니다 그러나 내가 강조하고 싶은 세가지 Kabam 인 하나입니다 아주 작은 게임 회사, 많은 데이터 그들은 수년간 Google과 관계를 맺어 왔지만, 그들은 게임 데이터 주변에 질문을하고 있습니다

그들은 사용자 행동을 알고 싶어합니다 사람들이 꼼짝 못하게되는지, 어떻게 디자인해야합니까? 그래서 사람들은 더 많은 것을 소비합니다 이들은 질문하는 질문의 종류입니다 덴버에있는 콜로라도 대학교 (University of Colorado) 그리고 그들은 방금 오늘 보도 자료와 함께 나왔다 그들은 그들의 EHR 데이터를 가져오고 있습니다

환자 데이터 및 환경 데이터와 결합, 맞춤 의학을 제공합니다 그리고 물론, 저는 Home Depot에 대해서 이야기하지 않을 것입니다 어제 기조 연설에서 그들로부터 소식 들었습니다 그래서, 내가 끝나기 바로 전에, 여기 두 플랫폼이 어떻게 작동하는지에 대한 리소스가 있습니다 함께

제품 관련 질문이있는 경우, 언제든지 저에게 다가 갈 수 있습니다 그리고 만약 당신이 이것을 시도하고 싶다면, Tableau의 시험판을 다운로드하면됩니다 Google BigQuery의 시험 버전입니다 둘을 연결하십시오 수많은 공개 데이터 소스가 있습니다

저기 팀이 너를 지적했다 뉴욕의 모든 데이터는 웹에서 볼 수 있습니다 메디 케어 데이터가 있습니다 당신의 심장 내용 또한 백서를 확인하십시오

나는 그것에 대해 이야기했거나 이야기하지 않았을 지 모른다 그러나 내가 다룬 모든 모범 사례 백서에 자세히 설명되어 있습니다 그리고 거기에 많은 예제들이 있습니다 기존 고객과이 둘을 사용하고있는 고객 플랫폼을 함께 사용하십시오 TIM SWAST : Data Studio에 대해 더 많이 알고 싶다면, 어제 그 얘기가있었습니다

녹음이 이미 끝났어 BigQuery에 대한 몇 가지 이야기가 있습니다 그것들을 확인할 수 있습니다 그리고 Philippe의 대담한 이야기가 있습니다 Public Dataset 프로그램에 대해 그래서 나는 그 사람들에게 가도록 권합니다

그리고이 중 하나를 직접 시도하려면, 이 코드 연구소에 갈 수 있습니다 Google Qwiklabs의 URL입니다 거기에 몇 가지 관련된 것들이 있습니다 Wikipedia 공개 데이터 세트로 BigQuery를 사용해 볼 수 있습니다 Datalab과 일부 Cloud ML 엔진을 사용해 볼 수 있습니다

내가하지 못했던 기능들에 집어 넣은 기능들 오늘에 도착하십시오 [음악 재생]

Introduction to big data: tools that deliver deep insights (Google Cloud Next ’17)

WILLIAM VAMBENEPE : 안녕하세요, 때문에 지금은 오후 세션입니다 즉, 원래 계획은 아니었지만 우리는있어 거기에 당신이 기뻐

와 주셔서 감사합니다 나는 윌리엄 Vambenepe입니다 나는 제품 매니저 그리고 난은 PM 팀을 이끌 Google 클라우드 플랫폼에 빅 데이터 서비스 그리고 나와 함께 오늘 레자입니다 레자 로니 : 레자 로니

나는 글로벌 솔루션 아키텍트 팀의 일원이야 나는 우리의 고객, 제품 관리로 직접 작업 및 엔지니어링 WILLIAM VAMBENEPE : 한 가지 방법은 시작 빅 데이터의 가치에 대한 생각 단지 구글 스트리트 뷰와 무슨 짓을했는지의 예입니다 당신은 기능을 꽤 잘 알고 얼마 전, 구글은 모든 도시를 통해 자동차를 전송하기 시작, 그리고 도시보다 더 후, 시골, 자동차보다 더 후, 결국, 정말 세계의 많은, 많은 부분의 사진을 촬영합니다 그리고 원래이 정말 Google지도의 단지 기능이었다

그렇게 할 수있는 유일한 이유는, 그것은 좋은 것이었다 사람들이 Google지도의 대상을 볼 때, 어떤 장소의 모습을 보여 그들이보고있는 것을 좋아한다 그리고 그 큰 특징이었다 우리는 사진을 필요로했다 사진을 가지고지도가 표시됩니다 무엇 매우 흥미로운 것은, 그 위에 시간 기술 개선 등 기술의 비용과 같은, 특히 규모, 방법 낮은 갔다 더 많은 데이터가 그 이미지에서 접근했다

그리고 오늘, 모든 이미지는 시간이 지남에 돌아가는 수년에, 보는 것이 좋을 것뿐만 아니라, 그들로부터 데이터를 추출하는 데 사용할 수 있습니다 이와 같이,이 경우, 거리 번호, 표지판, 어떤 창에 무엇을 표시 어떤 제품은 시간의 그 시점에서, 보급 창에? 그리고 정말, 더 많은 정보 그 갑자기 무엇에 더 많은 관점을 제공합니다 세계에서 일어나는 나는이 예제를 좋아하는 이유는 아니다 이 that– 비전 API 또는 무언가에 대해 이야기하지 않습니다 이미지에 초점을 맞추었다 정말 사실 그 설명이 데이터에서 매우 자주, 더 많은 값이다 데이터가 수집 된 원래 목적보다도

그리고 때가되면,이 기술이 향상됨에 따라, 쉽게 쉽게대로 비용으로, 아래로 이동 모든 사람이 데이터를 처리하기 위해, 데이터가 발견됩니다 그 값은 깨달았다 그리고 사실 당신은 정말, 오늘 걸 지도 팀과 같은 위치에서 당신을 둔다 이제, 여기있는이 회의에있는의 미덕 및 다양한 세션에 가고, 매우 강력한 기술에 액세스 할 수 그것은 훨씬 사용하기 쉽고 조작하기가 훨씬 쉽다 그리고 그것은 우리가 오늘 논의하려고하는거야 의 몇 가지 다른 응용 프로그램 시작하자

이미지 하나를 시작하는 아주 좋은 하나입니다 매우 시각 때문으로 데이터가 생산적으로 사용되는 다른 많은 방법이있다 나는 그것에 대해 생각하고자하는 방법은 아래를 파괴하는 것입니다 두 가지 범주한다 사용 사례 곳의 세트가있다 데이터는 인간을 통보하는 데 사용됩니다 인간은 결정을 내려야한다

그 결정이 있었다면 그것은 좋은 것입니다 실제 이벤트 데이터에 의해 알렸다 그리고 그 분석의 전통적인 모델입니다, 비즈니스 인텔리전스 그리고 분명히, 여전히 매우 중요합니다 그리고 여기에 몇 가지 예는 훨씬 더 완전한 얻을 수있는 곳 공급망에 대한 통찰력, 더 많은 적시 통찰력, 게다가 그렇다면 공급망의 한 부분, 한 파트너, 문제의 원인이, 당신이되고 싶어 도록하는 것과는 반대로, 확실히 것을 알 수 그 파트너가, 정말, 당신이 얻을 것을 직감 그들에 대한 불만을 많이

그리고 당신이 그것을 실행할 수있게되면 신속하게 통찰력을 얻고 유스 케이스의 또 다른 예를 들어, 음, 난 제품 관리자는 그래서 꽤 자주 제품 결정을 내릴 당신이 기반으로하는 의사 결정을 내릴 수있을 때 그것은 좋다 실제 데이터로는 통찰력에 반대했다 우리 모두는 우리가 위대한 직관을 생각 우리는 그렇게 생각하면 우리 모두 자신을 바보 그래서 데이터를 더 잘 이해하는 데 사용할 수 있습니다 사용자 행동, 실험을 실행하려면 시작 기능이나 사용자 집합에 대한 기능의 버전 정말 그 행동에 미치는 영향을 비교합니다

그래서 경우 몇 가지 예를있다 여기서 데이터는 의사 결정을 내릴 인간을 통보하는 데 사용됩니다 그리고 점점 더 많은, 케이스 곳이있다 인간은 루프를 벗어났습니다 어디에서 데이터의 분석은 직접 사용 응용 프로그램의 동작에 영향을 미칠 수 있습니다 우리는 모든 시간을 볼 수있는 가장 일반적인 예 당신이 따라 쇼핑을 갈 때입니다 당신이 구입 한 내용을, 구입 무엇을, 권장 사항 그 잘 이해합니다 그리고 그 권고를하고, 분명히 어떤 사람이 없습니다

그러나이 방법으로 넘어 간다 많은 시스템이 어디에 있는지 단지 인간을위한 시간이없는 것, 어쨌든 반응합니다 당신은 매우 일어나는 금융 거래보고 할 때 신속하게, 시간은 돈이다 사기는 즉시 중단되어야한다 그것은 단지, 어쨌든 불가능했을 것입니다 경우에도 수동으로 할 인간의 군대를했다

당신은 기계가 자동으로 행동 할 위치 그리고 그건 또는 문제를 해결하고 프로세스를 자동화합니다 다음은 예제의 일부입니다 물론, 그들이 당신을 일어날 수 있도록 실제로 데이터에 액세스 할 수 있어야합니다 그리고 사람들은 때때로, 음, 궁금해 정말 데이터의 종류에 액세스 할 수 있습니까? 나는 세계의 모든가는 자동차를 복용하지 않아도 영화 나는 강력한 통찰력을 가지고 데이터의 종류가 없습니다

그리고 현실에서, 경우에 당신은 다시 조치를 취할 그리고 당신이 필요로하는 사용자의 데이터에 대해 생각 훨씬 더 광범위하게 생각합니다 물론, 데이터가 이미 당신 오늘 분석했다 그리고 그 사람은, 당신은 일반적으로 아주 잘 알고 그 값의 좋은 감각을 가지고 그 이로부터 추출 될 수있다 그러나, 수집 된 데이터가 많이있다 하지만 실제로는 분석하지 않습니다 그 기본 구성했기 때문에 아마 당신은 수집 모든 데이터를 수집합니다

또는 당신은 수집 된 일부 사람들 때문에 할 수 있도록하려면, 때때로, 포인트 조회를 할 이동 그 시간에 그 날 무슨 일이 있었는지 알아보십시오 글쎄, 내가 로그에 가서 그것을 알아낼 수 있습니다 하지만 실제로는 더 엄격한, 전체적인 사용도 없다 그 상황에서 데이터 그리고 그 데이터는 정말 이상 직접 확인할 수 있습니다 고급 처리 그리고 수집 할 수 많은 데이터가있다 당신이 뭔가를 할 계획이없는 경우에 있기 때문에,하지 그것으로, 당신은 왜 귀찮게 것? 왜 당신은 그것을 수집하는 것? 하지만이 기술에 접근 할 수로, 기술이 사용하기 쉬운됨에 따라, 정말 주위에 더 많은 생각을 시작하는 것이 합리적이다, 글쎄, 어쩌면 내가 악기이 있었다

어쩌면 내가 그 데이터를 수집하고 그것을 가져올 수 있습니다 그리고 네 번째 카테고리 데이터는 당신이 반드시 생성하고 생성하지 않는 것이, 하지만 당신은 누군가를 요청하여 액세스를 얻을 수있다 그래서 하나의 예는 상업 업체에서 데이터를 것 당신이 중 하나가있을 수 또는 제 3 자 파트너에서와 배열 또는 구매, 또는 데이터 통합 할 의향이있는 사람 더 밀접하게 당신과 함께 그래서 더 넓게 많이 생각하는 것이 좋습니다 것입니다 데이터에 대한 플랫폼에서 사용할 수있다 것들 중 하나는 우리는 기조 연설에서 오늘 아침 발표 우리가 지금의 BigQuery 전송 서비스를 가지고있는 마케팅을 가져 자동화하는 것입니다 YouTube의 더블에서 AdWord를에서 구글,의 데이터, 직접 클라우드로 게시자, 있다면

우리는 또한 상업 데이터 세트 업체와 함께 작동, 다우 존스처럼, 직접 데이터를 사용할 수 있도록합니다 그래서 정말 당신에게 가능한 데이터의 큰 우주가있다 이제 단점에, 역사적, 그건 데이터를 사용하는 것이 어려웠하는 이유입니다 많은 사람들이 일을하지 않았습니다 아니면 일을 한 사람은, 하둡 클러스터 설치 거기에 어떤 값을 얻기 위해 노력 종종 매우 고통스러운 발견했다 그리고 고통스러운 것을 만들었습니다 포인트 중 하나 데이터가 거의 제공하지 이러시면 당신이 가지고 있다는 것입니다 사용할 준비하고 처리 할 준비가 방법이다

당신은 당신이 그것을 청소해야, 그것을 준비해야 당신은 오른쪽 모양을 얻을 수있다 그 도전이었다 그리고 한 가지 우리가 도입하는 오늘 아침 구글 클라우드에 새로운 서비스입니다 라는 Google 클라우드 Dataprep은 구체적으로 그 문제를 해결하기 위해 그리고 방법으로 그 문제를 해결하기 위해 어떤 코드를 작성하고 필요에 액세스 할 필요가 없습니다 개발자 그래서, 그 데이터의 최종 사용자 권한을 부여 것 누가 이해 사람들을 모델을 이해 데이터의 내용은 스스로 돕는 및 준비 분석 그래서 오히려 내 손을 흔들며하고 설명하는 것보다, 내가 예와 데모를 통해 그렇게 할거야

내가 모범을 설정할 수 있습니다 여기에 사용 케이스는 당신이 소매 업체입니다 당신은 트랜잭션 데이터가 있습니다 그래서 때마다 누군가가 구입하지, 즉, 해당 트랜잭션에 새 행이다 무엇보다도 포함 상단에 테이블, 구입 한 모든 제품 그래서 당신은 하나 개의 행을 얻을 다섯 개 제품을 구입하는 경우, 그것은 하나의 트랜잭션, 하나의 행입니다

그리고, 해당 행 내에서, 당신은 것을 볼 수있다 JSON 오브젝트의 배열이다 그래서 구입 한 각 제품은 하나의 JSON 객체이었다 그 배열에 모두 해당 제품에 대한 그래서 좋다 당신은 모든 데이터를 가지고있다 그러나 여기, 우리가 시도하는 건지 것은해야 할 일 광고 노출에 대한 해당 제품의 구매를 매핑하는 것입니다 그 영향을 수 있습니다

그리고 두 번째 데이터 세트는 광고 노출이다 어떤 제품에 대한 어떤 광고, 어떤 사용자에게 표시되어 있었습니까? 그래서 우리는 여기에서 시도하려고하는지 단순히 나에게 주어진 인스턴스가 무엇인지 보자된다 고객은 해당 제품을 구입 한 같은 고객이 광고를 표시 한 후 해당 제품에 대한? 그것은 로켓 과학이 아니다 그것은 모든 비즈니스 사람이 뭔가 표현 할 수 있어야한다 그러나 실제로는, 때 데이터처럼 보이는, 작품의 꽤가를 추출 할 수있다 내 소매 데이터 사이트, 제품 ID 때문에 구입 한 모든 제품에서 매장된다 그 하나의 트랜잭션이다

그리고 데이터 셋 광고에서, 제품 ID는 URL의 매개 변수입니다 그래서 일반적으로, 나는 코드의 꽤 작성해야 가서 데이터를 넘겨 받다하고 필요한 모든 청소를 할 수 있습니다 그래서 우리는 데모 화면으로 전환 할 수있는 경우, 우리는 지금 Google 클라우드 데이터에 그렇게하는 방법을 보여 예정 예습 나는에 데모 노트북을 주시기 바랍니다 수 있습니까? 승인 에 있었다? 예

이 빈 UI입니다 아무것도 들어 있지 않 습니 다 우리가해야 할 겁니다 우선 흐름을 만드는 것입니다 흐름은 정말 조직 봉투입니다 작업 집합에 대한 당신이 구입하려는 그래서 우리는이 새로운 흐름을 만들 것입니다

그리고 우리가 제일 먼저 그것에 데이터 세트를 추가하는 것입니다 이 내가 언급 한 두 데이터 세트입니다 이 Google 클라우드 저장소에서 CSV 파일입니다 다음은 광고 노출 수 있습니다 그리고이 사람은 BigQuery를 테이블이다, 이는 내 소매 거래를 포함합니다

그래서 나는 단지를 추가해야합니다 그리고이 도구는 자동으로이 두 가지를로드합니다 의 BigQuery 테이블의 경우, 그것은 나에게 해당 테이블의 미리보기를 표시 할 수 있습니다 꽤 지저분한 그래서 CSV 파일은 물론, 그냥 텍스트 파일입니다 그러나 이미이 도구는 어떤 변화를 추론 열을 기준으로 행하여 분해, 그리고 첫 번째 행에 포함 된 것을 발견합니다 헤더의 이름입니다

그리고 아직, 조리법이있다 그는 몇 가지 간단한 변화로-자동 작성되었습니다 이제 그 사용을 할 수 있습니다 우리는 BigQuery를 테이블로 시작하는거야 우리는 새로운 조리법을 추가 할 것입니다 그래서 조리법은 [그 방법은? 데이터?] 준비 작동합니다 이 도구는 작업 할 때 실제로, 당신은 무엇을 할 당신은 길을 캡처 조리법을 만들 당신은 데이터를 준비하고자합니다

다음은 대부분의 시간을 보내는 인터페이스입니다 무엇을 할 수 있습니다 당신이 할 것은 직접 데이터와 상호 작용이다 당신이 변화에 대해 생각해야 할 때 도구 아니다 드래그 앤 구성 요소를 삭제 한 후 적용 할 것을 그 변화를 나타낸다 반대로 아니, 당신은 데이터부터 생각 변형 내지 그리고이 경우, 당신은 인식 나는 that–의 슬라이드에 표시 있었는지 나 그냥 열을 조금 확장 할 수 있습니다

꽤 지저분 JSON 객체의 배열입니다 나는 그들 중 하나를 확장하면 꽤 많이있다 그리고 이것의 의미를하려고, 내가 가진 모두가해야 할 일 해당 열을 클릭합니다 그리고 정말 도구의 원리입니다 실제로, 작동 방식은 데이터를 클릭하다 관심있는 당신이 나타내는 것으로, 당신 완수하려고하는지 그 클릭을 통해

그리고 하단에, 당신은 볼 수 있습니다 이 도구는 잠재적 인 변화가 있음을 의미합니다 데이터에 대한 감각을 만들 것입니다 이 경우, 나는 하나 개의 제안이 여기에있다 볼 수있는 이이 하나 개의 행을 변환한다 일련의 행으로 배열 그래서 배열의 각 항목은 자신의 행이됩니다 그리고 나는이 사람이 어떻게 할 것인지 살펴 그렇다면, 나는 미리보기를 클릭로 이동하는 경우 지금은 미리보기에있어과 나를 여기이 종료하자 that– 저를 보여줍니다 그것은 지금 날 것을 보여줍니다, 당신은 어디에 있는지 나는, JSON 객체의 배열을 가지고하는 데 사용 지금은 하나 개의 JSON 객체를 가지고있다

거래 당 하나의 행 무엇을 사용했는지 때문에 트랜잭션에서 구입 한 제품 당 하나의 행은 지금이다 그래서 만약 내가 지금 다섯 개 제품을 구입 난 때문에 더 편리하다, 다섯 개 개별 행이 특정 제품을 찾고 그래서 나는 그것을 좋아하고 나는 조리법에 추가 할거야 그리고 지금, 여기 내 행은 조리법에 이미 존재한다 내가 다음으로 할 일은 내가 원하는입니다 특히, 그 JSON 객체 내부에 가서 추출하기 위해, 제품 키

자, 그렇게하는 방법에는 여러 가지가 있습니다 다시 때문에,이 도구는 추측 나를 도우려고하는 것입니다 예를 들어, 나는 열을 클릭 할 수 있습니다 다시 다음 제안 봐 제 제안 변수 당 하나의 열을 생성하는 것이다 JSON한다 그래서 13 개 변수 [있나요? 세포?] [들리지] 라인 키 항목, 제품 키

나는 단지를 확장하여 생성, 말할 수 13 다른 열에 그리고 그것을 할 수있는 좋은 방법이 될 것입니다 이 경우, 사실에만 제품 키에 대한 관심 그래서 나는 그것을 할 수있는 또 다른 방법은 그냥 가서 강조 할 수있다 제품 키 그 내 힌트입니다 그리고이 도구는 그것에 대해 생각하는 것입니다

그리고 제안은, 당신을 해당 제품 키를 사용하여 새 열을 만들려면 변하기 쉬운? 그리고 그것은 나에게 좋은 소리 미리보기는 내가 무엇을 원하는 것 같습니다 그 제품 키를 추출 할 그래서 내가 할 모든 레시피가 추가됩니다 여기 그 작은 미리보기를 종료 할 수 있습니다

그리고 then– 미안, 잘못을 클릭합니다 여기에 내가 가진 것을 지금, 제품 키를 추출하여 새로운 열 코드를 작성할 필요없이 쉽게 사용할 수 있습니다 의 내 다른 데이터 세트로 전환하자 광고 데이터 세트 즉, CSV 파일입니다 기억하십시오 그리고 이미 나는 이전 켰을 때, 이 도구는 분해 할 수있는 조리법에 몇 가지 단계를 만들었습니다 또는 로우 세퍼레이터로서 새로운 라인을 사용하고, 컬럼 분리 한 헤더를 인식한다

그리고 그 단계는 좋은 소리, 그래서 나는 그들을 계속하겠습니다 나는 모든 열에 대한 데이터의 히스토그램을 보면, 나는 알, 그 이벤트 시간에 대한 어떤 광고가 표시 될 때, 여기에 몇 가지 빨간색이있다 그리고 빨간색은 일치하지 않는 값을 나타냅니다 그리고 다시, 나는 그냥 클릭합니다 그리고이 도구는 당신이 무엇을 원하는가, 나를 묻는다? 당신은 단지 그 값을 유지 하시겠습니까 또는 당신은 그 값을 삭제 하시겠습니까? 그리고이 경우, 분명, 어떤 여기에 의미가하면이 아니기 때문에 값을 삭제하는 것입니다 나에게 유용합니다

그래서 난 그냥, 그 선택을 선택 제조법에 추가 할 수 있습니다 그리고 지금 우리는 그 일치하지 않는 값이 필터링되는 것을 볼 수 있습니다 밖으로 난에 대한 작업을 계속할 수 있습니다 의는 히스토그램에서 계속 찾아 보자 사용자 ID의 경우, 예를 들어, 거기에 다양한 사용자 ID 사이에 여기에 꽤 부드러운 히스토그램, 하나를 제외하고 매우 유행이다 그래서 그것을 클릭 한 후, 다시 도구를 제안, 당신은 단지 하나를 유지 하시겠습니까? 당신은 단지 하나를 삭제 하시겠습니까? 음,이 시점에서, 난 정말 내가하고 싶은 알고하지 않습니다

하지만의 난 그냥 그것을 유지하려는 가정 해 봅시다 그냥 나에게 난 – 미안 만약 내가 유지 될 행을 보여줍니다 나는 짓이야 아니, 미안, 사용자 ID를 유지한다 네, 정확히 난 그냥 해당 사용자 ID를 유지하고있다

그리고는 것은 흥미로운 일이 지금은 해당 사용자의 이벤트 시간을 볼 수 있습니다 그리고 여기를 클릭 매초마다 기본적으로있다 해당 사용자가 내 로그에 너무 지배적 인 이유 그래서 즉,이다 아마 그것의 로봇 점입니다 다만 초마다 클릭 그래서 그것을 유지하지 않을거야 나는 반대를하고 있어요

그 사용자를 삭제하겠습니다 그래서 지금은 빨간색으로, 저를 보여주고, 그 행 제거 할 것입니다 그래, 나 그거 좋아 나는 조리법이를 추가 할 수 있습니다 승인

우리는 유효하지 않은 값을 제거하는 몇 가지 정리를 완료했습니다, 의심스러운 사용자를 제거 의 원래 목표로 돌아 가자하는 제품 ID를 추출하는 것입니다 당신이 기억으로 그리고,이 광고와 제품에 대한 URL입니다 ID는이 포함됩니다 그래서 정말, 내가 할 일은 그들 중 하나를 클릭하여 확장하는 것입니다 나는이 찾고있는 것 같은 단지 도구 힌트를 제공합니다 그래서 첫 번째 힌트

그리고 도구 오, 당신이 찾고, 생각 특정 값을 검색 하시나요? 음 아니 여기 패턴을 찾고 있어요

그래서 내가 그에게 두 번째 힌트를 줄 수 있습니다 나는이 일을 닫으려고하고있다 음, 그냥이 일이 아니다 내가 다른 하나를 열어 보자 나를 선택할 수 있습니다 다른 하나에 그 패턴 지금, 그것은 OK, 오, 같은입니다

나는 그것을 얻을 당신은 그 값을 찾고 아닙니다 당신은 그 패턴을 찾고 있습니다 그리고 그것은 내가 원하는 것 곳에서 같은 제안을 만들고있다 그 패턴을 찾고있다 그래서 여기에, 예를 들어, 자리입니다 대시 다음에 숫자 뒤에 등호 후 시작

승인 즉 좋은 패턴입니다 사실, 난 더 강력한있을 수 있기 때문에 만들거야 수 다른 것이라면 더 많은 변수를 가지고있다 내 URL에서 다른 등호가있을 수 있습니다 그래서 레시피를 수정하는거야

그리고 대신에 동일 한 후 시작하는, 나는 그것이 PID 동일 후에 시작하도록하겠습니다 이 경우이 방법은 좀 더 강력한 수 있습니다 자세한 패턴, 이상의 변수 조리법에 그를 추가합니다 여기있어 그것은이 새 열, URL1을 만들었습니다

그냥 원래 하나에 하나를 추가 이는 추출 된 해당 제품 ID를 포함한다 의는 URL1보다 좀 더 유용한 무언가에 이름을 바꿀 수 있습니다 이 제품 ID입니다 그리고 이름 변경, 즉 레시피의 또 다른 단계이다 그리고 당신은 단계를 최적화에 대해 걱정할 필요가 없습니다 그리고 이름을 바꾸기 전에 필터링을 수행

자동으로 최적화됩니다보십시오 그래서 그것에 대해 걱정하지 마십시오 그냥 당신이 끝내야 원하는 것을 표현한다 그리고 지금, 우리는 두 데이터 집합을 가지고있다 우리는 그들을 청소했습니다

우리는 제품 ID를 추출했습니다 이제 우리는 그들 사이에 가입 할 수 있습니다 그리고 그래서이 도구에 직접적 할 수 있습니다 a를 적용 할 수있는 결합있다 사실, 네 가구 있구만을 할 수 있습니다

지금은 내가 원하는, 다시 나에게 묻는 데요 전류 데이터 집합을 가입 그래서 소매 데이터 집합에 대해 그것을 가입려고하는 나는 준비했습니다 미리보기를 선택합니다 의 조인 키를 직접 선택 내 데이터를 살펴보고 키에 가입 추론하려고하는 것입니다

그리고 무엇을 제안하면 광고에서 제품 ID를 가입하는 것입니다 트랜잭션에서 제품 키에, 그것은 하나입니다 그것은 좋은 일입니다 나는 그 일을 좋아한다 그러나 기억 나는 제품의 구매를 찾기 위해 노력하고있어 동일한 사용자가있는 경우, 주어진 사용자에 의해 해당 제품에 대한 광고를 보았다 그래서 나는 또한 키를 참여의 추가 세트를 추가해야 사용자에해야 할 일

그리고 사용자 ID 가입을 제안합니다 승인 그 좋은 소리 그러나 제품 키와 사용자 ID, 나는 이것을 원하지 않는다 그래서 편집 할 수 있습니다

그리고 제가 함께 가입려고하면 고객의 핵심입니다 여기서 우리는 키 두 쌍을 가지고있다 제품 키, 고객의 키에 대한 사용자 ID에 제품 ID 그게 내가 원하는거야 나는 유지하려면 열을 선택할 수 있습니다 가입 제의 결과이다

여기에, 나는 둘 사이의 시간 차이를 비교하고자합니다 나는 이벤트 시간을 선택하고 싶은 나는 order–을 선택하려면 순서는 어디에 있습니까? 주문 날짜, 거기이다 그리고 분명히, 내가 원하는 다른를 선택할 수 있습니다 그리고 조리법에 조인 추가 할 수 있습니다 그리고 여기에는 데이터 센터 QI 다시, 나는 나에게 그 결과 그 열쇠를 통해 참가를 표시합니다 그리고 시간

많은 경우에, 어쩌면 그게 내가하고 싶은 청소의 종류입니다 여기 끝났어요 나는 둘 사이의 차이를 할 필요가 없습니다 시간은 내 시각화 도구에서 나중에 할 것 때문이다 아니면 난 여기가하고 싶어 어쩌면 내가 좀 더 추가하고 싶다

그래서 나는 이벤트 시간을 선택할 수 있습니다 그리고 나는 선택해 어디 다른 하나는입니까? 주문 시간입니다 어떻게 주문 시간에 일어 났는가? 그것은 주문 날짜가있다 내가 선택하면 이제 그 두 무슨 일이 도구는 제안 나 새 열을 만드는 것입니다 예

나는 시차를 원하는 제외 거기는 여기,이 도구는 새 열을 만들 제안 여기서 값이 그 둘 사이의 시간 차이는 [? 죽은?] 열 나는 초를 제외하고는 아마 너무 세분화, 즉 좋아 그래서 수정거야 그리고 대신에 초, 나는거야 이 분으로 표시 할 수 있습니다

조리법에 그를 추가합니다 그리고 죄송합니다, 죄송합니다 다시 잘못을 클릭합니다 우리는 거기에 갈 우리는 새로운 열을 만든 있습니다

콘텐츠는 계산의 결과이다 이제 뭔가 더 유용 이름을 변경하자 우리는 시간 차이를 호출하는 것입니다 조리법에 추가합니다 다시 말하지만, here– 그것에 대해입니다

[들리지] 내가 잘못된 위치에 클릭 했습니까? 아, 여기있다 그것은 이미 두 번 클릭 추가되었습니다 나는 이제 그 새 열이 시간 차이를 수행했다 당신이 볼 수 있듯이, 한 줄의 코드를 작성하지 않고도, 내 데이터와의 상호 작용에 의해, 나는 내가하고 싶은 일, 선택 열을 가리키는거야 내가 함께 사용하려면, 그 파이프 라인을 설명 할 수 있었다 이는 그때 실행할 수 있습니다 그리고 우리는 데이터 흐름, 기본 서비스에 대해 이야기 할 것입니다

그러나 것은 그 맥락에서 알고 작업이 완료된다는 점이다 실행은, 그 시점에서, 완전 자동화된다 당신은 작업을 실행해야합니다 , 관리 할 수있는 아무것도를 배포하지 아무것도 없다 소매 거래는 테라 바이트 테라 바이트의 경우에도 크기, 그것은 Google 클라우드에서 실행되는 것, 실행하고 당신에게 그 변환의 결과를 제공합니다

그럼, 이제 슬라이드에 다시하시기 바랍니다 가자 즉, 코드를 작성하지 않고, 방법의 데모였다 당신은 매우 전형적인 일반 및 유용의 많은 작업을 수행 할 수 있습니다 변형 단계 이 올바른 도구가 아닙니다 경우 이제 경우가 있습니다 훨씬 더 고급의가있다, 매우 복잡한 처리 알고리즘, 로직, 분기와 곳, 정말, 코드는 올바른 방법입니다 당신의 변환을 표현 어쩌면 당신은 스트리밍 파이프 라인을 실행합니다

이 경우, 당신은 코드를 작성하려면 때문에 코드는 그것을 표현하는 가장 좋은 방법입니다 하지만 당신은 여전히 ​​방식으로 그렇게 할 친절하고 생산 그리고 역사적으로,이 사건되지 않았습니다 역사적으로, 대규모 데이터 처리 많이 사용할 수있는 도구가 설계되었습니다 인프라의 편의를 위해 아니라 사용자의 예를 들어, 맵리 듀스를 가져 가라

맵리 듀스는 굉장합니다 구글 맵리 듀스에 지어졌습니다 하지만 실제로는, 맵리 듀스는 개발자를 강제로 사고의 새로운 방법을 배울 수 있습니다 그리고 그들은 더 복잡한 파이프 라인이 특히 그들은 최적화 할 수 있습니다 실제로 정말 좋은 맵리 듀스를 작성하는 일이 많이 있습니다

당신이했습니다하지만 일단은 다음 아주 쉽게 인프라에 대한, 맵리 듀스에서 일을 작업을 마비합니다 그래서 트레이드 오프이었다 그러나 그것은 훨씬에 빅 데이터가 될 수있는 제한된 액세스 할 수 있습니다 개발자의 작은 부분 집합 그리고 정말 더 이상 할 필요가 없습니다 배치와 같은 것

산업과 같은 몇 가지 이유를 들어, 우리 배치에 대한 자연 무언가가 있다고 생각하는 경향이있다 즉, 물론, 규모의 일들이 일괄 적으로 일어난다 그리고 현실에서, 그것에 대해 직관적 정말 아무것도 없다 그것은 우리가 그것에 대해 생각하게 습관의 단지 힘이다 세계는 배치에서 작동하지 않습니다

상황이 지속적으로 발생합니다 그리고 도구는 일괄 적으로 생각하는 우리에게 강요 한 모드 때, 정말, 우리는 안된다 또한, 그들은 이벤트에 대한 생각을 우리에게 강요했습니다, 그들이 처리 할 때의 관점에서, 그들은 언제 도착 당신의 가격 논리로는 반대 실제로 무슨 일이 있었 때 이는 항상 동일하지 않습니다 그래서 이유 왜, 지금,이 빅 데이터에 더 많은 쉽게 접근 할 수있다 그 제약이 정말 있기 때문이다 훨씬 더 성숙 프로그래밍 모델에 의해 제거되었다 그리고 레자 그것에 대해 말해 것입니다

레자 로니 당신에게 대단히 감사합니다 지난 몇 년, 나는 생각한다 나는 실제로 작업 한 점에서 매우 운이했습니다 직접 고객이 해당 코드의 약간을하고와 물건은 실제로 이상 일괄 처리 파이프 라인을 변환하는 스트리밍합니다 그리고 실제로, 우리는 데이터 흐름 자체에 대해 이야기하기 전에, 이제 우리는이 데이터를 수집하는거야 방법에 대해 생각해 봅시다 그냥 스트림 데이터의 두 가지 간단한 예를 보자 하나는 만약 IoT 데이터입니다

우리가 공장 많이있다 상상해보십시오 만약 IoT 장치의 측정 온도가 있고, 에있는 기계의 수를 측정 이러한 장치는 모두 어딘가로 정보를 전송한다 그리고 다른 사용 사례 나는 일반적으로 건너가 스트림을 클릭합니다 사용자와 웹 사이트에서 응용 프로그램의 주위에 클릭하면된다, 그들은, 모바일에이 이벤트의 모든 물건을하고있는 기록되는되는 것 스트림 정보를 클릭하고 있습니다 처리

일반적으로, 분명히, 그 보통 일괄 처리에 의해 처리 얻는다 하지만 우리는 처리를 스트리밍 이동, 우리는 지금을 캡처하는 방법이 필요합니다 그리고 Google 클라우드 팝 / 하위 API는 게시 및 구독 API입니다 더 위로 실행하는 시스템이 없습니다 그것은 완벽하게 관리 서비스입니다 기본적으로, 어떤 POC의 가장 쉬운 부분이다 나는 고객과 함께 할 것이다

그것은 네다섯 클릭합니다 내가 만든 항목을 얻을 그리고 그 무엇 당신이 할 수 있도록하는 것은, 어디서나 세계에서에서입니다 당신은 정보를 보낼 수 있습니다 우리는 우리가 원하는 지역을 처리 할 수 ​​있습니다 그것은 매우 가능하며 의미 메시지가 기록 펍 / 하위에 의해 인정되는 경우, 실제로, 최대 7 일 동안 시스템에 보관됩니다 또는 가입 할 때까지 그 메시지를 가져옵니다 그리고이 처리되고 있다고 인정한다

이 작품은 보통 몇 분 정도 걸립니다 어떤 POC에서 설정하고 그것을 여러 메시지를 처리한다 두 번째 또는 내 고객의 일부와 같이, 초당 메시지 수십만 데이터 흐름 자체에 가서, 역사적으로, 당신이 정확한 처리를 원한다면 것으로 생각 됐어요 당신은 일괄 처리 파이프 라인을 필요로하는 경향이 있었다 그래서 당신은 배치 기술을 것이다, 당신은 하루의 끝에서 모든 파일을 수집하는 것 어쩌면 약간의 수정을 일부 ETL, 후 일부 일괄 처리를 할 당신이 낮은 지연 시간을 원한다면, 당신은 그 때 가서 만들 것 완전히 별도의 기술 스택 즉, 데이터의 흐름을 흡수하는 것 실시간 대시 보드, 등등에 대한 몇 가지 처리를 할 그러나 그것은 항상이 아니라고 생각했다 청구 파이프 라인과 같은만큼 정확한

이제, 왜 어려운 스트리밍? 음, 클릭 스트림의 간단한 예를 들어 보자 이제 스트리밍 파이프 라인의 일반적인 문제 중 하나 후반 데이터입니다 응용 프로그램 중 하나가 모바일 장치입니다 상상해보십시오 사용자는, 및 셀 범위 밖으로 갈거야 그들은 연결이 끊어 질 것입니다 그들은 여전히 ​​잠재적 응용 프로그램을 사용하고 있습니다

갑자기 돌아 오면 그것은 정보를 기록하는 것으로 온라인, 자사의 데이터 덩어리를 보낼 것이다 이제, 우리가 원하는 것들 중 하나가 정확하게 얼마나 많은 사람들이 계산됩니다 어느 시점이 그 날에 우리의 응용 프로그램에 있습니다, 이 시점에서, 우리는 문제가 생겼어요 우리의 오류가 겁니다 때문이다 이제 데이터 흐름이 허용하는 것을 우리가해야 할 일 그것은 우리에게 강력한 프로그래밍 모델을 제공되는 스트리밍으로 설치된다 그것은뿐만 아니라, 일괄 처리 할 수 ​​있습니다 그러나 그것은 당신이 할 수 있도록하는 거래입니다 후반 데이터와 같은 것들로

그것은 당신에게 처리하는 간단한 프리미티브를 제공합니다 윈도우 및 sessionization 같은 것들로 그리고 SDK의 데이터 흐름 프로그래밍 모델 아파치 빔에 기여했다 이제 오픈 소스 프로젝트입니다 그리고 아파치 빔, 여러 사람들이있다 그것을 위해 건물 주자 그래서 우리는 또한 스파크 및 기타 실행 엔진이 FLINK와 에이펙스 같은 선수를 구축하는 사람

지금은 매우 신속하게, 내가 보여 드리겠습니다 데이터 흐름 실행의 데모 그래서 우리는 노트북하시기 바랍니다 이상 이동 할 수 있습니다 대단히 감사합니다 지금, 우리는 데이터 흐름의 모니터링 UI에 연결하는 그리고 여기 일하고 예, 세션에서 어제 누군가를 위해, 이것은 만약 IoT 예이다

공장에서 나오는 메시지가있다 그들은 그들로 인코딩, 등등, 온도를 가지고있다 우리가하고있는 것은 우리는 펍 / 하위를 통해 그 흡수하고 및 데이터 흐름은 펍 / 하위에서 당기고 있습니다 그것은 만약 IoT 디바이스 데이터를 읽는 것 우리는 메시지를 분석하고 있습니다

우리는 정보의 작은 비트를 철수하고 거기 년대 JSON 패키지에서 그리고, 사실은 세 가지 유형을하고 있어요 그 데이터 처리 첫 번째는, 나는, 항상 최선의 방법이 고려 어떤 처리하기 전에, 나는 모든 원시 데이터를 원하는됩니다 저장소에 덤프합니다 그리고이 시점에서, 우리의 BigQuery로 려구요 우리가에 대한 SQL 분석을 실행할 수 있기 때문이다 우리는 순간에 다시 BigQuery에에 올 것이다

그리고 다른 측면에서, 우리는 몇 가지 기본적인 처리를하고 있습니다 데이터에 대한 그래서 여기, 나는 간단한 슬라이딩 윈도우를 만드는거야 즉 두 줄의 코드입니다 그럼, 평균 계산을하고 있어요 그래서 마지막 5 분 이내에, 온도는 무엇입니까? 그 때 나는 매우 간단한 검사를하고 있어요 온도가 X 이상이라면, 다시 메시지를 보내 펍 / 하위로

그래서 여기, 펍 / 하위 만 섭취로 사용되지 않는 데이터 흐름에 대한 메커니즘은, 그것은 접착제로 사용되고 시스템을 함께 연결합니다 그래서 또는 해제 AC 말 메시지를 보내고있다 그리고 공장은을 선택할 수 있습니다 더 흥미롭게도,이 가운데 path– 아래로 즉, 간단한, 30도 이상 온도가 있었다? 그러나이 중간 경로 아래, 우리는 실제로 클라우드 기계 학습 서비스라고합니다 여기서 우리는 기반 모델을 구축 데이터를 이전했을 것이다 그 BigQuery에서 기록 된 모든 원시 데이터 우리는 기록해야한다는

그런 다음 최적의 시간을 설정하는 것을 우리에게 얘기를 할 수있다 팬에 여기에, 대신에 간단한 검사를 만드는, 나는 모델 추론 서비스에 대한 나머지 호출을합니다 팬 기반 어서할지 여부 그것은 나에게 말할 것이다 휴리스틱에 그 우우 우리가 생각했던 비용 최적화를 기반으로, 이는 효율성이다 그리고는, 다시, 우리는 펍 / 하위에 다시 넣어 것입니다 우리 공장에 다시 밀어 우리는 소매 사용 사례에 대해 많이 얘기 여기 윌리엄 겪었 판매 데이터 데이터 준비합니다

소매에 대한 간단한 예 것 그 IT 온도 측정을 할 수 그들이 실제로 상점에서오고있어 상상한다 그리고, 우리가 추구하는 것은 무엇 온도입니다 가게 만드는 설정해야 확인 사람들은 상점에서 좋은 돈을 많이 지출? 승인 돌아 가기 윌리엄 WILLIAM VAMBENEPE : 우리는 슬라이드하시기 바랍니다 돌아갈 수 있습니까? 우리는 쓰기 파이프 라인의 어려움에 대해 이야기 어떻게 당신이 할 수있는 지금, 많은 경우에, 심지어 코드를 작성할 필요가 없습니다 아니면 일부 코드를 작성해야 할 경우, 매우 강력하고 편리한 프로그래밍 모델을 빔처럼, 레자가 나타났다, 이는 데이터 흐름에서 실행

그건 정말 빙산의 일각에 불과하다 하지만, 복잡성면에서 일반적으로 직면, 조직에서 빅 데이터를 실행의 관점있다 꽤 자주, 즉 뒤에 오는 어려운 부분, 어떻게 할 그 운용 할? 승인 당신은 첫 번째 파이프 라인을 서면으로 작성했습니다 당신은 어떻게 확인이 규모에서 실행해야합니까 인프라 다만 적당한 양? 그리고 그것은 종종 꽤 복잡합니다 그리고이 두 가지 측면이있다

하나는 인간의 측면이다 사람이하는 것은 많은 일이다 프로비저닝 및 패치를 다루는 과 신뢰성 및 보안과 성능 및 최적화 그리고 모든 운영 측면한다 당신은 처리해야한다 정의에 의해, 빅 데이터는 상당한 양의에서 실행되기 때문에 전력을 계산 그래서 당신은 효율적으로 관리 할 수 ​​있습니다 그렇지 않으면, 당신은 너무 많은 방법을 보내고있다

그냥 드리겠습니다 아니다 그래서 현실에서,이 어디입니까 귀하의 비즈니스를 가져 오는 시간을 보내고 싶어 데이터에 대한 전문 지식이 아닌 모든 작업을 수행 당신이 필요 해요 얼마나 많은 용량을 추측하려고합니다 그래서 인간의 워크로드 측면과 기술 세트가있다 여기 제약 설정합니다 그뿐만 아니라, 단지 자원이있다 얼마나 자주 자신을 발견했다 당신이 작은 삽과 정말 큰 일이 같은 느낌? 그리고 당신은 당신이 필요로하는 자원을받지 못하고 있습니다

정말 힘들 기 때문에 그건 자원의 많은 양을 얻을, 적어도 당신은 확실히 알 때까지 무엇을 작업이 완료 얻을 위해 노력하고 있습니다 그리고 중요한 것은 당신이 정말 일을 시도하는 사람들을 격려하고자, , 반복하는 다음 일은로 이동합니다, 빨리 실패 그러나 그들이 얻을 수없는 경우 인프라는이를 지원하기 위해 실험, 그들은 장난감 사업을 할 것입니다 그리고 여기에 솔루션은 업계가 지금이라는 것입니다 소요의 데이터 처리에 대한 접근법 서버없는, 및 관리는 관리 [모든 자동화? NME?] [? 세션?] 프로세스와 당신이 쓰기에 초점을 맞출 수 있습니다 작업 그래서 통찰력, 비즈니스 전문 지식없이 관리

그것은 또한 당신이 많은 자원에 접근 할 수 있음을 의미 당신이 그들을 필요로 할 때 그러나 당신은 당신이 사용하는 무엇을 정확하게 지불합니다 그래서 아침에 생각이있는 경우, 당신은 시작하고 많은 양의 데이터를 분석 할 수 있습니다 정말 당신의 생각을 확인합니다 그것이 작동하지 않는 경우, 당신은 시간과 $ 500의 가치를 낭비했습니다 처리

반면에,이 작업을 수행하는 경우, 물론, 당신은 장난감 프로젝트가 없습니다 당신은 버리고 큰 규모로 구현할 필요가있다 당신은 서비스를 기반으로 뭔가를 그 기본적으로 어떤 크기로 확장 할 수 있습니다 그리고 성공적으로 어떤 실험입니다 운용 할 바로 제품화 할 준비가되어 있습니다 그리고 가장 중요한 부분은 그입니다 정말 입니다 그것은 기술이 아니다 정말 팀이 일을 배울 방법 및 테스트입니다 아이디어와 매우, 매우 빠르게 반복, 새로운 아이디어는 또 다른 IT 프로젝트 인 반대 실제로, 나는 서버를 사용하지에 대해 이야기 할 때, 물론, 플랫폼에 많은 서비스가있다 하지만 가장 확실한 예로서 세 가지를 불러 것이라고 그들은 세 가지를 포함하는 좋은 특성을 가지고 데이터 라이프 사이클의 주요 단계

레자 이벤트 섭취에 대한 펍 / 하위에 대해 이야기했다 아무것도는 [관리 없습니다? 쿼리?] 항목을 당신이 원하는대로와 많은 이벤트를 펌프 그리고에만 연결해 데이터의 양에 따라 지불합니다 추측과 사전에 미리 제공 할 필요가 없습니다 데이터 흐름뿐만 아니라

레자는 프로그래밍 모델의 품질을 설명했다 그러나 데이터 흐름에 대한 정말 독특한 것은 A [같은? 빔?] 주자는이 서버를 사용하지 않는 시스템 어디입니다 클러스터를 배포하지 않습니다 당신은 자동으로 다음 작업하고 작업을 제출 , 오토 스케일 그것을 필요로하는 자원을 가져옵니다 당신은 그 일을 만들 Dataprep를 사용하거나 쓸 그래서 여부 당신은 파이프 라인을 만든 후 그것을 너 자신은, 당신은 완료됩니다 다른 모든 자동화됩니다

그리고 우리가 지금 얘기 세 번째, BigQuery에는 SQL 분석입니다 다시 말하지만, 서버를 사용하고 규모 그래서 레자는 BigQuery에 대해 알려주십시오 레자 ROKNI : 우리는 노트북하시기 바랍니다 돌아갈 수 있습니까? 고맙습니다 우리가 여기에있는 것은 BigQuery의 사용자 인터페이스입니다

실제로 쿼리를 실행하는거야하는 조금 이례적인 일이다 나는 하나의 데이터 페타 바이트의 쿼리를 실행하는거야 문제의 표는 소매 데이터 세트입니다 테이블 판매 파티션 사실 여기 스키마를 볼 수 있습니다 나는 세부 사항에 갈 경우, 우리는 그냥 것을 볼 볼륨에서 페타 바이트의 데이터를 통해 그리고 조 행, 음, 단지 조원 이상의 행 약 계산하기

이제 BigQuery에는 [무엇입니까? 기둥?]? 아이폰 OS?] 저장 형식, 그래서 우리는 설마 또 실제로, 그것은 커패시터로 이동 된 것 첫 개시 이후부터 그러나 여기, 난 그냥 할거야 것은 선택 시작이다 특이한 것은 약간은 여기에서, 그리고 보는 것입니다 하나의 술어

이것은 단지 계산을 강제하는 것입니다 전체 데이터 세트에 대한 그래서 나는 그 킥오프하고 실행 얻을거야 즉, 죄송합니다 사실상 데 몇 분 정도 소요됩니다 그는 캐시되는 것 나 캐시를 제거 할 수 있습니다 이전에 실행 한 경우 그래서 BigQuery의 결과를 캐시합니다 분명히, 우리는 그렇게하고 싶지 않아 이제 제대로 실행하자

즉 지금 실행하는 것입니다 몇 분 정도 걸릴거야 우리는 슬라이드에 다시하십시오 이동 할 수 있습니다 의이 실제로 무엇인지에 대해 생각해 봅시다 페타 바이트는 내 나이가 조금 보여 드리겠습니다 여기 플로피 디스크에 대해 이야기 플로피 디스크를 저장하고 싶다면, 플로피 디스크에 페타 바이트, 당신은 12을 쌓아해야 할 것 이들의 엠파이어 스테이트 빌딩 '의 가치

그것은 4G를 통해 다운로드 이십칠년 당신을 데려 갈 것이다 그리고 그것은 지금까지 50 배 만든 모든 트윗입니다 그러나 그것은 분명히 큰 숫자, 페타 바이트입니다 그러나 그것은 또한 소수가 될 수 있습니다 그래서 그것은 DNA의 두 마이크로 그램으로 인코딩 된 데이터입니다

그것은 YouTube 동영상의 일일의 가치가있다 그것은 틀림없이, 공정 속도, 200 개 서버 로깅입니다 50 개 항목 3 년 동안 두 번째 그래서 거기에 무슨 일이 점점 더 많은 데이터 세트가 될 것을 실제로 데이터의 볼륨이 종류가 우리는 전진한다 그리고 BigQuery를 어디에서 왔는가? BigQuery에의 드레 멜라는 기술을 기반으로 그리고 2002 년, 구글은 저장하기 위해 더 많은 데이터를 가지고 있었다 그리고 구글 파일 시스템 구입했다

그것은 당신이 범용 서버에 모든 데이터를 저장하는 것을 허용했다 환상적인 우리는 많은 양의 데이터를 저장하는 방법의 문제를 해결했다 2004 년, 우리는 데이터와 우리를 많이했다 수행하는 방법의 문제를 파악했다 당신은 모든 데이터를 처리? 그래서 제프 딘과 공동으로, 맵리 듀스를 사용 하였다 그리고 그것은 매우 심하게 실제로 사용되었다 우리가 가진 모든 데이터를 처리 할 수

이제, 당신이 분석을 수행 할 때, 당신은 마지막에 완벽한 쿼리를 작성하지 않습니다 당신은 아침에 일어나 당신은했습니다 당신을위한 모든 것이 준비했다 당신은 당신의 데이터를 볼 것입니다, 당신은 그것을 분석 할 당신이 맵리 듀스를하고 있다면, 당신은 좋겠 첫 번째 맵리 듀스 몇 가지 분석을 수행해야한다 그런 다음 결과 집합을 것이라고보고, 다른 맵리 듀스을한다

그리고 우리의 엔지니어는 커피 외출 싫증있어 때마다 그들은 첫 번째 맵리 듀스를 실행 과 물건 사이에있는 모든 배관을 건물입니다 그리고 그들은 드레 멜을 썼다 그리고 드레 멜은 쿼리를 실행할 수 있습니다 우리가 지금 데모에서하고있는 것처럼 페타 바이트의 데이터, 대한 그리고이 같은 기술이다 BigQuery에로 구체화되었다 이 같은 코드 기반 그래서, 같은 SRES 및 엔지니어입니다

그리고 구글 오늘 내 드레 멜이 핵심입니다 우리의 특별 분석 그리고 자신의웨어 하우징을 필요로하는, 대부분의 Google 직원은 자신과 윌리엄을 만지지 것입니다 드레 멜과 함께, 더 직접적으로 물건을 만지지 것입니다 그러나 다른 사람들은 대시 보드를 통해 사용됩니다 승인 이 쿼리는 계속 실행됩니다

지금, 우리는 윌리엄로 다시 전환 될 것입니다 WILLIAM VAMBENEPE : 우리는 슬라이드하시기 바랍니다 돌아갈 수 있습니까? 당신은 너무 빨리 이야기 레자 로니 : 내가 할, 죄송합니다 WILLIAM VAMBENEPE : 데이터의 말하기 그리고 방법은 저장 및 조회되는 것 구글 드레 멜에, 구글이 다른 스토리지 시스템의 많은 다른 처리 시스템의 많은 당신은 두 번째의 슬라이드에 다시 가고 싶어? 레자 로니 : 죄송합니다

네 WILLIAM VAMBENEPE : 다시 두 번째의 데모로 이동합니다 레자 로니 : 난 그냥 20 초 동안 천천히 필요 그리고 그것을 잘했을 것이다 우리가 갈 경우, 해당 쿼리가 완료되었습니다 그것은 페타 바이트의 데이터를 처리

완료 161 초 걸렸습니다 WILLIAM VAMBENEPE : 그 2 분 40 초입니다 [박수 갈채] 고맙습니다 레자 로니 : 슬라이드를 위로 해주세요 WILLIAM VAMBENEPE : 슬라이드로 돌아 가기

예방 또는 만들고있어 다른 문제 중 하나 어렵게 액세스하고 데이터 규모를 분석 데이터의 사일로 성격이다 꽤 자주, 데이터 도구 내에 사실 그리고 당신이 그것을 처리하기 위해 다른 도구를 사용하려는 경우, 그럼 당신이 그것을 추출해야, 이동, 복사 다른 버전이있다 그리고 구글, 우리는 많은 방법이 데이터를 많이 처리하는 방법은 데이터를 많이 저장하기 둘 사이의 데이터 우리는 그렇게해야만한다면, 그건 그냥 것 데이터 센터를 폭발

그래서 하나 개의 기본 원칙은 어떤 도구이다 스토리지 데이터에 액세스 할 수있다 그리고는, 정말, 정말 중요합니다 소스에서 훨씬 광범위한 분석을 허용 측면에서 데이터 세트 그래서 클라우드, 방법 [그? matterizes?] 자체 레자 설명 데이터 흐름, 같은과입니다 구글 클라우드 스토리지의 데이터에 액세스 할 수 있다는 BigQuery에서, BigTable– 우리 형 NoSQL service–의 그 데이터 저장소에서 모든 데이터베이스를 우리는 가지고있다 이벤트 스트림 펍 / 하위합니다

데이터가 어디든지, 데이터 흐름 그것을 얻을하고 처리 할 수 ​​있습니다 지금, 그것은 어쩌면 덜 직관적이지만, 같은 일 뿐만 아니라, BigQuery에 대한 사실이다 당신은 페타 바이트의 데이터를 통해 이동하려고려고하는 경우 그것을 무엇 in–? 2 분 40 초? – 당신은 BigQuery를 스토리지에 데이터를 입력해야 있기 때문에 분석을위한 최적화 된 스토리지 시스템입니다 그러나 많은 경우에, 당신은 페타 바이트의 데이터가 없습니다 다른 곳에서 데이터를 떠날 더 편리 할 수도 있습니다 빅 테이블에서 Google 클라우드 스토리지에있는 파일로 아니면 단지도 Google 드라이브입니다

내 노트북에 그래서, 나는, CSV 파일을 가질 수있는 I 내 Google 드라이브 폴더에 드래그 그것은 Google 드라이브에 동기화되는 그리고 지금은 BigQuery에서 쿼리를 쓸 수 Google 드라이브에서 해당 CSV 파일에서 가입하는 것입니다, BigQuery에있는 로그 테이블 그리고 BigQuery에 그 기능이 모든 구조화 된 데이터에 SQL 분석을 가지고 클라우드에 그리고 마지막으로, 다른 제품 우리는 아직 얘기하지 않은 통해 Dataproc은 [입니다? 관리?] 스파크와 하둡 무엇 당신이 할 수있게하는 힘과 풍요 로움을 가지고있다 하둡 에코 시스템과 불꽃 생태계의 Google 클라우드합니다

중요한 일이 있기 때문에 당신은 작업에 적합한 도구를 사용합니다 그리고 올바른 도구 누군가가 쓴 스파크 라이브러리 인 경우, 당신은 그것을 사용할 수 있어야합니다 그리고 Dataproc에서 당신에게 완전히 구성된 클러스터를 줄 것이다 약 90초한다 그리고 해당 클러스터에 직접 액세스 할 수 있습니다 데이터를 다시 저장 시스템에서, 이러한 당신이 가장 먼저 하둡에서 데이터를로드되지 않았는지 확인합니다 당신이 제일 먼저 작업을 실행한다

그래서 당신은 실행 작업을 시작할 수 있습니다 종료 클러스터는 당신이 완료, 당신은 분으로 지불 할 때 그리고 그것은 표준 하둡과 스파크,의 그러나 그것은 매우 역동적이고 효율적인 클라우드에서 실행되도록 할 수 있습니다 기본 방법입니다 그것이 어디든지 그리고 다시, 당신의 데이터에 액세스 그리고 마지막으로, 문제의 마지막 세트 그 사람들이 일반적으로 로 실행하는 것은 할 단지 도구입니다 데이터로 뭔가 유용한 끝에서, 그것은 좋은이기 때문에 할 수 하지만 끝까지 그것을를 수집하고 처리 할 수? 그리고 사용 사례로 되돌아 가고, 자주,이를 인간을 알려 드리고자합니다

그래서 당신은 그렇게 할 수 있도록 도구가 있습니다 플랫폼에서 특히,이 직접 액세스 할 수있는 두 가지 주요 도구입니다 하나는 Datalab입니다 Datalab는 데이터 과학자를 대상으로합니다 그리고 데이터 과학자, 목성 노트북 데이터를 분석하는 매우 인기있는 방법입니다

그리고 무엇 Datalab가 밀접 구글 통합 목성 클라우드 플랫폼은 데이터 과학자를 허용하는 모든 목성 모듈과 경험의 혜택을, 하지만 공동 작업을 가능하게하는 방법으로 그렇게 그리고 플랫폼에서 사용 그리고 레자 작업에서 그 보여 것입니다 레자 로니 : 그래 노트북에 대한 흥미로운 것은 이 데이터 과학자 '스크래치 패드의입니다 그들이 겪고 데이터를 분석하고으로서, 그들은 단지 자신의 결과를 기록 할 수 있습니다

그들은 그들에게 돌아갈 수 있습니다 그들은 무언가로, 심지어 그것을 사용할 수 있습니다 당신은 데이터 엔지니어에 전달할 것을하는 날이 될 것이다, 실제로 가서 생산에 투입합니다 그리고 다른 누군지 모르겠지만, 내가 그들을 본 적이 좋은 방법 그들의 결론의 끝이며, 사용, 그들이 앞으로 올바른 방법이 무엇인지 그들이 생각에 와서 한 후, 그들은 그들의 동료로 다시 노트북을 제시합니다 그리고 그 때문에 마지막에 중대 때 그들이 그 최종 결과를 가지고, 당신은 수도 질문처럼, 당신은 왜 열 A하지 열 B를 사용 했습니까? 그리고 그들은 잘 돌아가서 말할 것이다 실제로, 나는 열 A 쳐다 보면서 나는 데이터의 왜곡을 보았다 따라서, I는 열 전환 B

그리고 그것은 실제로 모든 지식을 유지하는 좋은 방법 당신이 당신의 데이터 집합을 탐구 당신이 얻을 수있다 우리는 노트북하시기 바랍니다 전환 할 수 있다면 우리가 여기에있는 것은입니다 Datalab입니다 Dataproc에서 실행되도록 설정되었습니다 나는 하둡과 스파크를 관리 할 수 ​​있습니다 그리고 내가 할거야 실제로 사용하다 BigQuery를 함께에서 Datalab, 스파크와 함께 실제로 수행하는 그 판매 데이터에 대한 간단한 분석

내가 일은 할 당신이 볼 수 있듯이, 그것은 실습, 기술 도구입니다 내가 할거야하면 판매 정보보고있다 그리고 내가 말할거야 첫 번째 질문은, OK,의가 얼마나 많은 항목을 알아 보자 평균 바구니에 있습니다 나는 판매 SQL, 실행의 비트를 작성합니다

나는 다음의 BigQuery 커넥터를 부를 것이다 그것은 사라 실제로 BigQuery에서의 힘을 사용되는 하드 계산을 할 수 있습니다 그것은 여덟 개 행이있는 테이블을 나에게 다시 주어진 것 이제 8 개 개의 행이 분류되지 않았다 승인

그래서 내가 가서하여 주문 쿼리를 다시 작성할 수 있습니다 그러나 사실, 내가 노트북에있어로, 난 그냥 데이터 프레임에서 정렬을 사용합니다 큰 사실이 일반적으로, 지금 볼 수 있습니다 8과 11 사이 항목의 평균 수있을 것 같다 우리는 우리의 바구니에있는 거라고 승인

재미있는 의 플롯, 내가 좋아하는 도구 일을 시작하자 큰 우리는 데이터의 시각적 표현을 얻었다 의 조금 더 까다 뭔가로 이동하자

내가 지금하고 싶은 것은 파악하고, 실제로있는 일이 무엇인지 서로 구입? 즉 뭔가 할 매우 어려울 것이다 SQL처럼 당신은 모든 항목의 힘 세트를 얻을 필요가 있기 때문에 함께 내가 할거야 것은 BigQuery를 조합 사용을 만들 것입니다 플러스 일부 MLlib 라이브러리 알고리즘 스파크에 존재하는 나는 BigQuery에서의 데이터가 준비하겠습니다 그래서 내가 여기서 뭐하는거야 생성하는 이 데모에 대한 데이터의 집합 난 그냥 돌아 1000 개 행으로 제한하고 있습니다

우리가 머리를 보면 그리고, 그 무엇이다 내 판매의 모든 데이터를 통해 사라 수행 다만, 제품 ID의 모든 연결된 동일한 제품 ID는 당신이 때보고되었다 윌리엄 데이터 준비 데모를 실행했다 그것은 트랜잭션 라인에 모두 넣어입니다 이것은 지금 내 알고리즘을 완벽하게 준비가되어 있습니다 그래서 데이터를 준비하는 스파크에 어떤 일을하지 않을거야 지금은 IDD에이 넣어 얻을거야

승인 사람들은 거기에 천 데이터 세트입니다 다음 단계는, 나는 알고리즘을 실행하는거야하는 이 FB는 스파크에서 성장입니다 결과를 봐 그것은 나에게 (36 개) 결과를 주었다

나는 항목이보다 큰 것을 보는거야? 나는 그것의 세부 사항에 가지 않을 것이다 승인 내가 전에 언급 한 바와 같이, BigQuery를 캐시 결과를 않습니다 오늘 아침에 나는 한계 1000을 실행했다 그래서 여기에 몇 가지 입력 할 필요가 없습니다 내가 어떤 결과를 얻기 후에 할 것 우선 돌아 가서 여부를 확인합니다

내가 여기서 뭘하고있어 나는 그 제품 ID를 사용하는거야되고, 이 사람들이 있다는 것입니다, 내 데이터 세트로 돌아가 및 참조 함께 기반으로 카테고리를 구입? 그래서 야외 건축 자재 및입니다 승인 재미있는 이 시점에서, 우리는 지금 모든의 대부분이 즉, 데이터 엔지니어를 통과 할 준비가되어 있습니다 그런 다음 productionize이 갈 수 있습니다 전체 데이터 세트에 걸쳐 정보를 휘젓다 알아내는 시작하는 항목이 무엇인지 우리는 추천한다 우리의 웹 사이트에? 승인? WILLIAM VAMBENEPE : OK

위로 슬라이드주세요 , 레자를 주셔서 감사합니다 이것은 과학자 Datalab했다 이 인트로 세션이기 때문에, I 이 방에 많은 사람들이 데이터 과학자 있습니다 기대하지 않습니다 하지만 당신의 조직이나 사람에서 사람 당신은, 그 기술을 가진 사람과 함께 작동 할 수 있습니다 그들과 가장 잘 알고있을 것이다 도구입니다 그들을 당신과 함께 공동 작업을 수행 할 수 그들이 원하는 도구를 사용하여 Google에서 동일한 데이터에

사람들의 더 많은 비즈니스 분석가 유형의 경우, 비즈니스 관리자, 사람들의 라인 더 많은 비즈니스의 측면에있어 하나의 도구 누구 매우 유용한 플랫폼에서 데이터 Studio는 보고서입니다 그리고 다른 서버를 사용하지 의미에서의 그, 당신도 클라이언트에 아무것도 설치하지 않은 경우 또는 서버에, 그것은 구글 드라이브처럼 작동합니다 그것은 협업 환경입니다 나는 당신의 많은 사람들이 Google 드라이브에 익숙 기대 프리젠 테이션 및 문서 및 스프레드 시트를 가지고 그리고 데이터 Studio는 사용할 수 있습니다 생성 및 공유를위한 그 동일한 협력 모델 직접 플랫폼의 아름다운보고합니다

의 연습에서 살펴 보자 우리는 노트북 데모로 다시 전환 할 수 있습니다 당신은 그것을 가지고 있습니까? 네 이것은 Datalab에서, 보고서, 대시 보드의 예입니다 이는 왼쪽에서 산출 된 값을 갖는다 기억 나는 Dataprep 데모에 언급 나는 광고의 시간을 추출하고 나면 트랜잭션의 시간, 나는 다시 계산을 할 수있는 다음 데이터 준비 또는 나는 그 두를 떠날 수 값은 좋고 깨끗하고 할 일부로서 데이터 Studio의 계산 이 보고서의 생성

어느 쪽이든 작동합니다 나는 여기 내 다양한 ​​통계를 볼 수 있습니다 타겟팅 비교 등등 그 지역의 모든 해당 항목에 의해 제어되고있다 여기에, 거기에 넣어되었다 그래서 그 대신 2014 년 마지막 분기에서 보는, 나는 돌아가서 년을 볼 수 있습니다 자, 내가 보고서의 뷰어,하지 창조자의 역할을하고있다

그래서 누구는 누구와 함께 당신은 보고서를 공유 한 그렇게 할 수 있어야하고, 보고서를 조정할 것 그들이 얻을 위해 노력하고 무엇을 얻을 수 있습니다 그래서 우리는 단지 적용됩니다 그것은 수익 지금 있도록, 다시 계산됩니다 전체 년 수익, 등등 그리고 그 대시 보드의 한 페이지입니다 뷰의 다른 종류를 보여줍니다 다른 페이지가 있습니다

예를 들어, 다음,이 지리적 인 전망을 가지고 이 사람은 다양한 상태의 이익률을 나타냅니다 당신은 다양한 상태를 위로 마우스를 이동 할 수 있습니다 자동, 그것은 데이터의 인식 지리 정보 및 이벤트 시각화 특히 데이터를 허용하는 아주 쉽게, 비 전문가로, 그 대시 보드를 함께 넣어 제품 인구 통계를 볼 수 있습니다, 어떤 다른 데이터베이스 사용자에 대한 자세한 내용을 보려면하고, 소매 데이터 세트에서 고객 테이블에 그 일부 필터링을 수행하기 때문에 남성 사용자를 제거, 예를 들어,의 말을하자, 모든 여성을 필터링하기 베이비 붐 세대를 제외하고

그리고 당신은 드릴 수 있습니다 그리고 자동으로 그 선택기, 죽은 선택 또는 그 인구 문자 여부 [? 세?] 선택기이 대시 보드의 경우, 우리는 시각화 모두에 적용하도록 구성하고 이 페이지 즉 사용자로 경험입니다 누군가가 나와 함께 그것을 공유하고있다 나는 BigQuery를 또는 무엇에 대해 아무것도 몰라

난 그냥과 상호 작용할 수있는 쉬운 대시 보드를 나는 나 자신을 위해 내부 얻는다 이제 실제로 어떻게 대시 보드를 살펴 보자 생성됩니다 그리고 레자, 당신은 행동이 보여주고 싶은 경우 레자 로니 : OK 내가 지금거야 것은 UI의 약간을 할 것입니다

그리고 좋은 이유 보통이있다 곧 명백해질 것 같은, 어떤 UI를 가까이 저를하지 않습니다 나는 우선, 편집 모드에 넣고거야 실제로 페이지를 만들 수 있습니다 그래서 새 페이지를 만듭니다 이 시점에서, 나는 빈 페이지가 구성 요소에 구축 시작합니다 그리고 내가 할거야 것은 구축이다 우리가 첫 페이지에 있었다 그 첫번째 그래프 중 하나

내가 뭘 원하는 막대 차트입니다 나는 아래로 막대 차트를 넣을거야 그리고 그것은 이미 나에게 몇 가지 옵션을 제공합니다 실제로 메트릭으로 평균 연령을 선택합니다 우리는 수익을합니다

승인 수익이 선택되었습니다 승인 나는 회상 경우, 첫 번째 페이지에있는 그래프의 스타일 수평 있었다, 그래서 그 수평을 돌려 보자 상단에 텍스트 줄도 있었다

그래서 그냥를 추가 할 수 있습니다 그리고 내 차트 또한 회색과 검은 선이었다 이제 주위에 무게를 넣어 보자 승인

그리고 나는 아주 작은 UX 기술을 가지고, 이 전 매우 아름다운 생각 색상을 선택 할 수 있습니다 화려한 그것은 아름다운 보인다 나는 조금 누군가의 도움이 필요할 수 있습니다 생각 더 UX 기술 그래서 윌리엄은, 아마 당신은 와서이 나와 함께 할 수있다

WILLIAM VAMBENEPE : 그 때부터 지금은이거나 먹어, 일반 모델을 사용하여 공유 당신은 내가 대시 보드에 합류하기 때문에 내 아이콘이 여기에 표시를 참조하십시오 그리고 주는거 레자 로니 그의 아름다운 그림이있다 WILLIAM VAMBENEPE : 그 날입니다 그리고 내가 가서 시도하고 레자의 손에서이 차트를 구출 할 수 있습니다 사람들이 방을 떠날 시작하기 전에 그래서, 저를 시도하고 여기에 색상을 변경할 수 있습니다

레자 로니 그리고 이건 내, "모양, 아니 손"순간이다 WILLIAM VAMBENEPE는 : 시작 부분으로 이동합니다 기본적으로, 무엇을 제가 보는 것은 같은 일이다 그는 자신이 이전에 편집을 수행 할 때 레자는보고 있었다 차트의 배경은의이 좋은 핑크 만들어 보자 레자 로니 : 것을 더 나은 방법은 무엇입니까? WILLIAM VAMBENEPE : 그것은 덜 공격적이다

그리고, 어떻게 이런 어떻습니까? 어떻게에 대한? 레자 로니 : OK WILLIAM VAMBENEPE : OK 지금 당신은 read– 수 없습니다 레자 ROKNI : 나는 우리가 모두 잘 하루 일을 계속해야한다고 생각? WILLIAM VAMBENEPE : 어쨌든, 희망, 너희들, 우리 나머지 식욕을 파괴하지 않았습니다 의 아마 더 유용한 무언가를 해봅시다 나는 다른 차트를 추가거야

음, 식욕의 말하기,의는 파이 차트를 할 수 있습니다 거기는 여기에 보이고있다 기본적으로, 데이터는 제품 카테고리했다 여기에, 나는 그것이 더 큰 만들 수 있습니다 레자, 당신은 바로 중간에 당신을 넣어

당신은 나에게 어떤 방을주지 ​​않았다 여기에 기본적으로, 우리는 제품 카테고리를했다 오 감사합니다 그럼 난 내 설명 할 수있다 그리고, 그 대신, 나는 다른 차원을 넣을 수 있습니다 내 사용자의 연령이나 사용자의 성별있다

나는 구성으로, 중요한 건 당신이 여기의 사람들을 위해입니다 드라이브 협업을 잘 알고, 그건 당신이 다른 사람을 볼 수있는 보통의 경험, 당신은 할 수있는, 함께 공동 작업을 수행 할 수 있습니다 어디 보자 이제 우리는 완벽에 도달했습니다 가정 해 보자 이 아름다운하고 유용한 모두이다 방법을 공유하는 우리에게 보여주십시오

레자 로니 : 50 % 올바른 우리는이 문서를 공유 할 것입니다 당신이 Google 드라이브를 사용하는 경우, 이것은 당신을 잘 알고있을 것입니다 이미 링크가 이미 공유 있어요 내 도메인, 내 회사, googlecom과 공유

그래서 링크가있는 모든 사용자는이 데이터 집합에 액세스 할 수 있습니다 내가 더 아래를 제한하고자한다면, 나는 액세스 권한이있는 사용자를 제한하는 이메일을 선택할 수 이 특정 데이터 세트에 승인? 돌아 가기 윌리엄 WILLIAM VAMBENEPE는 : 레자를 주셔서 감사합니다 즉, 일반적인 Google 드라이브의 공유 모델입니다

그래서 매우 유용 협력 우리는 슬라이드에 다시하십시오 이동 할 수 있습니다 고맙습니다 그리고 우리가 원하는 여기에 또 다른 측면에 완료합니다 이며, 지금까지와 같은 빅 데이터 처리, 점점 더 그 또한 기계 학습이 포함되어 있습니다 그래서 우리는 기계가 엔진을 학습 어제 발표 [지금? GA

?] 즉,이 세션의 범위를 벗어난다입니다 여기에 기계 학습 세션을 많이합니다 실제로 API를 한 세트 기계 학습 할 필요가 없습니다 사람들에게는 관련 전문가들은 사용할 수 있다는 사실이다 모델을 노출하는 API 구글 자체 우리 자신의 데이터를 사용하여 훈련했다 이미지 통찰력을 추출하는 비전 API가 있습니다 이미지에 무엇입니까? 위치, 랜드 마크, 그와 같은 많은 것들을 인식

음성 API 자동으로 텍스트로 음성을 전사한다 작업 API, 즉 꽤 전문적인 API입니다 하지만 업계가가는 곳이 있다고 생각합니다 이 경우, 구체적으로 API를 구비 취업 기회에 후보자의 이력서를 일치합니다 그리고 일반적으로 키워드 검색을 넘어 길을 간다 뭔가 정말 정말, 정말 많은 양에 대한 교육을하고있다 데이터의 약 훨씬 더 많은 통찰력을 가지고 무엇을 실제로 일치에 의미가 있습니다

최근에, 나는 할까 찾고 있었다 나에게 후보를 통과 사람이 누구인지 아파치 경험을 가지고 있습니다 그리고 아파치의 기반을 의미한다 그리고 그는 실제로 아파치 헬기에 근무했다

고맙습니다 그게 내가보고 있었다 정확히 아니다 그래서 그 종류는 쉴새 당신은 단어 매칭을 넘어 갈 수있는 사람들이 꽤 누구 당신이 무슨 일을하는지에 대한 관련 또 다른 하나는 번역 API입니다 나는 당신의 많은 소비자로 사용했다 확신합니다

API를 귀하의 제품에서 사용하는 것처럼 사용할 수 있어요 및 데이터 가격 파이프 라인이다 그리고 마지막으로, 자연 언어 API가 걸립니다 텍스트와 텍스트가 말하는 무엇을 알려줍니다 어떤 사람, 어떤 위치, 어떤이의 대화의 톤? 사람들은 불행, 행복하니? 그리고 그런 것들 즉, 어떤 사람의 예 하지 기계 학습 전문가, 사용할 수 있습니다 결론적으로, 우리가 무엇을하려고 생각 여기서 뭘하는 설명의 혼합을하는 것입니다 서버없는 처리의 값 그것은 규모, 속도 및 비용 효율성을 제공하는 방법 데이터 처리

그러나 방법은 많은 경우에, 그것을 사용하는 방법을 잘, 아주 쉬운 도구를 통해입니다 그래서 우리는 데이터 준비를위한 데이터 준비의 데모를했다 우리는 데이터에 대한 데이터 스튜디오의 데모를했다 science– 죄송합니다, Datalab 데이터 과학 보고서의 데이터 스튜디오 그리고 그 당신에게 도구에 대한 액세스 권한을 부여하는 방법 데이터 흐름과 같은 페타 바이트를 처리 할 수 ​​BigQuery에 같은, 즉, 등등, 파이프 라인 및 배치를 실행하고 스트리밍 할 수 있습니다

이 중 걷는 것은, 우리는 당신을 격려 할 일을하는 우리가 보여준 모든 제품의이다 가서 그 드릴 깊은 일부에 세션을 참조 그것들의 그 세션 중 일부는 실제로 어제 무슨 일이 있었 하지만 모든 것이 당신이 따라 잡을 수 있도록 유튜브에있을 것입니다 그래서 여부 그리고은 – 데이터 준비는 오후 세션있다 당신이 좀 더 배울 수 있도록 그 데이터 준비에 대해 전적으로 1 층에 코드 랩도 있습니다 당신은 바로 당신의 손을 얻을 수있는 곳 그것으로 재생을 시작합니다 그래서 당신이 갈 수 있습니다 또는 데이터 흐름은 BigQuery를 사용하는 방법을 배웁니다 이들 모두는 오늘 또는 YouTube에 여기에 있습니다

대단히 감사합니다 여기 주셔서 감사합니다 [박수 갈채]