Migrating a Big Data Environment to the Cloud, The Untold Story (Cloud Next '19)

[음악 재생] SASHA KIPERVARG : CP142에 오신 것을 환영합니다 빅 데이터 환경을 클라우드로 마이그레이션, 미지의 스토리

내 이름은 사샤 키퍼 바그입니다 저는 LiveRamp의 클라우드 운영 담당 책임자입니다 그리고 저는 우리의 수석 소프트웨어 중 하나 인 Ben Podgursky와 왔습니다 엔지니어, 패트릭 레이먼드 우리 수석 제품 매니저 그리고 그는 인프라 포트폴리오를 소유하고 있습니다

네가 도리를 모두 잘 알고 있다고 생각해 나는 그 일을 끝내지 않을 것이다 LiveRamp에 대해 조금 전에 프레 젠 테이션의 고기에 들어가십시오 기본적으로 오프라인 데이터를 사용합니다 주소, 다른 PII, 기본적으로 – 그런 다음 우리는 그것을 식별하지 못하고, 그것을 변형 시키며, 그런 다음 채널 파트너에게 채널을 제공합니다

모두 당신에게 광고 벤은 기술적 세부 사항을 우리 회사는 그의 주제 중 하나에서 않습니다 그래서 제가 제일 먼저 말하고 싶은 것은 벤 (Ben)과 저는, Patrick은 정말 작은 그룹의 사람들입니다 마이그레이션을 담당합니다 그것은 팀의 팀입니다

우리는 대규모 인프라 소대, 대규모 엔지니어링 팀, 보안 전문가, 재무 전문가, 준수 전문가 그리고 그들은 모두 우리를 이주시키는 책임이있었습니다 우리는 지금 비행 중입니다 우리는 곧해야합니다 나는 또한 Google 팀 구성원을 보유하게됩니다

여기이 슬라이드에 있습니다 그것들이 우리 팀의 일원이기 때문입니다 우리는 그들을 그렇게 취급합니다 그리고 그들은 우리를 도와줍니다 그리고 그들은 우리 팀 팀의 일부입니다

LiveRamp에 처음 가입했을 때 회사를 클라우드로 마이그레이션하도록 요청했습니다 그게 실제로 의미가 무엇인지 전혀 몰랐습니다 이것이 단지 뭔가이기 때문입니다 아마 20 년에 한 번 또는 일생에 한 번 일어날 수 있습니다 그 일을하기위한 플레이 북이 정말로 없습니다

그리고 나는 모험을해야한다고 생각했습니다 한 단계로 시작하십시오 그리고 그것이 제가 한 것입니다 방금 질문하기 시작했습니다 나는 임원이 일렬로 맞춰 졌는지 알아보기를 원했다

나는 예산이 있는지 알아 내고 싶었다 승인 절차가 무엇인지 알아야했습니다 그리고 꽤 자주, 그 질문은 더 많은 질문을 이끌어 냈습니다 그리고 그것이 제가 취한 접근법입니다 나는 관객 중 많은 사람이 생각한다

유사한 도전을 받고있다 어쩌면 그게 오늘 네가 여기있는 이유 일거야 내가 취할 접근법에 대해 생각하기 시작했을 때, 내가 가장 좋아하는 아티스트에 대해 생각했다 리처드 제임스라는 Aphex Twin이라고하는 사람입니다 그리고 이것은 그가 말하는 곳의 시원한 인용구입니다

그가 음악을 만드는 방법에 대해 근본적으로 그가 여기에서 말한 것 그게 플레이 북을 버리는 것입니다 그는 어둠을 헤쳐나 가면서 그가 배우고 자하는 것까지 이런 식으로 느낀다 그는 자신의 접근법에 적응합니다 그리고 많은 사람들이 내 정원을 가지고 있다고 생각합니다

그들은 독특합니다 당신은 자신의 문제가 있습니다 그리고 하나의 크기가 모든 플레이 북에 맞지 않습니다 모든 것을 다룹니다 내가 발견 한 첫 번째 사실은 우리가 팀을 올바르게 이끌어 낼 필요가 있습니다

그리고 그것은 올바른 스킬 세트를 갖는 것을 의미했습니다 그것은 올바른 문화를 갖는 것을 의미했습니다 그리고 나는 우리가 이전에했던 일이 엔지니어링 팀에 속한 팀 이들은 매우 숙련 된 시스템 개발자 그룹이었으며, 대부분은 미안하지만 시스템 개발자가 아닙니다 시스템 관리자

그리고 그들은 최선을 다하려고 애썼다 하지만 그들은 실제로 공학에 통합되지 않았습니다 내가 느꼈던 방식으로 필요했다 우리가 갈 필요가있는 곳으로 가야합니다 그래서 우리는 팀을 조정했습니다

우리는 먼저 스크럼을 채택했습니다 일부 시스템 관리자가 팀을 떠났습니다 팀의 시스템 관리자 중 일부는 새로운 기술을 익혔습니다 우리는 시스템 엔지니어를 고용했습니다 우리는 LiveRamp 엔지니어링 팀의 다른 팀원들로부터 파견되었습니다

게다가 그리고 우리는 근본적으로 개발 팀이되었습니다 인프라에 중점을 둡니다 도전의 다음 부분은 보안과 거버넌스를 찾아 내려고 노력했습니다 이제 클라우드에 도달하기 위해, 당신은 승인을 받아야합니다

당신은 보안에 가야합니다 규정을 준수해야합니다 합법적으로 가야합니다 놀랍게도 놀랍지 만 그 과정이 없습니다 물론, 아무도 이것을하지 않기 때문에 존재했다

일생에 한 번 그래서 우리는 그 과정을 만들어야했습니다 우리는 관계를 수립해야했습니다 우리는 보안 작업 방법을 고안해야했습니다 그들이 모든 것을 검토 할 수있는 곳 우리는 일주일 단위로 일을하고 있었는데, 그곳은 추적당했습니다

Jira 티켓처럼 그리고 나서 우리는 사인을 얻은 다음 진행할 것입니다 그것은하기가 상당히 어려웠습니다 약 12 개월이 걸렸습니다 나는 우리가 환상적이라고 말할 수있어서 자랑 스럽다

보안 및 기타 거버넌스 팀과의 관계 오늘, 그 중 일부는 청중에 있습니다 다음 과제는 어떻게 우리가 마이그레이션에 접근해야합니다 그리고 저는 그것을 제품처럼 취급해야한다고 강하게 느꼈습니다 그리고 그것이 의미하는 바는 제품 관리자 누가 인프라를 이해했는지, 누구에게 접근했는지 전체적으로 생각한 제품의 관점에서 우리가 어떻게해야하는지, 어떻게 그것에 대해 의사 소통을해야하는지에 관해서 패트릭, 누가 그럴거야? 이것에 대해 더 깊이 이야기하는 것이 시작되었습니다

그는 자신의 초점을 보안 관리에서 변경했습니다 제품 관리 부서에 알려 주었고 그는 그 대부분을 처리했습니다 가장 중요한 결정 중 하나 우리가 이민 과정에서 만든 실행을 시작하기 전에 어떤 구름을 사용해야하는지 알아 내려고 노력했습니다 AWS에 익숙한 사용자가 많을 것입니다 그들은 일종의 900 파운드 고릴라입니다

그리고 2 년 전 우리가 처음 시작했을 때, 우리 회사도 AWS 경로를 따라 가고있었습니다 그리고 아마 우리는 한 달 안에 있었을 것입니다 AWS와 계약서에 서명하십시오 그리고 우리는 전에 가벼운 방식으로 GCP를 보았습니다 우리는 동부 해안에서 GCP를 사용하는 일부 팀을 운영하기까지했습니다

그러나 모든 사람들은이 결정이 실제로 내려 졌다고 생각했습니다 또 다른 가능성은 없었고, 나 자신도 포함되었다 그리고 저는 CFO 인 Warren Jenson으로부터 이메일을 받았습니다 그가 말하길, 우리는 GCP를 보았습니까? 우리가 수백만 달러에 정말 가깝기 때문에 거래 그리고 나는 빨리 대답했다

그렇지만, 그렇다 그날 밤에 보낸 후, 나는 불편 함을 느꼈다 내 대답과 함께 내가 제대로 할 수 있다고 생각하지 않았다 왜 자세한 대화에서 그를 대표 하는가? AWS를 선택하고 GCP를 자세히 검토하지 않은 이유는 무엇입니까? 그리고 다음날 아침에, 나는 들어왔다

나는이 모든 수석 기술 팀을 모았다 인프라에 대해 질문하고 동일한 질문을했습니다 그리고 나는 같은 반응을 되찾았다 고 생각한다 나는 나 자신을 느꼈다 그것은 우리가하지 못했던 것이다

최근 데이터를 보았습니다 그리고 여러분 모두는 구름이 정말로 빨리 움직인다는 것을 압니다 신제품은 신속하게 개발되고 제공되며, 우리는 지난 6 개월 동안 그것을 보지 않았습니다 그래서 우리는 일주일 정도 시간을 들여서 새로운 기능 세트에서 그것이 우리 회사를 위해 원했던 것과 어떻게 연관되어 있는가 그리고 그 주 후에 우리가 돌아 왔을 때, 우리 모두는 거기에 뭔가 있다는 것을 깨달았습니다

그런 다음 더 많은 조사가 필요했습니다 그리고 나서 우리는 또 다른 3 ~ 4 주 동안 출발했습니다 Kubernetes에 깊이 잠수하려면 큰 데이터 스택, 비용, 모든 차원 그리고 우리는 그것에 집중했습니다 우리가 발견 한 것은 GCP 우리 회사를위한 훨씬 나은 솔루션이었습니다

모든 차원에서 비용이 포함됩니다 그래서 이것을 침몰 비용의 오류라고 부릅니다 AWS에 큰 투자를했다는 것입니다 그리고 우리는 그 정면을 정말로 오랫동안 진행했습니다 그리고 사실입니다, 우리는 많은 시간을 낭비했고, 많은 시간이 내려갔습니다

그 길 그러나 그것이 우리가 마음을 바꿀 수 없다는 것을 의미하지는 않습니다 그래서 우리가 GCP에 대한 결정을 내렸을 때, 우리에게는 또 다른 도전이있었습니다 소규모 엔지니어링 팀과 소규모 인프라가있는 팀, 상대적으로 말하기 우리 중 수천 명이 없습니다

누가 기존의 데이터 센터를 관리 할 것입니까? 샌프란시스코에 공동 거주하고 있습니다 우리는 약 3,000 대의 서버를 보유하고 있습니다 100 페타 바이트의 Hadoop VMware의 많은 것들 우리는 개발 팀이 미래에 집중하기를 원했습니다

우리의 과거 또는 현재 그래서 우리가하기로 결정한 것은 거기에 나가서 시도했습니다 우리를 위해 그렇게 할 수있는 회사를 찾으려면, 그 전체 작업량을 감당할 수있는 우리는 미래에 중점을 두었습니다 시리우스라는 회사를 발견했습니다 마이클 포터와 스캇 라이트

나는 그들이 청중 어딘가에있는 것 같아 그들은이 비전에 우리를 팔았습니다 사실 지난 한 달 동안, 그들은 데이터 센터의 모든 작업을 수행했습니다 우리 팀을 도와 주면서 우리 팀을 돕고 있습니다 GCP에 중점을 둡니다

일단 우리가 그 문제를 해결하면 거기 우리가 해결해야 할 두 가지 다른 것들이 있습니다 우리를 침몰시킬 수있는 두 가지 네 함선도 가라 하나는 비용 추적이었고 다른 하나는 비용 추적이었습니다 거버넌스 결정이었다 비용 추적 측면에서 우리는이 철학을 가지고 있습니다

각 개발 팀이 필요로하는 자아를 위해서 우리는 그들이 환경을 신속하게 돌리기를 원합니다 아무에게도 묻지 않고 혼자서 그러나 물론, 그것은 그들이 그 때 그들은 환경을 전적으로 회전시킬 수있었습니다 자신에

그리고 그들은 수백만과 수백만을 일으킬 수 있습니다 누구도 알지 못하는 자원 달러로 우리의 예산을 동기화합니다 그래서 우리는 초점을 맞추기 위해 다른 PM 팀을 구성하기로 결정했습니다 그 특별한 문제에 관해서 그리고 그 노력은 바로 지금 열매를 맺고 있습니다

우리는 개발자에게주는 균형이 적절하다고 느낍니다 자유는 있지만, 동시에 경고와 관계가 있습니다 해당 팀에서 직접 재정 지원을받으며, 그 도전들이 다루어지는 곳 거버넌스는 상당히 흥미 롭습니다 우리는 중요한 교훈을 배웠습니다

이전에 보안과 함께 12 개월간 당신이 클라우드에서 빨리 갈 수 있다고해도, 즉시 배포 할 수있는 경우에도, 귀하가 승인을 받았다는 의미는 아닙니다 제품을 실제로 빨리 꺼내십시오 따라서 신속한 거버넌스 결정없이, 정말로 중요하지 않습니다 그래서 우리는 엔지니어링 팀에서 다른 팀을 구성했습니다 우리는 수락 한 사람을 고용했습니다

그의 이름은 [INAUDIBLE]입니다 그리고 우리는 우리가 호출하는 프로세스를 만들었습니다 기본적으로 의사 결정을 묶는 케이크 이 Cake 프로세스를 통해 모든 거버넌스 팀으로부터 그리고 우리는 12 개월 무언가를 떠났습니다 제품을 허용하는 결정을 내리는 데 2 ​​주까지 생산에 들어가기 그래서 배운 주요 교훈의 측면에서, 내가 너와 나눌 수있는 것, 내가 너에게 생각해 주길 바라는 것 너 자신을 위해, 번호 하나, 마이 그 레이션 거대한 다차원 동물입니다

그것들은 문제들 중에서 가장 좋고 도전적인 것입니다 그게 네가하고 싶은 일이라면 너는 확실히 올바른 곳에서 나는 당신의 팀을 바로 시작하고 충분한 질문을 할 것이라고 말할 것입니다 문제를 완전히 이해할 때까지 게임 북을 사용하지 마십시오 아무것도 가정하지 마십시오

귀하의 데이터와 새로운 데이터를 지속적으로 재평가하십시오 그리고 침몰 비용의 오류에 유의하십시오 그리고 그것이 당신의 의사 결정에 어떻게 영향을 미치는지 변화하는 프로세스 또는 채용을 두려워하지 마십시오 그 과정에서 새로운 역할을 위해

가능성이 높습니다 전혀 다른 것입니다 그리고 마지막으로, 틀린 것을 두려워하지 마십시오 당신은 실수 할 것입니다 무언가의 진실을 찾으십시오

옳기보다는 오히려 성공으로 당신의 길을 되풀이하십시오 그래서 나는 마이크를 벤쪽으로 넘길거야 지금 누가 엔지니어링 문제에서 당신을 말할 것입니까? 원근법 [박수 갈채] BENJAMIN PODGURSKY : 안녕하세요

나는 Ben Podgursky입니다 나는 엔지니어 야 저는 데이터 인프라 팀에서 일하고 있습니다 우리 이주에 대해서 이야기 할 것입니다 소프트웨어 엔지니어의 관점에서 GCP로 나는 단지 강조하는 것으로 시작하고 싶다

나는이 과정에서 수석 건축가가되었다고 주장하지는 않는다 이것은 엔지니어 수십 년이 걸렸습니다 그러나 그들은 실제로 이주를 실제로 바쁘게하고 있습니다 오늘, 나는 그 중 하나입니다 마이그레이션을 설명하기가 어렵습니다

LiveRamp의 판매에 대해 간략히 설명하지 않고 우리가 어떻게하는지 마일 높은 볼 우리는 고객 데이터 세트를, 식별자 데이터를 받아 이것을 전달합니다 두 가지 방법으로 광고 기술 생태계에 먼저 배치 전달 시스템으로, 또한 실시간 키 값 전달 시스템을 사용합니다 나중에 우리 환경에 대해 더 이야기 할 것입니다 짧은 버전은이 처리의 대부분을 차지합니다 큰 Cloudera Hadoop에서 발생합니다

데이터 센터의 클러스터 다른 대부분의 응용 프로그램은 VMware 가상 시스템에서 실행되었습니다 요리사가 제공 한 것입니다 CoreOS 지각 구조 클러스터 실시간 키 값 제공 우리가 만든 자체 개발 한 오픈 소스 시스템이었다 하둡 파이프 라인에 대해 한 가지 강조하고 싶습니다

많은 회사에서 Hadoop은 부가가치입니다 그들에게는 제품이 있습니다 그들은 제품을 판매합니다 그들은 제품에서 로그 아웃되며, 그런 다음 기계 학습을하고 그로부터 가치를 얻으십시오 그건 LiveRamp가하는 것이 아닙니다

우리는 기본적으로 ETL 회사입니다 그리고 우리가 Hadoop 파이프 라인을 통해 데이터를 이동하지 않는다면, 우리는 실제로 많은 제품을 판매하지 않습니다 그리고 이로 인해 마이그레이션이 매우 어려워졌습니다 나는 나중에 그것에 대해 더 이야기 할 것이다 작년에이 모든 일이 우리의 온 프레미스 데이터에서 일어났습니다

우리 하드웨어의 대부분은 2,500 노드 Cloudera입니다 Hadoop 클러스터 밖에 큰 클러스터가 있습니다 하지만 꽤 큰 90,000 CPU입니다 사샤가 말했듯이, 약 100 페타 바이트의 원시 스토리지

VMware 클러스터에서 Hadoop 이외의 작업이 발생했습니다 500 개 이상의 VM에 대해 이 중 많은 부분이 논리 작업 전용이었습니다 Hadoop 환경에 대해 매일 약 8 테라 바이트의 데이터가 송수신됩니다 매우 약 압축 후 계산, 필터링, 정렬 등 모든 작업을 수행합니다 그래서 결국 하드웨어는 꽤 중요한 하드웨어였습니다

우리가 옮겨야 할 환경 나는 확신 할 수있는 것에 대해 이야기하지 않을 것이다 우리는 구름으로 움직입니다 사샤는 그 중 일부를 다뤘습니다 이유는, 당신이 듣게 될 것입니다, 1000 다른 회담 이번 주 브레이크 아웃 세션

우리는 빨리 움직이기를 원했습니다 Google의 엔지니어는 개발자가 아닌 개발자가되기를 원했습니다 역사적인 재 enactors 우리는 규모를 조정해야했습니다 클라우드 기반 도구가 필요했습니다

일반적인 이유 마찬가지로, 나는 많은 시간을 보내지 않을거야 그것이 당신이 여기있는 이유이기 때문에 GCP를 선택하도록 설득합니다 그러나 우리가 한 의사 결정 과정에 대해 이야기하고 싶었습니다 분명히, 우리는 기술에 관심이 있습니다

GKE는 큰 도움이되었습니다 당시 AWS는 좋은 Kubernetes 제공 물을 가지고 있지 않았지만, 우리는 실제로 제 3자를 찾지 못했습니다 설득력있는 제물 우리의 실시간 배송 팀은 다른 모든 제품보다 우월합니다 객체 저장이 필요했습니다

GCS는 다른 것들과 경쟁적이었습니다 가격은 좋았습니다 우리는 다른 사람들보다 더 좋은 가격을 가지고 있습니다 하지만 내가 강조하고 싶었던 점은 정말 우리를 위해이 선택을 한 사람들 이었습니까? Google과 대화 할 때 우리는 우리의 문제를 해결하고자하는 엔지니어에게 우리는 전체 목표가 우리를 팔 것이라고 생각하지 않았습니다 전문 지원 시간

전문적인 지원에 문제가 있다는 것은 아닙니다 훌륭합니다 하지만 우리는 근본적으로 우리의 문제에 답하고 우리를 도우려고했습니다 그리고 그것은 전체 이민을 통해 우리에게 자신감을주었습니다 그들은 우리를 돕고, 나란히있을 것입니다

문제를 통해 그리고 그것은이 과정에서 절대적으로 머물러 있습니다 그래서 우리가 우리가 이것을 현실로하기로 결정했을 때, 우리는 그것을 몇 가지 질문으로 쪼개었다 우리 시대의 건축은 무엇입니까? LiveRamp의 최소 실행 가능 클라우드 아키텍처는 무엇입니까? 우리는 어떻게 거기에 도착합니까? 클라우드에 구축 – 쉬운 일은 아닙니다 그러나 당신은 신선한 시작하게된다

클라우드 기반 기술로 시작할 수 있습니다 회사가 운영되지 않는 경우 큰 문제는 아닙니다 그러나 그것은 우리에게 사실이 아닙니다 우리는 많은 양의 인프라를 가지고있었습니다 마이그레이션하는 동안 계속 실행해야하는 프로세스가 있습니다

그리고 마지막으로 우리는 무엇을 향해 무엇을 만들고 싶습니까? 우리는 우리의 인프라가 첫날에 완벽해질 것입니다 첫날 구름이 완전히 덮일 수는 없습니다 그러나 우리는 성공을 향해 스스로를 위로하고 싶습니다 그렇다면 인프라가 처음에는 어떻게 될 것입니까? 마이그레이션 할 개발 팀 요청 힘들고 엔지니어에게 물어보십시오 그들이하는 동안 프로세스에 많은 불확실성이 추가됩니다

Next와 같은 회의에서 말하는 것은 너무 섹시하지 않습니다 하지만 드롭 인 대체물이 있었던 곳 우리 인프라의 GCP 로의 직접 번역, 우리는 일반적으로 리프트 측면에서 실수를 범했고 우리는 GCP를 가지고있었습니다 즉, 일부 제품은 매력적이었습니다 그리고 매우 직설적 인 번역을 제공했다 마이그레이션하는 동안 전환하는 것이 적절하다고 느꼈습니다 그래서 저는 변하지 않았고 변하지 않은 것을 통해 이야기 할 것입니다

그래서 무엇이 바뀌지 않았을까요? 우리의 온 프레미스 환경은 단일 논리 내부 회로망 사설 IP를 통해 전달되는 내부 서비스, 대부분 콘솔을 통해 조정되었습니다 앱 팀에서는이 점을 동일하게 유지하는 것이 중요하다고 느꼈습니다 그들은 단일 네트워크가 필요했습니다 해당 네트워크를 통해 서로 대화해야하는 앱

그리고 나중에, 특히 다리 건너편에서 더 이야기하겠습니다 우리의 네트워크 사이 모든 대용량 데이터 처리는 Cloudera Hadoop에서 발생합니다 그것은 변하지 않습니다 나는 보안 및 사생활 보호 결정에 대해 이야기하고 싶지 않다

대단히 중요하지만, 우리가 한 일의 거대한 부분 클라우드는 개발자에게 권한을 부여하지만, 고 가용성의 글로벌 배포를 쉽게 만듭니다 실수로 보안 침해 그래서 우리 작전 팀은 방화벽 통제권을 유지했습니다 허가의 관점에서 규칙들, 근본적으로, 고객 데이터를 안전하게 유지하지 못한다면, 우리는 실제로 많은 제품을 가지고 있지 않습니다

그래서 우리는 무엇을 바꾸 었는가? 전제, 우리는 우리의 모든 데이터를 HDFS에 거의 저장했습니다 그래서 우리의 HDFS는 실제로 꽤 기름칠 기계입니다 이 마이그레이션을 시도 할 때까지 그러나 그것은 매우 스트레스가 많았고 유지하기가 어려웠습니다 모든 업그레이드가 데이터 손실의 기회임을 알았습니다 또는 일종의 대참사

우리 회사가 성장함에 따라 더 많은 고객과 더 짧은 고객을 확보함에 따라 SLA가 짧아지면 어려워지고 어려워졌습니다 Google 제품 팀이 환경을 업그레이드했기 때문에 일이 잘못되었을 때 중단 시간을 원합니다 그래서 우리는 결국 기본적으로 막 붙어 있지 않았습니다 업그레이드가 가능합니다 따라서 GCP를 사용하고 나면 모든 영구 데이터에 GCS를 사용합니다

저장 우리는 지속적인 데이터를 위해 HDFS를 사용하지 않습니다 전제 조건으로 Chef를 사용하여 모든 VM을 프로비저닝합니다 우리는 Chef에 많은 응용 프로그램 로직을 내장했습니다 그리고 우리는 실제로 Chef 클라우드로 그것은 잘 작동하지 않았고 우리는 GKE가 훌륭한 제품이라고 느꼈습니다

일부 팀은 GKE를 사용하고 있습니다 우리는 모든 VM을 전환하는 것이 적절하다고 생각했습니다 우리가 이전 할 때 GKE로 넘어갔습니다 마지막으로 Google Bigtable이 우리의 자국 핵심 가치 데이터 저장소를 대체 할 수있는 훌륭한 도구입니다 우리는 모든 실시간 웹 트래픽에이를 사용할 것입니다

그래서 나는 개인적으로 대부분의 시간을 보냈다 Hadoop 클러스터를 GCP로 변환합니다 그래서 나는 그다지 많은 것을 설명하지 않고 싶다 전체적인 이야기 일 수도있는 아키텍처는, 그러나 가치에 대해 이야기하고 어떻게 해방하는지 그것은 구름 속에있다 2,500 대의 서버를 보유하고 있다면 너와 함께해야 할 일

그들은 모든 데이터를 가지고 있습니다 업그레이드를 테스트하려면, 주말에는 2,500 대의 서버를 구입할 수 없으며 규모 테스트를 수행 할 수 없습니다 그런 다음 다시 돌려주십시오 당신은 가지고있는 것을 테스트해야합니다 dev 클러스터를 설정할 수 있습니다

준비 클러스터를 설정할 수 있습니다 그러나 규모 테스트는 실제로 할 수 없습니다 따라서 GCP에서 GC VM을 사용하는 경우 사실이 아닙니다 인프라를 가동시킬 수 있습니다 기존 인프라 스트럭처를 다운시킬 필요가 없습니다

그것을 밖으로 시험하기 위하여 그리고 롤백은 쉽습니다 GCS를 사용하기 때문에 모든 것이 더 쉽습니다 그래서 이것은 우리의 능력을 정말로 4 배로했습니다 이 인프라에서 반복 할 수 있습니다

그리고이 환경을 무언가와 유지하는 것으로 바뀌 었습니다 스트레스가 많고 고통 스럽다 그것은 실제로 다시 재미 있습니다 그렇다면 GCP는 어떻게 될까요? 몇 가지 마이그레이션 전략이 있습니다 기업에 많은 고객이없는 경우 돈을 벌지 않으면 너 자신을 벗어날 수있다

전송 장치를 사용할 수 있습니다 전국으로 배송 할 수 있습니다 그런 다음 다시 켜십시오 모든 것이 작동하는 몇 주 후에 우리는 영업 팀과 점검했고, 고객, 우리는 돈을 벌어 그리고 그들은 꺼지는 생각에 행복하지 않았습니다

그래서 우리에게 천천히, 아주 조심스럽게 옵션을 남겼습니다 조율 된 마이그레이션 프로세스 그래서 우리는 우리가 필요한 것을 알고 시작했습니다 적어도 마이그레이션 프로세스 중에, 우리는 하나의 논리적 네트워크가 필요했습니다 GCP와 데이터 센터간에 팀은 속도를 낼 수 있어야했습니다 GCP의 서비스 온 프레미스 데이터 센터로 마찬가지로, 데이터베이스 호출을 공유 할 수 있어야했습니다

따라서 하나의 큰 네트워크에서 전체 회사를 덤핑하는 것을 피하려면, 우리는 헤어졌다 우리는 공유 VPC 네트워크로 분할했습니다 팀은 자체 서브 네트워크를 가지고 있으며 회전 할 수 있습니다 서비스를 제공합니다 팀은 GCP를 통해 다른 팀과 커뮤니케이션 할 수 있으며, 데이터 센터로 돌아갈 수 있습니다

우리는 클라우드 상호 연결로이 작업을 수행했습니다 그리고 이것은 정말로 중요했습니다 나는 강조하는 것이 중요하다고 생각한다 우리는 GCP에 생산 어플리케이션을 가지고 있었다 처음부터

스테이징 환경을 설정할 필요가 없었습니다 그런 다음 하루 만에 회사를 삭감했습니다 우리는 GCP를 운영하는 주말부터 서비스를 제공 받았습니다 그래서 이것은 법원의 도전 중 하나를 회사로 수출합니다 우리가 데이터 센터 GCP에서 가지고 있던 제한된 출구를 다루었습니다

데이터 센터 내부 – 그것은 거대한 데이터 센터입니다 우리는 엄청난 대역폭을 가지고 있습니다 그러나 우리는이 모든 데이터를 가져올 수 있도록 최적화하지 않았습니다 데이터 센터의 우리는 하루가 끝나면 약 50 기가 바이트로 제한되었습니다 GCP로 분명히 우리는 이것을 다시 설계 할 수있었습니다

우리는 더 큰 연결을 구축 할 수있었습니다 그러나 우리는 데이터 센터를 업그레이드하는 데 수백만 달러를 낭비하지 않았습니다 우리가 그것을 끄려고 할 때, 단지 6 개월 정도 유지해야합니다 전송 장치가 제대로 작동하지 않는 이유 우리는 LiveRamp의 데이터 중 아주 작은 부분만을 차지합니다 프로세스는 실제로 콜드 데이터입니다

우리는 끊임없이 고객으로부터 수입품을 받고 있습니다 데이터를 지속적으로 새로 고침 우리의 데이터 소스에서 데이터를 GCP로 전송하는 데 며칠이 걸릴 수는 없습니다 처리를 재개하십시오 우리가 명심해야만했던 또 다른 것 클라우드의 데이터 이탈은 매우 비싸다는 것입니다

클라우드 공급자 – Google뿐 아니라 – 모든 종류의 마약상 입구 Ingress는 완전히 무료입니다 맞습니까? 거기에 모든 데이터를 입력하십시오 훌륭합니다

그러나 테라 바이트 급의 데이터를 빼내고 싶다면, 그것은 매우 비싸게되고, 특히 그것이 일상적인 일 처리 파이프 라인의 일부라면 그래서 50 기가비트 그리고 당신은 50 기가비트처럼 좋다고 말할 수 있습니다 누구에게나 충분할 것 같은데 그리고 그것은 입력 데이터를위한 것입니다

우리는 경기에서 10 테라 바이트의 데이터를 얻습니다 고객 데이터 및 물건 그리고 우리는 하루에 10 테라 바이트 이상을 배달하지 않습니다 고객에게 전달합니다 그러나 우리가하는 일의 성격 때문에, 우리는 거대한 분산 조인을 가지고 있습니다

우리의 데이터 처리 파이프 라인의 중간에 우리는 하루에 500 테라 바이트를 읽고 쓰고 있습니다 연결을 끊으면 팀이 매우 쉽습니다 잘못된 위치에서 완전히 상호 연결을 포화시킬 수 있습니다 이것은 복잡한 문제입니다 우리는 그것으로 전체 이야기를 채울 수 있습니다

그러나 짧은 버전은 우리가 내부 서비스를 팀을위한 우선 순위 방식으로 데이터를 복사합니다 팀은 서비스를 위해 인터커넥트를 자유롭게 사용할 수 있었다 및 데이터베이스 호출을 포함하지만 데이터 인프라 팀 모든 제출 된 사본을 처리했다 우리는 그 (것)들을이 서비스에 복종시키기 위하여 그 (것)들을 요청했다 이를 통해 생산 데이터 전송의 우선 순위를 결정할 수 있습니다

짧은 SLA를 가진 제품, 우리가 약속 한 제품 매우 짧은 시간 내에 고객에게 전달됩니다 저온 데이터가 전송되면 우선 순위를 낮출 수 있습니다 그리고 결국 그것은 일어날 것입니다 정말 비판적으로 또한 주어진 대역폭에서 누가 우리 대역폭을 사용했는지에 대한 우리의 통찰력 시각 따라서 우리 팀이 파일을 직접 복사하는 경우, 당신은 TCP 덤프 주위에 몸을 피워야 할거야

2시에 누가 인터커넥트를 사용하고 있었는지 알아 내기 위해 AM 어제 밤, 그래서 모든 것이 실패했습니다 대신 Datadog 대시 보드를 살펴볼 수 있습니다 그리고 오, 앱 X는 오전 2시에 대역폭의 xyz를 사용하고 있었다고 말합니다 이러한 제약 조건은 전체 구조를 결정했습니다 데이터 이전에 대한 우리는 우리 파이프 라인의 끝에서 시작했습니다

애플리케이션을 마이그레이션 할 것입니다 HDFS에서 직접 데이터를 가져 오는 대신, 그들은 인프라 데이터 복제기를 호출 할 것입니다 서비스는 HDFS에서 입력을 복사하는 것을 처리합니다 다시 GCS로 그리고 평소와 같이 그들을 소비 할 것입니다

업스트림 응용 프로그램이 이전되면, 더 이상 복제를 수행 할 필요가 없습니다 데이터는 기본적으로 GCS에 존재하지만, 우리는 그 과정을 계속할 것입니다, 꼬리 처리 파이프 라인의 머리로 그리고 그 곳에서 우리는 현재 중도에 대한 회사로 있습니다 그것을 통해 우리가 여전히 우리가 연결을 포화시키지 않았다 그러나 이것이 우리가 이전 한 방법의 전반적인 구조입니다

그래서 그것은 매우 요약 된 버전입니다 우리가 GCP에 어떻게 접근하고 있는지 마지막으로 가장 흥미로운 질문은 다음에 오는 것입니다 우리는 어떻게 일을 다시 엔지니어링 할 것인가? 클라우드 기반으로 실제 업무에? 나는 경찰에 나가서 너에게 말할거야 우리는 아직 실제로 그 질문에 대한 강한 대답을 가지고 있지 않습니다

실시간 쿼리를 위해서는 최소한 Bigtable이 필요합니다 Bigtable에 실시간 쿼리가 포함됩니다 상당량의 BigQuery가 포함됩니다 임시 쿼리의 경우 경량 데이터의 데이터 흐름 변형 하지만 내가 모르는 주된 이유는 개발자 주도형이 될 것입니다

우리의 목표는 인프라 팀을위한 것입니다 더 이상 이러한 결정을 내릴 수 없습니다 인프라가 도움이 될 것입니다 인프라는 사람들을위한 도구를 구축 할 것입니다 그러나 하루가 끝날 무렵에는 구름 속에 있었고, 개발자가 인프라를 프로비저닝 할 수 있음을 의미합니다

적절한시기에 필요할 때 필요합니다 그래서 목표는 내년에, 잘하면, 일부 응용 프로그램입니다 팀이 6 시부 터 취한 방법에 대해 이야기 할 것입니다 60 분의 BigQuery로 바꿨습니다 응용 프로그램 또는 Bigtable 스크립트 또는 뭔가 하지만 우리가 말할 수는 없으니까

아직 거기에 없다 그래, 그게 내가 가진 전부 야 나는 물건을 패트릭에게 돌려 줄 것이다 고마워, 모두들 [박수 갈채] PATRICK RAYMOND : 안녕하세요, 고마워요

제 이름은 패트릭 레이먼드입니다 인프라 스트럭처의 제품 관리자입니다 LiveRamp에서 소대 이 마이그레이션에 대해 이야기하고 싶습니다 사샤가 말했던 것처럼, 우리는 생각하고 싶었습니다

이것에 대해서는 조금 다르게 어쩌면 PMO 또는 프로젝트 관리에 특정한 것보다, 제품 자체와 같이 생각하면됩니다 그래서 당신은 사샤와 벤의 주제를 들었다 이것은 거대하고 복잡한 문제입니다 그리고 일들이 많이 바뀔 것입니다 그래서 조금 혼란 스러울 수 있습니다

그리고 그것은 약간 압도적 일 수 있습니다 그리고 당신은 당신이 네가 네 인생을이 왼쪽에 보냈다는 느낌, 당신은 아마이 디자인의 삐걱 거리는 소리에 익숙 할 것입니다 그러나 이것은 우리 프로세스와 매우 유사합니다 처음 시작했을 때, 우리의 모든 질문 대답이 여기 왼쪽에 나온 것처럼 느껴졌습니다 그러나 우리가 팀과 반복하기 시작하면서, 우리는 우리가 가고 있지 않다는 것을 깨달았다

이 질문에 대한 완벽한 대답을 찾으십시오 그래서 우리는 시간이 지남에 따라, 우리는 더 많이 오른쪽 방향으로 움직였습니다 그리고 일이 훨씬 더 분명 해지기 시작했습니다 그래서 아마도 이것은 아마도 중요한 일이라고 생각합니다 이게 당신 회사가 뭔가라면 너 한테 일어난다

준비하기 때문에 어딘가에 뛰어 들기가 가장 좋습니다 의사 결정을 시작하십시오 Ben은 또한 팀이 의사 결정을 내리고 있다고 언급했습니다 자신의 인프라에 대해 그래서 우리는 또한이 구별에 대해서 생각하고 싶었습니다

데이터 센터에서 클라우드로 마이그레이션 할 때, 물론, 당신에게 유용한 도구가 많이 있습니다 그러나 모든 문제를 즉시 해결할 수는 없습니다 당신이 들었던 것처럼, 우리가하고있는 것들 중 일부는 순수한 상승과 교대 일뿐입니다 그래서 우리가하지 않는 것이 중요합니다 모든 이해 관계자에게 곧 약속한다

당신이 구름으로 이동할 때, 당신의 모든 문제가 해결됩니다 왜냐하면 그것은 사실이 아니기 때문입니다 그리고 우리는 브랜드로 끝나지 않을 것입니다 새로운 회사 그래서 우리는 문제의 범위를 정확하게 정하고 싶었습니다

이해 관계자들이 이해할 수있는 우리가 조사한 것 그래서 나는 지금 조금 이야기하고 싶다 이해 관계자의 의견 수렴에 대해 이 아이디어를 중심으로 우리가 한 일은 우리가 제공 할 가치를 명확히함으로써 우리는 또한 일을하지 않는 비용에 대해서 이야기하고 싶었습니다 그리고 주로 우리가이 기능을 수행 한 기능입니다 그래서 아마도 위의 성명서 여기 모두가 깊이 이해할 필요가있다

당신이하려는 일 이해 관계자가 누구인지 알아야합니다 아마 어리석은 짓을하는 것 같아요 하지만 너는 스스로에게 많은 질문을 할 수있다 누가 인프라를 소비하는지, 누가 당신에게 보안을 제공 할 예산을 보유하고 있습니다 규정 준수 승인 클라우드에서 작동해야합니까? 그리고 그것들은 당신의 이해 관계자들입니다

그리고 그들은 모두 다른 것들에 관심이 있습니다 따라서 서로 다른 방식으로 정렬하는 것이 중요합니다 그리고 우리의 임원 팀에게는 우리가 그들을 도울 수있는 방법에 관해 그들과 이야기하고 싶었다 미래의 목표, 우리가 도울 수있는 방법 그들은 이윤을 높이고 앞으로 나아 간다 회사 이니셔티브와 함께 우리의 개발자들은 새로운 인프라를보다 나은 방법으로 활용하는 방법, 자신의 배를 선장하여 자신의 제품을 만들 수 있습니다

그리고 우리 제품 팀은 제품에 대한 통찰력을 원합니다 비용에 대한 세분화 된 이해를 원합니다 그리고 제가 말씀 드렸듯이, 일을하지 않는 비용 우리에게는 계속 된 비용이있었습니다 온 프레미스 데이터 센터의 지속적인 비용 부족이 있습니다

더 복잡하고 제한적인 제품이 있습니다 기존 데이터 센터에서 작업 할 때 그리고 우리가 이것을 사교적으로 이해할 때, 우리는 Ben이 말한 것처럼, 사람들은 우리가 계속 돈을 벌기를 원했습니다 그래서 우리는 제품을 선적해야했습니다 그래서 우선 순위를 정하는 방법을 알아야했습니다 이해 관계자들이 주위에 정렬

그리고 당신에게 규모의 아이디어를주기 위해서입니다 우리가 우선 순위에 대해 이야기하고있는 것, 우리는 5 개국에 22 개의 팀을두고 있습니다 아마도이 방에있는 많은 사람들과 매우 비슷할 것입니다 전 세계에 걸쳐 이러한 유형의 우선 순위를 유지합니다 1 년 넘게 할 일은 매우 어렵습니다

하지만 가능합니다 따라서 이것은 매우 명백한 진술입니다 그러나 모든 것이 최우선 순위 일 때 각 팀마다, 우선 순위를 매길 수는 없습니다 따라서 운송을 계속해야한다는 것을 알고 있습니다 우리는 모든 사람이 그들에게 최우선 순위

그러면 우리는 그걸 어떻게해야합니까? 우리는 어떻게 그 일을합니까? Sasha가 언급 한 것처럼 모든 팀 스크럼을 어떤 형식이나 방식으로 사용하십시오 각 팀이하는 일 중 하나 그들은 비즈니스 가치 회의를 가지고 있습니다 그리고 제품 관리자로서 저는 참석하는 데 관심이 있습니다 모든 비즈니스 회의 및 비즈니스 가치 회의, 그들이 작품 가치를 이해하도록 돕는다 우리가 할거야

나는 회의에 올 것이고 말할 것이다 일의 비용, 이야기 일을하지 않는 데 드는 비용에 관해서도 도움이된다 엔지니어링 팀은 그들이 할 수있는 것을 이해합니다 클라우드에서 이익을 얻으십시오 여기에서 가장 큰 것은 실제로 존재해야합니다

참석할 많은 모임이 있습니다 하지만 모두가 이해할 수 있도록 거기에 있어야합니다 가치 그리고 거기에 계신다면 약속하지 않는 것과 같은 것에 대해 이야기 할 수있다 네가 지킬 수는 없지만 큰 이점에 대해 이야기해라

OC 시간 단축, 반복 증가 신제품의 속도, 투명하게 비용을 드러냄 엔지니어가 내게 말한 것이죠 나는이 모든 모임에 순찰을 가면서 너는 너의 모든 시간을 헌신적으로 보낼 수 없다는 것이었다 비즈니스에 도움이되므로 빌드하는 것이 중요합니다 노력을 밑에서부터

그래서 마음과 마음을 이길 수 있다면 엔지니어링 팀 중 그것들은 우선 순위를 정하는데 도움이됩니다 그것은 당신을 위해 훨씬 쉽게, 너의 구석에서 싸우는 사람들이 많기 때문에 우선 순위가 정해 지도록하려면 이 일을하는 유일한 사람이되기보다는 그리고 나는 과도한 의사 전달이 정말 귀중합니다 이것은 사샤가 제가 배운 것을 도운 것입니다 당신은 기본적으로 요점에 도달해야합니다

당신이 방에서 성가신 사람인 것처럼 느껴지는 곳 모두가보기 싫어하고, 나는 그 시점에서 생각한다 아마 요점에 다다를거야 귀하의 메시지가 분명 해지고 반복해서 반복했다 그리고 또한 기억하는 것이 중요합니다 이러한 모든 팀 및 이해 관계자와 함께, 그렇지 않은 경우 우선 순위에 대해 이야기하면 다른 사람이 될 것입니다

그리고 새로운 제품을 가진 사람들이 많이있을 것입니다 새로운 아이디어, 그리고 새로운 수익 창출 방법을 제시합니다 그러니 나가서 모든 사람이 이것을 정기적으로 이해합니다 그래서 우리는 주간지 모임에 참석함으로써 그렇게합니다 정기적 인 제품 회의 참석, 우리가 할 수있는 기회가 있다면 어디에서나 발표 할 수 있습니다

우리는 또한 많은 위험에 대해서 이야기합니다 분명히, 끊임없이 일어날 것입니다 그래서 너는 그 일들보다 앞서 나가고 싶어 그 (것)들을 완화하는 당신의 계획을 개발하십시오 그래서 우리가 시도한 한 사람의 쇼처럼 불가능합니다

잠시 동안,하지만 당신은 도움이 필요한 사람들을 고용해야합니다 당신은이 아이디어를 나타냅니다 그래서 우리는 훌륭한 팀을 고용했습니다 그것은 작은 팀이지만 열렬한 두 사람 이 메시지를 전달하는 데 도움을 준 사람 이러한 일정이 가능할 것입니다 그리고 제가 언급 한 것처럼, 우리가 생각하기 전에 정말 다른 관점에서 계획하는 것에 대해서도 마찬가지입니다 우리는 가능한 한 마른 상태로 유지하려고했습니다

우리는 무슨 일이 일어나고 있는지 이해하기에 충분한 계획을 세우고 싶었습니다 그러나 우리는 크게 방해받지 않으려 고했습니다 우리는 개발자들이 이 문제를 해결하는 것이 문제에 가장 가깝습니다 그들은 가장 많은 접촉을 가지고 있으며, 그들은 이런 일을하는 가장 좋은 방법을 우리에게 말해 줄 수 있습니다 그래서 우리는 모든 프로세스가 계획을 세우는 것이 기본적으로 배경이었습니다

정보 수집 장소였습니다 우리가 진행하고있는 진전을 이해하기 위해서, 그러나 그 과정 자체는 무거운 짐을 덜어줍니다 수 많은 스프레드 시트와 업데이트에 관한 회의가 아닙니다 그리고 우리는 우리 자신을 팀으로 생각합니다 그것은 다른 모든 팀 사이의 결합 조직입니다

그래서 우리는 정보의 올바른 균형을 찾고 싶었습니다 이해 관계자들은 실제로 무엇을 했습니까? 이 다른 옵션들과 비교하여, 알고 싶어합니다 우리가 계획을 위해 사용할 수있는 것 그래서 우리는 물었습니다 그리고 이것이 그들이 원하는 것입니다

믿기지 않게 간단합니다 그러나 누가 일하고 있는가? 얼마나 진전 되었습니까? 그리고 얼마나 많은 사람들의 거대한 카운터 마감일까지 남은 일 이것은 회사 전체에서 광범위하게 출판됩니다 누구나 그것에 접근 할 수 있습니다 그리고 우리는 이것이 업데이트되었는지 확인하려고 노력합니다

이것은 실제로 자체적으로 정기적으로 업데이트됩니다 그것은 완전히 자동화되어 있습니다 그러나 우리는 이것이 노출되어 있는지 확인하기를 원합니다 그래서 우리는 월 1 회 이그 제 큐 티브 스테이크 홀더 회의뿐만 아니라, 다시, dev에 회의 및 제품 회의 이 전체 프로세스의 핵심은 Sasha입니다

이전에 Cake 프로세스를 언급했다 거버넌스 승인 우리는 프로젝트 계획을 수행하는 방법과 동일한 방법으로 생각했습니다 그래서 우리는 정말 간단한 방법을 개발했습니다 Jira 제품 로드맵

마이그레이션하는 각 팀마다 티켓이 있습니다 매주 우리는 일을 정리 한 목록을 기록합니다 우리는 알고 싶어합니다 그들은 모든 응용 프로그램에 대해 일련의 하위 작업을 수행합니다 그들이 이주하고 있다는 것을

그리고 그들은 티켓을 업데이트합니다 이것이 모든 22 개 팀의 단일 진실입니다 우리는 무슨 일이 일어나고 있는지 정확히 알고 있습니다 그들은 우리에게 업데이트를 제공합니다 그리고 그 정보는 모두 다음과 같습니다

미끄러 져서 우리 대시 보드에 완전히 넣었다 자동으로 그래서 이것은 우리에게 정말로 도움이되었습니다 그런 결정은 한 곳에서 녹화되며 모두에게 제공됩니다 보다 그래서이 모든 것들이 훌륭합니다

그러나 변화는 정기적으로 일어난다 그래서 우리는 작업 우선 순위를 낮출 수있는 방법이 필요했습니다 우리는 물건이 완전히 옆으로 빨리 갈 수 있다는 것을 압니다 새로운 개인 정보 보호 규정이 생길 수 있습니다 아무거나는 일어날 수있다

우리 사업만큼이나 그렇습니다 에 따라 영향이있을 것이라는 점에 동의합니다 우리가하는 변화와 모든 사람에게 앞으로 나아가는 것에 동의한다 우리는 그것으로 완전히 멋져요 다시 Jira 프로젝트를 사용합니다

변경 사항이 발표되면 기록됩니다 Jira 티켓에 넣은 다음 모든 이해 관계자 팀과의 만남 결정을 내리고, 우선 순위가 결정되며, Jira 티켓에 기록됩니다 모두가 볼 수 있도록 다시 게시됩니다 일어날 일에 대해 의문의 여지가 없습니다 모두가 변화와 모든 것을 알고 있습니다

영향을 이해합니다 그래서 그것은 당신을 위해서도 변할 것입니다 그리고 나는 괜찮다고 생각한다 나는 그것이 일어날 것이라는 것을 당신이 안다는 한 오래 생각합니다 그리고 당신은 그걸 준비하고 있습니다

그렇다면 정말로 그렇게해서는 안됩니다 너무 어려워 그래서 실제로 들었습니다 미안, 나는 조금 앞으로 뛰어 올랐다 그래서이 부분도 생각하고 있습니다

우리 팀에 대한 우리의 생각 앞으로 올 모든 변화에 대비할 준비가되어 있습니다 그래서 그들은 자체 인프라를 소유하게 될 것입니다 우리가 시작했을 때부터 큰 변화입니다 그들은 이전에 없었던 일들에 책임이 있습니다 새로운 팀을 시작하기위한 프로세스에 대해 생각할 때 그들의 일, 우리는 그들에게 많은 시간을 보내 게한다

도구를 알게되고, 훈련을 받고, 이미 개발 팀과 협력 전에 이것을 통해, 그리고 실제로 새로운 기술로 무슨 일이 일어나는지 이해하십시오 그들이 사용할 거라고? 그래서 우리는 그 시간의 우선 순위를 정해야합니다 우리는 모든 팀에 투자해야합니다 그리고 가장 중요한 것은 이것이 아마도 프로젝트에서 자주 언급하지 않는 것 그러나 우리는 우리 팀을 정말로 염려합니다 우리는 우리가 많은 것을 요구하고 있다는 것을 이해합니다

키보드에 손을 댄 사람입니다 매일, 그리고 그들은 만드는 사람들입니다 이 변환이 가능합니다 그래서 우리는 그들의 일에 감사하는 시간을 많이 보냅니다 그리고 우리는 우리의 경영 팀, 제품 팀, 엔지니어링 팀은 모두이 작업을 인식합니다

그래서 충고의 큰 조각 – 당신의 프로젝트로 곰팡이를 깨뜨리는 것을 두려워하지 마십시오 우리는 개인적으로 파티하기를 좋아합니다 그런 거대한 프로젝트 – 지속적인 1 년 프로젝트와 같습니다 사람들은 매우 피곤하고 일종의 떠남에 대해 생각하며, 아니면 그들은 떠날 것입니다 그러나 우리는 모두가 완료되는 작업의 이점을 이해합니다

그래서 저는 Kelsey Hightower의 인용문을 닫고 싶습니다 우리가 서명 한 직후, 우리는 고객 회의를 가졌습니다 우리가 참석했다 그리고 우리는 그가 우리가 유일한 회사라고 말했다 그걸 들었다고 스스로 들려서 거대한 파티를 열었 어

구글과 계약을 맺은 후 그래서 이것은이 과정에 대한 우리의 생각을 구현합니다 일어나는 모든 것은 축하받습니다 우리 셋이 여기까지 올거 같아 오늘이 자리에 서게되어 매우 운이 좋았습니다 LiveRamp에서 위대한 팀

그리고 나는 그들 모두에게 고맙다고 말하고 싶다 매일 이것을 가능하게하기 위해서 [음악 재생]

[A day before us] EP.01 Before I Reach You _ ENG/JP

아 갑자기 비가 오고 난리야 어? 교양 수업 그 사람이다! 아 안녕하세요? 안녕하세요? 여기서 버스 타세요? 네 아

집에 가나 봐요? 네 할 줄 아는 말이 '네' 밖에 없나 사람 민망하게 이게 뭐야 어 저거 찢어질 거 같은데 으 신경쓰이게 꺄악! 미쳤어 백하은 아 쪽팔려 나 이상한 사람으로 오해하는 거 아니야? 아씨

사과해야 하나 또 '네' 하고 마는 거 아냐? 그래도 사과 해야겠지? 아 저 저기

하아 쟤 뭐야 아 우산 줄걸

[A day before us 2] EP.01 Before I Go To See You _ ENG/JP

다음 주까지 제 메일로 보내주세요 자 수업 마치겠습니다

어여보세요? 어미안! 누나… 끝났어요? 으응

이제 막 끝났어 오래 기다렸지 미안해 지금 본관 계단으로 가는 중이니까 배고프면 먼저 가있어! 빨리 갈게! 어 죄송합니다 누나…? 하아 꺄악! 큰일 날 뻔 했잖아요 어 미안 난…그냥

늦을 까봐… 고마워 다음부터는 거기 있어요 제가 갈게요

고마워 연우야 어? 둘이 여기서 뭐해? 어? 여

여름아 아안녕… 어? 아하하하!!! 둘 다 오랜만이네!

[A day before us 2] EP.15 One Day Before Love _ ENG/JP

[EP 15] 사랑의 전날 영국 짱이 앞에 가서 요 나타났다 좋아 찍는거야 ~ 네, 치즈! 영국 짱! 이것은 지워 줘! 무엇이야 ~ 잘 찍을 수 있잖아! 빨리 지워 찍고 다시 해요 ~ 음, 귀여운데

아! 조금 기다려라 응? 왜 그랬을까요? 그림도 서툰 주제에 야다 심각? 야밧! 닮은 것? 뭐야 이것! 웃기지 마 여기에 보내어하십시오! 여기에 보내어하십시오! やだよ이다! 실물보다 예쁘게 그릴 수있다 ~ 영국 짱 ~ 각오 하라구 ~ 아, 위험한 캡! 야,이 · 열무! 어이! 영국 짱! 응? 꺄아! 영국 짱 코피 나오고! 아무리 그래도 남자 친구 이는 없을 ~ 미안

하아 모처럼의 데이트인데, 코피가 나오 다니 하아 전혀 첫사랑 어색 청순한 모두의 이야기 대회 마지막까지 수고하셨습니다 덕분에 잘 만들어진거야 네, 감사합니다! 그리고 어 응? 미안 해요, 선배 사랑에 빠지는 순간 Season2를 사랑 해주셔서 감사합니다 무슨 일 갑자기? 영국 군에서 초대 다니 드문 아니야 그것은 설마 당신들도! ? 아니 설마? 나, 실은

열무와 사귀고 있습니다 어? 진짜? 정말로? 사랑에 빠지는 순간 Season 2 Season3에 다시 만나요

Recreating a Webtoon – Merrell Twins

얘들 아! 나는 베로니카 야! 나는 바네사 야! 그리고 오늘, 우리는 조금 다른 것을하려고 할 것입니다 그러나 우리가 그렇게하기 전에, 새로운 채널 인 경우 채널을 구독하십시오

그리고이 비디오를 엄지 손가락으로 보여주세요 매주 화요일마다 새로운 동영상을 게시합니다 그래서 화요일에 다시 와서 비디오를 볼 수 있습니다 이 비디오에서 우리는 Webtoon 만화를 다시 만들 예정입니다 Webtoon이 무엇인지 모르는 사람들을 위해, 당신이 읽을 수 있고 매일 업로드되는 무료 만화가있는 앱입니다

다양한 종류의 이야기와 장르가 많이 있습니다 나는이 응용 프로그램을 가장 긴 시간 그리고 나는이 아이디어를 앱에서 재창조하고 싶었습니다 가장 오랜 시간 동안 그래서 나는 정말로 이것에 정말로 흥분합니다

만화를 좋아한다면이 앱을 반드시 다운로드해야합니다 어, 우리는 사랑한다 만화책을 읽으므로 그냥 슬쩍 쳐서 읽는 것이 정말 재미 있습니다 그리고 정말 쉽습니다 그래서 우리는 Let 's Play의 제 1 장을 다시 만들려고합니다

그리고 여러분이 이야기의 나머지 부분을 읽고 싶다면, Webtoon에서만 읽을 수 있습니다 그래서, 응용 프로그램을 읽고 그것을 읽고, 다른 이야기들도 많고 그래 우리는 아래 설명에 링크를 넣을 것입니다 그래서 여러분은 무료로 앱을 다운로드 할 수 있습니다! 이제 Mongie가 작곡하고 작곡 한 Let 's Play의 제 1 장을 시작하겠습니다 [피아노 음악] 내가 어렸을 때 나는 게임에 빠져 들었다

장르는 결코 중요하지 않았습니다 영웅으로 놀거나 퍼즐을 푸는 생각은 내 어린 마음을 두려워하게했다 10 대들에 의해 나는 경쟁적으로 도박을했는데, 전문적으로 플레이하는 데 필요한 것이 부족하다고 생각했습니다 대학에서 나는 컴퓨터 과학 학위를 취득했습니다 학교에서 나는 첫 번째 인디 게임을 만들기 위해 부지런히 노력했습니다

나는 그 일에 수없이 많은 시간을 보냈다 친구와 함께 밤에 밖으로 누락, 샘, 우리와 함께 파티에 오너라 내 게임에 밤을 일하고 당일에 수업에 참석하십시오 대학을 졸업 한 후 새로운 인디 게임 인 Ruminate를 독립 게임 웹 사이트 Indigineer에 제출했습니다 이 웹 사이트에서는 새로운 개발자가 다음과 같은 정보를 얻을 수 있습니다

충분한 팬 층을 확보하면 대형 게임 회사에 의해 정찰받을 수 있습니다 Ruminate는 한 달 동안 Indigineer에 게시되었으며 피드백은 대부분 긍정적이었습니다 내 개발자 점수는 10 점 만점에 82 점이었습니다! 이것은 나의 첫 번째 경기에서 얻은 훌륭한 점수였습니다 Indigineer에 입회함으로써 게임 회사가 게임 개발 분야에서 일자리를 제공 할 수 있기를 바랬습니다

운수 나쁘게, 그런 것들이 그렇게 잘되지 않았다 [Phone Buzzes] 좋아요, 저 미노타 우르는 저에게 너무 힘들었습니다 실수가있었습니다

미노타우르는 (Minotaur)을 이길지라도 미로에서 벗어나야합니다 그리고 나는 뭔가를 죽이지 않으면 레벨을 올릴 수 없습니다 이 세상의 괴물들은 정말 강하다 하지만 여기에 몇 마리의 고블린이 있는데, 나는이 칼을 사용해서 그들을 잡을거야 너를 가지고있어! 음

문제? 오우, 그것은 부드러운 장소에 날카로운 물건이 많이 있습니다! 이것이 이것이 Mini-Lawman의 끝이라고 말하는 것이 안전하다고 생각합니다 그리고 내 게임을 구할 곳을 아직 보지 못했기 때문에 이것이 루미 네이트를 시도한 나의 마지막 시도입니다 이 비디오를 끝내기 전에, 게임 개발자가 이걸 보게되면, 이것이 당신의 첫 번째 게임이라고 말했지 만, 현재 이런 식으로 재생할 수 없습니다 몬스터를 물리 칠 방법이없는 세상에 몬스터를 넣으면 플레이어에게 분노를 느낄 것입니다 그리고 진보를 구할 방법을주지 않으면 게임을 정말 싫어할 것입니다

내가 말하는 것은이 게임이 많은 작업을 필요로한다는 것입니다 나는 ViewTuber로서 좋은 게임과 나쁜 게임을 많이 해왔다 그러나 나는 내가이 게임에서했던 것보다 더 많이 진전을 위해 투쟁했던 게임을 본 적이 없다 이 게임에서 열심히 노력했다고 말할 수 있습니다 그리고 당신은 무료로 제공하고 있습니다

사람들이 게임을하기 위해 게시하기 전에 게임에 대한 더 많은 비판을 받아야합니다 그때까지, 행운을 빌어 요 비디오를 끝내는 것이 좋은 포인트라고 생각합니다 하지만 내가 닫히기 전에, 내가 너희들에게 내가 움직이고 있다고 말하고 싶다 이 때문에 며칠 동안 꽤 바빠서 평소대로 동영상을 업로드하지 못할 수도 있습니다

시간표 걱정하지 마세요 하루에 두 개의 동영상이 게시됩니다 그리고 일단 내가 안으로 들여지면, 너희들에게 그랜드 투어를 줄거야! 그러나 너무 많이, 나는 더 이상 팬들이 살고있는 곳을 찾아 내 문에 다시 나타나지 않아도됩니다 항상 그렇듯이 시청 해 주셔서 감사합니다

그리고 마샬 법 (Marshall Law)이 서명합니다 진정으로 시작되기 전에 개발자로서의 경력은 이미 끝난 것처럼 보였습니다 알았어 바우 저 진정해 조심해라

그렇지 않으면 나에게 여행 할 것이다 먼저 문을 잠 가자 박스? 누군가 옆집으로 이사하고 있습니까? 내가 누군지 궁금해? 나는 결국 그들과 충돌 할 것 같다 나는 그들이 좋고 qui다는 것을 희망한다 – ~ 아! 나는 너를 거기에서 보지 못했다! 괜찮아? 그의 목소리

익숙한 것 같습니다 아가씨, 괜찮아? [개스] 음 문제? 그리고 그것은 Let 's Play의 첫 번째 장을 재창조했습니다 나는 우리가 이것을 즐겁게 만드는 것을 알고있다 너 한테 알려주지 '우리가 계속 그것을 재창조하거나 다른 Webtoon 만화를 재현하는 것을보고 싶다

모든 링크가 설명에 포함됩니다 이하 또한 이야기를 끝내십시오 Let 's Play 사실 아직 끝나지 않았지만 작가는 여전히 매주 업로드 중입니다

그래서 더 많은 에피소드가 업데이트되기를 기다리고 있습니다 샘 한테 무슨 일이 일어날 지 알아야 해! 베로니카 : 우리가 기다리고있어

그리고 그녀는 누구와 사랑에 빠진다! DUN, DUN, DUN! [웃음] 정말 좋은 이야기입니다 너희들은 그것을 읽어야한다 그리고 다른 멋진 이야기들이 많이 있습니다 게다가 나는 그 앱의 엄청난 팬이다

나는 만화를 읽는 것만으로 정말 좋아한다 나도! 그래, 그래! Webtoon 앱을 다운로드하고 보고 주셔서 감사합니다! 이 비디오가 마음에 들면 엄지 손가락을 올려주세요

구독을 확실히하십시오 이 버튼을 여기를 클릭하여 채널에 보내십시오 이 원형 버튼을 클릭하면 2 번째 채널을 구독 할 수 있습니다 우리가 해낸 몇 가지 다른 비디오를 확인해보십시오 다음에 다시 보게 될 것입니다

안녕!

[MV] Park Bo Ram(박보람) _ Please say something, even though it is a lie(거짓말이라도 해줘요) (W OST Pt.2)

이런 게 사랑인 건가요 그대란 사람 내게 두근거리게 한 줄도 모르고 그저 감기에 걸려 이렇게 열이 나고 아파서 밤새 뒤척인 줄 알았죠 나 그대가 옮긴 사랑 때문에 잠 못 들고 있죠 어떡하죠 거짓말이라도 해줘요 그대도 나를 사랑한다고 심장이 뛰는 게 이러다 큰일 나죠 어떻게든 해주세요 나 그대가 없는 하루 때문에 몰래 울고 있죠 어떡하죠 거짓말이라도 해줘요 조금만 기다리면 된다고 오늘이 지나고 내일이면 내 곁에 다시 돌아와 준다고 우리 같은 곳을 보면서 믿지 못 할 사랑을 해봐요 이대로 내 곁에 있어요 그대도 나 없으면 안되죠 잠시 멀어져도 한발 더 멀어져도 우리는 만날 수밖에 그대는 또 다른 나라서

How do I get a job as a Data Analyst?

좋아, 여기 알리 나가있어! 데이터 분석가 Nanodegree를 완료했습니다 이제 채용을위한 다음 단계가되어야합니다

애널리스트로서? 당신의 학위를 마친 브라보 거기에 나가서 새로운 것을 배우고 계속 자신을 키워 주셔서 감사합니다 나는 그것이 움직이는 굉장한 길이라고 생각한다 다음에 무엇을해야합니까? 다음으로는 네트워크를 살펴보고 데이터 분석가를 알고 있습니까? 대부분의 경우 사람들에게 질문 할 때 그들은 1 또는 2를 알고 있다고 말합니다 몇 명의 데이터 분석가 만 알고 있다면 그룹에 실제로 몰두할 필요가 없습니다

당신이 참여하려고하는 것 그래서, 당신이해야 할 일은 견적에서 조금 배우는 것입니다 – "당신은 5 명입니다 가장 많은 시간을 보내는 사람들 " 네트워크의 아무도 데이터 분석가가 아니면 기회가 될 것입니다 오르막 달리기, 그 사람들을 만나고, 그 원에 들어 가려고

그래서, 당신이 당신의 Nanodegree를 완성 했으므로, 제가 할 첫 번째 일은 당신의 회로망 LinkedIn으로 이동하십시오 실제로는 매우 간단합니다 LinkedIn으로 이동하십시오 검색 창으로 이동하십시오

일반적으로 모두가 "일자리"에갑니다 그 이유 때문에 우리는 LinkedIn에갑니다 그러나 "PEOPLE"에 대한 검색 창도 있습니다 따라서 PEOPLE에 가서 데이터 분석가를 입력하면 모든 데이터가 필터링됩니다 LinkedIn 네트워크에 연결된 분석가

아마도 수십만 명의 사람들이 시작하지만, 다른 사람들은 시작해야 할 것입니다 귀하의 LinkedIn 프로필에 필터를 추가하고 귀하의 위치로 필터링하십시오 – 귀하의 도시 – 그래서 필터 관심있는 모든 산업에서 그리고 당신은 Google에 가서 "LinkedIn Industry Codes"를보고 다른 모든 것을 볼 수 있습니다 산업 하지만 적어도 자신의 위치와 직책에 따라 필터링하십시오 그리고 그것은 당신이 원하는 일을하는 20,000 명의 사람들, 아마 5K 명의 사람들에게 당신을 데려다 줄 것입니다

너는하고 있었다 그러면 그 사람들에게 다가 가기 시작할 수 있습니다 나는 wwwfindthatemail과 같은 웹 사이트를 사용하여 이메일을 찾아 시작하는 것이 좋습니다

온라인에있는 다른 종류의 옐로우 페이지 그리고 사람들과 연결하여 자신의 분야에서 직업을 얻는 방법을 배우고, 그런 다음 그들과의 관계를 구축하십시오 그들은 무엇을 즐기고 있습니까? 그들은 무엇에 흥분합니까? 그들은 무엇으로 고투하고 있습니까? 그리고 당신이 들기를 원하는 분야에서 일하는 사람들과 관계를 형성 할 때 당신은 필요가있는 사람들을 만날 것이고 그들이 고투하고있는 것을 볼 때 with – like "나는이 프로젝트를 위해 일하고 싶다 그러나 나는 항상 일상에 빠져있다 이 ", 당신은 말할 수 있습니다,"이 봐! 나는 계약자로 와서 그 조각으로 도울 수 있으므로 집중할 수 있습니다

다음 일에 인턴십, 계약직 또는 전임으로서의 역할 등, 많은 것을 얻을 수 있습니다 더 많은 견인이 온라인 일자리 게시판보다는 실제 사람들에게 다가 가고 있습니다 그래서 나는 그 방향으로 가져갈 것을 강력히 권고합니다 질문에 너무 고마워, 알리 나

How to Become a Data Scientist in 2019? | Learn Data Science | Data Science Tutorial | Intellipaat

데이터 과학의 세계에 오신 것을 환영합니다 데이터 과학은 최근 몇 년간 연구의 트렌드 분야였습니다

이는 우리가 지속적으로 생성하는 데이터의 양과 컴퓨팅 성능 이는 기술 발전으로 가능합니다 그러나 데이터 과학이란 무엇입니까? Uber에서 타는 것을 예약 할 때 어떤 일이 일어나는지 생각해보십시오 휴대 전화에서 Uber 앱을 열고 어디로 가고 싶은지 앱에 알립니다 우버는 가장 가까운 택시를 찾으려고합니다

그 이후로가는 길은 당신을 데리러 목적지로 데려다줍니다 간단했다 그러나 배경에서는 겉으로보기에는 단순한 작업이 산을 모아서 수행됩니다 다양한 소스의 데이터 전화기,지도 및 교통의 역사적인 흐름과 놀이기구에 대한 수요와 마찬가지입니다 이 데이터로 현대 컴퓨터는 가장 가까운 운전자를 계산하도록 프로그래밍되어 있습니다

귀하의 위치와 목적지로가는 가장 좋은 경로 그것이 걸리는 시간과 당신이 지불해야 할 시간 즉 이것은 데이터 과학으로 가능하게됩니다 데이터 과학에는 수많은 다른 응용 프로그램도 있습니다 그것은 통계의 교차점에 있으며, 데이터 분석 및 기계 학습

함께 일하는 과학적 방법, 모델 및 알고리즘의 조합입니다 데이터에서 실행 가능한 비즈니스 통찰력을 추출합니다 미국은 140000 ~ 190000 명의 사람들이 부족한 상태에 처해있다 분석 기술 효과적인 의사 결정을 내리기 위해 큰 데이터를 분석 할 수있는 500 만 명의 관리자가 있습니다

데이터 과학자의 평균 급여는 약 118000 달러입니다 그래서 직업으로서의 데이터 과학에 여전히 관심이 있습니다 계속해서 누가 데이터 과학자가 될 수 있는지에 대해 자세히 알아보십시오 데이터 과학자가 중요한 이유

데이터 과학 라이프 사이클이란 무엇입니까? 얼마나 큰 데이터가 데이터 과학 혁명을 주도하고 있습니다 데이터 과학 경력 전망 데이터는 우리 세대의 석유입니다 데이터 과학은 오늘날의 디지털 기반 세계에서 필수 불가결 해지고 있습니다 기업이 소비자 행동을 이해하고 메시징을 미세 조정하며 새로운 시장을 확보하도록 지원 몫 데이터 과학자가되기

데이터 과학자가되기 위해 기술적 배경을 가질 필요는 없습니다 당신이 필요로하는 것은 심층적 인 지식과 수학, 분석적 추론 능력 많은 양의 데이터로 작업 할 수 있습니다 그것은 또한 강한 지적 탐구를하는 데 도움이 될 것입니다 데이터 엔지니어링, 시각화 능력 및 훌륭한 비즈니스 통찰력에 대한 지식 기술적이지 않은 배경에서 왔을 경우 R을 사용할 것입니다

기술적 인 배경을 가진 사람이라면 python과 r을 사용할 수 있습니다 가능성을 이해하고 올바른 질문을하는 것입니다 최고의 답을 찾으십시오 모든 회사에 데이터가 넘쳐납니다 그리고 그들은 그들이 무엇을 해야할지보다 많은 데이터를 가지고 있습니다

따라서 업계의 업종에 관계없이 데이터 과학은 조직의 미래 성공 데이터 과학자들은 비용 절감, 새로운 시장 진출 및 고객 인구 통계에 대한 새로운 방법을 모색합니다 새로운 제품 또는 서비스 출시 데이터 과학은 또한 아동 복지 및 예측과 같은 사회적 및 의학적 응용을 발견했습니다 진단 그래서

일반적인 데이터 과학 라이프 사이클은 어떻게 생겼습니까? 데이터 발견 단계는 관련 데이터의 다른 소스에 대한 검색을 포함합니다 구조화 된 데이터 또는 구조화되지 않은 데이터 그런 다음 특정 데이터 세트를 분석에 포함시키는 결정을 내립니다 데이터 준비에는 서로 다른 소스의 데이터를 공통 형식으로 변환하는 작업이 포함됩니다 데이터를 표준화합니다

이상 징후를 조사하고 함께 작업하는 것이 더 적절하도록하십시오 데이터 과학 모델은 통계, 물류 및 선형 회귀를 사용하여 작성됩니다 다른 수학적 기술들 사이의 미분 적분 적분법 R, Python, SRS, SQL, Tableau 등의 도구를 사용할 수 있습니다 실전 단계에서 일을 얻는 것은 데이터 모델의 효율성 및 결과를 제공 할 수있는 능력

모델을 다시 작성해야하는 경우 모델 작동 여부를 확인해야합니다 데이터 과학자는 다양한 팀과 연락하여 원활하게 의사 소통 할 수 있어야합니다 조직의 핵심 이해 관계자 및 의사 결정권자들에 대한 그의 발견 데이터 과학의 또 다른 중요한 요소는 일련의 규칙 과정 인 알고리즘입니다 특정 문제를 해결할 수 있습니다 중요한 데이터 과학 알고리즘에는 회귀 분석, 분류 및 클러스터링 기법

결정 나무와 임의의 숲 감독, 감독 및 보강 학습과 같은 기계 학습 기술 이 외에도 조직이 자신의 서비스를 제공하기 위해 개발하는 많은 알고리즘이 있습니다 독특한 필요성 빅 데이터는 데이터 과학 혁명에 의해 주도됩니다 빅 데이터는 데이터 과학의 부상을 주도하는 엔진입니다

Hadoop은 대부분의 조직에서 널리 사용되는 큰 데이터 프레임 워크입니다 Hadoop은 데이터의 처리와 저장이 모두 분산 된 방식으로 작동합니다 범용 하드웨어에 분산되어 있습니다 Hadoop은 쉽게 확장 가능하고, 경제적이며, 내결함성이 있으며 안전합니다 Hadoop은 데이터 저장 및 사용을위한 Hadoop 분산 파일 시스템 또는 HDFS로 구성됩니다

데이터 처리를 위해 map reduce 또 다른 새로운 프레임 워크는 Apache Spark입니다 Apache Spark는 최대 100 배 빠른 속도로 선전되었습니다 지도 축소보다 불꽃

반복 처리가 빠르고 효율적으로되도록 데이터와 RAM을 저장합니다 또한 데이터 처리를 위해주기적인 그래프 또는 DAG를 직접 배치합니다 데이터 과학자들에게는 엄청난 수요와 공급 불일치가 있습니다 이로 인해 데이터 과학자들의 급여가 업계 최고입니다 아마존, 구글, 페이스 북, 마이크로 소프트와 같은 최고 기업들은 다른 사람들과 기술 공간을 같이한다

엑손 모바일 Visa, Boeing, General Electric 및 Bank of America는 적극적으로 데이터 과학자를 고용하고 있습니다 이제 데이터 과학, 왜 데이터 과학이 필수적인지에 대해 배웠습니다 데이터 과학 라이프 사이클, 빅 데이터와의 관계 이 유망한 영역에서 여행을 시작하고 경력이 크게 성장할 때입니다 Intellipaat은 선도 산업의 도움으로 설계된 데이터 과학 교육 과정을 제공합니다

데이터 수집, 탐험, 논쟁의 핵심 기술을 배우는 데 도움을주는 전문가 및 데이터 시각화 또한 통계 분석, 예측 모델링, 기계 학습을 마스터하게됩니다 데이터 과학자에게 필요한 모든 기술이 필요합니다 고맙습니다 문의 사항

언제든지 저희에게 연락하십시오

치즈인더트랩 (Cheese in The Trap – Life Before Yoo-jung) A Short Film

안녕하세요 이봐, hongseol! 어디야? 아직도 자고 있다고 하지마

아 몇 시죠? 850이야! 함께 모여라! 우리는 9시에 코스에 등록해야합니다! 아아, 나는 운명이야! 아, 어디 있니? 우리는 늦을거야

이봐, 홍솔! 빨리와! 아 다리가 너무 아파요 그렇게 중요한 날에 어떻게 늦게 일어 났습니까? 어리석은 그러나 하나님께서는 늦지 않으 셨습니다

컴퓨터 실에 빨리 가자 우리는 여전히 15 분 남았음을 걱정하지 마십시오 하지만 여전히 우리는 늦을 수 없다 운영! 뛰자! 헤이 강 교수의 수업에 서명해야합니다 당신이 Diny 교수의 수업을 들으면, 당신은 운명에 처하게 될 것입니다! 좋아, 그럼 우리는 Diny 교수의 수업을 피해야합니다! 준비해! 5, 4, 3, 2 이봐 요! 빨리! 버튼을 눌러! 버튼을 눌러! 버튼을 눌러! 망했다 이봐, 너무 걱정 하지마 당신이 똑똑하기 때문에, 어쨌든 당신은 Diny 교수의 수업에서 우수한 성적을 얻을 수 있습니다 아

내가 뭘해야하니? 오? 홍! 여보세요 우리는 같은 학급에있어! 예! 이봐, 조심해 성적을 망치고 싶지 않다면, 정말 산해를 피해야합니다

그 선배는 정말로 성가시다 그는 무료 라이딩을하는 타입입니다 당신이 정말로 싫어하는 타입 일뿐입니다 만약 당신이 그와 같은 그룹 프로젝트에 있다면, 당신은 지쳐 버릴 것입니다 좋구나

내가 갈거야 싸움! 오? 안녕, 안녕! 나는 너와 일하기를 고대한다! '나와 함께 일하기를 고대한다' 이봐, 홍! 그냥 여기 앉아! 네가 똑똑하기 때문에 나와 함께 앉아 도와 줄 수있어 여보세요! 오, 내

우리는 막 시작하려하고 있지만 왜 모두 그렇게 피곤해 보입니까? 내 수업 듣는 걸 좋아하지 않아? 아니 알겠습니다 수업 시간에 그룹 프로젝트를 진행할 것입니다 오, 안돼 이봐, 너 왜 그렇게 불평하니? 그룹 1 구정표, 금금 디, 윤지 후, 김기덕 그룹 2, 송지효, 최태준, 서주현, 조규현 그룹 3 홍솔, 김대중, 소민호, 이홍하 망했다

오, 홍! 네가 똑똑하기 때문에 나 좀 도와 줘 요즘 정말 바쁩니다 제발 도와주세요 아 나는이 수업이 싫다 우리는 어쨌든 실패 할 것입니다 그룹 프로젝트를 대략적으로 해보 죠 H- 안녕, 설 도와주세요

알겠습니다 그룹 프로젝트는 내일까지 완료되어야합니다 부품을 어떻게 나누어야합니까? 내일까지해야합니까? 설, 오늘 밤 중요한 회의가있어서 가장 쉬운 부분을 할거야 나는이 수업을 싫어한다고 말했다 나는 단지 대략 그것을 할 것이다

설득, 이해가 안되네 자료를 찾을 수있는 곳은 어디입니까? 좋구나, 음 이렇게 해보자

나는 파워 포인트를 만들거야 오늘 밤 11 시까 지 당신의 부품을 보내주십시오 나는 결론을 내릴 것이다 Dayoung : "아 짜증나" 민수 : "설득

이해가 안돼 " 홍솔 : "얘들 아, 왜 너의 부분을 아직 보냈지? @Sanghae @ 대영 @ 민수" 홍솔 : "오후 11시 30 분까지 기다려" 홍솔 : "아직 끝나지 않았다" Sanghae : "Se ol Im b sy right nw 미안, 내가 너를 연기 할거야" 끝났어! 설, 너무 미안해 나는 어제 술에 취해서 할 수 없었습니다

정말 미안해 설, 그건 나는 정말로 내 부분을 이해할 수 없었다 머리가 아파서 잠이 들었습니다

미안해, 설 설, 미안해 어제, 나는 드라마를 보면서 잠 들었다 자신의 부분을 외우십시오 좋아, 너희들 준비 됐니? 예 나는 발표의 순서를 결정했다 우리는 그룹 3부터 시작하겠습니다

앞으로 나오십시오 홍솔, 김대영, 민수, 이선해 앞으로 오십시오 안녕하세요, 우리는 그룹 3입니다 오늘, 우리는 찬양의 긍정적이고 부정적인 측면에 관해 발표 할 것입니다

칭찬을 듣고 나면 더 나은 일을하기를 원할뿐만 아니라 더 나은 사람이되기를 원합니다 그것이 우리의 자신감을 높이기 때문에 칭찬은 또한 학업과 일의 수행에 긍정적 인 영향을 미칩니다 이산 해는 다음 부분을 설명 할 것이다 네 그래서 그것이 우리의 자신감을 높이기 때문에 칭찬은 또한 학업과 일의 수행에 긍정적 인 영향을 미칩니다 우리가 칭찬을들을 때 압력에? 살아? L- 살아라? 아 살아! ! 기대에 부응해라, 그것은 함께 온다 자신감

응? P- 압력? 오, 압력! 압력 때문에 당신은 당신의 기술을 제대로 수행 할 수 없을 것입니다 그런 식으로, 그래서 칭찬받는 사람들 전자

즐기십시오 C – 전자 작업을 즐길 수 있습니다 너 지금 뭐하고 있니? 너 왜 그렇게 생각하니? 지금 당신의 자리로 돌아 가세요 그룹 3의 점수는 D입니다 뭐?? 설, 미안해

다음에, 나는 이처럼되지 않을 것이다 설, 미안해 설, 미안해 뭐? 와아 너무 많이 밤새도록 있었습니까? 아직 D가 있어요? Diny 교수는 너무 많습니다

또한, 귀하의 그룹 회원 정말 양심이 없어! 어쨌든, 나는 그것에 대해 이야기하고 싶지 않습니다 오 설! 오늘 이것을 판매 할 차례입니다 좋은 일을 계속하십시오! 오, 안돼 설 아 ~ 집에 가고 싶다! 나는 이것을 팔 필요가 있니? 이걸 누구에게 팔아야합니까? 자신의 돈으로 구입하십시오 그것은 그렇게 복잡하지 않습니다

돈이 없어! 싸다! 그냥 사세요! 나는 돈이 없다고 말했다 조금도! 어떻게 내가 이걸 살 수 있니? 이봐 요! 너 왜 화가 나니? 당신은 전혀 도움이되지 않습니다 뭐? 맞아, 난 정말 도움이 안돼! 그래서 자신의 문제를 해결하십시오! 더 이상 신경 쓰지 않을거야! 나는 코스 제출을 망쳤다 첫 번째 그룹 프로젝트에서 혼자 힘으로 일했습니다 아직 나는 D

나는 내 친한 친구와 싸웠다 나는 돈이 없다 그러나 나는 이것을 사야한다 네 엄마 설, 너 뭐하고 있니? 나를? 어

나는 지금 먹고있다 너는 어때? 벌써 저녁 먹었어 당신의 음식은 맛있는가요? 그것은! 너 뭐 먹고 있니? 나를? 어

회! 나는 초밥을 먹고있다! 맛있어 나는 사랑스러운 딸이 맛있게 먹고있어서 다행이다 너를 그리워, 설 이번 주말에 집에 올거야

나는 맛있는 음식을 줄거야 좋아, 엄마 안녕 내일은 두 번째 그룹 프레젠테이션 과제입니다

너도 알지? 예 좋아, 잘 준비해 좋은 일을 계속 지켜라

네 감사합니다 설기현, 이메일로 보내 주셨습니다 그 당시에는 너무 유감입니다 이번에는 더 열심히 일하게 될 것입니다 우리가 A 나 B를 얻지 못하면 적어도 C를 얻어야합니다

나는 졸업 할 필요가있다! 어떻게하면 D를 얻을 수 있습니까? 나는 내 부분도 보냈다 잘못된 부분이 있으면 알려주세요 내가 고칠거야 고마워 Sanghae, 당신은 어떻습니까? 나는 Jaewoo에게 내 것을 부탁했다

이봐, 재우! 뭐? 내가 너에게 한 일을 해 봤니? 아니, 왜해야합니까? 나를 괴롭히지 마라! 너를 돌보는거야? 이봐, 너 말도 안돼! 상급생, 왜 재우가 당신의 역할을 맡을까요? 지난 번에 그렇게 했어 어떻게 다시 할 수 있니? 이런, 괜찮아 나는 그것을 할 거 야

오늘 밤 10 시까 지 너에게 가져다 줄께 나는 10 시까 지 기다릴 것이다 이번에 자유형 타기를한다면이 그룹에서 벗어난다 이봐, 홍! 너 너무 많지 않아? 도대체 무엇이 이봐, 홍솔! 좋아, 내가 보낼거야! 내가 보내 줄께! 오?

수업은 끝났어? 맞아 너도 그래? 네 그럼 나는 가야 해

괜찮아 나는 많은 관계에있다 이러한 관계에서는 것은 어렵습니다 민수 : "설기현, 이메일에 내 부분을 보냈다 ^^" "잘못된 부분이 있으면 미안해 나는 최선을 다했다! 싸우는 것, 설!" Dayoung : "응, 싸우다, 설

" 홍솔 : "상급 선생님, 언제 부를 예정입니까? 이미 오후 11시입니다" 내 말은, 왜 그녀가 이걸 좋아하니? 그녀는 그녀의 역할을하지 않는 사람입니다 하지만 왜 우리는 나머지? 왜 나머지는 고통을 겪어야합니까? 어떻게해야합니까? 요즘 일들이 계속 일어나고 있습니다 나는 계속해서 현명한 행동을 취할 필요가있다 나는

이런 식으로 계속있을 수 없어 네 이름을 알아볼 께 홍솔 : "선배, 나는 네게 분명히 말했다 나는 네 이름을 꺼낼 것이다" Dayoung : "맞아

이름을 밝혀 내자" 잔물결처럼 삶의 작은 문제가 나를 흘린다 그러나 그들은 단지 잔물결입니다 모두와 마찬가지로, 나는 그것을 참을 수 있습니다 그러나 잔물결이 계속해서 당신에게 충돌한다면

하나는 더 이상 그것을 가질 수 없습니다 이런, 요즘 아이들 이봐, 너! 너 왜 늦었 니? 죄송 해요

오 설 죄송 해요 어제 뭔가 집에 올랐다 나는 Jaewoo가 그것을하도록 요청했다 그러나 그는 그것을 거절했다

너도 봤어? 우리는 당신의 이름을 벗었습니다 지난 번에 우리가 말했지, 그렇지? 뭐? 농담하니? 내가 의도적으로하지 않았다고 생각하니? 집에 문제가 생겼다고 말 했잖아! 그것들은 당신의 개인적인 문제입니다 왜 우리는 당신의 개인적인 문제 때문에 고생해야합니까? 이봐, 홍솔! 지금 말 했니? 내 이름을 다시 붙이세요! 시니어, 이미 충분히! 이봐,이 산 해! 어떻게 된 거예요? 그룹 3부터 시작하겠습니다 예 왜 세 명 밖에 없습니까? 이 선 해! 사람들이 변화하기가 매우 어렵습니다 그렇지 않습니까? 좋아, 시작하자

설, 너 잘 했어 설레는 프레젠테이션을 잘 끝내서 다행입니다 네, 맞아요 안녕, 민수! 이봐, 홍솔! 네, 선배 너 왜 그래? 뭐하고 있니?! 이봐, 홍솔

네가 똑똑하다고 생각하니? 내가 쉬운 것 같니? 왜 내 이름을 지웠어? 내가 말 했잖아! 이번에는 무료로 타는 경우 이름을 빼 드리겠습니다! 너 정말로 이미 충분 해, 시니어! 그것은 당신 잘못이지만 왜 그렇게 뻔뻔한가? 너 왜 그래? 왜 방해하고 있니? 와우 나는 이것을 정말로 가져갈 수 없다 너 무례한 사람이야! 이봐, 이만 해! 상급생, 당신은 항상 이런 식이었습니다

앞으로도 그만해주세요 맞습니다! 우리를 괴롭히지 마라! 들었 잖아? 그런 식으로 그만해, 시니어! 설, 가자 도라, 미안해 응? 아니, 나는 미안해 당시 나는 성적, 돈, 그룹 프로젝트에 대해 어려움을 겪고있었습니다

나는 자유로운 시간이 없다는 것을 걱정할 것이 너무 많았습니다 문제가 있으면 저에게 말해야합니다 나는 지금부터 시도 할 것이다

문제가 생기면 모든 것을 말해주지 아니, 네가 나에게 모든 것을 말해야한다는 말은 아니다 나는 우리가 가장 친한 친구라고 생각 했어하지만 너에 관해서는 아무 것도 몰라 그래서 나는 그것에 대해 슬프다

도라 설, 미안해 지금부터 더 솔직 해지자

네, 더 정직하게합시다 홍솔 도라

아 맞아! 나는 먼저 갈거야 은택과 약속했습니다 은택과 데이트하고 있니? 난 아니에요! 나는 진짜로 갈거야! 나중에 전화 할께! 설! 오, 선배! 여보세요! 나랑 점심 먹을 래?

A GCP developer’s guide to building real-time data analysis pipelines (Google Cloud Next ’17)

[음악 재생] 라파엘 페르난데스 : 그렇습니다 고맙습니다

나는 라파엘 페르난데즈입니다 SLAVA CHERNYAK : 저는 Slava Chernyak입니다 RAFAEL FERNANDEZ : 우리는 Cloud Dataflow, 우리는 오늘 이곳에 와서 당신에게 이야기하게되어 매우 기쁩니다 데모 중 하나에서 발생한 일에 대해 조금 더 기조 연설에서 오늘 아침에 본 것을 특히, 택시 데이터 데모

그래서 우리는 그것에 대해 자세히 살펴볼 것입니다 우리는 연속 이벤트 처리에 초점을 맞출 것입니다 Cloud Dataflow를 사용하는 데모의 측면 우리는 GCP로서 당신의 모습을 면밀히 살펴볼 것입니다 개발자, 우리가 가지고있는 다양한 서비스를 구성 할 수 있습니다

플랫폼에서 모든 다양한 보완 데이터 처리 패턴 최신 응용 프로그램에 필요합니다 우리는 또한 약간의 시간을 강조 할 것이다 Cloud Dataflow 서비스의 매우 강력한 기능인 연속 계산을 업데이트 할 수 있습니다 실시간 오늘 우리가 이야기 할 서비스 Cloud Pub / Sub, Cloud Dataflow 및 BigQuery입니다

그들은 모두 완벽하게 관리되며, 모두 확장 가능하며, 그리고 다른 일들을하십시오 Cloud Pub / Sub는 Pub / Sub 게시 및 구독 서비스입니다 그것은 전 세계에 걸쳐 이루어지기 때문에 최소한 한 번 배달을 보장합니다 Cloud Dataflow는 완벽하게 관리되는 데이터 처리 서비스입니다 프로그램을 실행할 수있게 해주는 데이터를 일괄 처리 또는 스트리밍 모드로 평가합니다

그것은 매우 강력한 프로그래밍 모델과 함께 제공됩니다, 개발자에게 수년간 집중 한 결과입니다 Google에서의 경험 – 우리는 당신이 그렇게 생각한다고 생각합니다 그리고이 프로그래밍 모델이하는 일 더 높은 수준의 추상화를 유지할 수 있습니다 데이터 변환, 분산 시스템으로 이동하는 대신 수준과 그 모든 복잡한 마지막으로, BigQuery는 완전히 관리됩니다

분석을위한 페타 바이트 규모의 저비용 데이터웨어 하우스 데이터 분석가들에게 인기가 있습니다 우리가 여기서하고 싶은 것은 우리가 원하는 것입니다 원격 측정 데이터의 실시간 스트림을 사용하는 방법 그것은 뉴욕시 지역의 택시에서 오는 것이고, 이 데이터를위한 일련의 데이터 경로를 만들고 싶습니다 우리는 그것을 처리 할 것이고 우리는 서로 다른 경험을 할 수 있습니다 이러한 경험 중 하나는 실시간 시각화 일 수 있습니다

이 데이터는 뉴욕 메트로 지역에서 발생합니다 당신이 상상할 수있는 것처럼 우리는 Cloud Pub / Sub에 의존하게 될 것입니다 이러한 메시지를 전달하려면 이 신청서에 직접 청구하는 것이 현명한 선택이 아닙니다 클라이언트에서 당신의 고객, 하나의 머신이 있다면 이 데이터를 표시 할 책임이있다 이 모든 계산을 수행하면, 당신은 그 경험으로 끝낼 것입니다

이게 많이 생겼어 기본적으로 배달되지 않은 메시지 대기열이 늘어납니다 그것은 아마도 당신이 활발한지도에서 원하는 것이 아니며, 또는 활발한 전시에서 귀하는이 데이터를 계속 처리 할 것이며, 하지만 당신이 얻는 결과는 활기차고 너는 실제로 뒤쳐져있다 그래서 이것은 우리가이 부분을 위해 필요하다는 것을 암시합니다 우리의 가공, 다른 전략 추가로 다른 요구 사항이있을 수 있습니다 네가 상대하고 있기 때문에 생기 넘치다

하루가 끝나면 돈이 생기는 데이터 따라서 정확성, 완전성, 신뢰성, 확장 성, 그리고 성능은 때로는 내장되어 있습니다 여기에서 데이터를 처리합니다 우리는 그들을 존경해야합니다 우리는 또한 생기의이 요구 사항을 가지고 있습니다

이는 지속적인 이벤트 처리를 제안하며, 우리가하려고하는 또 다른 일 우리는 함께 데이터를 보관할 것인가, 추가 변환을 위해 몇 가지 변환을 포함합니다 데이터를 저장할 수있는 시스템이 있으므로 아주 좋은 경제적 인 비율로 우리는 모든 것을 보관할 수 있습니다 애널리스트가 나중에 공부하고보고 싶어 그것들에 덧붙여 좀 더 통찰력을 끌어 내라 너는 살아있는거야 이러한 유형의 활동에서 흔히 볼 수있는 또 다른 사항 귀하의 응용 프로그램 cc 관리에주의를 기울이고 있습니다 – 업데이트를 조정하는 방법은 무엇입니까? 그래서 우리는 그것에 대해서 조금 이야기 할 것입니다

하나의 구체적인 예부터 시작하겠습니다 셀 수 있습니다 슬라바, 가져가 SLAVA CHERNYAK : 고마워, Rafael 그럼 우리 택시 데이터로 무엇을하고 싶은지 이야기 해 봅시다

택시 텔레 메 트리가 도착하고 이미 우리가 그것을 우리가 우리에게 우리 비주얼 라이저의 단일 기계에서 처리 할 수 ​​있습니다 우리는 데이터 흐름을 사용하여 우리를 위해이 작업을 수행하는 파이프 라인 시간 그건 원시 택시 telemetry 걸릴 것입니다 그리고 그것을 변형 시간과 공간에서 응축 된 어떤 것으로, 그러나 우리는 이것을 다음과 같은 방식으로하고 싶습니다 우리 시각화를위한 충분한 정보를 보존한다 여전히 정확합니다

우리는 어떻게해야 하는지를 단계별로 설명 할 것입니다 원시 택시 원격 측정 데이터는 이렇게 보입니다 우리는 위도와 경도를 알고 있습니다 택시의 가장 최근 위치에 대한 타임 스탬프가 있습니다 다른 추가 메타 데이터가 있습니다

얼마나 많은 사람들이 택시에 있는지와 같은 또는 현재의 택시 미터가 읽은 값이 무엇인지 그렇다면이 데이터를 시간과 공간에서 응축하는 방법은 무엇입니까? 음, 우선 우리는 시간에 맞추어 데이터를 Window에 놓을 것입니다 내가 의미하는 바는 우리가 함께 그룹화 할 것이라는 것입니다 충분히 발생한 모든 포인트 시간이 서로 가깝다 간격 1에서 2 사이의 모든 점 – 여기 3 점을 함께 묶었습니다

해당 간격에서 발생한 모든 포인트 2 시부 터 3 시까 지 여기에 함께 그룹화됩니다 다음으로해야 할 일은 포인트를 그룹화하는 것입니다 공간에서 여기서도 우리가하는 일은 그룹핑을 지정하는 것입니다

위치에 따라 따라서 Window 내의 XY 포인트는 함께 그룹화됩니다 그것은 두 가지 점입니다 창 내의 KM 포인트는 함께 그룹화됩니다 1 대 2 창에 대한 1 점입니다 2 대 3 창에 대해 1 점을 표시합니다

마침내 우리가하는 일은 우리가 세는 것입니다 그러한 시간과 공간 그룹의 각 포인트 결과를 발표 할 준비가되었습니다 이것은 1 대 2 간격으로 x와 y에 대한 두 택시입니다 1 대 2 간격으로 킬로미터 당 하나의 택시, 2 대 3 간격으로 킬로미터 당 하나의 택시 그럼 여기서 실제로 성취 한 것은 무엇입니까? 그럼 우리는 논리적 변환의 집합을 설명했습니다

우리의 입력 데이터에서 우리를 데려 간다 우리의 원시 택시 원격 측정법 – 우리에게주세요 용어로 많이 응축 된 것 스트림의 볼륨의,하지만 여전히 운반 우리의 시각화를 위해 충분한 정보를 얻으십시오 좋아,이 논리적 인 설명은 어떻게 가져 가야합니까? 실제로이를 데이터 흐름 코드로 변환 하시겠습니까? 음, 우리는 이것을 좋아합니다 여기서 모든 코드 행은 정확히 일치합니다

우리가 우리의 데이터에 대해 설명한 논리적 변형에 이르기까지 변환 집합을 인코딩했습니다 원시 택시 텔레 메 트리에서 우리를 움직입니다 응축 된 볼륨 결과 스트림으로 또한 중요한 것은 이것이 실제 데이터 흐름 코드입니다 특히이 코드에는 클러스터 설정, 가상 컴퓨터 회전, 자원 배치, 충돌 또는 장애 복구 이 모든 것들이 Dataflow에 의해 처리되고 있습니다

그렇다면 Dataflow 프로그램은 무엇입니까? 데이터 흐름 프로그램은 논리적 변환을 설명합니다 데이터 수집 이러한 콜렉션은 PCollections라고 불리우며 제한 될 수 있습니다 또는 데이터 스트림의 경우에는 제한이 없습니다 변환은 PTransforms라고하며, 이러한 PC 컬렉션을 통해 실행될 수 있습니다

새로운 PC 컬렉션을 생성합니다 함께하면 우리가 쌓을 수 있습니다 데이터가 변환되는 방법을 설명하는 파이프 라인 입력에서 원하는 결과까지 이 파이프 라인을 살펴보십시오 Pub / Sub에서 읽은 PCollection으로 시작합니다 그리고 이것은 무한의 PCollection입니다

그 데이터가 영원히 계속 도착한다는 것을 의미합니다 그런 다음 PTransforms 시퀀스를 적용합니다 새로운 컬렉션, PC 컬렉션을 모든 시점에서 만듭니다 결과로 나온 PCollection은 Pub / Sub에 다시 기록됩니다 파이프 라인은 멈출 때까지 영원히 계속 실행되지만, 이 출력 PCollection 또한 제한이 없기 때문입니다

우리는 거기에 갈 그래서 우리는 Windowing, Mapping, Count와 같은 Transforms를 사용합니다 이리 이들은 Dataflow SDK에 내장되어 있습니다 당신은 추가 작업을하지 않아야했습니다

코드에서 호출하는 것 외의 다른 것들을 사용하십시오 CombinedRides 또는 CondensedRides와 같은 기타 변형 여기 당신이 쓸 수 있습니다 그래서 여기에 CondensedRide 변환을 보여 드리겠습니다 당신이 작성한 다음 데이터를 통해 병렬로 적용했습니다 근본적으로 그것이하는 것은 그것이 단지 함께 모이는 것입니다 서로 100 미터 이내에 발생한 포인트

따라서이 작업은 데이터를 통해 병렬로 실행됩니다 여기 스트리밍 방식으로 따라서 일단 우리가 파이프 라인을 작성하면, 우리가 그걸 어떻게 할까? Google Cloud Dataflow에서 실행할 수 있습니다 입력을 읽는 곳과 같은 기본적인 것들을 알려줍니다 출력을 쓰는 곳, 몇몇 매개 변수들 우리가 사용하기를 원하는 초기 근로자 수처럼, 그리고 우리는 그것을 실행합니다 실제로 실행하면 어떻게됩니까? 많은 것들이 취해지고 있습니다

우리를 위해 백 엔드의 관심 실행 그래프를 최적화합니다 실행이보다 효율적으로 이루어 지도록합니다 VM을 회전시키고 파이프 라인 코드를 준비합니다 이러한 VM에 대해서는 Pub / Sub를 사용하여 I / O를 관리하고, 그것은 내결함성을위한 지속적인 상태를 관리합니다

그런데 결함 허용에 대해 이야기 해 봅시다 VM이 충돌하거나 다른 종류의 오류가 발생하면 데이터 흐름 실행 엔진 당신을 위해 투명하게 다시 시작할 것입니다 계속 작업하고 데이터가 없습니다 체크 포인팅으로 인해 손실됩니다 파이프 라인 실행에 대한 영속 상태 따라서 데이터 흐름 보장은 항상 기계 충돌, 예외의 경우에도 보존되며, 다른 것

따라서이 파이프 라인이 실행되면 여기에 보이는 것과 같습니다 이것은 UI의 단순한 스냅 샷입니다 Andrea는 오늘 일찍 토크를했습니다 그녀는 UI에서 매우 깊이 들어갔다 그러나 이것은 이것이 어떻게 생겼는지의 스냅 사진입니다

이것은 파이프 라인에 대한 정보를 조금 더 제공합니다 파이프 라인 전체에 대해 알려줍니다 그것은 당신에게 단계에 대해 알려줍니다 처리중인 작업자 수, 메시지 수 파이프 라인의 각 단계에서 소비되고 있습니다 그리고 그런데, 주목한다면,이 파이프 라인 우리가 이전에 그린 논리적 다이어그램과 비슷합니다

따라서 변환에 대한 파이프 라인 중심의보기 데이터에서 수행중인 작업이이 UI에서 유지 관리됩니다 그래서 나는 한 가지에주의를 환기시키고 싶다 여기 구체적으로 말하면, 그건 네가 저기 저기에 스트림의 볼륨을 읽을 수 있습니다 초당 약 20,000 메시지에서 떨어졌습니다 시간과 공간을 줄인 후에 초당 약 2000 건의 메시지로 줄어 들었습니다

이는 원하는 결과 인 10 배 감소입니다 이제 우리는 우리의 시각화가를 지적 할 수 있습니다 우리는 같은 결과를 보았지만 이제는 계속 유지할 수 있습니다 우리는 Pub / Sub를 볼 때 우리가 계속 할 수 있다는 것을 압니다 스택 드라이버의 구독 통계 우리는 수주 잔고가 증가하지 않고 있음을 알 수 있습니다

여기에 초기 스파이크가 있음을 눈치 챘을 때 이것은 데이터 흐름이 돌고있을 때입니다 노동자들이 올라오고있는 동안 우리는 일부 수주 잔고를 짓고 있었고, 작업자가 스핀 업하여 처리를 시작할 때 그들은 그 백로 로그를 휘젓다 그 후로 계속 계속 지켜 왔습니다 이것은 작동중인 Dataflow 프로그램의 한 예입니다

나는 몇 가지 특정 측면에 대해 이야기하고 싶다 흥미로운 데이터 흐름 프로그래밍 API에 대해 설명합니다 특히 나는 이야기하고 싶다 무제한 데이터로 데이터 흐름을 처리하는 방법 우리의 택시 타는 데이터는 제한이 없습니다 이벤트는 영원히 계속 이어 지므로 일반적으로 데이터가 커질수록 우리는 그것을 깨뜨릴 수있다

처리를 위해 작은 덩어리로 전통적인 배치 시스템을 사용하는 경우 우리는 일일 Windows와 같은 것을 할 것입니다 그러나 이것은 정말로 값싼 방법입니다 무제한적인 데이터 처리 무제한 데이터의 어려움 중 하나 알 수없는 지연이있을 수 있으며 데이터가 표시 될 수 있습니다

주문 이 기록을 여기서보십시오 8시에 모두 일어난 기록이 있습니다 하나가 발생했고 즉시 시내로 배달되었습니다 하나가 발생하여 나중에 우리에게 배달되었습니다, 그러나 8시에 발생한이 녹색 기록 여기 6 시간 후에 우리 시냇가에 나타나지 않았다

그리고 그 이유가 누구인지 알 수 있습니다 그것은 여러 가지 이유 때문일 수 있습니다 어쩌면 사용자가 자신의 휴대 전화에서 이벤트가 발생했을 수 있습니다 그런 다음 비행기를 비행기 모드로 전환합니다 6 시간 동안 다시 켜지 않았다

어쩌면 서버가 추락하여 돌아 오지 않았을 수도 있습니다 온라인으로 6 시간 네트워크 지연이 있었을 지 모릅니다 해저 케이블이 어딘가에서 끊겼습니다 누가 알아

요점은 만약 우리가 스트림 처리를 작성한다면 우리는 이러한 지연을 처리 할 수 ​​있어야합니다 네가하는 일에 따라 이러한 지연을 처리하기위한 전략도 다릅니다 일종의 요소 변환을 수행하고 있다면, 엘리먼트 – 와이즈 변환은 당신이 상관하지 않을 수도있다 한 번에 요소를 처리하는 경우 그 요소가 언제 생겼는지 상관하지 않습니다 또는 해당 요소의 컨텍스트를 사용하면이 방법이 유용 할 수 있습니다

네가 원한다면 상황이 더 까다로워 질거야 어떤 종류의 그룹화 또는 집계를 수행합니다 따라서 한 가지 확실한 전략은 Processing Time Windows를 사용하는 것입니다 따라서 스트림과 처리 시간을 줄이고, 그게 무슨 뜻이야? 시계가 틱 할 때마다 1 시간 쯤에 당신은 당신의 시내에 경계를 그립니다 당신이 가진 것을 처리합니다

음, 이해하기 쉽습니다 하지만 이것은 아마도 당신이 원하는 것을주지 않을 것입니다 요소가 지연되거나 순서가 잘못된 경우 그들은 아마도 같은 처리 과정에서 끝나지 않을 것입니다 시간 버킷 예를 들어 두 가지 메시지가 있습니다

둘 다 8시에 일어났다 집계에 그룹화가 포함 된 경우 함께 일어 났을 때 그들에 관한 추론 너는 그걸로 어려움을 겪을거야 그들은 이제 두 개의 서로 다른 처리 시간에있게 될 것이기 때문에 Windows 예를 들어, 나타난 택시를 세고 싶다면 같은 시간에 같은 장소에서, 처리 시간 Windows는 아마도 당신이 원하는 것이 아닙니다 우리가 정말로 갖고 싶은 것은 Event Time Windowing입니다

계략 입력이 도착하는 중입니다 시간 기반 셔플을 수행하려고합니다 이벤트를 기반으로 Windows에 레코드를 저장하는 방법 타임스 Dataflow에서이 작업을 수행하는 방법은 Windowing API를 사용하는 것입니다

Windowing을 사용하면 할 수 있습니다 Windowing을 사용하면 이벤트를 나눌 수 있습니다 이벤트 시간에 따라 Windows로 당신이 올바른 맥락에서 그들에 대해 추론 할 수 있다는 것 따라서 Dataflow는 여러 종류의 Windows를 지원합니다 두 가지 예는 결코 완전한 목록은 아니지만, 가장 간단한 유형 인 고정 윈도우와 같은 것입니다

Windows는 매분, 매시간, 매시간, 매일, 등등 이 Windows는 일반적으로 동일합니다 모든 처리 키에 걸쳐 Sliding Windows와 비슷한 또 다른 예가 있습니다 이것들은 고정 윈도우와 비슷합니다 그러나 작은 창들로 이루어져있다

앞으로 나아가는 시간과 함께 미끄러지도록하십시오 여기서 흥미로운 점은 Windows가 실제로 겹쳐서 감기다 또 다른 재미있는 예는 Session Windows와 같은 것입니다 그래서 세션은 그것들이 둘러싸인 활동의 사건들입니다 활동하지 않는 기간

세션에 대한 재미있는 점 세션 윈도우의 경계 데이터 자체의 기능입니다 그들은 선험적으로 알 수 없습니다 따라서 데이터를 처리하면서 계산해야합니다 데이터에 완전히 의존하고 매우 다르게 의존 할 것입니다 키에서 키로

따라서 이것은 가능하거나 쉽게 할 수있는 것이 아닙니다 전통적인 배치 시스템으로 데이터 흐름으로 처리하기 쉽습니다 물론 다른 윈도우도 가능합니다 구현의 문제이다 그리고 귀하의 신청서의 요구 사항이 무엇이든간에

그래서 Windows는 우리가 Event Time 우리는 집계를 수행하고 싶습니다 우리는 여전히 다른 질문에 답할 필요가 있습니다 처리 시간에 우리는 결과를 낼 준비가되었습니다 그렇게하기 위해서는 먼저 이벤트 시간 간의 관계를보다 잘 정의하기 위해 처리 시간 여기이 그래프를 보도록하겠습니다

수평 축에는 이벤트 시간, 세로 축에는 처리 시간이 있습니다 그리고 일어나는 모든 사건은 우리 시스템으로 전달됩니다 우리 시스템에 의해 처리됩니다 이 그래프의 어딘가에서 끝나야합니다 이벤트가있는 이상적인 세상에서 즉시 우리에게 배달되어 즉시 처리되며, 모든 사건은이 이상적인 대각선을 가로 지르거나 그 이상을 따라 줄 것입니다 따라서 동일한 이벤트에서 전달 및 처리됩니다

우리가 이벤트와 동일한 처리 시간을 처리 할 때 발생 시간 물론 현실은 그렇게 좋지 않습니다 네트워크 지연, 처리 중임을 알고 있습니다 순간적이지 않다 사실 모든 사건이 어딘가에서 끝납니다

이 이상적인 대각선 위 데이터 흐름은 우리가 완전성에 대해 추론 할 수있게 해주는 워터 마크 워터 마크는이 대각선보다 얼마나 멀리 떨어져 있는지 알려줍니다 우리는 그 이상의 경계를 그릴 수 있습니다 더 이상 이벤트를 볼 것으로 예상됩니다

이 워터 마크는이 그래프에서 빨간색 선으로 표시됩니다 우리가 우리의 근원에 관한 모든 것을 완벽하게 알고 있다면 – 그래서 우리가 출처에서 읽는다면 우리는 모든 것을 완벽하고 완전하게 알고 있습니다 워터 마크는 우리 시스템에서의 보증입니다 우리는이 지연을 넘어서 아무것도 본적이 없다 물론 많은 경우에 우리의 지식은 불완전합니다

따라서 워터 마크는 불완전한 보증입니다 정말 우리에게 말하는 발견 적 방법입니다 시스템의 지식을 최대한 활용하여 언제 새로운 데이터를 볼 것으로 예상하지 않습니까? 어느 쪽이든 워터 마크가 우리에게 말할 수 있습니다 주어진 Window에 대한 모든 데이터를 가지기를 기대할 때, 그러므로 그것이 올 바르면, 우리가 아는 한, 우리가 아는 한 최선을 다하여, 결과를 내 보냅니다 그래서 우리가 창문을 다시 본다면 시간 기반 셔플로 볼 수 있습니다

워터 마크를 사용하여 방출시기를 알 수있는 방법 창 결과 그러나 워터 마크가 모든 것이 아닐 수도 있습니다 트리거 출력에 사용하려는 두 가지 주요 이유가 있습니다 다른 것을 고려해야합니다 우선, 워터 마크가 너무 느려서 말할 수 있습니다 워터 마크는 가능한 한 보수적이되도록 노력하고 있습니다

모든 이벤트를 추적하려고합니다 시스템의 관점에서 위대한 완전성의, 그러나 아마 당신은 상관하지 않는다 예를 들어 매일 Windows를 사용하는 경우, 당신은 당신의 결과물을 얻지 못할 것입니다 아주 이른 시간에 하루가 끝날 때까지, 그러나 당신은 투기적인 초기 결과를 원할지도 모른다 일찍이

Dataflow가 API를 트리거하므로 트리거 할 수 있습니다 초기의 투기 적 산출 워터 마크가 너무 빠를 수도 있습니다 우리는 이미 우리가 모든 것을 알지 못한다면 우리의 근원에 관하여, 근원을 의미하는 늦게 또는 순서가 잘못된 데이터를 생성 할 수 있으며, 워터 마크가 불완전 할 수 있습니다 워터 마크 이후에도 이벤트가 올 수 있습니다

이미 발전했다 이 경우 Dataflow는 지연 데이터 트리거를 제공합니다 지연된 데이터가 순서대로 발생하면이를 처리 할 수 ​​있습니다 결과를 업데이트합니다 이제이 예제를 조금 만들어 보겠습니다

여기 우리는 Windows 2 분짜리 Windows를 가지고 있습니다 Event Time Windows – 워터 마크에 의해 닫히고 있습니다 그래서 우리는이 Windows에서 무엇을하고 있습니다 우리는 누적 합계를 만들고 있습니까? 처리 시간이 진행됨에 따라, 이 그래프에서 위로 표시된 것처럼 워터 마크가있을 때 우리가 언제 창을 닫을 수 있는지 알고있다 Window 경계를 패스합니다

여기에 하나의 이벤트가 있음을 주목하십시오 그것은 어떤 창, 그 사건에도 포함되어 있지 않습니다 9의 값으로, 그것은 늦은 데이터이기 때문입니다 내가 말했듯이 그것은 근원에 의해 방출 된 사건이었다 워터 마크가 이미 고급화 된 후에 우리가 그 근원에 대해 완벽하게 알지 못했기 때문입니다

어쩌면 그 사건이 누군가의 전화에서 비행기 모드에서 6 시간 동안 데이터 흐름의 최신 데이터 트리거 API 당신이 그것을 처리하고 어떤 종류의 업데이트 된 것을 내 보낸다 집합 그럼 이제이 모든 것을합시다 택시에 관한 몇 가지 질문에 답하기 위해 사용하십시오

우리가 이전에 본 데이터 간단한 질문부터 시작하겠습니다 주어진 시점에서 택시는 공항에서 어떻게 타는가? 뉴욕 전역의 택시 타기와 비교해보십시오 그리고 우리는 모든 것을 시도하고 사용할 것입니다 우리는 그 질문에 대답하기 위해 Dataflow에 대해 배웠습니다

그래서 우리가 여기에서 할 첫 번째 일은 우리는 파이프 라인을 작성할 것입니다 그것이 여기에서하는 것은 그것이 공항에서 시작되었습니다 그럼 우리가 어떻게해야합니까? 음, 우선 우리는 Pub / Sub에서 물건을 읽습니다 이전과 다시 해보 죠

다음으로 우리가하는 일은 승용차 ID 각 타는 것과 함께 그래서 타는 것 ID는 우리에게이 택시 타는 것이 어느 타는 점이 있는지에 관해 안다 우리가 함께 그룹화 할 수 있도록 연관되어있다 한 번 타고 오는 모든 포인트 좋아

다음으로 세션 윈도우를 사용하여 윈도우 경계를 그립니다 타고 주위에 그래서 우리는 창 경계를 처음부터 떨어 뜨린다 타는 것의 안에서, 그것은 픽업 포인트 다 탈락 시점 10 분 후, 타고있는 마지막 지점입니다

이 파이프 라인의 다음 단계는 트리거링 및 트리거링입니다 결과 전달 방법을 제어합니다 후속 변환으로 변환합니다 여기서 우리는 모든 요소에서 계속적으로 트리거합니다 그래서 우리는 우리가 지속적인 업데이트를 방출하도록 보장합니다

시각화 자에게 우리는 라이드가 시각화 장치에서 움직이는 것을보고 싶습니다 그래서 우리는 업데이트를보고 싶습니다 그래서 우리는 계속해서 방아쇠를 당길 원합니다 그리고 여기에서는 누적 트리거를 사용합니다

트리거를 버리는 것과는 대조적으로 우리가 창문의 전체 내용을 확실히받을 수 있도록 발사 때마다 그런 다음 창에있는 모든 점을 결합합니다 각 방아쇠 발사마다 그래서 우리는 우리의 결합 자만 신경 씁니다 우리는 출발점을 염려합니다

시작 지점을 순서대로 필요로한다 공항에서 시작된 놀이기구를 걸러 내야합니다 가장 최근의 포인트가 필요합니다 시각화에이를 방출 할 수 있습니다 AccumulatePoints combine 함수는 다음을 구현합니다

시작점을 추적하여 가장 최근의 포인트를 최신 포인트로 업데이트 가능할 경우 그런 다음 누적 된 탑승구를 버려서 필터링합니다 픽업은 공항에 없었다 위도와 경도를 비교하여이 작업을 수행합니다 위도와 경도가 잘 알려진 픽업 JFK, LaGuardia 및 Newark 공항의 포인트

우리가 실제로 걱정할 때부터 출력은 가장 최근의 지점에 불과하다는 것입니다 스테이지를 사용하여 가장 최근의 지점 만 필터링합니다 우리 누산기에서 마지막으로 Pub / Sub에 결과를 다시 작성합니다 그래서 우리가 이걸 실행할 때 그게 어떻게 생겼어? 따라서 시각화 프로그램에서 볼 수있는 놀이기구 JFK, LaGuardia 및 Newark에서 시작하는 것만 있습니다

원하는대로, 그리고 그 결과는 여전히 실시간으로 업데이트된다 우리의 방아쇠 상태와 신중하게 구성된 축 압기 따라서 우리가 공항 탑승구를 걸러 내 쓴 파이프 라인 그러나 우리 솔루션의 일부일뿐입니다 데이터 흐름 및 GCP를 사용하면 쉽게 작성할 수 있습니다 여러 독립 구성 요소

지금까지 택시 데이터를 가져 오는 것에 대해 이야기했습니다 Pub / Sub를 통해 그것을 섭취하고 우리의 시각화기를 가리키고 있습니다 그러나이 데이터를 사용하여 더 많은 작업을 수행하고자합니다 그래서 우리는 실제로 결과를 Pub / Sub에 다시 넣는 것입니다 그런 다음 ETL 파이프 라인을 통해 읽습니다

나는 그 결과를 취하는, 별도로 썼다 Pub / Sub에서 가져온 다음 BigQuery에 씁니다 이것은 데이터 흐름의 매우 표준적인 사용법입니다 이제 실제로 동일한 ETL 파이프 라인을 사용할 수 있습니다 BigQuery를 작성하고 원시 택시를 가리킨다

원시 데이터를 별도의 BigQuery 세트에 기록하는 피드 표를 사용하여 BigQuery 결과를 비교할 수 있습니다 원시 데이터 대 공항 데이터 그럼 우리는 무엇을 배울 수 있습니까? 원시 데이터에 대한 간단한 쿼리 뉴욕에있는 5 분 간격으로 도시에는 약 1,700 개의 택시 타기가 있습니다 뉴욕 큰 지역 어딘가에서 떨어집니다 그리고 타는 것의 평균 비용은 약 14 달러입니다

택시 회사의 평균 순 수익 5 분 간격으로 약 2 만 5 천 달러입니다 같은 5 분 간격으로 어떻게 비교합니까? 공항 데이터와 비교하면 어떻습니까? 우리가 공항 테이블에서 같은 쿼리를 가리킬 때 우리가 볼 수있는 건 분명히 훨씬 작지만 평균은 63에 불과합니다 나는 생각한다 – 타는 것의 평균 비용 당신이 기대하는 것보다 훨씬 더 높습니다 그것은 타는 것에 관해 약 52 달러 다 이 데이터에는 시간 기반 구성 요소도 있습니다

시간이 지남에 따라이 데이터를 그래프로 표시하면 우리는 무엇보다 먼저 명백한 일일 추세가 있음을 알 수 있습니다 전반적인 놀이기구 및 택시의 관점에서 하루 중 시간을 기준으로 놀이기구뿐만 아니라 흥미로운 사건이 있습니다 공항 타기 9시 방향 바로 전에 일어났습니다 어쩌면 도착한 큰 비행이 있을지도 몰라 또는 뭔가

따라서이 전략과 이러한 정렬을 사용하는 방법을 알 수 있습니다 데이터를보다 깊이 파고 들기위한 도구를 제공합니다 그래서 내가하고 싶은 다음 일이야 다른 멋진 기능에 대해 이야기하고 싶습니다 데이터 흐름 서비스

그럼 우리가 할 일은 새 코드를 실행에 배포하려고합니다 데이터 흐름 파이프 라인이 살아 있으며 우리는 이 모든 것을 기존의 것으로 유지하면서 서면에 대한 상태 및 집계 새로운 기능을 추가하면서 파이프 라인 따라서 우리가 업데이트 할 코드 우리는 공항 코드를 업데이트하려고합니다 전에 널 보여 줬어 우리는 단지 놀이기구를 찾는 것에서 그것을 갱신 할 것입니다

JFK에서 픽업하여 놀이기구를 찾는다 LaGuardia와 Newark에서 수거합니다 먼저 무엇이 옳은지 보자 지금 우리가 그것을 업데이트하기 전에 따라서 업데이트하기 전에 우리는 JFK에서 탈 수있는 놀이기구가 많이 있습니다

하지만 그다지 다른 곳에서는 진행되지 않습니다 다른 곳에 흩어져있는 놀이기구가 있습니다 그러나 정말로 교통은 JFK에서오고있다 그럼 우리가 여기서하려고하는 것은 우리는 코드에서 다시 언급 할 것입니다 LaGuardia와 Newark를 추적합니다

우리는 여기에서 뛰게 될 것입니다 이 파이프 라인을 업데이트해야한다고 알려줍니다 그게 내가해야 할 모든 것입니다 파이프 라인 이름을 알고 있기 때문에 오래된 실행 파이프 라인을 찾는 방법 새 코드로 업데이트하십시오 이제 업데이트가 실행 중입니다

몇 분 정도 걸릴거야 실제로 여기 UI로 이동하여 보여 드리겠습니다 파이프 라인은 결국 이곳에있을 것입니다 실행 중 상태에서 업데이트 중 상태로 이동합니다 2 분 정도 걸릴 것입니다

따라서 이미 업데이트 중인지 살펴 보겠습니다 아직도 스테이징 중입니다 따라서 여기에서 업데이트를 시작하겠습니다 업데이트가 시작되는 동안 라파엘이 이야기 할 것입니다 우리에게 ~ 오, 여기 간다

따라서 업데이트가 시작됩니다 여기에 몇 분 정도 걸릴 것입니다 라파엘은 그 동안 업데이트에 관해 우리에게 말할 것입니다 발표자에게 다시 알려주십시오 라파엘 페르난데스 : 내 말 들리니? 좋은

승인 Slava가 지금 당장 가지고있는 것, 그는 파이프 라인의 실시간 업데이트를 시작했습니다 즉 데이터 스트림의 시간 집계를 계산하는 것입니다 보시다시피 그는 Java 코드를 변경했습니다 그는이 변화를 전개하고 있습니다

그래서 이것이 우리의 전체 전략의 한 부분임을 주목하십시오 우리가 여기 GCP에 집어 넣었습니다 물론 직접적인 접근법이 있습니다 이 코드를 업데이트하기 위해 취할 수있는 파이프 라인을 쓰러 뜨리고 새 파이프 라인을 쓰고, 다시 제출하십시오 아마 우리가 할 수있는 최선은 아닙니다

사실 Dataflow가 더 잘할 수 있습니다 그 유스 케이스에서 어떤 일이 일어날 것인가? 당신이 단지 그것을 아래 위로 끌어 올리면, 우선 Cloud Pub / Sub는 계속 이벤트를 수신합니다 모든 택시에서 모든 사건들이 누적 될 것입니다 한 번 따라 잡을 수있는 일이있을거야 새 파이프 라인이 다시 시작되지만 더 중요한 것은 우리가 뛰고있는 동안에 기내에있는 상태를 잃을거야

원래의 파이프 라인 그럼 왜 이걸하고 싶니? 왜 업데이트하고 싶습니까? 많은 이유가 있습니다 기능 추가는 그 중 하나이며, 그러나 또 다른 매우 일반적인 시나리오와 관심사 당신이 의존하는 도서관이 어떻게 될 것인가? 보안상의 이유로 버전 관리가 필요합니까? 매개 변수를 변경해야하거나 컴퓨터의 유형을 변경하십시오 파이프 라인 등 백업 따라서 이러한 유형의 변화는 우리는 서비스 중단을 최소화하면서 그리고 귀하의 중간 상태를 보존하십시오 여기 상태는 정말 어렵고, 상태는 무엇을 의미합니까? Dataflow가하는 것들 중 하나는 – 헤이, 그것은 일하기 시작했습니다

Dataflow가 수행중인 작업 중 하나 낮은 지연 시간의 결과 전달 보장 점진적인 방식으로 물건을 계산합니다 예를 들어이 카운트 누적기에 초점을 맞추면 끝 근처에는 정말 상태가있다 창과 그 그룹에 대해 그리고 지금까지의 카운트 워터 마크가이 특정 단계를 진행할 때, 시스템은이 특정 단계를 시행합니다 이제는 결과를내는 것이 옳은 것입니다 그래서 점차적으로 이것을 계산 해왔다는 사실 당신이 바로 그것을 방출 할 수있게 해주는 것입니다

승인? 따라서 입력 내용을 다시 계산하지 않아도됩니다 시간이 지나면 그래서이 중간 상태는 우리에게 정말로 중요합니다 Dataflow가 할 일은 기본적으로 그 상태를 돌보고, 새로운 파이프 라인으로 이동하십시오 이 예제는 아마도 당신에게 사소한 것처럼 보일 것입니다

파이프 라인은 동일하게 보입니다 일종의지도의 상태 종류, 하지만 서비스가 당신을 위해 할 수있는 다른 것들도 있습니다 다른 변경 사항이 있기 때문에 업데이트 호환을 고려하십시오 업데이트와 호환되는 변경의 예 당신이 파이프 라인에서 제정하기를 원할지도 모르는 아마도 추가 및 / 또는 변형을 포함 할 것입니다 완전히 새로운 출력 경로

그것은 완벽하게 합법적이며 업데이트하는 것이 안전합니다 당신이 할 수있는 또 다른 일은 단계를 재정렬하는 것입니다 귀하의 파이프 라인 아마도 당신은 데이터의 특성 때문에 코드의 특성, 실험을 통해 이 단계들을 재정렬하는 결과 의미 론적으로 동등한 파이프 라인 훨씬 더 빨리 수행됩니다 일부 경우에 해당됩니다

당신이 적용하는 순서는 중요합니다 당신이 할 수있는 다른 일은 단계를 제거하는 것입니다, 우리가 방금 추가 한 단계처럼 우리는 단지 그것을 제거합니다 거기에 작은 별을 넣었습니다 수행하기에 안전하지 않은 업데이트 클래스입니다

이러한 업데이트에는 일반적으로 생성되는 변형이 포함됩니다 또는 소비 측면 입력 즉, 그들은 주 흐름에서 멀리 떨어져 있습니다 키잉 상태를 사용 중일 수 있습니다 윈도우 병합과 관련된 일부 작업이있을 수 있습니다

걱정할 것 없습니다 이러한 변경을 요청하면 데이터 흐름 서비스 업데이트를 거부하지만 원래 파이프 라인의 흐름을 변경하십시오 그래서 Dataflow가 당신을 위해 여기에서하고있는 다른 것들이 있습니다 이전 작업에서 업데이트 된 새 작업이 스핀 업되면 우리는 실제로 당신에게 직업의 출처를 보여줍니다 그것은 등등에서왔다

그래서 이것은 여러분을 대신하여 수행되는 많은 일입니다 그래서 당신은이 모든 고려 사항들에 대해 걱정할 필요가 없습니다 실제로 코드를 유지 관리 할 수도 있습니다 연속적인 계산을 할 때 Slava, 업데이트가 어떻게됩니까? SLAVA CHERNYAK : 한번 보죠

데모 기계주세요 큰 따라서 우리는 파이프 라인이 업데이트되었음을 ​​알 수 있습니다 이게 바로이 작업 이름이 실행중인 것을 볼 수 있습니다 이전 작업에서 업데이트되었다고합니다

그리고 우리가 시각화자를 볼 때 이제 우리는 많은 새로운 놀이기구가 있다는 것을 알 수 있습니다 지금 LaGuardia에서 왔어 우리 파이프 라인을 업데이트 한 후에 우리가 기대할 수있는 것입니다 지적해야 할 몇 가지 흥미로운 점 그러나이 시각화에서 사실입니다 JFK에서 우리 놀이기구의 첫 번째는 여전히 거기에 모두 있습니다

우리는 JFK에서 새로운 놀이기구를 얻는 것이 아니라, 우리는 여전히 JFK에서 온 모든 오래된 놀이기구를 가지고 있습니다 이것이 라파엘이 말한 것입니다 우리는 이전 파이프 라인 상태를 유지합니다 지적 할 또 다른 흥미로운 점 우리는 실제로 새롭고 오래된 놀이기구를 가지고 있다는 것입니다 LaGuardia의 새로운 놀이기구가 아닙니다

그리고 이것은 LaGuardia 타기가 이미 Pipeline에서 변경했습니다 끝에 그들을 필터링하는 코드 해당 데이터는 모두 Windows 및 상태에 이미 있습니다 누적되면서 방금 변경했습니다 우리가 파이프 라인 끝에서 방출 한 것

따라서 우리 파이프 라인을 업데이트함으로써 시작했습니다 LaGuardia에서 시작된 완전한 라이드를 방출합니다 업데이트가 실행되기 전에 그래서 이것은 유지에 관한 흥미로운 것입니다 파이프 라인 상태는 정말 당신이 옳은 일을하는 데 도움이됩니다 귀하의 파이프 라인의 경우

슬라이드로 돌아가주세요 라파엘 페르난데스 : 고마워, 슬라바 여기서 보여주지 않은 것은 엄청난 양의 뒤에서 일어난다 서비스, ​​데이터 흐름 자동 증가와 같은 당신을 위해 할 수있다 작업자 풀의 크기를 줄이거 나 늘리십시오

들어오는 데이터 스파이크 및 소강에 더 잘 대처하기 위해, 우리도 축소하기 때문입니다 우리는 돈을 절약합니다 그것은 좋은 것입니다 Pub / Sub (여기서는 표시되지 않음)이지만 글로벌 게시 구독 서비스 그것은 당신을 위해 확장 가능합니다

그것은 당신에게 매우 흥미로운 보장을 줄 것입니다, 그래서 당신은이 유형의 시스템을 만들 수 있습니다 정확성과 신뢰성을 염두에두고 분석가들이 가장 좋아하는 BigQuery는 당신을 위해 완벽하게 관리합니다 얼마나 많은 기계가 무엇을 언제하고 있는지 알지 못합니다 너는 그렇게해서는 안된다 당신은 단지 쿼리를 작성하는 것입니다

이것은 명심해야 할 정말로 강력한 것입니다 GCP로 개발할 때 데이터 흐름을 사용하여 실제로 생각할 수 있습니다 플랫폼의 나머지 서비스에 대해 싱크대에 소스로 데이터를 실제로 변환 할 수 있습니다 다른 목적으로 도착할 때, 결과를 지속적으로 전달하기 위해 또는 아카이브 또는 추가 변환을 위해, 그리고 정말로 매우 다른 서비스 활용 우리는 다양한 패턴을 가능하게해야합니다

최신 응용 프로그램에 필요합니다 요약하자면, 우리는 더 자세히 살펴 보았습니다 일부 기술에서는 데모의 힘 오늘 아침에 본 걸 우리는 지속적인 이벤트 처리 방법에 대해 심도 깊은 다이빙을했습니다 GCP, 특히 Dataflow와 비슷합니다

프로그래밍 모델의 힌트를 보았습니다 우리는 프로그래밍을 선호한다고 생각합니다 프로그래밍 대신 그 수준에서 기계 수준에서, 우리는 또한 이러한 구성의 우수 사례 강조 플랫폼으로 GCP를 다루는 방법에 대해 정말로 생각하고 있습니다 네가 빛을 낼 수 있도록 단일 흐름에서 다른 것들 물론 스트리밍 업데이트 정말 복잡하고 활발한 애플리케이션을 처리 할 수 ​​있습니다

다운 타임을 최소화하고 데이터 손실을 최소화하여 우리는 매우 중요하다고 생각합니다 마지막으로 Apache Beam에 대해 이야기하고 싶었습니다 그래서 2016 년 초 우리는 우리의 의도를 발표했습니다 데이터 흐름 프로그래밍 모델 및 SDK, Java, 우리는 지금 Apache Software Foundation에 파이썬을 가지고 있습니다 아파치 빔이 지금은 여러분과 함께하게되어 매우 기쁩니다

Apache Software Foundation의 최상위 프로젝트 이것은 다시 우리가주의를 기울이는 결과입니다 Google의 개발자 생산성, 우리가 지금 생각하는 새로운 모델을 개발한다 사람들의 공동체가 있기를 원한다 다양한 서비스에서 사용합니다

그럼 다음은 뭐니? 관심이 있으시면 내일 몇 차례 말씀 드리겠습니다 Apache Beam에 관해서 첫 번째 이야기는 실제로 집중되어 있습니다 지역 사회 측면과 생태계에 관한 이제 Apache Beam이 Apache의 최상위 프로젝트입니다 소프트웨어 재단

너는 우리가 어떻게 나아갈 지 알아낼거야 Dataflow SDK에서 Beam으로 이동하는 방법 그 주위의 이야기는 무엇입니까? 두 번째 이야기는 Portable에 대해 좀 더 자세히 이야기합니다 Apache Beam을 사용한 병렬 데이터 처리 및 이 이식성은이 모델이 실제로 커뮤니티에서 사용할 수 있습니다 우리는 당신을위한 자원도 가지고 있습니다 거기에 몇 개의 URL이 있습니다

당신이 더 찾을 수 있도록 여기에 코드 랩도 있습니다 데이터 흐름을 시도하려면 기회가 없었습니다 당신은 회의에서 실제로 여기 프로그램을 쓸 수 있습니다 이 택시 데이터를 활용하는 또 다른 코드 랩이 있습니다

이제 공개 데이터 스트림으로 사용할 수 있습니다 그래서 당신은 그것으로 놀 수 있습니다 이러한 유형의 응용 프로그램을 개발하는 방법을 배우고, 해당 코드 연구소에 액세스 할 수 있습니다 Codelabsdeveloper

googlecom 그래서와 주셔서 대단히 감사드립니다 귀하의 질문에 기꺼이 응해드립니다 [박수 갈채] 관객 : 안녕하세요

협조 해 주셔서 감사합니다 첫 번째 질문은 내가 똑똑한 그룹이 아니라고 가정 해 봅시다 나는 한 그룹에 많은 것을 가지고있다 이제는 한 가지 경우에 메모리가 부족합니다 그러면 어떻게 될까요? SLAVA CHERNYAK : 그래서 커플이 있습니다

그 질문에 대한 답을 우선, 응용 프로그램 수준에서 다음을 수행 할 수 있습니다 그래서 당신이 말하는 것은 또한 바로 가기 키 문제 그것을 처리하는 두 가지 다른 방법이 있습니다 하나는 응용 프로그램 수준에서 항상 가능합니다 더 나은 차트 작성 전략, 더 나은 키잉 전략 찾기 그래서 당신은 그 핫 키를 가지고 있지 않습니다

데이터 흐름에는 다단계 결합도 있습니다 근본적으로 팬 인을 통해 볼륨을 단일 키로 그래서 그것은 당신이 개발자로서 조금 알고 있어야합니다 완전히 투명하게 될 수있는 것이 아닙니다 데이터 흐름에 의해 처리됩니다

하나의 열쇠에 대해 모든 트래픽을 던지십시오 어떤 시점에서 우리가 할 수있는 일은 없습니다 그러나 그것이 당신이 알고있는 한 그것은 그것이 데이터 흐름 내에 도구가 있습니다 그것을 쉽게 처리 할 수 ​​있습니다 라파엘 페르난데스 : 그렇다면 여기에 머물러있는 고위 입찰가 중간 파이프 라인에서도 다시 키잉 전략을 찾고 있습니다

이것들을 지키기위한 아주 좋은 방법입니다 핫 키 또는 핫 그룹 관객 : OK 그리고 두 번째 질문을했습니다 기본적으로 이러한 업데이트를 언급하지 않았습니다

현재 시스템과 호환 가능 이 업데이트를 어떻게 실행 하시겠습니까? 그래서 기본적으로 실행중인 시스템을 어떻게 대체합니까? 라파엘 페르난데스 : 네 그래서 몇 가지 전략이 있습니다 사람들이하는 일은 흐름을 일시 중단하는 경우도 있습니다 계산 가능한 집합이 있다는 것을 알고 있습니다 시간 윈도우 중 어느 윈도우 "더러운"것으로 간주 될 것입니다

당신이이 데이터를 잃었을 것이기 때문입니다 그래서 그들은 몇몇 데이터를 제정 할 준비가되어 있습니다 손실, 업그레이 드이기 때문에, 그게 상응 깨는 변화 그리고 어떤 경우에는 괜찮습니다 그런 식으로 코드를 발전 시키십시오

우리가 본 또 다른 전략은 성공적으로 사용되었습니다 실제로 하나의 파이프 라인이 다른 조각을 가지고 있습니다 Pub / Sub를 사용하여 Pub / Sub에 게시 할 수 있습니다 이를 통해 파이프 라인 조각을 분리 할 수 ​​있습니다 진화하고 싶거나 아마도 데이터를 받기 시작하는 대체 브랜치 추가 특정 시점 이후에, 그리고 나서 다른 조각을 껐다

그래서 이것은 변화를 극복하고 대처하는 전략입니다 관객 : 고마워 라파엘 페르난데스 : 좋아 관객 : 나는 지각에 대해 질문이있다 라파엘 페르난데스 : 무엇에 대해서요? 죄송 해요

경청자 : Lateness 라파엘 페르난데스 : Lateness 관객 : 창 밖에있는 데이터 윈도우의 데이터가 수집되고 축적 된 후, 무언가가 범위를 벗어난다면, 기본 동작을 이해합니다 지체 매개 변수가 설정된 경우에도이를 버리는 것입니다

그게 사실이야? SLAVA CHERNYAK : 예, 맞습니다 관객 : Beam SDK에서 실제로 어떻게하면 좋을까요? 무엇보다도, 내가 어떻게하면 데이터가 처리되고 둘째로, 빔이 실제로 내려 가서 내려 앉습니까? 원시 데이터처럼 사용 된 원시 데이터 원래 창 에서요? SLAVA CHERNYAK : 첫 번째 질문에 대답하려면, 빔에 트리거가 있습니다 처리 기반을 트리거 할 수 있습니다 그 늦은 데이터 그래서 뭔가를 방아쇠를 당기기 위해 워터 마크를 사용하면됩니다

워터 마크를 기반으로 다음을 수행 할 수 있습니다 허용 된 지각과 함께, 가능한 지체를 더한다 거기에 매개 변수 너의 두 번째 질문을 이해할 수 있을지 모르겠다 그것이 데이터를 끌어 내리는 지에 관한 것입니다 – 아, 데이터, 전체 데이터를 제공합니까? 늦은 데이터가 담긴 원본 창 은요? 관객 : 음, 재 처리가 되나요? 내가 말하려고하는 것입니다

SLAVA CHERNYAK : 이것이 질문입니다 창을 모으거나 버리는 데 사용하는지 여부 내가 정확히 기억한다면 따라서 모든 트리거링 창을 누적하면 창 전체 내용을 전달하려고합니다 그것이 시간에 또는 늦게 있든 폐기 용 판넬이있는 상태에서만 진행됩니다

델타를 토대로 심의하기 가장 최근의 트리거 실행 관객 : OK SLAVA CHERNYAK : 그 질문에 대답합니까? 관객 :별로 따라서 버려진 데이터는 실제로 모든 원시 데이터를 버립니다 SLAVA CHERNYAK : 그래서 버리는 것, 그것이 의미하는 것 방아쇠가 우리가 델타를 배달 할 때마다 발생합니다 마지막 발사 발사 이후 델타 세트를 전달합니다

따라서 두 개의 트리거가있는 경우 워터 마크에서 트리거링합니다 두 번째는 늦은 데이터를 트리거하고 버리고 창이 먼저 내용을 전달할 창 워터 마크에 넣은 다음 늦은 데이터 만 전달하면됩니다 요소가 유일한 델타이기 때문입니다 청중 : OK SLAVA CHERNYAK : 매번 누적 창이 있습니다 당신이 배달 할 방아쇠가 발생합니다

창의 전체 내용, 누적 된 내용 그래서 워터 마크에서 무엇이든지있을 것입니다 그리고 당신을 방아쇠를 당기는 늦은 자료에 이전 내용과 늦은 날짜를 전달합니다 요소 따라서 창을 모으거나 버리는 데 사용하는지 여부 어떤 종류의 재 처리의 기능인가? 당신은 그 데이터에하고 싶다

그래서 늦은 요소에만 관심이 있다면 아마 당신은 폐기 판을 사용하고 싶을 것이다 창 전체 내용을 다시 처리하려면 당신은 창을 축적해야합니다 관객 : 그리고 내가 얼마나 멀리까지 시간 제한이 있니? 지각을 설정할 수 있습니까? SLAVA CHERNYAK : 실제로는 그렇지만 SDK 레벨에서는 그렇지 않습니다 따라서 실제로 얼마나 오래 데이터를 보관할 수 있습니까? 당신이 얼마나 많은 돈을 벌고 있는지 기꺼이 저축, 오른쪽, 파이프 라인의 지연 시간 더 이상 대처할 수 없기 전에 대처할 수 있습니다 권리? 그래서 내가 아는 한, SDK는 프로그램 적 한계를 강요하고, 하지만 거기에 1 년을 넣으면 계속해서 데이터를 던지면됩니다

1 년 내 Windows로, 어떤 시점에서 일이 깨기 시작할 것입니다 라파엘 페르난데스 : 그리고 당신을위한 실용적인 방법이 있습니다 얼마나 많은 데이터를 평가하고 실험하는지 당신은 기꺼이 지키고 얼마나 많은 지체인지 너는 기꺼이 용납 해 주의를 기울이는 것이 중요합니다 당신이 갖고있는 자원의 어느 시점에 있는가? max에서 프로비저닝 됨 처리 과정에서 백업을 시작하면 더 이상 지킬 수있다

그래서 당신은 바운드를 만들 수 있습니다 데이터의 특성에 따라 실험에 의한 전형적인 계산법 관객 : 창 방아쇠가 발사됐지만 가공은 – 나는 따라 잡을거야 난 그냥– 라파엘 페르난데스 : 네 해피

네 여기로 가자 관객 : 때때로 나는 매개 변수를 요구받습니다 내 파이프 라인에서 구성 할 수있는 실행하지 않아도됩니다 업그레이드를해야합니다

구성 가능한 런타임을 관리하는 좋은 방법이 있습니까? 매개 변수? SLAVA CHERNYAK : 몇 가지 답변이 있습니다 그 질문에 따라서 답변 중 하나는 귀하의 파이프 라인이 항상 사이트 입력에서 데이터를 읽을 수있다 파이프 라인 자체에서 생성되거나 또는 다른 설정 저장소에서 그래서 당신이 Dataflow 랜드에서 그렇게한다면 항상 사이드 출력을 낼 수 있습니다

그런 다음 어딘가에 측면 입력으로 소비됩니다 그리고 그 쪽 입력은 실제로 작았습니다 – 당신은 작은 것으로서 당신의 데이터 스트림의 조인이라고 생각할 수 있습니다 빈번하게 변이 된 데이터 세트 자주 음소거되지 않은 데이터 세트 당신의 구성이 될 수 있다면 그곳에서 업데이트하는 방법이었습니다 당신은 당신의 처리를하고 있습니다

RAFAEL FERNANDEZ : 그러나 이것은 당신을 허용하지 않을 것입니다, Windows의 길이와 같은 것을 변경하는 방법 즉석에서 이것들은 당신 자신의 코드의 매개 변수입니다 관객 : 네 라파엘 페르난데스 : 네 관객 : 고마워

페르난데즈 : 여기로 가자 관객 : 잠깐 워터 마크의 경우 조정할 수 있습니까? 또는 그것을 조정할 수 있습니까? 그 주위에 어떤 도구가 있습니까? SLAVA CHERNYAK : 대답은 현재 아니오입니다 그래서 우리가 시도하고 확립 할 때 우리가하는 일 워터 마크는 기본적으로 모든 것을 취합니다 우리는 출처에 대해 알고 있습니다

우리는 소스를 시도하고 모델링합니다 우리는 모든 데이터를 추적하고 유지합니다 일단 소스에서 데이터를 얻으면 나머지 메시지를 완벽하게 추적합니다 시스템 전반에 걸쳐 따라서 워터 마크의 목표는 가능한 한 완벽해야합니다

데이터를 추적 할 때 따라서 튜너 블 매개 변수가 없습니다 당신이 무엇인지에 대해 더 많이 말할 수 있습니까? 그걸로 뭘 하려니? 관객 : 그래서 걱정입니다 따라서 특정 응용 프로그램에서 작동 할 수 있습니다 하지만 모든 곳에서 작동하지 않을 수 있습니다

권리? 그렇다면 데이터에서 배울 수 있습니까? 시간 창에 대한 메트릭을 수집 할 수있는 방법이 있습니까? 그런 다음 매개 변수를 설정하거나 고정되어 있습니까? 라파엘 페르난데스 : 그래서 내가 잘 모르겠다 나는 네가하는 말은 두 가지라고 생각한다 하나는 Windowing 전략에 대해 이야기하는 것입니다 다른 하나는 시간의 흐름을 제어 할 수 있는지 여부입니다 기본적으로 워터 마크가 언제 나아가 야하는지 말합니다

그래서 두 번째 것에 관심이 있다면 우리가 할 수있는 기술과 것들이 있습니다 당신과 이야기하게되어 기쁘다 그리고 당신이 할 수있는 다른 것들 슬라바 (Slava)가 말했듯이, 워터 마크 (Watermark)는 함수이다 서비스가 데이터 소스에 대해 알고있는 것, 우리의 능력 너는 너의 허용 된 지각을 검사하는거야

우리는 도착의 관점에서 무엇을보고 있는지 더하기를 지정하십시오 근원으로부터의 보증, 그리고 우리는 정식으로 시간을 보내는 것이 안전 할 때를 안다 SLAVA CHERNYAK : 한 가지 더 말하게하겠습니다 기본적으로, 사용자 정의 소스 인 경우 너 말이야 당신이 쓴 원본이고 그때에 대해 가장 잘 압니다

사용할 서비스의 워터 마크를 제공 할 수 있습니다 따라서 사용자 정의 소스에 대해 워터 마크를 제공해야합니다 그런 다음 워터 마크와 결합하여 사용합니다 파이프 라인의 나머지 부분에서 그래서 당신이 어떤 종류의 타임 스탬프에 대해 가장 잘 압니까? 귀하의 서비스는 귀하가 최고의 출처임을 제공하고 있습니다 거기에 워터 마크에 대한 정보도 있습니다

라파엘 페르난데스 : 마지막으로 언급 할 전략 중 하나입니다 다시 한 번, 응용 프로그램에 종속적 인 모든 것 우리는 논리적 시간에 관한 거래를 설명했다 모든 데이터 이벤트에 시간과 시간이 있음을 의미합니다 의미가 있으며 이것이 워터 마크를 유발하는 것입니다 진보

실시간도 있습니다 맞습니까? 시간 진행이 실제 도착의 함수 인 곳 시간이 데이터의 일부가 아닌 곳 하지만 실제로 시스템 기능입니다, 다른 것들이 있습니다 당신도 거기에서 할 수 있습니다 관객 : 워터 마크는 두 가지 모두 고려합니까? SLAVA CHERNYAK : 아닙니다 그래서 그 질문에 대한 깊은 대답이 있습니다 예, 실제로 두 종류의 워터 마크가 있기 때문에, Watermarked라고하면 정말 큰 데이터 워터 마크에 대해 이야기합니다

이벤트 시간에 워터 마크 관객 : OK 라파엘 페르난데스 : 네 관객 : 좋습니다 고마워요

관객 : 프레젠테이션에 감사드립니다 세션을 보는 것이 꽤 재미있었습니다 타이밍 전략 중 하나의 종류로 그래서 나는 스트리밍에서 세션이 있는지 물어보고 싶다 스트리밍 데이터가있는 경우 가능하며 우리가 알아야 할 몇 가지 효율성 결함들이다 SLAVA CHERNYAK : 첫 번째 질문입니다

스트리밍에서 세션이 가능한지 여부입니다 네 그럼요 즉, Dataflow SDK에 내장되어 있습니다 지금 바로 사용할 수 있습니다 관객 : 네

SLAVA CHERNYAK : 네 효율성 문제까지는 내 말은, 나는 그것이 의도 한대로 작동한다고 생각한다 나는 내가 무엇에 대해 더 묻어야하는지 생각해 관객 : 이벤트 시간 대 실시간의 종류 전표와 물건의 종류 나는 세션에 관해서, 그 자체로 유발되는 것이기 때문에? 모든 메시지 – SLAVA CHERNYAK : 음, 그래서, 세션, 정의에 의해, 그것에 잠복이 생길 것입니다

맞습니다 세션 윈도우가 한정되어 있기 때문에 활동하지 않는 기간 그래서 당신은 세션이 있다는 것을 알 수 없을 것입니다 너는 아무 것도 볼 수 없을 때까지 끝났다 따라서 내장 레이턴시가 내장되어 있습니다

세션의 정의로 RAFAEL FERNANDEZ : 시스템의 트레이드 오프 세션을 계산할 수 있는지 여부 우주와 자원이 될 것입니다 그래서 그것은 실제로 진행되고 있습니다 매우 고르지 못한 데이터와 매우 어려운 세션이있는 경우 전략, 효과는 아마도 당신이 더 많은 중간 상태가 필요합니다 관객 : 그게 사실입니다

내 말은, 나는 광고 업계에서 온다 내 말은, [INAUDIBLE]은 분명히 세션에있는 사람들과 순서면에서 마이크로 스케일 집계에서 [INAUDIBLE] 할 수 있습니다 알았어 고마워 라파엘 페르난데스 : 좋아 SLAVA CHERNYAK : 좋습니다

알았어 페르난데즈 : 알았어 여기에 또 하나의 질문이 있습니다 관객 : 제 질문은 어떤 언어입니까? SDK가 현재 지원합니까? 라파엘 페르난데스 : 물론 SDK는 Java 및 Python으로 사용할 수 있습니다 파이썬에는 가용성이 있습니다

죄송합니다 파이썬은 데이터 흐름에서 배치를 지원합니다 Apache Beam 웹 사이트로 가면 그들은 이미 Python SDK와 Java SDK를 가지고 있습니다 내일에 대해 더 많이들을 수 있습니다 그러나 그것들은 구현 된 두 언어입니다

제 3 자 구현도 있습니다 이 커뮤니티에 대해 더 많이 듣게 될 것입니다 스칼라 구현을 생성했다 이걸 Scio라고합니다 그것은 Spotify에 의해 만들어졌습니다

그리고 다른 사람들은 지역 사회에서 논의하기 시작했습니다 관객 : 좋아요 라파엘 페르난데스 : 좋아 모두에게 감사드립니다 당신의 축제를 즐기십시오

[음악 재생]